-
Kling-Avatars: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis논문 정리 2026. 1. 7. 16:56

Abstract
최근 audio-driven avatar video generation 분야가 크게 발전하고 있다.
그러나 기존의 방법에서는 instruction conditioning을 단순히 audio나 visual cue에 의한 low-level으로 취급할 뿐, instruction이 전달하는 ‘의사소통 목적’을 모델링하지 않는다.
이러한 한계로 인해 일관성과 캐릭터 표현력이 크게 감소한다.
Kling-Avatar는 multimodal instruction understanding과 photorealistic portrait generation을 통합하는 novel cascaded framework이다.
본 파이프라인은 두 개의 스테이지로 구성된다:
- Multimodal Large Language Model (MLLM) director를 통해 다양한 instruction signal에 따른 blueprint video를 생성함으로써, 캐릭터의 모션과 감정과 같은 high-level semantics를 제공
- Blueprint keyframes에 가이드 되어, multiple sub-clips를 병렬적으로 생성하며, 각 clip은 first-last frame strategy를 적용한다.
이러한 global-to-local framework는 fine-grained한 디테일 뿐 아니라, multimodal instruction 뒤에 있는 high-level intent를 보존할 수 있게 된다.
제안하는 병렬적 아키텍처는 long-duration video를 빠르고 안정적으로 생성할 수 있게 하며, 이를 통해 다양한 어플리케이션에 적용 가능하다 (e.g., digital human livestreaming, vlog 등).
객관적으로 본 방법을 평가하기 위해, 다양한 instruction과 scenario가 담긴 375개의 curated 된 샘플을 설계했다.
Kling-Avatar는 생생하고, 유창하며, 긴 비디오와 다양한 해상도의 영상 생성까지 가능함을 보였으며, lip sync 정확도와 identity 보존, cross-domain generalization이 가능함을 실험을 통해 보였다.
Introduction
Avatar animation synthesis는 multimodal references를 시간적으로 일관된 표정, 입모양, 제스처 등으로 translate 하는 분야이다.
Communicative medium에서 speaking avatar는 high-fidelity로 intent, affect를 전달할 수 있어, 아이디어를 생생한 현실로 바꾸고, 사용자의 주의를 끌고 이해를 향상 시킬 수 있는 방법이다.
이러한 능력은 virtual assistants, education, media content creation, immersive telepresence와 같은 다양한 분야에 적용될 수 있다.
이러한 아바타를 만드는것은 realism, fine-grained controllability, reliable synchronization이 필요하며, 그것이 이 연구의 challenge이자 motivate이다.
최근 Video Diffusion Trnasformer (DiT)는 이미지, 음성, 프롬프트 등 멀티모달 신호를 기반으로 시각적으로 풍부한 콘텐츠를 생성하는 일반적인 패러다임으로 등장했다.
이전 연구들은 정확한 표정과 립싱크 성능, 제스처 생성, 데이터 스케일링 등을 통해 꾸준히 발전해왔다.
하지만, 이러한 발전에도 불구하고 아직 고도의 실제같은 영상 합성에 대해서는 불충분함이 존재하는데, 사용자들은 시스템이 듣고, 읽을 뿐 아니라 이 입력들을 모두 이해하여 자연스럽고 공감되는 비디오를 생성하기를 원하기 때문이다.
이러한 이해가 고려되지 않은 현존하는 approach들은 각 conditional signal을 독립적으로 바라볼 수 밖에 없고, 아주 얕은 일관성만을 포착하며, 이를 통해 의미적으로 충돌되는 결과를 제공하게 된다.
예를 들어, 한 아바타가 웃으면서 굉장히 슬픈 노래를 부르고 있는 영상을 만들 수 있는데, 이는 사람이 기대한 바와 충돌되는 시각적 결과가 생성되었다고 할 수 있다.
또한, 현존 접근법들은 비디오 연속성에 대해 motion frame에만 의존할 수 있는데, 이는 장기간 비디오 생성에 있어서 일관성과 안정성에 대해 큰 문제를 야기할 수 있는 부분이다.
이러한 gap을 해결하기 위해 본 논문에서는 novel cascaded framework인 Kling Avatar를 소개한다.
Kling avatar는 multimodal instruction을 충실하게 이행할 뿐 아니라 high quality, long duration의 avatar video를 합성할 수 있다.
MLLM의 multimodal instruction에 대한 이해와 생성 능력에 영감 받아, 우리는 multimodal instruction을 구조화된 스토리라인으로 통합하는 MLLM Director를 설계했다.
이 스토리라인은 high-level plans를 scene layout, camera positioning, character motion, implicit emotion, atmosphere 등으로 인코딩하여, 생성된 컨텐츠가 서사적으로 표현적으로 의도와 일치하도록 돕는다.
Blueprint video는 global script를 통해 생성되며, multiple sub-clip은 blueprint의 keyframe에 의해 병렬적으로 생성된다.
MLLM Director는 multimodal context에 의거하여 지속적으로 fine-grained한 guidance를 제공하며, 이는 local dynamics와 visual detail을 보장한다.
병렬적 생성을 통해 제안하는 cascaded framework는 빠르고 안정적으로 임의의 긴 비디오를 생성할 수 있다.
우리는 데이터 준비 과정에서 다양한 시나리오, 대화, 필름, 스피치를 포함하는 데이터를 수집했다.
데이터셋의 퀄리티를 보장하기 위해 다양한 전문 모델들을 적용하였다: mouth-clarity recognition, stage-cut detection, audio-lip synchronization, video quality scoring.
제안하는 방법을 평가하기 위해, 375개의 reference frame-audio pair를 포함하는 유니크한 벤치마크를 구성했다.
우리는 다양한 범주의 이미지, 여러 언어와 음성 속도에 걸친 오디오, 감정과 역동성을 명확하게 제어할 수 있는 텍스트 프롬프트를 포함하는 까다로운 instruction을 신중하게 설계한다.
해당 벤치마크는 객관적인 평가를 위해 설계되어 다양한 method들을 다중 차원으로 평가한다.
Kling-Avatar는 expressive, vivid, long-duration portrait animation, rich emotion and dynamics를 제공할 수 있으며, 동시에 open-domain scenarios에도 강한 생성력을 보여준다.
Table2에 따르면 OmniHuman-1 (2025), HeyGen (hey) 와 같은 강한 경쟁자들 사이에서 Kling Avatar가 립싱크, 시각퀄리티, 지시 조건에 따른 표현력, 아이덴티티 보존, 장기간 일관성 등의 방면에서 압도적인 성능을 가졌음을 보인다.
이로써 Kling-Avatar는 controllable, high-fidelity digital portrait animation synthesis에 대한 새로운 벤치마크가 될 것이다.
컨트리뷰선은다음과같다:
- MLLM Director with unified instruction grounding
- MLLM Director를 통해 multimodal instruction을 unified global plan으로 만들고, 이를 통해 portrait video generation이 low-level cues에서 semantic intent understanding까지 추적 가능하도록 했다.
- Cascaded avatar animation synthesis framework
- 우리는 high-level semantic guidance를 만들고, 이후 local dynamics를 정제하는 two-stage generation pipeline을 설계하여, long-duration video generation을 일관되고 표현력있도록 생성할 수 있었다.
- Curated data construction pipeline
- 우리는 데이터의 품질 컨트롤을 위해 Expert model을 활용한 data filtering pipeline을 개발하였으며, 추가로 challenging benchmark를 설계하여 digital human generation system의 객관적인 평가를 가능하게 했다.
- High-fidelity performance and strong generalization
- Kling-Avatar는 “일관+생생함+정확한립싱크+풍부한표정+multimodal instruction에 대한 정확한 반영+다양한 시나리오에 적용 가능함 이 담긴” SOTA portrait animation을 만든다
Method
이미지, 오디오, 텍스트 등의 컨디션이 주어질 때, Kling Avatar는 정확한 립싱크, 지시 이행, 장기간 생성이 가능한 유창하고 실제같은 portrait animation을 생성하기를 목표로 한다.
Figure 3 처럼, 제안하는 프레임워크는 두 단계의 생성 파이프라인으로 구성되며, 이들은 MLLM Director를 통해 가이드 받는다.
우선 첫 번째 세션에서는 instruction grounding and control을 위한 MLLM을 사용하게 된 동기와 구현 방법을 설명한다.
그런 다음 장시간 비디오 합성을 위한 계단식 생성 프레임워크(2.2절)를 소개하고 훈련 및 벤치마킹을 위한 데이터 구축에 대한 노력을 소개한다.
최종적으로, 학습과 추론을 주요 전략을 몇 가지 소개한다.
Grunding Multimodal Instructions with MLLMs
현존하는 digital human video generation method들은 sliding windows나 multi-scale injection 등의 conditioning strategy에 집중하여 input signal과 denoising diffusion process를 잘 정렬하고자 했다.
하지만 이런 alignment 방법은 일반적으로 modality 별로 수행되며, 음성 특징이나 픽셀 구조와 같은 local cue에 의존되어, 생성 과정에서 굉장히 얕은 fusion이 일어나게 된다.
이러한 패러다임이 그럴듯한 디테일을 가져오긴 하지만, 멀티모달 입력에 대한 효과가 약하고, 결과적으로 의미적인 충돌이 일어날 수 있다.
예를 들어, 입력이 화난 스피치를 포함하지만 텍스트에 어떠한 제약이 없다면 결과물에서 감정이 약하게 드러날 수 있다.
우리는 모델이 해당 멀티모달 지시들을 완전히 이해하게 하기 위해, MLLM에 영감을 받아, multimodal input을 공유된 semantic space로 통합하고, high-level control signal을 생성하는 global planning 생성 프로세스가 필요하다.
우리는 Qwen2.5-Omni를 통해 audio로부터 감정에 대한 transcription인 audio caption을 추출하였으며, Qwen2.5-VL을 통해 이미지에 대한 image caption을 추춢한다.
이 caption들은 user prompt와 함께 combine 된 후, MLLM Director로 처리되어, 일관된 storyline을 만들어낸다.
우리는 three-shot in-context learning manner를 사용하여 MLLM Director에게 storyline template를 명시하였다.
이 스토리라인은 user knowledge, audio, image reference에 우선시하여, character feature, background layout, action, visual style, camera planning, emotional shift와 같은 key elements를 제공한다.
이러한 elements들은 하나의 통합된 텍스트 프롬프트로 조직화된 후, blueprint video를 생성하기 위해 text cross-attention layer를 통해 video diffusion model에 주입된다.
Cascaded Generation for Long-Duration Generation
첫번째 스테이지에서 우리는 blueprint video를 생성하였다
해당 비디오는 유저의 의도에 의미적으로 일치하는 스토리라인을 포함한다.
블루프린트는 video sub-clip을 생성하기 위해, local dynamic과 visual details를 정제하는 두번째 스테이지에서 활용되어진다.
이를 위해, 비디오를 희망하는 수의 클립들로 균등하게 분할한다.
각 segmentation point들을 중심으로 아이덴티티의 일관성을 유지하고, 주요 모션을 보여주고, occlusion을 피하고, 표정이 풍부한 얼굴 디테일을 전달하는 고품질 프레임을 선택한다.
이 프레임들은 first-last-frame conditioned generation을 위한 anchor keyframe으로서 작동한다.
Sub-clip synthesis 과정에서 MLLM Director는 global storyline을 temporally localized semantic plan으로 나눈다.
이 localized narrative는 time-aligned audio conditioning과 결합되어, 생성된 시퀀스들에 대해 전반적으로 fine-grained한 guidance를 제공하여, expressive 일관성과 시각적 일관성을 보장한다.
Anchor frames와 실제 speech timing에 대한 misalignment를 피하기 위해 우리는 audio-conditioned interpolation strategy를 통해 transition frame들을 합성한다.
이는 음성과 프레임의 정확한 싱크, seamless, sub clip간의 시간적 일관성 등을 보장하게 한다.
clip 생성이 모두 독립적으로 일어나기 때문에 해당 파이프라인은 간단하게 병렬적으로 생성될 수 있다.
앵커 개수를 늘림으로써, 임의의 긴 비디오가 하나의 싱글 클립 생성과 거의 동일한 시간 내에 생성될 수 있다.
이렇게 first-last-frame conditioned generation을 포함한 cascaded framework는 long-duration video 생성에 유니크한 장점으로 강조될 수 있고, 여타 다른 어플리케이션에서도 사용하기에 용이하다.
Data Preparation
Training data
우리는 수천시간의 audio-visual content를 수집하였다. (공공데이터, 자가 수집 필름들, 음악 공연, …)
전체 비디오에 대해 오디오 추출과 캡셔닝이 조심스럽게 이루어졌다.
실험적으로 우리는 데이터 양보다 데이터 퀄리티가 최종 성능에 큰 영향을 미침을 알았다: 고품질 토크 세그먼트를 소량으로 확보하는 것이 롱테일 샘플로 데이터 세트를 무차별적으로 늘리는 것보다 더 효과적인 것으로 나타났습니다.
이를 위해, 우리는 데이터를 다방면으로 분리하고 필터링하기 위해 적절한 전문 모델들을 설계하였다:
- Lip-clarify filtering
- 고품질 대화형 영상의 입 영역을 합성적으로 교란하여 양성/음성 쌍을 생성합니다.
- Binary discriminator는 입술 영역의 선명도를 분류하고 시각적으로 모호하거나 모션 블러가 적용된 입술 움직임이 있는 영상을 필터링하도록 훈련됩니다.
- Temporal-continuity detection
- 수동으로 서로 다른 비디오 세그먼트를 결합하여 음성 샘플을 만들고, 기존 샘플 페어는 양성으로 만든다. 이후, temporal coherence discriminator가 PySceneDetect와 함께, 불연속적인 클립을 식별하고 제거한다.
- Audio-visual synchronization
- SyncNet을 적용하여 프레임 단위의 audio-visual synchronization confidence score를 평가하고, 임계값 이하의 경우 제거한다.
- Aesthetic quality assesment
- 기존의 aesthetic scoring methods를 적용하여 시각적 composition과 appeal을 평가한다. 비디오 캘리브레이션 퀄리티가 임게값 이하면 제거한다.
전문 모델들과 함께 데이터를 필터링 하고 나면 manual curation을 거쳐 수백시간의 고품질 데이터를 얻게 되며, 이는 신뢰할만한 학습 데이터가 된다.
Benchmark
객관적인 평가를 위해 375개 이미지-오디오-프롬프트 페어 데이터를 만들었다.
이는 아래 항목에 따라 조심스럽게 설계된 데이터다:
- Images
- 레퍼런스 이미지는 실제 비디오에서 혹은 AI generated content로부터 추출한다. 340개의 인간이, 다른 인종, 전신부터 반신까지 다양하게 존재하며, 35개의 non-human 케이스가 만화, 애니, 캐릭터로 이루어진다. 이미지 해상도는 수직 수평 정사각형 480p 1080p까지 다양하다
- Audio
- 오디오 트랙은 스피치나 노래를 포함한 실제 음성이 들어간다. 150개 중국어, 150개 영어, 35개 한국어, 40개 일본어 샘플로 이루어진다. 클립은 8초부터 2분까지 다양하다. 오디오는 다중 스피킹 레이트, 표현 스타일 등을 포함한 다양한 언어와 컨디션으로 우리어진다.
- Prompt
- 텍스트 프롬프트는 수동으로 작성되어 다양하고 명시적인 내용을 담는다. 감정 표현, 캐릭터 움직임, 카메라 움직임, 배경 움직임 등. 감정은 calm, excitement, confusion, sdaness, surprise, anger, 다중 강도 수준. 카메라는 pan, zoom 등의 동작이 있다. 액션은 turn, raising hand, head shake, gesture 등 다양하게 있다.
Training and Inference Strategy
Training Strategy
우리는 다양한 학습 전략을 통해 입 움직임과 스피치의 정렬을 강화했다.
첫째, sliding window scheme를 통해 audio feature를 audio cross-attention layer로 주입한다.
각 비디오 토큰은 시간적으로 정렬된 오디오 토큰에만 관여하게 되어 지역적 페이즈 일관성을 강화한다.
둘째, 우리는 DWPose를 적용하여 입 영역에 더 높은 가중치를 부여한다.
셋째, 학습 중에 비디오 프레임 주변의 빈 픽셀을 무작위로 패딩하여 이미지에서 얼굴의 비율을 줄인다. 이를 통해 모델이 얼굴이 작거나 멀리 있는 조건에서도 견고성을 유지할 수 있었다.
최종적으로, 기존 video generation model의 텍스트 controllability를 유지하고 audio-visual interaction을 결합하기 위해, text cross-attention layer를 freeze하여 base model이 talking head data에만 overfitting 되지 않게 방지한다.
종합적으로, 이러한 학습 전략은 lip sync 정확도를 늘리며 동시에 visual-audio alignment를 개선시킨다.
Inference Strategy
우리의 첫 번째-마지막 프레임 조건부 병렬 생성 프레임워크는 긴 비디오 연속을 위해 모션 프레임에 의존하는 기존 방법에서 일반적으로 발생하는 동일성 드리프트 문제를 완화합니다.
각 세그먼트 내에서 identity 일관성을 향상시키기 위해, 우리는 negative frame Classifier-Free Guidance mechanism을 적용한다.
통계 분석을 통해 우리는 identity drift 아티팩트가 일반적으로 texture distortion, blur, 과장된 contrast 및 saturation, color shift에서 나타난다는 것을 발견했습니다.
이를 방지하기 위해, 관찰된 패턴에 따라 참조 이미지를 수동으로 손상시켜 향상된 동일성 드리프트를 시뮬레이션합니다.
이렇게 저하된 이미지는 음의 CFG 신호로 사용되어 노이즈 제거 과정을 동일성 일관성을 유지하는 방향으로 유도합니다.
또한, 추론 과정에서 입 영역 마스킹에 사용할 수 있는 기준 프레임이 없으므로, 대신 오디오 교차 주의 값을 증가시켜 입술-청각 정렬을 강화합니다.
Experiments
Experimental Setting
Implementation Details
구현은 pretrained Video DiT를 기반으로 이루어진다.
우리는 이를 audio cross-attention layer와 함께 확장하여 audio-to-video generation을 서포트한다.
Audio feature는 Whisper encoder를 통해 추출되며, text conditioning은 T5 Encoder를 사용한다.
모델은 AdamW로 학습되며, lr은 1e-5로 적용한다.
학습 도중 프레임워크는 임의의 비디오 해상도 (480p~1080p)를 다루며, inference에서는 최대 1080p를 48fps로 뽑을수 있다.
Evaluation Metrics
우리는 선호도 기반의 평가 메트릭으로 사람의 semantic, aesthetic quality를 평가한다.
각 벤치마크에 대해 참여자들은 각각 Good, Same, Bad를 평가하여 본 모델과 베이스라인을 비교한다.
최종 GSB는 (G+S)/(B+S)를 주요 메트릭으로 사용한다.
GSB 값은 각각 Lip synchronization, Visual quality, Control response, Identity Consistency로 평가된다.
Experimental Results
Comparison with Baselines
Table 1은 GSB 평가를 OmniHuman-1, HeyGen과 비교한 결과이다.
각 언어에 대한 평가는 영어, 중국어, 영어+중국어로 제공하며, 한국어와 일본어는 상대적으로 적으므로 토탈 점수에만 포함한다.
'논문 정리' 카테고리의 다른 글