논문

[번역] 옴니휴먼(OmniHuman-1): 일체형 조건부 인간 애니메이션 모델의 스케일업에 관한 새로운 접근

바이트댄스 연구진이 발표한 옴니휴먼(OmniHuman)은 혼합 조건 훈련 전략을 활용한 디퓨전 트랜스포머 기반 프레임워크로, 텍스트, 음성, 포즈 등 다양한 동작 관련 조건을 통합하여 단일 이미지에서 사실적인 인물 영상을 생성하며, 얼굴 클로즈업부터 전신 영상까지 다양한 인물 콘텐츠와 대화, 노래, 사람-물체 상호작용까지 지원한다.

2025.02.14 | 조회 695 |
0
|
0xPlayer의 프로필 이미지

0xPlayer

-

그림 1. 입력 음성과 이미지를 기반으로 옴니휴먼(OmniHuman)이 생성한 비디오 프레임들. 생성된 결과물은 음성과 일치하는 머리 움직임, 제스처, 그리고 표정을 특징으로 합니다. 옴니휴먼은 옴니컨디션 훈련을 통한 데이터 확장으로, 모든 종횡비와 신체 비율에서 매우 사실적인 비디오를 생성하며, 기존 방법들과 비교해 제스처 생성과 물체 상호작용을 크게 개선했습니다.
그림 1. 입력 음성과 이미지를 기반으로 옴니휴먼(OmniHuman)이 생성한 비디오 프레임들. 생성된 결과물은 음성과 일치하는 머리 움직임, 제스처, 그리고 표정을 특징으로 합니다. 옴니휴먼은 옴니컨디션 훈련을 통한 데이터 확장으로, 모든 종횡비와 신체 비율에서 매우 사실적인 비디오를 생성하며, 기존 방법들과 비교해 제스처 생성과 물체 상호작용을 크게 개선했습니다.

초록

최근 수년간 음성 기반 인물 영상 생성을 비롯한 종단간 인간 애니메이션 분야는 눈부신 발전을 이루었습니다. 그러나 기존 방식들은 대규모 일반 비디오 생성 모델로의 확장에 여전히 한계를 보이고 있어, 실제 응용 가능성이 제한적입니다.

본 논문에서는 훈련 과정에서 동작 관련 조건들을 혼합하여 데이터를 확장하는 디퓨전 트랜스포머 기반의 프레임워크인 옴니휴먼을 제안합니다. 이를 위해 혼합 조건에 관한 두 가지 훈련 원칙과 이에 상응하는 모델 구조 및 추론 전략을 도입했습니다. 이러한 설계를 통해 옴니휴먼은 데이터 기반 동작 생성을 완벽히 활용하여 매우 사실적인 인물 영상 생성을 실현할 수 있습니다.

특히 주목할 점은 옴니휴먼이 다양한 인물 콘텐츠(얼굴 클로즈업, 인물 사진, 상반신, 전신)를 지원하고, 대화와 노래를 모두 처리하며, 사람-물체 상호작용과 난이도 높은 자세까지 구현할 수 있다는 것입니다. 또한 다양한 이미지 스타일도 수용 가능합니다. 기존의 종단간 음성 기반 방식들과 비교했을 때, 옴니휴먼은 더욱 사실적인 영상을 생성할 뿐만 아니라, 입력의 유연성도 향상되었습니다. 아울러 다양한 구동 방식(음성 기반, 영상 기반 및 복합 신호)을 지원합니다. 관련 영상 샘플들은 프로젝트 페이지에서 확인하실 수 있습니다.


1. 서론

디퓨전 트랜스포머(DiT) 기반 비디오 디퓨전 모델이 등장한 이후, 텍스트 투 비디오(Text-to-Video)와 이미지 투 비디오(Image-to-Video)를 포함한 일반 비디오 생성 분야는 사실적인 영상 콘텐츠 생성에서 큰 진전을 이루었습니다. 이러한 발전의 핵심 동력은 비디오-텍스트 쌍으로 구성된 대규모 훈련 데이터입니다. 훈련 데이터셋의 확장으로 DiT 네트워크는 다양한 물체와 장면에 대한 동작 사전 지식을 학습할 수 있게 되었고, 이는 추론 과정에서 강력한 일반화 능력으로 이어졌습니다.

이러한 사전 훈련된 비디오 디퓨전 네트워크를 기반으로, 포즈 기반 인간 애니메이션이나 음성 기반 대화형 인간 생성과 같은 종단간 인간 애니메이션 모델들이 지난해부터 급속도로 발전해왔습니다. 사실적인 결과를 달성했음에도 불구하고, 이러한 모델들은 학습 과정의 단순화를 위해 엄격하게 필터링된 데이터셋으로 훈련되어 제한된 시나리오에만 적용이 가능한 상태입니다. 예를 들어, 대다수의 기존 종단간 음성 조건부 모델들은 얼굴이나 인물 사진 애니메이션에만 국한되어 있으며, 대부분의 포즈 조건부 모델들은 정적 배경에서 정면으로 촬영된 전신 이미지만을 처리할 수 있습니다.

지금까지 더 보편적인 인간 애니메이션을 위한 훈련 데이터 확장 시도는 없었습니다. 인간 애니메이션 데이터의 확장이 단순해 보일 수 있으나, 실제로는 그렇지 않습니다. 단순한 데이터 추가가 네트워크 훈련에 항상 긍정적인 것은 아닙니다. 음성 조건부 모델의 경우, 음성은 주로 표정과 연관되어 있으며 신체 포즈, 배경 움직임, 카메라 움직임, 조명 변화 등과는 연관성이 미미합니다.

따라서 이러한 무관한 요소들의 영향을 최소화하기 위해 원본 훈련 데이터는 필터링과 편집 과정을 거쳐야 합니다. 또한 음성 조건부 모델들은 훈련의 안정성을 위해 입 모양 동기화 정확도를 기준으로 추가적인 데이터 정제 과정을 거칩니다. 포즈 조건부 모델들 역시 광범위한 필터링, 편집, 정제 과정이 필요합니다. 안타깝게도 이 과정에서 상당량의 데이터가 손실되며, 버려지는 데이터의 상당 부분이 데이터 확장에 필수적인 귀중한 동작 패턴을 포함하고 있어 데이터셋 확장 노력이 무의미해지고 있습니다.

본 논문에서는 인간 애니메이션 데이터와 모델의 스케일업 문제를 다룹니다. 우리의 핵심 통찰은 훈련 과정에서 텍스트, 음성, 포즈와 같은 다양한 조건부 신호를 통합하면 데이터 손실을 크게 줄일 수 있다는 것입니다. 이러한 접근 방식은 두 가지 주요 이점을 제공합니다. 우선, 단일 조건 모델에서 버려질 수 있는 데이터를 텍스트 조건과 같은 더 유연하거나 일반적인 조건을 가진 작업에 활용할 수 있습니다. 이를 통해 모델은 더 다양한 동작 패턴을 학습할 수 있어 데이터 필터링으로 인한 제약을 완화할 수 있습니다.

또한, 서로 다른 조건부 신호들이 상호 보완적 역할을 할 수 있습니다. 예를 들어, 음성만으로는 신체 포즈를 정확하게 제어할 수 없지만, 포즈 입력과 같은 더 강력한 조건이 추가적인 지침을 제공할 수 있습니다. 훈련 과정에서 음성 데이터와 함께 더 강력한 조건부 신호를 통합함으로써, 과적합을 줄이고 생성된 결과의 일반화를 개선하고자 합니다.

이러한 고려사항들을 토대로, 우리는 두 가지 훈련 원칙을 따르는 옴니컨디션 훈련 전략을 설계했습니다. 첫째, 더 강력한 조건부 작업은 더 약한 조건부 작업과 그에 해당하는 데이터를 활용하여 모델 훈련 과정에서 데이터 스케일업을 달성할 수 있으며, 둘째, 조건이 강할수록 더 낮은 훈련 비율을 적용해야 합니다.

이 전략을 구현하기 위해, 우리는 최신 비디오 생성 모델 아키텍처인 DiT를 기반으로 한 혼합 조건부 인간 비디오 생성 모델인 옴니휴먼(OmniHuman)을 구축했습니다. 옴니휴먼은 약한 것부터 강한 것까지 세 가지 동작 관련 조건(텍스트, 음성, 포즈)으로 훈련할 수 있습니다. 이러한 접근 방식은 종단간 프레임워크의 데이터 스케일업 과제를 해결하여, 모델이 대규모 데이터 훈련의 이점을 얻고, 자연스러운 동작 패턴을 학습하며, 다양한 입력 형태를 지원할 수 있게 합니다.

전반적으로, 우리의 주요 기여는 다음과 같습니다:

  1. 혼합 조건부 인간 비디오 생성 모델인 옴니휴먼을 제안합니다. 이 모델은 우리의 옴니컨디션 훈련 전략을 활용하여 다양한 동작 관련 조건과 해당 데이터를 통합합니다. 엄격한 필터링으로 인해 데이터를 제한하는 기존 방법들과 달리, 우리의 접근 방식은 대규모 혼합 조건부 데이터의 장점을 최대한 활용합니다.
  2. 옴니휴먼은 매우 사실적이고 생동감 있는 인간 동작 비디오를 생성하며, 여러 모달리티를 동시에 지원합니다. 다양한 인물 사진과 입력 종횡비에서 우수한 성능을 보입니다. 옴니휴먼은 이전의 종단간 모델들이 어려움을 겪었던 제스처 생성을 크게 개선하고 다양한 이미지 스타일을 지원하여, 기존의 음성 조건부 인간 비디오 생성 방법들을 크게 앞서고 있습니다.

2. 관련 연구

2.1. 비디오 생성

최근 몇 년간 디퓨전 모델과 같은 기술의 출현으로 생성 모델의 성능이 실용적인 수준으로 발전했습니다. 이미지 생성 분야의 최신 발전은 실제와 거의 구분할 수 없는 결과물을 만들어내고 있습니다. 이에 따라 점점 더 많은 연구가 비디오 생성 분야로 초점을 옮기고 있습니다.

초기 텍스트 투 비디오 연구들은 주로 사전 훈련된 텍스트 투 이미지 모델의 훈련 없는 적응 또는 제한된 비디오 데이터셋에서의 미세 조정을 통한 시간적 레이어 통합에 중점을 두었습니다. 하지만 광범위한 데이터의 부족으로 인해 이러한 방법들의 비디오 생성 품질은 종종 만족스럽지 못했습니다.

스케일링 법칙을 더 잘 활용하고 비디오 생성 모델의 한계를 넓히기 위해, 최근의 연구들은 세 가지 주요 영역에서 최적화를 이루었습니다. 첫째, 데이터 양이 고해상도 비디오 클립까지 증가한 더 큰 규모의 고품질 비디오 데이터셋을 수집했습니다. 둘째, 3D Causal VAE를 사용하여 비디오 데이터의 공간적, 시간적 특징을 모두 압축함으로써 비디오 모델링 효율성을 향상시켰습니다. 셋째, 기본 모델 구조가 유넷(UNet)에서 트랜스포머로 전환되어 모델의 확장성이 개선되었습니다.

추가적으로, 이러한 연구들은 모델의 잠재력을 최대화하기 위해 세심하게 설계된 점진적 훈련 방식과 데이터셋을 활용합니다. 예를 들어, 일부 연구는 먼저 대량의 저해상도 이미지와 비디오로 사전 훈련을 수행하여 데이터 다양성을 활용해 모델의 일반화 능력을 향상시킵니다. 그런 다음 고해상도, 고품질 데이터의 부분집합에서 미세 조정을 수행하여 생성된 비디오의 시각적 품질을 개선합니다.

대규모 데이터는 일반 비디오 생성의 효과성을 크게 개선했습니다. 하지만 인간 애니메이션 합성 분야의 발전은 상대적으로 더딘 상태입니다.

2.2. 휴먼 애니메이션

비디오 생성의 중요한 과제로서, 인간 애니메이션은 인물 이미지와 음성이나 비디오와 같은 구동 조건을 사용하여 인간 비디오를 합성합니다. 초기 GAN 기반 방법들은 일반적으로 자기 지도 방식으로 비디오 구동을 달성하기 위해 수만 개의 비디오로 구성된 작은 데이터셋을 사용했습니다.

디퓨전 모델의 발전으로, 여러 관련 연구들이 비슷한 규모의 데이터셋을 사용하면서도 GAN 기반 방법들의 성능을 뛰어넘었습니다. 이러한 방법들은 픽셀 수준의 비디오 대신 2D 골격, 3D 깊이, 또는 3D 메시 시퀀스를 구동 조건으로 사용합니다.

음성 구동 방법들은 과거에 인물 사진에 집중했습니다. 전신으로 프레임을 확장하려는 일부 노력에도 불구하고, 특히 손 품질에서 여전히 과제가 남아있습니다. 이를 우회하기 위해, 대부분의 접근 방식은 손 생성을 돕기 위한 강력한 조건으로 제스처 시퀀스를 활용하는 2단계 하이브리드 구동 전략을 채택합니다. 사이버호스트(CyberHost)는 코드북 설계를 통해 일단계 음성 구동 말하는 신체 생성을 달성하고자 시도합니다.

특히 주목할 만한 점은, 기존 인간 애니메이션 방법들이 일반적으로 천 시간 미만이고 2B 미만인 제한된 규모의 데이터셋과 제한된 복잡성의 구조에 집중한다는 것입니다. 파다(FADA)가 1.4K 시간의 인물 사진 비디오를 활용하기 위해 준지도 데이터 전략을 사용하고, 브이로거(VLogger)가 2.2K 시간의 상반신 비디오를 세심하게 수집하며, 할로3(Hallo3)가 CogVideoX5B-I2V에서 파생된 가중치로 초기화함에도 불구하고, 이들의 성능은 LLM, VLM, T2I/T2V와 같은 다른 과제들에서 관찰되는 스케일링 법칙 경향을 보여주지 않습니다. 인간 애니메이션에서의 스케일링 효과는 아직 효과적으로 연구되지 않았습니다.


3. 방법론

이 섹션에서는 네트워크 훈련 중 동작 관련 조건을 혼합하여 훈련 데이터를 확장하는 프레임워크인 옴니휴먼(OmniHuman)을 소개합니다. 먼저 프레임워크의 전반적인 개요를 제공하며, 여기에는 입력, 출력 및 주요 설계 요소가 포함됩니다. 다음으로 음성, 포즈, 참조 조건을 포함하는 옴니컨디션 설계를 살펴봅니다. 이어서 옴니휴먼의 훈련 전략을 자세히 설명하는데, 이는 혼합 데이터 훈련을 위해 이러한 옴니컨디션을 활용하여 모델이 대규모 데이터셋에서 자연스러운 동작을 학습할 수 있게 합니다. 마지막으로 옴니휴먼 모델의 추론 단계에 대한 구현 세부사항을 다룹니다.

3.1. 개요

그림 2와 같이, 우리의 접근 방식은 두 가지 주요 요소로 구성됩니다: 다중 조건 디퓨전 모델인 옴니휴먼 모델과 옴니컨디션 훈련 전략입니다. 옴니휴먼 모델은 MMDiT를 사용하며, 텍스트 투 비디오와 텍스트 투 이미지 작업을 위해 일반 텍스트-비디오 쌍으로 초기 훈련된 시위드(Seaweed) 모델에서 시작합니다.

참조 이미지가 주어지면, 옴니휴먼 모델은 텍스트, 음성, 포즈를 포함한 하나 이상의 구동 신호를 사용하여 인간 비디오를 생성하는 것을 목표로 합니다. 이를 위해 프레임 수준의 음성 특징과 포즈 히트맵 특징을 옴니휴먼 모델에 통합하기 위한 다양한 전략을 활용합니다. 상세한 절차는 다음 하위 섹션에서 설명됩니다.

옴니휴먼 모델은 causal 3DVAE를 활용하여 원본 크기의 비디오를 잠재 공간으로 투영하고, 비디오 디노이징 과정을 학습하기 위한 훈련 목표로 flow matching을 사용합니다. 우리는 일반 텍스트 투 비디오 모델에서 다중 조건 인간 비디오 생성 모델로 디퓨전 모델을 점진적으로 변환하기 위해 3단계 혼합 조건 후처리 훈련 방식을 사용합니다. 그림 2의 왼쪽에 묘사된 것처럼, 이러한 단계들은 동작 상관관계 강도에 따라 약한 것에서 강한 순서로 텍스트, 음성, 포즈의 구동 모달리티를 순차적으로 도입하고 그들의 훈련 비율을 조절합니다.

3.2. 옴니컨디션 설계

구동 조건. 우리는 음성과 포즈 조건을 주입하기 위해 서로 다른 접근 방식을 채택했습니다. 음성 조건의 경우, 웨이브투벡(wav2vec) 모델을 사용하여 음향 특징을 추출하고, 이를 MMDiT의 은닉 크기에 맞추기 위해 MLP를 사용하여 압축합니다. 각 프레임의 특징은 현재 프레임의 음성 토큰을 생성하기 위해 인접한 타임스탬프의 음성 특징과 결합됩니다.

그림 2에서 보듯이, 이러한 음성 토큰들은 교차 주의를 통해 MMDiT의 각 블록에 주입되어 음성 토큰과 노이즈가 있는 잠재 표현 사이의 상호작용을 가능하게 합니다. 포즈 조건을 통합하기 위해, 우리는 구동 포즈 히트맵 시퀀스를 인코딩하기 위해 포즈 가이더를 사용합니다. 결과로 얻어진 포즈 특징들은 포즈 토큰을 얻기 위해 인접한 프레임의 특징들과 결합됩니다. 이러한 포즈 토큰들은 시각적 정렬과 동적 모델링을 위해 통합된 다중 조건 디퓨전 모델에 입력되도록 채널 차원을 따라 노이즈 잠재와 통합됩니다. 텍스트 조건은 MMDiT 텍스트 분기에서와 동일하게 유지됩니다.

그림 2. 옴니휴먼의 프레임워크. 이는 두 가지 주요 구성 요소로 이루어집니다: (1) DiT 아키텍처를 기반으로 하며 텍스트, 이미지, 음성, 포즈를 포함한 여러 모달리티의 동시 조건화를 지원하는 옴니휴먼 모델
그림 2. 옴니휴먼의 프레임워크. 이는 두 가지 주요 구성 요소로 이루어집니다: (1) DiT 아키텍처를 기반으로 하며 텍스트, 이미지, 음성, 포즈를 포함한 여러 모달리티의 동시 조건화를 지원하는 옴니휴먼 모델
(2) 조건들의 동작 연관성 정도에 기반한 점진적, 다단계 훈련을 활용하는 옴니컨디션 훈련 전략. 혼합 조건 훈련을 통해 옴니휴먼 모델은 혼합 데이터의 스케일업 효과를 극대화할 수 있습니다.
(2) 조건들의 동작 연관성 정도에 기반한 점진적, 다단계 훈련을 활용하는 옴니컨디션 훈련 전략. 혼합 조건 훈련을 통해 옴니휴먼 모델은 혼합 데이터의 스케일업 효과를 극대화할 수 있습니다.

외관 조건. 옴니휴먼의 목표는 참조 이미지에서 대상의 정체성과 배경 세부사항을 모두 보존하는 비디오 출력을 생성하는 것입니다. 이를 위해 이전 연구에서는 디노이징 과정에 외관 표현을 주입하기 위한 다양한 전략을 제시했습니다.

가장 널리 사용되는 방식은 참조 네트워크를 활용하는 것입니다. 이는 원본 디노이징 넷의 자기 주의 레이어와 통합되는 전체 디퓨전 유넷(UNet) 또는 DiT의 병렬적이고 훈련 가능한 복사본입니다. 디노이징 과정에 외관 특징을 전달하는 데 효과적이지만, 이 방법은 전체 훈련 가능한 매개변수 세트를 복제해야 하므로 모델 크기가 커질수록 확장성에 제약이 따릅니다.

이 문제를 해결하기 위해 옴니휴먼은 참조 조건화를 위한 간단하면서도 효과적인 전략을 도입합니다. 추가적인 네트워크 모듈을 구축하는 대신, 우리는 참조 이미지를 인코딩하기 위해 원본 디노이징 DiT 백본을 재활용합니다. 구체적으로, 참조 이미지는 먼저 VAE를 사용하여 잠재 표현으로 인코딩되고, 참조와 노이즈가 있는 비디오 잠재 모두 토큰 시퀀스로 변환됩니다. 이러한 시퀀스들은 함께 통합되어 DiT에 입력되며, 이를 통해 참조와 비디오 토큰이 전체 네트워크에 걸쳐 자기 주의를 통해 상호작용할 수 있게 됩니다.

네트워크가 참조와 비디오 토큰을 구별하도록 돕기 위해, DiT의 3D 회전 위치 임베딩(RoPE)을 수정하여 참조 토큰의 시간적 구성요소를 0으로 설정하고, 비디오 토큰의 RoPE는 그대로 유지합니다. 이 방식은 추가 매개변수 없이 외관 조건화를 효과적으로 통합합니다. 참조 이미지 외에도, 긴 비디오 생성을 지원하기 위해 이전 방법들을 활용하여 모션 프레임을 사용하고, 그 특징들을 노이즈 특징과 결합합니다.

이러한 조건들을 도입한 후, 동작 관련 조건들은 이제 텍스트, 참조 이미지, 음성, 포즈를 포함합니다. 텍스트는 현재 이벤트를 설명하고, 참조 이미지는 동작의 범위를 정의하며, 음성은 발화 제스처의 리듬을 결정하고, 포즈는 정확한 동작을 지정합니다. 인간의 동작과의 연관성 강도는 이 순서대로 감소하는 것으로 볼 수 있습니다.

3.3. 옴니컨디션 훈련을 통한 스케일업

다중 조건 설계 덕분에, 우리는 모델 훈련을 여러 단계로 나눌 수 있습니다: 이미지와 텍스트에서 비디오로, 이미지와 텍스트, 음성에서 비디오로, 그리고 이미지와 텍스트, 음성, 포즈에서 비디오로의 변환 등입니다. 훈련 과정에서는 서로 다른 데이터에 대해 각기 다른 모달리티가 활성화되어, 더 폭넓은 데이터가 훈련에 참여하고 모델의 생성 능력을 향상시킬 수 있습니다. 일반적인 텍스트 투 비디오 사전 훈련 단계 이후, 우리는 조건부 인간 비디오 생성 작업의 스케일업을 위해 두 가지 훈련 원칙을 따릅니다.

원칙 1: 강한 조건부 작업은 약한 조건부 작업과 그에 해당하는 데이터를 활용하여 모델 훈련 과정에서 데이터 확장을 이룰 수 있습니다. 입술 동기화 정확도, 포즈 가시성, 안정성 등의 필터링 기준으로 인해 음성 및 포즈 조건부 작업에서 제외된 데이터도 더 완화된 조건의 기준은 충족하므로 텍스트 및 이미지 조건부 작업에 활용될 수 있습니다. 따라서 첫 단계에서는 음성과 포즈 조건을 제외합니다.

원칙 2: 조건이 강할수록 더 낮은 훈련 비율을 적용해야 합니다. 훈련 과정에서 포즈와 같은 강한 동작 관련 조건이 음성과 같은 약한 조건보다 모호성이 적어 일반적으로 더 효과적으로 훈련됩니다. 두 조건이 동시에 존재할 때, 모델은 동작 생성을 위해 강한 조건에 의존하는 경향이 있어 약한 조건의 효과적인 학습을 저해할 수 있습니다.

이에 따라 우리는 약한 조건이 강한 조건보다 더 높은 훈련 비율을 갖도록 설계했습니다. 2단계에서는 포즈 조건만 제외하고, 최종 3단계에서는 모든 조건을 사용합니다. 또한 텍스트, 참조, 음성, 포즈에 대한 훈련 비율을 단계적으로 절반씩 감소시킵니다. 이러한 접근은 더 어려운 작업에 더 높은 그래디언트 가중치를 부여하고 중첩된 조건 훈련 중 단일 조건에 과적합되는 것을 방지합니다.

원칙 1은 훈련 데이터의 대폭적인 확장을 가능하게 하고, 원칙 2는 혼합 조건 훈련 중에 모델이 각 동작 관련 조건의 장점을 최대한 활용하고 동작 생성 능력을 학습하도록 보장합니다. 이 두 원칙을 결합함으로써, 옴니휴먼은 혼합 조건부 데이터로 효과적으로 훈련할 수 있어 데이터 확장의 이점을 얻고 우수한 결과를 달성할 수 있습니다.

3.4. 추론 전략

음성 구동 시나리오에서는 포즈를 제외한 모든 조건이 활성화됩니다. 포즈 관련 조합의 경우 모든 조건이 활성화되지만, 포즈만으로 구동할 때는 음성이 비활성화됩니다. 일반적으로 조건이 활성화되면, 불필요한 경우를 제외하고 더 낮은 동작 관련 영향력을 가진 모든 조건도 함께 활성화됩니다.

추론 과정에서는 표현력과 계산 효율성의 균형을 위해 여러 조건에 걸쳐 음성과 텍스트에 특별히 분류자 없는 가이던스(classifier-free guidance, CFG)를 적용합니다. 그러나 CFG가 증가하면 캐릭터에 주름이 두드러지게 나타나고, CFG가 감소하면 입술 동기화와 동작 표현력이 저하되는 현상이 관찰되었습니다.

이러한 문제를 해결하기 위해, 우리는 추론 과정 전반에 걸쳐 CFG 크기를 점진적으로 감소시키는 CFG 어닐링 전략을 제안하여, 표현력을 유지하면서도 주름의 출현을 최소화합니다. 옴니휴먼은 제공된 참조 이미지와 다양한 구동 신호를 기반으로 메모리 제약 내에서 임의 길이의 비디오 세그먼트를 생성할 수 있습니다. 긴 비디오에서 시간적 일관성과 정체성 일관성을 보장하기 위해 이전 세그먼트의 마지막 5개 프레임이 모션 프레임으로 활용됩니다.


4. 실험

4.1. 구현 세부사항

데이터셋. 미학, 이미지 품질, 동작 진폭 등 비디오 생성을 위한 일반적인 기준으로 필터링하여 훈련용 18.7K 시간의 인간 관련 데이터를 확보했습니다. 이 중 13%는 립싱크와 포즈 가시성 기준을 통해 선별되어 음성과 포즈 모달리티에 활용되었습니다. 훈련 과정에서는 옴니컨디션 훈련 전략에 맞춰 데이터 구성을 조정했습니다.

테스트를 위해, 우리는 인물 애니메이션 방법 루피(Loopy)와 상반신 애니메이션 방법 사이버호스트(CyberHost)의 평가 방식을 따랐습니다. 인물 애니메이션 테스트셋으로는 다양한 혼합 장면이 포함된 셀레브브이-에이치큐(CelebV-HQ)와 말하기와 노래를 포함하는 실내 데이터셋인 라브데스(RAVDESS)에서 무작위로 100개의 비디오를 추출했습니다. 상반신 애니메이션을 위해서는 사이버호스트의 테스트셋을 활용했는데, 이는 서로 다른 인종, 연령, 성별, 초기 포즈를 포함하는 119개의 정체성을 가진 총 269개의 신체 비디오로 구성되어 있습니다.

기준선. 옴니휴먼의 다양한 시나리오 성능을 종합적으로 평가하기 위해, 새드토커(Sadtalker), 할로(Hallo), 벡스프레스(Vexpress), 에코미믹(EchoMimic), 루피(Loopy), 할로-3(Hallo-3)를 포함하는 인물 애니메이션 기준선과 디프테드(DiffTED), 디프제스트(DiffGest) + 미믹션(Mimiction), 사이버호스트(CyberHost)를 포함하는 신체 애니메이션 기준선과 비교합니다.

평가 지표. 시각적 품질 평가를 위해 FID와 FVD를 사용하여 생성된 이미지 및 비디오와 레이블된 이미지 및 비디오 간의 거리를 측정했습니다. 또한 참조 없는 이미지 품질(IQA)과 시각적 아름다움(ASE) 평가를 위해 VLM 기반의 큐얼라인(q-align)을 활용했습니다. 입술 동기화 평가를 위해서는 널리 사용되는 싱크-씨(Sync-C)를 사용하여 시각적 내용과 음성 내용 간의 신뢰도를 계산했습니다. 추가로 손 품질과 동작 풍부성을 각각 평가하기 위해 손 키포인트 신뢰도(HKC)와 손 키포인트 분산(HKV)을 활용했습니다.

표 1. 음성 조건부 인물 애니메이션 기준선과의 정량적 비교
표 1. 음성 조건부 인물 애니메이션 기준선과의 정량적 비교
표 2. 음성 조건부 신체 애니메이션 기준선과의 정량적 비교
표 2. 음성 조건부 신체 애니메이션 기준선과의 정량적 비교
표 3. 음성 조건에 대한 서로 다른 훈련 비율의 주관적 비교
표 3. 음성 조건에 대한 서로 다른 훈련 비율의 주관적 비교

4.2. 기존 방법들과의 비교

표 1과 2에서 보듯이, 옴니휴먼은 단일 모델로 인물과 신체 애니메이션 작업 모두에서 선도적인 전문 모델들을 뛰어넘는 성능을 보여줍니다. 음성 구동 애니메이션의 경우, 특히 참조 이미지가 머리만 포함할 때는 생성된 결과가 원본 비디오와 완전히 일치할 수는 없습니다. 또한 서로 다른 시나리오에서 모델의 동작 스타일에 대한 선호도가 다양하기 때문에 단일 평가 지표만으로는 성능을 정확히 측정하기 어렵습니다.

데이터셋 전반에 걸친 평가 지표 평균을 통해, 옴니휴먼은 모든 평가 지표에서 최고의 결과를 달성하며 전반적인 우수성을 입증했습니다. 특히 기존 방법들이 고정된 입력 크기와 비율로 특정 신체 비율(인물사진, 상반신)에 대해 단일 모델을 사용하는 반면, 옴니휴먼은 단일 모델로 다양한 입력 크기, 비율 및 신체 비율을 지원하면서도 우수한 결과를 달성합니다. 이러한 강점은 혼합 데이터 훈련 과정에서 다양한 콘텐츠와 크기의 대규모 데이터로부터 학습하는 옴니컨디션 훈련에서 비롯됩니다.

4.3. 옴니컨디션 훈련에 대한 절제 연구

이 절에서는 주로 옴니휴먼의 옴니컨디션 훈련의 원칙 1과 2를 분석하고 설명합니다. 첫 번째 원칙에 대해, 우리는 음성과 포즈 애니메이션 요구사항을 충족하는 데이터만 사용하는 훈련(100% 음성 훈련 비율)과 더 약한 조건(텍스트)을 위한 훈련 데이터를 비교했습니다.

실험 결과는 이 두 데이터 부분의 비율이 최종 성능에 상당한 영향을 미친다는 것을 보여줍니다. 그림 3의 시각화에서 볼 수 있듯이, 음성 조건 특정 데이터 훈련의 높은 비율은 동적 범위를 제한하고 복잡한 입력 이미지에서 실패할 수 있습니다. 50% 비율로 더 약한 조건 데이터를 포함하면 정확한 입술 동기화와 자연스러운 동작과 같은 만족스러운 결과를 얻을 수 있습니다. 다만 약한 조건 데이터가 과도하면 훈련을 저해하여 음성과의 상관관계가 악화될 수 있습니다.

우리는 또한 훈련 중 이 두 데이터 유형의 최적 혼합을 결정하기 위해 주관적 평가를 수행했습니다. 구체적으로, 20명의 피험자와 함께 블라인드 평가를 실시하여 다양한 측면에서 샘플들을 비교하고 가장 만족스러운 것을 선택하도록 했으며, 기권 옵션도 제공했습니다. 총 50개의 다양한 시나리오를 묘사하는 샘플이 평가되었으며, 표 3의 결과는 시각화에서 도출된 결론과 일치했습니다.

두 번째 원칙도 원칙 1 실험과 함께 검증될 수 있지만, 우리는 추가로 포즈 조건 비율의 영향을 연구하기 위해 다른 포즈 조건 비율을 적용한 실험을 수행했습니다. 시각적 비교 결과는 그림 4와 5에 제시되어 있습니다.

모델이 낮은 포즈 조건 비율로 훈련되고 음성 조건만으로 테스트될 때, 그림 5의 상단 행의 모션 블러 효과와 그림 4의 상단 행의 부정확한 손가락 표현에서 볼 수 있듯이 강렬하고 빈번한 발화 제스처를 생성하는 경향이 있습니다. 반면 높은 포즈 비율로 모델을 훈련하면, 모델은 생성된 비디오의 인간 포즈를 결정할 때 포즈 조건에 더 의존하게 됩니다. 그 결과, 입력 음성이 유일한 구동 신호로 주어질 때, 생성된 결과는 그림 4와 5의 하단 행처럼 비슷한 포즈를 유지하는 경향을 보입니다. 이러한 분석을 바탕으로 최종 훈련 구성에서 포즈 비율을 50%로 설정했습니다.

단계 2와 단계 3에서 새로운 구동 모달리티의 훈련 비율을 분석하는 것 외에도, 외관 조건의 훈련 비율 역시 중요한 요소입니다. 우리는 30초 비디오 생성에서 참조 이미지 비율의 영향을 두 가지 실험으로 조사했습니다: (1) 참조 이미지 비율을 텍스트 주입 비율보다 낮지만 음성보다 높은 70%로 설정; (2) 참조 이미지 비율을 음성과 텍스트 주입 비율보다 낮은 30%로 설정.

비교 결과는 그림 6에 나와 있으며, 더 낮은 참조 비율은 배경의 노이즈 증가와 색상 변화로 인한 오류가 더 뚜렷하게 축적되어 성능이 저하되는 것을 보여줍니다. 반대로, 더 높은 참조 비율은 생성된 출력이 원본 이미지의 품질과 세부사항을 더 잘 유지하도록 합니다. 이는 참조 이미지 훈련 비율이 음성보다 낮을 때, 음성이 비디오 생성을 주도하여 참조 이미지의 정체성 정보를 유지하기 어려워지는 현상으로 설명될 수 있습니다.

그림 3. 음성 조건 비율에 따른 절제 연구. 서로 다른 음성 비율(상단: 10%, 중간: 50%, 하단: 100%)로 훈련된 모델들을 동일한 입력 이미지와 음성으로 테스트한 결과입니다.
그림 3. 음성 조건 비율에 따른 절제 연구. 서로 다른 음성 비율(상단: 10%, 중간: 50%, 하단: 100%)로 훈련된 모델들을 동일한 입력 이미지와 음성으로 테스트한 결과입니다.
그림 4. 포즈 조건 비율에 따른 절제 연구. 서로 다른 포즈 비율(상단: 20%, 중간: 50%, 하단: 80%)로 훈련된 모델들을 동일한 입력 이미지와 음성으로 테스트한 결과입니다.
그림 4. 포즈 조건 비율에 따른 절제 연구. 서로 다른 포즈 비율(상단: 20%, 중간: 50%, 하단: 80%)로 훈련된 모델들을 동일한 입력 이미지와 음성으로 테스트한 결과입니다.
그림 5. 포즈 조건 비율에 따른 절제 연구. 서로 다른 포즈 비율(상단: 20%, 중간: 50%, 하단: 80%)로 훈련된 모델들을 동일한 입력 이미지와 음성으로 테스트한 결과입니다.
그림 5. 포즈 조건 비율에 따른 절제 연구. 서로 다른 포즈 비율(상단: 20%, 중간: 50%, 하단: 80%)로 훈련된 모델들을 동일한 입력 이미지와 음성으로 테스트한 결과입니다.
그림 6. 참조 조건 비율에 따른 절제 연구. 서로 다른 참조 비율에서 생성된 30초 비디오의 비교 결과입니다.
그림 6. 참조 조건 비율에 따른 절제 연구. 서로 다른 참조 비율에서 생성된 30초 비디오의 비교 결과입니다.
그림 7. 입력 음성과 이미지를 기반으로 옴니휴먼이 생성한 비디오들. 옴니휴먼은 3D 인간형 캐릭터와 2D 만화 캐릭터를 자연스럽게 처리할 수 있으며, 비인간 이미지도 의인화하여 애니메이션으로 표현할 수 있습니다.
그림 7. 입력 음성과 이미지를 기반으로 옴니휴먼이 생성한 비디오들. 옴니휴먼은 3D 인간형 캐릭터와 2D 만화 캐릭터를 자연스럽게 처리할 수 있으며, 비인간 이미지도 의인화하여 애니메이션으로 표현할 수 있습니다.

4.4. 확장된 시각적 결과

그림 7, 그림 8, 그림 9에서, 우리는 단순한 평가 지표나 기존 방법들과의 비교만으로는 포착하기 어려운 인간 애니메이션에서의 옴니휴먼(OmniHuman)의 뛰어난 성능을 보여주기 위해 더 다양한 시각적 결과를 제시합니다. 옴니휴먼은 다양한 입력 이미지와 호환되며, 애니메이션의 특징적인 입 움직임을 보존하는 것처럼 입력의 동작 스타일을 잘 유지합니다.

또한 다양한 악기 연주와 노래하는 비디오 생성, 물체를 들고 있을 때의 자연스러운 제스처 생성 등 물체와의 상호작용에서도 우수한 성능을 보입니다. 훈련 과정에서 포즈 조건과의 호환성을 갖춘 덕분에, 옴니휴먼은 포즈 구동 비디오 생성이나 포즈와 음성을 함께 활용한 구동 생성도 가능합니다. 더 많은 비디오 샘플은 우리의 프로젝트 페이지에서 확인할 수 있습니다(적극 추천).


5. 결론

우리는 단일 이미지와 동작 신호(음성, 비디오 또는 둘 다)를 기반으로 인간 비디오를 생성하는 종단간 다중 모달리티 조건부 인간 비디오 생성 프레임워크인 옴니휴먼을 제안합니다. 옴니휴먼은 다중 모달리티 동작 조건화와 혼합 데이터 훈련 전략을 통해, 혼합 데이터의 확장성을 활용하여 이전 방법들이 직면했던 고품질 데이터 부족 문제를 해결합니다.

특히 음성과 같은 약한 신호로도 매우 사실적인 인간 비디오를 생성하여 기존 접근 방식들을 크게 앞섭니다. 또한 모든 종횡비의 이미지(인물 사진, 상반신 또는 전신)를 지원하여 다양한 상황에서 생동감 있고 고품질의 결과를 제공합니다.


본 콘텐츠는 2025년 2월 3일 바이트댄스(틱톡) 연구진이 발표한 "OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models" 논문을 번역한 것입니다.

저는 전문 번역가가 아니기 때문에 오역이 있을 수 있습니다. 또한 본 글은 원저작자의 요청에 따라 불시에 삭제될 수 있습니다. 감사합니다.

 

다가올 뉴스레터가 궁금하신가요?

지금 구독해서 새로운 레터를 받아보세요

✉️

이번 뉴스레터 어떠셨나요?

0xPlayer 님에게 ☕️ 커피와 ✉️ 쪽지를 보내보세요!

댓글

의견을 남겨주세요

확인
의견이 있으신가요? 제일 먼저 댓글을 달아보세요 !

다른 뉴스레터

© 2026 0xPlayer

-

뉴스레터 문의lowell9195@gmail.com

메일리 로고

도움말 오류 및 기능 관련 제보

서비스 이용 문의admin@team.maily.so 채팅으로 문의하기

메일리 사업자 정보

메일리 (대표자: 이한결) | 사업자번호: 717-47-00705 | 서울특별시 송파구 위례광장로 199, 5층 501-8호

이용약관 | 개인정보처리방침 | 정기결제 이용약관 | 라이선스