초록
최근 수년간 음성 기반 인물 영상 생성을 비롯한 종단간 인간 애니메이션 분야는 눈부신 발전을 이루었습니다. 그러나 기존 방식들은 대규모 일반 비디오 생성 모델로의 확장에 여전히 한계를 보이고 있어, 실제 응용 가능성이 제한적입니다.
본 논문에서는 훈련 과정에서 동작 관련 조건들을 혼합하여 데이터를 확장하는 디퓨전 트랜스포머 기반의 프레임워크인 옴니휴먼을 제안합니다. 이를 위해 혼합 조건에 관한 두 가지 훈련 원칙과 이에 상응하는 모델 구조 및 추론 전략을 도입했습니다. 이러한 설계를 통해 옴니휴먼은 데이터 기반 동작 생성을 완벽히 활용하여 매우 사실적인 인물 영상 생성을 실현할 수 있습니다.
특히 주목할 점은 옴니휴먼이 다양한 인물 콘텐츠(얼굴 클로즈업, 인물 사진, 상반신, 전신)를 지원하고, 대화와 노래를 모두 처리하며, 사람-물체 상호작용과 난이도 높은 자세까지 구현할 수 있다는 것입니다. 또한 다양한 이미지 스타일도 수용 가능합니다. 기존의 종단간 음성 기반 방식들과 비교했을 때, 옴니휴먼은 더욱 사실적인 영상을 생성할 뿐만 아니라, 입력의 유연성도 향상되었습니다. 아울러 다양한 구동 방식(음성 기반, 영상 기반 및 복합 신호)을 지원합니다. 관련 영상 샘플들은 프로젝트 페이지에서 확인하실 수 있습니다.
1. 서론
디퓨전 트랜스포머(DiT) 기반 비디오 디퓨전 모델이 등장한 이후, 텍스트 투 비디오(Text-to-Video)와 이미지 투 비디오(Image-to-Video)를 포함한 일반 비디오 생성 분야는 사실적인 영상 콘텐츠 생성에서 큰 진전을 이루었습니다. 이러한 발전의 핵심 동력은 비디오-텍스트 쌍으로 구성된 대규모 훈련 데이터입니다. 훈련 데이터셋의 확장으로 DiT 네트워크는 다양한 물체와 장면에 대한 동작 사전 지식을 학습할 수 있게 되었고, 이는 추론 과정에서 강력한 일반화 능력으로 이어졌습니다.
이러한 사전 훈련된 비디오 디퓨전 네트워크를 기반으로, 포즈 기반 인간 애니메이션이나 음성 기반 대화형 인간 생성과 같은 종단간 인간 애니메이션 모델들이 지난해부터 급속도로 발전해왔습니다. 사실적인 결과를 달성했음에도 불구하고, 이러한 모델들은 학습 과정의 단순화를 위해 엄격하게 필터링된 데이터셋으로 훈련되어 제한된 시나리오에만 적용이 가능한 상태입니다. 예를 들어, 대다수의 기존 종단간 음성 조건부 모델들은 얼굴이나 인물 사진 애니메이션에만 국한되어 있으며, 대부분의 포즈 조건부 모델들은 정적 배경에서 정면으로 촬영된 전신 이미지만을 처리할 수 있습니다.
지금까지 더 보편적인 인간 애니메이션을 위한 훈련 데이터 확장 시도는 없었습니다. 인간 애니메이션 데이터의 확장이 단순해 보일 수 있으나, 실제로는 그렇지 않습니다. 단순한 데이터 추가가 네트워크 훈련에 항상 긍정적인 것은 아닙니다. 음성 조건부 모델의 경우, 음성은 주로 표정과 연관되어 있으며 신체 포즈, 배경 움직임, 카메라 움직임, 조명 변화 등과는 연관성이 미미합니다.
따라서 이러한 무관한 요소들의 영향을 최소화하기 위해 원본 훈련 데이터는 필터링과 편집 과정을 거쳐야 합니다. 또한 음성 조건부 모델들은 훈련의 안정성을 위해 입 모양 동기화 정확도를 기준으로 추가적인 데이터 정제 과정을 거칩니다. 포즈 조건부 모델들 역시 광범위한 필터링, 편집, 정제 과정이 필요합니다. 안타깝게도 이 과정에서 상당량의 데이터가 손실되며, 버려지는 데이터의 상당 부분이 데이터 확장에 필수적인 귀중한 동작 패턴을 포함하고 있어 데이터셋 확장 노력이 무의미해지고 있습니다.
본 논문에서는 인간 애니메이션 데이터와 모델의 스케일업 문제를 다룹니다. 우리의 핵심 통찰은 훈련 과정에서 텍스트, 음성, 포즈와 같은 다양한 조건부 신호를 통합하면 데이터 손실을 크게 줄일 수 있다는 것입니다. 이러한 접근 방식은 두 가지 주요 이점을 제공합니다. 우선, 단일 조건 모델에서 버려질 수 있는 데이터를 텍스트 조건과 같은 더 유연하거나 일반적인 조건을 가진 작업에 활용할 수 있습니다. 이를 통해 모델은 더 다양한 동작 패턴을 학습할 수 있어 데이터 필터링으로 인한 제약을 완화할 수 있습니다.
또한, 서로 다른 조건부 신호들이 상호 보완적 역할을 할 수 있습니다. 예를 들어, 음성만으로는 신체 포즈를 정확하게 제어할 수 없지만, 포즈 입력과 같은 더 강력한 조건이 추가적인 지침을 제공할 수 있습니다. 훈련 과정에서 음성 데이터와 함께 더 강력한 조건부 신호를 통합함으로써, 과적합을 줄이고 생성된 결과의 일반화를 개선하고자 합니다.
이러한 고려사항들을 토대로, 우리는 두 가지 훈련 원칙을 따르는 옴니컨디션 훈련 전략을 설계했습니다. 첫째, 더 강력한 조건부 작업은 더 약한 조건부 작업과 그에 해당하는 데이터를 활용하여 모델 훈련 과정에서 데이터 스케일업을 달성할 수 있으며, 둘째, 조건이 강할수록 더 낮은 훈련 비율을 적용해야 합니다.
이 전략을 구현하기 위해, 우리는 최신 비디오 생성 모델 아키텍처인 DiT를 기반으로 한 혼합 조건부 인간 비디오 생성 모델인 옴니휴먼(OmniHuman)을 구축했습니다. 옴니휴먼은 약한 것부터 강한 것까지 세 가지 동작 관련 조건(텍스트, 음성, 포즈)으로 훈련할 수 있습니다. 이러한 접근 방식은 종단간 프레임워크의 데이터 스케일업 과제를 해결하여, 모델이 대규모 데이터 훈련의 이점을 얻고, 자연스러운 동작 패턴을 학습하며, 다양한 입력 형태를 지원할 수 있게 합니다.
전반적으로, 우리의 주요 기여는 다음과 같습니다:
- 혼합 조건부 인간 비디오 생성 모델인 옴니휴먼을 제안합니다. 이 모델은 우리의 옴니컨디션 훈련 전략을 활용하여 다양한 동작 관련 조건과 해당 데이터를 통합합니다. 엄격한 필터링으로 인해 데이터를 제한하는 기존 방법들과 달리, 우리의 접근 방식은 대규모 혼합 조건부 데이터의 장점을 최대한 활용합니다.
- 옴니휴먼은 매우 사실적이고 생동감 있는 인간 동작 비디오를 생성하며, 여러 모달리티를 동시에 지원합니다. 다양한 인물 사진과 입력 종횡비에서 우수한 성능을 보입니다. 옴니휴먼은 이전의 종단간 모델들이 어려움을 겪었던 제스처 생성을 크게 개선하고 다양한 이미지 스타일을 지원하여, 기존의 음성 조건부 인간 비디오 생성 방법들을 크게 앞서고 있습니다.
2. 관련 연구
2.1. 비디오 생성
최근 몇 년간 디퓨전 모델과 같은 기술의 출현으로 생성 모델의 성능이 실용적인 수준으로 발전했습니다. 이미지 생성 분야의 최신 발전은 실제와 거의 구분할 수 없는 결과물을 만들어내고 있습니다. 이에 따라 점점 더 많은 연구가 비디오 생성 분야로 초점을 옮기고 있습니다.
초기 텍스트 투 비디오 연구들은 주로 사전 훈련된 텍스트 투 이미지 모델의 훈련 없는 적응 또는 제한된 비디오 데이터셋에서의 미세 조정을 통한 시간적 레이어 통합에 중점을 두었습니다. 하지만 광범위한 데이터의 부족으로 인해 이러한 방법들의 비디오 생성 품질은 종종 만족스럽지 못했습니다.
스케일링 법칙을 더 잘 활용하고 비디오 생성 모델의 한계를 넓히기 위해, 최근의 연구들은 세 가지 주요 영역에서 최적화를 이루었습니다. 첫째, 데이터 양이 고해상도 비디오 클립까지 증가한 더 큰 규모의 고품질 비디오 데이터셋을 수집했습니다. 둘째, 3D Causal VAE를 사용하여 비디오 데이터의 공간적, 시간적 특징을 모두 압축함으로써 비디오 모델링 효율성을 향상시켰습니다. 셋째, 기본 모델 구조가 유넷(UNet)에서 트랜스포머로 전환되어 모델의 확장성이 개선되었습니다.
의견을 남겨주세요