ℹ️ 빠르게 발전중인 생성 AI 기술 중 주목할만한 모델을 큐레이션해서 보내드리는 뉴스레터에요. ✉️
ℹ️ 최신 논문과 연구 사례를 살펴보고 생성 AI 기술의 발전 동향을 미리 파악하고 대비할 수 있어요. 🧑💻
ℹ️ 어려운 기술 용어 지양하고 데모 영상과 이미지 위주로 전달드려요. 데모 영상은 웹페이지에서 재생 가능해요. 📺
StreamingT2V
- StreamingT2V는 프롬프트를 기반으로 장면 간 부드러운 전환을 통해 긴 고품질 동영상을 만들 수 있도록 설계되었습니다.
- 비디오 청크 간의 연속성을 유지하기 위해 단기 메모리(CAM)를 사용하고, 초기 장면을 보존하기 위해 장기 메모리를 사용하여 불일치를 방지합니다.
- 또한 무작위 블렌딩 방식을 적용하여 긴 프레임에서도 갑작스러운 변화 없이 매끄럽고 연속적인 동영상을 보장합니다.
Demo👇
Loopy
- Loopy는 고급 패턴을 사용하여 소리와 움직임을 일치시켜 오디오만으로 실제와 같은 동영상을 생성하는 AI 모델입니다.
- 미리 설정된 템플릿 없이도 사람들이 소리에 반응하여 자연스럽게 움직이는 방식을 이해합니다.
- 이 모델은 단기 및 장기 동작을 모두 캡처하므로 사실적인 동영상 제작에 적합합니다.
Demo👇
Video Game Generation: A Practical Study using Mario
- 3D 가우시안 대화형 분할을 사용하여 3D 장면을 실시간으로 조작할 수 있습니다. 2D 분할 결과의 노이즈와 충돌 문제를 극복하여 보다 정확한 3D 분할을 제공합니다.
- Global Feature-guided Learning(GFL) 방법은 노이즈가 있는 2D 세그먼트에서 글로벌 특징 클러스터를 구성하여 불일치를 완화합니다.
- 클릭당 10ms의 처리 시간으로 이전 방법보다 15~130배 빠르게 실행되어 속도와 세분화 정확도가 모두 향상됩니다.
Demo👇
RB-Modulation
- 새로운 방법인 RB-Modulation을 사용하면 별도의 학습 없이도 디뷰전 모델을 커스터마이징할 수 있습니다.
- 새로운 스타일 디스크립터를 사용하여 스타일 추출, 원치 않는 콘텐츠 유출, 스타일과 콘텐츠의 효과적인 합성과 관련된 문제를 해결합니다.
- cross-attention feature aggregation를 사용하여 스타일과 콘텐츠를 정확하게 분리하고 제어하며 다른 모델과 달리 외부 툴이 필요 없어 프로세스를 간소화합니다.
Demo👇
Compositional 3D
- Compositional 3D는 캐릭터나 움직임과 같은 개별 개념의 3D 표현을 별도로 생성하여 텍스트-비디오 생성을 보다 정밀하게 제어할 수 있는 새로운 방법입니다.
- LLM(대규모 언어 모델)을 사용하여 복잡한 프롬프트를 하위 작업(예: 장면, 개체)으로 분류하고 전문가 모델을 호출하여 이러한 3D 요소를 생성합니다.
- 개별 컴포넌트를 생성한 후 LLM 가이드와 2D 디퓨전 모델을 사용하여 일관된 비디오로 결합해 모션, 물체 모양, 장면의 역동성 측면에서 텍스트에서 비디오 생성의 품질과 제어를 향상시킵니다.
Demo👇
의견을 남겨주세요