ℹ️ 빠르게 발전중인 생성 AI 기술 중 주목할만한 모델을 큐레이션해서 보내드리는 뉴스레터에요. ✉️
ℹ️ 최신 논문과 연구 사례를 살펴보고 생성 AI 기술의 발전 동향을 미리 파악하고 대비할 수 있어요. 🧑💻
ℹ️ 어려운 기술 용어 지양하고 데모 영상과 이미지 위주로 전달드려요. 데모 영상은 웹페이지에서 재생 가능해요. 📺
MIMO
- MIMO는 간단한 사용자 입력만으로 캐릭터를 사실적인 영상으로 생성할 수 있어 일반적으로 3D 모델에 필요한 복잡한 멀티뷰 캡처의 필요성을 극복합니다.
- 사용자가 캐릭터, 모션 및 장면 요소를 제어할 수 있어 사용자 지정 및 인터랙티브 애니메이션을 더 쉽게 만들 수 있습니다.
- 3D 움직임에 대한 일반화를 개선해 3D 환경에서도 다양한 캐릭터 유형과 움직임을 지원하므로 실제 장면과 더욱 자연스럽게 상호작용할 수 있습니다.
Demo👇
LLaVA-3D
- LLaVA-3D는 2D 시각 모델(LLaVA)을 3D 데이터 처리에 맞게 조정하여 3D 장면 이해도를 효율적으로 개선함으로써 멀티모달 AI의 핵심 과제를 해결합니다.
- 간단한 표현 기법: 2D 이미지 데이터를 3D 위치에 연결하여 보다 정확한 장면 이해를 돕는 '3D 패치' 방식을 사용합니다.
- 이 프레임워크는 2D와 3D 시각 작업을 동시에 처리할 수 있으며, 어느 쪽에서도 효율성을 잃지 않습니다.
Demo👇
PhysGen
- PhysGen은 힘이나 토크와 같은 사용자 입력을 기반으로 단일 이미지를 사실적인 물리 기반 비디오로 변환합니다.
- 물리적 시뮬레이션과 AI 기반 동영상 생성을 결합하여 더욱 사실적이고 역동적인 결과를 만들어냅니다.
- 이 모델에는 이미지 이해, 강체 물리학, 비디오 생성 렌더링 모듈이 포함되어 있어 정확한 움직임을 시뮬레이션할 수 있습니다.
Demo👇
Imagine Yourself
- Imagine Yourself는 개인 맞춤형 조정이 필요 없으므로 사용자가 기술적 개입 없이 모델을 활용할 수 있습니다.
- 이 모델은 정체성 유지, 복잡한 프롬프트 준수, 이전 모델에서 흔히 발생하는 복사-붙여넣기 효과 방지 사이의 균형을 유지합니다.
- 합성 페어링 데이터, 다중 텍스트 인코더, 미세 조정 단계를 도입하여 이미지 다양성, 텍스트 충실도, 시각적 품질을 향상시킵니다.
Demo👇
ProX
- ProX는 소규모 AI 모델이 사람이 만든 복잡한 규칙을 대체하여 데이터 품질을 자동으로 개선할 수 있는 프레임워크입니다.
- 각 예제에 대해 문자열 정규화와 같은 사용자 지정 연산을 프로그래밍하여 데이터를 정제하여 모델 성능을 개선합니다.
- ProX로 강화된 데이터는 다양한 작업에서 2% 이상 결과를 개선하며, 도메인별 작업에서는 사람이 만든 방법보다 최대 20% 더 뛰어난 성능을 발휘합니다.
Demo👇
댓글
의견을 남겨주세요