ℹ️ 빠르게 발전중인 생성 AI 기술 중 주목할만한 모델을 큐레이션해서 보내드리는 뉴스레터에요. ✉️
ℹ️ 최신 논문과 연구 사례를 살펴보고 생성 AI 기술의 발전 동향을 미리 파악하고 대비할 수 있어요. 🧑💻
ℹ️ 어려운 기술 용어 지양하고 데모 영상과 이미지 위주로 전달드려요. 데모 영상은 웹페이지에서 재생 가능해요. 📺
Animate-X
- Animate-X 는 단일 이미지와 포즈 시퀀스로 고품질 캐릭터 애니메이션을 제작하는 데 중점을 두고 있으며, 주로 인물에 적용되는 현재의 방법을 개선했습니다.
- 기존 방식은 모션을 제대로 모델링할 수 없기 때문에 게임이나 엔터테인먼트에서 사용되는 의인화된 캐릭터에는 잘 적용되지 않습니다.
- LDM(잠재 확산 모델)을 기반으로 하는 제안된 프레임워크는 포즈 인디케이터를 사용하여 모션 패턴을 캡처함으로써 인간과 비인간 캐릭터 애니메이션을 모두 개선합니다.
Demo👇
Pyramidal Flow Matching for Efficient Video Generative Modeling
- 비디오 생성은 계산량이 많지만, 이 접근 방식은 최종 단계만 최대 해상도로 작동하는 피라미드 구조를 사용하여 복잡성을 줄입니다.
- 각 단계를 개별적으로 최적화하는 이전 방식과 달리 이 모델은 단계 간에 상호 연결된 학습이 가능하므로 효율성과 유연성이 향상됩니다.
- 시간적 피라미드 구조는 동영상 기록을 압축하여 자동 회귀 생성을 위한 메모리 관리를 개선해 768p 해상도 및 24 FPS의 고품질 5~10초 동영상을 생성합니다.
Demo👇
Matryoshka Diffusion Models
- 디퓨전 모델은 고품질 이미지와 동영상을 생성하는 데 유용하지만, 계산상의 문제로 인해 훈련하기가 어렵습니다.
- 새로운 Matryoshka 디퓨전 모델(MDM)은 중첩된 네트워크 구조를 사용하여 여러 해상도에서 동시에 노이즈를 제거함으로써 이 문제를 개선합니다.
- MDM을 사용하면 낮은 해상도에서 교육을 시작하여 점차 높은 해상도로 전환할 수 있으므로 프로세스가 더욱 효율적입니다. 최대 1024x1024픽셀의 고품질 이미지와 동영상을 생성하며, 1200만 장의 비교적 작은 데이터 세트에서도 좋은 결과를 얻을 수 있습니다.
Demo👇
Semantic Image Inversion and Editing using Stochastic Rectified Differential Equations
- 생성 모델은 무작위 노이즈를 이미지로 변환하고, 반전은 이 과정을 반대로 하여 이미지를 수정하는 것입니다.
- 디퓨전 모델이 일반적으로 사용되지만, 그 반전은 복잡하고 리소스 집약적일 수 있습니다.
- 이 논문에서는 정류된 흐름(RF)과 최적 제어를 사용하여 반전을 보다 효율적이고 편집 가능하게 만드는 새로운 방법을 제안합니다.
Demo👇
Meissonic
- Meissonic은 비선형 마스크 이미지 모델링(MIM)을 사용하여 이전 모델에 비해 텍스트 이미지 생성 속도와 효율성을 개선했습니다.
- 새로운 위치 인코딩 및 최적화된 샘플링과 같은 고급 설계 전략을 통합하여 이미지 품질을 향상시킵니다.
- 고품질 학습 데이터와 사람이 입력한 미세 조건을 사용하여 이미지 충실도와 해상도를 높입니다.
Demo👇
댓글
의견을 남겨주세요