ℹ️ 빠르게 발전중인 생성 AI 기술 중 그 주의 가장 주목할만한 모델만 큐레이션해서 보내드리는 뉴스레터에요. ✉️
ℹ️ 최신 논문과 연구 사례를 살펴보고 생성 AI 기술의 발전 동향을 미리 파악하고 대비할 수 있어요. 🧑💻
ℹ️ 어려운 기술 용어 지양하고 데모 영상 위주로 전달드려요. 데모 영상은 웹페이지에서 재생 가능해요. 📺
DynamiCrafter
- 정지 이미지를 짧은 동영상 애니메이션으로 만들 수 있습니다.
- 이 모델은 사진을 이해하고 서면 설명에 따라 움직임을 추가하는 방식으로 작동합니다.
- 결과 애니메이션은 자연스러워 보이며 현재 다른 도구로 만들 수 있는 것보다 낫습니다.
데모 영상👇
DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors
V3D
- 단일 이미지에서 매우 빠르게 상세한 3D 모델을 만들 수 있습니다. 현재의 3D 모델 생성은 느리거나 디테일이 부족한데, 이 시스템은 이를 해결하는 것을 목표로 합니다.
- 이 모델은 비디오 시스템의 3D 세계 이해 능력을 활용하는 방식으로 작동합니다. 비디오가 물체 주변의 움직임을 어떻게 보여줄 수 있는지 생각해보면, 이 기술도 비슷한 아이디어를 사용합니다.
- 최종 결과물은 제품의 3D 모델을 생성하거나 제한된 사진에서 새로운 장면을 만드는 데 사용될 수 있습니다. 이 기술은 전자상거래에서 게임 디자인에 이르기까지 모든 분야에서 크게 활용되고 있습니다.
데모 영상👇
V3D: Video Diffusion Models are Effective 3D Generators
MusicHiFi
- MusicHiFi는 음악 표현(이미지 등)을 고품질 오디오 파일로 변환하는 새로운 방법입니다.
- 기존 방식보다 훨씬 뛰어난 스테레오(서라운드 사운드), 고해상도 오디오를 생성합니다.
- MusicHiFi는 빠르게 작동하므로 실시간 음악 생성을 위한 훌륭한 도구입니다.
데모 영상👇
MusicHiFi: Fast High-Fidelity Stereo Vocoding
EVE
- EVE는 간단한 프롬프트를 사용하여 영상을 제어할 수 있는 최첨단 동영상 편집 모델입니다. 복잡한 동영상 편집 지식이 필요 없습니다.
- 이 모델은 예제 동영상에 대한 교육 없이도 작동합니다. 따라서 유연하고 잠재적으로 새로운 작업을 쉽게 수행할 수 있습니다.
- 기본적인 편집 외에도 새로운 동영상 제작 방법을 제시하는 강력한 도구입니다.
데모 영상👇
EVE: Video Editing via Factorized Diffusion Distillation
StreamMultiDiffusion
- 사용자가 이미지를 만들고 편집하는 방식을 크게 발전시키는 모델입니다.
- 핵심은 초고속 이미지 생성과 텍스트 설명을 사용하여 특정 이미지 영역을 정밀하게 제어할 수 있는 기능(예: 하늘의 특정 부분에 "뭉게구름 추가")을 결합한 것입니다.
- 단어를 사용하여 여러 부분을 설명하는 그림 그리기와 같이 완전히 새로운 이미지 제작 방식을 도입했습니다.
데모 영상👇
StreamMultiDiffusion: Real-Time Interactive Generation with Region-Based Semantic Control
3D-VLA
- 현재의 AI 모델은 3D 세계를 완전히 이해하지 못합니다. 대부분 2D 이미지에 의존하기 때문에 3D 환경에서 사물이 작동하는 풍부한 방식을 놓치고 있습니다.
- 3D-VLA는 3D 세계를 보다 자연스럽게 이해하고 상호 작용할 수 있습니다. 이 모델은 사람의 사고 방식과 유사하게 설계되어 자신의 행동이 환경의 사물을 어떻게 변화시킬지 상상할 수 있습니다.
- 창고에서 로봇이 작동하는 방식, 자율 주행 자동차의 주행 방식, 심지어 가상 세계를 디자인하는 방식까지 개선할 수 있는 잠재력을 가지고 있습니다.
데모 영상👇
3D-VLA: 3D Vision-Language-Action Generative World Model
댓글
의견을 남겨주세요