3월 4주차 : 새로 공개된 신기한 생성 AI 모델 🧙‍♂️

지난주 공개된 놀라운 5가지 생성 AI 모델과 데모 영상을 확인해 보세요

2024.03.19 | 조회 150 |

ℹ️ 빠르게 발전중인 생성 AI 기술 중 그 주의 가장 주목할만한 모델만 큐레이션해서 보내드리는 뉴스레터에요. ✉️

ℹ️ 최신 논문과 연구 사례를 살펴보고 생성 AI 기술의 발전 동향을 미리 파악하고 대비할 수 있어요. 🧑‍💻

ℹ️ 어려운 기술 용어 지양하고 데모 영상 위주로 전달드려요. 데모 영상은 웹페이지에서 재생 가능해요. 📺

데모 영상👇

DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors

단일 이미지에서 매우 빠르게 상세한 3D 모델을 만들 수 있습니다. 현재의 3D 모델 생성은 느리거나 디테일이 부족한데, 이 시스템은 이를 해결하는 것을 목표로 합니다.
이 모델은 비디오 시스템의 3D 세계 이해 능력을 활용하는 방식으로 작동합니다. 비디오가 물체 주변의 움직임을 어떻게 보여줄 수 있는지 생각해보면, 이 기술도 비슷한 아이디어를 사용합니다.
최종 결과물은 제품의 3D 모델을 생성하거나 제한된 사진에서 새로운 장면을 만드는 데 사용될 수 있습니다. 이 기술은 전자상거래에서 게임 디자인에 이르기까지 모든 분야에서 크게 활용되고 있습니다.

데모 영상👇

V3D: Video Diffusion Models are Effective 3D Generators

데모 영상👇

MusicHiFi: Fast High-Fidelity Stereo Vocoding

데모 영상👇

EVE: Video Editing via Factorized Diffusion Distillation

사용자가 이미지를 만들고 편집하는 방식을 크게 발전시키는 모델입니다.
핵심은 초고속 이미지 생성과 텍스트 설명을 사용하여 특정 이미지 영역을 정밀하게 제어할 수 있는 기능(예: 하늘의 특정 부분에 "뭉게구름 추가")을 결합한 것입니다.
단어를 사용하여 여러 부분을 설명하는 그림 그리기와 같이 완전히 새로운 이미지 제작 방식을 도입했습니다.

데모 영상👇

StreamMultiDiffusion: Real-Time Interactive Generation with Region-Based Semantic Control

현재의 AI 모델은 3D 세계를 완전히 이해하지 못합니다. 대부분 2D 이미지에 의존하기 때문에 3D 환경에서 사물이 작동하는 풍부한 방식을 놓치고 있습니다.
3D-VLA는 3D 세계를 보다 자연스럽게 이해하고 상호 작용할 수 있습니다. 이 모델은 사람의 사고 방식과 유사하게 설계되어 자신의 행동이 환경의 사물을 어떻게 변화시킬지 상상할 수 있습니다.
창고에서 로봇이 작동하는 방식, 자율 주행 자동차의 주행 방식, 심지어 가상 세계를 디자인하는 방식까지 개선할 수 있는 잠재력을 가지고 있습니다.

데모 영상👇

3D-VLA: 3D Vision-Language-Action Generative World Model