ℹ️ 빠르게 발전중인 생성 AI 기술 중 그 주의 가장 주목할만한 모델만 큐레이션해서 보내드리는 뉴스레터에요. ✉️
ℹ️ 최신 논문과 연구 사례를 살펴보고 생성 AI 기술의 발전 동향을 미리 파악하고 대비할 수 있어요. 🧑💻
ℹ️ 어려운 기술 용어 지양하고 데모 영상 위주로 전달드려요. 데모 영상은 웹페이지에서 재생 가능해요. 📺
InteractiveVideo
InteractiveVideo 를 통해 사용자가 동적 상호작용으로 비디오를 쉽게 만들고 커스터마이즈할 수 있습니다. 이 모델은 기존 방식과 달리 텍스트 프롬프트, 이미지, 페인팅, 드래그 앤 드롭과 같은 다양한 직관적인 도구를 사용하여 동영상 생성 과정을 안내할 수 있으며, 최종 동영상 결과물을 정확하고 세밀하게 조정할 수 있는 유연성을 제공합니다. 데모 영상👇
InteractiveVideo: User-Centric Controllable Video Generation with Synergistic Multimodal Instructions
ConsiStory
사용자가 자연어를 통해 이미지를 만들 수 있는 Text-to-Image 모델은 다양한 프롬프트에서 동일한 피사체를 일관되게 묘사하는 데 어려움을 겪습니다. 엔디비아에서 ConsiStory라는 새로운 방법은 오랜 최적화 작업 없이도 이 문제를 해결하여 피사체의 일관성을 유지하고 이미지와 텍스트를 정렬합니다. 데모 영상👇
ConsiStory: Training-Free Consistent Text-to-Image Generation
Boximator
바이트댄스에서 개발한 Boximator는 정밀하고 사용자 지정 가능한 움직임이 있는 동영상을 제작할 수 있는 새로운 도구입니다. 적용하기 쉬운 박스를 사용하여 동영상에 있는 오브젝트의 위치, 모양, 경로를 제어할 수 있으므로 기본 동영상 합성 모델에 영향을 주지 않으면서도 사용자가 선호하는 고품질의 결과물을 얻을 수 있어요. 데모 영상👇
Boximator: Generating Rich and Controllable Motions for Video Synthesis
BlockFusion
BlockFusion은 새로운 블록을 매끄럽게 추가하여 기존 장면을 확장함으로써 사실적인 3D 장면을 생성하는 새로운 모델이에요. 확산 기반 접근 방식과 변형 자동 인코더를 사용하여 고품질의 다양한 3D 장면을 생성하고, 기존 환경과 자연스럽게 어우러지는 빈 블록을 추가하여 장면을 확장할 수 있습니다. 데모 영상👇
BlockFusion: Expandable 3D Scene Generation using Latent Tri-plane Extrapolation
SEELE
이미지의 사실성을 유지하면서 선택한 피사체를 다른 지점으로 동적으로 이동시켜 이미지를 조작하는 새로운 방법이에요. 연구진은 피사체 재배치를 효과적으로 달성하기 위해 다양한 기술을 결합하여 실제 데이터 세트에서 입증된 바와 같이 고품질의 재배치된 이미지를 생성하는 SEELE라는 프레임워크를 개발했습니다. 데모 영상👇
SEELE: Repositioning the Subject within Image
댓글
의견을 남겨주세요