ℹ️ 빠르게 발전중인 생성 AI 기술 중 그 주의 가장 주목할만한 모델만 큐레이션해서 보내드리는 뉴스레터에요. ✉️
ℹ️ 데모 영상은 웹페이지에서 재생 가능해요. 📺
FlowVid
메타는 공간적 조건과 시간적 광학 흐름 단서를 결합하여 프레임 간 일관성을 효율적으로 유지하는 비디오 합성 모델인 FlowVid를 도입했습니다. 이전 방법과 달리 FlowVid는 흐름 추정의 불완전성을 처리하여 기존 이미지 간 모델과 원활하게 통합하여 스타일화, 개체 교체, 로컬 수정과 같은 유연한 비디오 편집이 가능하며, 다른 모델에 비해 뛰어난 속도와 품질을 보여줍니다. 데모 영상👇
FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video Synthesis
Personalized Restoration
스냅챗이 개인화된 복원 기능을 발표했습니다. 개인의 몇 가지 참조 이미지를 사용하여 블라인드 이미지 복원 프레임워크 내에서 확산 이전을 개인화합니다. 이렇게 하면 화질이 저하된 이미지의 시각적 속성을 유지하면서 개인의 신원과 매우 유사한 자연스러운 이미지를 얻을 수 있습니다. 데모 영상👇
Personalized Restoration via Dual-Pivot Tuning
LARP
오픈월드 비디오 게임에서 인간의 언어를 이해하고 이에 반응하는 방식을 개선하는 롤플레잉 언어 에이전트 LARP 에요. 이 기술은 플레이어와 컴퓨터로 제어되는 캐릭터 간의 상호작용을 향상시켜 복잡한 가상 환경에서 게임 경험을 더욱 즐겁고 사실적으로 만들어 줍니다. 또한 유사한 언어 모델이 엔터테인먼트, 교육, 시뮬레이션 등 다양한 분야에 적용될 수 있음을 시사합니다. 데모 영상👇
LARP: Language-Agent Role Play for Open-World Games
InsActor
프롬프트로 물리 기반 캐릭터의 애니메이션을 생성하는 모델인 InsActor 입니다. 이 기술은 복잡한 사람의 지시를 이해하고 캐릭터의 움직임으로 변환하여 사실적인 애니메이션을 생성할 수 있으므로 애니메이션 캐릭터를 직관적으로 제어해야 하는 다양한 애플리케이션에 유용합니다. 데모 영상👇
InsActor: Instruction-driven Physics-based Characters
DreamGaussian4D
4D 콘텐츠(애니메이션 3D 모션)를 보다 효율적으로 제작할 수 있는 새로운 방법인 DreamGaussian4D 입니다. 이전 접근 방식과 달리 최적화에 필요한 시간을 크게 줄이고, 모션을 더 잘 제어하며, 3D 애플리케이션에서 쉽게 표시할 수 있는 세부적인 애니메이션을 생성합니다. 데모 영상👇
DreamGaussian4D: Generative 4D Gaussian Splatting
UniRef++
UniRef++는 참조 이미지 세분화 및 비디오 객체 세분화와 같은 작업을 단순화하고 개선하는 새로운 접근 방식으로, 참조를 사용하여 이미지 또는 비디오에서 특정 객체를 식별하는 것을 목표로 합니다. 핵심 기술은 UniFusion 모듈은 시스템이 다양한 작업을 보다 효율적으로 처리할 수 있도록 하여 참조 이미지 세분화 및 비디오 객체 세분화와 같은 작업을 위한 최적의 성능을 제공합니다. 데모 영상👇
UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces
Spacetime Gaussian Feature Splatting
시공간 가우시안 피처 스플래팅이라는 새로운 방법을 개발하여 동영상을 실시간으로 사실적이고 고해상도로 표현할 수 있게 되었습니다. 이 접근 방식은 향상된 3D 가우시안과 시간적 불투명도, 파라메트릭 모션/회전, 신경 피처를 결합하여 정적, 동적, 일시적 요소를 캡처하는 동시에 효율성을 유지함으로써 GPU에서 최적의 렌더링 품질과 속도를 구현할 수 있습니다. 데모 영상👇
Spacetime Gaussian Feature Splatting for Real-Time Dynamic View Synthesis
VCoder
이미지 속 개체를 이해하고 개수를 세는 다중모달 대규모 언어 모델(MLLM)의 능력을 향상시키기 위한 VCoder라는 모델이에요. 연구진은 VCoder에 다양한 시각적 단서를 제공하고 훈련용 데이터 세트를 생성하여 기존 모델에 비해 객체 수준 인식 능력이 크게 향상되었음을 입증함으로써 인공지능의 시각 언어 작업을 보다 정확하게 수행하는 데 진전을 이루었습니다. 데모 영상👇
VCoder: Versatile Vision Encoders for Multimodal Large Language Models
댓글
의견을 남겨주세요