ℹ️ 빠르게 발전중인 생성 AI 기술 중 그 주의 가장 주목할만한 모델만 큐레이션해서 보내드리는 뉴스레터에요. ✉️
ℹ️ 최신 논문과 연구 사례를 살펴보고 생성 AI 기술의 발전 동향을 미리 파악하고 대비할 수 있어요. 🧑💻
ℹ️ 어려운 기술 용어 지양하고 데모 영상 위주로 전달드려요. 데모 영상은 웹페이지에서 재생 가능해요. 📺
Diffuse to Choose
온라인 쇼핑이 성장함에 따라 실제 공간에서 제품을 가상으로 볼 수 있는 기능이 중요해졌습니다. 아마존에서 개발한 'Diffuse to Choose'은 이러한 가상 시각화를 더욱 빠르고 상세하게 구현하는 새로운 기술로, 실시간으로 제품 세부 정보를 정확하게 보여줌으로써 온라인 쇼핑 경험을 개선합니다. 데모 영상👇
Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All
InternLM-XComposer2
InternLM-XComposer2는 텍스트와 이미지를 결합하여 맞춤형 콘텐츠를 만드는 데 탁월한 고급 모델입니다. 이 모델은 언어 지식의 무결성을 유지하면서 시각 언어 작업에서 뛰어난 성능을 발휘할 수 있도록 돕는 Partial LoRA라는 고유한 접근 방식을 도입하여 특정 평가에서 GPT-4V 및 Gemini Pro와 같은 기존 모델을 능가하며 멀티모달 콘텐츠의 이해 및 생성에 탁월한 능력을 보여줍니다. 데모 영상👇
InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model
GaussianAvatar
애니메이션이 가능한 3D 표현을 사용하여 단일 동영상에서 사실적인 3D 인간 아바타를 만드는 방법인 GaussianAvatar 에요. 이 방식은 다양한 포즈와 의상 스타일을 효율적으로 캡처하여 아바타 제작 시 부정확한 동작 추정의 문제를 해결하고 뛰어난 외형 품질과 렌더링 효율성을 보여줍니다. 데모 영상👇
GaussianAvatar: Towards Realistic Human Avatar Modeling from a Single Video via Animatable 3D Gaussians
pix2gestalt
컴퓨터가 부분적으로 숨겨지거나 가려진 물체를 이해하고 재구성하는 데 도움이 되는 새로운 프레임워크인 pix2gestalt 에요. 연구진은 인위적으로 생성된 예시 데이터 세트를 사용하여 모델을 훈련시켰으며, 실험을 통해 이 접근 방식이 특히 부분적으로 가려진 물체를 인식하고 재구성하는 데 있어 기존 방법을 능가한다는 사실을 입증했습니다. 데모 영상👇
pix2gestalt: Amodal Segmentation by Synthesizing Wholes
GALA
옷을 입은 사람의 단일 레이어 3D 모델을 다층 에셋으로 변환하여 다양한 포즈의 아바타를 제작할 수 있는 모델인 GALA 에요. 이 방식은 사전 학습된 2D 모델을 사용하여 가려진 영역의 지오메트리와 텍스처를 합성하는 등의 문제를 해결함으로써 다양한 애플리케이션에서 쉽게 조합할 수 있는 3D 에셋을 생성합니다. 데모 영상👇
GALA: Generating Animatable Layered Assets from a Single Scan
DITTO
사전 학습된 텍스트-음악 변환 모델을 파인튜닝해 복잡한 절차 없이도 원하는 음악을 생성할 수 있는 DITTO 에요. 이 방식은 강도나 멜로디와 같은 음악적 요소를 생성, 수정, 제어하는 등 다양한 음악 생성 작업에 탁월하며 자유도, 오디오 품질, 효율성 측면에서 다른 방식보다 뛰어납니다. 데모 영상👇
DITTO: Diffusion Inference-Time T-Optimization for Music Generation
댓글
의견을 남겨주세요