3월 2주차 : 새로 공개된 신기한 생성 AI 모델 🧙‍♂️

지난주 공개된 놀라운 6가지 생성 AI 모델과 데모 영상을 확인해 보세요

2024.03.05 | 조회 198 |

ℹ️ 빠르게 발전중인 생성 AI 기술 중 그 주의 가장 주목할만한 모델만 큐레이션해서 보내드리는 뉴스레터에요. ✉️

ℹ️ 최신 논문과 연구 사례를 살펴보고 생성 AI 기술의 발전 동향을 미리 파악하고 대비할 수 있어요. 🧑‍💻

ℹ️ 어려운 기술 용어 지양하고 데모 영상 위주로 전달드려요. 데모 영상은 웹페이지에서 재생 가능해요. 📺

토킹 헤드 동영상은 말할 때 얼굴이 자연스럽게 움직이는 모습을 포착하지 못하기 때문에 가짜처럼 보입니다. 알리바바에서 발표한 EMO는 이러한 동영상을 훨씬 더 사실적이고 실제와 비슷하게 만드는 것을 목표로 합니다.
모델은 복잡한 3D 얼굴 모델 대신 오디오에서 얼굴이 어떻게 움직여야 하는지 직접 학습합니다. 따라서 동영상이 더 부드럽고 자연스러워집니다.
얼굴을 사실적으로 "말"하게 만들 수 있으며, 심지어 사람의 정지 사진에 다양한 스타일의 음악을 "노래"하게 만들 수도 있습니다.

데모 영상👇

EMO: Emote Portrait Alive

다양한 데이터로 학습된 대규모 AI 모델은 복잡한 사람의 포즈를 더 잘 이해합니다. 즉, 시스템이 몸, 손, 얼굴의 움직임을 더 정확하게 추적할 수 있습니다.
정확도 향상을 위해서는 데이터가 가장 중요합니다. 모델이 보는 다양한 포즈의 예시가 많을수록 특별히 훈련되지 않은 새로운 상황에서도 포즈를 정확하게 식별하는 능력이 향상됩니다.
"파운데이션 모델"은 미래입니다. 이러한 대규모 범용 AI 모델은 특정 작업에 맞게 조정(미세 조정)할 수 있어 새로운 인간 동작 관련 제품을 더 쉽고 빠르게 만들 수 있습니다.

데모 영상👇

SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation

Tripo AI 와 Stability AI 에서 개발한 TripoSR은 사진 한 장으로 3D 모델을 만들 수 있는 새로운 도구입니다. 즉, 일반 사진을 찍어 3D 개체로 빠르게 변환할 수 있습니다.
다른 유사한 도구보다 훨씬 빠릅니다. TripoSR은 0.5초 이내에 고품질 3D 모델을 만들 수 있습니다.
TripoSR은 경쟁 옵션보다 더 나은 결과를 만들어냅니다. 테스트 결과 더 정확하고 시각적으로 매력적인 3D 모델을 생성하는 것으로 나타났습니다.

데모 영상👇

TripoSR: Fast 3D Object Generation from Single Images

ChatMusician은 단어를 음악으로 바꿀 수 있습니다. 이 AI는 음악 이론을 이해하고 간단한 텍스트 지시에 따라 자체적으로 음악을 생성할 수 있습니다.
일반적인 언어 능력은 희생하지 않습니다. 음악을 알고 있더라도 일반 언어를 이해하고 사용하는 데는 여전히 능숙합니다.
ChatMusician은 아직 연구 중입니다. 인상적이긴 하지만 연구자들은 AI와 음악으로 달성할 수 있는 것이 훨씬 더 많다는 것을 인정합니다.

데모 영상👇

ChatMusician: Understanding and Generating Music Intrinsically with LLM

데모 영상👇

MOSAIC: A Modular System for Assistive and Interactive Cooking

다양한 각도에서 장면의 새 이미지를 생성할 때 일관성이 떨어지기 쉽습니다.
ViewFusion은 새로운 뷰를 생성할 때 이미지의 일관성을 유지하는 데 도움이 되는 새로운 기술입니다. 별도의 교육 없이도 사용할 수 있습니다.
이미 생성된 이미지의 정보를 영리하게 재사용하여 다음 보기 생성을 안내합니다.

데모 영상👇

ViewFusion: Towards Multi-View Consistency via Interpolated Denoising