ℹ️ 빠르게 발전중인 생성 AI 기술 중 그 주의 가장 주목할만한 모델만 큐레이션해서 보내드리는 뉴스레터에요. ✉️
ℹ️ 최신 논문과 연구 사례를 살펴보고 생성 AI 기술의 발전 동향을 미리 파악하고 대비할 수 있어요. 🧑💻
ℹ️ 어려운 기술 용어 지양하고 데모 영상 위주로 전달드려요. 데모 영상은 웹페이지에서 재생 가능해요. 📺
SORA
Open AI 에서 발표한 텍스트-투-비디오 모델인 Sora 에요. Sora는 시각적 품질과 사용자 프롬프트 준수를 유지하면서 최대 1분 길이의 동영상을 생성할 수 있습니다. 데모 영상👇
Sora: Video generation models as world simulators
Gemini 1.5
제미나이 1.5 프로는 긴 문맥 이해 능력에 있어서도 획기적인 발전을 이뤄냈습니다. 구글은 모델이 처리할 수 있는 정보의 양을 극대화하여 최대 100만 토큰을 연속 실행을 가능케 했습니다. 이는 현존하는 대규모 파운데이션 모델 중 가장 긴 컨텍스트 윈도우(context window)를 확보한 성과입니다. 데모 영상👇
Our next-generation model: Gemini 1.5
Magic-Me
Magic-Me는 특정 인물이나 캐릭터에 초점을 맞춘 동영상을 자동으로 제작하는 새로운 방법이에요. 이 모델은 아직 초기 단계에 있지만, 원하는 인물의 이미지를 사용하여 동영상 제작을 안내하고 동영상이 일관되고 고품질로 보이도록 하는 등 진전을 이루었습니다. 데모 영상👇
Magic-Me: Identity-Specific Video Customized Diffusion
Universal Manipulation Interface
복잡한 작업을 보여주는 것만으로 로봇에게 쉽게 가르칠 수 있는 UMI 라는 방식이에요. 저렴하고 다양한 종류의 로봇과 함께 작동하도록 설계되어 로봇이 새로운 기술을 더 쉽게 배울 수 있습니다. 데모 영상👇
Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots
GaussianObject
몇 장의 사진만으로 사물의 3D 모델을 만드는 새로운 모델인 GaussianObject 에요. 먼저 물체의 대략적인 윤곽을 만든 다음 누락된 부분에 세부 사항을 추가하여 사실적이고 완전한 3D 오브젝트를 생성합니다. 데모 영상👇
GaussianObject: Just Taking Four Images to Get A High-Quality 3D Object with Gaussian Splatting
Audio Editing
이 모델은 고급 사진 편집 도구와 비슷한 개념이에요. 간단한 텍스트 명령(예: "드럼을 더 크게 만들어줘")을 사용하여 음악과 오디오를 변경하거나 오디오를 더 재미있게 만드는 방법을 자동으로 찾아냅니다.. 데모 영상👇
Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion
댓글
의견을 남겨주세요