ℹ️ 빠르게 발전중인 생성 AI 기술 중 그 주의 가장 주목할만한 모델만 큐레이션해서 보내드리는 뉴스레터에요. ✉️
ℹ️ 최신 논문과 연구 사례를 살펴보고 생성 AI 기술의 발전 동향을 미리 파악하고 대비할 수 있어요. 🧑💻
ℹ️ 어려운 기술 용어 지양하고 데모 영상 위주로 전달드려요. 데모 영상은 웹페이지에서 재생 가능해요. 📺
OS-Copilot
다양한 컴퓨터 작업을 도와줄 수 있는 에이전트인 OS-Copilot 이에요. FRIDAY라고 불리는 이 새로운 도우미는 Excel 및 PowerPoint와 같은 프로그램을 스스로 사용하는 방법도 알아낼 수 있습니다. 데모 영상👇
OS-Copilot: Towards Generalist Computer Agents with Self-Improvement
PIVOT
A가 그림과 지시를 이해하게 하기 위해 구글 딥마인드에서 로봇을 직접 제어할 수는 없지만, 사진을 사용하여 로봇을 '속여서' 도와주는 영리한 해결 방법을 찾아냈어요. 프로그램에 변화하는 그림을 보여주고 로봇이 마치 퍼즐 게임을 하듯 움직이고 작업을 완료하는 방법을 안내하기 위해 질문을 하도록 합니다. 데모 영상👇
PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs
HeadStudio
HeadStudio는 프롬프트만으로 사실적인 아바타를 쉽게 생성할 수 있는 새로운 방법을 제안합니다. 이러한 아바타는 놀랍도록 실제와 비슷하게 보일 수 있으며 실제 동영상이나 음성으로 애니메이션을 만들 수도 있어요. 데모 영상👇
HeadStudio: Text to Animatable Head Avatars with 3D Gaussian Splatting
WebLINX
WebLINX는 로봇에게 인터넷 검색을 가르치는 것과 같다고 생각하면 됩니다. 연구진은 로봇이 온라인에서 정보를 찾거나 작업을 완료하는 다양한 방법을 학습하여 익숙하지 않은 웹사이트를 더 쉽게 탐색할 수 있도록 웹사이트 작업의 방대한 컬렉션을 만들었어요. 데모 영상👇
WebLINX: Real-World Website Navigation with Multi-Turn Dialogue
IMUSIC
일반적으로 카메라는 얼굴의 움직임을 추적하지만, 이는 프라이버시 문제를 일으킬 수 있으며 얼굴이 가려진 경우에는 제대로 작동하지 않습니다. 새로운 방식인 IMUSIC은 초소형 센서를 사용하여 얼굴 표정을 캡처하므로 얼굴이 완전히 보이지 않는 경우에도 개인 정보를 보호하고 보다 안정적으로 추적할 수 있습니다. 데모 영상👇
IMUSIC: IMU-based Facial Expression Capture
LGM
LGM은 텍스트 설명이나 간단한 사진으로 비디오 게임과 같은 3D 모델을 만드는 새로운 방법이에요. 이전 방법보다 더 빠르고 더 멋진 3D 모델을 만들 수 있습니다. 데모 영상👇
LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation
댓글
의견을 남겨주세요