ℹ️ 빠르게 발전중인 생성 AI 기술 중 그 주의 가장 주목할만한 모델만 큐레이션해서 보내드리는 뉴스레터에요. ✉️
ℹ️ 최신 논문과 연구 사례를 살펴보고 생성 AI 기술의 발전 동향을 미리 파악하고 대비할 수 있어요. 🧑💻
ℹ️ 어려운 기술 용어 지양하고 데모 영상 위주로 전달드려요. 데모 영상은 웹페이지에서 재생 가능해요. 📺
GPT-4o
- GPT-4o는 텍스트, 오디오, 이미지 입력을 처리하고 그에 맞는 출력을 생성하는 멀티모달 입력/출력을 통해 인간과 컴퓨터의 자연스러운 상호 작용을 향상시킬 수 있습니다.
- 232밀리초 만에 오디오 입력에 응답할 수 있어 사람의 대화 응답 시간에 가깝게 맞춰집니다.
- 텍스트 및 코딩 작업에서 GPT-4 터보의 성능에 필적하고 비영어권 언어에서 탁월하며, 시각 및 오디오 이해도가 눈에 띄게 향상되면서도 사용 비용은 50% 저렴합니다.
데모 영상👇
GPT-4o, our new flagship model that can reason across audio, vision, and text in real time.
TaRF
- 시각 정보와 터치 정보를 결합하는 TaRF(촉각 증강 방사 필드)라는 새로운 3D 장면 표현 방법입니다.
- TaRF는 사진과 일부 터치 데이터를 사용하여 장면이 어떻게 보이고 느껴지는지 이해합니다.
- 이 기술은 이전 접근 방식보다 더 큰 실제 터치 정보 데이터 세트를 갖춘 최초의 기술입니다. 물체 인식 및 로봇 조작과 같은 다양한 작업에 도움이 될 수 있습니다.
데모 영상👇
TaRF: Tactile-Augmented Radiance Fields
AniTalker
- AniTalker는 단순한 립싱크를 넘어 다양한 표정과 머리 움직임을 포함하여 하나의 인물 사진에서 실제와 같은 말하는 얼굴을 생성합니다.
- 자가 지도 학습을 활용하여 수동으로 레이블을 지정할 필요성을 줄이고 기술을 쉽게 확장하고 적용할 수 있습니다.
- 다양하고 제어 가능한 얼굴 애니메이션을 구현할 수 있어 다양한 애플리케이션을 위한 개인화되고 매력적인 아바타를 만들 수 있는 가능성을 열어줍니다.
데모 영상👇
AniTalker: Animate Vivid and Diverse Talking Faces through Identity-Decoupled Facial Motion Encoding
Vertex Block Descent
- Vertex Block Descent 엔진을 사용하면 고무 공이 튀어 오르는 방식과 같은 물체의 물리학 시뮬레이션을 훨씬 빠르고 쉽게 정확하게 수행할 수 있습니다.
- 기존의 일부 물리 시뮬레이션 방법과 달리 이 방법은 복잡한 시나리오에서도 "깨지거나" 불안정해지지 않습니다.
- 시뮬레이션의 정확성과 안정성을 잃지 않으면서도 사용 가능한 컴퓨팅 성능에 맞게 세부 수준을 조정할 수 있습니다.
데모 영상👇
Vertex Block Descent
댓글
의견을 남겨주세요