5월 3주차 : 새로 공개된 신기한 생성 AI 모델 🧙‍♂️

지난주 공개된 놀라운 4가지 생성 AI 모델과 데모 영상을 확인해 보세요

2024.05.14 | 조회 386 |

ℹ️ 빠르게 발전중인 생성 AI 기술 중 그 주의 가장 주목할만한 모델만 큐레이션해서 보내드리는 뉴스레터에요. ✉️

ℹ️ 최신 논문과 연구 사례를 살펴보고 생성 AI 기술의 발전 동향을 미리 파악하고 대비할 수 있어요. 🧑‍💻

ℹ️ 어려운 기술 용어 지양하고 데모 영상 위주로 전달드려요. 데모 영상은 웹페이지에서 재생 가능해요. 📺

GPT-4o는 텍스트, 오디오, 이미지 입력을 처리하고 그에 맞는 출력을 생성하는 멀티모달 입력/출력을 통해 인간과 컴퓨터의 자연스러운 상호 작용을 향상시킬 수 있습니다.
232밀리초 만에 오디오 입력에 응답할 수 있어 사람의 대화 응답 시간에 가깝게 맞춰집니다.
텍스트 및 코딩 작업에서 GPT-4 터보의 성능에 필적하고 비영어권 언어에서 탁월하며, 시각 및 오디오 이해도가 눈에 띄게 향상되면서도 사용 비용은 50% 저렴합니다.

데모 영상👇

GPT-4o, our new flagship model that can reason across audio, vision, and text in real time.

시각 정보와 터치 정보를 결합하는 TaRF(촉각 증강 방사 필드)라는 새로운 3D 장면 표현 방법입니다.
TaRF는 사진과 일부 터치 데이터를 사용하여 장면이 어떻게 보이고 느껴지는지 이해합니다.
이 기술은 이전 접근 방식보다 더 큰 실제 터치 정보 데이터 세트를 갖춘 최초의 기술입니다. 물체 인식 및 로봇 조작과 같은 다양한 작업에 도움이 될 수 있습니다.

데모 영상👇

TaRF: Tactile-Augmented Radiance Fields

AniTalker는 단순한 립싱크를 넘어 다양한 표정과 머리 움직임을 포함하여 하나의 인물 사진에서 실제와 같은 말하는 얼굴을 생성합니다.
자가 지도 학습을 활용하여 수동으로 레이블을 지정할 필요성을 줄이고 기술을 쉽게 확장하고 적용할 수 있습니다.
다양하고 제어 가능한 얼굴 애니메이션을 구현할 수 있어 다양한 애플리케이션을 위한 개인화되고 매력적인 아바타를 만들 수 있는 가능성을 열어줍니다.

데모 영상👇

AniTalker: Animate Vivid and Diverse Talking Faces through Identity-Decoupled Facial Motion Encoding

Vertex Block Descent 엔진을 사용하면 고무 공이 튀어 오르는 방식과 같은 물체의 물리학 시뮬레이션을 훨씬 빠르고 쉽게 정확하게 수행할 수 있습니다.
기존의 일부 물리 시뮬레이션 방법과 달리 이 방법은 복잡한 시나리오에서도 "깨지거나" 불안정해지지 않습니다.
시뮬레이션의 정확성과 안정성을 잃지 않으면서도 사용 가능한 컴퓨팅 성능에 맞게 세부 수준을 조정할 수 있습니다.

데모 영상👇