ℹ️ 빠르게 발전중인 생성 AI 기술 중 그 주의 가장 주목할만한 모델만 큐레이션해서 보내드리는 뉴스레터에요. ✉️
ℹ️ 데모 영상은 '웹에서 보기'로 재생할 수 있어요. 📺
Audio 2 Photoreal
Meta는 오디오 대화에서 자연스러운 제스처를 모방하는 사실적인 아바타를 생성하는 새로운 방법을 개발했어요. 고유한 데이터 세트를 사용하고 다양한 샘플과 고빈도 디테일을 결합하여 생성된 아바타는 다양한 감정과 뉘앙스를 표현하며, 다양성과 사실성 면에서 기존의 방식들보다 성능이 좋습니다. 데모 영상👇
From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations
DragNUWA
기존에 비디오의 정밀한 제어에 어려움을 겪었던 기존 접근 방식과 달리, DragNUWA는 텍스트, 이미지, 궤적 정보를 통합하는 포괄적인 접근 방식을 도입하여 비디오 콘텐츠를 세밀하게 제어할 수 있습니다. 데모 영상👇
DragNUWA: Fine-grained Control in Video Generation by Integrating Text, Image, and Trajectory
Instruct-Imagen
구글 딥마인드에서 자연어를 사용하여 다양한 유형의 정보(텍스트, 가장자리, 스타일, 주제 등)를 결합하여 이미지를 생성하는 모델인 instruct-imagen을 발표했어요. 다양한 작업에서 모델을 미세 조정하고 기존 모델과 비교하여 평가한 결과, 이 연구는 새롭고 복잡한 이미지 생성 문제를 처리할 수 있는 가능성을 보여 줍니다. 데모 영상👇
Instruct-Imagen: Image Generation with Multi-modal Instruction
What You See is What You GAN
3D 인식 생성 적대 신경망(GAN)이라는 3D 이미지 생성 기술의 발전에 대한 영상이에요. 연구진은 3D GAN의 해상도를 개선하여 이미지 품질 저하 없이 2D 이미지에서 3D 형상의 미세한 디테일을 더 효과적으로 캡처할 수 있는 방법을 제안하고, 다양한 데이터 세트에 대한 최신 결과를 시연합니다. 데모 영상👇
What You See is What You GAN: Rendering Every Pixel for High-Fidelity Geometry in 3D GANs
Open-Vocabulary SAM
두 가지의 강력한 비전 모델인 SAM과 CLIP을 결합하여 다양한 영역에서 이미지를 동시에 인식하고 분할할 수 있는 새로운 모델인 Open-Vocabulary SAM 이에요. 이 통합 프레임워크는 세분화와 인식 작업 모두에서 뛰어난 성능을 발휘했으며 추가 이미지 분류 데이터 학습을 통해 약 22,000개의 클래스를 인식할 수 있도록 기능을 확장할 수 있게 되었습니다. 데모 영상👇
Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively
Learning the 3D Fauna of the Web
두 가지의 강력한 비전 모델인 SAM과 CLIP을 결합하여 다양한 영역에서 이미지를 동시에 인식하고 분할할 수 있는 새로운 모델인 Open-Vocabulary SAM 이에요. 이 통합 프레임워크는 세분화와 인식 작업 모두에서 뛰어난 성능을 발휘했으며 추가 이미지 분류 데이터 학습을 통해 약 22,000개의 클래스를 인식할 수 있도록 기능을 확장할 수 있게 되었습니다. 데모 영상👇
Learning the 3D Fauna of the Web
SIGNeRF
GPT-4V와 같은 고급 모델을 활용하여 만든 SEEACT라는 새로운 웹 에이전트에요. GPT-4V는 실제 웹 사이트 작업의 50%를 완료하는 유망한 결과를 보였지만, 접지 전략(지침을 웹 사이트 작업에 연결)에 대한 과제가 남아 있어 에이전트의 성능을 향상시킬 수 있는 개선의 여지가 남아 있습니다. 데모 영상👇
SIGNeRF: Scene Integrated Generation for Neural Radiance Fields
댓글
의견을 남겨주세요