ℹ️ 빠르게 발전중인 생성 AI 기술 중 그 주의 가장 주목할만한 모델만 큐레이션해서 보내드리는 뉴스레터에요. ✉️
ℹ️ 최신 논문과 연구 사례를 살펴보고 생성 AI 기술의 발전 동향을 미리 파악하고 대비할 수 있어요. 🧑💻
ℹ️ 어려운 기술 용어 지양하고 데모 영상 위주로 전달드려요. 데모 영상은 웹페이지에서 재생 가능해요. 📺
Video2Game
- 실사 비디오를 사실적인 인터랙티브 게임 환경 또는 시뮬레이터로 자동 변환하는 새로운 접근 방식인 Video2Game 입니다.
- 이 기술은 신경 방사 필드(NeRF)를 사용하여 비디오에서 장면의 기하학적 구조와 시각적 외관을 캡처합니다.
- 더 빠른 렌더링을 위해 메시 표현을 생성하고 장면 내 오브젝트 간의 물리적 상호 작용과 역학을 모델링한 결과 실제 장면의 인터랙티브 디지털 복제본을 만들어 게임이나 시뮬레이션을 제작하는 데 사용할 수 있어 수동 모델링에 드는 시간과 비용을 절약할 수 있습니다.
데모 영상👇
Video2Game: Real-time, Interactive, Realistic and Browser-Compatible Environment from a Single Video
PhysAvatar
- PhysAvatar는 인물의 신체 형태와 옷의 물리적 특성을 추정하는 등 동영상 영상에서 사실적인 3D 아바타를 만들 수 있는 새로운 시스템입니다.
- 역 렌더링 및 물리 시뮬레이션과 같은 고급 기술을 사용하여 인물의 옷이 움직일 때 어떻게 움직이고 변형되는지 정확하게 캡처합니다.
- 이를 통해 PhysAvatar는 원본 비디오 영상에는 없는 새로운 포즈와 조명 조건에서 아바타의 고품질 렌더링을 생성할 수 있습니다.
데모 영상👇
PhysAvatar: Learning the Physics of Dressed 3D Avatars from Visual Observations
OSWorld
- OSWorld는 다양한 운영 체제 및 애플리케이션에서 복잡한 컴퓨터 작업을 수행할 수 있는 실제 컴퓨터 환경을 멀티모달 에이전트에 제공하는 새로운 벤치마크입니다.
- 여기에는 실제 사용 사례에서 파생된 369개의 다양한 컴퓨터 작업과 상세한 초기 상태 설정 및 사용자 지정 평가 스크립트가 포함되어 있습니다.
- OSWorld에서 평가한 결과, 최신 언어 모델이 컴퓨터 도우미 역할을 하는 데는 상당한 한계가 있으며, 사람의 경우 72.36%의 성공률에 비해 12.24%에 불과한 것으로 나타났습니다.
데모 영상👇
OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
MonoPatchNeRF
- 제안된 방법은 ETH3D와 같은 멀티뷰 스테레오 벤치마크에서 신경 방사 필드(NeRF)의 기하학적 정확도와 뷰 외삽 기능을 개선합니다.
- 단안 표면 법선 및 상대 깊이 예측과 정규화된 교차 상관관계 및 구조적 유사성 같은 외형 정규화 기법을 활용하는 패치 기반 접근 방식을 사용합니다.
- 모션 포인트의 희소 구조에 기반한 '밀도 제한'을 통합하여 기하학적 정확도를 더욱 향상시키는 동시에 새로운 뷰 합성 메트릭을 약간 손상시킵니다.
데모 영상👇
MonoPatchNeRF: Improving Neural Radiance Fields with Patch-based Monocular Guidance
RealmDreamer
- 세분화 작업을 위한 기존의 COCO 데이터 세트는 다양한 세분화 유형(시맨틱, 인스턴스, 파놉틱)에 걸쳐 거칠고 일관되지 않은 주석을 가지고 있습니다.
- 논문 저자들은 383만 개의 이미지에 대해 사람이 검증한 5백만 개 이상의 고품질 세분화 마스크가 포함된 새로운 대규모 데이터 세트인 COCONut을 소개합니다.
- 편집 방식이 스마트하여 중요한 디테일을 그대로 유지합니다. 즉, 편집이나 스타일을 적용할 때 미세한 텍스처나 작은 오브젝트를 잃지 않습니다.
데모 영상👇
RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion
DreamScene360
- DreamScene360는 텍스트 프롬프트에서 자연 환경에 대한 포괄적인 360° 3D 장면을 생성하고, 2D 확산 모델과 프롬프트 자체 보정을 활용하여 고품질의 전역적으로 일관된 파노라마 이미지를 생성합니다.
- 2D 파노라마 이미지는 스플래팅 기법을 사용하여 3D 가우시안으로 변환되어 실시간 탐색이 가능하며, 2D 단안 심도를 전 세계적으로 최적화된 포인트 클라우드에 정렬하여 공간적으로 일관된 3D 지오메트리를 구축합니다.
- 단일 뷰 입력에서 보이지 않는 문제를 해결하기 위해 합성된 뷰와 입력된 카메라 뷰 모두에 정규화로 시맨틱 및 기하학적 제약 조건을 적용하여 가우시안 최적화를 유도하고 보이지 않는 영역의 재구성을 지원함으로써 360° 시점 내에서 전체적으로 일관된 3D 씬을 생성합니다.
데모 영상👇
DreamScene360: Unconstrained Text-to-3D Scene Generation with Panoramic Gaussian Splatting
댓글
의견을 남겨주세요