4월 3주차 : 새로 공개된 신기한 생성 AI 모델 🧙‍♂️

ℹ️ 빠르게 발전중인 생성 AI 기술 중 그 주의 가장 주목할만한 모델만 큐레이션해서 보내드리는 뉴스레터에요. ✉️

ℹ️ 최신 논문과 연구 사례를 살펴보고 생성 AI 기술의 발전 동향을 미리 파악하고 대비할 수 있어요. 🧑‍💻

ℹ️ 어려운 기술 용어 지양하고 데모 영상 위주로 전달드려요. 데모 영상은 웹페이지에서 재생 가능해요. 📺

실사 비디오를 사실적인 인터랙티브 게임 환경 또는 시뮬레이터로 자동 변환하는 새로운 접근 방식인 Video2Game 입니다.
이 기술은 신경 방사 필드(NeRF)를 사용하여 비디오에서 장면의 기하학적 구조와 시각적 외관을 캡처합니다.
더 빠른 렌더링을 위해 메시 표현을 생성하고 장면 내 오브젝트 간의 물리적 상호 작용과 역학을 모델링한 결과 실제 장면의 인터랙티브 디지털 복제본을 만들어 게임이나 시뮬레이션을 제작하는 데 사용할 수 있어 수동 모델링에 드는 시간과 비용을 절약할 수 있습니다.

데모 영상👇

Video2Game: Real-time, Interactive, Realistic and Browser-Compatible Environment from a Single Video

PhysAvatar는 인물의 신체 형태와 옷의 물리적 특성을 추정하는 등 동영상 영상에서 사실적인 3D 아바타를 만들 수 있는 새로운 시스템입니다.
역 렌더링 및 물리 시뮬레이션과 같은 고급 기술을 사용하여 인물의 옷이 움직일 때 어떻게 움직이고 변형되는지 정확하게 캡처합니다.
이를 통해 PhysAvatar는 원본 비디오 영상에는 없는 새로운 포즈와 조명 조건에서 아바타의 고품질 렌더링을 생성할 수 있습니다.

데모 영상👇

PhysAvatar: Learning the Physics of Dressed 3D Avatars from Visual Observations

OSWorld는 다양한 운영 체제 및 애플리케이션에서 복잡한 컴퓨터 작업을 수행할 수 있는 실제 컴퓨터 환경을 멀티모달 에이전트에 제공하는 새로운 벤치마크입니다.
여기에는 실제 사용 사례에서 파생된 369개의 다양한 컴퓨터 작업과 상세한 초기 상태 설정 및 사용자 지정 평가 스크립트가 포함되어 있습니다.
OSWorld에서 평가한 결과, 최신 언어 모델이 컴퓨터 도우미 역할을 하는 데는 상당한 한계가 있으며, 사람의 경우 72.36%의 성공률에 비해 12.24%에 불과한 것으로 나타났습니다.

데모 영상👇

OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments

제안된 방법은 ETH3D와 같은 멀티뷰 스테레오 벤치마크에서 신경 방사 필드(NeRF)의 기하학적 정확도와 뷰 외삽 기능을 개선합니다.
단안 표면 법선 및 상대 깊이 예측과 정규화된 교차 상관관계 및 구조적 유사성 같은 외형 정규화 기법을 활용하는 패치 기반 접근 방식을 사용합니다.
모션 포인트의 희소 구조에 기반한 '밀도 제한'을 통합하여 기하학적 정확도를 더욱 향상시키는 동시에 새로운 뷰 합성 메트릭을 약간 손상시킵니다.

데모 영상👇

MonoPatchNeRF: Improving Neural Radiance Fields with Patch-based Monocular Guidance

세분화 작업을 위한 기존의 COCO 데이터 세트는 다양한 세분화 유형(시맨틱, 인스턴스, 파놉틱)에 걸쳐 거칠고 일관되지 않은 주석을 가지고 있습니다.
논문 저자들은 383만 개의 이미지에 대해 사람이 검증한 5백만 개 이상의 고품질 세분화 마스크가 포함된 새로운 대규모 데이터 세트인 COCONut을 소개합니다.
편집 방식이 스마트하여 중요한 디테일을 그대로 유지합니다. 즉, 편집이나 스타일을 적용할 때 미세한 텍스처나 작은 오브젝트를 잃지 않습니다.

데모 영상👇

RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion

DreamScene360는 텍스트 프롬프트에서 자연 환경에 대한 포괄적인 360° 3D 장면을 생성하고, 2D 확산 모델과 프롬프트 자체 보정을 활용하여 고품질의 전역적으로 일관된 파노라마 이미지를 생성합니다.
2D 파노라마 이미지는 스플래팅 기법을 사용하여 3D 가우시안으로 변환되어 실시간 탐색이 가능하며, 2D 단안 심도를 전 세계적으로 최적화된 포인트 클라우드에 정렬하여 공간적으로 일관된 3D 지오메트리를 구축합니다.
단일 뷰 입력에서 보이지 않는 문제를 해결하기 위해 합성된 뷰와 입력된 카메라 뷰 모두에 정규화로 시맨틱 및 기하학적 제약 조건을 적용하여 가우시안 최적화를 유도하고 보이지 않는 영역의 재구성을 지원함으로써 360° 시점 내에서 전체적으로 일관된 3D 씬을 생성합니다.

데모 영상👇