위클리 생성 AI

4월 3주차 : 새로 공개된 신기한 생성 AI 모델 🧙‍♂️

지난주 공개된 놀라운 6가지 생성 AI 모델과 데모 영상을 확인해 보세요

2024.04.16 | 조회 457 |
0
|

신기한 생성AI

“AI로 이런게 된다고??” 매주 발표되는 놀라운 생성 AI 기술만 모아서 보내드려요.

ℹ️ 빠르게 발전중인 생성 AI 기술 중 그 주의 가장 주목할만한 모델만 큐레이션해서 보내드리는 뉴스레터에요. ✉️

ℹ️ 최신 논문과 연구 사례를 살펴보고 생성 AI 기술의 발전 동향을 미리 파악하고 대비할 수 있어요. 🧑‍💻

ℹ️ 어려운 기술 용어 지양하고 데모 영상 위주로 전달드려요. 데모 영상은 웹페이지에서 재생 가능해요. 📺

 

Video2Game

  • 실사 비디오를 사실적인 인터랙티브 게임 환경 또는 시뮬레이터로 자동 변환하는 새로운 접근 방식인 Video2Game 입니다.
  • 이 기술은 신경 방사 필드(NeRF)를 사용하여 비디오에서 장면의 기하학적 구조와 시각적 외관을 캡처합니다.
  • 더 빠른 렌더링을 위해 메시 표현을 생성하고 장면 내 오브젝트 간의 물리적 상호 작용과 역학을 모델링한 결과 실제 장면의 인터랙티브 디지털 복제본을 만들어 게임이나 시뮬레이션을 제작하는 데 사용할 수 있어 수동 모델링에 드는 시간과 비용을 절약할 수 있습니다.

 데모 영상👇

Video2Game: Real-time, Interactive, Realistic and Browser-Compatible Environment from a Single Video

 

 

PhysAvatar

  • PhysAvatar는 인물의 신체 형태와 옷의 물리적 특성을 추정하는 등 동영상 영상에서 사실적인 3D 아바타를 만들 수 있는 새로운 시스템입니다.
  • 역 렌더링 및 물리 시뮬레이션과 같은 고급 기술을 사용하여 인물의 옷이 움직일 때 어떻게 움직이고 변형되는지 정확하게 캡처합니다.
  • 이를 통해 PhysAvatar는 원본 비디오 영상에는 없는 새로운 포즈와 조명 조건에서 아바타의 고품질 렌더링을 생성할 수 있습니다.

 데모 영상👇

PhysAvatar: Learning the Physics of Dressed 3D Avatars from Visual Observations

 

 

OSWorld

  • OSWorld는 다양한 운영 체제 및 애플리케이션에서 복잡한 컴퓨터 작업을 수행할 수 있는 실제 컴퓨터 환경을 멀티모달 에이전트에 제공하는 새로운 벤치마크입니다.
  • 여기에는 실제 사용 사례에서 파생된 369개의 다양한 컴퓨터 작업과 상세한 초기 상태 설정 및 사용자 지정 평가 스크립트가 포함되어 있습니다.
  • OSWorld에서 평가한 결과, 최신 언어 모델이 컴퓨터 도우미 역할을 하는 데는 상당한 한계가 있으며, 사람의 경우 72.36%의 성공률에 비해 12.24%에 불과한 것으로 나타났습니다.

 데모 영상👇

OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments

 

 

MonoPatchNeRF

  • 제안된 방법은 ETH3D와 같은 멀티뷰 스테레오 벤치마크에서 신경 방사 필드(NeRF)의 기하학적 정확도와 뷰 외삽 기능을 개선합니다.
  • 단안 표면 법선 및 상대 깊이 예측과 정규화된 교차 상관관계 및 구조적 유사성 같은 외형 정규화 기법을 활용하는 패치 기반 접근 방식을 사용합니다.
  • 모션 포인트의 희소 구조에 기반한 '밀도 제한'을 통합하여 기하학적 정확도를 더욱 향상시키는 동시에 새로운 뷰 합성 메트릭을 약간 손상시킵니다.

데모 영상👇

MonoPatchNeRF: Improving Neural Radiance Fields with Patch-based Monocular Guidance

 

 

RealmDreamer

  • 세분화 작업을 위한 기존의 COCO 데이터 세트는 다양한 세분화 유형(시맨틱, 인스턴스, 파놉틱)에 걸쳐 거칠고 일관되지 않은 주석을 가지고 있습니다.
  • 논문 저자들은 383만 개의 이미지에 대해 사람이 검증한 5백만 개 이상의 고품질 세분화 마스크가 포함된 새로운 대규모 데이터 세트인 COCONut을 소개합니다.
  • 편집 방식이 스마트하여 중요한 디테일을 그대로 유지합니다. 즉, 편집이나 스타일을 적용할 때 미세한 텍스처나 작은 오브젝트를 잃지 않습니다.

데모 영상👇

RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion

 

 

DreamScene360

  • DreamScene360는 텍스트 프롬프트에서 자연 환경에 대한 포괄적인 360° 3D 장면을 생성하고, 2D 확산 모델과 프롬프트 자체 보정을 활용하여 고품질의 전역적으로 일관된 파노라마 이미지를 생성합니다.
  • 2D 파노라마 이미지는 스플래팅 기법을 사용하여 3D 가우시안으로 변환되어 실시간 탐색이 가능하며, 2D 단안 심도를 전 세계적으로 최적화된 포인트 클라우드에 정렬하여 공간적으로 일관된 3D 지오메트리를 구축합니다.
  • 단일 뷰 입력에서 보이지 않는 문제를 해결하기 위해 합성된 뷰와 입력된 카메라 뷰 모두에 정규화로 시맨틱 및 기하학적 제약 조건을 적용하여 가우시안 최적화를 유도하고 보이지 않는 영역의 재구성을 지원함으로써 360° 시점 내에서 전체적으로 일관된 3D 씬을 생성합니다.

데모 영상👇

DreamScene360: Unconstrained Text-to-3D Scene Generation with Panoramic Gaussian Splatting

다가올 뉴스레터가 궁금하신가요?

지금 구독해서 새로운 레터를 받아보세요

✉️

이번 뉴스레터 어떠셨나요?

신기한 생성AI 님에게 ☕️ 커피와 ✉️ 쪽지를 보내보세요!

댓글

의견을 남겨주세요

확인
의견이 있으신가요? 제일 먼저 댓글을 달아보세요 !
© 2024 신기한 생성AI

“AI로 이런게 된다고??” 매주 발표되는 놀라운 생성 AI 기술만 모아서 보내드려요.

자주 묻는 질문 서비스 소개서 오류 및 기능 관련 제보

서비스 이용 문의admin@team.maily.so

메일리 사업자 정보

메일리 (대표자: 이한결) | 사업자번호: 717-47-00705 | 서울 서초구 강남대로53길 8, 8층 11-7호

이용약관 | 개인정보처리방침 | 정기결제 이용약관