아티클

[번역] 업로드VR: 지니 3의 AI '월드 모델'이 사실적인 인터랙티브 VR 시대를 앞당기는 이유

AI 월드 모델 기술인 구글 딥마인드의 지니 3이 텍스트 명령만으로 실시간 인터랙티브 가상 세계를 생성하며 스타트랙 홀로덱 같은 몰입형 VR의 새로운 가능성을 제시한다.

2025.08.18 | 조회 282 |
0
|
0xPlayer의 프로필 이미지

0xPlayer

-

첨부 이미지

AI '월드 모델'이 현실과 구분할 수 없는 인터랙티브 VR로 가는 가장 현실적인 방법일까?

공상과학 소설 속 "가상현실"은 대부분 헤드셋을 착용하거나 뇌-컴퓨터 인터페이스를 연결해 실제와 구별할 수 없을 만큼 생생한 인터랙티브 가상 세계에 접속하는 모습을 그린다.

하지만 현재의 최첨단 VR은 상당히 현실적인 그래픽을 보여줄 수 있지만, 여전히 가짜라는 것이 바로 티가 난다. 이런 가상 세계를 만들려면 수년간의 개발과 수십만 달러에서 수백만 달러의 비용이 필요하다. 더 큰 문제는 주류 독립형 VR의 그래픽이 아무리 좋아도 2010년대 콘솔 게임 수준이고, 평균적으로는 2000년대 초반 게임 그래픽에 가깝다는 점이다.

메타와 퀄컴은 새로운 퀘스트 헤드셋이 나올 때마다 GPU 성능을 두 배씩 향상시켜왔다. 

인상적인 발전이지만, 이런 속도로는 현재 PC 그래픽 카드 수준에 도달하는 데만 수십 년이 걸릴 것이고, 실제 현실 수준과는 여전히 큰 격차가 있을 것이다. 게다가 미래의 성능 향상 상당 부분이 해상도 개선에 사용될 예정이다.

시선 추적 기반 렌더링이나 AI 업스케일링 같은 기술이 도움은 되겠지만, 근본적인 한계가 있다.

가우시안 스플래팅은 독립형 VR에서 현실적인 그래픽을 구현할 수 있게 해주지만, 스플랫은 특정 시점의 정적인 순간만 담아낸다. 실제 환경을 캡처하거나 3D 환경을 미리 렌더링해야 한다. 실시간 상호작용을 구현하려면 기존 렌더링 방식과 결합하는 하이브리드 방식이 필요하다.

그런데 현실적인 인터랙티브 가상 세계로 가는 완전히 다른 접근법이 있을지도 모른다. 전혀 다른 종류의 문제들이 따르지만, 잠재력은 훨씬 클 수 있는 방법 말이다.

어제 구글 딥마인드가 지니 3를 공개했다. 텍스트 명령만으로 실시간 인터랙티브 비디오 스트림을 생성하는 AI 모델이다. 본질적으로는 실제와 거의 구분되지 않는 비디오 게임인데, 모든 프레임이 완전히 AI로 생성되며 기존 렌더링이나 이미지 소스는 전혀 사용하지 않는다.

구글은 지니 3을 "월드 모델"이라고 부르지만, 인터랙티브 비디오 모델이라고 봐도 무방하다. 초기 입력은 텍스트 명령이고, 실시간 입력은 마우스와 키보드이며, 출력은 비디오 스트림이다.

다른 많은 생성형 AI 시스템과 마찬가지로 지니 시리즈에서 놀라운 점은 엄청난 발전 속도다.

2024년 초에 공개된 첫 번째 지니는 주로 256×256 해상도의 2D 횡스크롤 게임을 만드는 데 집중했다. 게임 세계에 버그가 생기고 일관성을 잃어버리기 전까지 겨우 수십 프레임만 유지할 수 있었다. 그래서 공개된 샘플 영상들이 1-2초에 불과했다."

그런데 12월에 지니 2가 3D 그래픽 월드 모델을 구현해 AI 업계를 깜짝 놀라게 했다. 마우스로 화면을 돌리는 조작과 WASD나 방향키를 통한 1인칭 또는 3인칭 조작이 가능했다. 360p 15fps로 출력했고 약 10-20초간 유지할 수 있었으며, 그 이후에는 게임 세계가 일관성을 잃기 시작했다.

지니 2의 출력은 또한 흐릿하고 디테일이 부족했으며, 몇 년 전 구세대 비디오 생성 모델에서 볼 수 있는 AI 생성물 특유의 느낌이 있었다.

지니 3은 상당한 발전을 보여준다. 720p 24fps로 매우 현실적인 그래픽을 출력하며, 환경이 1분 동안 완전히 일관성을 유지하고 "몇 분" 동안은 "대체로" 일관성을 유지한다.

지니 3이 정확히 무엇을 하는지 잘 모르겠다면, 쉽게 설명하겠다. 원하는 가상 세계에 대한 설명을 입력하면 몇 초 안에 화면에 나타나고, 평범한 키보드와 마우스로 탐험할 수 있다.

이 가상 세계들은 정적이지 않다. 문에 다가가면 열리고, 움직이는 물체에는 실시간 그림자가 생기며, 물체가 물에 닿을 때 물보라와 파도 같은 물리적 상호작용까지 볼 수 있다.

지니 3의 가장 흥미로운 점은 이런 현상들이 훈련 과정에서 개발된 세계 모델에서 저절로 나타나는 창발적 특성이지, 미리 프로그래밍된 것이 아니라는 점이다. 인간 개발자들이 물리학의 한 측면만 시뮬레이션하는 데 몇 달씩 걸리는 경우가 많은 반면, 지니 3은 다양한 물리 현상을 하나로 통합해낸다. 그래서 구글이 이것을 "월드 모델"이라고 부르는 것이다.

더 복잡한 상호작용은 프롬프트에서 상호작용 방식을 구체적으로 설명해서 구현할 수 있다.

한 예시 영상에서는 "페인트 롤러로 집을 칠하는 1인칭 에이전트의 POV 액션 카메라, 황갈색 집"이라는 프롬프트를 입력해서 실제 같은 벽칠하기 미니게임을 만들어냈다.

지니 3은 또한 날씨 변화부터 새로운 객체와 캐릭터 추가까지 프롬프트로 조작할 수 있는 월드 이벤트 기능을 추가했다.

이런 이벤트 프롬프트는 플레이어가 음성 입력으로 제공하거나, 세계를 만드는 사람이 미리 정해놓을 수 있다.

언젠가는 가상 세계에서 거의 무한하게 다양한 새로운 콘텐츠와 이벤트를 가능하게 할 수 있을 것이다. 기존 개발팀이 업데이트를 출시하는 데 걸리는 몇 주나 몇 달과는 완전히 다른 차원이다.

물론 720p 24fps는 현대 게이머들이 기대하는 것보다 훨씬 낮고, 게임플레이 세션은 1-2분보다 훨씬 길어야 한다. 하지만 발전 속도를 고려하면, 이런 기본적인 기술적 한계는 향후 몇 년 안에 해결될 것 같다.

지니 3 같은 모델을 VR에 적용하는 것에 관해서는 더 실질적인 다른 문제들이 생긴다.

모델은 최소한 6DoF 헤드 포즈를 입력으로 받아야 하고, 위치 이동도 인식해야 하며, 이상적으로는 손과 심지어 몸의 포즈까지 통합해야 한다. 단순히 세계를 둘러보기만 하는 게 아니라 물체와 직접 상호작용하려면 말이다.

이론적으로는 불가능한 것이 아니지만, 훨씬 더 폭넓은 훈련 데이터와 모델에 대한 상당한 아키텍처 변경이 필요할 것이다.

당연히 스테레오 이미지도 출력해야 한다. 하지만 다른 쪽 눈은 AI 뷰 합성이나 YORO 같은 기존 기술로 합성할 수 있다.

지연 시간도 우려가 될 수 있지만, 구글은 지니 3이 50밀리초의 전체 제어 지연 시간을 가진다고 주장한다. 이는 24fps 플랫 스크린 게임의 이론적 최소값 41.67ms에 매우 근접한다. 미래 모델이 90fps로 실행할 수 있다면, VR 재투영 기술과 결합해서 문제가 되지 않을 것이다.

구글은 또한 지니 3에서 할 수 있는 행동이 제한적이고, 여러 독립 에이전트 간의 복잡한 상호작용을 모델링할 수 없으며, 완벽한 지리적 정확성을 가진 실제 세계 위치를 시뮬레이션할 수 없다고 언급한다. 선명한 텍스트는 미리 프롬프트로 지정해야만 나타나는 경우가 많다. 이런 문제들을 "진행 중인 연구 과제"라고 설명한다.

지니 3은 또한 가상 세계의 중요한 요소인 오디오 기능이 전혀 없다.

하지만 지니 3 같은 AI "월드 모델"에는 활용 범위를 제한할 훨씬 더 근본적인 문제가 있고, 이것이 기존 렌더링이 곧 사라지지 않을 이유다.

최근 몇 년간 매우 현실적인 AI 이미지 생성의 인상적인 사례들을 보았을 것이고, 최근 몇 달간은 AI 비디오 생성(구글 딥마인드의 Veo 3 같은)을 보았을 것이다. 하지만 직접 사용해보지 않았다면, 이런 모델들이 대체적으로는 지시를 따르지만 지정한 세부사항과 맞지 않는 경우가 많다는 것을 모를 수도 있다.

더 나아가, 출력에 원하지 않는 것이 포함되어 있다면, 프롬프트를 조정해서 제거하려고 해도 종종 실패한다. 예를 들어, 최근에 Veo 3에게 겨자 없이 케첩만 있는 핫도그를 들고 있는 사람이 포함된 비디오를 생성하라고 요청했다. 하지만 아무리 구체적으로 지시해도, 모델은 겨자가 있는 핫도그만 생성했다.

전통적인 렌더링 비디오 게임에서는 개발자들이 의도한 것을 정확히 본다. 아트 디렉션과 스타일의 세밀한 디테일들이 가상 세계에 독특한 느낌을 만들어내며, 이는 종종 수년간의 정교한 작업을 통해 완성된다.

반대로 AI 모델의 출력은 훈련 데이터의 패턴에 의해 형성된 잠재 공간에서 나온다. 텍스트 프롬프트는 완전히 이해된 명령이라기보다는 고차원 좌표에 가깝기 때문에, 아티스트가 마음속에 그린 것과 정확히 일치하지 않을 것이다. 프롬프트로 조작하는 월드 이벤트까지 고려하면 이것은 더욱 복잡해진다.

물론 AI 월드 모델의 조작성도 시간이 지나면서 개선될 것이다. 하지만 이는 단순히 해상도와 메모리 범위를 높이는 것보다 훨씬 더 어려운 과제이며, 기존 게임 엔진의 정밀한 컨트롤을 결코 따라가지 못할 수도 있다.

조작성 문제가 있다고 하더라도, 단순히 설명을 입력하는 것만으로 실제와 같은 인터랙티브 VR 세계를 만들어낼 수 있다면, 그 매력을 외면하는 것은 어리석은 일일 것이다. AI 월드 모델은 기존의 렌더링용 AI 생성 에셋들보다도 스타트랙의 홀로덱이라는 꿈을 실현하는 데 훨씬 더 적합해 보인다.

분명히 말하자면, 우리는 아직 AI "월드 모델"의 초기 단계에 있다. 해결해야 할 많은 주요 과제들이 있고, 헤드셋에서 몇 시간씩 안정적으로 돌아가는 VR 모델이 나오기까지는 아마 몇 년이 걸릴 것이다. 하지만 이 분야의 발전 속도는 놀랍고, 잠재력은 흥미진진하다. 이는 우리가 매우 주의 깊게 지켜볼 연구 영역이다.


본 콘텐츠는 2025년 8월 6일 Upload VR이 발행한 "Why Genie 3 Suggests AI 'World Models' Are The Path To Photorealistic Interactive VR" 아티클을 번역한 것입니다. 

저는 전문 번역가가 아니기 때문에 오역이 있을 수 있습니다. 또한 본 글은 원저작자의 요청에 따라 불시에 삭제될 수 있습니다. 감사합니다.

 

다가올 뉴스레터가 궁금하신가요?

지금 구독해서 새로운 레터를 받아보세요

✉️

이번 뉴스레터 어떠셨나요?

0xPlayer 님에게 ☕️ 커피와 ✉️ 쪽지를 보내보세요!

댓글

의견을 남겨주세요

확인
의견이 있으신가요? 제일 먼저 댓글을 달아보세요 !

다른 뉴스레터

© 2026 0xPlayer

-

뉴스레터 문의lowell9195@gmail.com

메일리 로고

도움말 오류 및 기능 관련 제보

서비스 이용 문의admin@team.maily.so 채팅으로 문의하기

메일리 사업자 정보

메일리 (대표자: 이한결) | 사업자번호: 717-47-00705 | 서울특별시 송파구 위례광장로 199, 5층 501-8호

이용약관 | 개인정보처리방침 | 정기결제 이용약관 | 라이선스