Nvidia 짐 판 박사가 말하는 자율 로봇의 시대

NVIDIA의 수석 연구원인 짐 판 박사가 유튜브 채널 Sequoia Capital과 진행하여 2024년 9월 17일 공개된 인터뷰 내용을 리뷰해봤습니다.

짐 판 (Jim Fan):

NVIDIA 수석 연구원, GEAR (Generalist Embodied Agent Research) 팀 공동 리더
스탠포드 박사 at Stanford Vision Lab
구글 인턴: 로봇 학습을 위한 대규모 강화학습 프레임워크 SURREAL 개발
OpenAI 인턴: 웹기반 에이전트 플랫폼 World of Bits 개발

World of Bits의 아이디어는 매우 단순했습니다. 컴퓨터 화면의 픽셀을 읽고 키보드와 마우스를 제어할 수 있는 AI 에이전트를 만드는 것이었죠. 이메일에 답장하거나 게임을 하거나 웹을 탐색하는 등 컴퓨터로 하는 모든 작업이 이 인터페이스로 가능합니다.
Nvidia 짐 판

NVIDIA의 휴머노이드 로봇 프로젝트

판 박사는 GEAR(Generalist Embodied Agent Research) 프로젝트를 리딩하며 휴머노이드 로봇을 위한 Foundation Model을 개발중
학습 데이터 확보를 위해 3가지 데이터 전략을 수립

인터넷 데이터: 가장 다양하며 상식적인 사전 지식 학습. 세계 지식 (World Knowledge)을 통해 물체와의 상호작용을 학습
시뮬레이션 데이터: 3D 가상 환경 안에서 학습. GPU 가속 시뮬레이터를 통해 실시간을 10,000배까지 가속하여 학습 데이터 생성
실제 로봇 데이터: 가장 직접적이고 고품질의 데이터이지만, 가장 수집 비용이 높고 GPU 가속을 활용할 수 없음

시스템 1과 시스템 2 사고

대니얼 카너만 박사가 제안한 시스템 1, 시스템 2 구분법에 따라 시스템 1과 시스템 2를 구분하여 접근
시스템 1: 무의식적, 빠른 사고, 적은 에너지 소모
시스템 2: 의식적, 느린 사고, 많은 에너지 소모
로봇공학의 'GPT-3 모멘트'가 시스템 1 측면에서 곧 실현될 것이라고 전망

제가 가장 좋아하는 예시는 '열다(open)'라는 동사입니다. 문을 여는 것과 창문을 여는 것, 병을 여는 것과 휴대폰을 여는 것은 모두 다른 동작을 필요로 합니다. 인간은 이러한 차이를 자연스럽게 이해하지만, 아직 이러한 동사들을 추상적으로 이해하고 다양한 시나리오에 일반화할 수 있는 로봇 모델은 없습니다.
Nvidia 짐 판

Nvidia의 비전

현재 트랜스포머 기반 모델의 한계는 아직 도달하지 않았음. 확장의 법칙은 앞으로도 계속 동작할 것으로 전망
Nvidia는 다음 폼팩터가 자율로봇이 될 것이라고 확신
이를 위해 NVIDIA는 다음과 같은 자율로봇 관련 솔루션을 개발, 기술 스택을 선점

칩 레벨: Jetson Thor 제품군
파운데이션 모델: Project Groot
시뮬레이션 도구 및 유틸리티

움직이는 모든 것은 결국 자율적이 될 것입니다. 10년 후쯤에는 아이폰만큼 많은 지능형 로봇이 있을 것이라 믿는다면, 우리는 지금부터 그것을 준비해야 합니다.
Nvidia CEO 젠슨 황

리뷰

Nvidia의 짐 판 박사는 인공지능 업계의 포레스트 검프라는 별명을 갖고 있는 것으로 유명한 인물입니다. 업계의 굵직한 사건과 인물 곁에서 자주 목격되기 때문이죠.

시간순서대로 보면, 짐 판 박사는 중국 바이두에서 1세대 인공지능 연구자인 스탠포드 대학의 앤드류 응 교수와 현 Anthropic CEO 다리오 아모데이에게 멘토링을 받았고, 역시 1세대 인공지능 연구자인 몬트리올 대학의 요수아 벤지오 교수에게 멘토링을 받고, OpenAI에서 인턴을 수행한 뒤, 스탠포드 대학에서는 페이페이 리 교수의 Vision Lab에서 박사학위를 받았습니다. 그 뒤로는 구글에서 잠시 연구원 생활을 하다가 Nvidia로 이직한 이력을 갖고 있지요.

이제는 Nvidia의 휴머노이드 로봇 프로젝트를 이끄는 판 박사는 로봇이 단순한 기술적 문제를 넘어 경제적 가치 창출로 이어질 것이라는 비전을 제시합니다. 이 부분이 저는 개인적으로 가장 흥미로웠는데요, 2024년 현재 업계는 아이폰 이후의 폼팩터에 대한 고민을 하고 있습니다.

메타의 경우엔 메타 글래스로, 애플의 경우엔 비전 프로라는 AR/VR 디바이스를 밀고 있지요. 개인적으로는 이런 디바이스에 대해 매우 회의적입니다. 머리에 끼는 디스플레이는 목도 아플거 같고, 머리를 둘러싸고 CPU, GPU, Wifi, 리튬이온배터리가 동작한다는 게 굉장히 거부감이 들거든요.

(좌) 메타 글라스 Ray-Ban 스타일 (우) 애플 비전 프로

한편 Nvidia와 Tesla는 휴머노이드 로봇을 밀고 있습니다. 조금 더 넓게 보면 보스턴 다이내믹스를 갖고 있는 현대자동차와 Figure사와 손잡은 OpenAI도 휴머노이드 로봇을 만들고 있죠. 당연하게도 휴머노이드 로봇의 인터페이스는 "시각(영상)"과 "청각(음성)"이 주가 될 확률이 높다고 보여집니다.

2007년 아이폰이라는 폼팩터를 들고와서 이후 시총 1위 기업이 된 애플의 사례처럼 지금 이 시점에 많은 기업이 향후 20년간의 시장을 선점하기 위해 각자가 생각하는 폼팩터를 밀고 있습니다. 현시점에서 Nvidia와 Tesla는 정말 로봇에 진심인 것 같네요. 이들의 베팅이 성공한다면 정말 새로운 세상이 열릴 것 같습니다.