DeepMind VP of Research 오리올 비날스가 유튜브 채널 Google DeepMind에서 진행하여 2024년 12월 13일 공개된 인터뷰 내용을 리뷰해봤습니다.
오리올 비날스 (Oriol Vinyals)
- 1983년 스페인 바르셀로나 출생
- 카탈루냐 공과대학교에서 수학 학사
- UC 샌디에고에서 컴퓨터 과학 석사
- UC 버클리에서 전기전자컴퓨터공학 박사 취득
- 현재 구글 딥마인드의 수석 연구원으로 딥러닝 그룹 리더
- 기계 번역을 위한 seq2seq 모델 공동 개발
- 딥마인드의 AlphaStar 연구팀 리드 (스타크래프트 II AI 개발)
- AI 기반 이미지 캡셔닝 기술 개발
- 현재 딥마인드의 Gemini 프로젝트 기술 책임자
- 논문 인용 횟수 7만회 이상
- 2016년 MIT TR35 혁신가상 수상
2단계 학습 패러다임
알파고에서 제미니에 이르기까지, 딥마인드의 접근 방식은 두 가지 중요한 단계를 기반으로 합니다:
사전 학습 (모방 학습)
이 초기 단계는 다음을 통해 기본 능력을 확립합니다:
- 무작위 초기화된 신경망 가중치 적응
- 인간 생성 콘텐츠에서 패턴 인식
- 기본 행동 설정
- 기초 기술 습득
후속 학습 (강화 학습)
비날스는 게임과 비교하여 언어 모델에서의 강화 학습의 어려움을 지적합니다:
확장의 패러독스
컴퓨팅 스케일링의 한계에 대한 중요한 통찰:
주요 제약 사항:
- 기하급수적인 컴퓨팅 요구사항
- 하드웨어 통신 병목현상
- 유한한 고품질 훈련 데이터
- 성능 향상의 수확 체감
디지털 브레인 아키텍처
디지털 브레인의 핵심 구조
1. 뉴런과 가중치 네트워크
- 수많은 뉴런들이 서로 연결된 구조
- 각 연결에는 가중치(weight)가 있어 신호의 강도를 조절
- 입력 뉴런들의 신호가 가중치와 곱해져서 다음 뉴런으로 전달
- 실제 생물학적 뇌의 작동 방식과 유사한 구조
2. 학습 프로세스
- 사전학습(Pre-training/Imitation Learning) 단계
- 랜덤한 초기 가중치에서 시작
- 인터넷의 방대한 데이터를 활용해 인간의 지식을 모방하도록 학습
- 가장 많은 컴퓨팅 자원이 소요되는 단계
- 강화학습(Reinforcement Learning) 단계
- 보상 신호를 통해 성능을 더욱 향상
- 게임의 경우 승패가 명확한 보상 신호가 됨
- 언어 모델의 경우 명확한 보상 설계가 어려움
아키텍처의 발전 방향
1. 스케일링의 한계
- 단순히 모델 크기를 키우는 것은 투입한 자원 대비 성과가 적음
- 로그 스케일로 성능이 향상되어 지속적인 개선이 어려워짐
2. 혁신적 개선 방향
- 데이터 필터링과 순서 최적화
- 아키텍처 세부 조정 (레이어 구성, 뉴런 연결 등)
- 학습 프로세스 개선
- 합성 데이터 활용
3. 멀티모달 확장
- 텍스트 외에도 이미지, 비디오 등 다양한 데이터 처리
- 각 모달리티간의 개념 연결 능력 향상 필요
연구 철학
주요 연구 방향성
1. 확장된 에이전시(Agency)
- 모델에 디지털 바디(digital body) 부여
- 웹 브라우저, 검색엔진 등 외부 도구 활용 능력
- 자율적 의사결정과 행동 실행 가능성 탐구
2. 고도화된 추론 체계
- 다단계 사고 프로세스 구현
- 중간 단계 결과물 생성 및 활용
- 자체적인 연구와 분석 능력 개발
3. 멀티모달 지능
- 비디오 데이터에서 물리법칙 학습
- 텍스트 없는 순수 시각 데이터 이해
- 모달리티 간 개념 전이 연구
혁신적 접근 사례
1. 자기주도적 학습
- StarCraft와 같은 게임을 독학하는 능력
- 온라인 자료 검색 및 분석
- 실전 경험을 통한 자가 개선
2. 개인화된 지능
- 사용자 맥락 이해 및 적용
- 장기적 계획 수립 능력
- 복잡한 의사결정 지원
향후 발전 방향
1. 기술적 도전과제
- 안전한 샌드박스 환경 구축
- 확장 가능한 추론 시스템 개발
- 효율적인 메모리 관리 체계
2. 연구 우선순위
- 초인간적 성능 달성 가능 영역 식별
- 과학적 발견 프로세스 자동화
- 창의적 문제해결 능력 향상
잠재적 영향력
1. 과학 연구
- 새로운 수학 정리 발견
- 과학적 가설 생성 및 검증
- 연구자의 창의성 증폭
2. 실용적 응용
- 복잡한 여행 계획 자동화
- 소프트웨어 엔지니어링 지원
- 게임 플레이 보조 시스템
리뷰
최근 Gemini 2.0이 공개되었는데, 성능이 좋다는 평이 굉장히 많습니다. 제가 그동안 Google CEO 순다 피차이와 DeepMind CEO 데미스 하사비스의 인터뷰를 각각 다루었었는데 그때까지의 업계의 인식과는 달리 이분들이 Gemini의 성능에 대해 굉장히 자신감있어 하시길래 좀 의아한 느낌이 있었는데, 내부적으로는 충분히 자신감을 가질만한 성과가 있었던 것 같습니다.
오리올 비날스 부사장 본인이 인공지능 박사이기 때문에 이번 인터뷰는 꽤 기술적인 인터뷰였는데요 그럼에도 불구하고 일반인이 이해하기 쉬운 용어로 쉽게 풀어서 설명해주시는 걸 보며 역시 많이 아는 사람일수록 쉽게 설명한다는 진리를 확인했습니다.
저는 개인적으로 에이전트에 대한 이분의 설명이 정말 와닿았는데요. 그동안 사실 에이전트가 뭐냐는 것에 대해 굉장히 다양한 정의가 있어왔고, 그 애매함을 피하기 위해 Agent가 아닌 Agentic (에이전트같은)이라는 용어가 대신 사용되기도 했었습니다. 하지만 이번 인터뷰를 통해 적어도 저는 에이전트에 대한 이해가 아주 명확해졌는데요, 오리올 박사에 의하면 에이전트란 디지털 몸체(바디)라고 이해하면 된다고 합니다.
가령 이런 것이지요, 우리가 AI 의사를 만든다고 했을 때, 이 AI 의사에게는 두뇌와 몸체가 둘 다 필요할 것입니다. 여기서 두뇌에 해당되는 것이 GPT-4o, Claude Sonnet 3.5, Gemini 2.0과 같은 LLM들이고, 몸체에 해당되는 것은 논문을 검색해올 "검색 능력", 환자의 이력을 저장할 "기억 능력", 처방전 등 서류 문서를 작성할 "쓰기 능력" 등이 필요할 것입니다.
여기에 물리적 몸체인 로봇까지 붙는다면 수술을 집도할 능력까지 생길 수도 있겠지요. 이 모든 능력들을 가지고 두뇌인 LLM이 계획을 수립하고 업무를 수행하고 그 결과를 리뷰하는 것이 바로 에이전트라고 이해를 하니 모든 게 깔끔하게 정리되었습니다.
이밖에 이번 NeurIPS 2024에서 일리야 수츠케버가 말한 "데이터 벽" 현상에 대한 설명도 있었는데요. 결국 합성데이터를 잘 만드는 수밖에 없을 것 같고 그러기 위해서는 지금처럼 단순히 정보를 기억했다가 유사한 정보를 조합해서 답변하는 정도가 아니라 인간 두뇌 속에서 일반화된 어떤 형태를 찾아내서 합성데이터라고 하더라도 인간이 만든 것과 같은 퀄리티를 만들어내겠다는 목표를 제시하였습니다.
이는 일전에 리뷰한 안드레이 카파시의 이야기와도 일치하네요.
확실히 단순히 컴퓨팅을 늘리는 것으로 발전하던 시대는 끝난 거 같습니다. 이제부터의 발전은 LLM에 디지털 몸체를 붙여주는 에이전트와 합성데이터, 그리고 OpenAI 노암 브라운 박사가 이끄는 o1, o3 등 o-시리즈 접근법에서 일어날 것으로 보입니다.
의견을 남겨주세요