DeepMind 오리올 비날스 박사가 말하는 Gemini의 진화

DeepMind VP of Research 오리올 비날스가 유튜브 채널 Google DeepMind에서 진행하여 2024년 12월 13일 공개된 인터뷰 내용을 리뷰해봤습니다.

오리올 비날스 (Oriol Vinyals)

1983년 스페인 바르셀로나 출생
카탈루냐 공과대학교에서 수학 학사
UC 샌디에고에서 컴퓨터 과학 석사
UC 버클리에서 전기전자컴퓨터공학 박사 취득
현재 구글 딥마인드의 수석 연구원으로 딥러닝 그룹 리더

기계 번역을 위한 seq2seq 모델 공동 개발
딥마인드의 AlphaStar 연구팀 리드 (스타크래프트 II AI 개발)
AI 기반 이미지 캡셔닝 기술 개발
현재 딥마인드의 Gemini 프로젝트 기술 책임자

논문 인용 횟수 7만회 이상
2016년 MIT TR35 혁신가상 수상

2단계 학습 패러다임

알파고에서 제미니에 이르기까지, 딥마인드의 접근 방식은 두 가지 중요한 단계를 기반으로 합니다:

사전 학습 (모방 학습)

무작위 가중치(Random Weight)로 시작해서, 인간이 만든 많은 데이터를 모방하려는 알고리즘을 가지고 있습니다... 첫 단계에서는 그 데이터를 최대한 잘 모방하도록 가중치를 조정합니다.

이 초기 단계는 다음을 통해 기본 능력을 확립합니다:

무작위 초기화된 신경망 가중치 적응
인간 생성 콘텐츠에서 패턴 인식
기본 행동 설정
기초 기술 습득

후속 학습 (강화 학습)

비날스는 게임과 비교하여 언어 모델에서의 강화 학습의 어려움을 지적합니다:

게임에서는 매우 명확합니다... 이 수가 맞다고 느끼면 바로 둘 수 있지만, 생각하고 고민하면... 더 나은 수를 찾을 수 있죠.

확장의 패러독스

컴퓨팅 스케일링의 한계에 대한 중요한 통찰:

지난 3년간의 발전을 보면, 앞으로 3년간 같은 수준의 발전을 기대하기는 어렵습니다. 기하급수적으로 어려워지기 때문입니다.

주요 제약 사항:

기하급수적인 컴퓨팅 요구사항
하드웨어 통신 병목현상
유한한 고품질 훈련 데이터
성능 향상의 수확 체감

디지털 브레인 아키텍처

모든 지식에 접근할 수 있고 연구를 위한 시간을 가질 수 있다면... 가능성은 급격히 확장됩니다.

디지털 브레인의 핵심 구조

1. 뉴런과 가중치 네트워크

수많은 뉴런들이 서로 연결된 구조
각 연결에는 가중치(weight)가 있어 신호의 강도를 조절
입력 뉴런들의 신호가 가중치와 곱해져서 다음 뉴런으로 전달
실제 생물학적 뇌의 작동 방식과 유사한 구조

2. 학습 프로세스

사전학습(Pre-training/Imitation Learning) 단계

랜덤한 초기 가중치에서 시작
인터넷의 방대한 데이터를 활용해 인간의 지식을 모방하도록 학습
가장 많은 컴퓨팅 자원이 소요되는 단계

강화학습(Reinforcement Learning) 단계

보상 신호를 통해 성능을 더욱 향상
게임의 경우 승패가 명확한 보상 신호가 됨
언어 모델의 경우 명확한 보상 설계가 어려움

아키텍처의 발전 방향

1. 스케일링의 한계

단순히 모델 크기를 키우는 것은 투입한 자원 대비 성과가 적음
로그 스케일로 성능이 향상되어 지속적인 개선이 어려워짐

2. 혁신적 개선 방향

데이터 필터링과 순서 최적화
아키텍처 세부 조정 (레이어 구성, 뉴런 연결 등)
학습 프로세스 개선
합성 데이터 활용

3. 멀티모달 확장

텍스트 외에도 이미지, 비디오 등 다양한 데이터 처리
각 모달리티간의 개념 연결 능력 향상 필요

연구 철학

팀원들에게 과감하게 생각하라고 합니다. 모두가 생각하는 점진적인 것이 아니라, 몇 년 후에 일어날 일을 생각하고 그 아이디어를 현재로 가져와 실행하라는 것입니다.

주요 연구 방향성

1. 확장된 에이전시(Agency)

모델에 디지털 바디(digital body) 부여
웹 브라우저, 검색엔진 등 외부 도구 활용 능력
자율적 의사결정과 행동 실행 가능성 탐구

2. 고도화된 추론 체계

다단계 사고 프로세스 구현
중간 단계 결과물 생성 및 활용
자체적인 연구와 분석 능력 개발

3. 멀티모달 지능

비디오 데이터에서 물리법칙 학습
텍스트 없는 순수 시각 데이터 이해
모달리티 간 개념 전이 연구

혁신적 접근 사례

1. 자기주도적 학습

StarCraft와 같은 게임을 독학하는 능력
온라인 자료 검색 및 분석
실전 경험을 통한 자가 개선

2. 개인화된 지능

사용자 맥락 이해 및 적용
장기적 계획 수립 능력
복잡한 의사결정 지원

향후 발전 방향

1. 기술적 도전과제

안전한 샌드박스 환경 구축
확장 가능한 추론 시스템 개발
효율적인 메모리 관리 체계

2. 연구 우선순위

초인간적 성능 달성 가능 영역 식별
과학적 발견 프로세스 자동화
창의적 문제해결 능력 향상

잠재적 영향력

1. 과학 연구

새로운 수학 정리 발견
과학적 가설 생성 및 검증
연구자의 창의성 증폭

2. 실용적 응용

복잡한 여행 계획 자동화
소프트웨어 엔지니어링 지원
게임 플레이 보조 시스템

리뷰

5년 전이나 10년 전에 오늘날의 모델을 보여줬다면... AGI가 이미 실현됐거나 매우 가까워졌다고 생각했을 것입니다.

최근 Gemini 2.0이 공개되었는데, 성능이 좋다는 평이 굉장히 많습니다. 제가 그동안 Google CEO 순다 피차이와 DeepMind CEO 데미스 하사비스의 인터뷰를 각각 다루었었는데 그때까지의 업계의 인식과는 달리 이분들이 Gemini의 성능에 대해 굉장히 자신감있어 하시길래 좀 의아한 느낌이 있었는데, 내부적으로는 충분히 자신감을 가질만한 성과가 있었던 것 같습니다.

노벨화학상 수상자 데미스 하사비스가 말하는 구글과 AI

2030년대에 AGI를 달성가능할 것으로 봅니다.

maily.so

Google CEO 순다 피차이가 말하는 구글의 AI 비전

Google은 미래 성장의 핵심인 AI에 대한 지속적으로 집중할 예정입니다.

maily.so

오리올 비날스 부사장 본인이 인공지능 박사이기 때문에 이번 인터뷰는 꽤 기술적인 인터뷰였는데요 그럼에도 불구하고 일반인이 이해하기 쉬운 용어로 쉽게 풀어서 설명해주시는 걸 보며 역시 많이 아는 사람일수록 쉽게 설명한다는 진리를 확인했습니다.

저는 개인적으로 에이전트에 대한 이분의 설명이 정말 와닿았는데요. 그동안 사실 에이전트가 뭐냐는 것에 대해 굉장히 다양한 정의가 있어왔고, 그 애매함을 피하기 위해 Agent가 아닌 Agentic (에이전트같은)이라는 용어가 대신 사용되기도 했었습니다. 하지만 이번 인터뷰를 통해 적어도 저는 에이전트에 대한 이해가 아주 명확해졌는데요, 오리올 박사에 의하면 에이전트란 디지털 몸체(바디)라고 이해하면 된다고 합니다.

가령 이런 것이지요, 우리가 AI 의사를 만든다고 했을 때, 이 AI 의사에게는 두뇌와 몸체가 둘 다 필요할 것입니다. 여기서 두뇌에 해당되는 것이 GPT-4o, Claude Sonnet 3.5, Gemini 2.0과 같은 LLM들이고, 몸체에 해당되는 것은 논문을 검색해올 "검색 능력", 환자의 이력을 저장할 "기억 능력", 처방전 등 서류 문서를 작성할 "쓰기 능력" 등이 필요할 것입니다.

여기에 물리적 몸체인 로봇까지 붙는다면 수술을 집도할 능력까지 생길 수도 있겠지요. 이 모든 능력들을 가지고 두뇌인 LLM이 계획을 수립하고 업무를 수행하고 그 결과를 리뷰하는 것이 바로 에이전트라고 이해를 하니 모든 게 깔끔하게 정리되었습니다.

이밖에 이번 NeurIPS 2024에서 일리야 수츠케버가 말한 "데이터 벽" 현상에 대한 설명도 있었는데요. 결국 합성데이터를 잘 만드는 수밖에 없을 것 같고 그러기 위해서는 지금처럼 단순히 정보를 기억했다가 유사한 정보를 조합해서 답변하는 정도가 아니라 인간 두뇌 속에서 일반화된 어떤 형태를 찾아내서 합성데이터라고 하더라도 인간이 만든 것과 같은 퀄리티를 만들어내겠다는 목표를 제시하였습니다.

ex-OpenAI 일리야 수츠케버가 말하는 데이터의 벽

우리는 데이터의 정점에 도달했고, 더 이상은 없을 것입니다.

maily.so

이는 일전에 리뷰한 안드레이 카파시의 이야기와도 일치하네요.

ex-OpenAI, ex-Telsa 안드레이 카파시가 말하는 자율주행과 AI

지금 인공지능에게 부족한 것은 생각하는 과정에 대한 데이터

maily.so

확실히 단순히 컴퓨팅을 늘리는 것으로 발전하던 시대는 끝난 거 같습니다. 이제부터의 발전은 LLM에 디지털 몸체를 붙여주는 에이전트와 합성데이터, 그리고 OpenAI 노암 브라운 박사가 이끄는 o1, o3 등 o-시리즈 접근법에서 일어날 것으로 보입니다.