2027년, AGI가 온다 - 1편 샌프란시스코에서 먼저 본 미래

안녕하세요, 구독자님 언타랩스입니다. 최근 사업을 시작하느라 뉴스레터가 뜸했네요. 기다려 주셔서 감사합니다! VC 투자가로서 6년 그리고 앞으로 사업가로서의 인사이트를 가득 담아 이야기 풀어내 보겠습니다. 😀

이번 뉴스레터에서는 실리콘밸리에서 논란이 된 전 오픈AI 연구원 레오폴드 아셴브레너의 AGI(인간과 유사한 지능과 스스로 학습할 수 있는 능력을 갖춘 인공지능) 관련 이야기를 다룹니다.

2027년에 AGI가 개발된다는 주장은 급진적일 수 있지만, 인공지능 개발의 선두에 있는 오픈AI에서 이를 연구했던 사람의 이야기인 만큼 소개하고 싶었습니다.

그가 바라보는 모델의 발전 속도, 그로인한 전망을 살펴보는 일은 우리가 비즈니스를 계획하는데 좋은 재료가 되어줄 겁니다. 특히, AI 비즈니스를 만들고 있는 분에게는 이 페이퍼에서 언급된 '언호들링' 기술에 관심이 갈 것입니다.

원문은 165 페이지에 달하는 방대한 양이라, 향후 시리즈로 이어 나가겠습니다! :)

🎯 TLDR;

1. 샌프란시스코에서 먼저 보는 미래 - 컴퓨팅 클러스터 규모가 급속도로 커지며, 미국 전력 생산까지도 급증하고 있음. AGI 개발 경쟁은 이미 시작되었으며, 2027년에 도달할 가능성이 높음

2. OOM 계산으로 본 발전 속도 - 지난 10년간의 AI 발전을 바탕으로 2027년까지 5 OOMs 이상의 성능 확장이 예상됨. 이는 GPT-2에서 GPT-4로의 도약과 유사한 발전을 의미

3. AGI로의 도약과 지능 폭발 가능성 - AGI 도달 후 AI 연구의 자동화를 통해 빠른 초지능으로의 전환이 예상되며, 이는 경제적, 군사적 이점을 가져올 것

The Day

인간보다 뛰어난 인공지능의 등장은 불확실한 공포를 불러일으킵니다.

많은 SF 영화에서 인간과 인공지능은 공존에 실패합니다. 고전 SF 문학작품 Dune과 Foundation 속 미래사회의 공통점은, 기술이 발전하면서 인공지능 기술 덕분에 인간은 풍요로워 지지만, 지나친 의존으로 대다수의 인간은 퇴화하기에 이릅니다. 심지어 기계들에게 지배 당하기도 합니다.

옛날에 사람들은 생각하는 기능을 기계에게 넘겼다. 그러면 자기들이 자유로워질 거라는 희망을 품고 말이야. 하지만 그건 기계를 가진 다른 사람들이 그들을 노예로 삼는 결과를 낳았을 뿐이다.
듄 챕터 1, 가이우스 헬렌 모히암이 폴 아트레이데스를 시험하기 직전

OpenAI 의 Superalignment 팀 해산

지난 5월, OpenAI는 공동창업자였던 일리야 수츠케버의 퇴사 후 그가 이끌던 Superalignment(초정렬) 팀을 해체했습니다.

초정렬팀은 인간과 동등한 수준의 지능을 갖춘 일반인공지능(AGI)의 출연에 대비하여 안전 기술을 개발하던 부서입니다. AI가 인간에게 해롭지 않은 방식으로 작동할 수 있도록 관련 기술을 연구해 왔으나, 이를 주도하던 일리야 수츠케버와 AGI 개발 경쟁에 박차를 가했던 샘 올트먼 사이에 갈등이 있어왔습니다.

수츠케버와 샘 올트먼의 잦은 충돌 끝에 수츠케버는 올트먼을 이사회에서 축출했으나, 올트먼은 다시 복귀했습니다. (2023년 11월)

이로인해 수츠케버의 쿠테타는 일단락 되었고, 그가 이끌던 초정렬팀은 리소스 할당 우선순위에서 밀려나며 결국 2024년 5월 18일 팀 해체에 이르렀습니다.

인간보다 훨씬 더 똑똑한 AI 시스템을 조종하고 제어하기 위해 과학적, 기술적 혁신이 필요합니다. 이 문제를 4년 이내에 해결하기 위해, 우리는 일리야 수츠케버와 얀 레이크가 공동으로 이끄는 새로운 팀을 구성하고, 지금까지 확보한 컴퓨팅 자원의 20%를 이 노력에 할애하고 있습니다. 우리는 훌륭한 ML 연구원과 엔지니어들이 우리와 함께하기를 바랍니다.
OpenAI가 초정렬 팀을 만들며 내세운 문구 (2023년 7월 5일자 블로그)

이후, 수츠케버는 세이프 슈퍼인텔리전스(SSI)라는 AI 스타트업을 창립하며, 그가 꿈꾸었던 안전한 슈퍼인텔리전스를 개발하겠다고 나섰습니다.

한편, 수츠케버와 함께 초정렬팀을 이끌었던 얀 레이케는 퇴사 후 경쟁사인 앤트로픽(Anthrophic)에 합류해 초정렬 연구를 이어가고 있습니다.

[언타랩스 코멘트] 초정렬(Superalignment) 연구

인공지능(AI) 시스템이 인간의 의도와 목표에 부합하도록 설계되는 것을 목표로 하는 프로젝트. 이 연구는 특히 고도로 발전된 AI 시스템이 인간의 가치와 일치하는 방식으로 행동하도록 보장하기 위한 기술과 방법론을 개발하는 데 중점을 두고 있음

연구 분야 예시:
- AI의 의사결정 과정의 투명성과 설명 가능성 향상 (설명 가능한 AI)
- AI 시스템의 행동 예측 가능성 증대 (예측 가능한 AI)

그리고 한 달 후, OpenAI 초정렬팀의 연구원이었던 레오폴드 아셴브레너(Leopold Aschenbrenner)가 "Situational Awareness: The Decade Ahead" 라는 제목의 흥미로운 페이퍼를 발표했습니다. 아셴브레너는 165페이지에 달하는 페이퍼에서 2027년까지 AGI가 달성될 수 있으며, 이를 대비한 인류의 노력을 강조합니다.

사람들은 본래 극단적인 이야기에 끌리기 마련입니다.

인공지능이 인류를 지배한다는 공포는 여느 SF 문학 작품에 항상 등장하는 단골 소재입니다. 때문에 당장 4년 후인, 2027년에 AGI가 개발된다는 주장은 다소 급진적일 수 있습니다. AGI에 대한 공포가 과장되었을 수 있지만, 변곡점이 도래하면 돌이킬 수 없게 될지 모릅니다.

다소 극단적인 시나리오일 수 있으나, 현재 인공지능 개발의 선두에 있는 OpenAI의 연구원이던 사람의 이야기는 비즈니스 계획에 좋은 참고 자료가 될 것입니다.

긴 글을 다 읽기 부담스러운 분은, 이 챕터만 읽어도 됩니다.

SITUATIONAL AWARENESS: The Decade Ahead

Leopold Aschenbrenner, June 2024

I. GPT-4에서 AGI로: OOM의 계산

2027년까지 AGI가 나올 가능성은 매우 높습니다. GPT-2에서 GPT-4까지 우리는 약 4년 만에 유치원생 수준에서 똑똑한 고등학생 능력으로 발전했습니다. 컴퓨팅 파워, 알고리즘 효율성, 언호블링으로 인한 이득(챗봇에서 에이전트로의 전환)을 고려하면, 2027년까지 또 한 번의 유치원생에서 고등학생 수준의 질적 도약을 기대할 수 있습니다.

II. AGI에서 초지능으로: 지능 폭발

AI의 발전은 인간 수준에서 멈추지 않을 것입니다. 수백만 개의 AGI가 AI 연구를 자동화하여 10년간의 알고리즘 발전(5 자릿수 이상)을 1년 이내로 압축할 수 있습니다. 우리는 인간 수준에서 매우 초인적인 AI 시스템으로 빠르게 전환할 것입니다. 초지능의 힘과 위험은 극적일 것입니다.

III. 도전 과제

IIIa. 수조 달러 클러스터로의 질주

가장 놀라운 기술-자본 가속이 시작되었습니다. AI 수익이 급증함에 따라 다음 10년 안에 수조 달러가 GPU, 데이터 센터, 전력 구축에 투입될 것입니다. 산업 동원, 특히 미국의 전력 생산 증가가 강력하게 추진될 것입니다.

IIIb. 연구소 봉쇄: AGI 보안

국가의 주요 AI 연구소들은 보안을 부차적인 문제로 취급합니다. 현재 그들은 AGI의 핵심 비밀을 중국 공산당에 은쟁반에 올려서 건네주는 것과 같습니다. 국가 행위자 위협으로부터 AGI 비밀과 가중치를 보호하는 것은 엄청난 노력이 필요하며, 우리는 아직 준비가 되지 않았습니다.

IIIc. 초정렬

우리보다 훨씬 더 똑똑한 AI 시스템을 신뢰할 수 있게 제어하는 것은 아직 해결되지 않은 기술적 문제입니다. 해결 가능한 문제이지만, 빠른 지능 폭발 중에는 쉽게 통제 불능 상태가 될 수 있습니다. 이를 관리하는 것은 극도로 긴장될 것이며, 실패는 쉽게 치명적일 수 있습니다.

IIId. 자유 세계는 반드시 승리해야 한다

초지능은 결정적인 경제적, 군사적 이점을 제공합니다. 중국은 아직 경기를 포기하지 않았습니다. AGI 경쟁에서 자유 세계의 생존이 걸려 있습니다. 권위주의적 세력에 대한 우위를 유지할 수 있을까요? 그리고 우리는 자멸을 피할 수 있을까요?

IV. 프로젝트

AGI를 향한 경쟁이 심화됨에 따라 국가 안보 국가가 관여하게 될 것입니다. 미국 정부는 잠에서 깨어날 것이며, 2027/28년까지 정부 주도의 AGI 프로젝트가 생길 것입니다. 어떤 스타트업도 초지능을 다룰 수 없습니다. SCIF 어딘가에서 최종 게임이 시작될 것입니다.

V. 마무리 생각

만약 우리가 옳다면?

샌프란시스코 OpenAI 오피스 건물 (작년에 이사간다고 하던데, 옮겼는지 모르겠네요)

서론: 샌프란시스코에서 먼저 보는 미래

지난 한 해 동안 샌프란시스코에서는 $10억 규모의 컴퓨팅 클러스터에서 $100억 규모, 이제는 조 단위 클러스터로 이야기의 초점이 옮겨졌습니다. 매 6개월마다 이사회 계획서에 또 하나의 0이 추가되고 있습니다. 이면에서는 앞으로의 10년 동안 확보할 수 있는 모든 전력 계약과 가능한 모든 전압 변압기를 확보하기 위한 치열한 경쟁이 벌어지고 있습니다. 미국의 대기업들은 수십 년 만에 다시 보는 거대한 산업 동원에 수조 달러를 쏟아부을 준비를 하고 있습니다. 10년이 끝날 무렵, 미국의 전기 생산은 수십 퍼센트 증가할 것이며, 펜실베이니아의 셰일 가스전에서 네바다의 태양광 발전소에 이르기까지 수억 개의 GPU가 가동될 것입니다.

AGI(인공지능)의 경주는 이미 시작되었습니다. 우리는 사고하고 추론할 수 있는 기계를 만들고 있습니다. 2025/26년까지 이러한 기계들은 많은 대학 졸업생들을 능가할 것입니다. 10년이 끝날 무렵, 이 기계들은 당신이나 나보다 더 똑똑해질 것입니다. 우리는 진정한 의미의 초지능을 가지게 될 것입니다. 이 과정에서 50년 동안 보지 못했던 국가 안보 세력들이 풀려나고, 머지않아 '프로젝트'가 시작될 것입니다. 운이 좋다면 우리는 중국 공산당과의 전면적인 경쟁에 놓일 것이며, 운이 나쁘다면 전면적인 전쟁에 휘말릴 것입니다.

모두가 지금 AI에 대해 이야기하고 있지만, 다가올 일에 대해 어렴풋이 아는 사람은 거의 없습니다. 엔비디아 분석가들은 여전히 2024년이 정점일지도 모른다고 생각합니다. 주류 평론가들은 "그저 다음 단어를 예측하는 것"이라는 고의적인 무지에 갇혀 있습니다. 그들은 단지 과장된 홍보와 일상적인 비즈니스만을 보고 있으며, 기껏해야 또 다른 인터넷 규모의 기술 변화를 상상할 뿐입니다.

머지않아 세상은 깨어날 것입니다. 그러나 지금은 샌프란시스코와 AI 연구소에 있는 몇 백 명 정도만이 상황을 파악하고 있습니다. 운명적인 힘 덕분에 저는 그들 중 한 명이 되었습니다. 몇 년 전만 해도 이 사람들은 미친 사람들로 조롱받았지만, 그들은 추세를 신뢰했고, 덕분에 지난 몇 년간 AI 발전을 정확하게 예측할 수 있었습니다. 이 사람들이 앞으로 몇 년 동안도 옳을지는 두고 봐야 합니다. 그러나 이 사람들은 제가 만나본 사람 중 가장 똑똑한 사람들입니다. 이들이 바로 이 기술을 개발하고 있는 사람들입니다. 이들이 역사에 기이한 각주로 남을지, 아니면 실라드, 오펜하이머, 텔러처럼 역사에 남을지는 모르겠습니다. 만약 이들이 미래를 제대로 보고 있다면, 우리는 엄청난 변화를 맞이하게 될 것입니다.

제가 본 것을 여러분께 말씀드리겠습니다.

I. GPT-4에서 AGI로: OOM의 계산

Look. The models, they just want to learn. You have to understand this. The models, they just want to learn.

이 모델들은 그저 배우고 싶어합니다. 당신은 이것을 이해해야 합니다. 이 모델들은 그저 배우고 싶어합니다
일리야 수츠케버, circa 2015, via Dario Amode

GPT-4의 등장으로 많은 사람들이 놀랐습니다. 코드와 에세이를 작성하고, 어려운 수학 문제를 해결하며, 대학 시험에서 높은 점수를 받았습니다. 몇 년 전만 해도 불가능해 보였던 일들입니다.

그러나 GPT-4는 단지 지난 10년간 딥러닝의 빠른 발전의 연속일 뿐입니다. 10년 전에는 고양이와 개 이미지를 식별하는 것도 어려웠던 모델들이 이제 모든 벤치마크를 뛰어넘고 있습니다. 이러한 극적인 발전은 딥러닝 확장의 일관된 추세의 결과입니다.

이 추세를 더 오래전부터 본 사람들이 있습니다. 그들은 조롱을 받았지만, 추세를 믿었습니다. 그들은 옳았습니다. 모델들은 그저 배우고 싶어합니다. 모델을 확장하면, 더 많이 배웁니다.

저는 이렇게 주장합니다: 2027년까지 모델들이 AI 연구자나 엔지니어의 작업을 수행할 수 있을 가능성이 매우 높습니다. 이는 공상과학을 믿는 것이 아니라, 그래프의 직선을 믿으면 되는 일입니다.

Figure1. 대략적인 과거와 미래의 효과적인 컴퓨팅 증가(물리적 컴퓨팅과 알고리즘 효율성 모두)에 대한 추정치입니다. 이 글에서 논의된 공개 추정치를 바탕으로 합니다. 모델을 확장함에 따라 모델의 지능도 꾸준히 향상되며, "OOM을 계산"함으로써 (가까운) 미래에 우리가 기대할 수 있는 모델의 지능을 대략적으로 파악할 수 있습니다. (이 그래프는 기본 모델의 증가만을 보여주며, '언호들링'은 포함되지 않았습니다.)

여기서 OOM은 "Orders of Magnitude"의 약자로, 지수적으로 증가하는 성능 향상을 의미합니다. GPT-2에서 GPT-4로의 발전은 단순한 성능 향상이 아닌, 질적으로 큰 도약을 보여줍니다. 이러한 도약이 계속된다면, 2027년까지 AGI에 도달하는 것은 충분히 가능하다는 것입니다.

GPT-2와 GPT-4 사이의 변화는 단순한 계산 능력의 증가뿐만 아니라, 알고리즘의 효율성 향상과 시스템의 활용 방식 변화(예: 단순한 챗봇에서 보다 복잡한 에이전트로의 전환)에서 기인합니다. 이러한 요소들이 결합되어 향후 10년 내에 AGI로의 발전을 가속화할 것으로 예상됩니다.

이 추론은 간단하지만, 그 의미는 놀랍습니다. 또 한 번의 도약은 우리를 AGI로 데려갈 수 있으며, 박사나 전문가 수준의 모델이 우리와 함께 일하는 동료가 될 수 있습니다. 아마도 가장 중요한 점은 이러한 AI 시스템이 AI 연구 자체를 자동화할 수 있다면, 이는 강력한 피드백 루프를 설정하게 될 것입니다. 이는 다음 글의 주제입니다.

지금도 거의 아무도 이 모든 것을 예상하지 못하고 있습니다. 하지만 AI에 대한 상황 인식을 갖추는 것은 실제로 그렇게 어렵지 않습니다. 추세를 보면 됩니다. AI의 능력에 계속 놀란다면, 그냥 OOM을 계산해 보세요.

지난 4년

우리는 이제 인간처럼 대화할 수 있는 기계를 가지고 있습니다. 놀라운 것은 이러한 진보의 속도에 우리가 익숙해져 있다는 점입니다. 그러나 지난 몇 년간의 진보를 되돌아보는 것은 가치가 있습니다.

GPT-4에 이르기까지 고작 4년(!) 동안 얼마나 멀리 왔는지 상기시켜 드리겠습니다.

GPT-2 (2019) ~ 유치원생: "와우, 몇 개의 그럴듯한 문장을 연결할 수 있네요." 안데스 산맥의 유니콘에 대한 반쯤 일관된 이야기를 생성한 예시는 당시 매우 인상적이었습니다. 하지만 GPT-2는 5까지 세는 것도 어려웠습니다. 기사를 요약할 때, 그저 세 개의 무작위 문장을 선택한 것보다 약간 더 잘했습니다.

GPT-3 (2020) ~ 초등학생: "와우, 몇 가지 예시만으로 간단한 유용한 작업을 할 수 있네요." 여러 문단에 걸쳐 일관성을 유지하며 문법을 교정하고 기본적인 산수를 할 수 있었습니다. 처음으로 몇 가지 좁은 방식으로 상업적으로 유용하게 사용되었습니다.

GPT-4 (2023) ~ 똑똑한 고등학생: "와우, 복잡한 코드를 작성하고 디버그할 수 있으며, 복잡한 주제에 대해 지능적이고 세련되게 글을 쓸 수 있으며, 어려운 고등학교 수학 경시대회 문제를 해결할 수 있습니다." GPT-4는 이제 일상적인 작업에 유용하게 사용되고 있습니다.

해마다 회의론자들은 "딥러닝이 X를 할 수 없을 것"이라고 주장했으며, 그들은 계속해서 잘못되었습니다. 지난 10년 동안 AI로부터 배운 교훈이 하나 있다면, 그것은 딥러닝을 과소평가해서는 안 된다는 것입니다.

Counting the OOMs

어떻게 이런 일이 발생했을까요? 딥러닝의 마법은 그저 작동한다는 점입니다. 그리고 이 추세는 회의론자들이 매 순간 등장함에도 불구하고 놀라울 정도로 일관적이었습니다.

지난 4년간의 진보를 세 가지 카테고리로 분석해 볼 수 있습니다:

컴퓨팅 파워(Compute) : 우리는 이러한 모델을 훈련시키기 위해 훨씬 더 큰 컴퓨터를 사용하고 있습니다.
알고리즘 효율성(Algorithmic efficiencies): 알고리즘의 지속적인 발전이 있습니다. 많은 경우 이러한 발전은 "효과적인 컴퓨팅"의 자릿수 증가로 작용합니다.
언호블링 이득(Unhobbling gains): 모델이 기본적으로 제한되어 있는 명백한 방식을 수정함으로써 잠재 능력을 해제하고 도구를 제공하여 유용성에 큰 변화를 가져옵니다. 다음과 같은 간단한 알고리즘 개선을 통해 이러한 잠재 능력을 발휘할 수 있습니다. (예: RLHF, CoT, scaffolding 등)

우리는 각 축에서의 개선을 "OOM"으로 계산할 수 있습니다. 즉, 효과적인 컴퓨팅 단위로 각 축의 스케일 업을 추적하는 것입니다. 3배는 0.5 OOM, 10배는 1 OOM, 30배는 1.5 OOM, 100배는 2 OOM, 이런 식으로 계산됩니다.

데이터 벽과 같은 잠재적인 역풍이 존재하지만, 전반적으로 2027년까지 GPT-4 위에 또 다른 GPT-2에서 GPT-4로의 도약을 기대할 수 있을 것 같습니다. 하나씩 살펴보겠습니다.

1. 컴퓨팅 파워 (Compute)

최근 진보의 가장 흔히 논의되는 동인은 모델에 더 많은 컴퓨팅을 투입하는 것입니다. 많은 사람들은 이것이 단순히 무어의 법칙 때문이라고 생각합니다. 하지만 무어의 법칙이 절정에 달했던 시절에도, 그것은 비교적 느리게 진행되었습니다(10년마다 1~1.5 OOMs). 우리는 컴퓨팅의 급격한 확장을 보고 있습니다. 무어의 법칙보다 약 5배 빠른 속도로 말이죠. 이는 거대한 투자의 결과입니다. (과거에는 단일 모델에 백만 달러를 쓰는 것이 상상조차 할 수 없는 일이었지만, 이제는 그것이 작은 돈처럼 느껴집니다.)

[GPT-2에서 GPT-4까지 컴퓨팅 파워의 예상 변화] by Epoch AI

Model	Estimated compute	Growth
GPT-2 (2019)	~4e21 FLOP
GPT-3 (2020)	~3e23 FLOP	+ ~2 OOMs
GPT-4 (2023)	8e24 to 4e25 FLOP	+ ~1.5–2 OOMs

큰 흐름에서 보면, 이는 장기적인 추세의 연속일 뿐입니다. 지난 15년 동안, 주로 투자 확대(그리고 GPU와 TPU 형태의 AI 워크로드를 위한 특수 칩 개발)로 인해 최첨단 AI 시스템 훈련에 사용되는 컴퓨팅 파워는 연평균 약 0.5 OOM(자릿수)씩 증가해왔습니다.

GPT-2에서 GPT-3로의 컴퓨팅 증가가 1년 만에 이루어진 것은 예외적이었지만, 장기적인 추세는 계속될 것으로 보입니다.

분석에 따르면, 2027년 말까지 추가로 2 OOM(약 수십억 달러 규모)의 컴퓨팅 클러스터가 생길 가능성이 매우 높습니다. 심지어 3 OOM(1000억 달러 이상의 규모)에 가까운 클러스터도 가능성이 있어 보이며, 마이크로소프트와 오픈AI에서 이를 준비 중이라는 소문도 있습니다.

2. 알고리즘 효율성 (Algorithmic efficiencies)

대규모 컴퓨팅 투자에 많은 관심이 집중되지만, 알고리즘의 발전도 아마 비슷하게 중요한 발전의 원동력일 것입니다(그리고 이는 극적으로 과소평가되어 왔습니다).

알고리즘 발전이 얼마나 큰 영향을 미치는지 이해하려면, 지난 2년 동안 MATH 벤치마크(고등학교 수학 경시대회)에서 약 50% 정확도를 달성하기 위한 비용 감소를 고려해 보세요. (비교를 위해, 수학을 좋아하지 않는 컴퓨터 공학 박사 과정 학생이 40%를 기록했습니다. 그러니 이것은 이미 상당히 좋은 성과입니다.) 추론 효율성은 2년 만에 거의 3 OOMs(1,000배) 개선되었습니다.

Rough estimate on relative inference cost of attaining ~50% MATH performance.

장기적인 추세를 보면, 우리는 꾸준한 속도로 새로운 알고리즘 개선을 발견하고 있는 것 같습니다. 개별적인 발견은 무작위로 보이며, 매번 극복할 수 없을 것 같은 장애물에 직면하지만, 장기적인 추세는 예측 가능하며, 그래프에서 직선으로 나타납니다. 추세선을 신뢰하세요.

우리는 ImageNet에 대해 가장 좋은 데이터를 가지고 있습니다(알고리즘 연구가 주로 공개되었고, 10년 동안 데이터를 가지고 있습니다). 2012년에서 2021년 사이에 9년 동안 약 0.5 OOMs/년의 꾸준한 컴퓨팅 효율성 향상을 이루었습니다.

이는 엄청난 일입니다. 4년 후, 우리는 약 100배 적은 컴퓨팅으로 동일한 성능을 달성할 수 있으며, 바꿔말하면 동일한 컴퓨팅으로 100배의 성능을 달성할 수 있습니다.

Estimates by Epoch AI of algorithmic efficiencies in language modeling. Their estimates suggest we’ve made ~4 OOMs of efficiency gains in 8 years.

지난 4년을 살펴보면, GPT API 비용으로부터 모델의 훈련과 추론 비용을 유추할 수 있습니다.

GPT-4 는 성능이 크게 향상되었음에도 불구하고 GPT-3 출시 때와 거의 같은 비용이 들었습니다. (스케일링 법칙을 기반으로 한 단순 계산에 따르면, GPT-3에서 GPT-4로의 효과적인 컴퓨팅 증가의 약 절반이 알고리즘 개선에서 비롯되었을 가능성이 있습니다.)
GPT-4가 출시되고 1년 후, OpenAI는 GPT-4 모델의 가격을 입력은 6배, 출력은 4배 더 낮췄습니다.
최근 출시된 Gemini 1.5 Flash는 "GPT-3.75 수준"에서 "GPT-4 수준"의 성능을 제공하면서도 원래 GPT-4보다 85배/57배(입력/출력) 적은 비용으로 작동합니다.
Chinchilla 스케일링 법칙은 3배 이상(0.5 OOMs+)의 효율성 향상을 제공합니다.
Gemini 1.5 Pro는 주요 컴퓨팅 효율성 향상을 주장하며, Mixture of Experts (MoE) 아키텍처 변경을 강조했습니다. 다른 논문들도 MoE에서 상당한 컴퓨팅 배수를 주장합니다.
아키텍처, 데이터, 훈련 스택 등에서 많은 조정과 개선이 지속적으로 이루어지고 있습니다.

종합하면, GPT-2에서 GPT-4로의 도약에는 1-2 OOMs의 알고리즘 효율성 개선이 이뤄진 것으로 보입니다.

GPT-4 이후 4년 동안 우리는 이 추세가 계속될 것으로 기대할 수 있습니다: 연평균 0.5 OOMs의 컴퓨팅 효율성, 즉 2027년까지 GPT-4 대비 약 2 OOMs의 개선을 기대할 수 있습니다.

컴퓨팅 효율성을 찾는 것이 점점 더 어려워질 수 있지만, 새로운 알고리즘 개선을 찾기 위한 AI 연구소의 투자(자금 및 인재)는 빠르게 증가하고 있습니다. (공개적으로 추론 가능한 추론 비용 효율성은 전혀 둔화되지 않은 것 같습니다.) 고급에서는 더 근본적인, 트랜스포머와 같은 돌파구가 더 큰 이익을 가져올 수도 있습니다.

종합해보면, 2027년 말까지 GPT-4에 비해 1-3 OOMs의 알고리즘 효율성 개선을 기대할 수 있으며, 대략 2 OOMs가 될 가능성이 높습니다.

3. 언호블링 (Unhobbling)

[코멘트] "Unhobbling"은 영어에서 "hobble"의 반대말로, 어떤 것을 자유롭게 하거나 제한을 없애는 것을 의미합니다.

마지막으로, 정량화하기 가장 어렵지만 그 중요성이 결코 덜하지 않은 개선 범주가 있습니다. 이를 "언호블링"이라고 부르겠습니다.

어려운 수학 문제를 풀 때, 처음 떠오르는 답을 바로 말해야 한다고 상상해보세요. 가장 간단한 문제를 제외하고는 어렵게 느껴질 것입니다. 하지만 최근까지 우리는 LLM(대형 언어 모델)에게 그렇게 문제를 풀도록 했습니다. 대신 대부분의 사람들은 문제를 단계별로 풀어가며 더 어려운 문제를 해결할 수 있습니다. "사고의 연쇄" (Chain-of-Thought) 프롬프트는 LLM에게도 이런 과정을 가능하게 했습니다. 뛰어난 원시 능력을 가지고 있었지만, 명백한 방식으로 제한되어 수학을 잘 못 풀던 모델이 작은 알고리즘 조정을 통해 훨씬 더 큰 능력을 발휘할 수 있게 되었습니다.

지난 몇 년간 우리는 모델의 언호블링에서 큰 진전을 이루었습니다. 이는 단순히 더 나은 기본 모델을 훈련시키는 것을 넘어서, 모델의 능력을 해방시키는 알고리즘 개선입니다. 예를들어, 인간의 피드백을 통한 강화학습(RLHF), 연쇄 사고(CoF), 발판(Scaffolding), 도구(Tools), 컨텍스트 길이, 사우 훈련 개선 등의 방법이 있습니다.

Epoch AI의 조사에 따르면 일부 언호블링 기술은 5-30배의 효과적인 컴퓨팅 증가를 가져올 수 있다고 합니다. METR도 유사하게 GPT-4 베이스 모델에서 발판을 통해 매우 큰 성능 향상을 발견했습니다: 기본 모델로 5%에서 시작해, 출시 당시 사후 훈련된 GPT-4로 20%, 현재는 더 나은 사후 훈련, 도구, 에이전트 발판으로 거의 40%까지 증가했습니다.

"언호블링" 기술은 이러한 모델을 실생활에서 유용하게 만듭니다. 수많은 상업적 애플리케이션들이 언호블링의 필요성 때문에 막혀 있다고 볼 수도 있습니다.

왜냐하면 현재 모델들은 엄청나게 많은 제약에 막혀있습니다. 예를들어, 모델들은 장기 메모리가 없고, 제한된 컴퓨터 리소스만을 사용하며, 여전히 대부분 생각하기 전에 말합니다. 주고받은 대화를 계속 이어가지 못하고, 오랜 기간 문제를 생각하고 고민하며 다른 사람과 논의한 후 더 나은 혹은 더 긴 보고서를 작성하지 못합니다. 뿐만아니라, 모델들은 사용자를 알지 못합니다. 짧은 프롬프트만 있는 일반 챗봇이며, 회사나 업무 관련 배경 정보를 가지고 있지 않습니다.

언호블링 기술은 챗봇을 동료 에이전트로 변모시킬 것입니다.

첫 번째 핵심 요소는 "온보딩 문제" 해결입니다. GPT-4는 뛰어난 지능을 가지고 있지만, 회사 문서나 코드베이스를 이해하지 못해 실질적으로 유용하지 않습니다. 매우 긴 컨텍스트를 통해 모델을 새로운 동료처럼 온보딩할 수 있다면 큰 변화를 가져올 수 있습니다.

두 번째 요소는 장기 문제 해결을 위한 테스트 시간 컴퓨팅 오버행입니다. 현재 모델은 짧은 작업만 할 수 있지만, 장기 프로젝트를 해결할 수 있도록 시스템 II 외부 루프를 가르치면 모델의 능력이 크게 향상될 것입니다.

세 번째 요소는 모델이 컴퓨터를 사용할 수 있게 하는 것입니다. 모델이 줌 회의에 참여하고, 온라인으로 자료를 검색하며, 사람들과 메시지를 주고받고, 소프트웨어를 사용할 수 있다면, 원격 근무자처럼 동작할 수 있습니다. 이를 통해 모델은 큰 프로젝트를 독립적으로 수행할 수 있게 됩니다. 이러한 제약 해제를 통해 GPT-4보다 약간 더 나은 기본 모델을 사용하여도 실질적인 동료 에이전트가 될 수 있습니다.

초기 프로토타입인 Devin은 "에이전시 오버행"/"테스트 시간 컴퓨팅 오버행"을 해제하여 완전 자동화된 소프트웨어 엔지니어를 만드는 과정에서의 초기 모습을 보여줍니다. Devin이 실제로 얼마나 잘 작동하는지는 모르겠지만, 이 데모는 올바른 챗봇 → 에이전트 제약 해제와 비교하면 여전히 매우 제한적입니다. 하지만 곧 다가올 미래의 모습을 엿볼 수 있는 유용한 미리보기입니다.

https://situational-awareness.ai/wp-content/uploads/2024/06/devin.gif

GIF89aЕ1 9M/) 1Dq p! " # $'!$$!%!q~"!!""""&###$#&$06$et%%%%),&&&&14&>T'%%''''')'(''36()!))))/1*'&*/&+,,+4I+59,ix,q-----0.&$......

향후 4년 The next four years

지금까지의 수치를 종합해보면, GPT-4 이후 4년 동안, 즉 2027년 말까지 또 한 번의 GPT-2에서 GPT-4 수준의 도약을 기대할 수 있습니다.

GPT-2와 GPT-4 사이에는 대략 4.5~6 OOM 정보의 컴퓨팅과 알고리즘 향상이 있었음

향후 4년 동안에는 3~6 OOM의 base scaleup을 기대할 수 있을 것

GPT-2에서 GPT-4로의 도약은 대략 4.5~6 OOM 유효 컴퓨팅 증가(물리적 컴퓨팅과 알고리즘 효율성의 확장)에 더해 주요 "언호블링"이 있었습니다.

향후 4년 동안에는 3~6 OOM의 기본 유효 컴퓨팅 확장을 기대할 수 있으며, 예상으로는 약 5 OOM 정도가 될 것입니다. 또한, "언호블링"를 통해 유틸리티와 응용 프로그램이 단계적으로 변화할 것입니다. 이는 챗봇에서 에이전트 또는 원격 근무 대체제로의 전환을 의미합니다.

또 다르게 생각해 본다면, GPT-4 훈련에 3개월이 걸렸다면 2027년에는 선도적인 AI 연구소가 GPT-4 수준의 모델을 단 1분 만에 훈련할 수 있게 된다는 뜻입니다. 매우 극적인 변화입니다.