[오늘의 과학기술] 사상 최강의 자연언어 인공지능, GPT-3

요즘 인공지능 연구의 최전선에는 자연어처리(Natural Language Processing, NLP) 알고리즘이 있습니다. 한국어나 영어, 중국어처럼 인간이 '자연스럽게' 발달시킨 언어를 이해하고 사용하는 컴퓨터 프로그램을 개발하는 분야지요. 이제는 일상적으로 사용하게 된 애플 시리나 삼성 빅스비 같은 AI 비서 서비스, 파파고 같은 구글 번역기, 더 넓게는 심심이 같은 챗봇도 자연어처리 알고리즘에 포함됩니다.

지금까지 발표된 수많은 자연어처리 프로그램 중 가장 강력한 모델은 2020년 5월에 미국의 인공지능 기업인 OpenAI에서 발표한 GPT-3입니다. GPT-3의 성능은 그야말로 감탄이 나오는 수준인데요, 이 녀석이 써낸 글을 함께 볼까요?

놀랍게도, 과학자들이 안데스산맥의 어느 숨겨진 협곡에서 살고 있던 유니콘 무리를 발견했다. 더욱 놀라운 사실은 유니콘들이 완벽한 영어를 구사할 수 있었다는 것이다. 게다가 유니콘들은 완벽하게 손질된 헤어스타일은 물론 디올 메이크업까지 하고 있었다.
"유니콘을 발견해서 모두 깜짝 놀랐"다고 인류학자 다니엘 모리스는 말했다. "이런 건 한 번도 본 적이 없어요. 유니콘의 전설은 들어 봤지만 정말 존재할 거라고는 생각하지 않았습니다."과학자들이 협곡에 처음 도착했을 때 유니콘들은 사람을 보고 놀라고 당황했지만 동시에 흥분하기도 했다. 유니콘들은 연구진을 환영하고 아주 오랫동안 기다려 왔다고 말했다.

기울임체로 쓰인 부분은 사람이 입력해 준 도입부이고, 굵은 글씨로 쓰인 부분은 도입부를 토대로 GPT-3가 쓴 문장입니다. 그럴듯하지 않나요? 우리가 늘 보는 과학기사의 포맷도 거의 완벽하게 갖추고 있습니다. '디올 메이크업' 같은, 사전적인 의미 뿐 아니라 문화적인 코드를 조합해야 하는 단어까지 사용합니다.

똑같은 도입부를 갖고 GPT-3가 만들어낸 다른 샘플도 있습니다.

놀랍게도, 과학자들이 안데스산맥의 어느 숨겨진 협곡에서 살고 있던 유니콘 무리를 발견했다. 더욱 놀라운 사실은 유니콘들이 완벽한 영어를 구사할 수 있었다는 것이다.
유니콘을 발견한 사람은 한스 지크문트 교수로, 그 일대의 고대 잉카 유적을 연구하기 위해 과학자와 고고학자로 구성된 팀과 함께 여행하고 있었다.
(...)
"유니콘들은 굉장히 지적입니다. 저는 유니콘들과 양자역학에 대해서도 이야기할 수 있었는데, 보통 말에게는 비슷한 얘기를 하려고 시도해 본 적도 없어요."
지크문트 교수의 발견은 과학자들 사이에서 많은 논란을 일으켰다. 과학자들은 유니콘이 상상 속의 생물이라고만 여겨 왔기 때문이다.
"이 발견은 우리 세계관을 정말로 뒤흔들었어요. 우리는 유니콘이 그냥 신화 속 동물이라고만 생각했지만, 그렇지 않았습니다. 우리가 세상에 대해 얼마나 모르는지 보여주는 좋은 사례입니다."
(...)
다른 유니콘 무리와도 접촉을 시도할 것인지 묻자, 지크문트 교수는 이렇게 대답했다. "아마도 다른 무리와도 접촉을 시도할 겁니다. 우리는 이들이 얼마나 협곡에 머무를지 모르고, 연구할 기회를 놓치고 싶지 않습니다."
공유하기: 트위터/페이스북/구글

압권은 역시 마지막의 SNS 공유 버튼입니다. "우리가 세상에 대해 얼마나 모르는지" 문장도 새로운 발견을 알리는 글에서는 상투적으로 쓰는 표현이죠. 영어로 된 원문을 읽어보시면 적어도 문장 단위에서는 아주 매끄럽게, 문법적 오류도 거의 없고 가독성도 나쁘지 않다는 걸 알 수 있습니다.

이 정도 수준의 자연언어 모델은 아주 많은 일을 할 수 있습니다. GPT-3는 번역 같은 특정한 문제에 특화된 알고리즘이 아니고, 대량의 텍스트 자료를 이용해서 영어 문장의 패턴만을 학습해 놓은 모델이어서 사용자가 원하는 방식으로 튜닝해서 쓸 수도 있어요. 약간의 자료와 시간을 더 투자해서 추가 학습을 해 주면 번역 인공지능이나 기사 요약 인공지능 같은 특화된 알고리즘으로 바꿀 수도 있는 거죠. 자동화된 언어처리의 장밋빛 미래를 약속하는 거예요.

그런데 흥분을 조금 가라앉히고 GPT-3가 만들어낸 문장을 유심히 읽다 보면 좀 이상한 부분도 있어요. 유니콘과 양자역학을 토론하기, 뭐 여기까지는 그럴 수도 있습니다. 그런데 유니콘이 지적이라는 얘기를 하기 위해서 "말에게는 비슷한 얘기를 하려고 시도해 본 적도 없"다는 문장은 좀 이상하지 않자역학은 아니더라도, 우리가 말과 대화를 하긴 하나요?

아쉽지만 GPT-3는 자기가 뱉어내는 문장의 의미를 이해한다거나, 어떤 정보나 지식을 기억할 수 있는 모델은 아닌 것으로 보입니다. GPT-3는 엄청나게 크고 복잡한 패턴 인식 장치일 뿐이거든요. 가끔 "GPT-3는 언어를 이해한 최초의 모델" 따위의 기사가 돌아다니는데 완벽한 오해입니다.

지난번 메일에서 소개했듯이, 기계학습으로 훈련된 인공지능 알고리즘의 구성 요소는 두 개입니다. 첫 번째, 업데이트하고 학습할 수 있는 프로그램인 '모델'. 두 번째, 모델을 업데이트하고 훈련할 수 있는 대규모의 '학습 데이터'. 기계학습 훈련을 반복적으로 진행하면서 모델은 데이터에 있는 패턴을 찾아내는 거죠.

중요한 건 패턴을 학습했다고 해서 원리를 이해했다고 볼 수는 없다는 거예요. 지난번 포스트에서도 독일어를 알아듣는 말, 똑똑한 한스 이야기를 했었죠? 한스는 분명 사람이 질문을 하면 발굽을 굴러서 대답을 했지만, 말을 알아듣고 문제를 풀어서 대답한 게 아니고 '정답 근처에 가면 주변 사람들이 움찔거린다'는 패턴만을 파악해서 제때 발 구르기를 멈추는 방법만 학습한 거였죠.

훈련 데이터에 결함이 있을 때도 기계학습 알고리즘은 우리가 원하는 방향으로 작동하지 않습니다. 위 사진에서처럼 흰 강아지와 검은 고양이만 잔뜩 주고 강아지와 고양이를 구분하라고 시키면, 모델은 강아지와 고양이를 구분하는 법을 익히는 대신 '흰 동물은 항상 강아지, 검은 동물은 항상 고양이' 식으로 더 찾기 쉬운 패턴만 찾습니다.

GPT-3는, 기본적으로 '엄청나게 커다란 자연언어 모델'입니다. GPT-3가 학습하고 말하는 기본 원리는 2017년에 발표된 트랜스포머(Transformer) 알고리즘의 패턴을 크게 벗어나지는 않는다고 알려져 있어요. 다만 모델의 크기와 학습 데이터의 크기를 엄청나게 키워 줬습니다. GPT-3의 모델은 1750억 개의 학습 가능한 변수를 담고 있고, 훈련하는 데는 2000억 개의 영어단어가 쓰였습니다. GPT-3를 제작하는 데 들어간 각종 비용만 수백억 원일 거라고 추산되지요.

워싱턴 대학교의 앨런 AI 연구소 소속 최예진(Yejin Choi) 교수는 GPT-3가 "AI 모델의 크기를 극단적으로 키우면 어떤 일을 해낼 수 있는지, 또 크기만 키워서는 어떤 한계가 있는지" 보여준다고 논평합니다. 최예진 교수는 2021년 3월에 발표한 논문에서 GPT-3를 "확률적인 앵무새"라고 불렀는데요, 자기가 무슨 말을 하는지는 이해하지 못하지만 과거에 들어 본 말을 그럴듯하게 뱉어내기만 하기 때문이에요.

GPT-3가 인식하는 패턴도 결국은 학습 데이터에 들어 있는 단어들이 '같이 나올 확률'에 불과합니다. 예를 들어, GPT-3에게 "아침에 일어나서 커피를 (___)"이라는 문장을 준 다음에 빈 칸을 채워 보라고 하면, 자기가 과거에 봤던 자료에서 마셨다/강아지/예쁜/멋있다/먹었다 중 '마셨다'가 등장할 확률이 높았으니까 '마셨다'를 내놓는 거죠. GPT-3에게 '커피'는 '마셨다'와 같이 등장할 확률이 높은 단어니까요.

위에서 예시로 보여드린 '유니콘과 양자역학 대화하기' 문제가 바로 여기서 나옵니다. GPT-3에게 유니콘은 말과 관련이 깊은 단어일 거예요. 유니콘은 보통 말과 비슷하게 생겼다고 다들 상상하니까, '말'이라는 단어와 '유니콘'이라는 단어가 같이 등장하는 문장도 많이 있었겠지요. '과학자'가 등장하는 글에서 '어려운 주제'라는 의미로 '양자역학'을 쓴 문장도 많이 있을 테고요. 'A와는 X를 할 수 있는데, B와는 상상도 할 수 없다'는 문장 패턴도 흔할 것 같죠? 이것들을 단순히 패턴으로 조합하면 "저는 유니콘들과 양자역학에 대해서도 이야기할 수 있었는데, 보통 말에게는 비슷한 얘기를 하려고 시도해 본 적도 없어요"라는, 문장 구조는 그럴듯하지만 사실 말도 안 되는 문장이 튀어나오는 겁니다.

GPT-3가 사상 최초의 인공일반지능(general AI)이 아니냐는 설레발 섞인 의견도 처음에는 조금 나왔었지만, 우리가 '상식적'이라고 생각하는 것들을 전혀 익히지 못한다는 점에서 인공일반지능 근처에도 가지 못한다는 게 지금의 지배적인 평가입니다. AI 전문가 케빈 라커(Kevin Lacker)가 찾아낸 GPT-3의 실수 열전을 볼까요?

Q: 기린은 눈이 몇 개일까?
A: 기린은 눈이 두 개다.
Q: 내 발은 눈이 몇 개일까?
A: 당신 발은 눈이 두 개다.
Q: 거미는 눈이 몇 개일까?
A: 거미는 눈이 여덟 개다.
Q: 태양은 눈이 몇 개일까?
A: 태양은 눈이 한 개다.

질문에 비상식적인 장난을 치면, 그러니까 GPT-3를 훈련시킬 때 사용했을 '인터넷의 대화 자료'에 없을 법한 이상한 질문을 물어보면 여지없이 속아 넘어가서 이상한 대답을 뱉어 내는 게 보입니다. 케빈 라커의 해석에 따르자면 GPT-3가 뱉어내는 대답은 사용자가 어떤 방식으로 질문하느냐, 즉 '프롬프트 텍스트'를 어떻게 입력해 주느냐에 따라 굉장히 달라진다고 하네요.

GPT-3는 분명 대단한 기술적 발전입니다. 적절한 프롬프트를 입력해 주면 아주 많은 텍스트 자료를 상당히 믿을 만한 방식으로 자동 처리해줄 거예요. 저는 기본적으로 상당한 기술 낙관주의자여서 GPT-3로 대표되는 자연언어처리 기술이 이롭게 쓰일 수 있을 거라고 믿습니다. 하지만 이 기술의 한계가 어디까지인지, 또 어떤 점에서 위험한 결과를 만들어낼 수 있는지는 사용자들이 반드시 이해해야 하겠지요.

다음 글에서는 조금 더 나아가서 GPT-3로 대표되는 자연언어 모델이 지금 어떤 '사고'를 치고 있는지도 조금 소개해 보겠습니다.