인공지능

2024 튜링상 수상자 리처드 서튼 교수가 말하는 강화학습

AI의 가장 위대하고 영향력 있는 측면들은 아직 오지 않았습니다.

2025.03.25 | 조회 256 |
0
|
주간 Tech Review의 프로필 이미지

주간 Tech Review

IT 업계의 정보와 인사이트를 공유하고 있습니다.

강화학습의 대가, 캐나다 앨버타 대학의 리처드 서튼 교수가 2024 튜링상 수상 이후 앨버타 기계지능 연구소 (Alberta Machine Intelligence Institute)와 진행하여 2025년 3월 5일 공개된 인터뷰 영상을 리뷰해봤습니다.

튜링상: 컴퓨팅 분야의 최고 영예

튜링상은 흔히 "컴퓨팅의 노벨상"으로 불리며, 컴퓨터 과학 분야에서 최고의 인정을 의미합니다. 1966년 컴퓨팅 기계 협회(ACM)에 의해 제정된 이 상은 현대 컴퓨팅과 인공지능의 이론적 기초를 마련한 영국의 수학자이자 컴퓨터 과학자인 앨런 튜링의 이름을 따서 명명되었습니다. 수상자들은 컴퓨팅 분야에 지속적이고 중대한 기술적 중요성을 지닌 공헌을 인정받습니다.

구글이 후원하는 100만 달러의 상금과 함께, 이 상은 기술과 사회를 근본적으로 발전시킨 혁신을 인정합니다. 이전 수상자로는 마빈 민스키, 존 매카시, 빈트 서프와 같은 선구자들, 그리고 최근에는 얀 르쿤, 제프리 힌튼, 요슈아 벤지오와 같은 딥러닝 연구자들이 있습니다. 리처드 서튼과 앤드류 바르토는 강화학습 연구자로서는 처음으로 이 영예를 받으며, 인공지능의 더 넓은 지형에서 이 분야의 중요성을 보여주는 이 명망 높은 계보에 합류했습니다.

강화학습 선구자의 학문적 여정

리처드 S. 서튼 교수는 인공지능 연구 발전에 주목할 만한 길을 개척했습니다. 오하이오에서 태어나 일리노이 주 오크 브룩에서 성장한 서튼의 학문적 여정은, 1978년 스탠포드 대학교에서 심리학 학사학위를 취득하며 시작되었습니다. 인간 인지에 대한 이해를 바탕으로 한 이 기초는 후에 그의 혁신적인 기계학습 연구에 영향을 미쳤습니다. 그는 매사추세츠 애머스트 대학교에서 교육을 이어갔으며, 1980년 석사학위를 취득하고 앤드류 바르토의 지도 아래 1984년 박사학위를 완료했습니다. 바르토는 이후 그의 오랜 협력자가 되었습니다.

서튼은 박사학위 취득 이후 AT&T 벨 연구소(1984-1990)에서 근무했으며, 이어서 매사추세츠 대학교(1990-1995)에서 교수직을 맡았습니다. AT&T 연구소(1995-1998)로 돌아간 후, 그는 1998년 캐나다로 이주하여 앨버타 대학교 교수로 합류하면서 중요한 진로 변경을 했고, 그곳에서 AI 연구의 선도적 인물로 자리매김했습니다.

바르토와 공동 저술한 교과서 "강화학습: 입문(Reinforcement Learning: An Introduction)"은 이 분야의 초석 참고서가 되었습니다. 서튼의 비범한 공헌으로 그는 캐나다 왕립학회 펠로우(2016), 영국 왕립학회 선출(2021) 등 명망 높은 인정을 받았습니다. 2017년부터 그는 앨버타 기계지능 연구소의 수석 과학 고문으로 일하면서, 킨 테크놀로지스(Keen Technologies)의 연구 과학자로도 활동하고 있습니다. 15만 건이 넘는 인용 횟수를 기록하며, 서튼의 AI 연구에 대한 영향력은 심오하고 지속적입니다.

예상치 못한 영예

이 뛰어난 경력은 최근 컴퓨터 과학 분야에서 가장 높은 인정인 튜링상을 수여받으며 정점에 달했습니다. 서튼은 오랜 협력자인 앤드류 바르토와 함께 이 상을 받았습니다. 이 소식은 완전한 놀라움으로 다가왔습니다:

"전혀 예상하지 못했어요. 어쩌면 예상했어야 했는데, 그러지 못했죠, 컴퓨터 과학자가 받을 수 있는 최고의 상입니다. 사람들이 높게 평가하죠... 그에 걸맞게 살아가야 합니다."

강화학습의 본질

서튼은 강화학습의 핵심을 "경험으로부터 배우는 것"이라고 설명합니다. 그는 이를 다른 AI 접근법과 대비시킵니다: "많은 것들이 경험으로부터 배우지 않습니다. 대규모 언어 모델은 사람들을 모방하기 때문에 사람들로부터 배우죠... 반면에 강화학습은 경험으로부터 배우는 것입니다."

"앨런 튜링은 경험으로부터 배우는 것에 대해 이야기했습니다. 그가 기계가 경험으로부터 배우는 것에 대해 처음 언급한 사람이죠... 1947년 런던 수학회 강연에서, 그는 '우리가 원하는 것은 경험으로부터 배우는 기계입니다'라는 구절을 남겼습니다. 이는 AI에 대한 최초의 공개 발표였습니다."

변화하는 트렌드 속 변하지 않는 기본 개념

AI 연구의 빠른 변화 속에서, 서튼과 바르토는 일관된 초점을 유지해왔습니다: "앤디와 나는 모든 일들 가운데 변하지 않는 기준점을 추구했습니다." 다양한 AI 트렌드가 왔다 갔지만, 그들은 경험으로부터 배우는 기본 개념에 헌신했습니다.

"처음에 우리는 '경험으로부터 배우는 것. 그게 맞는 방향이다. 보상과 벌칙. 그것이 이치에 맞는다. 우리 그것을 파헤쳐보자'라고 말했습니다. 아무도 이것을 하지 않았지만, 누군가는 해야 했습니다. 결국 이것이 '강화학습'이라는 하나의 카테고리가 되었죠."

마라톤이지 단거리가 아닙니다

현재 AI 진보에 대한 흥분에도 불구하고, 서튼은 더 긴 관점을 유지합니다: "나는 '지금 일들이 너무 빠르게 진행되고 있다'는 관점에 동의하지 않습니다. 엄청난 진보가 이루어졌지만... 이것은 마라톤이지 단거리가 아닙니다. AI의 가장 위대하고 영향력 있는 측면들은 아직 오지 않았습니다."

이러한 관점은 AT&T 벨 연구소에서의 초기 시절부터 앨버타 대학교와 앨버타 기계지능 연구소의 수석 과학 고문으로서의 현재 역할에 이르기까지, 서튼의 수십 년에 걸친 AI 연구에 대한 헌신을 반영합니다. 그의 전체 경력을 통해, 그는 AI 발전에 대한 이러한 측정된, 장기적 비전을 유지해왔습니다.

연구 철학: 야심차지만 겸손하게

서튼은 연구자들에게 균형 잡힌 조언을 제공합니다: "야심차되 오만하지 말라." 그는 종종 범하는 실수가 "너무 겸손하다는 것입니다. 우리는 충분히 자신의 강점을 알리고 인정하지 않습니다." 그러나 일단 야심차기로 결정하면, "그때 오만해질 수 있습니다. 그것을 피해야 합니다."

이 철학은 40년이 넘는 경력 동안 서튼을 이끌어왔으며, 이 기간 동안 그는 기계가 환경으로부터 배울 수 있는 방법에 대한 우리의 이해에 근본적으로 기여했습니다.

과학에는 권위자가 없습니다

아마도 가장 인상적인 것은 과학적 연구에서의 권위에 대한 서튼의 관점일 것입니다: "과학에는 권위자가 없습니다." 이 철학은 연구자들에게 "권위자가 없기 때문에 누구든 질문할 수 있는 허가를 줍니다." 튜링상 수상자로서도, 그는 이 입장을 유지합니다: "이 주제의 권위자로서, 권위자는 없다고 말해드립니다."

이 지적 겸손함은 그의 협력자이자 전 박사과정 지도교수와의 관계에 반영됩니다: "앤디 바르토와 나는 거의 같은 시각을 가지고 있습니다. 형제와 같죠... 사실, 외부에서 보면 거의 같아 보입니다. 하지만 우리는 서로를 조금씩 도전합니다."

다양한 관점의 가치

서튼은 모든 사람을 지적 동료로 대하는 것을 믿습니다: "모든 사람은 공유할 통찰력을 가지고 있습니다. 우리 각자가 할 수 있는 가장 중요한 기여는 우리에게 명백해 보이는 것입니다. 우리는 그것을 너무 잘 알고 있죠. 유일한 한계는 다른 사람들이 그것을 보지 못한다는 것을 우리가 깨닫지 못할 수도 있다는 점입니다."

그는 다양한 사고의 중요성을 강조합니다: "다르게 생각하는 사람들의 이야기를 들어야 합니다. 사고의 지평을 확장해야 합니다."

이러한 포용적인 연구 협력 접근 방식은 AT&T에서의 초기 경력부터 앨버타 대학교와 Amii에서의 리더십 역할에 이르기까지, 여러 기관에 걸친 서튼의 작업을 특징지었습니다.

AI 연구의 미래

앞을 내다보며, 서튼은 그의 기본적인 연구 목표에 전념하고 있습니다: "나는 정말로 마음이 어떻게 작동하는지 깊은 차원에서 알아내고 싶습니다. 저는 67세이지만, 여전히 놀라운 일들을 하고 싶습니다."

그의 관점은 역사적 인식과 미래 지향성을 결합하여, AI 선구자들의 원래 비전에 그의 작업을 근거지으면서 지능을 이해하는 새로운 발견을 향해 나아가고 있습니다. 최근 DeepSeek 개발이 미국 AI의 "스푸트니크 순간"으로 비유되고 있으며(8년 전 알파고가 중국 AI의 "스푸트니크 순간"으로 묘사된 것을 연상시킴), 서튼의 강화학습 원칙에 대한 일관된 초점은 계속해서 진화하는 AI 연구 환경에서 관련성을 입증하고 있습니다.

 

다가올 뉴스레터가 궁금하신가요?

지금 구독해서 새로운 레터를 받아보세요

✉️

이번 뉴스레터 어떠셨나요?

주간 Tech Review 님에게 ☕️ 커피와 ✉️ 쪽지를 보내보세요!

댓글

의견을 남겨주세요

확인
의견이 있으신가요? 제일 먼저 댓글을 달아보세요 !

다른 뉴스레터

© 2025 주간 Tech Review

IT 업계의 정보와 인사이트를 공유하고 있습니다.

메일리 로고

도움말 자주 묻는 질문 오류 및 기능 관련 제보

서비스 이용 문의admin@team.maily.so

메일리 사업자 정보

메일리 (대표자: 이한결) | 사업자번호: 717-47-00705 | 서울 서초구 강남대로53길 8, 8층 11-7호

이용약관 | 개인정보처리방침 | 정기결제 이용약관 | 라이선스