[오늘의 과학기술] 인공지능 과학자의 시대?

2010년대 들어 본격적으로 시작된 인공지능(AI) 기술 혁명은 이제 우리의 생활 곳곳에 스며들어 있습니다. 2011년부터 이미지 분류 기술을 중심으로 발달한 AI는 게임과 언어 모델을 거쳐 요즘은 AI 모델 하나로 여러 문제를 해결하는 다목적 AI 기술까지 발전해 왔어요. 일상적으로도 AI 비서나 스마트 가전제품은 물론이고, 기업 채용과 같은 분야에서도 AI 기술이 널리 쓰이고 있지요.

지난 10년간 가장 주목받은 AI 기술은 역시 심층 인공신경망을 이용한 딥러닝입니다. 최신의 인공신경망은 많게는 수천억 개에 이르는 변수를 조작하여 연산을 진행합니다. 오픈AI의 언어 모델인 GPT-3나 이미지 생성 모델인 DALL-E, 딥마인드의 다목적 모델 Gato 등이 대표적인 예시인데요, 이처럼 거대한 모델은 엄청난 양의 데이터와 전력이 있어야만 훈련시킬 수 있지만 대단한 성능을 자랑합니다.

한편, 과학 연구에 활용한다는 목적에서 바라볼 때 인공신경망을 사용한 AI 모델에는 중대한 한계가 있습니다. 바로 “왜?”라는 질문에 대답하기가 너무나 어렵다는 점입니다. 과학자들은 어떤 현상을 바라보고 관찰하며 현상의 근본 원인이 되는 원리를 찾아내고 싶어합니다. 원리를 수식으로 표현할 수 있다면 더 좋고요. 하지만 수천억 개의 변수가 얽혀 있는 심층 인공신경망은 내부 구조가 너무나 복잡하여 도대체 어떤 원리로 결과가 출력되는지 이해하기가 어렵습니다. 작동 원리를 이해할 수 없는 깜깜이라고 하여 ‘블랙박스’라고 부르기도 하지요.

그렇기 때문에, 인공지능으로서 성능은 조금 떨어진다 하더라도 사람이 이해할 수 있는 결과를 출력하는 AI 모델에 대한 수요는 꾸준히 존재합니다. 이런 흐름을 설명 가능한 인공지능(Explainable AI), 줄여서 XAI라고 부르지요. 최근에는 복잡하고 정신없는 데이터로부터 인간이 이해할 수 있는 수식을 출력하는 기호 회귀(symbolic regression) 알고리즘이 수학과 천문학, 생물학에서 성과를 내기 시작했습니다. 이른바 “인공지능 과학자(machine scientist)”입니다.

역사적으로 보면, 데이터로부터 보편적인 수식을 뽑아내는 행위는 사실 인간 과학자들이 지금까지 오래도록 해 오던 작업입니다. 가장 유명한 사례는 17세기의 위대한 천문학자였던 요하네스 케플러일 거예요. 스승 튀코 브라헤가 기록해 둔 방대한 관측 자료를 들여다보던 케플러는 태양을 중심으로 한 화성의 운동이 타원 궤도를 이룬다는 생각을 떠올립니다. 천문학 관측 자료라는 ‘데이터’를 가장 잘 설명하기 위한 이론이 무엇일지 고민한 끝에 타원 궤도라는 ‘수식’을 뽑아내어 현상을 설명하게 된 거죠. 이후에 아이작 뉴턴은 케플러의 타원 궤도 법칙을 만들어내는 더 깊은 수준의 원리가 무엇인지 고심한 끝에 만유인력 법칙을 추론하게 됩니다.

현대에 이르러서는 이처럼 데이터를 설명하는 수식을 뽑아내기가 점점 어려워지고 있습니다. 다루는 데이터의 구조가 점점 복잡해지기 때문이지요. 세포 분열, 암흑물질의 분포, 매듭의 분류를 결정짓는 변수는 많게는 수십 가지에 달하는데 이들 사이의 관계를 하나하나 따져 가면서 현상을 설명하는 단 하나의 수식을 직관적으로 찾아내는 것은 쉬운 일이 아닐 겁니다.

컴퓨터 성능과 학습 알고리즘이 눈부시게 발전한 덕에, 요즘 과학자들은 이처럼 복잡한 데이터를 맞닥뜨리게 되면 곧잘 컴퓨터 앞에 앉습니다. 보통은 통계 분석 프로그램을 사용해 데이터를 쥐어짜서 패턴을 찾아내는 용도로 쓰이는데요, 이번 글에서 소개할 기호 회귀 기법에서는 “이 데이터를 가장 잘 설명하는 수식은 무엇인가?”라는 질문을 컴퓨터에게 던지게 됩니다. 그러면 컴퓨터가 방대한 연산 성능을 이용해 수많은 수식을 실험해 보면서 가장 설명력이 좋은 수식을 사람에게 되돌려주는 거죠.

수식처럼 추상적인 대상을 컴퓨터가 인식하게 하려면 어떻게 해 줘야 할까요? 많은 경우, 수식을 일종의 그래프로 표현해 주게 됩니다. 덧셈이나 곱셈, 나눗셈과 같은 단순한 단위 조작을 여러 번 반복하여 수식을 만드는 거예요. 예를 들어, f(x) = 3x + 5라는 간단한 수식을 그래프로 그리면 다음 그림처럼 됩니다.

수식을 그래프로 표현해 주면 어떤 장점이 있을까요? 알고리즘을 이용해서 “다른 수식을 찾아서 시도해 보기”라는 조작이 간편해집니다. 위 그래프에서 곱셈 노드 하나를 임의로 나눗셈 노드로 바꾸면, 왼쪽 그림에서처럼 비슷하지만 조금 다른 수식을 만들어낼 수 있거든요.

기호 회귀 알고리즘의 핵심은, 사람이 일일이 실험해 볼 수 없는 수많은 수식의 가짓수를 컴퓨터로 만들어 보면서 무엇이 가장 좋은 결과를 내는지 확인하는 데 있습니다. 수식을 그래프로 표현해 줌으로써, 수학적 직관 따위는 갖고 있지 않은 컴퓨터도 다양한 수식을 자유롭게 생성하고 시도해 볼 수 있게 하는 거죠.

한동안 인공신경망이 AI 연구의 주류가 되면서 기호 회귀 알고리즘은 많은 관심을 받지는 못하고 있었습니다. 하지만 XAI의 중요성이 대두되고 과학자들이 데이터 구조 자체를 설명할 수 있는 방법을 연구하는 와중에 조금씩이나마 기호 회귀 기법이 주목을 받기 시작했어요.

글 첫머리에서 케플러와 뉴턴 이야기를 짧게 언급했는데요, 2022년에는 기호 회귀를 사용해서 태양계 여러 행성의 운행 자료로부터 뉴턴 역학의 방정식을 뽑아내는 연구 논문이 발표되기도 했습니다. 물리학적인 배경 지식을 알고리즘에 넣어주지 않아도 태양과 행성 사이에 작용하는 중력을 정확하게 계산해 냈지요. 논문의 저자 중 하나가 자신의 트위터에 동영상을 업로드하기도 했습니다.

2020년에는 물리학 교과서에 나오는 수식을 찾아내는 기호 회귀 모델이 발표되기도 했습니다. 노벨 물리학상을 수상한 리처드 파인만이 저술한 물리학 교과서인 《파인만의 물리학 강의》에 등장하는 100개의 수식 모두를 데이터로부터 추론할 수 있는 모델이었지요. 이 모델은 “AI 파인만”이라는 이름이 붙었는데요, 2년 남짓한 기간 동안 250회 이상 인용되며 많은 주목을 받았습니다.

이론 과학 분야를 넘어, 국가별 탄소 배출량 기여를 분석하는 데에 XAI가 활용되기도 했어요. 국가별 탄소 배출량에 영향을 미칠 만한 변수는 수없이 많지만, 탄소 배출을 줄이는 정책을 입안하기 위해서는 집중적으로 규제해야 할 변수를 골라내는 것이 필수적입니다. 2019년에는 OECD 국가의 탄소 배출량에 영향을 미치는 여러 변수를 기호 회귀 기법으로 분석한 다음, 서로 다른 국가마다 맞춤형 정책을 제안하는 연구가 발표되기도 했습니다.

IBM의 슈퍼컴퓨터 ‘딥 블루’는 1997년 체스 챔피언인 가리 카스파로프를 꺾었습니다. 좌절스러운 경험이었겠지만, 카스파로프는 자신의 저서 《딥 씽킹》에서 앞으로 인간은 기계와 협력하며 일해야 할 거라고 말했어요. AI 기술은 조금씩 발전하여 이제 인간의 과학적 발견을 보조하는 단계까지 왔습니다. 테드 창의 소설 〈인류 과학의 진화〉에서처럼 언젠가 AI 기술이 특이점을 넘어 인간 과학자들을 완전히 소외시킬지도 모르겠습니다만, 오늘의 AI 기술은 유능한 과학자들이 새로운 발견을 손쉽게 할 수 있도록 돕는 조수의 역할을 훌륭히 해내고 있습니다.

[오늘의 과학기술] 인공지능 과학자의 시대?

물리학, 화학, 생물학 공식을 찾아내는 AI

다가올 뉴스레터가 궁금하신가요?

이번 뉴스레터 어떠셨나요?

댓글

이전 뉴스레터

다음 뉴스레터

다른 뉴스레터