[방구석5분혁신.인공지능] 인공지능의 이해 : 인공지능은 '모델'이자 '함수'다

[방구석5분혁신=안병민] 챗GPT로 대표되는 AI 기술 발전이 산업 지형도를 바꾸고 있는 요즘이다. 인공지능을 모르고는 비즈니스를 할 수 없을 정도다. 그래서 정리했다. AI기술의 이해가 주제다. 시작은 인공지능의 작동원리부터다.

01. AI는 무엇인가? 복잡할 것 없다. 하나의 모델이다. 입력값이 들어가면 출력값이 나오는 모델이다. 톺아보면 세상사 대부분의 일이 이런 모델을 만드는 거다. 날씨 예측이나 경기 전망 등이 다 그런 작업이다. 거의 모든 분야의 거의 모든 사람들이 정확하고 좋은 모델을 만들려고 오늘도 머리를 싸매고 구슬땀을 흘린다.

02. 모델은 함수다. x라는 입력이 들어갔을 때 나오는 y라는 출력의 메커니즘이 바로 모델이다. 그러니 f라는 함수를 얼마나 정확하게 설계하느냐가 좋은 모델을 만드는 데 있어 핵심이다.

03. 세계적으로 유명한 대표 모델이자 함수 중의 하나가 ‘f=ma’다. 'f=ma'는 뉴턴의 제 2법칙이다. 물체가 가할 수 있는 힘의 크기는 그 물체의 질량과 가속도의 곱에 비례한다는 의미다. 이 모델을 통해 우리는 물체가 받는 힘을 계산할 수 있다. 또한, 물체의 질량과 가속도가 주어지면 힘을 계산할 수 있다. 컴퓨터 사이언스에서의 핵심작업은 이런 모델을 만드는 거다. 우리는 이걸 알고리즘이라고도 부른다. 알고리즘과 함수, 모델은 결국 같은 의미를 가진 다른 이름인 셈이다.

04. 네비게이션. 일상에서 우리가 흔하게 접하는 유용한 알고리즘 중의 하나다. 입력으로 출발지와 목적지를 넣으면 경로를 출력해준다. 관련하여 ‘다익스트라(Dijkstra's Algorithm) 알고리즘’이란 게 있다. 그래프 상의 한 정점에서 다른 모든 정점까지의 최단 경로를 찾는 기법이다. 비유컨대, 목적지까지 가는 가장 빠른 경로를 찾는 GPS 시스템과 유사하다.

05. 지금까지의 모델은 사람이 직접 설계했다. 사람이 보유한 지식과 경험, 직감을 갖고 문제를 풀어가는 모델링 방식이다. 하지만 한계에 봉착했다. ‘고양이 사진’이 입력되었을 때, ‘고양이’라는 답을 출력하는 모델을 생각해보자. 사람이 직접 만드는 모델링 방식으로는 이게 무척이나 어려운 작업이다. 컴퓨터에게 고양이 인식 방법을 가르쳐야 하는데, 경우의 수가 무궁무진해서다. 컴퓨터에게 사진이란 무수히 많은 숫자들의 조합이다. 채도, 명도, 질감, 부분 확대, 좌우 반전 등 미세한 변화만 있어도 컴퓨터는 이를 다른 걸로 인식한다. 고양이를 만들 수 있는 숫자들의 조합이 무한대로 늘어나는 거다. 그러니 컴퓨터에게 고양이를 가르치기 위한 논리적 설명이 불가능해진다. 사람에게는 너무나 단순한 일이 컴퓨터에겐 너무나 어려운 일인 셈이다.

06. 그런데, 여기서 반전이 일어난다. 데이터 기반의 뉴럴 네트워크 얘기다. 인공 신경망 얘기다. 수많은 고양이 사진을 보여줬더니 인공 신경망이 스스로 고양이의 특징을 학습하여 고양이를 구분해내는 거다. 사실 이 기술은 최근에 나온 게 아니다. 60년대에 이미 소개되었고, 80년대에도 인기를 끌었던 기술이다. 물론 그때는 기술의 수준이 낮았고, 활용 가능한 데이터도 많지 않았다. 컴퓨터 성능도 받쳐주지 못했다. 하지만 상황이 바뀌었다. 제반 컴퓨팅 자원의 급격한 발전과 함께 다시 빛을 보게 된 거다.

07. 인공신경망 기술은 인간의 뇌 혹은 동물의 뇌에 있는 신경세포들이 연결돼서 생겨나는 인지적 행동의 메커니즘을 모방한 기술이다. 실제 사람의 뇌 속 뉴런들이 연결되어 있는 것처럼 인공 뉴런들도 복잡하게 연결되어 있다. 수학적 계산상으로는 곱셉으로 연결된다. 왼쪽 원에서 오른쪽 원으로 넘어갈 때의 직선이 곱셈과 관련한 가중치다. 이게 파라미터다. 입력값에 의한 모든 계산을 마친 출력치가 그런 과정을 거쳐 나오는 거다. 전제는 빅데이터다. 요컨대 많은 데이터를 넣어주면 인공지능은 자체적인 알고리즘을 통해 입력에 대한 출력을 수행한다. 왜 그런 값이 출력되었는지는 모른다. 블랙박스 모델이라고 부르는 이유다. 돌아보면 우리 인간도 왜 그런 판단과 결정을 내렸는지 모를 때가 많다.

08. 야구에서 스트라이크와 볼을 판정하는 인공지능 시스템. 스트라이크 영상 1천 개, 볼 영상 1천 개를 보여주면 인공지능이 주어진 데이터를 분석한다. 스트라이크와 볼의 요건을 스스로 찾아낸다. 그 중 하나가 스코어보드의 볼카운트다. 해당 투구가 볼인지, 스트라이크인지, 그걸 구분하는 속성을 스코어보드에 찍히는 심판의 판정 결과로 알아내는 거다. 생각지도 못한 부분이다. 심판 없이도 볼과 스트라이크를 구분할 수 있게끔 하려 했더니 주어진 예제를 통해 심판의 판정을 훔쳐보며 판정을 하고 있었던 거다. 인간이 한 일은 데이터를 보여준 것뿐이다. ‘뭘 어떻게 하라’는 룰은 가르쳐준 적이 없다. 그럼에도 인공지능은 스스로 가장 적절한 출력값을 찾아내기 위해 모든 입력값을 정밀하게 분석한다.

이런 식이라면, 주식의 가격에 영향을 미치는, 생각지도 못한 요소를 인공지능이 찾아낼 수도 있지 않을까? 주어진 데이터를 통해, 사람이 전혀 인식하지 못했던 중요한 패턴을 스스로 찾아내는 것. 인공지능 기술의 가장 큰 장점 중 하나다.

09. 챗GPT 열풍이다. 많이들 써보셨을 터다. 챗GPT는 언어를 생성하는 인공지능 모델이다. 사람이 들어앉아 답변을 해주나 싶을 정도로 거의 완벽한 수준이다. 텍스트를 입력하면 그에 맞춤하는 텍스트가 출력된다. 이미 다양한 분야, 다양한 모델들이 나왔다. 텍스트를 입력하면 텍스트뿐만 아니라 이미지, 영상 등 원하는 거의 모든 것들을 출력값으로 얻어낼 수 있다.

10. 챗GPT의 작동 원리? 트랜스포머라는 기술이 기반이다. 입력된 언어 텍스트의 데이터간 커뮤니케이션 분석을 통해 출력에 적절한 텍스트를 생성해낸다. 핵심은 역시 빅데이터다. 모델 자체의 완성도도 중요하지만 충분한 데이터가 확보되지 않으면 무용지물이다. 챗GPT도 사람의 손길을 탄다. 사람이 직접 만든 ‘질문과 답변’ 세트 데이터를 엄청나게 모은 거다. 아무나 할 수 없는 일이다. 다 돈이라서다. 여기에 ‘사람의 피드백에 의한 강화학습(RLHF)’까지 이루어지니 답변의 완성도가 놀랄 노자다.

11. 물론 한계도 있다. 답변의 오류다. 진실 같은 허구를 천연덕스럽게 이야기한다. 참고문헌도 달아주는데 그 역시 가짜다. 할루시네이션이라 부르는 환각 현상이다. 편견 문제도 있다. 인종과 성별 등 사회적 편견에 따른 차별적 출력값이 종종 나온다. 사람이 생성한 텍스트를 학습한 챗GPT다. 어른들의 대화를 보고 아이들이 말을 배우는 것처럼 챗GPT 역시 인간이 만든 텍스트에 녹아있는 사회적 편견을 함께 배운다. 챗GPT의 잘못이라기 보다는 우리 인간의 문제다. 실시간 검색이 안 된다는 것도 한계점이다. 하지만 모두 시간 문제다. 하루가 다르게 기술의 고도화가 이뤄져서다.

12. 현재의 AI 수준은 놀랍다. 딥러닝을 통해 이미지나 영상의 화질 개선도 척척 해낸다. 비디오 편집도 이젠 식은 죽 먹기다. 영상 속 움직이는 객체도 손쉽게 분리할 수 있고, 영상 속 여백의 공간도 그럴싸하게 메울 수 있다. 지금도 편집실에 앉아 피디들이 밤을 새워 하고 있는 작업들이다.

13. 최근엔 이미지 생성 퀄리티도 무척이나 높아졌다. 원하는 이미지를 설명하는 텍스트를 입력하면 순식간에 그림을 그려낸다. “우주 행성을 달리는 말의 모습을 살바도르 달리의 화풍으로 그려줘.” 그러면 거기에 맞춰 그려준다. 뿐만 아니다. 음악도 작곡한다. 지난 세계경제포럼을 장식했던 배경음악도 인공지능이 작곡한 거다. 이런 생성 모델들이 최근 각광받는 분야? 정확한 답이 아니라 그럴 듯한 답이 중요한 분야다. 답이 없는 문제들이 가득한 창작 분야 얘기다.

14. 지난 10년간 인공지능의 발전은 눈부시다. 딥러닝 기술들이 본격적으로 개발되기 시작했다. 딥마인드의 알파고는 그 시작이었다. 바통을 이어받은 게 챗GPT다. 파급력은 훨씬 더 크다. 바둑만 둘 수 있는 게 아니라서다. 사람들과 자연스러운 대화를 나눌 수 있어서다. 그것도 무료로. 앞으로의 방전 방향? 효율이다. 보다 적은 양의 데이터로 보다 퀄리티 높은 출력을 만들어내는 거다.

15. 인공지능에는 크게 두 가지가 있다. 강인공지능과 약인공지능이다. 약인공지능이 특정 업무 하나에 특화되어 있는 반면, 강인공지능은 범용성을 가진 인공지능이다. 다양한 임무를 잘 수행할 수 있는 수준의 AI라는 얘기다. 많은 전문가들이 입을 모은다. 강인공지능의 출현은 앞으로 10년 이내에 일어날 일이라고.

16. 인공지능의 활용도가 높아질 거라는 건 누구나가 하는 얘기다. 중요한 건 이런 초거대모델을 우리도 개발해야 하는가의 이슈다. 하지만 기본 투자비가 상상을 초월한다. 이 정도 투자를 감당할 수 있는 기업이나 기관은 많지 않다. 세계적으로도 손에 꼽을 정도다. 데이터 확보에도 돈이 들어간다. 인공지능은 결국 자본의 싸움이다.

17. 우리나라의 AI 기술력은 세계 5-7위 수준이다. 나름의 경쟁력을 확보하고 있다는 얘기다. 하지만 1위 미국과 2, 3, 4, 5등의 기술력은 그 격차가 너무 크다. 미국은 인공지능 분야에서 독보적이다. 구글, 오픈AI, 메타 등 미국의 거대 IT기업들이 관련 기술과 인재들을 블랙홀처럼 빨아들이고 있는 게 현실이다. 그 압도적 간격을 우리가 따라잡을 수 있을까?

18. 그럼에도 한국의 경쟁력을 무시할 순 없다. 인공지능 대학원도 많이 생겼다. 인재들도 몰린다. 양질의 논문들도 많이 발표된다. 아쉬운 건 굵직한 연구를 할 수 있는 기관의 부재다. 충분한 리소스를 보유한 연구기관이 없다. 우리가 직접 만들기 힘들다면 외국의 관련 연구기관을 국내에 유치하는 것도 방법이다. 마이크로소프트 사가 베이징에 설립한 마이크로소프트 리서치 아시아 연구소가 대표적인 사례다. 중국에 있는 모든 소프트웨어 인재들이 다 모여들었다. 그들이 이제 세계를 향해 나아간다. 실망은 이르다. 우리는 반도체 강국이다. 인공지능 컴퓨팅 리소스의 핵심은 반도체다. 하드웨어 측면의 강점을 기반으로 승부를 걸어보는 것도 방법이다. ⓒ혁신가이드안병민

♥[방구석5분혁신] 본 뉴스레터는 독자님들의 따뜻한 후원으로 운영됩니다. 후원을 희망하시는 분은 '응원하기' 메뉴를 활용해주세요.