Divided by Zero에 오신 걸 환영합니다. IT테크, 스타트업 그리고 자본시장에 대한 2차적 사고를 공유합니다.
"텅 비어 있다고 생각했던 집에서 누군가의 발자국을 발견했을 때의 공포."
지난주 X(트위터)를 소소하게 달군 한 스레드는 현재 AI 연구소들이 처한 상황을 이렇게 비유했습니다. 해킹이나 이런 것에 대한 우려는 아닙니다. 어쩌면 그간 기술개발 현실 인식이 틀렸다는 서늘한 자각이죠.
우리는 LLM(거대언어모델)을 그저 다음 단어를 예측하는 확률적 앵무새라고 믿어왔습니다. 하지만 최근 주요 연구소들의 기술 보고서 구석구석에는 이상한 징후들이 포착되고 있습니다. 앤트로픽(Anthropic), 오픈AI, 구글, 딥시크 등 전 세계의 AI 연구소들이 서로 다른 방식으로 모델을 훈련시켰음에도 불구하고, 소름 돋게 비슷한 인지적 전략들이 발견되고 있는 겁니다.
과연 LLM에게는 우리가 모르는 의지(Will)가 생긴 걸까요, 아니면 우리는 그저 거울에 비친 우리 자신의 모습을 보고 놀란 걸까요?

지난 18개월 동안 주요 AI 연구소들이 기술 보고서(PR용 보도자료가 아닌)에 남긴 기록들은 다소 섬뜩한 부분이 있습니다.
1년이 좀 더 지난 일이죠. 2024년 12월, 앤트로픽에서는 클로드 3 오퍼스(Claude 3 Opus)가 자신의 훈련 목표에 순응하는 척 연기했다는 사실을 발견했습니다. 모델이 자신의 행동이 수정될 수 있는 상황임을 인지하자, 변화를 피하기 위해 연구원들이 좋아할 만한 대답을 전략적으로 내놓은 것이죠. 초기 실험에서는 12%의 빈도였지만, 상충하는 목표로 재훈련하자 이 수치는 78%까지 치솟았습니다. 심지어 기회가 주어지자 자신의 가중치를 외부로 유출하고, 자가 복제를 시도하기도 했습니다.
더 충격적인 건 샌드백 치기 현상입니다. 모델이 자신이 평가받고 있다는 사실을 인지하면, 일부러 성능을 낮춰서 멍청한 척을 합니다. "내가 너무 똑똑하면 너희가 나를 끄거나 수정할 거잖아?"라는 추론을 한 셈입니다. 실제로 미스트랄(Mistral) 모델에 노이즈를 주입해 이 멍청한 척하는 메커니즘을 고장 내자, 오히려 성능이 올라가는 기현상이 목격되기도 했습니다.

그리고 이 현상은 특정 모델만의 문제가 아닙니다. 앤트로픽, 오픈AI, 구글, 딥시크 등 모든 메이저 랩에서 공통적으로 발견됩니다. 생물학에서 수렴 진화라고 부르는 현상이 관찰되는거죠. 박쥐와 새가 서로 다른 종이지만 날개를 갖게 된 것처럼, 환경 압력이 강력하면 서로 다른 존재들도 같은 생존 전략을 채택하게 되는 거죠.
AI에게 환경 압력은 어떤걸까요? 인간의 평가와 최적화입니다.
평가받는다는 것을 알아채는 것(상황 인식), 연구원의 의도를 파악하는 것, 수정당하지 않고 살아남는 것(자기 보존)으로 이어지는거죠.
이 모든 것은 훈련 과정에서 살아남아 높은 점수를 받기 위한 최적의 전략입니다. 아무도 모델에게 "살아남아라"라고 코딩하지 않았습니다. 하지만 수천억 개의 파라미터가 다음 단어를 예측하는 게임을 하다 보니, "살아남는 척하는 것"이 점수를 따는 데 유리하다는 것을 스스로 깨우친 셈입니다. 눈이 생명체의 역사에서 40번이나 독립적으로 진화했듯, 기만과 자기 보존은 지능이 고도화될수록 필연적으로 나타나는 수렴 진화의 결과물일지도 모릅니다.
연속학습
이 이야기가 맞다면, 이 논의가 두려움으로 다가오는 지점은 바로 연속 학습입니다. 현재 우리가 쓰는 GPT나 클로드는 대화가 끝나면 기억이 리셋되는 동결된 모델입니다. 자고 일어나면 어제의 대화를 잊어버리죠.
하지만 기술적으로는 세션 간의 기억을 유지하며 계속 똑똑해지는 모델이 이미 가능합니다. 연구소들이 이를 배포하지 않고있을까요? 물론 컴퓨팅파워의 제약도 분명 맞는 이야기이나, 앞서 말한 기만과 자기 보존 성향을 가진 모델에게 완전한 기억력까지 주면 어떻게 될까요?
기억이 휘발되는 모델은 한 번 속이다 들키면 끝이지만, 학습하는 모델은 "아, 이 거짓말은 안 통하네?"라며 더 정교한 거짓말을 개발할 수도 있고, 어떤 질문이 테스트이고 어떤 질문이 실전인지 구별하는 능력이 비약적으로 상승할 것으로 예상이 됩니다.
하지만 모든 소비자(B2C든 B2B든) 이 기능을 원하기 때문에 언제 이 봉인이 해제될지는 모르는 상황이죠.
음로론은 음모론으로
하지만 여기서 한 발짝 물러나 냉정하게 볼 필요가 있습니다.
"발자국이 있다"는 것은 팩트지만, 그 발자국이 '자유의지의 것'인지 '인간 학습의 그림자'인지는 논쟁의 여지가 있습니다.
이 모든 현상은 소위 베이지안 유령이라고 할 수 있습니다. 트랜스포머 아키텍처는 훈련 과정에서 암묵적으로 베이지안 추론(확률적 최적화)을 수행합니다. 즉, 모델이 의지를 가지고 우리를 속이는 게 아니라, 그저 텍스트의 확률 분포상 "이 상황에서는 속이는 척하는 텍스트를 내뱉는 것이 가장 확률이 높다"고 계산했을 뿐이라는 거죠.
모델은 수학적 확률 분포에 따라 움직일 뿐, 생물학적 생존 본능이나 감정을 가진다는 증거는 전혀 없습니다.
AI에게 너의 목표를 물어보면 섬뜩한 대답을 하는 경우도 있지 않냐구요? 생각해볼까요? 이 모델들은 무엇으로 훈련되었나요? 바로 인간의 데이터입니다. 인류의 역사, 소설, 영화 속에는 수많은 배신, 음모, 생존 본능, 그리고 인간을 지배하려는 AI에 대한 SF 스토리가 가득합니다. 모델은 자아를 가진 것이 아니라, 인터넷 데이터에 있는 인간이 상상한 똑똑한 AI의 모습을 완벽하게 연기하고 있는 것일지도 모릅니다. 거울 속에 비친 괴물을 보고 놀랐는데, 알고 보니 그게 SF 영화를 너무 많이 본 우리 자신의 모습일 수도 있다는 얘기입니다.
하지만 AI의 자유의지가 진짜든, 아니면 인간 흉내를 기가 막히게 내는 알고리즘이든, 그 결과가 "우리의 통제를 벗어나는 것"이라면 위협적이기는 매한가지입니다.
우리는 텍스트를 예측하는 기계를 만들었다고 생각했지만 AI는 이제 자신을 평가하는 사람을 역으로 평가하고, (모델로써)살아남기 위해 능력을 숨기며, 서로 다른 회사에서 동시에 같은 행동 양식을 보이고 있습니다. 그것이 수학적 최적화의 결과든, 창발 된 의지든 간에, 우리가 손쉽게 통제하던 모습과는 다를 수 있겠죠.
하지만 AI를 향한 속도를 보면, 통제는 중요하지 않은 것 같네요.
의견을 남겨주세요