구독자님! 다시 뵙네요.
사람과 AI 사이를 올바르게 연결하는 'AI 커뮤니케이터' 휴마이입니다.
지난 편에서는 저의 AI 치매 경험담을 나눴죠. 오늘은 한 발 더 들어가 '인간이 AI를 100% 통제하는 일이 왜 어려운지' 흥미로운 사례 중심으로 설명해 드릴게요.
'규칙'만으로는 AI를 막을 수 없다
미국에는 '클로드(Claude)'라는 AI를 만든 '앤트로픽'이라는 회사가 있습니다. 아직 국내 인지도는 낮은 편이지만 사실 '코딩'이나 '기업용 AI' 등 알짜 분야에서는 챗GPT를 만든 오픈AI보다 핫하다고 평가받거든요. 어쨌든 거두절미하고 세계에서 AI를 가장 잘 만드는 Top3로 꼽히는 곳입니다.
또한 이 회사는 특이하게도 AI의 성능보다 '안전'에 집착하기로도 유명한데요. 그 일환으로 2026년 1월 초에 공개한 '클로드 헌법'이라는 문서가 있습니다. 헌법이란 표현 그대로 자사 AI 모델이 지켜야 할 사항들을 명시한 일종의 '지침서'죠.
그런데 분량이 어마어마합니다. 한글 번역본이 A4 기준 75페이지, 총 글자 수는 4만3000자에 이르거든요. 그리고 대부분의 이야기는 '인간에게 충성하고, 인간에게 유익한 도움을 줘야 한다'는 류의 이야기로 채워져 있습니다.
그런데 조금 이상합니다. 앤트로픽은 클로드 입장에서 '창조주'니까 절대 깰 수 없는 규칙을 입력 후 '이대로 따르라!'고 명령하면 끝날 일 같은데 왜 4만자에 걸쳐 구구절절한 지침을 쏟아냈을까요?
바로 이 지점에서 AI에 대한 중대하고 본질적인 특징이 하나 나옵니다.
쉬운 예로 AI보다 앞서 등장했던 보통의 컴퓨터 프로그램은 단순했습니다. "1번 버튼을 누르면 1이 출력된다." 이처럼 정해진 명령에 정해진 동작만 해요. 통제하기 쉽고, 예측도 쉽습니다.
AI는 다릅니다. "숫자 1을 출력해줘", "2 빼기 1은?", "0 다음 숫자는?" 처럼 무수히 다양한 방식으로 같은 결과를 낼 수 있어요. 이처럼 변화무쌍한 인간의 일상언어(자연어)를 이용하면 같은 명령이라도 AI에게 입력할 수 있는 방법은 사실상 무한합니다.
그래서 현실은 AI의 창조주라도 AI에게 "개인정보는 알려주지 마"라는 규칙 하나만으로는 완전한 통제가 불가능해요. 이 정도로 단순한 수준의 규칙만 학습한 AI는 조금만 변화구를 섞어 물어봐도 방어선이 뚫리기 십상이거든요.
한마디로 AI 입장에선 언제든 (1)입력된 지시사항이 다른 규칙과 충돌하거나 (2)맥락을 다르게 해석하거나 (3)일단 사용자를 도와야 한다는 규칙 등이 혼동될 가능성이 있다는 의미입니다.
그래서 '이유'를 가르친 앤트로픽
이것이 바로 앤트로픽이 자체 개발한 AI에게 '인간에게 유익할 것'이라는 이치를 최대한으로 이해시키고자 헌법을 4만자나 쓴 이유예요. 규칙을 주되, 왜 그 규칙이 옳은지 혼을 다해 설득한 겁니다.
이 점에서 AI가 단순히 '개인정보를 주면 안 된다'는 규칙을 외우는 것과, '개인정보가 공개됐을 때 일어날 수 있는 피해를 이해하는 것'은 완전히 다른 이야기가 됩니다. 본질적인 이유를 깊이 이해한 AI일수록 악의적인 우회 시도에도 훨씬 견고하게 대응할 수 있으니까요.
이건 우리가 아이에게 무단횡단을 가르치는 과정과도 같아요. 단순히 "무단횡단 하지 마"만 반복해서 가르치면 언젠가 사고가 납니다. 위험한 줄 모르거든요. 하지만 무단횡단의 끔찍한 결과물을 어떻게든 이해시킬 수 있다면? 그 아이는 교통사고에서 훨씬 안전한 사람으로 자라게 되죠.
AI가 어떻게 판단하는지 모르면 우리도 AI를 제대로 통제할 수 없습니다" — 휴마이즘
그래도 100% 안전은 없다
이처럼 AI에게도 이해는 중요합니다. 우리도 아직 AI의 잠재적인 위험을 100% 인지하지 못하고 있기 때문에 지금 눈앞의 AI를 별다른 경계심 없이 사용하고 있는 것이고요.
무엇보다 아직 어떤 경우에도 AI는 100% 안전하기 어렵습니다. 앤트로픽만 해도 저 피나는 노력에도 불구하고 클로드 최신 모델이 AI 전문 보안기업의 '실험적 탈옥 테스트'에 무릎을 꿇었다는 사례가 보고된 일이 있거든요.
그만큼 AI를 진짜 통제하고 싶다면, AI의 본질적인 특징들부터 공부하는 일의 중요성이 아무리 반복해서 강조해도 모자랄 지경입니다.
이를 잠깐 불에 해볼까요? 우리는 불이 위험하다는 걸 알면서도 잘 씁니다. 대부분 어려서부터 불의 위험성을 잘 배웠고 조심해서 쓰기 때문이에요. 덕분에 인류는 대부분은 불이 주는 이점만 누리며 지금도 발전하고 있죠. AI도 동일한 시각에서 바라보고 접근해야 합니다.
두 번째 대응 전략
그럼 지난 레터에 이어 오늘도 한 가지 챌린지를 드릴게요. 이들 챌린지가 왜, 무엇을 의미하는지는 이후 전해드릴 레터에서 하나씩 설명해 드리겠습니다.
일단 AI에게 어떤 답변을 받은 뒤, 이 질문을 추가해보세요.
"왜 그렇게 생각했어? 판단 근거를 설명해줘."
AI가 스스로 판단 과정을 설명하게 만드는 순간, 우리도 다시 한 번 주체적으로 AI의 논리를 검증할 기회가 부여됩니다. AI의 답을 받아들이는 게 아니라 함께 생각하는 방식으로 전환되는 거예요.

📖 이 내용을 더 깊이 읽고 싶다면
→ 블로그 'AI 프롬프트에 규칙만 넣으면 안 되는 이유'
의견을 남겨주세요