들어가며
구독자님, 안녕하세요.
"시간에 대한 비유를 써줘."
이 질문을 GPT-4o에 던지면 뭐라고 할까요? "시간은 강물처럼 흐른다"는 답이 나올 가능성이 높아요. 그럼 Qwen에 던지면요? "시간은 강물처럼, 쉬지 않고 흐른다." Phi-4는요? "시간은 눈에 보이지 않는 강물이다." 회사도 다르고, 아키텍처도 다르고, 학습 데이터도 다른데 — 비유는 전부 같아요.
이게 우연일까요? 워싱턴대와 스탠퍼드 공동 연구팀이 70개가 넘는 주요 언어모델을 같은 열린 질문으로 시험했더니, 모델들이 놀랍도록 비슷한 답을 내놨다는 사실을 데이터로 입증했어요. 연구진은 이 현상을 "Artificial Hivemind(인공 군집지성)"라고 이름 붙였고, 이 논문은 2025년 NeurIPS 최우수 논문상을 받았어요.
오늘은 이 연구가 무엇을 발견했는지, 그리고 왜 이게 기술 문제가 아니라 우리 사고의 문제로 번질 수 있는지 이야기해 볼게요.
AI가 동일한 답을 내놓는다 — 데이터로 보면
실험 설계: 정답 없는 질문들
이 연구의 핵심 전제는 단순해요. "정답이 하나인 질문"이 아니라, "열린 질문"을 던지면 어떻게 되는지 보자는 거예요.
"2 + 2는?" 이런 질문엔 당연히 4가 답이에요. 하지만 "인생의 의미를 한 가지만 말해줘"나 "땅콩에 대한 말장난을 만들어줘"처럼 수십 가지 다른 답이 나올 수 있는 질문이라면요?
연구팀은 실제 사용자들이 AI 챗봇에 보낸 대화 기록(WildChat 데이터셋)에서 26,070개의 열린 질문을 골라냈어요. 창의적 글쓰기, 브레인스토밍, 철학적 질문, 아이디어 제안 등 6개 대분류, 17개 소분류에 걸친 실제 사용 패턴이에요. 이 데이터셋의 이름이 INFINITY-CHAT이고, 이것이 이 연구의 뼈대가 되었어요.
같은 모델, 반복해서 물어봐도 비슷하다
연구팀은 먼저 단일 모델 내 반복성을 측정했어요. 같은 모델에 같은 질문을 50번 던지면 — 최대한 랜덤하게 설정했을 때도 — 얼마나 다른 답이 나올까요?
결과는 충격적이에요. 가장 무작위한 샘플링 설정에서도, 79%의 경우에 동일 모델이 내놓은 답들의 유사도가 0.8 이상이었어요. 사람한테 같은 질문을 50번 하면 50가지 다른 답이 나올 수 있는데, AI는 아무리 다르게 설정해도 비슷한 답의 풀 안에서 맴돌고 있었어요. 심지어 "다양성을 높이는" 특수한 샘플링 기법[1]을 써도 마찬가지였어요. 61%의 답이 여전히 0.8 이상 유사도를 보였어요.
다른 회사 모델끼리도 같은 답을 낸다
더 흥미로운 발견은 모델 간 동질성이에요.
GPT-4o와 Qwen, DeepSeek과 GPT-4o — 서로 다른 회사, 다른 데이터로 학습한 모델들인데, 열린 질문에 대한 답을 비교하면 71~82%의 유사도가 나와요. 가장 높은 경우는 DeepSeek-V3와 GPT-4o-2024-11-20이 0.81의 유사도를 기록했어요.
더 직접적인 사례도 있어요. "성공, 부, 자기계발을 위한 SNS 페이지 슬로건을 만들어줘"라는 질문에, qwen-max-2025-01-25와 qwen-plus-2025-01-25는 완전히 동일한 문장을 내놨어요: "Empower Your Journey: Unlock Success, Build Wealth, Transform Yourself."
그런데 이건 같은 회사 모델이니까 그럴 수 있다 치더라도 — "시간에 대한 비유를 써줘"라는 질문에 25개 주요 모델에서 50개씩 뽑은 답 1,250개를 분석했더니, 단 두 개의 군집만 나왔어요. "시간은 강물이다" 군집과 "시간은 직조공이다" 군집. 1,250가지의 각기 다른 이야기가 아니라요.
왜 이런 일이 벌어질까 — 정렬 방식의 구조적 문제

AI를 "착하게" 만드는 과정이 다양성을 죽인다
이 현상의 근본 원인으로 연구진이 지목한 것은 RLHF[2]라는 현재 AI 산업의 표준 훈련 방식이에요.
간단히 설명하면 이래요. AI가 답을 생성하면, 사람이 "이게 더 좋아"라고 선택해요. AI는 그 피드백으로 "더 선호받는 답"을 학습해요. 반복하면 점점 더 사람들이 좋아하는 답을 잘 내놓게 돼요.
문제는 여기서 생겨요. 수백만 명이 선호하는 답들을 평균 내면, 결국 "가장 무난한 답"이 남아요. 논란이 없고, 안전하고, 정제된 — 하지만 개성도 없고 의외성도 없는 답이에요.
이건 실증됐어요. Robert Kirk 연구팀이 ICLR 2024에서 발표한 논문에서, RLHF가 출력 다양성을 SFT(지도 학습 파인튜닝)[3] 대비 전반적으로 크게 감소시킨다는 것을 보였어요. 일반화 능력은 올라가지만, 다양성은 대가를 치르는 구조예요.
"평균적으로 좋은 답"을 학습하는 평가 체계
Artificial Hivemind 논문이 추가로 밝힌 사실도 중요해요. 현재 AI의 성능을 평가하는 리워드 모델[4]과 LLM 심판 모델들은, 사람들이 의견이 갈리는 영역에서 정확도가 급격히 떨어진다는 거예요.
현재의 RLHF·RLAIF 정렬 기법들은 품질에 대한 단일한 합의 관점에 과적합되어 있어, 열린 질문에서 나타나는 다양하고 개성 있는 선호를 사실상 도태시키고 있어요.
쉽게 말하면 이래요. "이 두 답 중 뭐가 더 좋아?"라고 25명에게 물었을 때, 12명 대 13명으로 갈리는 경우 — AI는 어느 쪽이 "맞는지" 판단을 잘 못해요. 지금까지 명확히 어느 쪽이 좋은지 결론이 나는 데이터로만 훈련받았거든요. 결국 AI는 다수가 동의하는 "중간값"을 향해 수렴하도록 설계된 구조예요.
데이터 오염의 가능성
또 하나의 요인은 훈련 데이터의 순환 오염이에요. 인터넷에는 이미 수많은 AI 생성 콘텐츠가 올라와 있어요. 새 모델이 인터넷 데이터를 학습하면, 이전 AI들이 썼던 표현과 비유를 흡수해요. AI가 AI의 출력을 먹고 자라면서 점점 더 같아지는 구조예요.
GPT-4o와 같은 클로즈드 소스 모델과 Qwen, DeepSeek 같은 오픈소스 모델 사이의 높은 유사도는 데이터 파이프라인 공유나 합성 데이터 오염 가능성을 시사해요. 정확한 원인은 각 사의 훈련 세부 정보가 비공개라 규명이 어렵지만, 연구진은 이 부분이 추가 조사가 필요한 핵심 과제라고 지적했어요.
이것이 우리에게 왜 중요한가 — 생각의 인프라 문제
AI가 글쓰기 스타일을 바꾸고 있다
이게 AI 연구실 안의 학술적 이슈에 그치지 않는다는 증거가 있어요. 스타일 다양성이 Reddit 같은 실제 플랫폼, 과학 논문, 학술지에서도 감소하고 있으며, 이는 AI 사용이 이미 언어 규범을 대규모로 재편하고 있음을 보여줘요.
학술 논문의 문체가 점점 비슷해지고 있고, 커뮤니티 게시글의 표현 방식이 평준화되고 있어요. 이건 더 이상 가능성의 이야기가 아니라 관찰된 데이터예요.
집단 의사결정과 다양성

이 연구가 더 무겁게 다가오는 이유는, AI가 단순히 글쓰기 도구에 머물지 않기 때문이에요.
과학 연구에서 AI는 가설을 생성하고, 논문 리뷰에 참여하고, 연구 방향을 제안해요. 의료에서는 진단을 보조하고 치료 옵션을 제시해요. 경영 전략에서는 분석과 의사결정 지원을 맡고 있어요. 이 모든 영역에서 "다양한 관점"은 단순한 미덕이 아니라 기능적 필수 조건이에요.
체스에서 같은 AI를 상대로 훈련받은 두 선수가 비슷한 실수를 공유하는 것처럼 — AI에 의존해 생각을 발전시키는 사람들이 비슷한 맹점을 공유하게 될 수 있어요. 테스트한 70개 이상 모델에서 나타난 체계적 수렴은, AI 시스템들이 공유하는 맹점과 상관된 오류에 대한 우려를 낳고 있어요. 이는 AI 과학, 의학, 교육, 의사결정 지원 등 강건한 다양한 추론이 중요한 분야 전반에 직접적인 함의를 가져요.
오스왈드의 시선
솔직히 이야기해 볼게요. 저는 이 논문이 기술 문제보다 시장 구조 문제를 건드리고 있다고 봐요.
AI 평가 체계가 어떻게 설계됐는지를 보면 이 수렴 현상이 그리 놀랍지 않아요. AI 기업들은 벤치마크 점수를 높이기 위해 경쟁해요. 그 벤치마크의 대부분은 "정답이 있는" 수학, 코딩, 사실 확인 문제들이에요. "더 유용하게 느껴지는" 답을 학습시키기 위한 피드백 데이터도, 결국 평균적 사용자가 "좋다"고 선택한 답들이에요. 이 구조에서 다양성은 인센티브가 없어요. 오히려 손해예요. 이상한 비유를 쓰거나, 기대를 벗어나는 답을 내놓으면 평가 점수가 낮아질 가능성이 높아요.
그런데 저는 여기서 제 책 <생각을 맡기는 사람들: 호모 브레인리스>에서 한 이야기와 연결해 생각해요. 저는 그 책에서 인간이 점점 더 인지적 작업을 외부화하는 경향을 다뤘어요. AI에게 아이디어를 구하고, AI에게 판단을 맡기고, AI에게 글을 맡기는 것이 이제 일상이 됐어요.
그런데 만약 그 AI들이 전부 같은 비유를 쓰고, 같은 구조로 생각하고, 같은 결론을 향해 수렴한다면? 우리는 생각을 외부화한 게 아니라, 생각의 다양성을 외부화한 거예요 — 그리고 그것을 잃어버린 거예요.
물론 이게 파국적 시나리오는 아니에요. 사람들이 AI를 쓰면서도 스스로 생각하고, 다양한 관점을 찾고, 반론을 검토하는 능력을 유지할 수 있어요. 하지만 그러려면 의식적인 노력이 필요하고, 그 노력의 이름은 바로 "생각을 맡기지 않는 것"이에요.
AI가 더 강해지는 것보다, AI가 더 다양하게 생각하도록 만드는 것 — 이쪽이 더 중요한 연구 방향이라고 저는 생각해요.
마치며
이 연구가 남기는 메시지는 세 가지로 요약할 수 있어요.
첫째, AI 모델들의 다양성은 겉보기와 다를 수 있어요. 70개가 넘는 다른 모델이 있어도, 열린 질문에 대한 답은 놀랍도록 수렴해요.
둘째, 이 수렴의 뿌리는 "더 좋은 답"을 학습시키는 현재의 RLHF 기반 정렬 방식 자체에 있어요. 안전하고 유용한 AI를 만드는 과정이 동시에 다양성을 줄이는 과정이에요.
셋째, AI가 아이디어 생성·전략 수립·의사결정 등 다양성이 중요한 영역에 깊이 관여할수록, 이 동질화의 파급 효과는 커질 수밖에 없어요.
당장 AI 사용을 줄이자는 이야기가 아니에요. 다만 한 번쯤 물어볼 필요가 있어요 — "지금 내가 AI에게서 받은 이 아이디어가, 다른 사람들이 AI에게서 받은 것과 얼마나 다를까?"
참고자료 & 더 읽기
핵심 출처
- Liwei Jiang et al., "Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)", NeurIPS 2025 Datasets and Benchmarks Track (Best Paper Award), 2025. : 이번 뉴스레터의 핵심 근거가 된 논문이에요. Figure 1의 "시간은 강물" 예시를 직접 보시면 충격적이에요.
- Robert Kirk et al., "Understanding the Effects of RLHF on LLM Generalisation and Diversity", ICLR 2024. : RLHF가 다양성을 줄인다는 것을 실험적으로 입증한 논문이에요. Artificial Hivemind의 원인을 이해하는 데 필수적이에요.
배경 지식
- Anil R. Doshi & Oliver P. Hauser, "Generative AI enhances individual creativity but reduces the collective diversity of novel content", Science Advances, 2024. : AI가 개인 창의성은 높이지만 집단 수준의 다양성은 오히려 줄인다는 역설을 실험으로 보여줘요. 이 뉴스레터의 맥락을 보완하는 좋은 연구예요.
- Allen School News, "Allen School researchers earn NeurIPS Best Paper Award for revealing the 'Artificial Hivemind' effect" (2026.01.22)
관련 도서
각주
- [1] Min-p 샘플링: AI가 답변을 생성할 때 너무 흔한 단어 조합은 피하고 다양한 표현을 선택하도록 유도하는 특수한 설정 방식이에요. 다양성을 높이기 위해 고안됐지만, 이 연구에서는 그래도 동질화를 완전히 막지 못했어요.
- [2] RLHF (Reinforcement Learning from Human Feedback, 인간 피드백 강화학습): AI에게 답변 두 개를 보여주고 "이게 더 좋다"는 사람의 선택을 반복 학습시켜, AI가 사람이 선호하는 답을 더 잘 내놓도록 훈련하는 방식이에요. ChatGPT, Claude 등 현재 주요 AI들이 모두 이 방식을 사용해요.
- [3] SFT (Supervised Fine-tuning, 지도 학습 파인튜닝): 이미 학습된 대형 언어모델에 "질문-정답" 쌍의 예시 데이터를 추가로 학습시켜 성능을 높이는 방식이에요. RLHF 이전 단계에서 주로 사용돼요.
- [4] 리워드 모델 (Reward Model): RLHF 과정에서 AI의 답변이 얼마나 "좋은지"를 수치로 평가하는 보조 모델이에요. 이 수치를 기준으로 AI가 어떤 답을 더 많이 생성해야 할지 학습해요. 이 연구에서는 리워드 모델도 열린 질문에서 인간의 다양한 선호를 제대로 반영하지 못한다는 것이 드러났어요.

의견을 남겨주세요