들어가며
구독자님, 누군가 "AI가 뭘 해주면 좋겠어요?"라고 물으면, 뭐라고 답하시겠어요?
아마 대부분은 "업무 효율화"부터 떠올릴 거예요. 이메일 자동 분류, 보고서 초안 작성, 데이터 정리. 저도 그렇고요. 그런데 지난주 Anthropic이 공개한 연구 결과를 보고, 좀 멈칫했어요. 81,000명에게 같은 질문을 던졌더니, 처음엔 비슷한 답이 나왔거든요. "전문적 탁월함"이 1위(18.8%)였어요. 그런데 AI 인터뷰어가 한 걸음 더 들어갔어요. "그래서 그게 실현되면 뭘 하고 싶은데요?" 여기서 답이 바뀌었어요.
159개국, 70개 언어. 역대 최대 규모의 다국어 정성 연구[1]라고 해요. 오늘은 이 연구가 보여주는 세 가지 발견, 그리고 이 연구 자체가 가진 방법론적 의미까지 함께 이야기해 볼게요.
표면의 답과 진짜 답 사이
연구 결과를 숫자로 먼저 볼게요. "AI가 마법 지팡이처럼 뭐든 해줄 수 있다면, 뭘 원하세요?"라는 질문에 대한 응답이에요.
- 전문적 탁월함 — 18.8% (루틴 업무는 AI가, 전략적 사고는 내가)
- 개인적 변화 — 13.7% (멘토, 코치, 정서적 지원)
- 삶 관리 — 13.5% (일정, 집중력, 인지 부하 관리)
- 시간 자유 — 11.1% (가족, 취미, 휴식을 위한 시간 확보)
- 재정 독립 — 9.7% (수입 창출, 경제적 안정)
- 사회 변화 — 9.4% (질병, 빈곤, 기후 문제 해결)
- 창업 — 8.7% (1인 기업으로 팀급 역량 확보)
- 학습과 성장 — 8.4% (맞춤형 교육, 지적 호기심 충족)
- 창작 표현 — 5.6% (상상과 실현 사이의 장벽 허물기)
1위는 생산성이에요. 놀랍지 않죠. 그런데 흥미로운 건 두 번째 질문 이후에 벌어진 일이에요. Anthropic Interviewer[2]는 단순히 "뭘 원하세요?"에서 멈추지 않았어요. "그 바람 뒤에 있는 진짜 희망은 뭔가요?"라고 다시 물었어요. 그러자 생산성을 1순위로 꼽았던 사람들의 답이 달라졌어요. 콜롬비아의 한 사무직 응답자는 이렇게 말했어요 — AI 덕분에 업무를 효율적으로 처리하게 됐고, 지난 화요일에는 일을 마무리하는 대신 어머니와 함께 요리를 했다고요. 일본의 한 프리랜서는 클라이언트 문제에 쓰는 두뇌 에너지를 줄여서, 책을 더 읽고 싶다고 했어요.
GTM 전략 관점에서 보면, 이건 전형적인 "표면 니즈와 심층 니즈의 괴리"예요. 고객에게 "뭐가 필요하세요?"라고 물으면 기능을 말해요. 그런데 "왜 그게 필요한데요?"라고 세 번쯤 파고들면, 완전히 다른 욕구가 나와요. AI 기업들이 "생산성 30% 향상"을 마케팅 메시지로 쓰고 있는데, 정작 사용자들이 그 30%로 하고 싶은 건 가족과 저녁을 먹는 것이었던 거예요.
전체 응답을 구조적으로 보면, 약 3분의 1은 AI로 삶의 여유를 만들고 싶어했어요 — 시간, 돈, 인지적 여유. 약 4분의 1은 더 의미 있는 일을 하고 싶어했고요(일에서 도망치는 게 아니라, 일의 질을 높이는 것). 약 5분의 1은 더 나은 사람이 되고 싶어했어요 — 배우고, 치유하고, 성장하는 것. 나머지는 무언가를 만들거나(창작), 세상을 고치고(사회 변화) 싶어했어요.
한 사람 안의 빛과 그림자

이 연구에서 제가 가장 주목한 발견은 이거예요. 희망과 불안이 서로 다른 진영을 나누는 게 아니라, 한 사람 안에서 공존한다는 것. 연구팀은 이걸 "빛과 그림자(Light and Shade)"라고 불렀어요. 다섯 가지 핵심 긴장이 반복적으로 나타났어요.
학습 ↔ 인지 퇴화. 응답자의 33%가 AI의 학습 효과를 언급했어요. 동시에 17%는 AI에 의존하면서 스스로 생각하는 능력을 잃고 있다고 걱정했어요. 한국의 한 응답자는 이렇게 말했어요 — AI가 준 답으로 좋은 성적을 받았지만, 실제로 배운 건 아무것도 없었다고요. 그때 가장 큰 자책감을 느꼈다고요. 흥미로운 건 교육자 집단이에요. 교사와 학자들은 인지 퇴화를 직접 목격했다고 답한 비율이 평균의 2.5~3배였어요. 아마 학생들에게서 그 변화를 보고 있는 거겠죠.
의사결정 향상 ↔ 신뢰성 문제. 이건 다섯 가지 긴장 중 유일하게 부정적 측면이 긍정적 측면을 압도한 항목이에요. 22%가 AI 덕분에 더 나은 판단을 내리게 됐다고 말한 반면, 37%는 AI의 불안정한 신뢰성이 오히려 좋은 판단을 방해한다고 했어요. 양쪽 모두 직접 경험에 뿌리를 두고 있었어요 — 혜택을 언급한 사람의 88%, 피해를 언급한 사람의 79%가 실제로 겪은 일이었어요. 특히 법률·금융·의료 등 고위험 직종에서 이 긴장이 평균의 거의 2배로 나타났어요. 변호사 집단은 절반 가까이가 신뢰성 문제를 직접 경험했다고 답했는데, 동시에 의사결정 혜택을 가장 많이 보고한 집단이기도 했어요. AI의 판단에 기대면서, 동시에 그 판단에 데이는 거예요.
시간 절약 ↔ 환상적 생산성. 응답자의 절반(50%)이 시간 절약 효과를 언급했어요. 가장 많이 언급된 혜택이에요. 하지만 18%는 오히려 기대치가 올라가면서 더 바빠졌다고 했어요. 프랑스의 한 프리랜서 개발자의 표현이 인상적이에요 — "일하는 시간 대비 쉬는 시간의 비율은 전혀 바뀌지 않았다, 같은 자리에 있으려고 더 빨리 달려야 하는 것뿐"이라고요. 붉은 여왕 효과[3]의 AI 버전이에요.
감정적 지지 ↔ 감정적 의존. 이건 비율은 작지만(16% 대 12%), 가장 강하게 얽혀 있는 긴장이었어요. AI에게 감정적 지지를 받는다고 답한 사람은, 동시에 AI에 감정적으로 의존하게 될까 봐 걱정할 확률이 3배 높았어요. 한 미국 대학원생은 이렇게 고백했어요 — 파트너에게도 말하지 못하는 것들을 Claude에게 이야기하고 있었다고, 마치 감정적 외도를 하는 것 같았다고요.
경제적 역량 강화 ↔ 경제적 대체. 28%가 AI를 통한 경제적 기회를 언급했고, 18%는 일자리 대체를 우려했어요. 여기서 프리랜서 크리에이터 그룹이 가장 극단적인 위치에 있었어요. 실질적 경제적 혜택을 보고 있다고 답한 비율(23%)과, 실질적 위협을 경험하고 있다고 답한 비율(17%)이 거의 비등했어요. AI가 동시에 도구이면서 경쟁자인 셈이에요.
우려 항목의 전체 순위도 의미가 있어요. 신뢰성 문제(26.7%)가 1위였어요. 환각[4], 부정확한 인용, 검증에 드는 부하. 그 다음이 고용·경제(22.3%), 자율성·주체성(21.9%), 인지 퇴화(16.3%) 순서예요. 고용·경제 우려가 AI에 대한 전반적 태도를 가장 강하게 예측하는 변수였어요. 다른 어떤 이슈보다 이 문제가 사람들의 AI 감정 온도를 좌우했다는 뜻이에요.
방법론이라는 또 하나의 발견
솔직히 저는 연구 결과만큼이나 연구 방법 자체에 주목했어요.
이 연구는 AI(Claude)가 인터뷰어 역할을 했어요. 정해진 기본 질문을 하되, 응답에 따라 후속 질문을 적응적으로 생성했어요. 그리고 수집된 응답을 역시 Claude 기반 분류기가 다차원으로 코딩했어요. "사람들이 뭘 원하는지", "그걸 이미 경험하고 있는지", "뭘 우려하는지", "직업이 무엇인지", "AI에 대한 전반적 태도" 등으로요.
기존 정성 연구의 최대 규모를 비교해 보면 의미가 더 선명해져요. USC Shoah Foundation의 홀로코스트 증언 아카이브가 약 52,000건인데, 이건 1994년부터 1999년까지 5년에 걸쳐 모은 거예요. 세계은행의 "Voices of the Poor" 프로젝트가 60개국 약 60,000명인데, 이것도 1990년대 전반에 걸친 장기 프로젝트였고요. Anthropic의 이번 연구는 80,508명, 159개국, 70개 언어를 1주일 만에 수집했어요.
정성 연구는 전통적으로 깊이와 규모 사이의 트레이드오프가 있었어요. 깊이 있는 인터뷰를 하려면 소수만 할 수 있고, 대규모로 하려면 선택지를 줄인 설문조사로 갈 수밖에 없었죠. AI 인터뷰어는 이 트레이드오프를 무너뜨릴 수 있는 가능성을 보여줬어요.
물론 한계도 분명해요. 첫째, 표본 편향이에요. 이 사람들은 이미 Claude를 쓰고 있는 활성 사용자예요. AI에 충분한 가치를 느끼고 있어서 계속 쓰고 있는 사람들이죠. 둘째, 질문 순서 편향이에요. 인터뷰가 긍정적 비전을 먼저 물어보고, 우려를 나중에 물었어요. 이 순서가 응답에 영향을 미쳤을 가능성이 있어요. 셋째, 더 근본적인 문제로, AI가 질문을 생성하고 응답을 분류하는 과정에서 어떤 편향이 들어갔는지에 대한 별도 검증이 필요해요. 분류기가 놓친 뉘앙스, 문화적 맥락에 따른 해석 차이 같은 것들이요.
그럼에도 이 방법론은 사회과학에 진지한 질문을 던져요. 전통적 연구에서 인간 코더의 일관성(inter-rater reliability)도 완벽하지 않거든요. AI 분류기의 일관성과 비교하는 연구가 나온다면, 꽤 흥미로운 결과가 나올 수 있어요.
오스왈드의 시선
이 연구의 재밌는 점은 두가지에요. 첫째, AI 산업의 마케팅 메시지와 사용자의 실제 욕구 사이에 꽤 큰 간극이 있다는 것이에요. AI 기업들은 "생산성", "효율", "자동화"를 앞세우고 있어요. 분명히 사람들도 처음엔 그걸 원한다고 말해요. 그런데 한 겹 벗기면 나오는 건 "아이를 학교에서 데리러 갈 시간", "어머니와 요리할 여유"예요. 개인적으로 이건 제품의 기능(feature)과 고객의 성과(outcome)가 다른 전형적인 사례예요. "생산성 30% 향상"은 기능이에요. "화요일 저녁에 엄마랑 요리"가 성과예요. AI 기업들이 진짜 다음 단계로 가려면, 기능이 아니라 성과를 약속해야 해요.
둘째, 편향을 인정하면서도 연구를 했다는 태도에 주목해요. Anthropic은 이 연구의 한계를 스스로 명시했어요. Claude 사용자만 대상이라 편향이 있고, 질문 순서에도 영향이 있을 수 있다고요. 그러면서도 "그래서 안 하는 것"이 아니라, 한계를 공개하면서 진행했어요. 데이터 분석에서 가장 위험한 건 "편향이 없다고 주장하는 것"이에요. 편향이 있다고 솔직하게 말하면서 결과를 내놓는 게 훨씬 정직한 연구 태도라고 생각해요.
한 가지 더 — 이 연구에서 한국 응답자의 목소리가 몇 번 인용됐는데, 하나같이 인상적이었어요. "인류는 자기보다 똑똑한 것을 다뤄본 적이 없다"고 말한 소프트웨어 엔지니어, AI가 준 답으로 좋은 성적은 받았지만 아무것도 배우지 못했다고 고백한 학생. 기술 수용도가 높은 한국 사회에서, 기술에 대한 성찰의 깊이도 함께 높아지고 있다는 신호라고 봐요.
마치며
하나, 사람들이 AI에게 원하는 건 '더 빠른 업무'가 아니라 '더 나은 삶'이에요. 생산성은 수단이지, 목적이 아니었어요. 둘, 희망과 불안은 별도의 진영이 아니라, 한 사람 안에서 동시에 작동해요. AI를 가장 잘 활용하는 사람이 AI를 가장 깊이 걱정하고 있었어요. 셋, AI 인터뷰어를 활용한 대규모 정성 연구는 사회과학의 새로운 도구가 될 가능성이 있어요. 한계는 분명하지만, 가능성도 분명해요.
이 연구의 원문은 인터랙티브 데이터 시각화와 함께 공개되어 있어요. 지역별, 우려 유형별, 비전 유형별로 필터링해서 개별 응답을 직접 읽어볼 수 있어요. 시간이 되신다면 Quote Wall부터 둘러보시길 추천해요. 숫자가 보여주지 못하는 결이 거기에 있어요.
참고자료 & 더 읽기
핵심 출처
- Saffron Huang et al., "What 81,000 People Want from AI", Anthropic, 2026. : 인터랙티브 시각화와 Quote Wall이 포함된 전체 연구 결과예요. 숫자보다 개별 응답을 읽어보시길 권해요.
- Anthropic, "What 81,000 People Want from AI — Appendix", 2026. : 방법론, 한계, 추가 분석이 담긴 부록이에요. 연구 방법론에 관심이 있다면 반드시 읽어보세요.
배경 지식
- Kunal Handa et al., "Introducing Anthropic Interviewer: What 1,250 Professionals Told Us About Working with AI", Anthropic Research, 2025. : 이번 81,000명 연구의 전신이에요. 1,250명 전문가를 대상으로 AI 인터뷰어 방법론을 처음 검증한 연구에요.
- Deepa Narayan et al., Voices of the Poor: Can Anyone Hear Us?, World Bank, 2000. : 60개국 60,000명의 빈곤층 목소리를 모은 세계은행의 정성 연구. 이번 연구가 비교 기준으로 삼은 "기존 최대 규모 정성 연구" 중 하나예요.
각주
- [1] 정성 연구 (Qualitative Research): 수치로 측정하는 정량 연구와 달리, 사람들의 경험·의견·감정을 심층적으로 탐구하는 연구 방법이에요. 설문조사가 "예/아니오"를 세는 거라면, 정성 연구는 "왜 그렇게 생각하세요?"를 파고드는 거예요.
- [2] Anthropic Interviewer: Anthropic이 개발한 AI 기반 인터뷰 도구예요. Claude가 사전 설계된 질문을 하되, 응답자의 답변에 따라 후속 질문을 적응적으로 생성해요. 전통적 정성 연구의 깊이와 설문조사의 규모를 동시에 추구하는 방법론이에요.
- [3] 붉은 여왕 효과 (Red Queen Effect): 루이스 캐럴의 《거울 나라의 앨리스》에서 붉은 여왕이 "같은 자리에 있으려면 계속 뛰어야 한다"고 말한 데서 유래한 개념이에요. 기술이 발전해도 기대치가 함께 올라가서 체감 여유는 변하지 않는 현상을 설명할 때 쓰여요.
- [4] 환각 (Hallucination): AI가 그럴듯하지만 사실이 아닌 정보를 자신 있게 생성하는 현상이에요. 존재하지 않는 논문을 인용하거나, 틀린 수치를 정확한 것처럼 제시하는 식이에요.

의견을 남겨주세요