들어가며
구독자님, "AI가 당신의 이력서를 걸러내고 있어요." 지난 한 달간 링크드인과 커리어 커뮤니티에서 가장 많이 공유된 문장이에요. 출처는 스탠퍼드 대학교 연구진이 발표한 논문 한 편이고요. 논문은 진짜예요. 420만 건의 실제 채용 데이터를 분석한, 이 분야 최대 규모의 실증 연구예요. 그런데 이 논문이 SNS를 타고 퍼지면서, 한 줄씩 맥락이 떨어져 나갔어요. 결론부터 말씀드리면, 논문이 발견한 건 게임 기반 채용 도구 하나의 결함이었고, 인터넷이 만든 건 "AI 채용 시스템 전체가 당신을 거부한다"는 공포 서사였어요.
제가 이 논문과 이번 뉴스레터를 준비하면서 정말 기가 차다고 생각했던 것은 소위 "취업 컨설팅", "커리어 컨설턴트"라고 하는 이들이 이런 공포를 팔고 있었다는 거에요.(당연히 모든 이들이 그런건 아니겠지만) 더욱 웃긴건 이들은 그런 직군과 산업에 대한 전문적 지식이 없고, 심지어 취업 경험도 없는 경우가 대부분이였어요. 그냥 취업이 절실한 사람들에게 공포 마케팅을 하고 있는 거였던거죠.
논문이 진짜 발견한 것
지난 5월, 스탠퍼드 HAI 연구진이 FAccT[1] 2026에서 발표한 논문 《Algorithmic Monocultures in Hiring》의 핵심은 알고리즘 모노컬처[2]라는 개념이에요. 여러 회사가 같은 채용 AI 벤더를 쓰면, 한 모델의 편향이 시장 전체로 퍼질 수 있다는 가설이에요.
이 가설을 검증하기 위해 연구진이 확보한 데이터는 인상적이에요. 420만 건의 지원, 340만 명의 지원자, 156개 기업, 1,746개 직무. 하나의 채용 벤더가 처리한 실제 데이터를 4년치(2018~2022년) 확보했어요.
그런데 그 벤더가 뭔지를 알면, 이야기의 성격이 달라져요.
pymetrics라는 도구예요. 이력서를 분석하는 시스템이 아니에요. 지원자가 12~16개의 온라인 게임을 플레이하면, 위험 감수 성향이나 처리 속도, 계획 능력 같은 특성을 측정하고 "추천" 또는 "비추천" 둘 중 하나를 내놓아요. 게임의 대부분은 직무와 무관하게 동일해요. 창고 관리직이든 재무 분석가든 같은 게임을 하고, 약 42%의 지원자가 "비추천"을 받아요.
이 도구의 학습 방식이 진짜 문제예요. 각 기업에서 현재 그 직무에 재직 중인 직원 최소 50명을 "좋은 사례"로, 무작위 인물들을 "나쁜 사례"로 놓고 모델을 학습시켜요. "좋은 사례"는 성과가 뛰어난 직원이 아니에요. 그냥 지금 그 자리에 앉아 있는 사람이에요. "나쁜 사례"는 그 일을 못한 사람이 아니라, 아무 관계도 없는 임의의 프로필이고요. 결국 이 도구가 배우는 건 "기존 직원과 얼마나 닮았는가"이지, "이 직무를 잘 수행할 수 있는가"가 아니에요.
pymetrics는 이전까지 회사 전체 지원자를 한꺼번에 묶어서 공정성 감사를 했어요. 전체를 묶으면 흑인 지원자 합격률 52.5%, 백인 58.3%로, 미국 고용법상 불리한 영향[3] 기준을 통과해요.
연구진은 이걸 정확히 짚었어요. 미국 고용법(Title VII)은 회사 전체가 아니라 각 직무별로 평가하도록 요구해요. 그래서 1,746개 직무를 하나씩 뜯어봤더니, 약 11%의 직무가 흑인 지원자에게 불리하게 작동하고 있었어요. 흑인 지원자 전체 지원 건수의 약 26%가 바로 그 직무들에 몰려 있었고요.
이건 유효한 발견이에요. 평균이 차별을 숨길 수 있다는 걸 420만 건의 실제 데이터로 실증한 거예요. 뉴욕시의 AI 채용 감사법(Local Law 144)[4]조차 감사 시 데이터를 통합하라고 안내하는데, 이건 논문이 지적한 것과 정확히 같은 함정이에요. 채용 도구를 운영하는 기업이라면, 직무별 감사로 전환해야 한다는 교훈은 분명해요.
여기까지는 좋아요. 문제는 그다음이에요.

논문이 말하지 않은 것
이 논문의 감정적 핵심은 "알고리즘 블랙리스트"예요. 같은 모델이 여러 회사에서 쓰이니까 한 번 거부당하면 어디서든 거부당한다는 공포 시나리오요. 그런데 연구진 자신의 데이터가 이 시나리오를 지지하지 않아요.
지원자의 84%는 딱 한 개 직무에만 지원했어요. 95% 이상이 두 개 이하고요. 10개 이상 지원한 사람은 522명, 전체의 0.02%예요. "어디서든 거부"라는 악몽이 작동하려면 같은 벤더를 쓰는 여러 회사에 지원해야 하는데, 거의 아무도 그러지 않았어요.
더 결정적인 건 연구진이 직접 시뮬레이션을 돌린 결과예요. 1,000명의 지원자를 뽑아 pymetrics의 전체 495개 모델에 넣어봤어요. 결과는요? 단 한 명도 모든 모델에서 거부되지 않았어요. 가장 불리한 사람도 52개 직무에서 "추천"을 받았어요. 논문의 결과 섹션에서 연구진 스스로 인정한 내용이에요.
논문 첫 문장은 "미국 고용주의 90% 이상이 채용 알고리즘을 사용한다"로 시작해요. 도입부에서는 HireVue가 포춘 100대 기업의 60% 이상에서 사용된다고 인용하고요. 무섭게 들리죠? 그런데 HireVue는 이 논문에서 단 한 번도 분석되지 않았어요. 연구 대상은 오직 pymetrics예요. HireVue는 구조화 면접과 직무 시뮬레이션 기반으로, pymetrics의 게임 기반 평가와는 완전히 다른 제품 카테고리예요. 논문이 HireVue의 시장 지배력을 도입부에 배치한 건 공포의 스케일을 키우기 위한 수사였고, 실제 분석과는 무관해요.
비교 기준도 따져볼 필요가 있어요. 논문은 pymetrics의 결과를 기존 인간 채용 과정과 비교하기 위해 Kline 등의 2022년 연구(83,000건 이력서 실험)를 끌어와요. 그 연구에서는 채용 결정이 통계적으로 독립적인 반면, pymetrics에서는 거부가 몰리는 패턴이 보인다고요. 그런데 Kline 연구는 미국 내 초급 직무만 다뤘고, pymetrics 데이터는 전 세계 모든 직급을 포함해요. 가장 많은 지원이 몰린 도시가 뉴욕이 아니라 런던이에요. 국가도, 직급도, 측정 방법도 다른 두 데이터를 나란히 놓고 "알고리즘 때문"이라고 결론을 내리기엔, 통제되지 않은 변수가 너무 많아요.
그리고 거의 모든 보도가 놓친 사실이 하나 있어요. pymetrics가 실제 업무 성과를 예측하는지 검증한 데이터가 이 연구에 없어요. 연구진도 한계 섹션에서 이걸 직접 인정해요. 도구가 편향을 보이는 것과 별개로, 이 도구가 채용의 기본 목적인 "좋은 직원을 뽑는 것"을 달성하는지 아무도 확인하지 않은 거예요. 편향과 무효성, 두 가지 실패가 동시에 쌓여 있어요.
사실 이 논문의 한계 섹션은 놀라울 정도로 정직해요. 게임 기반 도구 하나의 결과라 다른 유형의 AI 채용 도구에 일반화하기 어렵다고 저자들이 직접 써요. 거부된 지원자가 실제로 좋은 직원이 되었을지 알 수 없다고도, 인간 채용 프로세스와의 비교가 깨끗한 대조군이 아니라고도, 이 결과가 불법 행위를 증명하지는 않는다고도, 다 직접 인정해요.
이 논문은 신중한 연구예요. 문제는 논문이 아니라, 그다음에 일어난 일이에요.
공포가 상품이 되는 유통 구조
논문에서 헤드라인까지, 단계마다 맥락이 하나씩 떨어져 나가는 과정을 추적해 보면요.
1단계, 논문: "게임 기반 평가 도구 pymetrics에서, 직무별로 분석하면 약 11%가 인종별 불리한 영향을 보인다. 단, 일반화에 한계가 있다."
2단계, 대학 보도자료: "AI 채용 도구에서 명확한 인종적 격차를 발견했다." pymetrics라는 이름은 남아 있지만, "게임 기반"이라는 맥락은 희미해져요.
3단계, 언론 기사: "스탠퍼드 연구, AI 채용에서 대규모 인종 편향 폭로." 여기서 pymetrics는 사라지고, "AI 채용 도구"가 주어가 돼요. "90%의 기업이 사용"이라는 논문 도입부의 수사가 본문의 핵심 발견인 것처럼 배치되고요.
4단계, 인플루언서: "AI가 당신의 이력서를 거르고 있어요. 스탠퍼드가 증명했어요." 한계 섹션은 완전히 사라져요. 신중한 가설이 확정된 사실로 바뀌어요.
5단계, 커리어 코치: "AI 시대에 살아남으려면 이것을 배워야 해요." 여기서 공포는 상품이 돼요.
한국에서도 이 구조는 이미 작동하고 있어요. "커리어 코치"를 자칭하는 사람들과 성인교육 플랫폼들이 AI 교육을 핑계로 FOMO를 조장하고 있어요. "AI를 모르면 도태된다", "이 스킬이 없으면 3년 안에 직업을 잃는다" 이 서사들의 공통점은 검증되지 않은 전제 위에 절박함을 쌓는다는 거예요.
가장 절실한 사람들이 타겟이에요. 실직자, 취업준비생, 커리어 전환을 고민하는 사람들에게 금전적으로 부담되는 강의와 코칭을 판매하고 있어요. "AI가 당신을 거부한다"는 공포와 "AI를 배우면 살아남는다"는 희망은 같은 동전의 양면이에요. 둘 다 검증을 빼고 감정만 남긴 서사예요.
이 논문이 pymetrics에 던진 질문을 그대로 돌려보면 구조가 보여요. pymetrics에는 "뭘 근거로 학습했나?" "성과를 예측할 수 있나?"를 물었어요. 커리어 교육 상품에도 똑같이 물어볼 수 있어요. "이 커리큘럼의 근거는 뭔가?" "수강 후 취업률이나 연봉 변화를 측정한 적이 있는가?" pymetrics가 기존 직원의 프로필을 복제한 것처럼, 공포 마케팅도 검증 없는 전제를 복제해요. 도구가 다를 뿐 메커니즘은 같아요.
논문의 한계 섹션을 아무도 인용하지 않는 이유가 여기 있어요. 인용하면 공포가 줄어들고, 공포가 줄어들면 상품이 안 팔리니까요.
오스왈드의 시선
저는 이 논문을 읽으면서, 채용 도구보다 유통 구조에 더 주목했어요.
GTM 전략을 수립하면서 수없이 봐온 패턴이 있어요. 시장에 공포가 생기면, 그 공포를 해소해주겠다는 상품이 가장 빨리 팔려요. 문제는 그 상품이 실제로 공포를 해소하는지 아무도 검증하지 않는다는 거예요. 구매 결정이 두려움에서 나오면, 효과 검증은 뒷전으로 밀려요.
pymetrics가 "이 도구가 성과를 예측하는가?"라는 질문을 건너뛴 것처럼, 한국의 AI 커리어 교육 시장도 같은 질문을 건너뛰고 있어요. "이 교육을 받으면 실제로 취업 확률이 올라가는가?", "이 코칭이 커리어 전환에 실질적 도움이 되었는가?" 이 질문에 데이터로 답할 수 있는 서비스가 얼마나 될까요.
제가 보기에 이 논문이 남기는 진짜 교훈은 두 가지예요. 첫째, 채용 도구를 고를 때 "뭘로 학습했나?"와 "성과를 예측하나?"를 물어보세요. 답이 "기존 직원"과 "모른다"이면, 그건 과학이 아니에요. 둘째, 공포를 파는 사람에게도 같은 질문을 던져보세요. "이 교육의 근거는 뭔가?"와 "효과를 측정한 적이 있나?"이 두 질문 앞에서 답을 못 하는 서비스는, pymetrics와 같은 구조 위에 서 있어요.
마치며
이 논문은 읽을 가치가 있어요. 특히 한계 섹션까지요. 평균 감사가 직무별 차별을 숨길 수 있다는 발견은 채용 실무에 즉시 적용할 수 있는 교훈이에요.
하지만 "AI가 당신을 어디서나 거부한다"는 서사는 논문이 만든 게 아니에요. 초록까지만 읽은 사람들이 만들었고, 그 공포를 상품으로 바꾸는 사람들이 유통시킨 거예요. 채용 도구든, 커리어 교육이든, 하나만 기억해 두세요. "이게 정말 효과가 있나?"라는 질문을 건너뛰는 순간, 당신이 사는 건 솔루션이 아니라 불안이에요.
💬 AI 채용 도구나 커리어 코칭 서비스를 이용해 본 경험이 있으신가요? "이건 도움이 됐다" 또는 "이건 FOMO 장사였다"는 경험이 있다면 댓글로 들려주세요.
참고자료 & 더 읽기
핵심 출처
- Bommasani, Bana, Creel, Jurafsky & Liang, "Algorithmic Monocultures in Hiring," FAccT 2026. : 오늘 뉴스레터의 중심 논문이에요. 특히 한계 섹션(Section 7: Limitations)을 반드시 함께 읽어보세요. 저자들의 정직한 자기 검증이 인상적이에요.
- Stanford HAI, "Q&A: Algorithmic Monoculture in Hiring," 2026. : 저자 3인이 직접 연구 동기, 방법론, 한계를 설명한 인터뷰예요. 논문보다 읽기 쉬워요.
- Placementist, "Fear-farming the Stanford AI hiring study," 2026. : 논문의 6가지 구조적 한계를 체계적으로 분석한 글이에요. 오늘 뉴스레터의 주요 참고 자료예요.
배경 지식
- Kline, Rose & Walters, "Systemic Discrimination Among Large U.S. Employers," Quarterly Journal of Economics, 2022. : 논문이 "인간 채용도 편향적"이라는 비교 기준으로 사용한 83,000건 이력서 실험이에요.
- DLA Piper, "Critical audit of NYC's AI hiring law signals increased risk for employers," 2026. : NYC Local Law 144의 감사 체계가 왜 "비효과적"이라는 평가를 받았는지 정리한 법률 분석이에요.
각주
- [1] FAccT (Fairness, Accountability, and Transparency): ACM이 주관하는 공정성·책임성·투명성 학술 컨퍼런스예요. AI와 알고리즘의 사회적 영향을 다루는 분야에서 가장 영향력 있는 학회 중 하나예요.
- [2] 알고리즘 모노컬처 (Algorithmic Monoculture): 여러 조직이 동일하거나 유사한 알고리즘에 의사결정을 의존하는 상태를 말해요. 농업에서 단일 품종만 재배하면 한 가지 병충해에 전체가 무너지는 것과 같은 원리예요.
- [3] Adverse Impact (불리한 영향): 미국 고용법에서 특정 인종·성별 집단의 선발률이 최고 선발 집단의 80% 미만일 때 적용되는 기준이에요. 4/5 규칙이라고도 불려요.
- [4] Local Law 144: 2023년 시행된 뉴욕시의 AI 채용 감사법이에요. AI 기반 채용 도구를 사용하는 고용주에게 연 1회 독립적 편향 감사를 의무화했지만, 뉴욕시 감사관실의 2025년 감사에서 "비효과적"이라는 평가를 받았어요.
의견을 남겨주세요