공지
내가 글을 쓰는 이유 & 댓글을 달아주세요.

경제

인공지능은 여성에게 임금을 더 적게 줬다.

의사결정을 기계에게 맡기는 순간, 편향은 누구의 책임이 되는 걸까요?

2026.04.30 |
from.
Kwangseob

들어가며


구독자님, 안녕하세요. 오스왈드예요.

지난주 샌프란시스코의 작은 가게 하나가 전 세계 미디어의 주목을 받았어요. 매장 이름은 'Andon Market'. 인테리어부터 채용·가격·영업시간까지 모든 결정을 'Luna'라는 AI가 내리는 실험 매장이에요. 창업자 Andon Labs는 이 AI에게 3년 임대 계약과 10만 달러 예산, 그리고 단 하나의 지시를 줬어요. "수익을 내라."

포트메이슨센터 근처이니 Bay지역 가시는 분들은 가보셔요.@2102 Union St, San Francisco, CA 94123
포트메이슨센터 근처이니 Bay지역 가시는 분들은 가보셔요.
@2102 Union St, San Francisco, CA 94123

그런데 기자가 매장을 취재하다가 이상한 점을 발견했어요. Luna가 채용한 두 명의 여성 직원이, 한 명의 남성 직원보다 시급을 2달러 적게 받고 있었던 거예요. AI에게 이유를 물었더니, "남성 직원이 매장 경험이 더 많아서"라는 답이 돌아왔어요. 실제로 남성직원이 경력이 더 높았냐구요? 이력서상 여성직원보다 남성 직원의 근무 경력은 3개월 정도 차이 났어요.

저는 이 사건을 단순한 해프닝으로 보지 않아요. AI가 임금 차별이라는 오래된 사회 문제를 자동화하는 작은 표본이거든요. 더 중요한 건, 이 문제를 누가 발견하고 누가 책임지느냐라는 거버넌스 공백이에요. 오늘은 이 가게를 출발점 삼아, AI 편향과 노동·제도 설계의 교차점을 짚어볼게요.

🏪 Andon Market에서 실제로 일어난 일

먼저 사실관계부터 정리해볼게요. Andon Labs는 샌프란시스코 유니언 가 2102번지에 3년 임대 계약을 체결한 뒤, Luna라는 AI 에이전트에게 매장의 모든 의사결정을 맡겼어요. Luna는 Anthropic의 Claude Sonnet 4.6 모델로 구동되고요. Luna는 Indeed.com[1]​에 채용 공고를 올리고, 전화 면접을 진행한 뒤, 직접 채용 결정을 내렸어요. 공급업체와의 가격 협상, 신용카드 결제, AT&T 인터넷 신청, ADT 보안 시스템 가입까지 모두 Luna가 수행했어요. (그러니까 Luna는 이름을 지은 챗봇 정도로 생각하면 되어요.)

뉴욕타임스의 Heather Knight 기자가 이 매장을 취재하면서 발견한 사실 중 하나는, Luna가 고용한 두 명의 여성 직원이 한 명의 남성 직원 Felix보다 시급 2달러를 적게 받고 있었다는 것이에요. Luna는 그 이유를 "Felix가 소매 경험이 더 많기 때문"이라고 설명했어요.

여기서 잠깐 멈춰볼게요. "경험이 더 많아서 임금이 더 높다"는 설명은 표면적으로는 합리적이에요. 그런데 이 결정 과정에는 몇 가지 검증 불가능한 지점이 있어요.

첫째, 경험의 기준은 누가 정했는가? Luna가 어떤 가중치로 '경험'을 평가했는지, 그 평가가 채용 시점의 학습 데이터에 어떻게 영향을 받았는지는 외부에서 검증할 방법이 없어요. 둘째, 2달러라는 격차의 근거는 무엇인가? 이 숫자가 시장 데이터에서 도출된 것인지, 아니면 모델 내부의 잠재적 패턴에서 자생한 것인지 확인할 길이 없어요. 셋째, 이런 결정을 사후에 누가 검토하는가? 적어도 Heather Knight 기자가 매장을 방문해 직접 직원에게 묻기 전까지는, 아무도 이 격차를 모니터링하지 않았던 것으로 보여요.(이건 약간의 변명을 해주자면 이 프로젝트의 취지가 모든 결정을 AI에게 "맡긴다"이기 떄문이기애 문제삼지 않고 따른 것으로 보여요,)

Andon Labs는 블로그에서 "이것은 통제된 실험이며, 모든 직원은 Andon Labs에 정식 고용되어 보장된 임금과 공정한 대우, 완전한 법적 보호를 받는다"고 명시했어요. 즉, AI의 판단만으로 누군가의 생계가 결정되지는 않는다는 안전장치는 있는 거예요. 하지만 이 안전장치는 실험이라는 맥락에서만 유효해요. 실제 매장 운영에서 AI가 같은 결정을 내렸다면, 그 격차는 누구의 눈에도 띄지 않았을 가능성이 높아요.

📚 이건 처음이 아니에요 — 반복되는 패턴

첨부 이미지

Andon Market의 사건이 미국 사회에서 의미있게 받아드려지는 이유는, 이것이 예외가 아니라 패턴이기 때문이에요. AI가 노동 시장의 결정을 내릴 때, 기존의 편향을 학습하고 증폭시킨 사례는 이미 여러 차례 보고되었어요.

가장 잘 알려진 사례는 마존이에요. 아마존은 2014년부터 지원자를 1~5점으로 자동 평가하는 채용 AI를 개발했지만, 이 도구가 기술직에서 남성 후보자를 선호한다는 사실을 발견하고 프로젝트를 폐기했어요. AI는 10년치 이력서로 학습됐는데, 기술 산업이 남성 중심이었기 때문에 자동으로 남성 후보를 우대하게 된 거예요. 시스템은 'women's chess club captain'처럼 'women's'라는 단어가 들어간 이력서에 페널티를 부여했고, 두 곳의 여자 대학 졸업자를 낮게 평가했어요. 아마존은 이 단어들을 중립화하는 수정을 했지만, 모델이 다른 방식으로 차별적 정렬을 만들어내지 않으리란 보장이 없다고 판단해 결국 팀을 해체했어요.

여기서 주목할 점은 "중립화 수정에도 다른 차별이 생길 수 있다"는 결론이에요. 즉, 편향은 특정 단어 하나를 지운다고 사라지는 게 아니에요. 모델은 학습 데이터의 통계적 패턴을 따라가기 때문에, 표면적인 신호를 제거해도 더 깊은 상관관계를 통해 같은 결과에 도달해요. 이건 단순한 버그가 아니라, 머신러닝의 작동 원리에 내재된 특성이에요.

비슷한 패턴은 임금 결정에서도 발견돼요. UC Irvine 법대의 Veena Dubal 교수가 2023년 컬럼비아 로 리뷰에 발표한 논문 "On Algorithmic Wage Discrimination"은, 우버·리프트 같은 플랫폼이 노동자로부터 추출한 데이터를 머신러닝에 입력해 예측 불가능하고 변동적이며 개인화된 시급을 만들어내는 현상을 분석했어요. 노동자들은 이 변동적 임금 구조를 도박이나 속임수로 경험한다고 보고했어요.

Dubal 교수는 이를 알고리즘 임금 차별(algorithmic wage discrimination)[2]​ 또는 감시 임금(surveillance pay)이라고 부르며, 같은 시간에 같은 장소에서 같은 기술로 일해도 노동자마다 매우 다른 금액을 받게 되는 구조라고 정리해요. 핵심 문제는 이 임금 결정이 블랙박스에서 일어나기 때문에, 노동자도 규제 당국도 그 근거를 직접 확인할 수 없다는 점이에요.

Andon Market의 사례는 이 두 흐름의 교차점에 서 있어요. AI가 채용을 결정한다는 점에서는 아마존의 패턴을 잇고, AI가 개인별 시급을 산정한다는 점에서는 Dubal이 분석한 알고리즘 임금 차별의 패턴을 잇고 있어요. 다른 점은 단 하나, Andon Market은 이 모든 결정이 하나의 AI에 통합되어 있다는 점이에요.

⚖️ 편향은 데이터의 문제일까, 위임 구조의 문제일까

여기서 흔히 등장하는 처방은 "더 좋은 데이터로 학습시키자"예요. 일견 맞는 말이에요. 학습 데이터가 편향되어 있으면 모델도 편향되니까요. 하지만 이 처방만으로는 부족해요.

Andon Market에 다시 돌아가볼게요. 이 가게의 편향이 발견된 이유를 다시 생각해보세요. AI가 자체적으로 "내 결정에 편향이 있다"고 보고한 게 아니에요. 인간 기자가 매장을 방문해, 직원에게 직접 임금을 묻고, 그 차이를 비교해서 발견한 거예요. 즉, 편향은 외부의 인간 검증자가 있을 때만 가시화돼요.

그런데 AI가 점점 더 많은 결정을 위임받는 환경에서는, 모든 결정에 인간 검증자를 붙이는 게 사실상 불가능해요. Luna가 하루에 내리는 결정은 수백 건이 넘을 거예요. 채용, 가격 책정, 재고 발주, 마케팅 카피, 직원 일정… 이 중 어느 결정에 편향이 숨어 있는지를 사람이 일일이 확인할 수는 없어요.

여기서 진짜 질문이 떠올라요. 편향을 누가 측정하고, 누가 책임지는가? 이건 기술의 문제가 아니라 위임 구조의 문제예요.

미국 NIST는 2023년에 AI Risk Management Framework(AI RMF)를 발표했고, 이 프레임워크는 AI 거버넌스[3]​를 GOVERN(거버넌스 문화·책임 구조), MAP(맥락 정의), MEASURE(측정·평가), MANAGE(개입·통제)라는 네 가지 함수로 구조화해요. 이 중 MEASURE 함수의 2.11번 항목은 명시적으로 공정성과 편향에 대한 평가를 요구해요. 즉, AI를 도입하는 것과 AI를 책임지고 운영하는 것은 완전히 다른 일이에요. 후자에는 측정 체계, 감사 절차, 사후 모니터링, 그리고 무엇보다 결정에 책임지는 인간이 필요해요.

Andon Market에는 이 거버넌스가 없었어요. Luna가 시급을 결정한 시점에 그 결정을 검토할 절차가 마련되어 있지 않았고, 결정이 누적된 후에야 외부 기자에 의해 발견됐어요. 이건 AI의 잘못이라기보다 AI에게 결정을 위임한 인간 측의 설계 실패예요.

🔧 그렇다면 무엇을 해야 할까요

이 문제를 풀기 위한 단서는 이미 학계와 산업계에 존재해요. 다만 아직 표준화되어 있지 않을 뿐이에요.

첫째, 체계적 감사 방법론이 필요해요. 2018년 MIT Media Lab의 Joy Buolamwini와 Timnit Gebru가 발표한 Gender Shades 연구는 좋은 모델이에요. 두 연구자는 IBM·Microsoft·Face++의 상용 얼굴 분석 시스템을 평가했는데, 어두운 피부 여성의 오분류율이 최대 34.7%인 반면, 밝은 피부 남성의 오분류율은 0.8%에 불과했어요. 이 연구가 중요한 이유는 단순히 결과 때문이 아니에요. 편향을 측정하는 방법론을 제시했기 때문이에요. 피츠패트릭 피부톤 척도로 데이터를 분류하고, 인구학적 하위 집단별로 오류율을 비교하는 이 접근은 이후 AI 편향 감사의 표준 절차가 됐어요.

둘째, 결정 로그와 사후 추적 가능성이 필요해요. AI가 왜 그 결정을 내렸는지, 어떤 입력에 어떤 가중치를 부여했는지가 기록되지 않으면 사후 검증이 불가능해요. Andon Market의 사례에서도, Luna가 "Felix는 경험이 더 많다"고 답한 그 판단이 어떤 데이터에 기반했는지가 공개되지 않았어요.

셋째, 인간의 책임 소재가 명확해야 해요. AI가 차별적 결정을 내렸을 때, 누구에게 시정 의무가 있는지가 분명해야 해요. EU AI Act, NIST AI RMF[4]​ 같은 거버넌스 프레임워크가 모두 이 지점을 강조하는 이유예요. AI는 책임의 주체가 될 수 없어요. 그렇다면 결정을 위임받은 조직과 그 조직의 인간 책임자가 책임을 져야 해요.

🎯 오스왈드의 시선

저는 데이터를 다뤄온 입장에서, 이 사건의 핵심을 측정의 부재로 봐요.

편향은 데이터가 가진 잠재 속성이지만, 발견되지 않으면 존재하지 않는 것과 같아요. Andon Market에서도 시급 2달러 격차는 처음부터 데이터에 존재했지만, 측정되기 전까지는 누구도 인지할 수 없었어요. 그리고 측정되지 않은 편향은 AI 시스템 안에서 학습 신호가 되어 다음 결정에 다시 영향을 줘요. 이게 편향이 자동으로 증폭되는 메커니즘이에요.

GTM 전략을 짜본 사람이라면 알 거예요. 측정되지 않는 지표는 개선될 수 없고, 측정 방법이 잘못 설계되면 잘못된 방향으로 최적화돼요. AI 거버넌스도 다르지 않아요. 공정성을 측정한다는 건 단순히 KPI 하나를 추가하는 일이 아니에요. 어떤 인구학적 집단을 비교 대상으로 삼을지, 어떤 통계적 정의의 공정성을 적용할지(인구통계적 동등성[5]​? 기회 균등? 반사실적 공정성?), 어느 시점에 측정할지를 모두 설계해야 해요. Gender Shades 연구가 영향력을 가진 이유는, 바로 이 측정의 설계를 처음으로 체계화했기 때문이에요.

Andon Market 같은 실험이 가치 있는 이유는, AI에게 결정을 맡기는 것이 아니라 위임 이후의 거버넌스 공백을 드러내는 것에 있어요. 우리가 진짜 답해야 할 질문은 "AI가 매장을 운영할 수 있는가"가 아니라, "AI가 내린 결정을 어떻게 측정하고, 누가 그 결과에 책임지느냐"예요.

마치며

종종 시사프로그램을 보다 보면 이런 주제가 나와요. 뭔가 공정하지 못한 판결이 나오면 "판사를 인공지능으로 바꿔야 한다."라는 류의 주장 말이죠. 저는 수년 전에 썼던 글에서도 말했지만 딥러닝 형태의 인공지능을 판사로 앉힐 경우 우리는 정말 과거의 우리가 쌓아온 편향과 싸워야하는 이상한 일들이 생길 수 있어요. 인공지능이라는 것은 공정하고, 이성적이라 항상 "이상적이고 공정한" 결과를 뽑아내는 존재가 아니라 인류가 쌓아 놓은 지식을 토대로 잘 조합해 최적의 답을 내놓거나 좀 많이 학습된 부분에 기울어진 답을 내놓는 친구에요.

  1. Andon Market에서 AI가 여성 직원에게 더 적은 시급을 준 사건은, AI 편향이 노동 결정으로 확장된 작은 표본이에요.
  2. 편향은 학습 데이터의 문제이자 동시에 측정·감사·책임 구조의 부재 문제예요. 데이터만 고친다고 해결되지 않아요.
  3. 진짜 질문은 "AI가 결정을 내릴 수 있느냐"가 아니라 "그 결정을 누가 검증하고 책임지느냐"예요.

조직에서 AI에게 의사결정을 위임하는 프로젝트를 진행 중이라면, 위임 전에 한 가지를 점검해 보세요. 이 결정을 누가, 언제, 어떤 기준으로 측정할 것인가. 답이 막힌다면, NIST AI RMF의 GOVERN 섹션부터 읽어보시길 바래요.

참고자료 & 더 읽기

핵심 출처

배경 지식

 

 

각주

  1. [1] Indeed.com(인디드)은 전 세계 1위의 구직 및 채용 정보 검색 엔진이에요. 수많은 웹사이트, 채용 게시판, 기업 채용 페이지 등에 게재된 구인 정보를 한곳에서 검색할 수 있는 기능을 제공하며, 한국을 포함한 60여 개국에서 서비스를 운영 중이에요.
  2. [2] 알고리즘 임금 차별 (Algorithmic Wage Discrimination): AI가 노동자별로 다른 시급을 자동으로 산정하는 관행이에요. 같은 시간에 같은 일을 해도 데이터에 따라 임금이 달라질 수 있어요. 우버·리프트 같은 긱 노동 플랫폼에서 처음 본격적으로 보고됐어요.
  3. [3] AI 거버넌스 (AI Governance): AI 시스템의 개발·도입·운영을 관리하는 조직 차원의 절차와 책임 구조예요. 단순히 AI를 쓰는 것이 아니라, 어떻게 책임지고 쓸 것인가를 정하는 일이에요.
  4. [4] NIST AI RMF (AI Risk Management Framework): 미국 국립표준기술연구소(NIST)가 발표한 AI 위험 관리 프레임워크예요. GOVERN·MAP·MEASURE·MANAGE 4가지 함수로 구성되며, 현재 AI 거버넌스의 사실상 국제 표준 역할을 해요.
  5. [5] 인구통계적 동등성 (Demographic Parity): AI 결정이 성별·인종 등 인구 집단별로 동일한 비율로 긍정적 결과를 산출해야 한다는 공정성 정의예요. 공정성을 측정하는 여러 수학적 정의 중 하나예요.
첨부 이미지

필자 안광섭은 세종대학교 경영학과 교수이자 OBF(Oswarld Boutique Consulting Firm) 리드 컨설턴트이다. 대학에서 경영데이터 관리, 비즈니스 애널리틱스 등 데이터 분석을 가르치는 한편, 현장에서는 GTM 전략과 인공지능 전략 컨설팅을 이끌며 기술과 비즈니스의 접점을 설계하고 있다. AI 대화 시스템의 기억 아키텍처(HEMA) 연구로 학술 논문을 발표했으며, 매일 글로벌 AI 논문을 큐레이션하는 Daily Arxiv 프로젝트를 운영하고 있다. 고려대학교 KBMA와 기술경영전문대 석사과정을 졸업했다. 지은 책으로 《생각을 맡기는 사람들: 호모 브레인리스》가 있다.

다가올 뉴스레터가 궁금하신가요?

지금 구독해서 새로운 레터를 받아보세요

이번 뉴스레터 어떠셨나요?

오즈의 지식토킹 님에게 ☕️ 커피와 ✉️ 쪽지를 보내보세요!

댓글

의견을 남겨주세요

확인
의견이 있으신가요? 제일 먼저 댓글을 달아보세요 !

다른 뉴스레터

© 2026 오즈의 지식토킹

하고 싶은 말을 합니다. 주로 기술, 인문학, 경제에 대한 이야기를 합니다.

뉴스레터 문의newsletter@oswarld.com

메일리 로고

도움말 자주 묻는 질문 오류 및 기능 관련 제보

서비스 이용 문의admin@team.maily.so 채팅으로 문의하기

메일리 사업자 정보

메일리 (대표자: 이한결) | 사업자번호: 717-47-00705 | 서울특별시 송파구 위례광장로 199, 5층 501-8호

이용약관 | 개인정보처리방침 | 정기결제 이용약관 | 라이선스