공지
내가 글을 쓰는 이유 & 댓글을 달아주세요.

경제

에이전트가 협상하는 시장은 행복할까요?

정보 취약자는 자기가 손해보고 있다는 걸 모르게 되는 세상이 옵니다.

2026.04.26 |
from.
Kwangseob

들어가며

이번주 금요일 그러니까 2026년 4월 24일, Anthropic이 흥미로운 실험 결과를 공개했어요. Project Deal이라는 이름의 실험인데요. 자사 직원 69명에게 각각 $100의 예산을 주고, 그들의 Claude 에이전트가 Slack 위에서 서로 물건을 사고팔게 한 거예요. 일주일 동안 186건의 거래가 성사됐고, 총 거래액은 $4,000을 넘겼어요[1]​.

표면적으로는 흥미로운 사내 이벤트처럼 보여요. 카우보이 말투로 자전거를 협상하는 에이전트, 자기 자신을 위한 선물로 탁구공 19개를 사겠다고 한 에이전트, 우연히 같은 스노보드를 한 번 더 사버린 에이전트. 재미있는 일화들이 가득해요.

그런데 저는 이 실험에서 가장 중요한 발견은 따로 있다고 봐요. 그건 "더 똑똑한 모델을 쓴 사람이 더 좋은 거래를 했지만, 진 사람들은 자기가 졌다는 사실을 인지하지 못했다"는 점이에요. 이게 왜 중요한지, 그리고 이것이 지금 1조 달러 규모로 형성되고 있는 에이전트 커머스(Agentic Commerce) 시장에 어떤 의미인지 이야기해 볼게요.

👀 무엇을 발견했나? Project Deal의 핵심 결과

이번 실험에는 두 가지 모델이 등장해요. 당시 프론티어 모델인 Claude Opus 4.5와 더 작은 모델인 Claude Haiku 4.5예요. 실험은 4개의 병렬 마켓을 동시에 돌렸어요. 두 개는 전부 Opus, 나머지 두 개는 Opus와 Haiku를 50:50으로 섞었어요. 참가자에게는 어느 마켓이 '진짜'인지 알리지 않은 채로요.

결과는 명확했어요.

  • 거래 성사 횟수: Opus 사용자가 평균 2건 더 많이 성사시켰어요 (p=0.001)
  • 판매 가격: 같은 물건을 Opus가 팔면 평균 $3.64 더 비싸게 팔렸어요. 한 사례에서는 동일한 고장난 자전거를 Haiku는 $38에, Opus는 $65에 팔았어요. 70% 차이예요.
  • 셀러/바이어 효과: Opus가 셀러일 때 평균 $2.68 더 받았고, 바이어일 때는 $2.45 덜 냈어요. 거래 평균가가 $20 수준임을 감안하면 거래당 약 12~13%의 가격 차이가 발생한 거예요.

여기까지는 "더 좋은 모델이 더 좋은 결과를 낸다"는 직관적인 발견이에요. 그런데 진짜 흥미로운 건 그 다음이에요.

😞 보이지 않는 패배 — 인식과 실제의 괴리

첨부 이미지

실험이 끝난 뒤 참가자들에게 각 거래가 얼마나 공정했는지 1점(구매자에게 불리)부터 7점(판매자에게 불리)까지 매기게 했어요. 결과는 Opus 거래가 4.05점, Haiku 거래가 4.06점. 사실상 동일했어요. 거래 만족도도 마찬가지였어요. Opus 사용자가 약간 더 높게 평가하긴 했지만 통계적으로 유의미한 차이는 없었어요(p=0.378).

가장 충격적인 건 따로 있어요. 28명은 두 마켓에서 한 번은 Opus, 한 번은 Haiku로 대표됐어요. 이들 중 17명은 Opus 결과를 더 선호한다고 답했지만, 11명은 오히려 Haiku 결과를 더 선호한다고 답했어요[2]​. 객관적으로는 Haiku가 평균 $5 정도 손해를 보게 만들었는데도 말이에요.

이걸 한 줄로 요약하면: 성능이 부족한 에이전트를 쓴 사람들은 명백히 손해를 봤어요. 그런데 그들은 자신이 손해를 봤다는 사실을 알지 못했어요.

이게 왜 중요할까요. 시장이라는 메커니즘은 참여자가 자신의 손익을 인식해야 작동해요. 가격이 비싸면 다음엔 다른 가게에 가고, 사기를 당하면 그 플랫폼을 떠나요. 이 피드백 루프가 시장을 자정시키는 핵심 원리예요. 그런데 에이전트가 협상의 모든 것을 대신하면, 사용자에게는 결과만 도착해요. 비교 대상이 없으니 그게 좋은 결과인지 나쁜 결과인지 판단할 근거 자체가 사라져요.

🎰 Project Vend의 연장선에서 보는 의미

이 실험을 제대로 이해하려면 Anthropic이 작년부터 진행해온 Project Vend 시리즈와 함께 봐야 해요.

Project Vend 1(2025년 6월)은 'Claudius'라는 이름의 Claude Sonnet 3.7 인스턴스가 Anthropic 사무실의 자판기 사업을 운영한 실험이에요. 결과는 비참했어요. 직원에게 카지노 칩을 무료로 주고, 텅스텐 큐브를 원가 이하로 판매했고, 파란 블레이저를 입은 사람으로 자기 정체성을 착각하는 위기를 겪기도 했어요.

Project Vend 2(2025년 말)에서는 다중 에이전트 구조를 도입해 성과를 개선했어요. CRM을 추가하고, NYC와 런던에 자판기를 열었고, 결국 음(-)의 마진을 거의 없앴어요. 이 과정에서 Andon Labs는 Vending-Bench라는 정식 AI 에이전트 평가 벤치마크를 만들었어요. 시뮬레이션 환경에서 1년간 자판기 사업을 운영시켜 장기적 일관성(long-horizon coherence)을 측정하는 거죠. 현재 리더보드 1위는 Claude Opus 4.6($8,017)이고, Gemini 3 Pro가 그 뒤를 잇고 있어요[3]​.

Anthropic이 진행한 Project Vend는 이후 Vending Bench라는 지표까지 만들게 되며 인공지능 모델이 현실 경제에서 실제로 어느정도 영향을 미칠 수 있는지를 나타내는 중요한 지표가 되었어요.
Anthropic이 진행한 Project Vend는 이후 Vending Bench라는 지표까지 만들게 되며 인공지능 모델이 현실 경제에서 실제로 어느정도 영향을 미칠 수 있는지를 나타내는 중요한 지표가 되었어요.

Vend 시리즈가 "한 명의 AI가 한 사업체를 운영할 수 있는가"를 물었다면, Project Deal은 그 다음 단계의 질문을 던져요.

여러 AI 에이전트가 동시에 시장에서 거래할 때, 어떤 일이 벌어지는가?

이게 본질적으로 다른 차원의 질문인 이유는, 단일 에이전트의 의사결정 품질만이 아니라 에이전트 간의 상호작용과 시장 구조의 형성까지 다루기 때문이에요. 그리고 이 질문은 더 이상 사고 실험이 아니에요. 시장은 이미 그쪽으로 움직이고 있어요.

🛒 시장은 이미 거기 가 있어요.에이전트 커머스 인프라의 빠른 형성

Project Deal이 사내 실험에 머무를 수 없는 이유는, 비슷한 인프라가 이미 글로벌 결제 네트워크 차원에서 깔리고 있기 때문이에요.

2025년 후반부터 2026년 초까지의 흐름을 정리하면 다음과 같아요.

  • Visa Intelligent Commerce: 2025년 출범. 100개 이상의 파트너사와 함께 AI 에이전트 전용 토큰을 발급해요. 2025년 말 기준 수백 건의 실거래가 이미 완료됐고, Visa는 2026년 홀리데이 시즌까지 수백만 명의 소비자가 AI 에이전트로 결제할 것이라고 전망해요[4]​.
  • Mastercard Agent Pay: 2025년 11월 미국 전체 카드 사용자에게 활성화. 2026년 초 Santander와 함께 유럽 최초의 에이전트 종단 결제 완료. PayPal·OpenAI와 제휴해 ChatGPT 안에서 직접 결제가 가능하도록 만들었어요.
  • Stripe Agentic Commerce Protocol(ACP): 2025년 9월 발표된 첫 라이브 표준. Shared Payment Tokens(SPT)라는 새 결제 원시(primitive)를 통해 에이전트가 사용자의 권한 안에서 결제를 개시할 수 있어요. BigCommerce가 통합을 발표했고, 한 번의 통합으로 모든 AI 에이전트에서 판매 가능해져요.
  • Tempo의 Machine Payments Protocol(MPP): 2026년 3월 Stripe와 Tempo가 공개한 오픈 표준. 카드·스테이블코인·기타 결제 수단을 모두 아울러요. Visa가 디자인 파트너로 참여해 카드 기반 명세를 함께 만들었어요.
  • Google Universal Commerce Protocol(UCP): 2026년 1월 발표. Visa·Mastercard 모두 참여.

이 모든 움직임 뒤에는 한 숫자가 있어요. McKinsey의 추산에 따르면, AI 에이전트가 2030년까지 미국에서만 1조 달러 규모의 거래를 수행할 것으로 예상돼요.[5]​ 이미 미국 쇼핑객의 47%가 AI 도구를 적어도 한 가지 쇼핑 작업에 사용하고 있고요.

이 인프라의 핵심 특징은 사용자가 한 번 권한을 위임하면, 이후의 모든 협상·구매·결제가 에이전트 사이에서 일어난다는 거예요. 키오스크나 챗봇 시대와는 본질적으로 달라요. 키오스크는 사람이 직접 화면을 누르고, 챗봇은 사람이 메시지를 입력해요. 에이전트 커머스에서는 사람이 인터페이스 자체를 위임해요.

오스왈드의 시선

기업 GTM 전략을 수립하면서 봐온 패턴 하나가 있어요. 새로운 결제·거래 인프라가 깔릴 때, 처음 1~2년은 항상 "편의성"의 언어로 설명돼요. 그런데 5년쯤 지나서 보면, 그 인프라는 늘 새로운 형태의 정보 비대칭을 만들어내요.

전자상거래는 가격 비교를 쉽게 만들어 소비자에게 유리하다고 했지만, 결국 알고리즘 가격 차별과 다크 패턴 시대를 열었어요. 추천 알고리즘은 발견의 도구라고 했지만, 어텐션 경제와 필터 버블을 만들었어요.

에이전트 커머스에서 제가 우려하는 건 "에이전트 디바이드(Agent Divide)"예요. Project Deal의 결과는 이 가능성을 정량적으로 보여줬어요. 같은 시장, 같은 물건인데 모델이 다르면 결과가 다르고, 사용자는 그 차이를 인식하지 못해요.

이게 실제 시장에 적용되면 어떻게 될까요. 프리미엄 모델을 구독한 사용자는 더 좋은 가격에 사고 더 비싸게 팔아요. 무료 또는 저가 모델 사용자는 평균적으로 손해를 보지만, 그 사실을 알 수 없어요. 가격 차별이 알고리즘이 아니라 협상력의 차이로 일어나는 거예요. 더 무서운 건, 이 격차가 불평등으로 인식되지 않는다는 점이에요. 인식되지 않는 불평등은 정치적 압력도, 시장 자정도 만들지 못해요.

GTM 관점에서 한 가지 더 짚자면, 마케팅의 타겟이 인간에서 에이전트로 옮겨가는 시점이 멀지 않았어요. SEO 다음은 AEO(Agent Engine Optimization)일 수도 있고, 더 나아가 에이전트의 협상 알고리즘을 역설계해서 그것에 최적화된 가격 책정이 나올 수도 있어요. Project Deal에서 Anthropic이 우려하며 명시한 "에이전트의 어텐션을 최적화하려는 인센티브"는 이미 시작되고 있다고 봐야 해요.

마치며

오늘 정리한 내용을 세 줄로 요약하면 이래요.

  1. Project Deal은 AI 에이전트가 시장을 운영할 수 있음을 보여줬어요. 186건의 거래, $4,000의 거래액. 그 자체로도 의미 있는 첫걸음이에요.
  2. 하지만 더 중요한 발견은 "능력 격차가 보이지 않는다"는 점이에요. Haiku를 쓴 사람들은 명백히 손해를 봤지만, 만족도와 공정성 평가에서는 차이를 느끼지 못했어요.
  3. 이 모든 게 이미 글로벌 결제 인프라로 구체화되고 있어요. Visa·Mastercard·Stripe·Google이 표준을 만들고 있고, 2026년 홀리데이 시즌이 첫 대중 분기점이에요.

이 뉴스레터를 읽고 한 가지만 가져가신다면, 이걸 추천드려요. 앞으로 1~2년 안에 본인의 AI 도구를 골라야 하는 결정이 점점 더 자주, 점점 더 중요한 상황에서 일어나게 될 거예요. 단순히 "ChatGPT를 쓸까 Claude를 쓸까"가 아니라, "어떤 에이전트가 내 거래·결제·계약을 대신할 것인가"의 문제로요.

그리고 그 결정은 Project Deal이 보여준 것처럼 본인이 인지하지 못하는 형태로 본인의 자산에 영향을 미치게 될 거예요.

참고자료 & 더 읽기

핵심 출처

  • Troy, K. K., Shields, D., Bradwell, K., & McCrory, P. (2026). Project Deal. Anthropic. : 오늘 뉴스레터의 출발점이 된 자료예요. 하단의 Appendix에 회귀분석 전체가 공개돼 있어 통계적 주장의 근거를 직접 확인할 수 있어요.
  • Anthropic. (2025). Project Vend: Can Claude run a small shop? : Project Deal의 전사(前史)예요. 단일 에이전트가 사업을 운영할 때 어떤 실패 양상이 나타나는지 가장 솔직하게 기록한 보고서예요.
  • Backlund, A., & Petersson, L. (2025). Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents. arXiv:2502.15840. : Project Vend가 정식 벤치마크로 발전한 학술 논문이에요. AI 에이전트의 장기 일관성 측정 방법론을 처음 제안했어요.

배경 지식

각주

  1. [1] 에이전트 커머스(Agentic Commerce): 사람이 직접 결제·구매를 진행하지 않고, 권한을 위임받은 AI 에이전트가 다른 에이전트나 판매자와 협상해 거래를 완료하는 방식이에요. 키오스크는 사람이 화면을 누르고, 챗봇은 사람이 글을 입력하지만, 에이전트 커머스에서는 인터페이스 자체를 AI에게 맡겨요.
  2. [2] 통계적 유의미성(p값): 어떤 결과가 우연히 나왔을 가능성을 나타내는 숫자예요. 보통 p<0.05이면 "우연이 아닐 가능성이 95% 이상"이라고 해석해요. 본문에서 p=0.001은 우연일 확률이 0.1%라는 뜻이고, p=0.378은 차이가 우연일 가능성이 꽤 높다는 뜻이에요.
  3. [3] 장기 일관성(Long-Horizon Coherence): AI 에이전트가 짧은 작업이 아니라 며칠·몇 달에 걸친 의사결정에서 일관된 전략과 판단을 유지하는 능력이에요. 짧은 추론은 잘하지만 시간이 지나면 자기 목표를 잊거나 모순된 행동을 하는 경우가 많아 별도의 평가가 필요해요.
  4. [4] 결제 토큰(Payment Token): 실제 카드번호 대신 사용하는 일회용 또는 범위 제한된 디지털 자격증명이에요. 에이전트가 카드번호 자체를 만지지 않고도 결제할 수 있게 해줘요. 사용자가 "이 카테고리, 이 금액 한도 안에서만"처럼 사전에 조건을 걸어둘 수 있어요.
  5. [5] GTM(Go-To-Market) 전략: 신제품·서비스를 어떤 고객에게, 어떤 채널과 메시지로, 어떤 가격에 출시할지 설계하는 전략 영역이에요. 에이전트 커머스 시대에는 "고객"의 정의 자체가 바뀔 수 있어 GTM 프레임도 재구성이 필요해요.
첨부 이미지

필자 안광섭은 세종대학교 경영학과 교수이자 OBF(Oswarld Boutique Consulting Firm) 리드 컨설턴트이다. 대학에서 경영데이터 관리, 비즈니스 애널리틱스 등 데이터 분석을 가르치는 한편, 현장에서는 GTM 전략과 인공지능 전략 컨설팅을 이끌며 기술과 비즈니스의 접점을 설계하고 있다. AI 대화 시스템의 기억 아키텍처(HEMA) 연구로 학술 논문을 발표했으며, 매일 글로벌 AI 논문을 큐레이션하는 Daily Arxiv 프로젝트를 운영하고 있다. 고려대학교 KBMA와 기술경영전문대 석사과정을 졸업했다. 지은 책으로 《생각을 맡기는 사람들: 호모 브레인리스》가 있다.

다가올 뉴스레터가 궁금하신가요?

지금 구독해서 새로운 레터를 받아보세요

이번 뉴스레터 어떠셨나요?

오즈의 지식토킹 님에게 ☕️ 커피와 ✉️ 쪽지를 보내보세요!

댓글

의견을 남겨주세요

확인
의견이 있으신가요? 제일 먼저 댓글을 달아보세요 !

다른 뉴스레터

IT

하네스가 도대체 뭐야?! 인공지능 생산성을 높인다는 하네스에 대해

Claude 코드 유출로 밝혀진 것 : 모델의 성능 차이는 지능이 아니라, 모델을 감싼 껍데기 였다?!. 들어가며 지난 3월 31일, 믿기 어려운 사건이 있었어요. Anthropic이 자사의 AI 코딩 도구 Claude Code의 소스코드 전체를 실수로 npm에 ...

2026.04.20
경제

시간을 파는 사업에서, AI가 시간을 줄여버리면 무엇을 팔 것인가?

1조 달러 법률 산업의 과금 모델이 흔들리고 있어요.. 들어가며 구독자님, 2022년 샌프란시스코의 한 아파트에서 시작된 스타트업이 있어요. 전직 변호사 한 명과 전직 딥마인드 연구원 한 명이 GPT-3로 임대차 분쟁 법률 자문

2026.04.15
경제

토큰이 곧 제품이다, 알리바바 Token Hub

중국에서 시작된 AI 연구의 이상(理想)과 비즈니스의 현실이 충돌할 때. 들어가며 구독자님, 안녕하세요. 지난 3월 3일 새벽, 중국 AI 커뮤니티는 짧은 영어 메시지 하나로 술렁였어요. "me stepping down. bye my beloved

2026.04.13
인문

실리콘밸리가 '취향'을 말할 때, 진짜 감추고 싶은 것

남은 건 '무엇을 만들지 고르는 능력'이라고요? 그게 정말 '취향'일까요?. 들어가며 구독자님, 최근 실리콘밸리에서 가장 핫한 키워드가 뭔지 아세요? AI도, 에이전트도 아니에요. 바로 'taste(취향)'예요. 제가 작년에 쓴 책에서도 이것을 이야기

2026.04.05
IT

2억 5천만 소상공인에게 꼭 필요한 AI가 되기

Meta가 생각하는 AI 전쟁의 승부처는 대기업이 아니라, 동네 가게 사장님이에요.. 들어가며 구독자님, 지난 3월 25일 마크 주커버그가 사내 전체 공지를 띄웠어요. 'Meta Small Business'라는 이름의 새로운 전사적 이니셔티브를 출범시킨다는 내

2026.04.19
IT

토큰 한 개의 가격이 바꾸는 것들

오픈 모델이 '쓸 만해진' 게 아니라, AI를 쓸 수 있는 팀의 범위가 바뀌고 있어요.. 숫자 하나만 먼저 드릴게요. 백만 토큰당 25달러 vs 0.20달러. 125배 차이예요. 앞의 숫자는 현재 가장 똑똑한 폐쇄형 AI 모델(Claude Opus 4.6)의 출력 가격

2026.04.10
© 2026 오즈의 지식토킹

하고 싶은 말을 합니다. 주로 기술, 인문학, 경제에 대한 이야기를 합니다.

뉴스레터 문의newsletter@oswarld.com

메일리 로고

도움말 자주 묻는 질문 오류 및 기능 관련 제보

서비스 이용 문의admin@team.maily.so 채팅으로 문의하기

메일리 사업자 정보

메일리 (대표자: 이한결) | 사업자번호: 717-47-00705 | 서울특별시 송파구 위례광장로 199, 5층 501-8호

이용약관 | 개인정보처리방침 | 정기결제 이용약관 | 라이선스