들어가며
이번주 금요일 그러니까 2026년 4월 24일, Anthropic이 흥미로운 실험 결과를 공개했어요. Project Deal이라는 이름의 실험인데요. 자사 직원 69명에게 각각 $100의 예산을 주고, 그들의 Claude 에이전트가 Slack 위에서 서로 물건을 사고팔게 한 거예요. 일주일 동안 186건의 거래가 성사됐고, 총 거래액은 $4,000을 넘겼어요[1].
표면적으로는 흥미로운 사내 이벤트처럼 보여요. 카우보이 말투로 자전거를 협상하는 에이전트, 자기 자신을 위한 선물로 탁구공 19개를 사겠다고 한 에이전트, 우연히 같은 스노보드를 한 번 더 사버린 에이전트. 재미있는 일화들이 가득해요.
그런데 저는 이 실험에서 가장 중요한 발견은 따로 있다고 봐요. 그건 "더 똑똑한 모델을 쓴 사람이 더 좋은 거래를 했지만, 진 사람들은 자기가 졌다는 사실을 인지하지 못했다"는 점이에요. 이게 왜 중요한지, 그리고 이것이 지금 1조 달러 규모로 형성되고 있는 에이전트 커머스(Agentic Commerce) 시장에 어떤 의미인지 이야기해 볼게요.
👀 무엇을 발견했나? Project Deal의 핵심 결과
이번 실험에는 두 가지 모델이 등장해요. 당시 프론티어 모델인 Claude Opus 4.5와 더 작은 모델인 Claude Haiku 4.5예요. 실험은 4개의 병렬 마켓을 동시에 돌렸어요. 두 개는 전부 Opus, 나머지 두 개는 Opus와 Haiku를 50:50으로 섞었어요. 참가자에게는 어느 마켓이 '진짜'인지 알리지 않은 채로요.
결과는 명확했어요.
- 거래 성사 횟수: Opus 사용자가 평균 2건 더 많이 성사시켰어요 (p=0.001)
- 판매 가격: 같은 물건을 Opus가 팔면 평균 $3.64 더 비싸게 팔렸어요. 한 사례에서는 동일한 고장난 자전거를 Haiku는 $38에, Opus는 $65에 팔았어요. 70% 차이예요.
- 셀러/바이어 효과: Opus가 셀러일 때 평균 $2.68 더 받았고, 바이어일 때는 $2.45 덜 냈어요. 거래 평균가가 $20 수준임을 감안하면 거래당 약 12~13%의 가격 차이가 발생한 거예요.
여기까지는 "더 좋은 모델이 더 좋은 결과를 낸다"는 직관적인 발견이에요. 그런데 진짜 흥미로운 건 그 다음이에요.
😞 보이지 않는 패배 — 인식과 실제의 괴리

실험이 끝난 뒤 참가자들에게 각 거래가 얼마나 공정했는지 1점(구매자에게 불리)부터 7점(판매자에게 불리)까지 매기게 했어요. 결과는 Opus 거래가 4.05점, Haiku 거래가 4.06점. 사실상 동일했어요. 거래 만족도도 마찬가지였어요. Opus 사용자가 약간 더 높게 평가하긴 했지만 통계적으로 유의미한 차이는 없었어요(p=0.378).
가장 충격적인 건 따로 있어요. 28명은 두 마켓에서 한 번은 Opus, 한 번은 Haiku로 대표됐어요. 이들 중 17명은 Opus 결과를 더 선호한다고 답했지만, 11명은 오히려 Haiku 결과를 더 선호한다고 답했어요[2]. 객관적으로는 Haiku가 평균 $5 정도 손해를 보게 만들었는데도 말이에요.
이걸 한 줄로 요약하면: 성능이 부족한 에이전트를 쓴 사람들은 명백히 손해를 봤어요. 그런데 그들은 자신이 손해를 봤다는 사실을 알지 못했어요.
이게 왜 중요할까요. 시장이라는 메커니즘은 참여자가 자신의 손익을 인식해야 작동해요. 가격이 비싸면 다음엔 다른 가게에 가고, 사기를 당하면 그 플랫폼을 떠나요. 이 피드백 루프가 시장을 자정시키는 핵심 원리예요. 그런데 에이전트가 협상의 모든 것을 대신하면, 사용자에게는 결과만 도착해요. 비교 대상이 없으니 그게 좋은 결과인지 나쁜 결과인지 판단할 근거 자체가 사라져요.
🎰 Project Vend의 연장선에서 보는 의미
이 실험을 제대로 이해하려면 Anthropic이 작년부터 진행해온 Project Vend 시리즈와 함께 봐야 해요.
Project Vend 1(2025년 6월)은 'Claudius'라는 이름의 Claude Sonnet 3.7 인스턴스가 Anthropic 사무실의 자판기 사업을 운영한 실험이에요. 결과는 비참했어요. 직원에게 카지노 칩을 무료로 주고, 텅스텐 큐브를 원가 이하로 판매했고, 파란 블레이저를 입은 사람으로 자기 정체성을 착각하는 위기를 겪기도 했어요.
Project Vend 2(2025년 말)에서는 다중 에이전트 구조를 도입해 성과를 개선했어요. CRM을 추가하고, NYC와 런던에 자판기를 열었고, 결국 음(-)의 마진을 거의 없앴어요. 이 과정에서 Andon Labs는 Vending-Bench라는 정식 AI 에이전트 평가 벤치마크를 만들었어요. 시뮬레이션 환경에서 1년간 자판기 사업을 운영시켜 장기적 일관성(long-horizon coherence)을 측정하는 거죠. 현재 리더보드 1위는 Claude Opus 4.6($8,017)이고, Gemini 3 Pro가 그 뒤를 잇고 있어요[3].
Vend 시리즈가 "한 명의 AI가 한 사업체를 운영할 수 있는가"를 물었다면, Project Deal은 그 다음 단계의 질문을 던져요.
여러 AI 에이전트가 동시에 시장에서 거래할 때, 어떤 일이 벌어지는가?
이게 본질적으로 다른 차원의 질문인 이유는, 단일 에이전트의 의사결정 품질만이 아니라 에이전트 간의 상호작용과 시장 구조의 형성까지 다루기 때문이에요. 그리고 이 질문은 더 이상 사고 실험이 아니에요. 시장은 이미 그쪽으로 움직이고 있어요.
🛒 시장은 이미 거기 가 있어요.에이전트 커머스 인프라의 빠른 형성
Project Deal이 사내 실험에 머무를 수 없는 이유는, 비슷한 인프라가 이미 글로벌 결제 네트워크 차원에서 깔리고 있기 때문이에요.
2025년 후반부터 2026년 초까지의 흐름을 정리하면 다음과 같아요.
- Visa Intelligent Commerce: 2025년 출범. 100개 이상의 파트너사와 함께 AI 에이전트 전용 토큰을 발급해요. 2025년 말 기준 수백 건의 실거래가 이미 완료됐고, Visa는 2026년 홀리데이 시즌까지 수백만 명의 소비자가 AI 에이전트로 결제할 것이라고 전망해요[4].
- Mastercard Agent Pay: 2025년 11월 미국 전체 카드 사용자에게 활성화. 2026년 초 Santander와 함께 유럽 최초의 에이전트 종단 결제 완료. PayPal·OpenAI와 제휴해 ChatGPT 안에서 직접 결제가 가능하도록 만들었어요.
- Stripe Agentic Commerce Protocol(ACP): 2025년 9월 발표된 첫 라이브 표준. Shared Payment Tokens(SPT)라는 새 결제 원시(primitive)를 통해 에이전트가 사용자의 권한 안에서 결제를 개시할 수 있어요. BigCommerce가 통합을 발표했고, 한 번의 통합으로 모든 AI 에이전트에서 판매 가능해져요.
- Tempo의 Machine Payments Protocol(MPP): 2026년 3월 Stripe와 Tempo가 공개한 오픈 표준. 카드·스테이블코인·기타 결제 수단을 모두 아울러요. Visa가 디자인 파트너로 참여해 카드 기반 명세를 함께 만들었어요.
- Google Universal Commerce Protocol(UCP): 2026년 1월 발표. Visa·Mastercard 모두 참여.
이 모든 움직임 뒤에는 한 숫자가 있어요. McKinsey의 추산에 따르면, AI 에이전트가 2030년까지 미국에서만 1조 달러 규모의 거래를 수행할 것으로 예상돼요.[5] 이미 미국 쇼핑객의 47%가 AI 도구를 적어도 한 가지 쇼핑 작업에 사용하고 있고요.
이 인프라의 핵심 특징은 사용자가 한 번 권한을 위임하면, 이후의 모든 협상·구매·결제가 에이전트 사이에서 일어난다는 거예요. 키오스크나 챗봇 시대와는 본질적으로 달라요. 키오스크는 사람이 직접 화면을 누르고, 챗봇은 사람이 메시지를 입력해요. 에이전트 커머스에서는 사람이 인터페이스 자체를 위임해요.
오스왈드의 시선
기업 GTM 전략을 수립하면서 봐온 패턴 하나가 있어요. 새로운 결제·거래 인프라가 깔릴 때, 처음 1~2년은 항상 "편의성"의 언어로 설명돼요. 그런데 5년쯤 지나서 보면, 그 인프라는 늘 새로운 형태의 정보 비대칭을 만들어내요.
전자상거래는 가격 비교를 쉽게 만들어 소비자에게 유리하다고 했지만, 결국 알고리즘 가격 차별과 다크 패턴 시대를 열었어요. 추천 알고리즘은 발견의 도구라고 했지만, 어텐션 경제와 필터 버블을 만들었어요.
에이전트 커머스에서 제가 우려하는 건 "에이전트 디바이드(Agent Divide)"예요. Project Deal의 결과는 이 가능성을 정량적으로 보여줬어요. 같은 시장, 같은 물건인데 모델이 다르면 결과가 다르고, 사용자는 그 차이를 인식하지 못해요.
이게 실제 시장에 적용되면 어떻게 될까요. 프리미엄 모델을 구독한 사용자는 더 좋은 가격에 사고 더 비싸게 팔아요. 무료 또는 저가 모델 사용자는 평균적으로 손해를 보지만, 그 사실을 알 수 없어요. 가격 차별이 알고리즘이 아니라 협상력의 차이로 일어나는 거예요. 더 무서운 건, 이 격차가 불평등으로 인식되지 않는다는 점이에요. 인식되지 않는 불평등은 정치적 압력도, 시장 자정도 만들지 못해요.
GTM 관점에서 한 가지 더 짚자면, 마케팅의 타겟이 인간에서 에이전트로 옮겨가는 시점이 멀지 않았어요. SEO 다음은 AEO(Agent Engine Optimization)일 수도 있고, 더 나아가 에이전트의 협상 알고리즘을 역설계해서 그것에 최적화된 가격 책정이 나올 수도 있어요. Project Deal에서 Anthropic이 우려하며 명시한 "에이전트의 어텐션을 최적화하려는 인센티브"는 이미 시작되고 있다고 봐야 해요.
마치며
오늘 정리한 내용을 세 줄로 요약하면 이래요.
- Project Deal은 AI 에이전트가 시장을 운영할 수 있음을 보여줬어요. 186건의 거래, $4,000의 거래액. 그 자체로도 의미 있는 첫걸음이에요.
- 하지만 더 중요한 발견은 "능력 격차가 보이지 않는다"는 점이에요. Haiku를 쓴 사람들은 명백히 손해를 봤지만, 만족도와 공정성 평가에서는 차이를 느끼지 못했어요.
- 이 모든 게 이미 글로벌 결제 인프라로 구체화되고 있어요. Visa·Mastercard·Stripe·Google이 표준을 만들고 있고, 2026년 홀리데이 시즌이 첫 대중 분기점이에요.
이 뉴스레터를 읽고 한 가지만 가져가신다면, 이걸 추천드려요. 앞으로 1~2년 안에 본인의 AI 도구를 골라야 하는 결정이 점점 더 자주, 점점 더 중요한 상황에서 일어나게 될 거예요. 단순히 "ChatGPT를 쓸까 Claude를 쓸까"가 아니라, "어떤 에이전트가 내 거래·결제·계약을 대신할 것인가"의 문제로요.
그리고 그 결정은 Project Deal이 보여준 것처럼 본인이 인지하지 못하는 형태로 본인의 자산에 영향을 미치게 될 거예요.
참고자료 & 더 읽기
핵심 출처
- Troy, K. K., Shields, D., Bradwell, K., & McCrory, P. (2026). Project Deal. Anthropic. : 오늘 뉴스레터의 출발점이 된 자료예요. 하단의 Appendix에 회귀분석 전체가 공개돼 있어 통계적 주장의 근거를 직접 확인할 수 있어요.
- Anthropic. (2025). Project Vend: Can Claude run a small shop? : Project Deal의 전사(前史)예요. 단일 에이전트가 사업을 운영할 때 어떤 실패 양상이 나타나는지 가장 솔직하게 기록한 보고서예요.
- Backlund, A., & Petersson, L. (2025). Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents. arXiv:2502.15840. : Project Vend가 정식 벤치마크로 발전한 학술 논문이에요. AI 에이전트의 장기 일관성 측정 방법론을 처음 제안했어요.
배경 지식
- Visa. (2025). Visa and Partners Complete Secure AI Transactions, Setting the Stage for Mainstream Adoption in 2026. : 결제 네트워크 관점에서 에이전트 커머스가 어디까지 와 있는지를 보여주는 발표예요.
- Stripe. (2025). Introducing the Agentic Commerce Suite. : 가맹점 입장에서 에이전트 커머스에 대응하는 방법을 가장 구체적으로 정리한 자료예요.
- Andon Labs. Vending-Bench 2 Leaderboard. : 현재 모델별 장기 자율 운영 능력을 비교해볼 수 있어요.
각주
- [1] 에이전트 커머스(Agentic Commerce): 사람이 직접 결제·구매를 진행하지 않고, 권한을 위임받은 AI 에이전트가 다른 에이전트나 판매자와 협상해 거래를 완료하는 방식이에요. 키오스크는 사람이 화면을 누르고, 챗봇은 사람이 글을 입력하지만, 에이전트 커머스에서는 인터페이스 자체를 AI에게 맡겨요.
- [2] 통계적 유의미성(p값): 어떤 결과가 우연히 나왔을 가능성을 나타내는 숫자예요. 보통 p<0.05이면 "우연이 아닐 가능성이 95% 이상"이라고 해석해요. 본문에서 p=0.001은 우연일 확률이 0.1%라는 뜻이고, p=0.378은 차이가 우연일 가능성이 꽤 높다는 뜻이에요.
- [3] 장기 일관성(Long-Horizon Coherence): AI 에이전트가 짧은 작업이 아니라 며칠·몇 달에 걸친 의사결정에서 일관된 전략과 판단을 유지하는 능력이에요. 짧은 추론은 잘하지만 시간이 지나면 자기 목표를 잊거나 모순된 행동을 하는 경우가 많아 별도의 평가가 필요해요.
- [4] 결제 토큰(Payment Token): 실제 카드번호 대신 사용하는 일회용 또는 범위 제한된 디지털 자격증명이에요. 에이전트가 카드번호 자체를 만지지 않고도 결제할 수 있게 해줘요. 사용자가 "이 카테고리, 이 금액 한도 안에서만"처럼 사전에 조건을 걸어둘 수 있어요.
- [5] GTM(Go-To-Market) 전략: 신제품·서비스를 어떤 고객에게, 어떤 채널과 메시지로, 어떤 가격에 출시할지 설계하는 전략 영역이에요. 에이전트 커머스 시대에는 "고객"의 정의 자체가 바뀔 수 있어 GTM 프레임도 재구성이 필요해요.


의견을 남겨주세요