들어가며
구독자님, 선반 위에 페퍼민트 시럽이 한 병 놓여 있어요. 바로 옆 바닐라 시럽은 정확히 인식했는데, 이 한 병만 없는 것처럼 처리됐어요. 미국 스타벅스는 자랑하던 AI 재고 관리 시스템의 실제 모습이에요.
지난 5월 19일, 스타벅스는 Deep Brew라고 북미 11,000개 매장에 배포했던 AI 재고 카운팅 도구를 전면 폐기했어요. 도입한 지 겨우 9개월 만이에요. 결론부터 말씀드리면, 이건 AI 기술의 실패가 아니라 '이 문제에 AI가 최적의 도구인가'를 묻지 않은 것의 실패예요.
작년에 스타벅스는 인공지능을 현장에 도입을 하면서 대대적인 홍보를 했지만 어떻게 보면 반년 좀 넘어서 이 모든 것을 철수시킨 것이에요.
📦 11,000개 매장에 무슨 일이 있었나
2025년 9월, 스타벅스는 시애틀 소재 스타트업 NomadGo의 재고 AI를 북미 전 매장에 도입했어요. LiDAR[1] 센서와 태블릿 카메라를 이용해 선반 위의 시럽, 우유, 음료 재료를 자동으로 세는 시스템이었어요. NomadGo는 수작업 대비 8배 빠른 속도와 99% 정확도를 공언했고, 스타벅스 CTO 뎁 홀 르페브르는 "파트너들이 재고 세기 대신 음료 제조와 고객 연결에 집중할 수 있게 해준다"고 소개했어요.
하지만, 현장은 달랐어요.
로이터 취재에 따르면, 이 시스템은 비슷하게 생긴 우유 종류를 혼동하고, 선반에 분명히 있는 제품을 아예 인식하지 못하는 오류를 반복했어요. 스타벅스가 배포 당시 공개한 홍보 영상에서조차, 페퍼민트 시럽 한 병이 양옆 제품 사이에서 인식되지 않는 장면이 그대로 찍혀 있었어요.
가장 큰 문제는 신뢰 임계점[2]이 무너졌다는 거예요. AI가 내놓은 결과를 직원이 매번 다시 확인해야 했어요. 수작업을 대체하려고 도입한 도구가 오히려 이중 작업을 만든 셈이에요. 기존에는 손으로 한 번 세면 끝이었는데, 이제는 AI가 세고, 사람이 다시 세야 했어요. 도구가 일을 줄인 게 아니라, 인지 부하만 늘어난 거예요.
맥락을 좀 더 짚어볼게요. 이 도구는 브라이언 니콜 CEO의 "Back to Starbucks" 턴어라운드 전략의 핵심 축이었어요. 2024년 9월 치폴레에서 넘어온 니콜은 재고 부족이 매출을 갉아먹고 있다는 진단 하에, 전임자 시절부터 테스트 중이던 이 기술을 빠르게 전 매장으로 밀어넣었어요. 그 사이 북미 영업이익률은 2년 전 18%에서 9.9%까지 떨어졌고, 턴어라운드의 속도가 필요한 상황이었어요.
NomadGo는 2025년 한 해 동안 11,000개 매장에서 1억 8,600만 개 이상의 품목을 카운팅했다고 밝혔어요. 숫자만 보면 대단하지만, 그 숫자 중 얼마나 많은 것이 직원의 재확인을 거쳤는지는 아무도 공개하지 않았어요.
5월 19일, 스타벅스는 전사 메모를 통해 공식 폐기를 선언했어요. "오늘부터 자동 카운팅이 폐기됩니다. 음료 재료와 우유는 다른 재고 항목과 동일한 방식으로 카운팅합니다." 소개 당시의 블로그 게시물은 이미 삭제된 상태예요. 스타벅스는 로이터에 "매장 전반의 일관성과 실행력에 집중하기 위한 결정"이라고 표현했지만, 실패라는 단어는 쓰지 않았어요.
🔍 기술이 아니라, 질문이 틀렸다
왜 실패했을까요? 많은 보도는 인공지능 회사인 NomadGo를 비난하고 있어요. 즉, 'AI 정확도 부족'에 초점을 맞추고 있지만, 제가 보기에 더 근본적인 문제가 있어요.
첫째, 검증 없는 전면 배포예요. NomadGo의 '99% 정확도'는 자체 측정 수치였어요. 독립적인 제3자 검증 없이 11,000개 매장에 일괄 도입됐어요. 테크 타임스의 분석이 핵심을 찔러요. "99% 정확도 주장은 11,000개 매장 배포 전에 독립 검증되지 않았다." 여기서 짚어야 할 건, 99%라는 숫자 자체예요. 선반 위에 20개 품목이 있을 때 99% 정확도면 0.2개를 틀린다는 뜻이에요. 괜찮아 보이죠? 하지만 11,000개 매장에서 하루에 여러 번 카운팅하면, 그 0.2개가 하루에 수만 건의 오류로 쌓여요. 그리고 현장의 오류율은 99%에 훨씬 못 미쳤어요.
RAND 연구소의 2,400개 이상 기업 AI 프로젝트 분석에 따르면, AI 프로젝트의 80%가 의도한 비즈니스 가치를 달성하지 못해요. 그중 34%는 생산 단계 전에 중단되고, 28%는 완료돼도 기대한 가치를 만들지 못하며, 18%는 일부 가치를 만들지만 투자 비용을 정당화하지 못해요. MIT의 2025년 연구는 더 직접적이에요. 기업 생성형 AI 파일럿의 95%가 측정 가능한 수익 영향을 만들지 못했다고 해요.
Gartner도 2025년 보고서에서 AI 지원 데이터가 준비되지 않은 프로젝트의 60%가 2026년까지 중단될 것으로 전망했어요. S&P 글로벌에 따르면, 대기업(직원 1만 명 이상)은 2025년에 평균 2.3개의 AI 프로젝트를 포기했고, 포기된 프로젝트당 평균 매몰 비용은 720만 달러(약 100억 원)였어요.
실패 원인의 분포도 주목할 만해요. 140개 기업 AI 구현 사례 분석에서 모델 성능이나 기술 통합 문제로 실패한 경우는 23%에 불과했어요. 나머지 77%는 전략, 거버넌스[3], 변화 관리의 실패였어요. 기술이 아니라 사람과 조직의 문제인 거예요.
둘째, 해결하려는 문제 자체를 잘못 정의했어요. 스타벅스의 재고 문제는 '세는 행위'가 부정확해서 생기는 게 아니었어요. 올해 초 로이터의 심층 보도에 따르면, 스타벅스 배송의 3분의 1 미만만 정시에 도착하고, 1,500가지가 넘는 컵-뚜껑 조합이 공급망을 복잡하게 만들고 있었어요. 수작업 카운팅의 정확도가 낮아서가 아니라, 공급망 구조 자체가 문제였던 거예요.
이건 전임 CEO 시절에도 반복된 패턴이에요. 락스만 나라심한 CEO 시절에는 o9 솔루션즈와 협업해 '자동 발주' 시스템을 도입했는데, 이 머신러닝 시스템은 일관되게 필요량보다 적은 수량을 추천했어요. 기술이 바뀌었지만, '문제 정의 없이 솔루션부터 도입한다'는 실수는 동일했어요.
🎯 문제에 맞는 도구를 고르는 법
스타벅스 사례가 보여주는 건 간단하지만 자주 잊히는 원칙이에요. 모든 문제에 맞는 등급의 기술이 필요하지 않다는 것.

카페 매장의 선반은 통제된 환경이 아니에요. 조명이 바뀌고, 제품 배치가 수시로 달라지고, 비슷하게 생긴 우유 용기가 나란히 놓여요. 컴퓨터 비전[4] 시스템이 균일한 조건에서 훈련받은 뒤, 변동이 큰 현장에 투입되면 성능이 급격히 저하될 수 있어요. 물류 창고처럼 SKU가 고정되고 선반 위치가 표준화된 환경과, 바리스타가 수시로 재배치하는 카페 선반은 근본적으로 다른 환경이에요.
반면 사람의 손은 이런 환경에 유연하게 적응해요. 바리스타는 오트밀크와 저지방 우유를 한눈에 구별하고, 어제 바뀐 선반 배치를 즉시 반영할 수 있어요. 알고리즘이 재학습[5]에 시간과 비용이 드는 반면, 사람은 실시간으로 맥락을 처리해요. 게다가 사람은 "이 시럽 거의 다 떨어져가네"라는 판단까지 동시에 할 수 있어요. 단순 카운팅이 아니라, 맥락이 포함된 판단이에요.
스타벅스 매장 직원의 피드백이 이 지점을 정확히 짚어요. "자동 카운팅을 없애주셔서 감사합니다. 취지는 좋았지만, 실행이 어려웠어요."
여기서 핵심은 '사람이 AI보다 낫다'가 아니에요. 문제의 특성에 맞는 도구를 고르는 것이 먼저라는 거예요. 스타벅스의 재고 카운팅 문제를 다시 봐볼게요. 고변동 환경에서 시각적으로 유사한 소량 제품을 구별하는 이 작업에는 여러 선택지가 있었어요. 고가의 컴퓨터 비전 AI 말고도, 선반에 무게 센서를 달아 재고량 변화를 감지하는 방법도 있었을 거예요. 바코드 스캐너와 간단한 데이터베이스 연동으로도 충분했을 수 있어요. 혹은 지금처럼, 사람이 직접 세는 게 가장 정확할 수도 있어요.
반면 수천 개 매장의 판매 데이터를 분석해 발주 패턴을 최적화하는 작업이라면, 이건 분명 AI가 더 잘하는 영역이에요. 같은 '재고 관리'라는 문제 안에서도, 단계마다 최적의 도구가 다른 거예요.
망치를 든 사람에게는 모든 것이 못으로 보여요. "AI를 도입해야 한다"는 전제로 시작하면, 모든 문제가 AI로 풀 수 있는 것처럼 보이기 쉬워요.
오스왈드의 시선
솔직히 이야기하면, 이 뉴스를 보는 순간 제가 컨설팅 현장에서 매번 하는 말이 떠올랐어요.
저는 현재 다양한 기업의 AI 도입 컨설팅을 하고 있는데요, 무조건적으로 딥러닝이나 생성형 AI를 권하지 않아요. 어떤 경우에는 센서 하나 붙이는 게 훨씬 효율적이에요. 엑셀 VBA로도 충분히 해결되는 업무가 놀라울 정도로 많아요. 그리고 AI를 쓰더라도 굳이 최고 사양의 프론티어 모델[6]이 필요하지 않은 경우가 대부분이에요. 임베딩 모델[7]부터 경량 분류 모델까지, 다양한 모델을 적재적소에 배치하는 게 진짜 실력이에요.
GTM 전략을 수립해 오면서 수없이 봐왔던 패턴이 있어요. "디지털이 아날로그보다 무조건 우수하고, 애자일이 워터폴보다 뛰어나며, 수평적 조직이 수직적 조직보다 좋다"라는 식의 이분법이에요. 현실은 다르거든요. 각 상황과 문제에 따라 더 효율적이고 맞는 도구와 방법론이 있는 거예요. 가장 최적의 조건을 찾는 것, 그게 우리의 진짜 과제예요. 스타벅스는 이 단순한 원칙을 11,000개 매장 규모로 증명한 셈이에요.
마치며
스타벅스가 AI 재고 도구를 폐기한 이 사례에서 기억할 건 세 가지예요.
하나, 벤더의 99% 주장을 검증 없이 전면 배포하면 비용이 두 배로 돌아와요. 둘, AI 프로젝트 실패의 77%는 기술이 아니라 전략과 문제 정의에서 비롯돼요. 셋, 센서면 충분한 곳에 컴퓨터 비전을 쓸 필요가 없고, VBA로 되는 일에 프론티어 모델을 붙일 이유가 없어요.
조직에서 AI 도입을 검토할 때, 이 질문을 먼저 던져보세요. "이 문제에 필요한 기술은 무엇일까요?" 만약 고민이 된다면 저에게 연락 주세요. 가장 좋은 답을 같이 고민해드리고 최적의 해결책을 내어드릴게요. 오스왈드부띠끄컨설팅펌은 늘 열려있습니다. :) contact@oswarld.com
참고자료 & 더 읽기
핵심 출처
- Reuters, "Starbucks scraps AI inventory tool across North America", 2026.05.21. : 이번 뉴스레터의 1차 출처예요. 사내 메모 원문과 직원 인터뷰가 담겨 있어요.
- Reuters, "Starbucks Can't Keep Your Favorite Drink in Stock", 2026.01.28. : 스타벅스 공급망 문제의 구조적 원인을 심층 취재한 기사예요. 배송 지연율, 1,500가지 컵-뚜껑 조합 등 배경 데이터가 풍부해요.
- RAND Corporation, "Enterprise AI Implementation Analysis", 2025. : 2,400개 이상 기업 AI 프로젝트를 분석한 보고서예요. AI 프로젝트 80% 실패라는 수치의 원출처예요.
- MIT Sloan / Project NANDA, "The GenAI Divide: State of AI in Business", 2025. : 기업 생성형 AI 파일럿 95%가 측정 가능한 수익 영향을 만들지 못했다는 연구예요.
배경 지식
- NomadGo, "NomadGo's Inventory AI Brings Automated Counting to More than 11,000 Starbucks Locations", Business Wire, 2025.09.03. : NomadGo의 원래 배포 발표 보도자료예요. 99% 정확도, 8배 속도 주장의 원출처예요.
- Starbucks, FY2026 Q2 Earnings Release (SEC Filing), 2026.04.28. : 북미 영업이익률 9.9%, 전년 동기 대비 170bp 하락 등 재무 맥락을 확인할 수 있어요.
각주
- [1] LiDAR (Light Detection and Ranging): 레이저를 쏘아 반사되는 빛으로 물체의 거리와 형태를 측정하는 기술이에요. 아이폰 프로 모델 뒷면에도 들어가 있는, 3D 공간 인식용 센서예요.
- [2] 신뢰 임계점 (Trust Threshold): 사용자가 시스템의 결과를 별도 확인 없이 받아들일 수 있는 최소 정확도 수준이에요. 이 선 아래로 내려가면, 시스템이 만든 결과를 사람이 다시 검증해야 하므로 도구의 효율성이 사라져요.
- [3] 거버넌스 (Governance): 조직이 기술이나 프로젝트를 도입·운영할 때의 의사결정 체계와 관리 구조예요. 누가 결정하고, 어떤 기준으로 평가하며, 문제가 생겼을 때 어떻게 대응하는지를 포괄해요.
- [4] 컴퓨터 비전 (Computer Vision): 카메라로 촬영한 이미지나 영상을 AI가 분석해서 물체를 인식·분류하는 기술이에요. 얼굴 인식, 자율주행차의 주변 감지 등에 쓰여요.
- [5] 재학습 (Retraining): AI 모델이 새로운 환경이나 데이터에 적응할 수 있도록 추가로 학습시키는 과정이에요. 현장 조건이 바뀔 때마다 필요하고, 시간과 비용이 들어요.
- [6] 프론티어 모델 (Frontier Model): GPT-5.5, Claude, Gemini 같은 최상위 성능의 대규모 AI 모델이에요. 성능은 뛰어나지만, 비용과 처리 속도 면에서 모든 업무에 적합하지는 않아요.
- [7] 임베딩 모델 (Embedding Model): 텍스트나 이미지를 수치 벡터로 변환해서 유사도를 계산하는 데 특화된 경량 모델이에요. 검색, 분류, 추천 같은 작업에서 프론티어 모델보다 빠르고 저렴하게 쓸 수 있어요.

의견을 남겨주세요