들어가며
구독자님, 요즘 'AI 에이전트'라는 단어를 안 듣는 날이 없을 거예요. 코딩을 대신 해주고, 이메일을 분류하고, 심지어 금융 거래까지 실행하는 AI. 그런데 정작 실제로 사람들이 AI 에이전트에게 얼마나 일을 맡기고 있는지 측정한 연구는 거의 없었어요.
Anthropic이 2026년 2월, 자사 코딩 에이전트 Claude Code와 공개 API를 통한 수백만 건의 인간-에이전트 상호작용을 분석한 연구를 발표했어요. 제목은 "Measuring AI Agent Autonomy in Practice", 직역하면 '실전에서 AI 에이전트 자율성 측정하기'예요.
이 연구가 흥미로운 건, AI가 "얼마나 똑똑해졌는가"가 아니라 "사람들이 실제로 얼마나 맡기고 있는가"를 측정했다는 점이에요. 그리고 그 결과는 꽤 의미심장해요. 오늘은 이 연구를 중심으로, AI 에이전트 시대의 진짜 병목이 어디에 있는지 이야기해 볼게요.
45분의 의미: 자율 작업 시간이 두 배로 늘었어요
Anthropic 연구의 핵심 데이터부터 볼게요. Claude Code에서 AI가 사람의 개입 없이 혼자 작업하는 시간, 즉 턴 지속 시간을 측정했어요.
대부분의 턴은 짧아요. 중간값은 약 45초이고, 이 수치는 몇 달간 거의 변하지 않았어요. 새로운 사용자가 계속 유입되면서 전체 평균이 안정적으로 유지된 거예요.
진짜 흥미로운 건 꼬리(tail) 쪽 데이터예요. 가장 긴 세션들, 즉 상위 0.1%의 턴 지속 시간이 2025년 10월부터 2026년 1월 사이에 25분 미만에서 45분 이상으로 거의 두 배 가까이 늘었어요. 3개월 만에요.
여기서 주목할 점은 이 증가가 새 모델 출시와 무관하게 완만하게 이루어졌다는 거예요. 만약 자율성이 순전히 모델 성능의 함수라면, 새 모델이 나올 때마다 급격한 점프가 있어야 해요. 하지만 그래프는 매끄러운 상승 곡선을 그려요. 이건 파워 유저들이 시간이 지나면서 도구를 점점 더 신뢰하게 되었고, 점점 더 야심찬 작업을 맡기기 시작했다는 뜻이에요.
Anthropic은 이 현상을 "배포 오버행(deployment overhang)"이라고 불러요. 모델이 실제로 감당할 수 있는 자율성이, 현실에서 발휘되는 자율성보다 훨씬 크다는 거예요.
신뢰는 쌓이는 거예요: 경험이 감독 방식을 바꾼다
사용자들이 에이전트에 자율성을 부여하는 패턴도 흥미로워요.
Claude Code 신규 사용자(50세션 미만)는 전체 작업의 약 20%에서만 '자동 승인'[1] 모드를 사용해요. 하지만 750세션 이상의 숙련 사용자는 이 비율이 40% 이상으로 올라가요. 경험이 쌓이면서 점진적으로 더 많은 재량을 AI에게 넘기는 거예요.
그런데 여기서 역설적인 데이터가 나와요. 숙련 사용자는 자동 승인을 더 많이 쓰면서 동시에 AI 작업을 중간에 끊는(interrupt) 비율도 더 높아요. 신규 사용자의 인터럽트 비율이 턴당 약 5%인 반면, 숙련 사용자는 약 9%까지 올라가요.
모순처럼 보이지만, 사실 이건 감독 전략의 전환을 보여줘요. 신규 사용자는 매 단계를 일일이 승인하는 '사전 승인' 방식이에요. 그래서 중간에 끊을 일이 별로 없어요. 반면 숙련 사용자는 AI를 자율적으로 돌리다가 문제가 생겼을 때만 개입하는 '모니터링' 방식으로 전환해요. 인터럽트가 늘어난 건 방관이 아니라 능동적 감시의 증거인 셈이에요.
이 패턴은 직장에서 신입사원과 베테랑을 관리하는 방식과 똑같아요. 신입에게는 매 단계를 확인하지만, 신뢰가 쌓인 팀원에게는 "알아서 하되, 막히면 말해"라고 하잖아요. 인간과 AI의 관계에서도 같은 구조가 작동하고 있는 거예요.
오히려 AI가 먼저 손을 들어요: 스스로 멈추는 에이전트
사람만 에이전트를 감독하는 게 아니에요. Claude도 스스로 멈춰요.
가장 복잡한 작업에서 Claude Code가 사용자에게 확인을 요청하는 비율은, 사용자가 Claude를 중단시키는 비율의 2배 이상이에요. 최고 난이도 작업 기준으로, Claude의 자발적 질문 비율은 16.4%, 사람의 인터럽트 비율은 7.1%이에요.
Claude가 스스로 멈추는 이유를 분석해 보면 이런 패턴이에요:
- 접근 방식 선택지를 제시하기 위해 (35%)
- 진단 정보나 테스트 결과를 수집하기 위해 (21%)
- 모호하거나 불완전한 요청을 명확히 하기 위해 (13%)
- 인증 정보나 접근 권한을 요청하기 위해 (12%)
- 행동 전 승인을 받기 위해 (11%)
반면 사람이 Claude를 중단시키는 이유는:
- 빠진 기술적 맥락이나 수정사항 제공 (32%)
- Claude가 느리거나 과도하게 작업 중 (17%)
- 혼자 진행할 수 있을 만큼 충분한 도움을 받음 (7%)
이건 중요한 안전 속성이에요. 에이전트가 자기 불확실성을 인식하고, 확신이 없을 때 스스로 브레이크를 거는 능력이 외부 안전장치만큼이나 중요하다는 걸 보여줘요. Anthropic은 이 특성을 모델 훈련 과정에서 의도적으로 강화하고 있고, 다른 모델 개발사에도 같은 접근을 권고하고 있어요.
코딩 밖의 세계: 에이전트가 향하는 곳
현재 AI 에이전트 사용의 지형도를 보면, 압도적으로 소프트웨어 엔지니어링에 집중되어 있어요. Anthropic 공개 API 기준 전체 도구 호출의 약 49.7%가 코딩 관련이에요. 그다음은 백오피스 자동화(9.1%), 마케팅(4.4%), 영업/CRM(4.3%), 재무·회계(4.0%), 데이터 분석(3.5%) 순이에요.
전체 도구 호출의 80%에는 권한 제한이나 사람의 승인 요건 같은 안전장치가 존재하고, 73%에는 어떤 형태로든 사람이 관여하고 있어요. 되돌릴 수 없는 행동(이메일 발송 같은)은 전체의 0.8%에 불과해요.
그런데 프론티어 영역도 보여요. 금융 거래 자동 실행, 환자 의료 기록 조회, 보안 권한 상승 같은 고위험·고자율성 클러스터가 소규모로 존재해요. Anthropic은 이 중 상당수가 보안 평가(레드 팀 훈련)일 가능성이 높다고 봤지만, 실제 프로덕션 환경인지 구별할 수 없다는 한계도 인정했어요.
소프트웨어 엔지니어링이 먼저 에이전트를 채택한 이유는 구조적이에요. 코드는 실행해서 맞는지 확인할 수 있거든요. 테스트를 돌리고, 결과를 비교하고, 배포 전에 검토할 수 있어요. 법률, 의료, 금융 같은 분야에서는 에이전트의 산출물을 검증하는 것 자체가 전문 지식을 요구해요. 그래서 신뢰 구축이 더 느릴 수밖에 없어요.
MCP vs CLI: 에이전트의 '손과 발'을 둘러싼 기술 논쟁
여기서 조금 기술적인 이야기를 해볼게요. AI 에이전트가 외부 세계와 상호작용하는 방식, 즉 도구 연결의 인터페이스를 둘러싼 흥미로운 논쟁이 벌어지고 있거든요.
MCP(Model Context Protocol)[2]는 Anthropic이 2024년 11월 공개한 개방형 표준이에요. AI 에이전트가 외부 도구, 데이터베이스, API와 소통하는 방식을 표준화한 프로토콜이죠. USB-C 포트처럼, 한 번 연결하면 어떤 도구든 쓸 수 있게 해주는 '만능 어댑터'라고 보면 돼요. 출시 1년 만에 OpenAI, Google, Microsoft가 모두 채택했고, 2025년 12월에는 Linux Foundation 산하로 넘어갔을 정도로 빠르게 업계 표준이 되었어요.
그런데 최근 현장 개발자들 사이에서 "MCP보다 CLI가 낫다"는 목소리가 나오고 있어요.
문제는 컨텍스트 효율성이에요. 전형적인 MCP 서버는 사용 가능한 모든 도구의 스키마[3]를 에이전트의 컨텍스트 윈도우에 한꺼번에 올려요. 예를 들어 GitHub MCP 서버 하나가 93개 도구를 노출하면, 그 정의만으로 약 55,000 토큰을 소비해요. 여기에 데이터베이스, Jira, Microsoft Graph까지 연결하면 도구 정의만으로 15만 토큰 이상이 날아가요. 정작 중요한 추론에 쓸 공간이 줄어드는 거예요.
반면 CLI(명령줄 인터페이스)[4] 방식은 gh, az, git 같은 기존 명령어 도구를 바로 사용해요. AI 모델은 이미 훈련 데이터에서 이 도구들의 사용법을 학습해 왔기 때문에, 별도 스키마 없이 명령어와 결과만으로 200 토큰 이내에 같은 작업을 처리할 수 있어요.
한 엔지니어가 "비준수 디바이스 목록을 추출해 CSV로 내보내기" 작업을 양쪽으로 비교했는데, MCP 방식은 3~4단계 추론 후 컨텍스트 부족으로 세션을 분리해야 했고, CLI 방식은 한 번의 세션에서 파이프라인을 구성하고 엣지 케이스까지 처리했다고 해요.
물론 이건 '이분법'이 아니에요. MCP의 강점은 표준화와 생태계예요. 수천 개의 서버, 크로스 플랫폼 지원, 보안 거버넌스가 구축되어 있어요. Anthropic 자체도 이 문제를 인식하고 코드 실행을 통한 MCP 상호작용 방식을 제안하고 있어요. 도구 정의를 한꺼번에 올리는 대신, 에이전트가 필요한 도구만 코드로 검색해서 온디맨드[5]로 로딩하는 거예요.
제가 보기에 이건 에이전트 아키텍처의 성숙 과정이에요. 초기에는 "모든 도구를 한 번에 보여주자"는 접근이었지만, 실전에서 컨텍스트 윈도우라는 물리적 제약에 부딪히면서 "필요할 때 필요한 도구만"이라는 효율 지향적 패턴으로 수렴하고 있어요. MCP 자체가 사라지는 게 아니라, MCP 위에서 더 똑똑한 도구 탐색 방식이 올라오는 구조예요.
오스왈드의 시선
이 연구를 읽으면서 가장 인상 깊었던 건 "배포 오버행"이라는 개념이에요. AI의 능력은 이미 충분한데, 현실의 사용량이 그에 못 미치는 현상. 이 패턴은 기술 산업에서 반복적으로 나타나요. 클라우드 컴퓨팅도 그랬고, 자율주행도 그렇고, 이번에도 같은 구조예요. 기술의 병목이 '성능'에서 '신뢰'로 이동하는 순간, 성장 곡선의 기울기를 결정하는 건 엔지니어가 아니라 조직 문화와 거버넌스[6]예요.
특히 주목할 건, Anthropic이 "모든 행동을 사전 승인하라는 규제는 적절하지 않다"고 명시적으로 밝혔다는 점이에요. 숙련 사용자가 자연스럽게 발전시킨 '모니터링 + 선택적 개입' 방식이 오히려 효과적이라는 거죠. 이건 규제 논의에 중요한 시사점을 던져요.
그리고 데이터 전문가로서 한 가지 짚고 싶은 건, 이 연구의 한계예요. Anthropic은 자사 제품 데이터만 분석할 수 있어요. 공개 API에서는 개별 도구 호출만 볼 수 있지, 전체 에이전트 세션을 재구성할 수 없어요. Claude Code 데이터는 소프트웨어 엔지니어링에 편중되어 있고요. 또한 위험도와 자율성 점수는 Claude 자신이 분류한 것이라, 검증에 구조적 한계가 있어요. 이 연구가 의미 있는 첫걸음인 건 확실하지만, 전체 그림은 아직 퍼즐의 일부라는 점을 기억할 필요가 있어요.
제가 보기에 진짜 중요한 질문은 이거예요: "AI 에이전트의 자율성은 누가 결정하는가?" 이 연구의 답은 명확해요. 모델도, 사용자도, 제품 설계도 아닌, 세 주체가 함께 만들어간다는 거예요. Anthropic은 이걸 "공동 구성된 자율성(co-constructed autonomy)"이라고 부르는데, 저는 이 프레임이 앞으로 AI 거버넌스 논의의 출발점이 될 거라고 봐요.
마치며

정리하면 이래요. AI 에이전트의 자율 작업 시간은 3개월 만에 두 배 가까이 늘었지만, 그 증가를 만든 건 모델 업그레이드가 아니라 사용자의 신뢰 축적이에요. 그리고 에이전트 스스로가 불확실할 때 멈추는 능력은, 외부 안전장치만큼이나 중요한 감독 메커니즘으로 작동하고 있어요.
이 주제가 더 궁금하시다면, 원문 연구의 'Experienced users' 섹션부터 읽어보시길 추천해요. 신뢰와 감독의 관계를 데이터로 보여주는 부분이 특히 인상적이에요. 다음에는 이 자율성 확대가 노동 시장에 어떤 영향을 주고 있는지, Anthropic이 최근 발표한 또 다른 연구를 통해 이야기해 볼게요.
참고자료 & 더 읽기
핵심 출처
- METR, "Task-Completion Time Horizons of Frontier AI Models", 2026. : AI 에이전트 능력 측정의 업계 표준 벤치마크예요. Anthropic 연구와 비교해서 읽으면 '능력 vs 실전 사용'의 간극이 더 선명하게 보여요.
- Anthropic Engineering, "Code execution with MCP: Building more efficient agents", 2025. : MCP의 컨텍스트 효율성 문제와 코드 실행 기반 해결책을 다룬 Anthropic의 공식 엔지니어링 블로그예요.
배경 지식
- Jannis Reinhard, "Why CLI Tools Are Beating MCP for AI Agents", 2026. : MCP vs CLI 논쟁의 실무 관점을 잘 정리한 글이에요. 실제 토큰 비용 비교가 구체적이에요.
- MIT Technology Review, "This is the most misunderstood graph in AI", 2026. : METR 그래프를 둘러싼 오해와 맥락을 정리한 기사예요. '시간 지평선'이 실제로 무엇을 측정하는지 이해하는 데 도움이 돼요.
- Feng, McDonald, Zhang, "Levels of Autonomy for AI Agents", Knight First Amendment Institute, 2025. : AI 에이전트 자율성을 5단계로 분류한 프레임워크예요. 사용자 역할 중심의 분류가 실무적이에요.
각주
- [1] 자동 승인(Auto-approve): Claude Code에서 AI가 수행하는 각 행동(파일 수정, 명령어 실행 등)을 사용자가 일일이 확인하지 않고 자동으로 허용하는 설정이에요. 기본값은 꺼져 있어서 매번 수동 승인이 필요해요.
- [2] MCP(Model Context Protocol): AI 모델이 외부 도구나 데이터 소스와 소통하는 방식을 표준화한 개방형 프로토콜이에요. USB-C가 다양한 기기를 하나의 포트로 연결하듯, AI를 다양한 서비스에 연결하는 '범용 커넥터'라고 보면 돼요.
- [3] 스키마(Schema): 데이터나 도구의 구조를 정의한 설명서예요. "이 도구에는 어떤 입력이 필요하고, 어떤 출력이 나오는지"를 상세히 기술한 일종의 사용 설명서라고 생각하면 돼요.
- [4] CLI(Command Line Interface): 텍스트 명령어를 입력해서 컴퓨터를 조작하는 인터페이스예요. 마우스로 클릭하는 GUI와 달리, git push처럼 명령어를 직접 타이핑하는 방식이에요.
- [5] 온디맨드(On-demand): 필요할 때 필요한 만큼만 가져오는 방식이에요. 넷플릭스가 보고 싶은 영화만 스트리밍하는 것처럼, 에이전트가 필요한 도구만 그때그때 로딩하는 거예요.
- [6] 거버넌스(Governance): 조직이나 시스템의 의사결정 구조와 책임 체계를 의미해요. AI 거버넌스는 "AI가 무엇을 할 수 있고, 누가 책임지는지"에 대한 규칙과 프로세스를 뜻해요.

의견을 남겨주세요