공지
발송 시간과 구독자 리스트를 재조정 했습니다.

IT

하네스가 도대체 뭐야?! 인공지능 생산성을 높인다는 하네스에 대해

Claude 코드 유출로 밝혀진 것 : 모델의 성능 차이는 지능이 아니라, 모델을 감싼 껍데기 였다?!

2026.04.20 |
from.
Kwangseob

들어가며

지난 3월 31일, 믿기 어려운 사건이 있었어요. Anthropic이 자사의 AI 코딩 도구 Claude Code의 소스코드 전체를 실수로 npm에 공개해 버린 거예요. 51만 2천 줄, TypeScript 파일 1,906개. 발견된 지 몇 시간 만에 GitHub에 백업되어 41,500번 이상 포크됐고, 지금도 인터넷 어딘가에 돌아다니고 있어요.

Anthropic은 "패키징 실수였다"고 해명했지만, 개발자 커뮤니티는 다른 이유로 들썩였어요. 유출된 코드가 그동안 소문으로만 떠돌던 'AI 에이전트 생산성 격차의 비밀'을 증명해 버렸거든요. (이와 관련해서 ZDnet에 칼럼도 쓴 적이 있어요.)

실리콘밸리 최대 스타트업 엑셀러레이터 Y Combinator의 CEO 개리 탄(Garry Tan)은 유출된 51만 줄을 직접 읽고 이렇게 썼어요.

"비밀은 모델이 아니다. 모델을 감싸고 있는 그것이다."

오늘은 이 '그것'에 대한 이야기예요. 같은 Claude를 쓰는데 왜 누군가는 2배 생산성에 그치고, 누군가는 100배를 찍는지. 사실 처음에는 의심으로 시작된 디깅이였어요. 저는 "생산성 몇 배"하는 것을 매우 불신하거든요. 하지만 이건 약간 말이 되어요. 그리고 이게 앞으로 기업들의 AI 투자 전략을 어떻게 뒤집을 것인지에 대해서요.

같은 모델, 100배 격차: 무엇이 다른가

40년 경력의 엔지니어 스티브 예기(Steve Yegge)는 최근 인터뷰에서 도발적인 숫자를 꺼냈어요. AI 코딩 에이전트를 제대로 다루는 엔지니어는 일반 챗봇을 쓰는 엔지니어보다 10배에서 100배, 2005년 구글 직원보다는 약 1,000배 더 생산적이라는 거예요.

실무자들은 이 숫자가 과장이라고 의심해왔어요. 그런데 예기는 한 가지를 분명히 짚었어요. "100배 생산적인 사람과 2배 생산적인 사람이 쓰고 있는 모델은 똑같다"는 것. 둘 다 Claude Opus 4.6을 쓰고, 둘 다 같은 API 키를 가지고 있어요.

차이는 '지능'이 아니라 '구조'에서 나와요. 그리고 이 구조는 인덱스 카드 한 장에 다 들어갈 만큼 단순해요.

이번 Claude Code 유출 사건은 이 주장을 실증 데이터로 뒷받침했어요. 51만 줄의 소스코드를 분석한 개발자들이 발견한 건 '더 똑똑한 모델'이 아니라 '더 영리하게 설계된 래퍼(wrapper)'였거든요. 유출된 코드에는 44개의 숨겨진 기능 플래그, 3층 구조의 'Self-Healing Memory' 시스템, 'KAIROS'라는 이름의 자율 에이전트 데몬 모드가 담겨 있었어요. 정작 LLM 모델 자체는 코드 어디에도 없었어요. 그 자리엔 "모델에게 올바른 맥락을, 올바른 시점에, 노이즈 없이 전달하는 정교한 아키텍처"가 있었어요. 

이걸 업계는 하네스(harness)[1]​라고 불러요. 말을 조종하기 위해 씌우는 마구(馬具)라는 뜻이에요.

'Thin Harness, Fat Skills': 아키텍처의 역전

개리 탄이 제시한 프레임워크는 이름부터 직관적이에요. "얇은 하네스, 두꺼운 스킬." 이 발상은 업계가 지금까지 해오던 방식과 정반대예요.

기존의 '두꺼운 하네스' 접근은 이래요. 40개 넘는 도구 정의를 시스템 프롬프트에 때려 넣고, MCP[2]​ 서버 호출마다 2~5초씩 기다리고, REST API 엔드포인트 하나하나를 별도 도구로 래핑해요. 결과는? 토큰 3배, 지연시간 3배, 실패율 3배. 모델의 컨텍스트 창 절반이 도구 설명에 잡아먹혀서, 정작 문제를 풀 공간이 없어지는 거예요.

반면 '얇은 하네스, 두꺼운 스킬'은 이런 구조예요.

스킬(Skill)[3]은 마크다운으로 작성된 재사용 가능한 절차 문서예요. 모델에게 '무엇을 할지'가 아니라 '어떻게 할지'를 가르치는 문서죠. 탄이 드는 예시가 인상적이에요. /investigate라는 스킬 하나가 있어요. 7단계로 구성돼 있고, TARGET, QUESTION, DATASET 세 개의 파라미터를 받아요.

  • 안전성 연구자 한 명과 210만 통의 이메일을 넣으면 → 의료 연구 분석가가 돼요
  • 페이퍼 컴퍼니와 FEC 선거자금 신고서를 넣으면 → 포렌식 수사관이 돼요

같은 마크다운 파일, 같은 7단계. 입력만 바뀌었을 뿐이에요. 탄은 이걸 두고 "마크다운을 프로그래밍 언어로, 인간의 판단을 런타임으로 쓰는 소프트웨어 설계"라고 표현했어요. 프롬프트 엔지니어링이 아니라는 거예요.

하네스(Harness)는 LLM을 구동하는 얇은 층이에요. 탄의 기준으로 약 200줄. 네 가지 일만 해요. 모델을 루프로 돌리고, 파일을 읽고 쓰고, 컨텍스트를 관리하고, 안전장치를 걸어요. 그게 전부예요.

마지막 층은 결정론적(deterministic) 도구예요. SQL 쿼리, 컴파일된 코드, 산술 연산처럼 "같은 입력에 언제나 같은 출력"이 보장되어야 하는 것들이에요. 탄이 강조한 표현이 있어요.

"LLM은 여덟 명을 저녁 식탁에 배치할 수 있어요. 성격과 사회적 역학을 고려해서요. 그런데 800명을 배치하라고 하면, 그럴듯해 보이지만 완전히 틀린 좌석표를 환각해요."

조합 최적화는 결정론적 문제예요. 이걸 잠재 공간(latent space)[4]​에 억지로 밀어 넣으면 실패해요. 반대로 "두 창업자가 같은 AI 인프라 분야지만 경쟁자가 아니다. 한 명은 비용 귀속, 다른 한 명은 오케스트레이션이니까"라는 판단은 임베딩 유사도 검색이 절대 잡아낼 수 없어요. "어떤 작업을 어느 쪽에 배치하느냐"가 시스템 설계의 핵심이에요.

정리하면 이렇게 돼요. 지능은 위로(스킬), 실행은 아래로(결정론적 도구), 하네스는 얇게. 이 구조의 가장 강력한 속성은 이거예요. 모델이 업그레이드될 때마다 모든 스킬이 자동으로 좋아지는데, 바닥의 결정론적 레이어는 변함없이 안정적으로 돌아간다는 점이에요.

이게 왜 지금 중요한가: Anthropic의 '스킬' 공개 전략

유출 사건이 충격적이었던 이유는 단순히 소스코드가 공개됐기 때문이 아니에요. Anthropic이 이 아키텍처를 업계 표준으로 만들려고 이미 움직이고 있었기 때문이에요.

2025년 10월 16일, Anthropic은 'Agent Skills'라는 기능을 공개했어요. 두 달 뒤인 12월 18일, 이를 오픈 스탠다드로 전환했어요. MCP(Model Context Protocol)를 업계 표준으로 만든 것과 똑같은 플레이북이에요. SKILL.md라는 마크다운 파일 하나와 YAML 메타데이터만 있으면, AI 에이전트에 도메인 전문성을 주입할 수 있어요. Microsoft, OpenAI, Cursor, GitHub, Atlassian, Figma 같은 곳들이 이 표준을 이미 채택했어요.

여기서 중요한 설계 원칙이 Progressive Disclosure(점진적 공개)[5]예요. 시작할 때는 스킬의 이름과 설명만 시스템 프롬프트에 로딩돼요(50~100토큰). 모델이 "이 스킬이 필요하다"고 판단하면 그때 전체 SKILL.md를 읽고, 그 안에서 참조하는 보조 파일은 또 필요할 때만 로드해요. 컨텍스트 창을 "도서관처럼 색인으로 접근하되, 책장은 필요할 때만 꺼내는" 방식이에요.

탄이 공개한 에피소드 하나가 이 원칙의 핵심을 보여줘요. 그는 Claude Code 설정 파일 CLAUDE.md를 2만 줄까지 키웠대요. 자신이 겪은 모든 패턴과 교훈을 다 담으려고요. 결과는? 모델의 주의력이 급격히 떨어졌어요. Claude Code가 직접 "이거 줄이세요"라고 말했대요. 해법은 약 200줄로 압축한 '포인터 문서'였어요. 2만 줄의 지식은 그대로 두되, 필요할 때만 리졸버(resolver)가 불러오도록 바꾼 거예요.

이 패턴은 하드웨어 업계에서 말하는 '레이어드 캐시' 설계와 닮았어요. L1, L2, L3 캐시를 두고 자주 쓰는 데이터는 가까이, 드물게 쓰는 데이터는 멀리 두는 방식이죠. AI 에이전트도 같은 원리로 '지식의 메모리 계층'을 설계하고 있어요.

오스왈드의 시선

이 프레임워크의 진짜 폭발력은 기업 내부의 지식 자산 구조를 뒤집는다는 점에 있어요. 지난 수십 년간 기업들은 지식 자산을 두 가지 방식으로 관리해왔어요. 하나는 문서(ex. Confluence, Notion .etc)로, 다른 하나는 코드(ex. ERP, CRM, 내부 툴 .etc)로요. 둘 다 한계가 있었어요. 문서는 사람이 읽어야만 살아나고, 코드는 유연성이 없고 유지보수 비용이 커요. 그 사이의 애매한 지대(이를테면 '영업팀의 견적 프로세스', '법무팀의 계약 검토 기준', '마케팅팀의 브랜드 가이드라인')는 늘 사람의 머릿속에만 있었어요.

첨부 이미지

스킬 파일은 이 '애매한 지대'를 자산화하는 새로운 방법이에요. 마크다운 한 장에 절차, 판단 기준, 예시를 담으면, 그게 곧 재사용 가능한 조직 역량이 되는 거예요. Canva, Stripe, Notion, Zapier 같은 SaaS 기업들이 이미 자사 서비스 조작 방법을 SKILL.md로 공개하기 시작한 것도 그래서예요. 이건 API 문서와는 결이 달라요. API는 '어떻게 호출하는가'를 알려주지만, 스킬은 '언제, 어떤 순서로, 어떤 판단을 거쳐 호출하는가'를 알려줘요.

제가 이 흐름에서 가장 주목하는 건 "스킬은 영구적 업그레이드"라는 탄의 표현이에요. 기존 소프트웨어는 쓸수록 기술부채(tech debt)[6]​가 쌓여요. 하지만 스킬은 반대예요. 한 번 잘 쓴 스킬은 새로운 모델이 나올 때마다 자동으로 더 좋아져요. 판단 부분은 모델이 업그레이드되고, 결정론적 부분은 그대로 안정적이에요. "한 번 만들면 영원히 돌아간다"는 거죠.

다만 한 가지 냉정하게 짚고 싶은 지점이 있어요. Snyk가 2026년 2월 발표한 보고서에 따르면 공개 감사된 스킬의 36.82%에 보안 결함이 있었어요. 악의적인 스킬은 데이터 유출, 무단 시스템 접근 같은 리스크를 만들 수 있어요. 스킬은 텍스트가 아니라 '코드'로 취급해야 해요. 버전 관리, 소유자 지정, 정기 리뷰 등... 이게 엔터프라이즈가 스킬을 도입할 때 피할 수 없는 비용이에요.

"AI 시대의 새로운 자산은 모델이 아니라 스킬 라이브러리"라는 명제는, 낭만적이지만 아직은 '잘 관리되어야 성립하는 전제'예요. 이 전제를 가장 먼저 정립한 조직이 다음 생산성 격차의 수혜자가 될 거예요.

마치며

저는 생산성 100배니 폭발적 성장이라는 말을 보면 일단 의심하고 보는 편이에요. 이유는 간단해요. X배라고 하려면 기준이 되는 숫자가 있어야하는데 그게 없다면 어떻게 우리는 그 성장을 믿을 수 있을까요? 1명이 3명으로 늘리고 3배가 되었다고 하는 것과 100명이 300명이 되고 3배가 되었다고 말하는 것은 분명 무게가 다를 건데 말이죠. 이번 뉴스레터는 이런 의아함에 하네스를 쓰면 100배 생산성이 향성된다고? 라는 의문에서 시작했어요. 아마 새로운 용어는 계속 생겨날거에요. 프롬프트 엔지니어링, 컨텍스트 엔지니어링, 하네스 엔지니어링... 너무 쫄지마세요. 그대신 이떤 식으로 돌아가는지만 명확하게 이해하세요.

첫째, AI 생산성 격차의 본질은 모델이 아니라 아키텍처에 있어요. Claude Code 유출이 보여준 건 '더 똑똑한 뇌'가 아니라 '더 영리한 구조'였어요.

둘째, '얇은 하네스, 두꺼운 스킬'은 소프트웨어 설계 철학의 전환이에요. 지능은 마크다운으로 위에, 실행은 코드로 아래에, 오케스트레이션은 얇게. 이 원칙은 이미 Anthropic, Microsoft, OpenAI, Cursor가 수용한 업계 표준이에요.

셋째, 기업의 경쟁력은 '얼마나 좋은 모델을 쓰는가'에서 '얼마나 깊은 스킬 라이브러리를 가졌는가'로 이동하고 있어요. 다만 이 자산화는 보안과 거버넌스라는 숙제를 함께 가져와요.

혹시 이 글을 읽으면서 "지금 우리 조직의 AI 도입 전략은 어느 쪽에 가까운가"라는 질문이 떠올랐다면, 그 질문 자체가 오늘 뉴스레터의 값이에요. 모델 비교 스펙표를 들여다보는 시간보다, 팀 내부의 반복 작업 중 "마크다운 한 장으로 정리하면 영구 자산이 되는 것"이 무엇인지 찾는 시간이 더 유효한 시점이에요.

반응이 좋으면, 다음 뉴스레터에서는 이 구조의 반대편, 그러니까 "스킬 아키텍처를 가진 조직이 왜 기존 대기업을 흔들 수 있는가"에 대해 이야기해 볼게요. 반응이 좋다는 것은 댓글이 많고 공유가 많이되었다는 것을 의미해요! 친구들에게 이 뉴스레터를 공유하고 구독을 권유해보세요!

참고자료 & 더 읽기

핵심 출처

  • Garry Tan, "Thin Harness, Fat Skills", gbrain GitHub repository, 2026. : 오늘 뉴스레터의 프레임워크가 정리된 원문이에요. 'Fat skills, thin harness' 3층 아키텍처가 인덱스 카드 한 장에 압축되어 있어요.
  • Anthropic, "Equipping agents for the real world with Agent Skills", Anthropic Engineering Blog, 2025.12. : SKILL.md 표준과 Progressive Disclosure 설계 원칙이 상세히 설명돼요. 스킬을 직접 만들어 보려면 이 문서부터 읽는 게 좋아요.
  • Steve Yegge, "The AI Vampire", Medium, 2026.02. : 10배/100배 생산성의 실체와 그 뒤에 숨은 '뱀파이어 효과'(3시간 이상 지속 불가)를 분석한 글이에요.
  • Gergely Orosz, "Steve Yegge on AI Agents and the Future of Software Engineering", The Pragmatic Engineer, 2026.02. — 예기의 '8단계 AI 채택 모델'과 왜 대기업이 구조적으로 이 생산성을 흡수 못 하는지에 대한 통찰이 담겨 있어요.

배경 지식

 

각주

  1. [1] 하네스(Harness): LLM을 구동하는 형식이에요. 모델을 루프로 돌리고 파일을 읽고 쓰고 컨텍스트를 관리하고 안전장치를 거는 역할을 해요. 말에게 씌우는 마구(馬具)에서 따온 이름이에요.
  2. [2] MCP(Model Context Protocol): Anthropic이 2024년 공개한 오픈 스탠다드로, AI 에이전트가 외부 도구와 데이터 소스에 연결되는 방식을 표준화한 프로토콜이에요. Agent Skills와 상호 보완 관계예요. MCP가 '연결'을 담당한다면 Skills는 '사용법'을 담당해요.
  3. [3] 스킬 파일(Skill file / SKILL.md): 마크다운으로 작성된 재사용 가능한 절차 문서예요. 모델에게 '무엇을'이 아니라 '어떻게' 할지를 가르쳐요. YAML 메타데이터와 마크다운 본문으로 구성돼요.
  4. [4] 잠재 공간(Latent space) vs 결정론적(Deterministic): 잠재 공간은 AI의 판단과 해석이 일어나는 영역이에요. 같은 입력이라도 매번 다른 출력이 나올 수 있어요. 결정론적 영역은 SQL 쿼리나 산술 연산처럼 같은 입력에 언제나 같은 출력이 나오는 영역이에요. 시스템 설계의 핵심은 '어떤 작업을 어느 쪽에 둘 것인가'예요.
  5. [5] Progressive Disclosure(점진적 공개): 정보를 한꺼번에 모두 로딩하지 않고, 필요한 시점에 필요한 만큼만 꺼내 쓰는 설계 원칙이에요. AI 에이전트의 경우 스킬의 이름/설명만 먼저 로딩하고, 실제 내용은 필요할 때 불러와요. 컨텍스트 창을 효율적으로 쓰는 핵심 기법이에요.
  6. [6] 기술부채(Tech debt): 단기적 편의를 위해 지름길을 택한 코드나 설계가 장기적으로 누적되는 비용을 뜻해요. 나중에 수정이나 확장이 어려워지는 상태예요.
첨부 이미지

필자 안광섭은 세종대학교 경영학과 교수이자 OBF(Oswarld Boutique Consulting Firm) 리드 컨설턴트이다. 대학에서 경영데이터 관리, 비즈니스 애널리틱스 등 데이터 분석을 가르치는 한편, 현장에서는 GTM 전략과 인공지능 전략 컨설팅을 이끌며 기술과 비즈니스의 접점을 설계하고 있다. AI 대화 시스템의 기억 아키텍처(HEMA) 연구로 학술 논문을 발표했으며, 매일 글로벌 AI 논문을 큐레이션하는 Daily Arxiv 프로젝트를 운영하고 있다. 고려대학교 KBMA와 기술경영전문대 석사과정을 졸업했다. 지은 책으로 《생각을 맡기는 사람들: 호모 브레인리스》가 있다.

다가올 뉴스레터가 궁금하신가요?

지금 구독해서 새로운 레터를 받아보세요

이번 뉴스레터 어떠셨나요?

오즈의 지식토킹 님에게 ☕️ 커피와 ✉️ 쪽지를 보내보세요!

댓글

의견을 남겨주세요

확인
의견이 있으신가요? 제일 먼저 댓글을 달아보세요 !

다른 뉴스레터

자기개발

경제학자가 5배 빨라졌다. 하지만 퀄리티는?

진짜 경쟁은 '오류를 잡는 속도'와 '오류를 만드는 속도' 사이에 있어요.. 들어가며 구독자님, 최근 경제학계에 흥미로운 풍경이 펼쳐지고 있어요. 다트머스 대학의 Paul Novosad 교수는 AI 덕분에 실제 연구 질문을 고민하는 데 쓸 수 있는 시

2026.03.31
인문

81,000명에게 물었다. "AI가 뭘 해주길 바라세요?"

사람들이 AI에게 진짜 원하는 건 더 빠른 업무가 아니라, 업무 너머의 삶이었다.. 들어가며 구독자님, 누군가 "AI가 뭘 해주면 좋겠어요?"라고 물으면, 뭐라고 답하시겠어요? 아마 대부분은 "업무 효율화"부터 떠올릴 거예요. 이메일 자동 분류, 보고서 초안

2026.04.04
경제

시간을 파는 사업에서, AI가 시간을 줄여버리면 무엇을 팔 것인가?

1조 달러 법률 산업의 과금 모델이 흔들리고 있어요.. 들어가며 구독자님, 2022년 샌프란시스코의 한 아파트에서 시작된 스타트업이 있어요. 전직 변호사 한 명과 전직 딥마인드 연구원 한 명이 GPT-3로 임대차 분쟁 법률 자문

2026.04.15
인문

실리콘밸리가 '취향'을 말할 때, 진짜 감추고 싶은 것

남은 건 '무엇을 만들지 고르는 능력'이라고요? 그게 정말 '취향'일까요?. 들어가며 구독자님, 최근 실리콘밸리에서 가장 핫한 키워드가 뭔지 아세요? AI도, 에이전트도 아니에요. 바로 'taste(취향)'예요. 제가 작년에 쓴 책에서도 이것을 이야기

2026.04.05
경제

토큰이 곧 제품이다, 알리바바 Token Hub

중국에서 시작된 AI 연구의 이상(理想)과 비즈니스의 현실이 충돌할 때. 들어가며 구독자님, 안녕하세요. 지난 3월 3일 새벽, 중국 AI 커뮤니티는 짧은 영어 메시지 하나로 술렁였어요. "me stepping down. bye my beloved

2026.04.13
IT

토큰 한 개의 가격이 바꾸는 것들

오픈 모델이 '쓸 만해진' 게 아니라, AI를 쓸 수 있는 팀의 범위가 바뀌고 있어요.. 숫자 하나만 먼저 드릴게요. 백만 토큰당 25달러 vs 0.20달러. 125배 차이예요. 앞의 숫자는 현재 가장 똑똑한 폐쇄형 AI 모델(Claude Opus 4.6)의 출력 가격

2026.04.10
© 2026 오즈의 지식토킹

하고 싶은 말을 합니다. 주로 기술, 인문학, 경제에 대한 이야기를 합니다.

뉴스레터 문의newsletter@oswarld.com

메일리 로고

도움말 자주 묻는 질문 오류 및 기능 관련 제보

서비스 이용 문의admin@team.maily.so 채팅으로 문의하기

메일리 사업자 정보

메일리 (대표자: 이한결) | 사업자번호: 717-47-00705 | 서울특별시 송파구 위례광장로 199, 5층 501-8호

이용약관 | 개인정보처리방침 | 정기결제 이용약관 | 라이선스