들어가며
구독자님, 안녕하세요. 지난 3월 20일, PDF 데이터 추출 도구 '오픈데이터로더 PDF v2.0'이 깃허브 전체 트렌딩 1위에 올랐어요. 21일 하루에만 스타 수가 1,800개 늘었고, 총 스타 수는 7,000개를 넘었어요. 처음에 저는 이 오픈데이터로더를 누가 만든줄 몰랐어요. 그러다 이용약관과 한국어 페이지가 있는 걸 보고 한국인 개발자인가? 했다가 한글과 컴퓨터에서 만들었다는 사실을 알고 깜짝 놀랐어요. 네. 맞아요. 그 한컴이요.
저는 이 한 줄짜리 뉴스를 그냥 흘려보낼 수 있어요. "한국 회사가 오픈소스 하나 잘 만들었나 보다." 그런데 저는 이 사건을 한국 IT 산업의 의미있는 변곡점으로 보고 있어요.
왜냐면 그동안 한컴은 한국 IT '갈라파고스'의 대표 기업으로 꼽혀왔거든요. HWP 포맷, 정부·공공기관 의존, 해외 매출 미미. 한컴오피스는 30년 넘게 사실상 국내에서만 팔렸어요. 글로벌 오피스 시장에서 MS 오피스가 95% 이상을 차지하는 동안, 한컴오피스의 국내 점유율은 약 30% 선을 지키는 게 한컴의 게임이었어요.
그런 한컴의 기술이 처음으로 글로벌 개발자 커뮤니티에서 직접 검증받은 사건이에요. 그것도 "한국 기업이라 봐주는" 보정 없이, 벤치마크 수치와 별 수로요. 깃허브에 등록된 약 4억 개 프로젝트 중 트렌딩 1위에 오른다는 건 바늘구멍을 통과하는 일에 가까워요.
오늘은 이게 어떻게 가능했고, 이 패턴이 다른 한국 기업과 우리 개인에게 어떤 시사점을 주는지 풀어볼게요.
📊 벤치마크가 말하는 것
먼저 수치부터 짚어볼게요. 오픈데이터로더 측이 공개한 자체 벤치마크에서, 읽기 순서·표·제목 추출 항목의 문서별 평균 점수는 다음과 같아요.
- OpenDataLoader (hybrid): 0.907 ← 1위
- Docling: 0.882
- Nutrient: 0.880
- Marker: 0.861
- Unstructured (hi_res): 0.841
자체 벤치마크라는 점은 정직하게 짚고 가야 해요. 다만 한컴은 테스트 데이터와 재현 코드를 깃허브에 모두 공개해 두었어요. 결과를 검증하고 싶으면 누구나 직접 돌려볼 수 있어요.
여기서 진짜 충격은 점수 자체가 아니에요. 속도예요. 오픈데이터로더는 페이지당 0.015초로 처리해요. 반면 비슷한 정확도를 보이는 마커(Marker)는 페이지당 약 53.9초가 걸려요. 약 1,000배 차이고, 마커는 GPU가 필수인데 오픈데이터로더는 CPU만으로도 돌아가요.
이게 왜 중요할까요? 기업 실무에서 PDF 100만 페이지를 처리한다고 치면, 마커는 약 624일이 걸리는 작업을 오픈데이터로더는 약 4시간 만에 끝낸다는 뜻이에요. AI 학습용 데이터 파이프라인을 짜는 입장에서, 이건 "조금 더 빠른" 게 아니라 "처음으로 가능해진" 영역이에요. 고성능 GPU 인프라가 없는 중소기업과 1인 개발자에게도 문이 열린 거예요.
기업이 보유한 실무 데이터의 80~90%는 PDF·문서 같은 비정형 포맷이라고 자주 이야기되는데, 그 데이터를 AI에 먹이려면 정제 단계에서 막혀왔어요. PDF는 화면에 보기 좋게 그리는 데 최적화된 포맷이지 데이터를 추출하라고 만든 포맷이 아니거든요. 표 하나가 어디서 시작해서 어디서 끝나는지, 다단 레이아웃에서 어떤 순서로 읽어야 하는지, 이미지 안에 박혀 있는 텍스트는 어떻게 꺼낼지. 이걸 정확하고 빠르게 푸는 도구가 RAG[1] 시대의 핵심 인프라였어요.
비결은 '하이브리드 엔진'이에요. 단순 텍스트는 규칙 기반(Rule-base)으로 즉시 처리하고, 복잡한 표나 다단 레이아웃에만 AI를 호출해요. 모든 페이지에 무거운 AI 모델을 돌리는 다른 도구들과 다른 설계예요.
🏛️ 한컴이 35년 동안 쌓은 진짜 자산
여기서 질문이 생겨요. 왜 하필 한컴일까요?
오픈소스 PDF 파서 시장은 이미 도클링(IBM 리서치 기반), 마커, 언스트럭처드(YC 출신) 같은 강자들이 즐비한 곳이에요. 그런데 글로벌 빅테크와 실리콘밸리 스타트업이 만든 도구들을 한국의 35년 된 워드프로세서 회사가 벤치마크에서 앞섰어요.
저는 이 지점에서 한컴이 35년간 축적한 것의 정체를 다시 봐야 한다고 생각해요. 그건 한컴만의 '문서 온톨로지[2]'예요. 어떤 텍스트가 제목이고 어떤 게 본문인지, 표의 행과 열을 어떻게 분해해야 하는지, 다단 구조에서 읽기 순서는 어떻게 복원해야 하는지. 이런 것에 대한 35년치 패턴이 한컴에게는 있었어요. 한컴 박동현 기술응용개발실장도 인터뷰에서 "공공기관과 여러 기업의 문서 데이터를 처리한 경험을 토대로 독보적인 기술 역량을 쌓았다"고 밝혔어요.
흥미로운 건 한컴이 듀얼랩(Duallab)이라는 글로벌 PDF 기술 전문 기업과 2025년 7월 MOU를 맺고 공동 개발했다는 점이에요. 한컴의 문서 처리 노하우 + 듀얼랩의 PDF 전문성이 결합한 결과물인 셈이에요. 한컴 단독 기술이 아니라는 점은 짚고 가야 해요.
그래도 핵심은 변하지 않아요. 한컴이 갖고 있는 '문서를 어떻게 분해할 것인가'에 대한 자기만의 정리 체계가 글로벌 협업의 기반이 되었다는 것. 듀얼랩이 한컴을 파트너로 선택한 이유가 바로 그 35년의 무게예요.
흐름을 보면 한컴의 글로벌 행보는 최근 1년 사이 눈에 띄게 빨라졌어요. 2025년 12월 텐센트클라우드와 전략 동맹, 2026년 2월 일본 사이버링크스에 안면인식 솔루션 첫 해외 수주, 4월 재팬 IT 위크 참가. 그리고 이번 깃허브 트렌딩 1위. 분명한 패턴이 있어요. 한컴오피스 완제품을 들고 나가는 게 아니라, 그 밑에 깔린 기술 자산을 분야별로 떼어내 글로벌 파트너십·오픈소스 형태로 풀고 있어요.
🌏 갈라파고스 탈출의 새 공식
한컴은 그동안 글로벌화 시도를 안 한 게 아니에요. 한컴오피스 네오로 중남미·중국·인도·중동·러시아 5개 지역 진출을 발표한 게 2016년이었어요. 결과는 다들 아시는 대로예요. MS 오피스가 글로벌에서 95% 이상을 차지하는 시장에서, 완성된 오피스 제품으로 깃발을 꽂는 건 거의 불가능에 가까웠어요.

그런데 이번 오픈데이터로더는 접근법이 완전히 달라요. 한컴은 자신의 완성된 제품(오피스)을 들고 나가지 않았어요. 자기들의 핵심 역량(문서 분해 노하우)을 떼어내, 글로벌 개발자들이 가장 필요로 하는 형태(오픈소스 PDF 파서)로 다시 포장했어요. 거기에 라이선스를 가장 자유로운 아파치 2.0[3]으로 풀어버렸어요. 기존 MPL 2.0에서 굳이 바꾼 거예요.
이건 GTM 관점에서 정말 중요한 전환이에요. "완성품을 수출"하는 모델에서, "핵심 역량을 표준 인프라로 무료 배포 → 그 위에서 상용 서비스로 수익화"하는 모델로 옮긴 거예요. NVIDIA가 CUDA를 무료로 풀어 GPU 컴퓨팅의 표준이 된 것, Stripe가 결제 API를 개발자 친화적으로 만들어 결제 인프라를 장악한 것과 같은 패턴이에요.
실제로 한컴은 이미 다음 수를 깔아두었어요. 데이터 추출(오픈데이터로더) → RAG 연결(한컴피디아) → 업무 보조(한컴어시스턴트)로 이어지는 'AI 오케스트레이터' 라인업이에요. 무료로 푼 오픈데이터로더가 글로벌에 깔리면, 그 위에서 돌아가는 상용 애드온과 한컴피디아가 수익을 만드는 구조예요. 2분기에는 MCP[4] 지원과 상용 애드온도 추가될 예정이에요.
다만 이게 성공한다는 보장은 아직 없어요. 깃허브 트렌딩 1위와 실제 글로벌 시장 점유는 다른 차원의 문제예요. 도클링은 IBM 리서치의 강력한 백업이 있고, 라마인덱스는 자체 파서를 갖고 있어요. 1라운드를 잘 끊은 건 맞지만, 게임은 이제 시작이에요.
🔍 오스왈드의 시선
GTM 전략을 봐오면서, 한국 B2B 소프트웨어 회사들의 글로벌화 실패 패턴은 거의 비슷했어요. "한국에서 잘 팔린 완성품을 영어로 번역해서 들고 나가는 것." 한컴오피스도, 이전의 수많은 시도들도 이 패턴이었어요.
이번 한컴의 움직임이 의미 있는 건, 그 공식을 깼다는 점이에요. 자기 회사의 가장 크고 무거운 자산(오피스 완제품)을 들고 나가는 대신, 그 자산을 만들어낸 밑단의 핵심 역량을 떼어내서, 글로벌 개발자들이 지금 당장 필요로 하는 형태로 변환했어요.
타이밍도 절묘해요. 2026년은 AI 에이전트가 본격적으로 외부 도구를 호출해서 일을 하는 시대거든요. 에이전트가 PDF를 읽고 표를 추출하고 RAG로 답을 만들 때, 그 첫 단추인 PDF 파서 자리를 누가 차지하느냐가 향후 몇 년의 기업 워크플로우 표준을 좌우해요. 한컴이 굳이 라이선스를 MPL에서 아파치 2.0으로 바꿔가며 진입 장벽을 낮춘 건 그 자리를 노린 거예요. 표준이 정해지기 전에 들어가서 표준이 되는 것, 이게 GTM의 정석이에요.
저는 이 패턴이 한국의 다른 갈라파고스 기업들에게 시사하는 바가 크다고 봐요. 네이버의 검색 노하우, 카카오의 메시징 인프라, 토스의 금융 UX, 쿠팡의 라스트마일 물류. 이런 것들도 완성된 서비스로는 글로벌 진출이 쉽지 않아요. 하지만 그 밑에 깔린 핵심 역량을 떼어내, 글로벌 개발자가 쓸 수 있는 표준 인프라로 다시 포장한다면 이야기가 달라질 수 있어요.
그리고 이건 개인에게도 똑같이 적용돼요. AI 시대에 우리가 가진 가장 큰 무기는 일반론이 아니에요. LLM이 인터넷의 모든 일반론을 이미 알고 있으니까요. 가치 있는 건 우리 머릿속에만 있는 특수론, 즉 자기만의 정리 체계예요. 한컴이 35년 동안 문서 한 우물을 파서 만든 그 정밀함처럼요.
다만 한 가지 조건이 있어요. 그 특수론을 남들이 쓸 수 있는 형태로 변환해서 내놓을 수 있어야 한다는 것. 머릿속에만 있으면 그건 자산이 아니라 그냥 경험이에요.
✍️ 마치며
오늘 이야기를 세 줄로 정리하면 이래요.
- 한컴 오픈데이터로더의 깃허브 1위는 한국 갈라파고스 기업이 글로벌 개발자에게 직접 검증받은 첫 사례예요. 보정 없이 벤치마크 점수와 별 수로요.
- 이게 가능했던 건 35년간 쌓은 문서 처리의 '온톨로지' 덕분이고, 이번에는 그걸 완성품이 아닌 핵심 역량 단위로 떼어내 오픈소스로 풀었어요. GTM 관점에서 새로운 공식이에요.
- 이 패턴은 다른 한국 기업, 그리고 한 우물을 파온 개인 모두에게 적용돼요. 자기만의 정리 체계를 가진 사람이 압도적으로 유리한 시대거든요.
구독자님은 지난 10년, 20년간 무엇에 시간을 가장 많이 쓰셨나요? 그게 무엇이든 그 안에 당신만의 온톨로지가 잠들어 있을 가능성이 높아요. 다음 질문은 그걸 어떻게 남이 쓸 수 있는 형태로 꺼낼 수 있느냐예요. 한컴의 35년이 깃허브 1위로 환전된 것처럼요.
참고자료 & 더 읽기
핵심 출처
- OpenDataLoader 공식 사이트 벤치마크 페이지. : 각 PDF 파서의 정확도 점수를 직접 비교할 수 있어요. 재현 코드와 테스트 데이터도 깃허브에 공개되어 있어서 직접 검증해볼 수 있어요.
- 박찬, "한컴 '깃허브 1위는 35년 문서 기술의 결실...글로벌 표준 될 것'", AI타임스, 2026.04. : 한컴이 어떤 기술 철학으로 오픈데이터로더를 설계했는지 박동현 실장의 입을 통해 직접 들을 수 있는 인터뷰예요. 오늘 뉴스레터의 핵심 근거 중 하나예요.
배경 지식
- "Best PDF Parsers for AI and RAG Workflows in 2026", Firecrawl Blog. : 도클링, 마커, 언스트럭처드 등 경쟁 도구들의 강점과 한계를 비교한 글이에요. 오픈데이터로더가 시장에서 어느 위치인지 가늠하기 좋아요.
- Auer et al., "Docling Technical Report", arXiv:2408.09869, 2024. : 가장 강력한 경쟁 도구인 도클링의 설계 철학을 공식 문서로 확인할 수 있어요. 오픈데이터로더와 비교해보면 두 도구의 접근법 차이가 보여요.
- 한컴 OpenDataLoader 깃허브 저장소. : 직접 받아서 써볼 수 있는 공식 저장소예요. README의 벤치마크 섹션에서 다른 도구들과의 비교 수치도 확인할 수 있어요.
각주
- [1] RAG(Retrieval-Augmented Generation, 검색 증강 생성): AI가 답변할 때 자기 머릿속(학습된 지식)만 쓰는 게 아니라, 외부 문서를 먼저 검색해서 그 내용을 참고해 답하는 방식이에요. 시험 볼 때 오픈북으로 보는 것과 같다고 생각하면 돼요. 그래서 외부 문서(특히 PDF)를 얼마나 정확하게 추출하느냐가 RAG 답변 품질의 90%를 좌우한다고 이야기돼요.
- [2] 온톨로지(Ontology): 어떤 분야의 개념과 관계를 자기만의 방식으로 정리한 지식 구조예요. 도서관이 책을 분류·정리하는 자기만의 체계를 가지고 있는 것처럼, 한컴은 '문서'라는 영역에 대해 "무엇이 제목이고 무엇이 본문인지, 표는 어떻게 분해되어야 하는지"를 35년간 자기만의 방식으로 정리해온 셈이에요.
- [3] 아파치 2.0 라이선스(Apache License 2.0): 오픈소스 라이선스 중 가장 자유로운 편에 속해요. 상업적 이용, 수정, 재배포가 거의 무제한 허용되고, 수정한 코드를 다시 공개할 의무도 없어요. 기업이 도입할 때 법적 부담이 가장 적어서, 글로벌 빅테크와 스타트업이 가장 선호하는 라이선스 중 하나예요.
- [4] MCP(Model Context Protocol): AI 에이전트가 외부 도구나 데이터를 호출할 때 쓰는 표준 통신 규약이에요. 노트북에 USB 단자가 있어서 어떤 기기든 꽂아 쓸 수 있는 것처럼, MCP는 AI에게 '범용 단자'를 만들어주는 표준이라고 생각하면 돼요.


의견을 남겨주세요