ChatGPT·Perplexity·Gemini가 답을 내놓기 전에 사용자의 질문을 5~20개의 하위 질문으로 쪼개고, 도구를 갈아끼며, 스스로 검수까지 끝낸다는 사실을 알고 계신가요? '한 번 검색하고 끝'인 전통 RAG는 이미 과거가 되었습니다. 본문에서는 에이전틱 RAG 메커니즘을 6가지 콘텐츠 전략으로 분해하고, 인용 누락의 70~90%가 어디서 발생하는지, 한국 기업이 지금 당장 손볼 수 있는 부분이 무엇인지 정리합니다.
에이전틱 RAG는 '계획-도구 사용-반복 검색-자기 검수'의 4단계 루프를 도는 검색 증강 구조입니다. 전통 RAG가 '질문→검색→상위 청크 K개→생성'의 일직선 파이프라인이었다면, 에이전틱 RAG는 동일한 질문을 받고도 먼저 연구 계획을 세우고, 필요할 때마다 도구를 갈아끼며, 결과가 부족하면 다시 검색합니다. iPullRank의 마이크 킹은 "주요 AI 검색 플랫폼은 이미 단일 패스 구조에서 이동했고, 이제는 계획하고, 도구 사이를 라우팅하고, 검색하고, 읽고, 다시 검색한다"고 진단했는데요. 한국에서는 여전히 '청크 최적화'와 '키워드 매핑' 수준에서 GEO를 이해하는 기업이 많지만, 정작 인용을 가르는 변수는 이 4단계 루프 안 어디에서 살아남느냐에 달려 있습니다. 사용자가 던지는 한 줄 질문은 평균 5~20개 하위 질문으로 자동 생성되고, 각각이 별도 검색 경로를 탑니다. 단발성 키워드 1위는 더 이상 충분하지 않습니다.
지오랭크가 2025년 4분기부터 6개월간 작업한 국내 B2B SaaS H사 사례를 공유드립니다. 처음 진단할 때 H사는 "주요 키워드 구글 1페이지에 있는데 왜 ChatGPT는 우리를 인용하지 않느냐"는 고민을 안고 있었는데요. 분석해 보니 메인 카테고리 키워드 3개에서 ChatGPT가 생성하는 하위 질문 평균 12개 중, H사 콘텐츠가 검색 대상에 잡히는 비율은 단 17%였습니다. 저희는 1단계로 기존 8개 롱폼 아티클을 28개 원자적 패시지로 재구조화했고, 동시에 '브릿지 엔티티' 콘텐츠를 12편 추가 발행했습니다. 초기 2개월간 패시지 분리만 진행했을 때는 인용률이 17%에서 23%로 6%p 오르는 데 그쳤지만, 브릿지 엔티티를 함께 투입한 4개월 차부터 곡선이 꺾였습니다. 최종 결과는 하위 질문 커버리지 17%→74%, 최종 답변 인용률 약 7배 증가, ChatGPT·Perplexity 합산 월간 추천 트래픽 0건→312건이었습니다. 다만 B2B SaaS처럼 정보 탐색이 많은 카테고리일수록 효과가 크고, 단순 상품군에서는 폭이 작을 수 있습니다.
에이전틱 RAG를 정의하는 구조적 속성은 4가지입니다. 계획 단계에서 에이전트는 "GEO 대행사 추천"이라는 한 질문을 "GEO와 SEO의 차이", "ChatGPT 인용을 늘리는 기술적 방법", "한국 GEO 시장 규모", "에이전시 선정 기준" 등 10여 개로 분해합니다. 도구 사용은 검색을 여러 도구 중 하나로 격하시켜, 가격 비교는 API, 계산은 코드 인터프리터, 최신성은 웹브라우징을 호출합니다. 반복(멀티홉 검색)은 1차 검색에서 발견된 새 엔티티가 2차 검색의 단서가 되는 구조로, 1차에서 빠진 콘텐츠도 2·3차에서 다리 역할로 잡힐 수 있습니다. 검수는 마지막 관문으로 "충분한가, 모순은 없는가, 최신인가"를 평가하며, 신선도 검사 때 dateModified 스키마와 "as of 2026년 5월 기준" 같은 명시적 시점 표기가 통과 여부를 가릅니다.
플랫폼별로 에이전틱 강도가 다릅니다. Google AI Mode와 ChatGPT Deep Research는 매우 강함, Gemini Deep Research와 MS Copilot Researcher는 강함, Perplexity Pro Search와 Claude는 중강, AI Overviews는 약~중 수준입니다. Google AI Mode는 5건의 특허(US11663201B2 등)로 계획·도구 사용·메모리·검수·합성 단계를 모두 제품화한 정황이 확인되고, ChatGPT Deep Research는 사용자가 직접 하위 질문 목록을 볼 수 있어 누락 단계를 비교적 쉽게 추적할 수 있습니다. 모든 플랫폼이 100% 에이전틱이지는 않으므로 동일 전략을 가져가면 비효율이 큽니다.
에이전틱 RAG를 노리는 6가지 콘텐츠 전략은 각각이 검색 루프의 어느 단계를 노리는지가 핵심입니다.
- 리지: 한 페이지가 5~20개 하위 질문을 동시에 커버해야 합니다. 카테고리 허브를 만들 때 "이 질문이 분해되면 어떤 12개가 나올까"를 먼저 매핑하고 각각을 별도 패시지로 푸는 방식이 효과적입니다.
2. 페어와이즈 비교에서 이기는 원자적 패시지: 검수 단계에서 패시지가 1:1로 비교됩니다. 자기완결적 논리, 앞부분 명명 엔티티, 명확한 적용 범위가 필요하고 표·리스트가 평균 텍스트보다 승률이 높습니다.
3. 브릿지 엔티티로 멀티홉 인용 노리기: 두 엔티티를 잇는 정식 연결점이 되면 우리 브랜드가 직접 언급되지 않은 답변에서도 출처로 끌려 들어옵니다. 산업에서 가장 저평가된 GEO 표면이라는 평가가 있을 정도입니다.
4. 반론을 함께 다룬 콘텐츠가 검수를 통과한다: 검수 단계는 모순과 한계를 인지한 콘텐츠를 더 신뢰합니다. 셀즈성 카피와 성공 사례만 나열한 콘텐츠는 걸러집니다.
5. 도구 호출 가능 콘텐츠: 모기지·약물 상호작용·세율 같은 영역에서는 글이 아닌 계산기·API·구조화 데이터 엔드포인트가 답을 제공합니다. MCP 서버·API로 도구 노출이 권고되며, 한국에서는 선점 효과가 큽니다.
6. 신선도가 검수 게이트: dateModified 스키마, 버전 번호, "as of [날짜]" 표기를 검수가 명시적으로 확인합니다. 분기별 업데이트 캘린더가 GEO 필수 인프라가 됐습니다.
문제는 이 전체 루프가 블랙박스라는 점입니다. 전통적 인용 추적은 최종 생존자만 관찰하기 때문에 계획자가 어떤 하위 질문을 생성했는지, 라우터가 어떤 도구를 골랐는지, 페어와이즈에서 어떤 경쟁 패시지가 이겼는지, 검수가 무엇을 걸렀는지를 놓칩니다. iPullRank는 인용 횟수가 실제 도달 범위를 3~10배 과소 보고한다고 지적합니다. ChatGPT가 한 달에 5번 인용했다는 숫자만 보고 판단하면, 실제로는 15~50번 검색에 잡혔는데 검수에서 줄줄이 떨어지는 상황을 놓치게 됩니다.
해결책으로 제안되는 것이 모델 증류입니다. Google Gemma 4를 Ollama로 로컬 실행하고 LangGraph 또는 LlamaIndex로 계획자의 하위 질문 생성 패턴, 라우터 도구 선택, 검색 후보 세트, 페어와이즈 판정, 검수 결정 근거를 관측하는 구조입니다. 새 측정 지표로는 하위 질문 커버리지, 검색-인용 비율, 검수 생존율, 브릿지 엔티티 중심성, 도구 호출 포함률, 단계별 누락률이 제시됩니다. 한국 기업이 모두 인프라를 직접 구축하기는 어렵지만, ChatGPT Deep Research가 노출하는 하위 질문 목록을 매주 캡처해 누적하는 것만으로도 출발선은 만들 수 있습니다.
기술 인프라 없이 시작할 수 있는 옵저버블 감사 7단계는 다음과 같습니다.
1. 비즈니스 핵심 질문 5개를 선정합니다.
2. 각 질문을 ChatGPT Deep Research·Gemini Deep Research·Perplexity Pro 3개에 동일하게 던집니다.
3. 노출된 연구 계획과 하위 질문을 빠짐없이 캡처합니다.
4. 각 하위 질문에 대해 우리 콘텐츠가 상위 검색에 잡히는지 확인합니다.
5. 하위 질문 커버리지와 최종 인용률을 비교합니다. 격차가 누락 지점입니다.
6. 누락된 하위 질문을 "신선도 부족", "엔티티 모호", "패시지 길이", "스키마 누락" 등 원인별로 분류합니다.
7. 가장 빈도 높은 누락 원인부터 수정 계획에 반영합니다.
이 감사는 2일이면 가능하고, 한 분기에 한 번씩 돌려도 누락 패턴이 보이기 시작합니다. 에이전틱 RAG 시대의 GEO는 "한 페이지에 한 키워드"가 아니라 "한 주제 그래프에 여러 패시지"로 사고를 바꾸는 게임입니다.
원문 보기: https://georank.co.kr/report/agentic-rag-geo-guide-multi-subquery
의견을 남겨주세요