인공지능

OpenAI Deep Research팀이 말하는 강화학습이 AI Agent의 미래인 이유

2025년은 에이전트의 해입니다.

2025.03.10 | 조회 335 |
0
|
주간 Tech Review의 프로필 이미지

주간 Tech Review

IT 업계의 정보와 인사이트를 공유하고 있습니다.

OpenAI Deep Research팀 연구원인 조쉬 토빈과 이사벨라 풀포드가 유튜브 채널 Sequoia Capital과 진행하여 2025년 2월 25일 공개된 인터뷰 내용을 리뷰해봤습니다.

조쉬 토빈 (Josh Tobin)

  • UC Berkeley 컴퓨터 과학 박사 (PhD)
  • OpenAI 리서치 과학자
  • 경영 컨설팅 회사 McKinsey 근무 경험 (Business Analyst)
  • AI 인프라 스타트업 Gantry의 공동창업자 및 CEO

이사벨라 풀포드 (Isabella Fulford)

  • OpenAI Deep Research팀 연구 리더
  • 스탠포드 대학교 컴퓨터 과학 석사 (MS)
  • 스탠포드 대학교 수학 및 계산 과학 학사(BS)
  • Amazon Web Services 근무 경험 (Software Engineer)
  • 세콰이어 캐피탈 근무 경험

딥 리서치 (Deep Research)

 OpenAI Deep Research는 2025년 1월 출시된 OpenAI의 새로운 기능으로 웹 검색과 추론 작업에 엔드투엔드 강화 학습을 적용한 혁신적인 에이전트 제품으로, 온라인 웹사이트를 검색하고 종합적인 보고서를 작성할 수 있는 AI 에이전트입니다.

"딥 리서치는 많은 온라인 웹사이트를 검색하고 매우 종합적인 보고서를 만들 수 있는 에이전트입니다. 인간이 여러 시간을 들여야 할 작업을 수행할 수 있죠. ChatGPT에 통합되어 있으며, 질문에 답하는 데 5분에서 30분 정도 소요됩니다."

이사벨라 풀포드, OpenAI 연구원

이 제품은 단순한 ChatGPT 응답과 달리 훨씬 더 심층적인 연구가 가능하며, 구체적인 출처를 포함한 상세한 정보를 제공합니다. OpenAI가 출시한 두 번째 에이전트 제품으로, 첫 번째 에이전트 제품인 Operator 이후에 출시되었습니다.

딥 리서치의 기술적 작동 원리

딥 리서치는 OpenAI의 가장 고급 추론 모델인 o3의 파인튜닝 버전입니다.

"직관적으로 생각하면, 사용자가 요청을 하면 모델이 그것에 대해 깊이 생각합니다. 정보를 검색하고, 그 정보를 가져와 읽은 다음, 요청과 어떤 관련이 있는지 이해하고 최종 답변에 더 가까워지기 위해 다음에 무엇을 검색할지 결정합니다."

조쉬 토빈, OpenAI 연구원

중요한 기술적 특징:

  • 어려운 브라우징 작업과 추론 작업에 대해 훈련된 모델
  • 브라우징 도구와 Python 도구에 접근 가능
  • 엔드투엔드 훈련을 통해 과제 해결 전략 학습
  • 사용자 요청에 따라 정보를 검색하고 종합하는 능력

강화 학습이 AI 에이전트의 미래인 이유

"이 분야에서 사람들이 반복적으로 배우는 교훈은, 우리가 스스로 코드를 작성함으로써 모델보다 더 똑똑한 일을 할 수 있다고 생각하지만, 실제로는 이 분야가 발전함에 따라 모델이 인간보다 더 나은 솔루션을 만들어낸다는 것입니다."

조쉬 토빈, OpenAI 연구원

그는 기계 학습의 가장 중요한 교훈으로 "최적화하는 대상을 얻게 된다"는 점을 강조했습니다. 따라서 시스템이 원하는 결과를 직접 최적화할 수 있도록 설정하면, 최적화되지 않은 모델들을 함께 연결하는 것보다 훨씬 더 나은 결과를 얻을 수 있습니다.

"장기적인 관점에서 보면, 모델 위에 강화 학습 튜닝을 하는 것이 가장 강력한 에이전트를 구축하는 데 핵심적인 부분이 될 것입니다."

조쉬 토빈, OpenAI 연구원

전통적인 에이전트 구축 방식의 한계

"본질적으로 작업 그래프를 구성하고, 그 그래프의 일부 노드가 언어 모델인 방식입니다. 언어 모델이 다음에 무엇을 할지 결정할 수 있지만, 이 일련의 단계의 전체적인 논리는 인간이 정의합니다."

조쉬 토빈, OpenAI 연구원

조쉬가 말하는 "전통적인 에이전트 구축 방식"은 소위 Workflow라고 하는 방식입니다. 아래 그림처럼 작업 흐름을 인간이 정의하는 방식으로 다음과 같은 문제점을 갖고 있습니다.

워크플로우 디자인 패턴: 프롬프트 체이닝 (출처: Anthropic 블로그)
워크플로우 디자인 패턴: 프롬프트 체이닝 (출처: Anthropic 블로그)
  • 프로토타입을 빠르게 만들 수 있지만 실제 환경에서는 금방 한계에 부딪힘
  • 모델이 직면할 수 있는 모든 시나리오를 예상하기 어려움
  • 모델이 해당 결정을 내리도록 훈련되지 않았기 때문에 최적의 결정을 내리지 못함

엔드투엔드 훈련의 강점

반면, 딥 리서치와 같은 모델은 사용자가 해결하고자 하는 작업을 직접 엔드투엔드로 훈련받았습니다. 이는 인간이 정의한 그래프나 작업 흐름 없이도 모델 자체가 결정을 내릴 수 있게 합니다.

"매우 예측 가능한 특정 워크플로우가 있다면, Workflow 방식이 적합합니다. 하지만 많은 예외 케이스가 있거나 매우 유연해야 한다면, 딥 리서치와 유사한 접근 방식이 더 좋을 것입니다."

이사벨라 풀포드, OpenAI 연구원

데이터셋 품질의 중요성

딥 리서치 개발 과정에서 가장 큰 기술적 도전 중 하나는 고품질 데이터셋을 만드는 것이었습니다:

"기계 학습에서 사람들이 계속해서 재학습하는 오래된 교훈 중 하나지만, 모델에 투입하는 데이터의 품질이 아마도 다른 쪽에서 얻는 모델의 품질을 결정하는 가장 큰 요소일 것입니다."

조쉬 토빈, OpenAI 연구원

학술과 실용의 균형: 응용 사례

딥 리서치는 이론적 탁월함을 넘어 실용적인 응용 사례에서도 빛을 발하고 있습니다.

의료 분야의 응용

"의사들이 특정 질환에 대한 모든 문헌이나 최근 사례를 찾을 수 있는 능력에 매우 기대하고 있습니다. 많은 의사들이 이에 대해 연락해 왔어요."

이사벨라 풀포드, OpenAI 연구원

비즈니스 및 소비자 응용

"이것은 당신에게 5%의 시간을 돌려주는 것 이상입니다. 전에는 할 수 없었던 모든 것들을 이제는 할 수 있게 됩니다."

조쉬 토빈, OpenAI 연구원

교육 분야의 혁신

두 연구자 모두 개인화된 교육을 주요 사용 사례로 언급했으며, 특히 조쉬는 이를 자신의 좋아하는 사용 사례로 꼽았습니다.

2025년: 에이전트의 해

인터뷰의 마지막 부분에서는 2025년에 주목할 만한 AI 애플리케이션 카테고리에 대한 질문이 있었습니다. 두 인터뷰 대상자 모두 "에이전트"라고 답했습니다. 조쉬는 "2025년은 에이전트의 해입니다"라고 강조했습니다.

또한 강화 학습의 중요성이 다시 한번 강조되었으며, 이를 두고 조쉬는 "RL이 다시 돌아왔다"고 언급했습니다. 그는 이제 언어 모델이 대규모 데이터에 사전 훈련되어 매우 강력해졌기 때문에, 보상 함수를 정의할 수 있는 모든 종류의 사용 사례에 대해 이러한 모델을 조정하는 것이 매우 적합한 시기라고 설명했습니다.

결론: 다양한 배경이 만드는 AI의 미래

OpenAI의 딥 리서치 팀과의 인터뷰는 AI 에이전트 기술의 미래가 엔드투엔드 강화 학습에 있음을 명확히 보여줍니다. 전통적인 에이전트 구축 방식의 한계를 극복하고, 직접적으로 원하는 결과에 최적화된 모델을 훈련함으로써 더 강력하고 유연한 AI 시스템을 만들 수 있습니다.

딥 리서치는 이러한 접근 방식의 성공적인 사례로, 복잡한 웹 검색과 정보 종합 작업을 수행할 수 있으며, 앞으로 더 많은 분야로 확장될 것으로 예상됩니다. 2025년이 "에이전트의 해"가 될 것이라는 전망처럼, AI 에이전트 기술은 앞으로 더욱 중요한 역할을 할 것입니다.

 

다가올 뉴스레터가 궁금하신가요?

지금 구독해서 새로운 레터를 받아보세요

✉️

이번 뉴스레터 어떠셨나요?

주간 Tech Review 님에게 ☕️ 커피와 ✉️ 쪽지를 보내보세요!

댓글

의견을 남겨주세요

확인
의견이 있으신가요? 제일 먼저 댓글을 달아보세요 !

다른 뉴스레터

© 2025 주간 Tech Review

IT 업계의 정보와 인사이트를 공유하고 있습니다.

메일리 로고

도움말 자주 묻는 질문 오류 및 기능 관련 제보

서비스 이용 문의admin@team.maily.so

메일리 사업자 정보

메일리 (대표자: 이한결) | 사업자번호: 717-47-00705 | 서울 서초구 강남대로53길 8, 8층 11-7호

이용약관 | 개인정보처리방침 | 정기결제 이용약관 | 라이선스