에이전트 메모리 서비스 Letta의 CEO 찰스 패커와 CTO 사라 우더스가 2025년 6월 25일 Observe 2025 행사에서 진행한 세션 내용을 리뷰해봤습니다.
찰스 패커와 사라 우더스가 UC 버클리의 Sky Computing Lab에서 만나 공동으로 창립한 Letta는 AI 에이전트 분야의 혁신적 접근을 제시하고 있습니다. 이들이 지적하는 현재 시스템의 가장 큰 문제는 다음과 같습니다.
현재 에이전트의 치명적 결함
"언어 모델 위에 구축하는 에이전트들은 실제로 학습할 수 있는 능력이 거의 없습니다. 여러분이 구축한 에이전트들은 처리한 정보를 한 번 실행하고 버리는 것일 가능성이 높습니다."
이 말은 전적으로 사실입니다. 많은 개발자들이 공들여 워크플로우를 설계하지만, 워크플로우 방식은 경직된 구조로 인해 새로운 상황에 대처하지 못합니다. 만일 워크플로우에 문제가 있다면, 이 문제를 해결한 버전을 만들어 재배포해야만 하죠. 이런 시스템들을 진정한 의미의 '에이전트'라고 부르기 어렵습니다.
컨텍스트 윈도우의 한계와 사용자 경험
"이런 트윗을 본 적이 있습니다. 공감이되서 저도 리트윗을 했는데요, 아마도 여기 계신 분들 대부분이 공감하실 문제인 것 같습니다. 클로드로 정말 중요한 문제를 풀고 있었는데, 컨텍스트가 길어지면서 답변이 이상해지기 시작하고 이내 대화를 종료해야만 하는 거죠."
이는 단순한 기술적 제약을 넘어서는 근본적인 사용자 경험 문제입니다. 현재의 접근 방식은 다음과 같은 임시방편적 해결책에 의존합니다:
- 대화 요약을 요청하여 다음 세션에서 복사-붙여넣기
- 컨텍스트 오염으로 인한 성능 저하 감수
- 새로운 세션 시작으로 인한 연속성 손실
이 문제에 대해 Letta에서 제시하는 해법은 "기억은 그 부분들의 합보다 더 큰 의미를 갖는다"는 것입니다. 예를 들어, 사용자의 색상 선호도에 대한 개별적 사실들을 나열하는 것보다, 이를 통합적으로 재구성한 메모리가 훨씬 효율적이고 의미있죠.
상태유지 에이전트(Stateful Agents)
용어의 재정의: 에이전트 vs 워크플로우
2025년 현재 'AI 에이전트'라는 용어는 사실상 의미를 잃었다고 할 수 있습니다. LLM과 관련된 모든 것이 에이전트라고 불리고 있기 때문입니다. Letta에서는 이 문제를 해결하기 위해 새로운 분류 체계를 제안합니다:
기존 시스템의 분류:
- 워크플로우: 일회성 실행, 상태 비보존
- 현재 대부분의 "에이전트": 실제로는 고도화된 워크플로우
진정한 에이전트의 조건:
- 지속적 상태 유지
- 시간에 따른 학습과 개선
- 장기간 운영 가능성
- 인간과 유사한 기억 체계
"워크플로우를 에이전트라고 부르는 것은 바람직하지 않다고 생각합니다. 하지만 이미 너무 늦었습니다. 워크플로우도 이제 에이전트가 되었으니, 우리가 예전에 에이전트라고 부르던 것을 상태유지(Stateful) 에이전트라고 부르면 좋겠습니다."
기존 정의의 한계점 분석
OpenAI가 제시한 에이전트 정의에서도 핵심 요소가 빠져있다고 지적합니다:
OpenAI의 정의: 모델 + 지시사항 + 도구 + 런타임
누락된 요소: 상태(State)와 메모리(Memory)
이는 강화학습 분야의 전통적인 에이전트 정의와 비교할 때 더욱 명확해집니다. 전통적 RL 에이전트는 환경과의 순환적 상호작용을 통해 학습하는 시스템으로 정의되며, 여기서 핵심은 상태의 지속적 업데이트입니다. 한편, 현재 거론되는 대다수의 AI 에이전트는 상태를 지속적으로 업데이트하지 못합니다.
Sleep Time Compute: Test Time Compute의 진화
개념적 혁신: 유휴 시간의 활용
Sleep-Time Compute는 기존의 Test-Time Compute를 발전시킨 개념입니다. 현재 ChatGPT나 Claude와 같은 시스템에서 놓치고 있는 부분이죠:
"ChatGPT에서 나가면, ChatGPT는 완전히 휴면 상태가 되어 사용자가 돌아올 때까지 아무것도 하지 않습니다."
Sleep Time Compute의 핵심 원리:
- Test Time: 사용자가 모델과 상호작용하는 시간
- Sleep Time: 사용자가 없을 때의 유휴 시간
- 혁신적 활용: 유휴 시간 동안 백그라운드 처리 수행
실제 적용 시나리오
코딩 에이전트의 경우: Claude Code나 Cursor 같은 도구를 사용 중 급한 업무로 중단해야 하는 상황을 가정해보겠습니다. 기존 시스템에서는 단순히 대기 상태가 되지만, Sleep Time Compute를 적용한다면 다음과 같은 작업들을 수행할 수 있겠죠:
- GitHub 레포지토리 인덱싱 지속
- Slack에서 최근 불만사항 크롤링
- GitHub 이슈 분석 및 정리
- 코드베이스 분석 결과 사전 준비
문서 업로드의 경우: Claude Projects에 비즈니스 문서들을 업로드하는 순간, 시스템이 즉시 백그라운드에서 다음 작업을 수행하며 사용자가 시스템을 이용하기 전에 미리 메모리를 준비시켜 놓습니다:
- 문서 간 연관성 분석
- 핵심 정보 추출 및 메모리 구조화
- 예상 질문에 대한 답변 준비
- 전략적 인사이트 도출
기술적 아키텍처: AI 운영체제로서의 프레임워크
컨텍스트 엔지니어링의 새로운 패러다임
Letta의 핵심 비전은 "AGI로 가는 길은 매우 간단하다. 언어 모델이 있고, 컨텍스트를 관리하는 운영체제를 구축하면 된다"는 것입니다.
현재 개발자들이 직면한 과제:
- 컨텍스트 윈도우 관리의 복잡성
- 상태 지속성 구현의 어려움
- 메모리 시스템 설계의 복잡도
Letta의 해결 접근법: 상태 관리 + 언어 모델 + 도구/액션 = Stateful 에이전트
이 구조에서 각 구성요소의 역할은 다음과 같습니다:
- 상태 관리: 장기 메모리, 컨텍스트 지속성
- 언어 모델: 추론 및 의사결정 엔진
- 도구/액션: MCP(Model Context Protocol) 같은 표준화된 인터페이스
오픈소스 철학과 모델 중립성
모델 생명주기 vs 에이전트 생명주기:
현재 AI 업계의 특징 중 하나는 최고 성능 모델이 빈번하게 바뀐다는 것입니다. OpenAI에서 Anthropic으로, 그리고 DeepSeek으로의 변화처럼 말이죠. 하지만 Stateful 에이전트의 경우:
- 에이전트 수명: 수년에서 수십년
- 모델 수명: 수개월에서 수년
이러한 불일치는 심각한 문제를 야기합니다:
"회사에서 수년간 운영되는 AGI 직원을 구축했는데, 그 직원이 OpenAI에서 Anthropic으로 이동할 수 없다면 어떨까요? OpenAI가 특정 해에 성능이 떨어진다면, 그 직원은 영구적으로 성능이 제약받게 됩니다."
오픈소스 접근의 필요성:
- 모델 제공업체 종속성 탈피
- 장기적 에이전트 진화 보장
- 투명성과 제어권 확보
실제 운영 사례와 성과 분석
Built Rewards: 백만 개 에이전트 운영 사례
현재 세계에서 가장 큰 규모의 Stateful 에이전트 배포 사례는 Built Rewards의 추천 시스템이다:
시스템 규모:
- 운영 에이전트 수: 100만 개 이상
- 기능: 개인화된 추천 시스템
- 접근법: 전통적 블랙박스 추천 시스템을 에이전트 기반으로 대체
작동 원리:
- 사용자 거래 내역을 메모리로 변환
- 지속적인 학습과 개인화
- 기존 알고리즘 대비 향상된 추천 품질
Letta Leaderboard: 모델 성능 평가 체계
운영체제를 다른 에이전트들이 운영하게 만드는 접근법에서는 어떤 모델이 운영체제 관리에 최적인지 평가할 필요가 있습니다. Letta는 이를 위한 오픈 리더보드를 운영하여:
- 메모리 관리 성능 평가
- 컨텍스트 엔지니어링 능력 측정
- 장기 상태 유지 안정성 검증
API 중심 아키텍처
기존 에이전트 프레임워크와 Letta의 근본적 차이점:
기존 접근법:
- 클라이언트 사이드 상태 관리
- 미들웨어로서의 프레임워크
- 모델 제공업체별 종속성
Letta 접근법:
- 서비스로서의 에이전트 (Agents as a Service)
- 중앙집중식 상태 관리
- REST API 및 SDK 제공
- 모델 중립적 인터페이스
실시간 메모리 재구성 시스템
비동기 메모리 처리:
사용자가 "내 이름은 Sarah입니다"라고 말하는 순간, 기존 시스템에서는:
- 에이전트 일시정지
- 메모리 쓰기 작업 수행
- 사용자에게 응답 반환
이는 응답 지연시간을 두 배로 증가시킵니다.
Letta의 해결책:
- 백그라운드 서브에이전트 운영
- 메인 에이전트의 무의식적 뇌 역할 수행
- 비동기 메모리 재구성으로 지연시간 제거
미래 전망과 산업 영향
컴퓨트 스케일링의 새로운 패러다임
Test Time Compute 연구가 보여주는 것처럼, 모델 성능을 향상시키는 방법은 두 가지 주요 방향이 있다:
전통적 접근:
- 더 큰 모델 훈련
- 더 많은 사전훈련 데이터
- 매개변수 스케일링
새로운 접근:
- Test Time Compute 증가
- Sleep Time Compute 활용
- 지능적 자원 배분
GPU 활용률 최적화
현재 대부분의 GPU 인프라는 사용자 요청이 있을 때만 활성화된다. Sleep Time Compute는:
- 유휴 GPU 용량 최대 활용
- 하드웨어 효율성 개선
- 비용 대비 성능 최적화
산업 생태계의 변화
에이전트 개발 패러다임의 변화:
- 일회성 워크플로우에서 지속적 서비스로
- Stateless에서 Stateful로
- 반응적에서 능동적 시스템으로
새로운 비즈니스 모델:
- 에이전트 호스팅 서비스
- 장기 메모리 관리 플랫폼
- Stateful 에이전트 마켓플레이스
결론: 인간과 유사한 AI의 실현
Letta와 Stateful 에이전트가 제시하는 비전은 단순한 기술적 개선을 넘어섭니다. 이는 AI가 진정으로 인간과 유사한 방식으로 학습하고, 기억하며, 진화할 수 있는 시스템으로의 패러다임 전환을 의미합니다. 일찌기 마이크로소프트 CEO 사티야 나델라도 AI 에이전트의 다음 단계는 사용자를 기억해서 맞춤형 서비스를 제공하는 "초개인화 AI"가 될 것을 예측하기도 하였습니다.
Letta와 같은 서비스는 이런 "초개인화 AI" 시대로 나아가는 한 접근법일 수 있습니다. 저는 Letta의 세션을 들으며 사람도 잠이 든 사이에 단기 기억이 장기 기억으로 넘어가는데 이걸 구현하려고 하는구나 하는 생각에 다음 영화장면이 계속 떠올랐습니다.
핵심 통찰:
- 메모리와 상태 관리가 차세대 AI 시스템의 핵심
- Sleep Time Compute를 통한 효율적 자원 활용
- 오픈소스 접근을 통한 지속가능한 생태계 구축
- 실제 운영 사례를 통한 검증된 접근법
이것은 현재 우리가 목격하고 있는 것은 AI 에이전트를 근본적으로 재정의하는 것입니다. 일회성 도구에서 지속적 동반자로, Stateless 시스템에서 Stateful, 학습하는 에이전트로의 진화. Letta가 $10M 시드 투자를 유치하며 주목받는 이유도 바로 이러한 패러다임 전환의 중요성 때문일 것입니다.
앞으로 AI 에이전트는 더 이상 우리가 '사용하는' 도구가 아니라, 함께 '성장하는' 동반자가 될 것이라는 Letta의 비전을 소개하며 마무리합니다.
의견을 남겨주세요