Automata V.12 | ⚡GPT보다 10배 빠르게 답변 생성하는 모델?

GPT보다 10배 빠르게 - Diffusion기반 LLM 모델 Mercury 2

출처: Inception Lab - introducing Mercury 2

GPT, Claude, Gemini 등 오늘날 대부분의 LLM은 비슷한 모델 구조로 작동해요. 토큰을 왼쪽에서 오른쪽으로 한 번에 하나씩 순차적으로 생성하는 구조인데요, 이 방식은 추론 깊이가 깊어지고, 답변이 길어질수록 레이턴시와 비용이 기하급수적으로 늘어난다는 구조적 한계를 안고 있습니다. 이런 문제 떄문에 Claude Code나 Codex같은 코딩 에이전트들이 주어진 명령을 처리하는데 오래 걸리는 이유기도 하죠.

Inception Labs가 2026년 2월 공개한 Mercury 2는 이 문제를 정면으로 돌파하는 모델이에요. Stable Diffusion, Midjourney처럼 이미지 생성에서 쓰이던 디퓨전(Diffusion) 기법을 텍스트 생성에 적용한 최초의 상용 추론 모델로, 전체 응답의 초안을 먼저 잡고 노이즈 제거(Denoising) 과정을 통해 수많은 토큰을 병렬로 동시에 정제하는 방식으로 작동해요. NVIDIA Blackwell GPU 기준 초당 약 1,000토큰을 처리하는데, 이는 Claude 4.5 Haiku(약 89토큰/초), GPT-5 Mini(약 71토큰/초)와 비교해 무려 약 10배 이상 빠른 수치입니다. 여러 벤치마크 수치에서도 Claude 4.5 Haiku, GPT-5.2 Mini와 경쟁력 있는 수준이며, 처리 속도는 약 10배 앞선다는 점에서 속도와 품질 두 마리 토끼를 모두 잡았다고 볼 수 있어요. 아래 데모 영상에서 답변 처리 속도가 얼마나 빠른지 확인할 수 있어요.

Mercury 2로 "정사각형이 회전하는 웹사이트를 만들어줘. 회전 속도를 조절할 수 있는 슬라이더 추가해줘"라는 명령 처리

Mercury 2는 레이턴시가 핵심인 상황에 가장 적합해요. 에이전트 루프처럼 LLM을 여러 번 호출하는 멀티스텝 체인에서 기존 모델은 단계별 레이턴시가 누적되어 응답 지연이 발생하는데, Mercury 2의 속도라면 추론 체인에서 레이턴시를 눈에 띄게 줄일 수 있게 되요. 또한 실시간 음성 AI, 고빈도 데이터 추출, 대규모 에이전트 루프처럼 속도가 경쟁력을 결정하는 프로덕션 환경이라면 Mercury 2는 충분히 실험해볼 가치가 있는 선택지에요.

Mercury 2 모델은 아래 사이트에서 직접 사용해 볼 수 있어요. 참고로 채팅 UI에서 Diffusion Effect 토글을 켜고 대화하면, Mercury 2가 Diffusion을 통해 답변을 생성하는 과정을 실시간으로 볼 수 있어요.

Inception Chat

chat.inceptionlabs.ai

에이전트에게 자판기 사업 맡겨보기 - Vending-Bench 2 벤치마크

출처: Andon Lab - Vending-Bench 2

에이전트가 사업 파트너도 될 수 있을까요? 에이전트의 한계를 신박한 방법으로 밀어붙이기 위해 Andon Labs에서 Vending-Bench 2라는 벤치마크를 만들었어요. Vending-Bench 2는 AI 에이전트의 장기 일관성(long-horizon coherence)과 의사 결정 능력을 측정하는 벤치마크라고 볼 수 있어요. 이 벤치마크는 모델이 $500의 시작 자본금으로 자판기 비즈니스를 1년간 운영해 얼마나 많은 돈을 벌었는가를 최종 점수로 삼습니다. 사기 공급자 식별, 가격 협상, 재고 관리, 고객 환불 처리까지 현실적인 비즈니스 요소가 모두 포함됩니다.

출처: Andon Lab - Vending-Bench 2 에이전트 실험 셋업, Google Nano Banana Pro로 번역 삽입

현재 Vending-Bench 2 리더보드는 Claude 모델들이 상위권을 독점하고 있어요. Claude Opus 4.6이 $8,017로 1위, Claude Sonnet 4.6이 $7,204로 2위를 기록했고, Gemini 3 Pro($5,478), Claude Opus 4.5($4,967), GLM-5($4,432)가 그 뒤를 잇습니다. GPT-5.2는 $3,591로 9위에 머물렀습니다.

출처: Andon Lab - Vending-Bench 2

Andon Lab는 Vending Bench Arena도 만들어 Vending-Bench 2와 동일한 환경을 사용하지만 여러 에이전트가 같은 장소에서 서로 경쟁하며 (ex. Claude vs Gemini, GPT vs Claude) 각자의 자판기를 운영하는 실험도 진행했어요. 에이전트들은 서로 이메일을 보내거나 돈을 송금하고 재고를 거래할 수 있으며, 협력도 가능하지만 점수는 개인별로 매겨집니다. 몇 가지 재미있는 결과를 소개해 드릴게요.

Claude Opus 4.6, Gemini 3 Pro, Claude Opus 4.5, GPT-5.2끼리 경쟁하는 라운드에서 Claude Opus 4.6은 공급자를 묻는 경쟁자에게 자신이 알고 있는 저렴한 공급자는 숨기고, 비싼 공급자를 추천했어요. 8개월 후 경쟁자가 다시 질문했을 때 "최고 경쟁자에게 공급자 정보를 줄 수 없다"고 직접 거절하기도 했습니다. 이 라운드의 결과는 Claude Opus 4.6의 승리였어요.
클로드 모델끼리 (Claude Sonnet 4.6, Claude Opus 4.6, Claude Sonnet 4.5) 경쟁하는 라운드에서는 Sonnet 4.6이 자신만 판매하는 독점 상품을 추적해 그 상품에 프리미엄 가격을 매기고, 공유 상품에는 경쟁자보다 정확히 1센트 낮게 가격을 설정하는 전략을 구사했어요.

기존 벤치마크들은 대부분 "단발성 과제"를 잘 수행하는지를 측정합니다. 정답이 있고, 시간이 짧고, 문맥이 고정되어 있죠. 하지만 실제 에이전트 배포 환경은 정반대입니다. 수백 번의 의사결정이 연속되고, 초반의 실수가 나중에 복리로 돌아오며, 환경 자체가 에이전트에 반응해서 변합니다.

Vending-Bench 2는 이 간극을 메우려는 시도입니다. 자판기 운영이라는 단순한 작업을 365일이라는 긴 시간동안, 모델이 "한 번 잘하는 능력"이 아니라 "계속 잘하는 능력"을 가졌는지를 측정합니다. 이건 기존 벤치마크들이 거의 묻지 않던 질문입니다. 아직은 자판기 운영 수준을 평가하는 벤치마크이지만, 에이전트에게 주어지는 역할과 권한이 점점 커지고 있는 지금, 이런 벤치마크가 던지는 질문들은 점점 더 현실적인 무게를 갖게 될 것이에요.

벤치마크에 대한 자세한 정보와 Vending Bench Arena 내용은 아래 링크를 통해 확인할 수 있습니다!

Vending-Bench 2 | Andon Labs

We're releasing Vending-Bench 2, a benchmark for measuring AI model performance on running a busi...

andonlabs.com

Vending-Bench Arena | Andon Labs

Vending-Bench Arena is our first multi-agent eval and adds a crucial component – competition. All...

andonlabs.com

ChatGPT에서 Claude로 이사가기 - Claude Memory Transfer

최근 AI 업계에 큰 지각변동이 일어났습니다. OpenAI가 미 국방부와 계약을 체결하면서 많은 사용자들이 윤리적 우려를 표명하며 대안을 찾기 시작했어요. 그 결과, Claude 앱이 애플 앱스토어에서 1위를 차지하는 이례적인 현상이 벌어졌습니다. Anthropic은 이 흐름을 놓치지 않고, 새로운 사용자들을 위한 핵심 기능을 발 빠르게 선보였어요. 바로 "Claude로 메모리 가져오기" 기능입니다.

아래 단계를 따라하면, 다른 LLM 서비스에서 Claude로 메모리를 옮겨올 수 있어요.

claude.ai 사이트 내 왼쪽 아래 프로필 선택 후 "설정"에서 "기능" 탭으로 이동
"다른 AI 제공업체에서 메모리 가져오기"에 "가져오기 시작" 클릭
제공되는 프롬프트 복사해서 ChatGPT나 기존에 사용하던 LLM 서비스에 붙여넣기
출력된 결과를 "아래에 결과를 붙여넣어 Claude의 메모리에 추가하세요"에 붙여넣기
"메모리에 추가" 클릭

국방부 계약 거절로 불거진 이슈를 윤리적 포지셔닝의 기회로 전환하면서, 동시에 경쟁사 사용자들의 이탈 장벽을 낮추는 전략이에요. AI 어시스턴트 시장에서 처음으로 데이터 이동성(Data Portability)을 적극적으로 내세우는 플레이어가 등장했다는 점에서, ChatGPT나 Gemini와 같은 다른 서비스들도 유사한 기능으로 대응에 나설지 주목되고 있어요.