뒤쳐지는 머스크의 그록(Grok)?

Divided by Zero에 오신 걸 환영합니다. IT테크, 스타트업 그리고 자본시장에 대한 2차적 사고를 공유합니다.

현재 일론 머스크의 xAI가 개발한 그록(Grok)이 AI 프런티어 경쟁에서 뒤쳐지고 있느냐는 질문에 대한 짧은 대답은 '그렇다'입니다. 다만 객관적인 벤치마크에서 그록은 중위권으로 추락했지만, 인간의 선호도를 기반으로 한 리더보드에서는 여전히 경쟁력을 유지하는 기이한 현상이 벌어지고 있죠.

지난 2월 5일 출시된 앤트로픽의 클로드 Opus 4.6은 아티피셜 애널리시스(Artificial Analysis) 인텔리전스 지수에서 53점, LM아레나(LMArena)에서 1506 Elo를 기록하며 두 차트 모두를 석권했습니다. 반면 그록 4는 아티피셜 애널리시스에서 41점에 그치며 선두와 23%라는 격차를 보였는데, 정작 LM아레나에서는 그록 4.1 싱킹(Thinking) 모델이 1475 Elo로 4위에 오르며 1위와 불과 31점 차이를 기록했습니다. (점수는 계속 바뀝니다만, 이런 괴리는 모델의 성능보다 AI의 품질을 측정하는 방식의 구조적 모순을 드러내고 있는 셈이기도 한데요).

중국의 GLM-5나 딥시크(DeepSeek) V3.2 같은 모델들이 그록보다 훨씬 저렴한 비용으로 객관적 지표에서 앞서나가고 있는 와중에, xAI는 공동 창업자들의 이탈과 스페이스X와의 합병, 규제 당국의 감시라는 조직적 난기류에 휩싸여 있습니다.

No 벤치마크?

일론 머스크는 원래 약속보다 6주 늦은 이번주 2월 17일에 그록 4.20 베타를 발표했습니다. 멤피스 데이터센터의 전력 인프라 문제로 지연된 이번 릴리스는 월 30달러의 슈퍼그록(SuperGrok) 및 X 프리미엄 플러스 구독자에게만 공개되었을 뿐, 공식 블로그 포스팅이나 벤치마크 데이터는 전무했습니다.

이 모델의 핵심 혁신은 추론 과정에 4개의 전문 에이전트를 내장한 멀티 에이전트 협업 시스템입니다. 예를들어 조정자 그록, 조사와 팩트 체크를 맡은 에이전트, 수학과 코딩을 담당하는 에이전트, 그리고 창의적 균형을 맞추는 에이전트가 구조화된 토론을 거쳐 답을 도출하는 방식이죠.

출처: X, tetsuo

이 시스템은 xAI의 20만 개 GPU 클러스터인 콜로서스(Colossus)에서 훈련된 5,000억 파라미터 기반 모델 위에서 돌아가는데요. 강화학습으로 최적화된 토론 라운드 덕분에 비용이 4배가 아닌 1.5~2.5배만 증가한다고 주장하고 있습니다. 긍정적으로 보자면 알파 아레나(Alpha Arena) 시즌 1.5 주식 트레이딩 대회에서 오픈AI와 구글 모델들이 모두 적자를 낼 때 그록 4.20만이 34.59%의 수익률을 기록하며 유일하게 흑자를 낸 데이터는 이 구조의 잠재력을 보여주는 셈입니다.

압도

하지만 앤트로픽이 2월 5일과 17일에 연이어 내놓은 클로드 오퍼스 4.6과 소넷 4.6은 코딩과 추론 영역의 천장을 다시 설정했습니다. 오퍼스 4.6은 에이전트 코딩 능력을 측정하는 터미널 벤치 2.0에서 65.4%, 컴퓨터 사용 능력을 평가하는 OS월드에서 72.7%를 기록하며 업계 최고치를 경신했습니다. 특히 소넷 4.6은 오퍼스 대비 5분의 1 가격인 100만 토큰당 3달러/15달러의 가격으로 SWE-벤치에서 79.6%를 기록해 오퍼스 4.6(80.8%)을 턱밑까지 추격했죠.

코그니션(Cognition)과 커서(Cursor) 같은 엔터프라이즈 파트너들이 클로드 4.6의 복잡한 추론 능력과 끈기를 극찬하는 상황에서, 그록 4.20의 멀티 에이전트 접근 방식은 강력한 비교 대상을 마주한 셈입니다.

선별

그럼 그록이 아티피셜 애널리시스 지수에서 19위에 머물면서도 LM아레나에서 4위를 차지한 것은 왜일까요? LM아레나는 인간의 주관적 선호도, 즉 바이브를 측정하는데, 그록은 여기서 점수를 잘 받기 위해 철저히 튜닝되었습니다. 아티피셜 애널리시스 평가에서 그록 4는 테스트를 완료하는 데 경쟁 모델들의 중위값인 1,200만 토큰보다 월등히 많은 8,800만 토큰을 쏟아부었습니다. 이는 그록이 사용자가 듣기 좋아하는 말을 길고 자신감 있게 늘어놓는 소위 아첨 성향이 강함을 시사합니다.

서지AI(SurgeAI)의 분석에 따르면 전문가와 대중의 평가 불일치율은 52%에 달하며, 자신감 있게 말하는 환각이 팩트보다 더 높은 점수를 받는 경우가 허다했죠. 반면 스타일과 톤을 배제하고 정답이 있는 객관적 문제만 평가하는 아티피셜 애널리시스 지수에서 그록과 클로드 오퍼스 4.6의 격차는 12포인트, 약 29%까지 벌어집니다.

중국?

하지만 사실 xAI의 위협은 다른 곳에 있을지도 모릅니다.시장이 xAI와 앤트로픽의 대결에 집중하는 사이, 중국 모델들은 객관적 지표에서 이미 그록을 넘어섰습니다. 화웨이 어센드 칩으로 훈련된 지푸 AI(Zhipu AI)의 GLM-5는 아티피셜 애널리시스 지수 50점으로 세계 5위에 올랐고, 문샷(Moonshot)의 키미 K2.5와 알리바바의 큐원(Qwen) 3.5 역시 그록 4보다 높은 순위를 기록했습니다.

더 위협적인 건 비용 구조입니다. 딥시크 V3.2는 100만 입력 토큰당 0.28달러라는, 서구권 모델 대비 95% 저렴한 가격으로 SWE-벤치 73.0%를 달성했습니다. 512개의 엔비디아 H800 칩으로 훈련된 딥시크 R1의 사후 훈련 비용이 29만 4천 달러에 불과하다는 사실은 충격적이죠. 알리바바의 큐원 패밀리가 허깅페이스에서 7억 다운로드를 돌파하며 메타의 라마(Llama)를 제치고 세계에서 가장 많이 사용되는 오픈소스 모델이 됐는데요. 메타의 현상황이 더 아쉬울지 모르겠지만, 어쨌든 중국이 가격 대비 성능으로 xAI의 바닥을 무너뜨리고 있음을 보여주는 셈입니다.

스페이스X는 리스크일수도

xAI는 모델 성능뿐만 아니라 조직적 리스크와도 싸우고 있습니다. 스페이스X는 xAI를 전액 주식 교환 방식으로 인수한다고 하면서 합병 가치 1조 2,500억 달러의 거대 기업을 탄생시켰죠. 사실 월 10억 달러를 태우던 xAI의 자금난을 스페이스X의 연간 80억 달러 흑자로 메우기 위한 구제 금융 성격이 짙었죠. 지미 바와 토니 우 등 공동 창업자 12명 중 6명이 회사를 떠났고, 그록, 코딩, 이매진, 매크로하드(Macrohard)로 팀을 재편하는 과정에서 스페이스X의 경직된 마일스톤 문화와 xAI의 해커 문화가 충돌하고 있다는 내부 경고도 나오기도 했습니다. 2025년 매출 5억 달러의 xAI가 연 매출 140억 달러의 앤트로픽과 130억 달러의 오픈AI를 추격하기에는 체급 차이가 여전한 상황입니다.

앞으로 그록의 운명은 어떻게 될까요?

프런티어 AI 레이스는 상위 3개 모델이 1% 이내의 격차로 경쟁하는 초박빙 구도로 수렴하고 있는 가운데, 그록 4.20의 멀티 에이전트 아키텍처와 실시간 X 데이터 연동은 분명 차별화된 무기지만, 기업들이 실제 지갑을 여는 코딩과 에이전트 작업 영역에서 그록은 클로드에게 압도당하고 중국 모델에게 가격으로 위협받고 있습니다.

3월 중순 공개될 그록 4.20의 벤치마크가 이 격차를 좁히지 못한다면, 그록은 바이브만 좋은 챗봇으로 남을 위기에 처할 겁니다.

뒤쳐지는 머스크의 그록(Grok)?

Divided by Zero 님에게 커피와 쪽지 보내기

No 벤치마크?

압도

선별

중국?

스페이스X는 리스크일수도

다가올 뉴스레터가 궁금하신가요?

이번 뉴스레터 어떠셨나요?

Divided by Zero 님에게 커피와 쪽지 보내기

이전 뉴스레터

다음 뉴스레터

다른 뉴스레터

메일리 도우미