Automata V.02 | 2025 AI 연말 정산!

안녕하세요, 오토마타입니다.

구독자님, 이제 2025년도 이제 거의 끝나가네요.

올해도 행복하고 뿌듯한 한 해 보내셨길 바래요!

이번 주 뉴스레터는 이런 컨텐츠가 준비되어 있어요!

이번 주에도 새로운 LLM 모델이 나왔어요!
올해는 사람들이 AI를 어떻게 사용해 왔을까요?
모두의 연구소에서 개최하는 모두콘 2025에 다녀왔어요!

그럼 시작해볼게요!

이번 주의 새로운 모델

이번 주도 어김없이 새로운 LLM 모델이 발표됬어요. 정말 말 그대로 매주 새로운 모델이 나오네요. 오토마타를 매 주 수요일 삼 주 째 발간 중인데 모두 새로운 모델 소개가 포함되어 있네요! 🫨

OpenAI GPT-5.2

출처: OpenAI 사이트

OpenAI가 차세대 모델 GPT-5.2를 발표했어요. 이 모델은 Google의 Gemini 3와 Anthropic의 Claude Opus 4.5가 벤치마크에서 앞서나가자 내부적으로 “코드 레드”를 선언한 후 급하게 출시된 것으로 알려졌어요. GPT-5.2는 Instant, Thinking, Pro 세 가지 버전으로 제공되며, 특히 에이전트 기반 코딩과 복잡한 추론 작업에서 뛰어난 성능을 보여주고 있어요.

주요 성능 지표를 살펴보면:

• 코딩 능력: SWE-Bench Pro 55.6%, SWE-Bench Verified 80%로 실제 소프트웨어 엔지니어링 작업에서 강력한 능력 입증

• 과학적 추론: GPQA Diamond에서 92.4%(Thinking), 93.2%(Pro) 달성하며 박사급 과학 질문 해결

• 추상적 사고: ARC-AGI-2에서 52.9%를 기록하며 GPT-5.1의 17.6% 대비 큰 폭 향상

• 수학 능력: AIME 2025에서 100% 완벽한 점수, FrontierMath에서 40.3% 달성

• 전문 업무: GDPval에서 44개 직군의 전문가 대비 70.9% 비율로 동등하거나 우수한 성과

또한 긴 문맥 이해와 도구 사용, 멀티모달 기능에서 개선이 이루어졌으며, 환각(hallucination) 현상도 GPT-5.1 대비 30% 감소했습니다.

출처: OpenAI: 전 모델인 5.1 Thinking 모델에 비해 긴 컨텍스트에서도 높은 정확도를 보여 주는 걸 확인할 수 있어요!

Mistral Devstral 2

출처: Mistral.ai

프랑스 AI 스타트업 Mistral AI는 코딩 에이전트에 특화된 Devstral 2 모델 패밀리를 출시했어요. 이번 릴리스에는 123B 파라미터의 Devstral 2와 24B 파라미터의 Devstral Small 2, 그리고 터미널 기반 코딩 어시스턴트인 Mistral Vibe CLI가 포함되어 있어요.

Devstral 2의 핵심 성능 지표는 다음과 같아요:

• 코딩 벤치마크: SWE-Bench Verified에서 Devstral 2 72.2%, Devstral Small 2 68.0% 달성

• 모델 효율성: DeepSeek V3.2보다 5배, Kimi K2보다 8배 작은 크기로 비슷하거나 더 나은 성능 제공

• 비용 효율: Claude Sonnet 4.5 대비 최대 7배 저렴한 비용으로 운영 가능

• 인간 평가: DeepSeek V3.2 대비 42.8% 승률(28.6% 패배율), Claude Sonnet 4.5 대비 46.9% 승률(53.1% 패배율)

• 컨텍스트 윈도우: 256K 토큰 지원으로 대규모 코드베이스 처리 가능

특히 Devstral Small 2는 자신보다 5배 큰 모델들과 경쟁할 수 있으며, 소비자용 하드웨어(단일 GPU)에서도 로컬 실행이 가능하다는 점이 인상적이에요. 라이선스 측면에서도 Devstral 2는 수정된 MIT 라이선스를, Devstral Small 2는 Apache 2.0을 채택해 오픈소스 커뮤니티에 기여하고 있습니다. 현재 Devstral 2는 API를 통해 무료로 제공되고 있으며, 무료 기간 이후에는 입력 토큰당 $0.40, 출력 토큰당 $2.00로 책정될 예정이에요.

출처: Mistral.ai

2025 AI 총결산

2025년도 이제 거의 끝나가고 있네요.🥲 구독자님의 2025년은 어땠나요?

올해도 AI가 우리의 일상과 업무에 깊숙이 자리 잡은 한 해였어요. 연말 결산 느낌으로 아래 네 가지 보고서를 통해 올해 AI가 우리에게 어떤 영향을 끼쳤는지 알아볼게요. 더 자세한 내용이 궁금하시면, 아래 보고서 링크를 클릭하여 각 보고서 원본을 확인하실 수 있어요.

State of AI Report 2025 - AI 기업 전문 벤처 캐피탈 Air Street Capital에서 매년 발행하는 보고서에요.
The 2025 AI Index Report - 스탠포드 대학의 HAI (Human-Centered Artificial Intelligence)에서 2025년 4월에 발행한 AI 보고서에요.
McKinsey Report: The State of AI in 2025 - 멕킨지에서 2025년 11월 5일에 발간한 AI 관련 리포트에요.
Estimating AI productivity gains from Claude conversations - Anthropic에서 사용자들의 Claude 대화 내용을 분석한 보고서에요.

🏭 생산성 혁명이 시작됐어요

Anthropic의 조사에 따르면, Claude를 사용하는 10만 건의 실제 대화를 분석한 결과 AI가 작업 완료 시간을 평균 80%나 단축시켰다고 합니다. 사람이 혼자 했다면 평균 90분 걸렸을 일을 AI와 함께하면 훨씬 빠르게 끝낼 수 있다는 거죠. 특히 보고서 작성, 문서 검토 같은 복잡한 지식 작업에서 효과가 컸어요. 이를 미국 전체 경제로 환산하면 향후 10년간 연간 노동 생산성이 1.8%씩 증가할 것으로 추정됩니다 - 최근 몇 년간의 성장률을 거의 두 배로 끌어올리는 수준이에요!

출처: Anthropic

💸 AI 활용을 위한 투자도 활발해요.

State of AI 보고서의 설문조사 결과가 특히 흥미로웠는데요, AI 실무자 1,200명을 대상으로 한 조사에서 95%가 업무나 집에서 AI를 사용한다고 답했고, 미국 기업의 유료 AI 툴 결제 비중이 2023년엔 5%에서 올해에는 44%로 급등했어요. 개인 사용자들도 76%는 자비로 AI 도구 비용을 내고 있다고 보고되었습니다.

💡 생산성은 올랐지만…

McKinsey 설문에선 기업의 88%가 최소 한 개 기능에서 AI를 정기적으로 사용한다고 답했고, 64%는 "AI가 혁신을 가능하게 한다"고 했어요. 하지만 "기업 전체 EBIT(이자·세금 공제 전 이익)에 영향 있냐"라는 질문엔 39%만 그렇다고 답했고, AI 프로덕트가 사내에 완벽히 녹여들었다고 답한 기업은 아직 1/3정도만 되요.

출처: McKinsey Report

🌍 AI는 어디에 가장 많이 쓰일까요?

Anthropic의 사용자 대화 분석에서 가장 많이 사용된 분야 TOP 5가 다음과 같이 집계되었어요.

소프트웨어 개발 (19%)
운영 관리자(약 6%)
시장 조사 분석가 및 마케팅 전문가(5%)
고객 서비스 담당자(4%)
학교 교사(3%)

🌐 사람들은 AI에 대해 어떻게 생각할까요?

이 보고서 내용은 2025년 4월에 발표된 내용이라 2024년 통계를 기반으로 하고 있지만, 꽤 흥미로운 결과라 소개해 드릴게요. 동양권 국가와 서양권 국가에서 AI에 관한 인식 차이가 나고 있어요.

• 중국(83%), 인도네시아(80%), 태국(77%), 한국(73%)에서는 AI에 대해 높은 수준의 기대감을 나타내고 있어요.

• 반면 캐나다(40%), 미국(39%), 네덜란드(36%)에서는 AI에 대해 낮은 수준의 기대감과 높은 수준의 불안감을 보고하고 있어요.

출처: HAI 보고서 - 가로축은 AI 발전에 기대감을 느낀다고 응답한 사람들의 비율, 세로축은 불안하다고 답한 사람의 비율이에요

다만 2022년 이후 회의적이었던 나라들에서도 낙관론이 증가하고 있어요. 독일(+10%), 프랑스(+10%), 캐나다(+8%) 등에서 AI에 대한 긍정적 인식이 늘어났습니다.

출처: 각 점들은 "AI서비스는 단점보다 이점이 더 많다"에 동의하는 답변의 비율을 나타내요. 파란 점은 2022년 답변 결과고, 녹색 점은 2024년 답변 결과에요. 대부분의 국가에서 비율이 상승하는 추세를 보여주고 있어요.

모두콘 2025:

출처: 모두의 연구소 홈페이지

저번 주 토요일 (12/13)에 모두콘 2025가 개최되었어요! 모두콘은 모두의 연구소가 주최하는 AI 컨퍼런스에요. “From AI to Infinity”라는 주제로 이화여대에서 개최되었으며, AI 트렌드부터 최신 연구 성과, 스타트업 사례, 그리고 핸즈온 세션까지 다양한 프로그램이 진행됐습니다. 제가 가서 들었던 세션 중 가장 인상깊었던 두 세션에 대해 정리해볼게요.

기술창업 6번을 통해서 배운 AI 시대의 기회 (노정석 대표, 비팩토리)

노정석 대표는 ASI(초지능)의 등장을 2028년경으로 예측하면서, AI를 단순한 도구가 아닌 ‘새로운 종’으로 인식하고 공생을 선택해야 한다고 강조했어요. AI가 우리가 이해할 수 없는 시스템으로 진화하고 있음을 설명하며, 앞으로는 ’AI와 공생한 Enterpreneur’만이 살아남을 것이라고 주장했습니다. 능력으로 경쟁하는 시대는 끝났고, 의지와 결단력을 가진 창업가적 마인드가 유일한 생존 전략이라는 메시지를 전했어요.

구독자님은 AI를 ‘도구’로 보고 있나요, 아니면 ‘공생 파트너’로 받아들이고 있나요? 하루 2시간씩 Claude Code나 Windsurf 같은 AI 도구와 협력해보는 워크플로우를 시작한다면, 한 달 후 당신의 업무와 사고방식은 어떻게 달라져 있을까요?

AI Network: Agent-to-Agent Ontology, AP2, x402 (김민현 대표, 커먼컴퓨터)

김민현 대표는 Web3 기술을 기반으로 한 자율 AI 에이전트의 존재론을 제시했어요. 비트코인의 블록체인이 ‘시간의 인과관계’를 해결한 것처럼, AI 에이전트도 중앙 서버 없이 독립적으로 존재하고 거래할 수 있는 시스템을 구축할 수 있다고 설명했습니다. 특히 에이전트가 자신의 지갑(계좌)을 갖고, X402 프로토콜을 통해 마이크로페이먼트로 데이터와 서비스를 거래하며, 인간보다 부자가 될 수도 있는 미래를 그렸어요. 이런 세상이 안정적으로 구축되기 까지는 아직 시간이 많이 필요하지만, 이제 웹도 에이전트가 자유롭게 결제하고 이동할 수 있는 환경이 마련되고 있다는 점이 인상적이였어요.

또한 김민현 대표는 “한 아이를 키우려면 온 마을이 필요하다”는 격언처럼, AI도 커뮤니티가 함께 키워야 한다는 철학을 강조했습니다. AI 에이전트가 자신의 계좌를 갖고 돈을 벌기 시작한다면, 인간과 AI의 경제적 관계는 어떻게 재정의되어야 할까요? 에이전트가 인간보다 부자가 되는 세상에서, 우리는 어떤 새로운 사회적 합의가 필요할까요?

오토마타 스터디 카페 - 《SurfSense》

구독자님은 Google의 NotebookLM 서비스를 이용하시나요? 문서 기반 AI 리서치 도구로 원하는 문서만 넣으면 바로 요약뿐만아니라, 팟캐스트, PPT, 마인드맵을 만들어줘서 큰 인기를 얻고 있는 툴 중 하나죠. 하지만, 슬랙, 노션, 깃헙 등 개인 지식 베이스와의 통합이 제한적이라는 한계가 있어요. 이런 상황에서 등장한 SurfSense는 NotebookLM과 Perplexity의 장점을 결합하면서도, 훨씬 더 광범위한 데이터 소스와 연결될 수 있는 오픈소스 대안으로 떠오르고 있어요.

SurfSense는 Slack, Linear, Jira, ClickUp, Notion, YouTube, GitHub, Discord, Gmail 등 15개 이상의 외부 소스와 연결되어 개인과 팀의 실제 워크플로우에 깊숙이 통합될 수 있다는 점이 가장 큰 차별점입니다. 또한 100개 이상의 LLM과 6,000개 이상의 임베딩 모델을 지원하고, Ollama를 통한 로컬 LLM 실행도 가능해 완전한 프라이버시를 보장받으면서도 강력한 AI 기능을 활용할 수 있어요. 50개 이상의 파일 형식을 지원하고, RAG(Retrieval-Augmented Generation) 기술과 하이브리드 검색을 활용해 정확한 인용과 함께 답변을 제공한다는 점도 NotebookLM에 뒤지지 않습니다.

SurfSense의 GitHub 저장소를 활용하는 방법은 크게 두 가지가 있어요.

첫째는 Docker를 통해 직접 자신의 컴퓨터에 NotebookLM과 유사한 서비스를 호스팅하는 것입니다. 환경 변수 커스터마이징이 가능하고 pgAdmin을 통한 데이터베이스 관리 UI도 제공되어, 초기 설정만 마치면 자신만의 개인 AI 리서치 어시스턴트를 완전히 커스텀할 수 있어요.
둘째는 깃헙에 공개되어 있는 코드베이스의 에이전트 부분을 살펴보며 리서치 에이전트가 어떻게 구성되는지 학습해보는 방법이에요. LangGraph와 LangChain을 활용한 에이전트 구조, FastAPI 기반의 백엔드 설계, 하이브리드 검색과 RAG 구현 방식 등을 직접 확인할 수 있어, AI 에이전트 개발을 공부하는 이들에게는 실무적인 레퍼런스가 될 수 있어요. 에이전트 코드는 아래 깃헙 리포지토리에서 다음 경로를 타고 들어가면 확인 할 수 있어요.

GitHub - MODSetter/SurfSense: Open source alternative to NotebookLM...

Open source alternative to NotebookLM, Perplexity, and Glean. Connects to search engines, Slack, ...

github.com