구독자 님, 안녕하세요?
AI 트렌드를 전달해드리는 Trendium.ai 입니다.
오늘 내용은 국내 ‘국가대표 AI’ LLM들이 수능 수학·논술 및 고난도 수학 문제에서 해외 모델 대비 2~4배 이상 낮은 점수를 기록하며 추론력 격차를 드러냈다는 내용입니다.
by 👁️🗨️ 예언카드 prophecycardmaster
이는 단순 성능 문제가 아니라, 국내 AI 개발이 장기적 기초 추론 역량보다 단기 사업화에 치우쳐 온 구조적 선택의 결과라는 점을 시사합니다.

“수능 수학을 풀게 했더니 20점대” - 국내 ‘국가대표 AI’는 왜 번번이 고개를 숙였을까?
국내 인공지능(AI) 산업이 또 한 번 불편한 성적표를 받아들었습니다. ‘국가대표 AI’에 도전 중인 국내 주요 대형언어모델(LLM)들이 수능 수학과 대학 논술 문제에서 해외 모델들과 현격한 성능 격차를 보였다는 연구 결과가 공개됐기 때문입니다.
서강대 김종락 수학과 교수 연구팀은 지난 15일, 국내 5개 AI 모델과 해외 5개 최신 LLM을 대상으로 수능 수학·논술 및 고난도 수학 문제 총 50문항을 풀게 한 비교 실험 결과를 발표했습니다. 실험은 단순 질의응답이 아니라, 실제 시험 환경에 가깝게 난이도별 문제를 구성하고 파이썬 툴 사용까지 허용한 상태에서 진행됐습니다.
그럼에도 결과는 냉정했습니다.
숫자로 드러난 격차 - “실력 차인가, 구조 차이인가”
해외 모델들은 이번 실험에서 76~92점의 안정적인 성적을 기록했습니다. 반면 국내 모델 중에서는 업스테이지의 ‘솔라 프로-2’ 만이 58점을 기록했을 뿐, 나머지 모델들은 대부분 20점대, 일부는 한 자릿수 점수에 그쳤습니다.
특히 엔씨소프트의 경량 모델인 ‘라마 바르코 8B 인스트럭트’ 는 2점으로 최하위를 기록했습니다. 단순 파라미터 규모의 문제라기보다는, 추론 구조와 문제 접근 방식 자체의 차이가 드러난 결과라는 분석이 나옵니다. 연구팀은 국내 모델들이 문제를 스스로 논리적으로 풀기보다는, 계산 도구에 의존하도록 설계했음에도 불구하고 정답률을 끌어올리지 못했다고 밝혔습니다. 이는 “도구를 쓰게 하면 성능이 올라간다”는 통념에도 의문을 제기하는 대목입니다.
더 벌어진 격차, ‘엔트로피매스’ 실험의 의미
연구팀은 여기서 한 발 더 나아가, 자체 제작한 고난도 수학 문제 세트 ‘엔트로피매스(EntropyMath)’를 활용해 추가 실험을 진행했습니다. 이 문제들은 단순 대학 입시 수준을 넘어, 대학원·연구자급 수학적 사고를 요구하도록 설계된 것이 특징입니다.
이 실험에서도 해외 모델들은 82.8~90점, 국내 모델들은 7.1~53.3점에 머물렀습니다. 세 차례 시도 기회를 주는 ‘통과 방식’을 적용했을 때조차, 그록(Grok)은 만점을 기록했고, GPT·제미니·클로드 계열은 90점대 성적을 유지했습니다.
국내 모델 중에서는 솔라 프로-2가 70점, 엑사원이 60점으로 상대적으로 선전했지만, 여전히 ‘국가대표 AI’라는 타이틀과는 거리가 있는 성적이라는 평가가 나옵니다.
EntropyMath(엔트로피매스)란?
EntropyMath는 AI의 ‘암기·패턴 능력’이 아니라 ‘사고력과 추론 구조’를 측정하기 위해 만든 고난도 수학 평가 세트입니다. 기존 수능·입시 문제는 AI가 과거 학습한 문제 유형과 공식 조합으로 풀 수 있지만, EntropyMath는 문제 유형 자체가 명확하지 않도록 설계돼 있습니다.
즉, “이 문제에 어떤 수학 개념을 써야 하는지부터 스스로 판단하라” 는 시험입니다.
- 왜 AI에게 특히 어렵나?
EntropyMath 문제는 공식 적용 문제가 아니라 여러 수학 개념을 선택·조합·배제해야 하며 계산보다 논리적 불가능성이나 구조적 이유 설명을 요구합니다. AI가 잘하는 “비슷한 문제 찾기”가 거의 통하지 않습니다.
예시로 보면,
- 일반 수능 문제 → “미적분 문제다 → 이 공식 사용”
- EntropyMath 문제 → “이게 미적분인지, 논리 문제인지부터 판단해야 함 → 조건 자체가 모순인지 검토 → 왜 불가능한지 설명”
정답보다 사고 과정의 타당성이 중요합니다.
2. 왜 중요한가?
EntropyMath는 연구·과학·제조·설계처럼 사고의 신뢰성이 중요한 AI를 평가하는 도구입니다.
이번 실험에서 해외 AI가 높은 점수를 받고 국내 AI가 낮은 점수를 기록한 이유도, 계산 능력보다 ‘추론 구조의 깊이’에서 격차가 났기 때문으로 해석됩니다.

단순 성능 문제가 아닌, 더 큰 질문
이 지점에서 하나의 질문이 떠오릅니다. “이 격차는 기술력의 문제일까요, 아니면 전략의 문제일까요?”
국내 AI들은 그동안 한국어 처리, 서비스 연계, 경량화, 기업 맞춤형 솔루션에 초점을 맞춰 발전해 왔습니다. 반면 해외 최상위 LLM들은 수학·과학·논리 추론을 ‘AI의 기초 체력’으로 간주하고 장기간 대규모 투자를 이어왔습니다.
즉, 이번 결과는 단순히 “국내 AI가 못한다”는 이야기가 아니라, “무엇을 AI의 핵심 역량으로 정의해 왔는가”에 대한 전략적 선택의 결과일 수 있습니다.
일각에서는 국내 AI 정책과 투자 구조가 “당장 사업화 가능한 영역”에 지나치게 집중되면서, 장기적인 기초 추론 능력 확보에는 상대적으로 소홀했던 것 아니냐는 지적도 나옵니다.
김종락 교수는 “엔트로피매스를 기반으로 국제 수학 리더보드를 구축하고, 수학뿐 아니라 과학·제조·문화 도메인으로 확장할 계획”이라고 밝혔습니다. 이는 국내 AI 생태계에 ‘피할 수 없는 비교의 장’을 열겠다는 선언으로 읽힙니다.
이 뉴스레터를 읽고 나면
이번 이슈는 AI 기술자나 연구자뿐 아니라, AI에 투자하는 금융권, 정책 입안자, 그리고 AI를 도입하려는 기업 모두에게 중요한 질문을 던집니다.
우리는 지금 ‘말을 잘하는 AI’ 를 만들고 있는 것인지, 아니면 ‘생각할 줄 아는 AI’ 를 만들고 있는 것인지 말입니다.
국가대표 AI의 진짜 시험대는 아직 끝나지 않았습니다. 그러나 적어도 이번 수능 수학 시험은, 우리가 어디에 서 있는지를 지나칠 정도로 분명하게 보여주고 있습니다.
오늘의 미래 예언 카드
by 👁️🗨️ 예언카드 prophecycardmaster

의견을 남겨주세요