차트팩

[은호레터]데일리 차트팩 - 옵션시장 이상징후, 무역협상리스크, 소매유입

2025.07.08 | 조회 213 |
from.
은호
은호레터의 프로필 이미지

은호레터

은퇴 호소인의 경제 전문 뉴스레터

📈데일리 차트팩 - 옵션시장 이상징후, 무역협상리스크, 소매유입

 

구독자님 안녕하세요. 은호입니다. 

하루 동안 봤던 차트들 중에 유의미한걸 모아서 제공하고 있습니다.

데이터는 해석하기 나름이고 시간이 지나봐야 어떤 데이터가 그 당시에 제일 적절했는지

확인이 가능하기 때문에 참고용 정도로 보시면 좋을거 같습니다!

(일부는 스레드에도 업로드 된 차트입니다.)

 


첨부 이미지

🚀 Grok-4, 추론형 벤치마크에서 압도적 성능

  • Grok-4가 다양한 테스트에서 인상적인 결과를 보여주었음
  • HLE (추론 능력 평가)에서 Grok-4 TTC는 45.0%로 가장 높은 점수를 기록
  • AIME '25 (수학적 사고력 중심)에서는 Grok-4 Std가 95.0%로 압도적 1위
  • GPQA (사실 기반 질의 응답)에서도 Grok-4 TTC와 Std가 각각 88.0%, 87.0%로 최상위권
  • SWE-bench (소프트웨어 엔지니어링 관련 문제 해결)에서도 Grok-4-code TTC는 75.0%로 최고 점수

📊 해설

  • HLE (High-Level-Extraction):
    • Grok-4는 TTC(Time-Test-Compute) 세팅에서 45.0%를 기록하며 ChatGPT o3 (10.7%)나 Claude 4 Opus (21.6%)를 큰 차이로 앞섰음
    • 이는 Grok-4가 고차원적 추론과 의미 추출 능력에서 뛰어남을 보여줌
  • GPQA (General-Purpose QA):
    • 모든 모델이 높은 성적을 보였지만 Grok-4 Std/TTC가 각각 87.0%와 88.0%로 최상위
    • ChatGPT o3는 79.6%로 상대적으로 낮았고, Claude 4는 86.4%로 그 뒤를 이었음
  • AIME '25 (American Invitational Math Exam 스타일 문제):
    • Grok-4 Std는 95.0%로 최고 기록. TTC 설정에서도 88.9%로 강세 유지
    • 반면 Claude 4는 88.0%, ChatGPT o3는 75.5%로 하락세를 보임
    • 수학적 추론에 특화된 설정에서는 Grok-4가 독보적인 성능을 입증
  • SWE-bench (Software Engineering Benchmarks):
    • Grok-4-code TTC가 75.0%로 1위. Std도 72.0%로 근접
    • Claude 4 Opus (72.5%)도 근소하게 우위를 보였지만, Grok의 전반적인 일관성이 더 돋보임
    • ChatGPT o3는 59.6%로 코드 문제에서 격차가 큼

📌 용어 설명

  • TTC (Test-Time Compute): 테스트 시점에서 더 많은 계산 리소스를 활용하여 정밀도를 높인 세팅
  • Std (Standard): 표준 설정으로 수행한 결과
  • HLE: 고차원적 개념 이해 및 추론을 요구하는 문제 평가
  • GPQA: 일반 상식 및 정보 기반 질의응답 평가
  • AIME: 미국 수학 경시대회 스타일 문제로, 복잡한 논리/수학 추론 능력 요구
  • SWE-bench: 실제 코드 기반 문제 해결력 평가

Grok-4는 특히 고난도 수학(AIME)과 추론(HLE)에서 두각을 나타냈으며, 추론형 LLM으로서 GPT-4 o3 대비 확실한 차별점을 보여줌

멤버십 구독자만 읽을 수 있어요

가입하려면 아래 버튼을 눌러주세요

© 2025 은호레터

은퇴 호소인의 경제 전문 뉴스레터

뉴스레터 문의eunho.letter@gmail.com

메일리 로고

도움말 자주 묻는 질문 오류 및 기능 관련 제보

서비스 이용 문의admin@team.maily.so

메일리 사업자 정보

메일리 (대표자: 이한결) | 사업자번호: 717-47-00705 | 서울특별시 성동구 왕십리로10길 6, 11층 1109호

이용약관 | 개인정보처리방침 | 정기결제 이용약관 | 라이선스