Mindset Learning

GPT-5.4, 더 똑똑한 AI가 아니라 더 ‘일하는’ AI로 가고 있다

OpenAI의 이번 발표가 중요한 이유는 성능 숫자보다, AI의 역할이 ‘답변’에서 ‘업무 수행’으로 이동하고 있다는 점에 있다.

2026.03.06 | 조회 267 |
2
|

OpenAI가 보여준 AI의 다음 단계

2026년 3월 5일, OpenAI GPT-5.4를 공개했습니다.

겉으로 보면 또 하나의 모델 업데이트처럼 보입니다.하지만 이번 발표의 핵심은 단순한 성능 개선이 아닙니다.

AI의 역할이 바뀌고 있다는 점입니다.

AI는 이제“잘 말하는 시스템”에서 → “실제 업무를 수행하는 시스템”으로 이동하고 있습니다.


🧠 AI는 이제 답변 도구를 넘어서고 있다

OpenAI는 GPT-5.4를

  • ChatGPT
  • API
  • OpenAI Codex

세 환경에 동시에 출시했습니다.

그리고 이렇게 설명했습니다.

“professional work를 위한 가장 유능하고 효율적인 frontier model”

이 문장은 꽤 상징적입니다.

AI 경쟁의 기준이 이제 바뀌고 있기 때문입니다.

과거 질문은 이것이었습니다.

  • 이 모델이 얼마나 똑똑한가
  • 얼마나 자연스럽게 말하는가

하지만 지금 질문은 이렇게 바뀌고 있습니다.

이 모델이 실제 업무를 얼마나 잘 끝내는가


🔗 이번 업데이트의 본질은 “통합”

GPT-5.4에서 가장 중요한 변화는OpenAI가 따로 발전시켜 온 세 가지 능력을 하나로 묶었다는 점입니다.

핵심 축은 다음 세 가지입니다.

  • 추론 능력
  • 코딩 능력
  • 에이전트형 워크플로우

특히 GPT-5.4는 기존 GPT-5.3-Codex의 코딩 능력을 흡수하면서

  • 도구 사용
  • 소프트웨어 환경 적응
  • 문서·스프레드시트·프레젠테이션 작업

같은 실제 업무 영역의 품질을 크게 끌어올렸습니다.

OpenAI가 강조한 표현도 의미심장합니다.

“less back and forth”

적은 왕복으로 더 정확한 결과를 만드는 AI

입니다.

좋은 AI의 기준이“멋진 답변”에서

“사용자가 원하는 결과물을 실제로 완성해 주는 것”

으로 이동하고 있다는 신호입니다.


🧭 ChatGPT 안에서도 ‘일하는 방식’이 바뀌고 있다

이 변화는 사용자 경험에서도 드러납니다.

GPT-5.4 Thinking은답변을 시작하기 전에 작업 계획을 먼저 제시할 수 있습니다.

예를 들어 이런 흐름입니다.

문제 입력AI가 작업 계획 제시사용자가 방향 수정AI가 작업 진행최종 결과

이건 생각보다 큰 차이입니다.

실무에서는 정답 자체보다

결과물이 얼마나 빠르게 내가 원하는 방향으로 수렴하는가

가 더 중요하기 때문입니다.

AI 품질은 이제

  • 한 번의 화려한 답변보다
  • 커뮤니케이션 비용을 얼마나 줄이는지

에서 체감됩니다.


💻 드디어 “컴퓨터를 쓰는 AI”에 가까워졌다

이번 발표에서 가장 중요한 포인트는 따로 있습니다.

GPT-5.4는 OpenAI가 공개한 첫

범용 + 네이티브 computer-use 모델

입니다.

이 모델은

  • 브라우저
  • 프로그램
  • 컴퓨터 인터페이스

같은 실제 환경을 직접 다루는 에이전트 구축에 최적화되었습니다.

예를 들어

  • Playwright
  • 스크린샷을 분석하고
  • 마우스·키보드 액션을 수행할 수 있습니다.

또한 최대 1M 토큰 컨텍스트도 지원합니다.

이 변화의 의미는 명확합니다.

AI는 이제 단순히 질문에 답하는 존재가 아니라

  • 문서를 작성하고
  • 표를 만들고
  • 슬라이드를 구성하고
  • 코드를 수정하고
  • 도구를 활용하며

업무 자체를 수행하는 시스템으로 이동하고 있습니다.

즉 AI의 미래는 챗봇이라기보다

작업 엔진(work engine)

에 가깝습니다.


📊 숫자보다 중요한 것은 방향이다

OpenAI는 여러 벤치마크도 함께 공개했습니다.

주요 결과는 다음과 같습니다.

평가GPT-5.4
GDPval83.0%
SWE-Bench Pro57.7%
OSWorld-Verified75.0%
Toolathlon54.6%
BrowseComp82.7%

하지만 더 중요한 것은 수치 자체가 아니라 평가 기준입니다.

이번에 강조된 테스트는

  • 코딩
  • 문서 작업
  • 컴퓨터 사용
  • 툴 활용
  • 웹 리서치

같이 실제 업무와 가까운 과제들입니다.

즉 질문이 바뀌고 있습니다.

과거 질문

이 모델이 얼마나 많이 아는가

지금 질문

이 모델이 실제 일을 얼마나 끝낼 수 있는가


📈 지식 노동 영역에서 변화가 특히 크다

OpenAI는 GPT-5.4가 지식 노동 과제에서 크게 개선됐다고 설명했습니다.

GDPval 기준

  • GPT-5.4 → 83.0%
  • GPT-5.2 → 70.9%

또한

스프레드시트 모델링

  • GPT-5.4 → 87.3%
  • GPT-5.2 → 68.4%

프레젠테이션 평가에서는인간 평가자가 68% 더 선호했습니다.

이유는 다음과 같습니다.

  • 더 좋은 시각 구성
  • 더 다양한 표현 방식
  • 이미지 활용 개선

이 변화는 중요합니다.

왜냐하면 대부분의 화이트칼라 업무는 결국

  • 문서
  • 슬라이드
  • 리서치
  • 커뮤니케이션

의 조합이기 때문입니다.

GPT-5.4는 바로 그 영역에서 경쟁력을 보여주고 있습니다.


🔍 환각 감소는 실무에서 큰 변화다

OpenAI는 GPT-5.4를자사 가장 factual한 모델이라고 설명했습니다.

실험 결과

  • 개별 주장 기준 → 33% 더 적은 오류
  • 전체 응답 기준 → 18% 더 적은 오류

이 수치는 작아 보일 수 있습니다.

하지만 실무에서는 매우 중요합니다.

AI 사용의 진짜 비용은 종종

생성보다 검증에서 발생합니다.

답을 만드는 속도보다그 답을 얼마나 믿을 수 있는지가 더 중요하기 때문입니다.


💰 비용 관점에서도 변화가 있다

GPT-5.4는 단순히 더 강력한 모델이 아닙니다.

OpenAI는 이 모델이

가장 토큰 효율적인 추론 모델

이라고 설명했습니다.

  • 덜 헤매고
  • 덜 왕복하고
  • 더 적은 토큰으로

더 긴 작업을 끝낼 수 있습니다.

앞으로 AI 비용은

토큰 가격

보다

작업 완료 비용

으로 평가될 가능성이 높습니다.


🎯 결국 변화는 ‘모델’이 아니라 ‘역할’이다

GPT-5.4 발표를 한 문장으로 정리하면 이것입니다.

AI는 지금잘 말하는 도구에서실제 업무를 수행하는 시스템으로 이동하고 있다

앞으로 중요한 질문은 이것입니다.

  • 어떤 모델이 더 자연스럽게 말하는가 ❌

대신

누가 더 적은 지시로더 긴 업무를더 정확하게 끝낼 수 있는가

GPT-5.4는 그 방향을 가장 선명하게 보여준 모델입니다.

그리고 이 변화는 단순한 신모델 발표가 아니라

우리가 AI를 평가하는 기준 자체가 바뀌고 있다는 신호

일지도 모릅니다.

 

 

다가올 뉴스레터가 궁금하신가요?

지금 구독해서 새로운 레터를 받아보세요

✉️

이번 뉴스레터 어떠셨나요?

Tomorrow Tech 님에게 ☕️ 커피와 ✉️ 쪽지를 보내보세요!

댓글 2개

의견을 남겨주세요

확인
  • bellyas의 프로필 이미지

    bellyas

    0
    약 1달 전

    이 글은 읽고 나면 한동안 멍하니 생각하게 만드는 그런 글인 것 같아요… “아…” 하는 느낌 https://wackygame.org/

    ㄴ 답글
  • yaqian의 프로필 이미지

    yaqian

    0
    19일 전

    When you want to take a break and let off some steam, Drift Boss https://www.drift-boss.cc/ gives you the thrill of drifting through tough turns. It’s simple, satisfying, and great for de-stressing while trying to beat your best time.

    ㄴ 답글

다른 뉴스레터

기술은 지금, 사춘기에 들어섰다

강력한 AI의 위험을 피하는 데서 끝나지 않고, 결국 관리하고 넘어서는 방법에 대한 이야기. 기술은 빨라졌고, 사회는 아직 어리다 다리오 아모데이가 말하는 AI 시대의 진짜 위기는 모델이 아니라 문명의 성숙도다 AI를 둘러싼 논의는 늘 두 극단 사이를 오갑니다.한쪽은 “곧

2026.03.30·Mindset Learning·조회 142·댓글 3

AI가 일자리를 없애고 있나

아직은 “대량 실업”보다, “채용 둔화”의 초기 신호에 가깝다. 아직은 “대량 실업”보다, “채용 둔화”의 초기 신호에 가깝다 Anthropic이 흥미로운 연구를 내놨습니다.핵심 질문은 단순합니다. “생성형 AI는 실제로 노동시장에 어떤 영향을

2026.03.09·Mindset Learning·조회 198·댓글 13

AI 시대에 필요한 것은 “해결 능력”이 아니라 “판단력”이다

“어떤 문제를 해결하지 않았는가”로 결정된다. AI 시대의 생산성은 “문제를 얼마나 해결했는가”가 아니라 “어떤 문제를 해결하지 않았는가”로 결정된다 우리는 처음에 AI를 문제를 해결하기 위해 사용하기 시작했다. 반복 업무를

2026.03.05·Mindset Learning·조회 187·댓글 5

AI가 사람을 대체한다는 말이 놓치는 것들

책임, 채용, 그리고 IT 세계관의 과잉 일반화. AI 이야기가 나올 때마다 비슷한 장면이 반복된다.코드를 몇 초 만에 짜고, 보고서를 초안으로 만들고, 회의 내용을 정리하고, 심지어 일정한 규칙 안에서는 분석과 추천까지 해낸다.

2026.03.11·Mindset Learning·조회 155·댓글 2

AI 시대의 승부는 더 이상 ‘만드는 능력’이 아니다

이제 중요한 것은 얼마나 빨리 만들 수 있느냐가 아니라, 어디에 성을 쌓을 수 있느냐다. 요즘 AI를 둘러싼 글들을 읽다 보면 비슷한 문장이 반복된다.누구나 만들 수 있게 됐다.작은 팀도 큰 회사를 만들 수 있다.기술의 민주화가 시작됐다. 맞는 말이다. 하지만 그 문장

2026.03.13·Mindset Learning·조회 149·댓글 2

AX는 생산성 향상이 아니라, 일의 본질을 다시 보게 만드는 일이다

AX는 AI를 통해 우리가 해오던 일을 다시 보게 되는 일이다. AX 일의 정체성이 바뀌는 문제다 AX를 생산성 향상으로 설명하면 편하다.보고서를 더 빨리 쓰고, 회의록을 자동화하고, 반복 업무를 줄여주는 것. 대체로 이런 식이다. 틀린 말은

2026.03.31·Mindset Learning·조회 132·댓글 2
© 2026 Tomorrow Tech

통찰력 있는 최신 기술 트렌드와 깊이 있는 분석.

메일리 로고

도움말 자주 묻는 질문 오류 및 기능 관련 제보

서비스 이용 문의admin@team.maily.so 채팅으로 문의하기

메일리 사업자 정보

메일리 (대표자: 이한결) | 사업자번호: 717-47-00705 | 서울특별시 송파구 위례광장로 199, 5층 501-8호

이용약관 | 개인정보처리방침 | 정기결제 이용약관 | 라이선스