경제

GPU만 사면 되는 줄 알았죠? AI 인프라 전쟁의 진짜 승부처

AI 인프라 경쟁의 진짜 병목은 칩이 아니에요. 전력과 메모리를 먼저 확보한 기업이 이기는 싸움입니다.

2026.03.05
from.
Kwangseob
오즈의 지식토킹의 프로필 이미지

오즈의 지식토킹

하고 싶은 말을 합니다. 주로 기술, 인문학, 경제에 대한 이야기를 합니다.

들어가며

구독자님, 숫자 하나만 먼저 드릴게요. 690조 원.

2026년에 빅테크 5개사가 인프라에 쏟아붓겠다고 선언한 금액이에요. 한국 연간 GDP의 약 30%에 달하는 돈이죠. 그런데 이 돈을 다 쓰고 싶어도 못 쓰는 기업이 있어요. 마이크로소프트입니다.

사티아 나델라 CEO가 직접 인정했어요. GPU가 창고에 쌓여 있는데 꽂을 전기가 없다고. 800억 달러어치 애저[1]​ 주문이 밀려 있는데, 물리적으로 서버를 돌릴 수 없는 거예요.

2026년 2월 마지막 주, 빅테크들의 발표가 쏟아졌어요. 2월 17일 메타-엔비디아 GPU 파트너십, 2월 24일 메타-AMD 계약, 같은 날 구글 텍사스 데이터센터 발표. 대부분의 보도는 "또 GPU 거래"에만 집중했어요. 저는 이 발표들이 다른 이야기를 하고 있다고 봤습니다.

오늘은 그 이야기예요. GPU를 누가 더 많이 샀는지가 아니라, 진짜 병목이 어디인지.

AI 인프라 전쟁의 구조: 3개의 축

AI 인프라를 구축하려면 세 가지가 동시에 있어야 해요.

첫 번째는 고연산 칩이에요. GPU, TPU[2]​ 같은 AI 전용 반도체죠. 두 번째는 전력 인프라예요. 이 칩들을 실제로 돌릴 데이터센터와 전기가 필요합니다. 세 번째는 소모성 메모리 칩이에요. HBM[3]​, DRAM, NAND 같은 반도체들로, AI 모델이 연산하는 동안 데이터를 담아두는 역할을 해요.

문제는 이 세 가지를 동시에 장악하고 있는 기업이 지금 없다는 겁니다. 그러니까 지금 벌어지고 있는 건, 690조 원을 쏟아부으면서도 각자 자신이 약한 축을 메우려고 달리는 경쟁이에요.

하나씩 뜯어볼게요.

 

1축: 고연산 칩 — 선택지가 세 개뿐인 시장

외부에서 조달 가능한 고연산 AI 칩은 사실상 세 곳에서만 나와요. 엔비디아 GPU, AMD GPU, 구글 TPU.

과점[4]​이에요. 그것도 꽤 구조적인 과점입니다. 소프트웨어 생태계(엔비디아의 CUDA[5]​)부터 패키징 기술, TSMC와의 관계까지, 이 시장에 새 플레이어가 진입하는 건 몇 년짜리 프로젝트예요.

그래서 빅테크들은 지금 공급원 다변화 전략을 공식화하고 있어요. 메타가 가장 선명한 사례예요. <2월 17일 엔비디아와 수백만 개 규모의 블랙웰·루빈 GPU 장기 파트너십을 맺고, 일주일 뒤인 2월 24일에는 AMD와 최대 6GW 규모의 인스팅트 GPU 다년 계약을 체결했어요.> 동시에 자체 MTIA 칩도 개발 중이고요.

마크 저커버그가 뭐라고 했냐면, "컴퓨팅을 다변화하기 위한 중요한 한 걸음"이라고 했어요. 한 곳에 의존하면 안 된다는 걸 공식적으로 선언한 거예요.

AMD 리사 수 CEO는 이 계약을 "메타의 워크로드에 최적화된 고성능·에너지 효율 인프라를 제공하는 다년간, 다세대 협력"이라고 설명했어요.

구글은 다른 방향으로 움직이고 있어요. 자체 TPU v7 아이언우드로 추론[6]​ 전용 칩 전략을 강화하면서, 앤트로픽에 100만 개 이상 TPU 공급 계약을 맺고 외부 네오클라우드에도 판매를 시작했습니다. TPU를 자기들만 쓰는 게 아니라, 엔비디아처럼 팔겠다는 거예요.

그런데 여기서 오해하지 말아야 할 게 있어요. 엔비디아가 무너지는 게 아닙니다. 엔비디아는 범용성과 소프트웨어 생태계에서 여전히 압도적이에요. 다만 대규모 추론 워크로드[7]​에서는 TPU나 ASIC[8]​ 같은 맞춤형 칩이 비용 효율에서 앞서기 시작한 거예요. 시장이 독점에서 다층 구조로 전환되고 있는 거죠.

 

2축: 전력 인프라 — "돈은 있는데 전기가 없다"

이게 제가 봤을 때 가장 물리적이고 가장 심각한 병목이에요.

구글은 2월 24일 텍사스 윌바저 카운티에 신규 데이터센터를 발표하면서, 텍사스 전력망에 7,800MW 이상의 순증 전력을 계약했다고 밝혔어요. 1GW가 약 70만 가구 전력량이니까, 7,800MW는 한국의 부산·인천·대구 세 도시 인구가 쓰는 전력을 넘는 규모예요. 여기에 AES와 청정에너지 공동 구축, 공랭식 냉각으로 수자원 최소화까지 포함됐습니다.

메타는 오하이오에 1GW짜리 프로메테우스 데이터센터를 짓고 있고, 루이지애나에는 최대 5GW 하이페리온을 계획하고 있어요. 저커버그가 직접 언급한 부지 크기가 여의도의 약 20배 규모예요.

왜 이렇게 많이 필요하냐. 전력 수요가 AI로 인해 구조적으로 올라가고 있기 때문이에요. 미국 에너지정보청 EIA는 미국 상업용 전력 수요가 2025년 3%, 2026년 4.5% 증가할 것으로 전망했고, 국제에너지기구 IEA는 글로벌 데이터센터 전력 소비가 2030년까지 지금의 2배가 될 거라고 봤어요.

근데 여기서 진짜 문제가 있어요. 전력 변압기 리드타임이 128주(약 2.5년) 까지 늘어났어요. 지금 주문해도 2028년 하반기에나 받을 수 있는 거예요. 돈이 있어도 2년 반을 기다려야 한다는 뜻이에요.

그래서 텍사스가 데이터센터 입지로 뜨고 있어요. 독립 전력망인 ERCOT[9]​가 있고, 규제가유연하며, 광활한 토지가 있으니까요. 구글이 윌바저 카운티를 선택한 건 단순한 땅 이야기가 아니에요. 미리 전기를 확보한 것이 핵심이에요.

마이크로소프트처럼 전력을 충분히 확보하지 못한 기업에게 어떤 일이 생기는지 우리는 이미 보고 있어요. GPU가 창고에서 잠을 자고 있으니까요.

 

3축: 메모리 — AI가 메모리를 먹어치우고 있다

세 번째 축이 한국과 가장 밀접한 이야기예요.

HBM 2026년분은 이미 사실상 전량 매진이에요. SK하이닉스는 2025년 10월 실적 발표에서 자사의 HBM, DRAM, NAND 생산 능력이 2026년분은 "사실상 완판"이라고 밝혔고, 마이크론은 소비자 메모리 시장을 아예 철수하고 AI 데이터센터 고객에만 집중하겠다고 선언했어요.

왜 이렇게 됐냐. 구조적인 이유가 있어요.

HBM3E는 표준 DDR5 대비 약 3배의 웨이퍼 면적이 필요해요. AI 가속기 하나에 메모리를 붙이기 위해 일반 메모리 세 개분의 생산라인을 쓰는 거예요. 메모리 업체들이 HBM 생산에 몰두하면 할수록, 우리가 쓰는 스마트폰과 노트북에 들어가는 일반 메모리가 줄어드는 구조예요.

결과는 이미 나타나고 있어요. 삼성은 DDR5 32GB 모듈 가격을 149달러에서 239달러로 약 60% 인상했어요. DDR5 컨트랙트 가격은 100% 이상 급등했고요. 소비자 메모리 쇼티지로 소니 PS6 출시 연기 가능성도 거론되고 있어요(소니 공식 확인은 아닙니다).

그러면 이게 언제까지 지속되냐. SK하이닉스 경영진은 JP모건 미팅에서 메모리 상승 사이클이 2027년, 어쩌면 2028~2029년까지 지속될 수 있다고 자신감을 표명했어요. CSP[10]​들이 이중, 삼중으로 주문을 넣어도 부족 현상이 지속될 것으로 봤고요.

여기서 하나 더 짚을 게 있어요. LTA(장기공급계약)의 주도권이 역전됐어요. 과거에는 메모리가 남아돌 때 공급업체가 먼저 계약을 밀어붙였는데, 지금은 구글, 마이크로소프트 같은 클라우드 업체들이 먼저 와서 물량을 잡아달라고 요청하고 있어요. 이건 메모리가 단순 부품에서 전략적 자산으로 격상됐다는 신호예요.

그리고 AI 추론 시대가 되면서 메모리 수요 구조도 바뀌고 있어요. 예전에는 AI 학습(트레이닝)에 수요가 집중됐는데, 이제는 추론(인퍼런스)으로 무게중심이 이동하고 있어요. KV캐시[11]​가 새로운 메모리 수요 드라이버로 부상하면서, 서버 한 대당 필요한 DRAM 양이 늘어나고 엔터프라이즈 SSD(eSSD) 수요까지 함께 올라가고 있어요.

BofA는 2026년 HBM 시장을 546억 달러, 전년 대비 58% 증가로 전망하면서 SK하이닉스를 글로벌 메모리 업종 탑 픽으로 선정했어요.

첨부 이미지

오스왈드의 시선

솔직하게 말하면, 저는 이 경쟁을 보면서 GTM 전략가 시절에 자주 봤던 패턴이 떠올랐어요.

어떤 패턴이냐면, 병목이 이동하는 패턴이에요. 제품이 하나의 제약을 극복하면, 병목은 항상 다른 곳으로 옮겨가거든요. AI 칩 공급이 늘어나자 전력이 막히고, 전력을 확보하자 이번엔 메모리가 막히는 식이에요.

이 관점에서 보면 지금 가장 유리한 포지션에 있는 기업은 어디일까요. 저는 구글이라고 봐요. 자체 TPU 생태계, 텍사스 7.8GW 전력, 앤트로픽이라는 AI 스택 파트너십까지, 세 축 중 가장 균형 잡힌 포트폴리오를 가지고 있거든요.

메타는 칩 다변화(엔비디아+AMD+MTIA 3원화)라는 영리한 전략을 선택했어요. 근데 이건 공급 리스크를 분산시키는 전략이지, 병목을 해결하는 전략이 아니에요. 메타의 진짜 변수는 루이지애나 5GW 하이페리온이 언제 실제로 가동되느냐예요.

마이크로소프트는 지금 가장 어려운 처지예요. 엔비디아 의존도가 높고, 전력 확보에서 가장 뒤처져 있어요. 800억 달러 미충족 주문이 쌓여 있다는 건, 수익화 기회를 지금 이 순간에도 놓치고 있다는 뜻이거든요.

그리고 한국 이야기를 안 할 수 없어요. SK하이닉스와 삼성은 3축 중에서 메모리 축을 장악한 핵심 플레이어예요. HBM 시장에서 SK하이닉스가 약 50~62%를 점유하고 있고, 이 점유율이 HBM4에서도 유지될 가능성이 높아요. 데이터 분석가로서 이 수치가 의미하는 건 단순해요. AI 인프라가 한 단위 늘어날 때마다, 그 안에는 SK하이닉스나 삼성의 메모리가 들어가 있을 가능성이 절반 이상이라는 것이에요.

다만 한 가지 경계해야 할 것도 있어요. 시장에는 항상 사이클이 있어요. 지금 메모리 부족이 구조적이라는 건 맞는데, 2027~2028년에 SK하이닉스 용인 팹과 삼성 신규 팹이 가동을 시작하면 공급이 늘어나는 시점이 와요. 그때 수요가 여전히 공급을 초과하는지, 아니면 다시 공급 과잉으로 돌아서는지가 이 사이클의 진짜 시험대가 될 거예요.

 

마치며

이번 발표들에서 정말 중요한 게 무엇인지 정리해 드릴게요.

AI 인프라 경쟁은 이미 칩 하나를 얼마나 많이 사느냐의 경쟁에서, 전력과 메모리를 얼마나 먼저 확보하느냐의 경쟁으로 이동했어요. 변압기 리드타임 2.5년, HBM 전량 매진. 이건 소프트웨어나 알고리즘으로 해결할 수 있는 문제가 아니에요. 완전히 물리적인 제약이에요.

690조 원이라는 돈이 쏟아지는데, 왜 전기와 메모리가 없는지 이해가 가시나요? 이 숫자는 의지의 크기가 아니라 병목의 깊이를 보여주는 지표예요.

마지막으로 한 가지 질문을 드리고 싶어요. 이 인프라 투자가 결국 회수될 수 있을까요? AI 서비스가 만들어내는 수익이 이 물리적 투자를 정당화할 만큼 빠르게 성장하고 있는지, 아직 확실한 답은 없어요. 다음에는 이 질문, 즉 AI 인프라의 수익성 방정식에 대해 이야기해 볼게요.

 

참고자료 & 더 읽기

핵심 출처

배경 지식

관련 영상

3월 10일 업로드 예정이에요!

 

각주

  1. [1] 애저(Azure): 마이크로소프트의 클라우드 서비스 플랫폼이에요. 기업이 서버, 데이터베이스, AI 모델을 자체 구축 없이 빌려 쓰는 인프라예요.
  2. [2] TPU (Tensor Processing Unit): 구글이 직접 설계한 AI 전용 칩이에요. GPU가 '만능 공구 세트'라면, TPU는 '특정 볼트만 조이는 전동 드라이버'예요. 범용성은 낮지만 AI 연산에서 비용 효율이 높아요.
  3. [3] HBM (High Bandwidth Memory): AI 가속기 바로 옆에 탑재되는 고대역폭 메모리예요. 일반 DRAM보다 데이터 전송 속도가 수십 배 빠르지만, 생산에 표준 DRAM의 3배 웨이퍼가 필요해요. 고속도로 위에 주유소를 바로 올린 것과 비슷한 원리예요.
  4. [4] 과점: 시장 공급자가 소수에 집중된 구조예요. 독점(1개)과 달리 2~3개 기업이 시장 대부분을 나눠 갖는 형태죠. AI 칩 시장은 엔비디아·AMD·구글 TPU의 3자 과점이에요.
  5. [5] CUDA: 엔비디아가 만든 GPU 프로그래밍 환경이에요. 전 세계 AI 연구자와 개발자가 수십 년간 쌓아온 코드가 여기에 묶여 있어요. 다른 칩으로 갈아타는 데 가장 큰 전환 비용이에요.
  6. [6] 추론(Inference): AI 모델이 실제 서비스에서 사용자 요청에 답변하는 과정이에요. 모델을 처음 만드는 학습(Training)과 달리, 추론은 서비스가 살아있는 동안 계속 돌아가야 해요. AI가 상용화될수록 추론 인프라 비중이 커져요.
  7. [7] 워크로드(Workload): 컴퓨팅 시스템이 처리해야 하는 작업의 총량이에요. AI 추론 워크로드는 사용자 질의에 실시간으로 응답하는 작업이에요.
  8. [8] ASIC (Application-Specific Integrated Circuit): 특정 용도 전용으로 설계된 반도체예요. GPU보다 유연성은 낮지만 해당 작업에서 효율이 훨씬 높아요. 구글 TPU, 아마존 트레이니엄이 대표적인 ASIC이에요.
  9. [9] ERCOT (Electric Reliability Council of Texas): 텍사스 독립 전력망이에요. 미국 연방 전력망과 분리돼 있어서 규제가 훨씬 유연해요. 데이터센터 입지로 텍사스가 인기 있는 이유 중 하나예요.
  10. [10] CSP (Cloud Service Provider): 클라우드 서비스 제공 업체예요. AWS(아마존), Azure(마이크로소프트), GCP(구글) 같은 기업들이에요.
  11. [11] KV캐시 (Key-Value Cache): AI 모델이 추론할 때 이전 대화 맥락을 기억하기 위해 저장하는 데이터예요. 대화가 길어질수록 KV캐시가 커지면서 메모리 소비가 기하급수적으로 늘어나요. AI가 "대화를 기억"하는 데 드는 메모리 비용이라고 보시면 돼요
첨부 이미지

필자 안광섭은 세종대학교 경영학과 교수이자 OBF(Oswarld Boutique Consulting Firm) 리드 컨설턴트다. 대학에서 경영데이터 관리, 비즈니스 애널리틱스 등 데이터 분석을 가르치는 한편, 현장에서는 GTM 전략과 인공지능 전략 컨설팅을 이끌며 기술과 비즈니스의 접점을 설계하고 있다. AI 대화 시스템의 기억 아키텍처(HEMA) 연구로 학술 논문을 발표했으며, 매일 글로벌 AI 논문을 큐레이션하는 Daily Arxiv 프로젝트를 운영하고 있다. 고려대학교 KBMA와 기술경영전문대 석사과정을 졸업했다. 지은 책으로 《생각을 맡기는 사람들: 호모 브레인리스》가 있다.

다가올 뉴스레터가 궁금하신가요?

지금 구독해서 새로운 레터를 받아보세요

✉️
댓글

의견을 남겨주세요

확인
의견이 있으신가요? 제일 먼저 댓글을 달아보세요 !

다른 뉴스레터

© 2026 오즈의 지식토킹

하고 싶은 말을 합니다. 주로 기술, 인문학, 경제에 대한 이야기를 합니다.

뉴스레터 문의me@oswarld.com

메일리 로고

도움말 자주 묻는 질문 오류 및 기능 관련 제보

서비스 이용 문의admin@team.maily.so 채팅으로 문의하기

메일리 사업자 정보

메일리 (대표자: 이한결) | 사업자번호: 717-47-00705 | 서울특별시 성동구 왕십리로10길 6, 11층 1109호

이용약관 | 개인정보처리방침 | 정기결제 이용약관 | 라이선스