Event Analysis · Composed · Analysis Team v5.0.0 · Rev 0

임대료로 바뀐 22만 GPU의 셈법

xAI 가 멤피스 Colossus 1 전량을 Anthropic 에 통째로 임대했다. 표면은 잉여 컴퓨트 수익화, 안쪽은 워크로드별 가격 차익거래다.

AI 인프라·딥테크 2026-05-06 2026-05-09 15:23:51

지정학·딥테크 변곡 / 0

변곡점이 된 거래

2026년 5월 6일, SpaceXAI 가 멤피스 데이터센터의 22만 GPU 를 통째로 경쟁사 Anthropic 에 넘겼다. 연 30~50억 달러 규모의 임대 계약이다.

왜 자기 핵심 자산을 적군에게 빌려주는가. 표면적으로는 잉여 컴퓨트 수익화다. 그 아래엔 다른 셈법이 있다.

xAI 는 이미 1GW 규모의 Colossus 2 를 가동하고 있다. 학습은 그쪽에서 한다. 멤피스의 첫 클러스터는 한 가지 문제를 안고 있었다. 너무 많은 종류의 GPU 를 섞어 놓은 결과 학습 효율이 11% (출처: The Information) 까지 떨어졌다. 같은 시기 Meta 는 43%, Google 은 46% 였다.

답은 임대였다. xAI 입장에선 학습엔 안 맞지만 추론엔 충분한 자산을 현금으로 바꿀 수 있다. Anthropic 입장에선 Claude 의 만성 컴퓨트 부족을 즉시 해소할 수 있다. 양쪽 모두에게 합리적인 거래였다.

xAI 는 자기 비효율을 떠넘긴 게 아니라, 학습용으로 가치가 떨어진 자산을 추론 시장에 차익거래로 팔았다.

검증된 수치 / 1

무엇이 실제로 일어났나

임대 대상은 멤피스의 Colossus 1 한 채다. 22만~23만 대 (xAI 공식 220,000+, Musk 코멘트 230,000) 의 GPU 와 300MW 의 전력 (출처: cnbc.com) 이 통째로 Anthropic 에 넘어갔다. 발표 직후 Anthropic 은 Claude Code 의 5시간 사용 한도를 두 배로 늘리고 Pro·Max 의 피크 시간 캡을 폐지했다 (출처: latent.space).

핵심은 GPU 구성이다. Colossus 1 은 H100 15만 대, H200 5만 대, GB200 3만 대로 채워져 있다 (출처: tweaktown.com). 세 세대를 섞어 쓴다. 이 비율이 뒤에서 다룰 비효율의 출발점이다.

임대료 공식 발표는 없다. 추정치는 30~50억 달러 사이로 모인다. New Street Research 가 30~40억, Latent Space 가 30~50억, Fortune 이 40억 달러 (출처: fortune.com) 다. SpaceX 의 연간 현금이익 (25억+ 추정) 을 단숨에 두 배로 늘리는 규모다.

임대 GPU

22만 대+

300MW · 멤피스

임대료 추정

$3~5B/년

SpaceX 현금이익의 약 2배

Colossus 1 학습 효율 (MFU)

11%

Meta 43% · Google 46%

xAI 총 GPU 추정

약 55만

Colossus 1 = 약 40%

Colossus 1 의 GPU 구성

세 세대 혼합 — 게시물의 'GB200 2만' 은 1만 대 적게 잡음

출처: tweaktown / xAI 발표 / 2025-06 누적치 (단위: 천 대)

Takeaway 세 세대가 같은 클러스터에서 동기화돼야 학습이 진행된다.

메커니즘 / 2

이종 클러스터가 학습에 치명적인 까닭

분산 학습의 작동 방식이 답을 가지고 있다. 한 step 마다 모든 GPU 가 자기 몫의 계산을 끝낸 뒤 결과를 동기화해야 다음 step 으로 넘어간다. 가장 느린 GPU 가 전체 속도를 결정한다. 업계는 이를 straggler effect (낙오자 효과) 라 부른다.

H100 과 GB200 은 세대도, 메모리 용량도, NVLink (GPU 간 고속 통신 링크) 대역폭도 다르다. 빠른 GB200 은 H100 을 기다리며 노는 시간이 생긴다. 22만 대 규모에선 이 빈 시간이 누적돼 큰 손실이 된다.

여기에 두 번째 문제가 겹친다. NCCL (NVIDIA 의 GPU 간 통신 라이브러리) 의 기본 토폴로지인 ring 은 10만 대 이상에선 한 바퀴 도는 데 누적되는 지연이 병목이 된다 (출처: arxiv.org/2507.04786). Google 은 이를 우회하기 위해 OCS Apollo·Palomar (광스위치 기반 자체 토폴로지) 를 따로 개발했다 (출처: semianalysis Apollo 분석). xAI 는 그 단계에 도달하지 못한 채 GPU 만 늘렸다.

세 번째는 GB200 의 전력 변동이다. NVIDIA 공식 문서는 GB200 NVL72 가 학습 중 ms 단위로 큰 폭의 전력 스파이크를 일으키며, 이를 다루기 위한 power smoothing (전력 안정화) 기능이 필요하다고 명시한다 (출처: docs.nvidia.com NVL72 가이드). H100 과 같은 랙에 있는 GB200 은 이 변동을 기존 인프라가 따라가지 못해 추가 손실이 발생한다.

벤치마크 / 3

11% 라는 숫자의 무게

숫자는 11% 다. 모델 FLOPS 활용도 — GPU 가 이론 최대 속도 대비 실제로 일한 비율 — 가 11% 였다는 뜻이다. 줄여서 MFU (Model FLOPS Utilization) 다. The Information 이 보도하고 Business Insider 가 내부 메모를 확보해 교차 확인했다. xAI 의 인프라 사장 Michael Nicolls 가 메모에서 '부끄러울 정도로 낮다' 고 적었다 (출처: quasa.io 메모 인용).

같은 시기 Meta 는 43%, Google 은 46% 다 (아래 차트). 단순 격차가 아닌 4배 격차다. 학습에 1달 걸려야 할 모델이 4달 걸린다는 의미다. 같은 모델·같은 결과를 얻는 데 컴퓨트 비용이 4배 든다.

xAI 가 Colossus 2 를 동종 (homogeneous) 단일 GB200·GB300 구성으로 짠 까닭이 여기 있다. 같은 세대 GPU 만 쓰면 straggler 가 사라진다. 학습 워크로드를 그쪽으로 옮긴 뒤, 비효율의 잔재인 멤피스 클러스터는 임대로 돌렸다.

주요 AI 클러스터의 학습 효율 (MFU)

xAI 11% — 동종 클러스터 대비 약 1/4 수준

출처: The Information / Business Insider 입수 메모 / 2025 4Q

Takeaway 동종성과 자체 토폴로지가 효율을 4배로 가르는 변수다.

Make-or-Buy / 4

양쪽 모두에게 합리적이었던 거래

이 거래는 누구의 손해도 아니다. xAI 가 자기 비효율을 일방적으로 떠넘긴 게 아니라, 양쪽이 서로 다른 자원의 가격을 다르게 매겼기 때문에 성사됐다.

xAI 입장. Colossus 1 은 학습엔 부적합하지만 추론 (모델이 이미 학습된 후 사용자 요청에 답하는 단계) 엔 충분하다. 추론은 GPU 끼리 매 step 동기화할 필요가 없어 straggler 영향이 학습보다 훨씬 약하다. 즉 학습용으로 가치가 떨어진 자산이 추론 시장에선 여전히 비싸게 팔린다. 차익이 곧 임대료다.

Anthropic 입장. Claude 사용자 폭증으로 컴퓨트 부족이 만성화돼 있었다. AWS·GCP 만으론 부족해 SpaceXAI 까지 끌어쓴다. 임대 발표 직후 Pro·Max 의 피크 시간 캡이 사라지고 Opus API 한도가 올라간 사실이 그 절박함을 보여준다.

xAI 의 셈법은 또 있다. 22만 대 GPU 의 감가상각이 진행 중이다. 1~2년 뒤엔 더 빠른 GPU 에 밀려 임대 가치도 떨어진다. 그 전에 다년 임대로 묶어 두면 자산을 거의 풀-라이프사이클 동안 monetize 할 수 있다. Make-or-Buy 결정에서 'Make 의 한계 효용이 Buy 가격 아래로 떨어지면 팔라' 는 교과서적 답이다.

학습용으로 가치가 떨어진 자산이 추론 시장에선 여전히 비싸게 팔린다. 차익이 곧 임대료다.

xAI 의 GPU 분리 운영

학습은 동종 Colossus 2, 추론은 임대된 Colossus 1

출처: tweaktown / semianalysis / 단위: 천 대 GPU

Takeaway 학습은 동종 신클러스터, 추론은 이종 구클러스터로 워크로드를 분리했다.

검증되지 않은 부분 / 5

'짐 떠넘기기' 가설은 어디까지 사실인가

원 게시물의 도발적 가설은 'xAI 가 비효율의 짐을 Anthropic 에 떠넘겼다' 는 것이었다. 검증해 보면 절반은 맞고 절반은 미세 보정이 필요하다.

맞는 부분. 멤피스 클러스터의 학습 효율이 동종 클러스터의 1/4 인 점, xAI 가 학습 워크로드를 Colossus 2 로 옮긴 점, 임대된 Colossus 1 의 이종 구조가 그대로라는 점은 모두 사실이다.

미세 보정.

첫째, GPU 구성 수치가 게시물의 'GB200 2만' 보다 실제는 3만 (출처: tweaktown.com) 으로 1만 대 많다. 합계도 22만 (게시물) vs 23만 (Musk 공식) 차이가 있다.

둘째, '추론에선 비효율이 없다' 는 함의는 과장이다. 추론도 batched serving 환경에서 throughput 이 GPU 동질성에 일정 부분 영향받는다. 손실이 학습만큼 크진 않을 뿐이다.

셋째, Anthropic 도 fine-tuning (모델을 특정 도메인에 추가 학습하는 단계) 에 일부를 쓴다고 명시했다 (출처: Tom Brown 코멘트, simonwillison.net). 학습 비중이 0% 는 아니다.

요약하면 xAI 가 이종 클러스터의 한계를 적극적으로 인지하고 추론 시장에 매각한 거래다. 떠넘기기라기보다는 워크로드별 시장의 가격 차익을 활용한 차익거래에 가깝다. Anthropic 도 그 차익을 알고도 임차했다. 양쪽 모두 정보 비대칭의 피해자가 아니다.

감시 / 6

앞으로 무엇을 볼 것인가

현 시점 결론은 잠정적이다. 양쪽의 행동이 가설의 진위를 시간차로 드러낼 것이다.

첫째, Anthropic 의 Colossus 1 활용 비중이다. 추론에 100% 쓴다면 차익거래 해석이 강해지고, fine-tuning 또는 학습 비중이 30% 이상으로 올라가면 떠넘기기 해석이 부분적으로 살아난다.

둘째, xAI 의 Colossus 2 첫 모델 발표다. Grok 차세대 학습 결과가 동종 클러스터의 효율 가설을 검증할 것이다. MFU 가 40% 대로 회복되면 가설 입증, 25% 이하로 머물면 NCCL·전력 안정화 같은 다른 병목이 있다는 의미다.

셋째, 다른 frontier lab 의 임대 동향이다. OpenAI 가 Microsoft 외 외부 컴퓨트를 끌어쓰기 시작하면 컴퓨트 시장이 자체 보유에서 임대 중심으로 재편된다는 신호다.

넷째, GB200 NVL72 의 power smoothing 적용 사례다. NVIDIA 공식 문서가 명시한 신규 기능이다. Colossus 1 의 GB200 3만 대가 이 기능 적용 후에도 H100 에 묶여 있는 한 효율은 회복되지 않는다.

반대 관점 / 모순

봉합하지 않은 충돌

관점 A: xAI 가 비효율의 짐을 Anthropic 에 떠넘겼다 (도발적 가설)

관점 B: 양쪽이 워크로드별 가격 차이를 활용한 합리적 차익거래다 (공식 발표)

근거 충돌: MFU 11% 와 Colossus 2 동종 구성은 학습 부적합을 입증한다. 그러나 추론은 straggler 영향이 약하고 Anthropic 의 컴퓨트 부족이 만성적이라 자산 가치가 워크로드별로 다르다

→ 후자 우세. 단 Anthropic 이 이 자산으로 학습·fine-tuning 비중을 30% 이상으로 늘릴 경우(현재 명시는 'fine-tuning + inference') 떠넘기기 가설이 부분적으로 살아난다

관점 A: Colossus 1 은 학습 불가능하다

관점 B: Colossus 1 은 단지 Colossus 2 보다 학습 효율이 낮을 뿐이다

근거 충돌: MFU 11% 는 낮지만 0% 는 아니다. 모델을 학습할 수는 있고, 단지 비용 효율이 4배 떨어진다. xAI 도 Colossus 2 가동 전엔 Colossus 1 으로 학습했다

→ 후자 — Anthropic 의 fine-tuning 명시가 입증한다. '학습 불능' 이 아닌 '학습 비효율' 이 정확한 기술이다

관점 A: 임대 자산이라 xAI 가 손해를 보고 있다

관점 B: 감가상각 진행 중인 자산을 풀-라이프사이클로 monetize 한 영리한 결정이다

근거 충돌: GPU 의 시장 가치는 1~2년 단위로 빠르게 하락한다. 다년 임대로 묶으면 미래 가치 하락 위험을 Anthropic 에 일부 전가할 수 있다

→ 후자. 단 Anthropic 이 이 사실을 인지하고도 임차한 만큼 일방적 손해는 아님

앞으로 무엇을 볼까

감시 신호

📊 Anthropic 분기 인프라 사용 보고

Colossus 1 가용량을 추론·fine-tuning·학습으로 어떻게 분배하는지 공개 여부

→ 차익거래(추론 100%) vs 떠넘기기(학습 30%+) 가설 분기

2026-08

🧪 Colossus 2 첫 학습 모델 (Grok 차세대) 발표

동종 GB200/GB300 클러스터의 MFU 회복 정도

→ xAI 가 학습 효율 가설을 입증하는지(MFU 40%+) vs 다른 병목이 남아있는지(MFU 25%-)

2026-Q3

🏗️ OpenAI 외부 컴퓨트 임대 발표

Microsoft Azure 외 frontier lab 의 외부 임대 사례

→ AI 인프라 시장이 임대 중심으로 재편되는 시점

⚡ GB200 power smoothing 적용 후 MFU 변화 메모

Colossus 1 의 GB200 3만 대에 NVIDIA 신규 기능 적용 결과

→ 이종 클러스터 비효율이 SW 패치로 일부 해소 가능한지 여부

2026-Q4

신뢰도 (82%)

출처 다양성 13개(공식 발표·통신 3사·전문 매체·내부 메모·기술 문서) 로 매우 높음. 사건 발생 3일 후 분석으로 신선도 양호. 임대료 정확치·Anthropic 의 fine-tuning vs inference 비중·MFU 11% 의 만성 vs 일시 여부가 미해결.

분석가의 한계

22만 GPU 의 거래는 한 회사의 결정이 아닌 한 산업의 전환점이다. AI 인프라가 자체 보유에서 임대 기반 시장으로 이동하기 시작했다. 다음 1년은 그 첫 분기다.