Event Analysis · Composed · Analysis Team v5.3.2 · Rev 0

에이전트 AI, 클라우드 밖으로 돌아온다

젠슨 황과 마이클 델이 라스베이거스에서 추론의 무게중심 이동을 공식화했다. 메모리·전력이 구조적 병목으로 떠올랐다.

기술·산업 / 반도체·엔터프라이즈 하드웨어 2026-05-18 2026-05-20 01:02:32
에이전트 AI 시대

라스베이거스의 두 메시지

5월 18일 라스베이거스. 젠슨 황과 마이클 델이 무대에 함께 올라 같은 진단을 내놓았다. 추론이 클라우드 밖으로 돌아오고 있다는 것, 그리고 그 무게가 이미 측정 가능한 수준까지 와있다는 것이다.
황과 델은 마치 미리 짠 듯 같은 두 문장을 반복했다. '드디어 쓸모있는 AI가 도래했다.' '수요가 포물선처럼 폭발하고 있다.'

이 발표의 핵심은 두 가지다. 하나는 에이전트 AI — 도구를 다단으로 호출하며 스스로 작업을 쪼개 풀어가는 자율형 AI — 가 본격 상용화 단계에 들어섰다는 선언. 다른 하나는 그 워크로드가 퍼블릭 클라우드에서 사내 데이터센터와 엣지 (edge, 사용자 단말 또는 그 가까운 분산 노드) 로 이동 중이라는 진단이다.

Dell 자체 조사의 수치는 명료하다. 추론 (inference, 학습된 모델이 답을 내는 단계) 의 67%가 이미 퍼블릭 클라우드 밖에서 돈다. 사내에서 AI 워크로드를 하나 이상 운영하는 기업은 88%. '클라우드 우선' 정책이 무너지는 변곡점이 처음으로 숫자로 드러났다 (출처: Dell Technologies World 2026 조사).

같은 자리에서 NVIDIA는 Vera Rubin NVL72 기반 PowerEdge XE9812를 공개했다. NVIDIA 자체 측정으로 기존 Blackwell 대비 토큰당 비용이 1/10. Dell은 Deskside Agentic AI — 책상 옆에 두는 AI 워크스테이션·서버 — 를 30B부터 1T (조) 파라미터 모델까지 처리하는 3단 구성으로 발표했다. 데스크사이드부터 데이터센터까지 풀스택이 한자리에 모인 셈이다.
삼성전자 281,000 +3.88% 3M
SK하이닉스 1,840,000 +1.15% 3M
코스피 7,516 +0.31% 3M
삼성전자 (005930)
2026-02-15 ~ 2026-05-18 · +47.89% (190,000 → 281,000)
출처: KRX / 2026-02-15 ~ 2026-05-18 / 일간
Takeaway 삼성전자 기간 중 167,200~296,000 사이 상승 — 마지막 281,000 (+47.89%), 변동폭 77.0%
왜 사내인가

추론 회귀의 경제학 — 보안, 지연, 토큰

에이전트 AI가 사내·엣지로 가는 이유는 세 갈래다. 보안, 지연시간, 그리고 토큰 비용.

첫째, 데이터 주권. 에이전트는 회사의 코드 저장소·고객 DB·의료 기록 같은 민감한 사내 데이터에 상시 접근한다. 매 호출을 외부 API로 보내면 데이터가 사외로 흐른다. 사내 추론이면 데이터는 방화벽 안에 머문다.

둘째, 지연. 에이전트는 한 답을 내기 위해 도구를 다섯·열 번씩 호출한다. 매번 퍼블릭 클라우드 왕복을 하면 사용자가 답을 받기까지 십수 초가 흐른다. 사내·엣지면 왕복 한 번이 수십 밀리초.

셋째, 토큰. 황은 에이전트 추론의 컴퓨트 요구량이 단순 챗 대비 100배에서 1000배라고 말했다. CoT (Chain-of-Thought, 모델이 문제를 단계별로 풀어가는 사고 사슬) 와 롱컨텍스트 (long-context, 긴 문서·대화 이력을 한 번에 처리) 가 결합되면 토큰 — LLM의 텍스트 처리 최소 단위 — 소비가 폭증한다. 퍼블릭 클라우드 API의 토큰당 단가는 일정 수준 이하로 떨어지지 않는다. Dell의 자체 추정으로는 2년 누적 기준 Deskside가 퍼블릭 API 대비 최대 87% 저렴하다. 손익분기는 3개월. 단 초기 설비 투자비 (CAPEX, Capital Expenditure) 부담은 별개의 이야기다.

이 세 축이 합쳐지면 결과는 분명하다. 학습 (training, 모델을 만드는 단계) 은 여전히 데이터센터 집중이 합리적이지만, 추론과 에이전트는 사내로 회귀한다.
클라우드 밖 추론 비중
67%
Dell 조사 / 2026
사내 AI 1개 이상 운영
88%
엔터프라이즈 기업
에이전트 vs 챗 컴퓨트
100x ~ 1000x
황 발언
2년 비용 절감
-87%
Deskside vs 퍼블릭 API
손익분기 시점
3 개월
Dell 추정

메모리가 모든 것의 병목

황·델의 메시지가 시장에 강력하게 박힌 이유는 따로 있다. 추론이 어디서 돌든, 그것을 떠받치는 메모리가 절대적으로 부족하다는 사실이다.

2026년 1분기 DRAM 가격은 전 분기 대비 90% 올랐다. NAND는 38%. Counterpoint는 2분기 DRAM 추가 50% 상승을 전망한다 (출처: counterpointresearch.com). 단순 수요 폭발 때문이 아니다. HBM (High Bandwidth Memory, AI 가속기 옆에 직결되는 적층형 고대역폭 메모리) 으로 생산 capa가 옮겨가는 구조 전환이 핵심이다.

HBM 1비트를 만들려면 DDR5 (5세대 서버·데스크탑용 DRAM 규격) 대비 약 3배의 웨이퍼가 든다. 메모리 회사 전체 DRAM 웨이퍼 중 HBM 점유율은 2025년 19%에서 2026년 23%로 늘었다 (출처: TrendForce). 일반 DRAM 공급은 그만큼 빠진다는 말이다.

물량 측면도 빡빡하다. Micron은 2026년 HBM 물량이 연말까지 매진이라고 공시했다. 삼성전자와 SK하이닉스의 2026년 HBM 물량 역시 사실상 예약 완료, 일부는 2027년분까지 계약이 닫혔다. 5월 8일 AMD MI400 시리즈에 삼성 HBM4가 채택되면서 마지막 남은 capa도 빠르게 소진되고 있다.

SK하이닉스 1분기 매출 52.58조 원 (+198%), 영업이익 37.61조 원 (+405%) 은 이 슈퍼사이클의 첫 분기 단면이다 (출처: cnbc.com, 2026-04-23). 황이 무대에서 '수요가 포물선처럼 폭발'이라고 말했을 때, 그 포물선의 한쪽 끝은 메모리 회사의 손익계산서에 이미 그려져 있었다.
HBM 1비트는 DDR5의 3배 웨이퍼를 먹는다. 메모리 공급 곡선의 모양은 그것만으로 결정된다.

데스크사이드부터 데이터센터까지 — 풀스택 동맹

발표의 라인업은 끝과 끝을 잇는다. 한쪽 끝은 책상 옆 데스크사이드, 다른 쪽 끝은 데이터센터 랙이다.

Dell Pro Max GB10은 30B부터 200B 파라미터 모델을 책상 옆에서 돌리는 워크스테이션이다. Pro Precision 9에 RTX PRO Blackwell 카드 다섯 장을 꽂으면 약 500B 모델까지 올라간다. GB300 클러스터는 약 1T (조) 파라미터까지 처리한다. 책상 옆에서 1조 파라미터가 돈다는 의미다.

데이터센터 쪽은 PowerEdge XE9812다. Vera Rubin NVL72를 탑재한 랙스케일 시스템이다. NVIDIA 측정으로 Blackwell 대비 토큰당 비용이 1/10. Vera CPU의 메모리 대역폭은 1.2 TB/s. NVIDIA는 이 수치가 에이전트 샌드박스 실행 — 도구를 호출할 때마다 격리된 환경을 열고 닫는 절차 — 의 50% 가속을 가능케 한다고 밝혔다. 뒤집어 보면 에이전트의 오버헤드 (overhead, 본 작업 외에 부수적으로 드는 자원) 가 그동안 CPU 메모리 대역폭에 묶여 있었다는 자인이기도 하다.

스택 전체를 한 회사가 묶은 의미는 작지 않다. 엔터프라이즈 고객은 통상 칩·서버·소프트웨어를 따로 산다. 통합 책임이 분산되면 문제 발생 시 손가락질이 갈 곳이 많다. Dell + NVIDIA 묶음은 그 책임을 단일화한다. 다만 두 회사에 묶이는 락인 (lock-in, 특정 벤더에 깊게 의존하는 상태) 의 강도도 그만큼 높아진다.
Dell Deskside Agentic AI 의 모델 처리 구간
워크스테이션 한 대로 200B, 한 클러스터로 1T — 데스크사이드와 데이터센터의 경계가 흐려진다
출처: Dell Technologies World 2026 키노트 / 2026-05-18
Takeaway 30B 부터 1T 까지 — 책상 옆에서 1조 파라미터 모델까지 닿는 첫 라인업.

다섯 가지 시나리오

앞으로 2~3년의 분기점을 다섯 가지로 추린다. 각 시나리오의 확률은 분석가의 판단이며, 영향 — 산업 전반의 매출·자본 흐름 변화 폭 — 역시 정량 데이터가 아닌 추정이다.

첫째 시나리오. 메모리 슈퍼사이클이 2027년 너머까지 지속된다. HBM·DDR5의 fab (반도체 공장) 증설 사이클은 통상 24~30개월. 2026년에 발표된 증설이 양산 라인에 들어오는 시점은 2027년 중반 이후다. 그 사이 에이전트 워크로드가 예상대로 확산되면 부족은 해소되지 않는다. 확률 약 70%, 영향 큼.

둘째 시나리오. 사내·엣지 추론이 영구 표준으로 자리잡는다. 보안과 토큰 비용 두 축은 일시적 요인이 아니다. 한 번 사내 인프라를 깐 기업은 다시 클라우드로 옮길 동기가 약하다. 확률 약 55%, 영향 큼.

셋째 시나리오. 퍼블릭 클라우드 사업자가 반격한다. AWS·Azure·GCP가 자체 NPU (Neural Processing Unit, 신경망 가속 칩) 와 추론 전용 인스턴스를 공격적으로 깎으면 손익분기 3개월 가설이 흔들린다. 클라우드 사업자에게 추론 마진은 포기할 수 없는 영역이다. 확률 약 60%, 영향 중간.

넷째 시나리오. HBM capa가 예상보다 빨리 회복되어 2027년 초 가격 거품이 빠진다. 삼성·SK·Micron이 동시에 증산을 가속하면 공급 곡선이 가파르게 우상향한다. 그 경우 메모리주에 풀린 valuation이 단기 조정을 받는다. 확률 약 25%, 영향 큼.

다섯째 시나리오. AI PC 일반화로 엣지 추론이 워크스테이션을 우회한다. Gartner는 2026년 AI PC 출하 1.43억 대, 시장의 55%를 점친다. NPU 40 TOPS (Tera Operations Per Second, 초당 1조 회 연산) 이상이면 7~13B 양자화 (quantization, 모델 정밀도를 낮춰 메모리·연산 요구를 줄이는 기법) 모델이 단말에서 돈다. 가벼운 에이전트는 데스크사이드도 아닌 노트북 위에서 끝난다. 확률 약 65%, 영향 중간.
다섯 시나리오의 확률·영향 지도
기준선은 1·2번의 결합 — 4번이 가장 큰 다운사이드 변동성
출처: key figures 기반 분석가 판단 / 2026-05-19
Takeaway 확률·영향 모두 높은 영역에 1·2번이 모인다. 4번은 확률은 낮지만 영향이 커 헷지 대상.

모순과 반대 가설

이 진단의 가장 큰 균열은 두 곳에 있다.

첫째 균열은 온프레미스 (on-premises, 사내 자체 인프라) 회귀가 진짜 영구한가다. 황·델의 주장처럼 보안·지연·토큰이 사내 회귀의 구조적 동력이라면, 그 동력은 향후 5년 이상 유효하다. 그러나 반대 입장도 만만치 않다. 퍼블릭 클라우드 사업자가 자체 NPU (예: AWS Trainium·Inferentia, Azure Maia, Google TPU) 와 전용 인프라로 추론 단가를 빠르게 끌어내리면, 사내 CAPEX 대비 OPEX (Operating Expenditure, 운영비) 의 경제성이 다시 역전될 수 있다. 사내 인프라는 한 번 깔면 5~7년 운영비를 떠안는다. 그동안 클라우드 가격은 12~18개월 주기로 떨어지는 경향이 있다. 사내 회귀가 과도기적일 가능성도 진지하게 보아야 한다.

둘째 균열은 메모리 슈퍼사이클의 지속성이다. SK하이닉스 1분기 영업이익 +405%는 그 자체로 정점 신호이기도 하다. 시장은 좋은 뉴스에 먼저 반응하고, 그 뒤로는 둔화율을 가격에 반영한다. 메모리주의 추가 상승 여력이 펀더멘털보다 빠르게 소진되면, 2026년 하반기에 한 차례 조정이 들어올 가능성이 있다. 반대로 에이전트 워크로드의 토큰 소비가 Dell이 인용한 3,400% 가까이 폭증한다면 그 조정은 일시적 숨고르기에 그친다.

황과 델이 같은 무대에 함께 오른 사실 자체는, 이들이 보는 미래상이 일치한다는 신호다. 그러나 일치하는 두 시각이 항상 시장 균형을 가리키는 것은 아니다. 두 사람 모두 자사 제품 (NVIDIA 칩 + Dell 서버) 의 수요를 강조할 인센티브가 있다는 사실은 메시지의 해석 폭에 들어가야 한다.

무엇을 볼 것인가

앞으로 6~12개월의 신호는 다음과 같다.

먼저 2026년 2~4분기 메모리 가격 추세다. Counterpoint의 2분기 +50% 전망이 실제로 들어맞으면 슈퍼사이클은 1년 더 연장. 못 미치면 capa 회복이 예상보다 빠르다는 신호다.

다음은 Dell·HPE·Supermicro의 2026년 하반기 엔터프라이즈 서버 출하 데이터. 사내·엣지 회귀가 진짜라면 데이터센터 서버 출하는 위쪽으로 꺾여야 한다. 평탄하면 황·델의 메시지가 마케팅 색채에 가깝다는 단서가 된다.

마지막은 AWS·Azure·GCP의 추론 가격표다. 자체 NPU 인스턴스 가격을 분기마다 두 자릿수씩 깎는다면 클라우드 반격 시나리오가 현실로 들어온다.

황은 '수요가 포물선처럼 폭발'이라고 했다. 포물선의 정점이 언제 어디에 찍히는지는 위 신호들이 6~12개월 안에 알려준다.
반대 관점 / 모순

봉합하지 않은 충돌

추론의 사내·엣지 회귀는 보안·지연·비용의 구조적 동력에 기반한 영구 추세 반면 퍼블릭 클라우드의 자체 NPU 와 가격 인하가 손익분기를 흔들면 회귀는 과도기적 현상에 그친다 Dell의 -87% 2년 비용 절감 추정은 현재 클라우드 토큰 단가를 기준으로 한 것. 클라우드 사업자가 12~18개월 안에 토큰 단가를 절반으로 깎으면 손익분기 3개월 가설은 흔들린다. 현 시점에서는 보안·지연 두 축이 비용보다 우선 — 즉 사내 회귀의 손을 들어준다. 그러나 클라우드 사업자의 자체 NPU 칩이 2027년 안에 추론 단가를 30% 이상 추가 인하하면 반대 입장이 되살아난다.

메모리 슈퍼사이클은 2027년 너머까지 지속된다 반면 SK하이닉스 +405%는 정점 신호이며 2026년 하반기에 가격 조정이 온다 HBM capa 전환이 구조적이라는 점은 side_a를 뒷받침. 그러나 메모리는 통상 가격 신호가 capa 증설을 자극해 24~30개월 후 공급이 회복되는 산업이다 — 이번에도 그 사이클이 반복될 가능성이 있다. 기준선은 side_a — 2027년 중반까지 부족 지속. 단 AMD·NVIDIA의 차세대 칩에 HBM4E가 적기 양산되지 않거나, 중국발 수요가 제재로 꺾이면 side_b의 단기 조정 시나리오가 트리거된다.

본 분석의 가정이 다음 5개 지점에서 시험된다. 한 곳이라도 반대 방향으로 움직이면 결론은 다시 작성되어야 한다.

2026-07-15
💾 Q2 2026 DRAM 가격 발표

Counterpoint 전망 (+50%) 대비 실제 인상폭이 얼마나 들어맞는지

메모리 슈퍼사이클 지속 vs 단기 조정 분기
2026-11-15
🖥️ Dell·HPE·Supermicro 3Q26 서버 출하

엔터프라이즈 데이터센터 서버 출하의 위쪽 꺾임 신호

사내·엣지 회귀가 마케팅인지 실제 추세인지
2026-12-01
☁️ AWS·Azure 자체 NPU 추론 가격 인하

Trainium·Maia 인스턴스의 토큰 단가 변동폭

클라우드 사업자 반격 시나리오 트리거
2027-03-31
🏭 Micron·삼성 HBM4E 양산 일정

차세대 HBM의 적기 공급 여부

공급 회복 속도 — 거품 조정 시나리오 분기
2027-02-28
💻 Gartner 2026 AI PC 출하 실적 확정

1.43억 대 / 시장 55% 전망의 실제 달성치

엣지 추론 일반화 가속 여부
신뢰도 (78%)
1차 출처 (NVIDIA 블로그·Bloomberg·SK하이닉스 실적 공시) 와 시장 조사사 (Counterpoint·TrendForce·Gartner) 가 교차 확증. 가격·점유율 수치는 신뢰도 높으나, 시나리오 확률은 분석가 판단이며 메모리 공급 회복 속도 변수가 큼.
분석가의 한계
발표는 끝났지만 청구서는 아직 도착하지 않았다. 메모리 가격·서버 출하·클라우드 단가의 다음 분기 데이터가 황·델의 무대를 사후 채점한다.