NVIDIA는 GPU(컴퓨트) + HBM(고대역폭 메모리) → Grace CPU + SOCAMM(또는 Vera CPU 통합) → NVLink/NVSwitch(인터커넥트)로 이어지는 전체 AI 플랫폼을 수직 통합(full-stack)으로 주도해 왔죠. 이제 스토리지 전략으로 넘어가 보겠습니다.
1. 과거~현재: GPUDirect Storage 중심의 “데이터 병목 해소” 전략
NVIDIA는 스토리지를 직접 제조하지 않고, GPU가 최대 성능을 발휘할 수 있도록 스토리지 → GPU 데이터 경로를 최적화하는 데 집중했습니다.
• 핵심 기술: Magnum IO GPUDirect Storage (GDS)
◦ NVMe/NVMe-oF 스토리지에서 GPU 메모리로 직접 DMA 전송 (CPU 메모리 bounce buffer 우회).
◦ CPU 오버헤드 ↓, latency ↓, throughput ↑ (DGX 시스템에서 수십~200GB/s+ 달성).
◦ AI 훈련/추론에서 대용량 데이터셋 로딩 병목을 크게 완화. WEKA, VAST Data, DDN, Pure Storage, Cloudian 등 거의 모든 주요 스토리지 벤더가 GDS를 지원/인증.
• BlueField DPU 역할 강화
◦ BlueField-3/4 DPU를 스토리지 서버나 네트워크에 배치해 NVMe-oF, RDMA, storage offload를 가속.
◦ 스토리지 처리(압축, 암호화, erasure coding 등)를 DPU에서 처리 → 호스트 CPU/GPU 부하 감소.
◦ 과거에 SwiftStack(오브젝트 스토리지), Excelero(NVMesh SDS) 등을 인수해 소프트웨어 기술을 보강.
NVIDIA는 스토리지를 “NVIDIA-Certified Storage” 프로그램으로 파트너 생태계를 구축하면서, 자체 하드웨어는 최소화하고 인터페이스(GPUDirect + BlueField + Spectrum-X Ethernet)로 지배력을 행사했습니다.
2. 미래 전략 (Vera Rubin 시대, 2026~): AI-Native Storage + Inference Context Memory
Rubin 플랫폼에서 NVIDIA는 스토리지를 단순 I/O가 아닌, AI inference의 핵심 자원으로 재정의하고 있습니다. 특히 Agentic AI(장기 컨텍스트, multi-turn reasoning)에서 KV Cache(키-밸류 캐시)가 폭발적으로 커지면서 새로운 tier가 필요해졌기 때문입니다.
주요 신규 요소:
<1> NVIDIA Inference Context Memory Storage Platform (CMX / Context Memory Tier)
◦ BlueField-4 Storage Processor가 핵심 동력.
◦ GPU 메모리(HBM)와 기존 네트워크 스토리지 사이에 새로운 중간 tier를 만들어 KV Cache를 pod/rack-scale로 공유·재사용.
◦ 효과: tokens-per-second 최대 5배 ↑, power efficiency 5배 ↑, TCO 개선.
<2> BlueField-4 중심의 AI-Native Storage
◦ KV Cache를 고속 공유하면서, GPU stall(대기) 최소화.
◦ Spectrum-X Ethernet + DOCA 소프트웨어와 결합해 predictable low-latency RDMA 제공.
◦ Vera Rubin NVL 시스템에서 BlueField-4 STX Storage Rack 형태로 등장할 전망.
<3> 전반적 방향
◦ 3-tier memory hierarchy 강화: GPU HBM (빠름, 작음) → Context Memory (BlueField-4, 중간) → Traditional Storage (대용량).
◦ 소프트웨어-정의 + DPU offload를 극대화해, 스토리지 자체를 NVIDIA 소프트웨어 스택(DOCA, Dynamo 등) 안으로 끌어들임.
◦ 파트너(WEKA, VAST, DDN, NetApp, IBM Storage Scale 등)와 협력하면서도, 인프라 아키텍처의 표준을 NVIDIA가 정하는 형태.
요약: NVIDIA의 스토리지 철학
• 과거: “GPU가 스토리지를 최대한 빨리 먹을 수 있게 해주자” (GDS + BlueField)
• 현재~미래 (Rubin): “스토리지를 AI inference의 첫 클래스 자원으로 승격” → Context/KV Cache를 시스템 레벨에서 관리하고 공유.
NVIDIA는 스토리지 하드웨어를 직접 팔기보다는, 전체 AI 팩토리의 데이터 플레인을 장악하는 전략을 이어가고 있습니다. 이는 GPU 판매를 지속적으로 견인하는 full-stack lock-in 효과를 극대화하죠.
CMX (Context Memory eXtension / Context Memory Storage)는 NVIDIA가 Rubin(Vera Rubin) 플랫폼에서 도입한 AI-native context memory tier입니다. 특히 long-context, multi-turn, agentic AI inference에서 폭발적으로 증가하는 KV Cache(Key-Value Cache)를 효율적으로 관리하기 위한 새로운 중간 계층(G3.5 tier)입니다.
1. 왜 CMX가 필요한가? (배경)
Transformer 모델의 inference에서 KV Cache는 이전 토큰들의 Key와 Value 벡터를 저장해 attention 연산을 재계산하지 않도록 합니다. 컨텍스트 길이가 수백만 토큰으로 늘어나고, Agentic AI(다단계 reasoning, multi-turn)에서 이 캐시를 공유·재사용해야 하면서 문제가 발생합니다.
• 기존 계층(G1~G4)의 한계:
◦ G1: GPU HBM (매우 빠름, 용량 작음)
◦ G2: Host DRAM
◦ G3: Local SSD (노드 단위, 공유 어려움)
◦ G4: Shared Enterprise Storage (대용량이지만 latency 높고, power inefficient)
KV Cache는 ephemeral(일시적)하고 recomputable(재계산 가능)한데, G4처럼 durability-heavy 스토리지를 쓰면 power·latency overhead가 크고, G1~G3만으로는 용량이 부족합니다. → G3.5 tier로 pod/rack-scale 공유 플래시 계층을 추가.
2. CMX의 전체 아키텍처
• Pod-level 공유: 하나의 AI Pod(예: 1,152 GPU 규모) 내에서 KV Cache를 공유.
• 주요 구성 요소:
◦ BlueField-4 Storage Processor (핵심): CMX 스토리지 엔클로저와 GPU 노드의 DPU에서 모두 사용.
◦ Spectrum-X Ethernet: AI-optimized RDMA fabric (low-latency, low-jitter, high-bandwidth).
◦ DOCA Memos: KV communication/storage layer SDK (KV block 관리, sharing, placement).
◦ NVIDIA Dynamo + NIXL (NVIDIA Inference Transfer Library): KV Block Manager가 context 이동 오케스트레이션.
◦ STX Reference Architecture: CMX가 기반으로 하는 모듈러 AI 스토리지 설계.
물리적 형태: 별도 랙의 STX/CMX 엔클로저(예: BlueField-4 4개 + 대용량 NVMe SSD 탑재, 수백 TB 규모).
3. 구체적인 작동 원리 (Workflow)
<1> KV Cache 생성 및 Spilling:
◦ Prefill/Decode 중 GPU(HBM, G1)에서 KV Cache 생성.
◦ HBM/DRAM 용량 초과 시 → BlueField-4 DPU를 통해 RDMA로 CMX(G3.5)로 spill/offload.
◦ BlueField-4가 NVMe-oF, object/RDMA, NVMe KV extensions 등을 가속·offload (CPU 부하 최소화, encryption/integrity accelerator 사용).
<2> Pre-staging (미리 가져오기):
◦ Dynamo의 KV Block Manager + NIXL이 다음 decode 단계에서 필요할 KV block을 예측하고 미리 CMX → G2/G1으로 pre-stage.
◦ Spectrum-X의 predictable low-latency RDMA 덕분에 GPU stall(대기) 최소화.
<3> Sharing & Reuse:
◦ Pod 내 다른 GPU/노드에서 동일 context(또는 유사 agent) 필요 시, CMX에 저장된 KV를 직접 공유.
◦ DOCA Memos가 KV를 first-class resource로 관리 → 중복 저장 줄이고, locality-aware placement (Grove 등 사용).
<4> I/O 처리:
◦ BlueField-4가 storage control plane + data plane offload.
◦ GPU → BlueField-4(DPU in GPU node) → Spectrum-X RDMA → CMX enclosure(BlueField-4 + NVMe) → zero-copy-like data movement.
◦ KV Cache는 ephemeral하므로, heavy durability(복제, checksum 등)는 최소화 → power efficiency 극대화.
<5> G4와의 구분:
◦ CMX(G3.5)는 active/latency-sensitive KV 전용.
◦ Inactive history, logs 등은 G4(기존 shared storage)로 이동.
4. 성능 효과
• 5x higher Tokens-Per-Second (TPS).
• 5x better power efficiency (전통 스토리지 대비).
• GPU utilization ↑, cost per token ↓.
• Pod-scale 공유로 stranded capacity(유휴 자원) 감소.
CMX는 NVIDIA가 스토리지를 단순 I/O가 아닌, inference의 핵심 memory tier로 승격시킨 전략의 핵심입니다. BlueField-4 + Spectrum-X + DOCA/Dynamo 조합으로 full-stack control을 강화하죠.
BlueField-4 DPU의 KV Cache Offload 메커니즘은 NVIDIA Rubin(CMX/ICMS) 플랫폼에서 G3.5 Context Memory Tier를 실현하는 핵심입니다. BlueField-4는 단순 네트워킹/스토리지 DPU를 넘어 KV I/O Plane 전체를 가속·오프로드합니다.
1. BlueField-4의 하드웨어 구성 (KV Offload에 최적화)
• 고성능 Arm 코어 + Grace CPU 통합: BlueField-4는 다수의 Arm 코어(최대 64 Grace 코어급)와 고대역폭 메모리를 탑재해 control plane과 data plane을 모두 처리.
• 전용 하드웨어 Accelerator:
◦ Crypto/Integrity Accelerator (encryption, CRC, data protection) — KV 데이터 이동 시 host CPU 부하 없이 line-rate 처리.
◦ PCIe Switch + Networking Engine — NVMe-oF, RDMA, object/RDMA protocol termination.
◦ Storage Offload Engine — NVMe KV extensions 지원.
• Spectrum-X Ethernet 연결: AI 최적화 RDMA fabric (low-jitter, predictable low-latency).
CMX 스토리지 엔클로저에서는 보통 4개의 BlueField-4가 사용되며, 각 DPU가 대용량 NVMe SSD(총 ~600TB 규모)를 관리합니다.
2. KV Cache Offload Workflow (단계별 작동 원리)
1 Spill / Eviction (GPU → CMX):
◦ GPU HBM(G1) 또는 Host DRAM(G2)에서 KV Cache가 용량 초과 시, GPU 노드의 BlueField-4 DPU가 이를 감지.
◦ Dynamo의 KV Block Manager + **NIXL (NVIDIA Inference Transfer Library)**가 KV block을 비동기적으로 offload 지시.
◦ BlueField-4가 zero-copy-like RDMA를 통해 KV 데이터를 Spectrum-X Ethernet으로 전송 (host CPU/memory bounce 최소화).
◦ CMX 측 BlueField-4가 데이터를 수신 → NVMe SSD에 저장하면서 hardware accelerator로 integrity/encryption 처리.
2 Protocol Termination & Offload:
◦ BlueField-4가 NVMe-oF / object/RDMA protocols를 직접 terminate.
◦ 전통 방식처럼 host CPU가 protocol stack을 처리하지 않음 → serialization, memory copy, CPU overhead 대폭 감소.
◦ DOCA Memos SDK가 KV를 first-class resource로 관리 (key-value API 제공).
3 Pre-staging / Fetch (CMX → GPU):
◦ Dynamo KV Block Manager가 decode 단계에서 필요할 KV block을 예측 (prefetch/pre-stage).
◦ CMX 측 BlueField-4 → Spectrum-X RDMA → GPU 노드 BlueField-4 → GPU HBM/G2로 low-latency 전송.
◦ Spectrum-X의 congestion control과 adaptive routing으로 jitter 최소화 → GPU stall 방지.
4 Sharing & Reuse (Pod-scale):
◦ Pod 내 다른 GPU/노드에서 동일하거나 유사한 context 필요 시, CMX에 저장된 KV를 직접 공유.
◦ BlueField-4가 placement, access control, isolation을 hardware level에서 enforce.
◦ DOCA Memos + NIXL 조합으로 locality-aware sharing (중복 저장 최소화).
3. Offload의 핵심 장점 (BlueField-4가 담당하는 부분)
• Host CPU / GPU 부하 최소화: Networking, Storage I/O, Encryption, Integrity, Data Movement 등을 DPU에서 완전 offload.
• Ephemeral KV 최적화: KV Cache는 recomputable하고 nondurable하므로, heavy durability(복제, checksum 등)는 최소화 → power efficiency 5배 향상.
• Predictable Performance: Spectrum-X + BlueField-4 조합으로 tail latency 감소, Tokens-Per-Second(TPS) 최대 5배 증가.
• Zero-copy-like Movement: GPU → DPU → RDMA → CMX DPU → NVMe 간 불필요한 복사 제거.
4. 소프트웨어 스택과의 연동
• DOCA Memos: BlueField-4 전용 KV communication/storage layer SDK. Inference framework(Hugging Face, vLLM 등)와 인터페이스.
• NVIDIA Dynamo + NIXL: KV Block Manager + Asynchronous Transport Library. Offload/retrieval 오케스트레이션.
• Grove: Topology-aware workload placement.
BlueField-4는 “KV Cache를 GPU의 확장 메모리로 만드는” 역할을 합니다. 기존 스토리지는 durability 중심이었지만, BlueField-4 + CMX는 latency-sensitive, shareable, ephemeral context에 특화된 AI-native storage를 구현한 것입니다.
NVIDIA Spectrum-X Ethernet의 RDMA 최적화 기술은 전통 Ethernet의 한계를 극복하고, AI 워크로드(특히 All-to-All, Collective Communication, KV Cache offload)에 최적화된 RoCE(RDMA over Converged Ethernet) 확장 기술입니다. Spectrum-X는 InfiniBand 수준의 예측 가능성과 성능을 Ethernet에서 구현하면서, 클라우드/멀티테넌시 환경에도 적합하게 설계되었습니다.
1. Spectrum-X RDMA의 전체 철학
• 목표: 100,000+ GPU 규모에서 95% effective bandwidth, ultra-low latency + low jitter, deterministic performance.
• 기반: RoCEv2 + NVIDIA 전용 RoCE Extensions (Adaptive Routing, Congestion Control, Performance Isolation 등).
• 주요 구성: Spectrum-X Switches (Spectrum-4/6) + SuperNICs (ConnectX / BlueField-4) + Spectrum-X Ethernet Photonics.
2. 핵심 RDMA 최적화 기술
(1) RoCE Adaptive Routing (세밀한 적응형 라우팅)
• fine-grained per-packet load balancing: RDMA 플로우를 패킷 단위로 동적으로 rerouting.
• Congestion이 발생하면 즉시 다른 경로로 우회 → elephant flow(대용량 플로우)로 인한 hotspot 방지.
• 장점: Effective bandwidth 대폭 향상 (전통 Ethernet 대비 1.6~4x), tail latency 감소.
• AI Collective (NCCL All-Reduce 등)에서 특히 강력.
(2) Advanced RoCE Congestion Control
• Programmable + Topology-aware Congestion Control: In-band telemetry를 통해 실시간 네트워크 상태 수집 (sub-microsecond feedback loop).
• Sender-side rate adjustment + switch-side marking.
• PFC(Priority Flow Control) + DCQCN 기반을 NVIDIA가 대폭 강화 → lossless-like 동작하면서도 Ethernet의 장점 유지.
• 결과: Incast congestion(여러 노드가 동시에 하나의 노드로 몰리는 현상) 최소화, jitter 극소화.
(3) RoCE Performance Isolation
• Multi-tenancy QoS: 서로 다른 테넌트/워크로드 간 성능 간섭 방지.
• Hardware-level isolation로, 한 테넌트의 bursty traffic이 다른 테넌트의 latency에 영향을 주지 않음.
• AI 클라우드 환경에서 필수적인 기능.
(4) Direct Data Placement (DDP) + Out-of-Order Handling
• SuperNIC(BlueField-4 등)에서 hardware-accelerated DDP: RDMA 데이터를 CPU/GPU 메모리에 직접 배치하면서 out-of-order packet도 효율적으로 처리.
• GPU Direct RDMA와 결합되어 CPU bounce buffer 완전 우회.
(5) MRC (Multipath Reliable Connection) 지원
• 최근 Open Compute Project를 통해 공개된 RDMA transport protocol.
• 하나의 RDMA connection을 multiple network paths로 분산 → throughput ↑, resiliency ↑, load balancing 강화.
• Spectrum-X 하드웨어에서 native 지원 (Adaptive RDMA와 함께 선택 가능).
(6) Precision Latency Management & Telemetry
• End-to-end high-frequency telemetry + nanosecond granularity monitoring.
• Predictable low-latency RDMA fabric 제공 → KV Cache pre-staging/fetch 시 GPU stall 최소화.
3. CMX / KV Cache Offload에서의 역할
Spectrum-X는 BlueField-4 DPU와 긴밀히 연동되어:
• GPU 노드 ↔ CMX Storage Enclosure 간 low-jitter RDMA 제공.
• KV Cache spill / pre-stage / sharing을 predictable하게 처리.
• 5x TPS 향상과 power efficiency 개선의 핵심 네트워크 인프라.
Spectrum-X는 “Ethernet으로 InfiniBand-like AI fabric을 구현”한 NVIDIA의 전략적 산물입니다. BlueField-4 + DOCA + Dynamo 스택과 함께 사용할 때 KV Cache 중심 inference에서 최대 효과를 발휘하죠. [끝]

[부록] 스토리지 시스템의 역사 - https://thekeundol.tistory.com/m/434
스토리지 시스템 진화 역사
전통 데이터센터에서 AI 시대까지 스토리지 시스템의 발전 과정은 하드웨어 중심의 고정적 저장에서 데이터 중심·GPU 중심의 지능형 플랫폼으로의 근본적인 전환을 보여줍니다. 아래에 시대별
thekeundol.tistory.com
[부록] Nvidia의 독주에 대한 Hyperscaler들의 대안 접근
Hyperscalers(Google, Amazon, Microsoft, Meta 등)의 NVIDIA 의존 탈피 전략은 이미 상당히 구체적이고 적극적으로 진행 중입니다. NVIDIA가 GPU + NVLink + Spectrum-X + BlueField + CUDA full-stack으로 AI datacenter를 주도하는 것은 사실이지만, hyperscalers는 비용·lock-in·공급망 위험을 줄이기 위해 다각적인 대안을 강구하고 있습니다.
1. 핵심 전략: Custom ASIC (자체 AI 칩) 개발 및 확대
Hyperscalers는 자체 워크로드에 최적화된 ASIC으로 NVIDIA GPU 의존도를 낮추고 있습니다. ASIC은 특정 작업(특히 Inference)에서 전력 효율·비용에서 GPU를 앞섭니다.
• Google: TPU v5/v6/v7 (Ironwood) 시리즈 — 가장 성숙. Gemini 모델 등 내부 훈련·추론에 대규모 사용. Meta와도 협력 논의 중.
• Amazon (AWS): Trainium 3 (2026 ramp-up) + Inferentia — 훈련 비용 50% 절감 주장. Graviton CPU와 결합.
• Microsoft: Maia 100/200 — Azure 내부 배포 확대. OpenAI 지원과 병행.
• Meta: MTIA (Meta Training/Inference Accelerator) — 추천 시스템·inference 특화.
2026년 전망: Custom ASIC 시장 점유율이 급성장 (전체 AI accelerator의 20~28% 수준). NVIDIA GPU는 여전히 training 고성능에서 강하지만, inference와 일부 training에서 ASIC이 대체 중입니다.
2. 오픈 인터커넥트 표준 추진 (UALink + UEC)
NVIDIA의 NVLink/Spectrum-X proprietary stack에 대한 직접적 대응.
• UALink (Ultra Accelerator Link): AMD 주도로 Google, Microsoft, Meta, Intel, Broadcom 등이 참여한 오픈 Scale-Up 표준. NVLink처럼 memory-semantic interconnect지만, Ethernet PHY 재사용으로 비용 ↓, 멀티벤더 지원.
◦ 목표: 1,024 accelerators 규모 Pod에서 multi-vendor (AMD + Intel + Custom ASIC) 혼합 사용.
◦ 2026년 evaluation hardware 등장 예정.
• Ultra Ethernet Consortium (UEC): Scale-Out 네트워킹에서 Spectrum-X에 대응.
이로 인해 hyperscalers는 NVIDIA-only Pod 대신 heterogeneous(이종) 클러스터를 구축할 수 있는 옵션을 확보합니다.
3. Open Compute Project (OCP) 활용
• Hyperscalers가 주도하는 오픈 하드웨어 표준 운동.
• NVIDIA MGX 디자인 일부 기여받으면서도, Meta의 Helios AI Rack, Open Rack Wide 등 modular·disaggregated 설계 추진.
• Liquid cooling, 48V power, rack-scale standardization으로 TCO 절감과 공급망 다각화.
4. 기타 전략
• Software decoupling: CUDA 의존 줄이기 위해 Triton, vLLM, OneFlow 등 오픈 소프트웨어 + 자체 compiler/stack 개발.
• Hybrid 접근: 핵심 high-performance training은 NVIDIA 유지, volume inference·fine-tuning은 custom ASIC + AMD Gaudi 등으로 분산.
• Power & Facility 독립: 자체 데이터센터·전력 인프라 투자 (Blackstone 등과 협력), Tier 2 지역 확대.
• Broadcom/Marvell 등 co-design 파트너십: ASIC 설계 아웃소싱으로 개발 속도 가속.
현실적 평가 (2026년 기준)
• NVIDIA 완전 탈피는 어렵다: Training 최상위 모델(Frontier)에서는 NVIDIA의 full-stack(특히 NVLink + CUDA 생태계)이 여전히 가장 강력. NVIDIA 시장 점유율은 70%대 유지 예상.
• 그러나 의존도 감소는 분명: Hyperscalers 내부 workload의 30~50% 이상을 custom/대안으로 옮기는 추세. 비용 절감과 공급망 안정성 확보가 목적.
• NVIDIA도 대응: NVLink Fusion (타사 ASIC과 NVLink 연결 허용)으로 일부 lock-in 완화.
결론: Hyperscalers는 “NVIDIA 종속”을 피하기 위해 multi-vendor + custom silicon + open standard 전략을 병행하고 있습니다. 이는 NVIDIA의 지배력을 약화시키기보다는, AI datacenter 시장 전체를 더 건강하고 다양하게 만드는 방향으로 작용할 가능성이 큽니다.
[끝]
'반도체' 카테고리의 다른 글
| 반도체 역사 탐구 - 유산 (0) | 2026.05.29 |
|---|---|
| AI 메모리 효율화 기술과 수요 전망 (0) | 2026.05.25 |
| 한국 반도체 공급망 전략 심화 분석 (2026년 5월 기준) (0) | 2026.05.24 |
| 반도체 직무 소개 (0) | 2026.05.21 |
| TPU vs. GPU Architecture 차이 (0) | 2026.05.20 |