Nvidia의 연산과 메모리 수직 통합전략과 스토리지 전략에 대하여

반도체

Nvidia의 연산과 메모리 수직 통합전략과 스토리지 전략에 대하여

Yongki Brave Kim 2026. 5. 24. 13:18

NVIDIA는 GPU(컴퓨트) + HBM(고대역폭 메모리) → Grace CPU + SOCAMM(또는 Vera CPU 통합) → NVLink/NVSwitch(인터커넥트)로 이어지는 전체 AI 플랫폼을 수직 통합(full-stack)으로 주도해 왔죠. 이제 스토리지 전략으로 넘어가 보겠습니다.

1. 과거~현재: GPUDirect Storage 중심의 “데이터 병목 해소” 전략

NVIDIA는 스토리지를 직접 제조하지 않고, GPU가 최대 성능을 발휘할 수 있도록 스토리지 → GPU 데이터 경로를 최적화하는 데 집중했습니다.
• 핵심 기술: Magnum IO GPUDirect Storage (GDS)
◦ NVMe/NVMe-oF 스토리지에서 GPU 메모리로 직접 DMA 전송 (CPU 메모리 bounce buffer 우회).
◦ CPU 오버헤드 ↓, latency ↓, throughput ↑ (DGX 시스템에서 수십~200GB/s+ 달성).
◦ AI 훈련/추론에서 대용량 데이터셋 로딩 병목을 크게 완화. WEKA, VAST Data, DDN, Pure Storage, Cloudian 등 거의 모든 주요 스토리지 벤더가 GDS를 지원/인증.
• BlueField DPU 역할 강화
◦ BlueField-3/4 DPU를 스토리지 서버나 네트워크에 배치해 NVMe-oF, RDMA, storage offload를 가속.
◦ 스토리지 처리(압축, 암호화, erasure coding 등)를 DPU에서 처리 → 호스트 CPU/GPU 부하 감소.
◦ 과거에 SwiftStack(오브젝트 스토리지), Excelero(NVMesh SDS) 등을 인수해 소프트웨어 기술을 보강.
NVIDIA는 스토리지를 “NVIDIA-Certified Storage” 프로그램으로 파트너 생태계를 구축하면서, 자체 하드웨어는 최소화하고 인터페이스(GPUDirect + BlueField + Spectrum-X Ethernet)로 지배력을 행사했습니다.

2. 미래 전략 (Vera Rubin 시대, 2026~): AI-Native Storage + Inference Context Memory

Rubin 플랫폼에서 NVIDIA는 스토리지를 단순 I/O가 아닌, AI inference의 핵심 자원으로 재정의하고 있습니다. 특히 Agentic AI(장기 컨텍스트, multi-turn reasoning)에서 KV Cache(키-밸류 캐시)가 폭발적으로 커지면서 새로운 tier가 필요해졌기 때문입니다.

주요 신규 요소:
<1> NVIDIA Inference Context Memory Storage Platform (CMX / Context Memory Tier)
◦ BlueField-4 Storage Processor가 핵심 동력.
◦ GPU 메모리(HBM)와 기존 네트워크 스토리지 사이에 새로운 중간 tier를 만들어 KV Cache를 pod/rack-scale로 공유·재사용.
◦ 효과: tokens-per-second 최대 5배 ↑, power efficiency 5배 ↑, TCO 개선.
<2> BlueField-4 중심의 AI-Native Storage
◦ KV Cache를 고속 공유하면서, GPU stall(대기) 최소화.
◦ Spectrum-X Ethernet + DOCA 소프트웨어와 결합해 predictable low-latency RDMA 제공.
◦ Vera Rubin NVL 시스템에서 BlueField-4 STX Storage Rack 형태로 등장할 전망.
<3> 전반적 방향
◦ 3-tier memory hierarchy 강화: GPU HBM (빠름, 작음) → Context Memory (BlueField-4, 중간) → Traditional Storage (대용량).
◦ 소프트웨어-정의 + DPU offload를 극대화해, 스토리지 자체를 NVIDIA 소프트웨어 스택(DOCA, Dynamo 등) 안으로 끌어들임.
◦ 파트너(WEKA, VAST, DDN, NetApp, IBM Storage Scale 등)와 협력하면서도, 인프라 아키텍처의 표준을 NVIDIA가 정하는 형태.

요약: NVIDIA의 스토리지 철학
• 과거: “GPU가 스토리지를 최대한 빨리 먹을 수 있게 해주자” (GDS + BlueField)
• 현재~미래 (Rubin): “스토리지를 AI inference의 첫 클래스 자원으로 승격” → Context/KV Cache를 시스템 레벨에서 관리하고 공유.
NVIDIA는 스토리지 하드웨어를 직접 팔기보다는, 전체 AI 팩토리의 데이터 플레인을 장악하는 전략을 이어가고 있습니다. 이는 GPU 판매를 지속적으로 견인하는 full-stack lock-in 효과를 극대화하죠.

CMX (Context Memory eXtension / Context Memory Storage)는 NVIDIA가 Rubin(Vera Rubin) 플랫폼에서 도입한 AI-native context memory tier입니다. 특히 long-context, multi-turn, agentic AI inference에서 폭발적으로 증가하는 KV Cache(Key-Value Cache)를 효율적으로 관리하기 위한 새로운 중간 계층(G3.5 tier)입니다.

1. 왜 CMX가 필요한가? (배경)
Transformer 모델의 inference에서 KV Cache는 이전 토큰들의 Key와 Value 벡터를 저장해 attention 연산을 재계산하지 않도록 합니다. 컨텍스트 길이가 수백만 토큰으로 늘어나고, Agentic AI(다단계 reasoning, multi-turn)에서 이 캐시를 공유·재사용해야 하면서 문제가 발생합니다.

• 기존 계층(G1~G4)의 한계:
◦ G1: GPU HBM (매우 빠름, 용량 작음)
◦ G2: Host DRAM
◦ G3: Local SSD (노드 단위, 공유 어려움)
◦ G4: Shared Enterprise Storage (대용량이지만 latency 높고, power inefficient)

KV Cache는 ephemeral(일시적)하고 recomputable(재계산 가능)한데, G4처럼 durability-heavy 스토리지를 쓰면 power·latency overhead가 크고, G1~G3만으로는 용량이 부족합니다. → G3.5 tier로 pod/rack-scale 공유 플래시 계층을 추가.

2. CMX의 전체 아키텍처
• Pod-level 공유: 하나의 AI Pod(예: 1,152 GPU 규모) 내에서 KV Cache를 공유.
• 주요 구성 요소:
◦ BlueField-4 Storage Processor (핵심): CMX 스토리지 엔클로저와 GPU 노드의 DPU에서 모두 사용.
◦ Spectrum-X Ethernet: AI-optimized RDMA fabric (low-latency, low-jitter, high-bandwidth).
◦ DOCA Memos: KV communication/storage layer SDK (KV block 관리, sharing, placement).
◦ NVIDIA Dynamo + NIXL (NVIDIA Inference Transfer Library): KV Block Manager가 context 이동 오케스트레이션.
◦ STX Reference Architecture: CMX가 기반으로 하는 모듈러 AI 스토리지 설계.
물리적 형태: 별도 랙의 STX/CMX 엔클로저(예: BlueField-4 4개 + 대용량 NVMe SSD 탑재, 수백 TB 규모).

3. 구체적인 작동 원리 (Workflow)
<1> KV Cache 생성 및 Spilling:
◦ Prefill/Decode 중 GPU(HBM, G1)에서 KV Cache 생성.
◦ HBM/DRAM 용량 초과 시 → BlueField-4 DPU를 통해 RDMA로 CMX(G3.5)로 spill/offload.
◦ BlueField-4가 NVMe-oF, object/RDMA, NVMe KV extensions 등을 가속·offload (CPU 부하 최소화, encryption/integrity accelerator 사용).
<2> Pre-staging (미리 가져오기):
◦ Dynamo의 KV Block Manager + NIXL이 다음 decode 단계에서 필요할 KV block을 예측하고 미리 CMX → G2/G1으로 pre-stage.
◦ Spectrum-X의 predictable low-latency RDMA 덕분에 GPU stall(대기) 최소화.
<3> Sharing & Reuse:
◦ Pod 내 다른 GPU/노드에서 동일 context(또는 유사 agent) 필요 시, CMX에 저장된 KV를 직접 공유.
◦ DOCA Memos가 KV를 first-class resource로 관리 → 중복 저장 줄이고, locality-aware placement (Grove 등 사용).
<4> I/O 처리:
◦ BlueField-4가 storage control plane + data plane offload.
◦ GPU → BlueField-4(DPU in GPU node) → Spectrum-X RDMA → CMX enclosure(BlueField-4 + NVMe) → zero-copy-like data movement.
◦ KV Cache는 ephemeral하므로, heavy durability(복제, checksum 등)는 최소화 → power efficiency 극대화.
<5> G4와의 구분:
◦ CMX(G3.5)는 active/latency-sensitive KV 전용.
◦ Inactive history, logs 등은 G4(기존 shared storage)로 이동.

4. 성능 효과
• 5x higher Tokens-Per-Second (TPS).
• 5x better power efficiency (전통 스토리지 대비).
• GPU utilization ↑, cost per token ↓.
• Pod-scale 공유로 stranded capacity(유휴 자원) 감소.

CMX는 NVIDIA가 스토리지를 단순 I/O가 아닌, inference의 핵심 memory tier로 승격시킨 전략의 핵심입니다. BlueField-4 + Spectrum-X + DOCA/Dynamo 조합으로 full-stack control을 강화하죠.

BlueField-4 DPU의 KV Cache Offload 메커니즘은 NVIDIA Rubin(CMX/ICMS) 플랫폼에서 G3.5 Context Memory Tier를 실현하는 핵심입니다. BlueField-4는 단순 네트워킹/스토리지 DPU를 넘어 KV I/O Plane 전체를 가속·오프로드합니다.

1. BlueField-4의 하드웨어 구성 (KV Offload에 최적화)
• 고성능 Arm 코어 + Grace CPU 통합: BlueField-4는 다수의 Arm 코어(최대 64 Grace 코어급)와 고대역폭 메모리를 탑재해 control plane과 data plane을 모두 처리.
• 전용 하드웨어 Accelerator:
◦ Crypto/Integrity Accelerator (encryption, CRC, data protection) — KV 데이터 이동 시 host CPU 부하 없이 line-rate 처리.
◦ PCIe Switch + Networking Engine — NVMe-oF, RDMA, object/RDMA protocol termination.
◦ Storage Offload Engine — NVMe KV extensions 지원.
• Spectrum-X Ethernet 연결: AI 최적화 RDMA fabric (low-jitter, predictable low-latency).
CMX 스토리지 엔클로저에서는 보통 4개의 BlueField-4가 사용되며, 각 DPU가 대용량 NVMe SSD(총 ~600TB 규모)를 관리합니다.

2. KV Cache Offload Workflow (단계별 작동 원리)
1 Spill / Eviction (GPU → CMX):
◦ GPU HBM(G1) 또는 Host DRAM(G2)에서 KV Cache가 용량 초과 시, GPU 노드의 BlueField-4 DPU가 이를 감지.
◦ Dynamo의 KV Block Manager + **NIXL (NVIDIA Inference Transfer Library)**가 KV block을 비동기적으로 offload 지시.
◦ BlueField-4가 zero-copy-like RDMA를 통해 KV 데이터를 Spectrum-X Ethernet으로 전송 (host CPU/memory bounce 최소화).
◦ CMX 측 BlueField-4가 데이터를 수신 → NVMe SSD에 저장하면서 hardware accelerator로 integrity/encryption 처리.

2 Protocol Termination & Offload:
◦ BlueField-4가 NVMe-oF / object/RDMA protocols를 직접 terminate.
◦ 전통 방식처럼 host CPU가 protocol stack을 처리하지 않음 → serialization, memory copy, CPU overhead 대폭 감소.
◦ DOCA Memos SDK가 KV를 first-class resource로 관리 (key-value API 제공).

3 Pre-staging / Fetch (CMX → GPU):
◦ Dynamo KV Block Manager가 decode 단계에서 필요할 KV block을 예측 (prefetch/pre-stage).
◦ CMX 측 BlueField-4 → Spectrum-X RDMA → GPU 노드 BlueField-4 → GPU HBM/G2로 low-latency 전송.
◦ Spectrum-X의 congestion control과 adaptive routing으로 jitter 최소화 → GPU stall 방지.

4 Sharing & Reuse (Pod-scale):
◦ Pod 내 다른 GPU/노드에서 동일하거나 유사한 context 필요 시, CMX에 저장된 KV를 직접 공유.
◦ BlueField-4가 placement, access control, isolation을 hardware level에서 enforce.
◦ DOCA Memos + NIXL 조합으로 locality-aware sharing (중복 저장 최소화).

3. Offload의 핵심 장점 (BlueField-4가 담당하는 부분)
• Host CPU / GPU 부하 최소화: Networking, Storage I/O, Encryption, Integrity, Data Movement 등을 DPU에서 완전 offload.
• Ephemeral KV 최적화: KV Cache는 recomputable하고 nondurable하므로, heavy durability(복제, checksum 등)는 최소화 → power efficiency 5배 향상.
• Predictable Performance: Spectrum-X + BlueField-4 조합으로 tail latency 감소, Tokens-Per-Second(TPS) 최대 5배 증가.
• Zero-copy-like Movement: GPU → DPU → RDMA → CMX DPU → NVMe 간 불필요한 복사 제거.

4. 소프트웨어 스택과의 연동
• DOCA Memos: BlueField-4 전용 KV communication/storage layer SDK. Inference framework(Hugging Face, vLLM 등)와 인터페이스.
• NVIDIA Dynamo + NIXL: KV Block Manager + Asynchronous Transport Library. Offload/retrieval 오케스트레이션.
• Grove: Topology-aware workload placement.
BlueField-4는 “KV Cache를 GPU의 확장 메모리로 만드는” 역할을 합니다. 기존 스토리지는 durability 중심이었지만, BlueField-4 + CMX는 latency-sensitive, shareable, ephemeral context에 특화된 AI-native storage를 구현한 것입니다.

NVIDIA Spectrum-X Ethernet의 RDMA 최적화 기술은 전통 Ethernet의 한계를 극복하고, AI 워크로드(특히 All-to-All, Collective Communication, KV Cache offload)에 최적화된 RoCE(RDMA over Converged Ethernet) 확장 기술입니다. Spectrum-X는 InfiniBand 수준의 예측 가능성과 성능을 Ethernet에서 구현하면서, 클라우드/멀티테넌시 환경에도 적합하게 설계되었습니다.

1. Spectrum-X RDMA의 전체 철학
• 목표: 100,000+ GPU 규모에서 95% effective bandwidth, ultra-low latency + low jitter, deterministic performance.
• 기반: RoCEv2 + NVIDIA 전용 RoCE Extensions (Adaptive Routing, Congestion Control, Performance Isolation 등).
• 주요 구성: Spectrum-X Switches (Spectrum-4/6) + SuperNICs (ConnectX / BlueField-4) + Spectrum-X Ethernet Photonics.

2. 핵심 RDMA 최적화 기술
(1) RoCE Adaptive Routing (세밀한 적응형 라우팅)
• fine-grained per-packet load balancing: RDMA 플로우를 패킷 단위로 동적으로 rerouting.
• Congestion이 발생하면 즉시 다른 경로로 우회 → elephant flow(대용량 플로우)로 인한 hotspot 방지.
• 장점: Effective bandwidth 대폭 향상 (전통 Ethernet 대비 1.6~4x), tail latency 감소.
• AI Collective (NCCL All-Reduce 등)에서 특히 강력.

(2) Advanced RoCE Congestion Control
• Programmable + Topology-aware Congestion Control: In-band telemetry를 통해 실시간 네트워크 상태 수집 (sub-microsecond feedback loop).
• Sender-side rate adjustment + switch-side marking.
• PFC(Priority Flow Control) + DCQCN 기반을 NVIDIA가 대폭 강화 → lossless-like 동작하면서도 Ethernet의 장점 유지.
• 결과: Incast congestion(여러 노드가 동시에 하나의 노드로 몰리는 현상) 최소화, jitter 극소화.

(3) RoCE Performance Isolation
• Multi-tenancy QoS: 서로 다른 테넌트/워크로드 간 성능 간섭 방지.
• Hardware-level isolation로, 한 테넌트의 bursty traffic이 다른 테넌트의 latency에 영향을 주지 않음.
• AI 클라우드 환경에서 필수적인 기능.

(4) Direct Data Placement (DDP) + Out-of-Order Handling
• SuperNIC(BlueField-4 등)에서 hardware-accelerated DDP: RDMA 데이터를 CPU/GPU 메모리에 직접 배치하면서 out-of-order packet도 효율적으로 처리.
• GPU Direct RDMA와 결합되어 CPU bounce buffer 완전 우회.

(5) MRC (Multipath Reliable Connection) 지원
• 최근 Open Compute Project를 통해 공개된 RDMA transport protocol.
• 하나의 RDMA connection을 multiple network paths로 분산 → throughput ↑, resiliency ↑, load balancing 강화.
• Spectrum-X 하드웨어에서 native 지원 (Adaptive RDMA와 함께 선택 가능).

(6) Precision Latency Management & Telemetry
• End-to-end high-frequency telemetry + nanosecond granularity monitoring.
• Predictable low-latency RDMA fabric 제공 → KV Cache pre-staging/fetch 시 GPU stall 최소화.

3. CMX / KV Cache Offload에서의 역할
Spectrum-X는 BlueField-4 DPU와 긴밀히 연동되어:
• GPU 노드 ↔ CMX Storage Enclosure 간 low-jitter RDMA 제공.
• KV Cache spill / pre-stage / sharing을 predictable하게 처리.
• 5x TPS 향상과 power efficiency 개선의 핵심 네트워크 인프라.

Spectrum-X는 “Ethernet으로 InfiniBand-like AI fabric을 구현”한 NVIDIA의 전략적 산물입니다. BlueField-4 + DOCA + Dynamo 스택과 함께 사용할 때 KV Cache 중심 inference에서 최대 효과를 발휘하죠. [끝]

[부록] 스토리지 시스템의 역사 - https://thekeundol.tistory.com/m/434

스토리지 시스템 진화 역사

전통 데이터센터에서 AI 시대까지 스토리지 시스템의 발전 과정은 하드웨어 중심의 고정적 저장에서 데이터 중심·GPU 중심의 지능형 플랫폼으로의 근본적인 전환을 보여줍니다. 아래에 시대별

thekeundol.tistory.com

[부록] Nvidia의 독주에 대한 Hyperscaler들의 대안 접근

Hyperscalers(Google, Amazon, Microsoft, Meta 등)의 NVIDIA 의존 탈피 전략은 이미 상당히 구체적이고 적극적으로 진행 중입니다. NVIDIA가 GPU + NVLink + Spectrum-X + BlueField + CUDA full-stack으로 AI datacenter를 주도하는 것은 사실이지만, hyperscalers는 비용·lock-in·공급망 위험을 줄이기 위해 다각적인 대안을 강구하고 있습니다.

1. 핵심 전략: Custom ASIC (자체 AI 칩) 개발 및 확대
Hyperscalers는 자체 워크로드에 최적화된 ASIC으로 NVIDIA GPU 의존도를 낮추고 있습니다. ASIC은 특정 작업(특히 Inference)에서 전력 효율·비용에서 GPU를 앞섭니다.
• Google: TPU v5/v6/v7 (Ironwood) 시리즈 — 가장 성숙. Gemini 모델 등 내부 훈련·추론에 대규모 사용. Meta와도 협력 논의 중.
• Amazon (AWS): Trainium 3 (2026 ramp-up) + Inferentia — 훈련 비용 50% 절감 주장. Graviton CPU와 결합.
• Microsoft: Maia 100/200 — Azure 내부 배포 확대. OpenAI 지원과 병행.
• Meta: MTIA (Meta Training/Inference Accelerator) — 추천 시스템·inference 특화.
2026년 전망: Custom ASIC 시장 점유율이 급성장 (전체 AI accelerator의 20~28% 수준). NVIDIA GPU는 여전히 training 고성능에서 강하지만, inference와 일부 training에서 ASIC이 대체 중입니다.

2. 오픈 인터커넥트 표준 추진 (UALink + UEC)
NVIDIA의 NVLink/Spectrum-X proprietary stack에 대한 직접적 대응.
• UALink (Ultra Accelerator Link): AMD 주도로 Google, Microsoft, Meta, Intel, Broadcom 등이 참여한 오픈 Scale-Up 표준. NVLink처럼 memory-semantic interconnect지만, Ethernet PHY 재사용으로 비용 ↓, 멀티벤더 지원.
◦ 목표: 1,024 accelerators 규모 Pod에서 multi-vendor (AMD + Intel + Custom ASIC) 혼합 사용.
◦ 2026년 evaluation hardware 등장 예정.
• Ultra Ethernet Consortium (UEC): Scale-Out 네트워킹에서 Spectrum-X에 대응.
이로 인해 hyperscalers는 NVIDIA-only Pod 대신 heterogeneous(이종) 클러스터를 구축할 수 있는 옵션을 확보합니다.

3. Open Compute Project (OCP) 활용
• Hyperscalers가 주도하는 오픈 하드웨어 표준 운동.
• NVIDIA MGX 디자인 일부 기여받으면서도, Meta의 Helios AI Rack, Open Rack Wide 등 modular·disaggregated 설계 추진.
• Liquid cooling, 48V power, rack-scale standardization으로 TCO 절감과 공급망 다각화.

4. 기타 전략
• Software decoupling: CUDA 의존 줄이기 위해 Triton, vLLM, OneFlow 등 오픈 소프트웨어 + 자체 compiler/stack 개발.
• Hybrid 접근: 핵심 high-performance training은 NVIDIA 유지, volume inference·fine-tuning은 custom ASIC + AMD Gaudi 등으로 분산.
• Power & Facility 독립: 자체 데이터센터·전력 인프라 투자 (Blackstone 등과 협력), Tier 2 지역 확대.
• Broadcom/Marvell 등 co-design 파트너십: ASIC 설계 아웃소싱으로 개발 속도 가속.
현실적 평가 (2026년 기준)
• NVIDIA 완전 탈피는 어렵다: Training 최상위 모델(Frontier)에서는 NVIDIA의 full-stack(특히 NVLink + CUDA 생태계)이 여전히 가장 강력. NVIDIA 시장 점유율은 70%대 유지 예상.
• 그러나 의존도 감소는 분명: Hyperscalers 내부 workload의 30~50% 이상을 custom/대안으로 옮기는 추세. 비용 절감과 공급망 안정성 확보가 목적.
• NVIDIA도 대응: NVLink Fusion (타사 ASIC과 NVLink 연결 허용)으로 일부 lock-in 완화.

결론: Hyperscalers는 “NVIDIA 종속”을 피하기 위해 multi-vendor + custom silicon + open standard 전략을 병행하고 있습니다. 이는 NVIDIA의 지배력을 약화시키기보다는, AI datacenter 시장 전체를 더 건강하고 다양하게 만드는 방향으로 작용할 가능성이 큽니다.
[끝]

'반도체' 카테고리의 다른 글

반도체 역사 탐구 - 유산 (0)	2026.05.29
AI 메모리 효율화 기술과 수요 전망 (0)	2026.05.25
한국 반도체 공급망 전략 심화 분석 (2026년 5월 기준) (0)	2026.05.24
반도체 직무 소개 (0)	2026.05.21
TPU vs. GPU Architecture 차이 (0)	2026.05.20

현재글Nvidia의 연산과 메모리 수직 통합전략과 스토리지 전략에 대하여

생활인의 사유(思惟)

기술과 비즈니스의 연결; 생활인의 철학 그리고 현실과 이상을 이어주는 인사이트의 향연; 최근 인공지능과 반도체 관련 지식과 인사이트를 정리하고 있습니다.

메모리, 코로나, AI데이터센터, 인생, 부여, 전쟁, CXL, 데이터센터, 정원, 버블, ai, 부동산, 지정학, 인공지능, 역사, 세컨하우스, 전원주택, 경제, 반도체, 주식,

Today :
Yesterday :

생활인의 사유(思惟)