HBM과 CXL, 인공지능 서버의 심장과 순환계
AI 서버에서 HBM(High Bandwidth Memory) 는 초당 수백 기가바이트의 데이터 전송을 실현하는 초고대역폭 메모리 반도체로, 특히 GPU 기반 머신러닝(Machine Learning) 및 인공지능(AI) 연산에 최적화되어 있다.
전통적인 서버 메모리인 DIMM은 한 채널당 64개의 I/O(입출력) 라인을 가지지만, HBM은 무려 1024개의 I/O 라인을 제공한다. I/O는 데이터 신호가 흐르는 물리적인 통로로, 고속도로의 차선 개수에 비유할 수 있다. 차선이 16배로 늘어났다면 교통량(데이터 처리량)은 비교할 수 없이 늘어난다는 것은 자명하다.
HBM이 주목받게 된 배경에는 초거대 언어 모델(LLM) 등 최신 AI 모델의 등장과 함께, 수십억~수천억 개의 파라미터를 실시간으로 GPU가 처리해야 하는 시대적 요구가 있다. 대규모 연산은 단순히 프로세서의 속도만이 아니라 데이터를 얼마나 빠르게 공급할 수 있느냐에 의해 병목이 발생하며, HBM은 GPU 바로 옆에 3D 스택 구조로 배치되어 낮은 지연시간과 높은 대역폭을 동시에 확보할 수 있는 유일한 솔루션으로 자리잡고 있다.
반면 CXL(Compute Express Link) 은 HBM처럼 단일 디바이스가 아니라, 서버와 데이터센터 전체를 하나의 유기적인 컴퓨팅 플랫폼으로 재구성하기 위한 인터커넥트 아키텍처다. CXL은 .io, .cache, .mem이라는 세 가지 프로토콜을 통해 CPU·GPU·FPGA·메모리·스토리지 간의 연결을 정교하게 제어하며, 자원의 유휴 상태를 최소화하고 동적 재구성을 가능하게 만든다.
- CXL.io : PCIe 기반 초기화 및 장치 제어용
- CXL.cache : CPU/GPU의 마지막 캐시 계층과 연계
- CXL.mem : CPU가 외부 메모리(CMM)를 직접 메모리처럼 접근
2024년 기준 CXL 3.0은 패브릭 토폴로지 확장을 통해 다수의 CPU, GPU, 메모리 모듈을 네트워크처럼 엮어주는 ‘메모리 디스어그리게이션(Memory Disaggregation)’의 기반 기술로 부상하고 있다. 기존의 단일 노드 구성에서 벗어나, 전체 자원을 필요에 따라 조립·분해하는 데이터센터 수준의 설계 철학을 구현하고자 하는 것이다.
이처럼 HBM은 단일 디바이스 내에서의 고속 메모리 구현이고, CXL은 복수 장치를 연결하여 자원을 공유하고 확장할 수 있는 플랫폼 기술이다. 따라서 이 둘은 직접적인 경쟁 관계가 아니라 서로 다른 계층에서 기능적으로 상호 보완하는 존재다. 언론 등에서 단순 비교로 취급하는 것은 오해를 불러일으킬 수 있다.
물론 CXL 에코시스템 내에는 **CMM(CXL Memory Module)**이라는 새로운 메모리 모듈이 등장하고 있다. 이는 기존 RDIMM과 달리 E3.S 등 SSD 계열 폼팩터를 계승하며, HBM 기반 모듈의 실험적 구현도 일부 연구되고 있다. 향후에는 CXL 패브릭 안에서 HBM을 하나의 고성능 메모리 타일로 활용하는 방식도 논의될 수 있다.
마지막으로 메모리와 스토리지를 구분짓는 주요 기준은 제어 방식이다. 메모리는 CPU나 GPU 등 SoC(System-on-Chip) 내부의 하드웨어 컨트롤러가 직접 접근하지만, 스토리지는 운영체제가 논리적 주소를 통해 간접적으로 제어한다. CXL은 이러한 자원들까지 하나의 패브릭 상에서 동등한 주소 공간으로 관리하며, 데이터센터 구축 및 운영 비용(TCO: Total Cost of Ownership)을 줄이려는 산업적 니즈에 부응한다.
결국, HBM은 속도를, CXL은 유연성과 확장성을 상징한다. 이 둘은 인공지능 시대의 서버 아키텍처에서 각각 심장과 순환계에 해당하며, 고성능 컴퓨팅의 필수적인 양 날개라 할 수 있다.
그러나 CXL은 아직 생태계가 충분히 조성되어 있지 않아 시장은 미미하다. 그 이유는 AI가속기 시장에서 GPU+HBM이 충분히 역할을 다 하고 있기 때문이다. 그러나 초 거대 LLM이 더 확산되고 AI데이터센터의 비용 절감 등 효율성은 CXL이 추구하는 방향과 일치하여 시장이 크게 확산될 것이라
[끝]