(4) 스토리지 아키텍처와 AI 워크로드의 만남

반도체

(4) 스토리지 아키텍처와 AI 워크로드의 만남

더큰돌 2025. 6. 21. 22:20

[AI 데이터센터 시리즈 ④]

스토리지 아키텍처와 AI 워크로드의 만남

인공지능이 똑똑해지기 위해선 많은 데이터를 읽고, 쓰고, 기억해야 한다. 그 작업을 담당하는 것이 바로 스토리지다. 하지만 단순한 용량 확보만으로는 AI 연산을 제대로 감당할 수 없다.

AI 데이터센터의 스토리지는 이제 성능, 지능, 확장성까지 모두 요구되는 고난이도 분야가 되었다.

1. AI 데이터의 수명주기: 저장만으론 부족하다

AI 워크로드에서의 데이터 흐름은 다음과 같은 과정을 거친다: 수집 → 정제 → 학습 → 추론 → 보존
이 과정에서 필요한 스토리지 역할도 달라진다: 수집/정제 단계: 대용량 비정형 데이터의 순차 처리

학습 단계: 고속, 병렬, 무작위 접근(Random I/O)이 중심

추론 단계: 저지연(ultra-low latency) 응답이 중요

보존 단계: 비용 효율성과 안정성 중시

AI는 모든 단계에서 스토리지를 읽고, 쓰고, 다시 불러오며 연산과 상호작용한다.
즉, 스토리지는 단순 보관함이 아니라 연산 파이프라인의 일원이 되어야 한다.

2. All Flash: AI 스토리지의 새로운 기본

전통적인 HDD 기반 스토리지는 AI 워크로드에 전혀 적합하지 않다. 속도, 병렬성, 지연시간 모든 면에서 한계가 명확하다. 그래서 AI 데이터센터의 스토리지는 대부분 All Flash 기반으로 전환되고 있다.

마그네틱 기반 기계 장치인 HDD는 순차 속도가 ~200MB/s으로 느리고 IOPS도 수백~수천에 불과하지만, All flash SSD는 3,000MB/s 이상으로 매우 빠르고 IOPS 또한 수백만에 달한다 . 그리고 지연 시간 또한 ms vs. us 단위로 1,000배 가량 차이가 나온다. 당연히 All flash가 에너지 효율도 높을 수 밖에 없다.

그리고 eSSD(Enterprise SSD)는 높은 DWPD(하루 쓰기 수명), 고내구성, 낮은 지연시간 등으로 AI 학습 환경에 적합하다.

3. ZNS: SSD 내부를 더 똑똑하게 사용하는 방법

SSD의 수명을 단축시키는 주요 원인은 쓰기 증폭(Write Amplification)이다. 이를 줄이기 위해 등장한 기술이 ZNS(Zoned Namespace)다. SSD를 ‘구역(zone)’ 단위로 관리

이는 호스트가 쓰기 순서를 지정할 수 있어 Garbage Collection 비용 감소한다는 것을 의미한다. 아울러 쓰기 병목 해소, 수명 연장, 안정성 향상도 꾀할 수 있는 기술이다.

ZNS는 특히 대용량 데이터셋을 순차적으로 쓰고 읽는 AI 학습 환경에 매우 적합하다. 그로인해 고성능 SSD뿐만 아니라 스토리지 소프트웨어 구조까지 최적화할 수 있다.

4. NVMe-over-Fabrics: 네트워크로 직접 접근하는 초고속 스토리지

AI 연산은 서버 로컬 스토리지만으론 부족하다. 수십~수백 개의 GPU 노드가 동시에 하나의 거대한 데이터셋을 학습할 경우, 스토리지를 네트워크를 통해 공유해야 한다. 여기서 등장하는 기술이 바로 NVMe-over-Fabrics (NVMe-oF)다.

단일 디바이스로서 NVMe의 고속성과 효율을 InfiniBand, RDMA, TCP와 같은 네트워크 위로 확장하여 활용한다. GPU 서버에서 마치 로컬처럼 외부 스토리지를 사용 가능하다.

실제로 Meta AI Research Cluster, OpenAI, Microsoft Azure 등은 대규모 학습 스토리지 시스템에 NVMe-oF를 적극 도입 중이다.

5. 병렬 파일 시스템: 대형 학습을 위한 필수 구성

수천 개의 GPU가 동시에 하나의 모델을 학습하려면, 단순한 NAS로는 성능이 나오지 않는다. 이때 필요한 것이 바로 병렬 파일 시스템(Parallel File System)이다. 대표적으로 Lustre, BeeGFS, IBM Spectrum Scale, Ceph 같은 시스템이 응용되고 있다.

I/O 요청을 수십~수백 개의 노드에 병렬로 분산 시켜면 대규모 학습 시에도 IO 병목 없이 고속 데이터 공급 가능하다. Meta의 RSC(Research SuperCluster)는 175PB 규모의 All Flash + 병렬 파일 시스템 조합으로 16,000개 A100 GPU에 안정적인 학습 데이터를 공급하고 있다.

6. 스토리지 계층화: 속도와 비용 사이의 균형

모든 데이터를 고속 SSD에 저장하는 건 비경제적이다. 그래서 AI 데이터센터는 다음과 같은 계층화(Tiering) 전략을 채택한다.

핫 데이터 (최신 학습 데이터) → 고속 eSSD, NVMe
웜 데이터 (반복 활용되는 데이터) → QLC 기반 저비용 SSD
콜드 데이터 (보존용 아카이브) → HDD, Tape, Object Storage

이러한 스토리지 계층화는 성능과 비용의 균형을 맞추는 핵심 전략이 된다.

정리하자면…

AI는 데이터를 ‘읽기만 하는 존재’가 아니라,
데이터를 끊임없이 불러오고, 해석하고, 다시 저장하며 순환하는 존재이다.

따라서 스토리지는 단지 저장소가 아니라,
AI 파이프라인 전체를 지지하는 연산 인프라의 핵심 축이 되어야 한다.
다음 글에서는 이러한 메모리·스토리지 인프라를 연결하고,
확장성과 유연성을 동시에 확보해주는 CXL과 PIM 중심의 차세대 메모리 아키텍처를 들여다보자.

[끝]

'반도체' 카테고리의 다른 글

(6) TCO 최적화 – AI 인프라의 에너지와 공간 전략 (2)	2025.06.21
(5) CXL과 PIM – 차세대 메모리 아키텍처의 가능성 (0)	2025.06.21
(3) 메모리 대역폭과 AI 병목 – GPU와 HBM의 공생 구조 (0)	2025.06.21
(2) GPU, TPU 그리고 병렬 클러스터의 세계 (0)	2025.06.21
(1) AI는 왜 별도의 데이터센터가 필요한가? (0)	2025.06.21

현재글(4) 스토리지 아키텍처와 AI 워크로드의 만남

생활인의 사유(思惟)

기술과 생활인의 철학 그리고 현실과 이상을 잇는 다리

부여, 정원, 리더십, 부동산, 코로나, ai, 회사, 전쟁, 전원주택, 메모리, 세컨하우스, 역사, 데이터센터, 지정학, 반도체, 일상, AI데이터센터, 조직, 경제, 인공지능,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

생활인의 사유(思惟)