테크놀로지

Data-Centric에 대한 생각

더큰돌 2025. 7. 1. 08:51

Data-Centric: 연산의 중심에서 데이터의 중심으로

우리는 오랜 시간 ‘계산=연산’ 중심의 시대에 살았다. CPU의 성능을 높이고, 더 많은 코어를 탑재하며, 더욱 빠른 클럭을 위해 투자를 아끼지 않았다. 이것을 편의상 Computing-Centric이라고 부르자. 당시 데이터는 그러한 연산의 대상일 뿐, 본질이 아니었다. 그런데 어느 순간, 판이 뒤집혔다. 이제는 데이터가 시스템의 중심으로 부상했다. 이 전환을 명확히 짚어낸 용어가 바로 “data-centric”이다. 나는 이것은 모든 IT의 패러다임을 바꾸는 철학이라고 생각한다.

2000년대 초 IBM Almaden의 Rich Freitas는 한 논문에서 컴퓨팅 중심(compute-centric)에서 데이터 중심(data-centric)으로의 전환을 예고했다. 그는 기존 시스템이 연산을 위해 데이터를 가져오던 방식에서, 앞으로의 시스템은 데이터가 머무는 방식과 흐름 자체에 시스템이 최적화되어야 한다고 주장했다. 그녀의 전망은 오늘날 AI 데이터센터의 구조와 기술을 보면 거의 계시처럼 읽힌다. 저 논문은 2009년 당시 PCRAM 등 스토리지클래스메모리로 접근하던 나에게 철학과 대의명분을 제공했다.

오늘날 실제로 AI를 실현해나가는 과정을 보면 연산 집약적인 기술인 듯 보이지만, 그 본질은 다름 아닌 데이터 집약적인 작업이다. 연산은 그것의 하부 장치일 뿐이라고 생각한다. 대규모 데이터를 훈련하고, 추론하고, 전달하고, 저장하고, 다시 불러오는 과정이 핵심이다. GPU가 각광받는 것도, HBM이 필수가 된 것도, NVMe SSD가 데이터 저장과 전달의 전면에 등장한 것도, 모두 ‘데이터가 중심’이기 때문이다.

이런 흐름 속에서 스토리지 또한 본질이 바뀌었다. 더 이상 ‘단순 저장소’가 아니다. 데이터의 생애 주기를 책임지는 흐름의 일부가 되었다. 고성능 스토리지는 연산과 병렬로 움직이며, 때로는 메모리의 역할도 수행한다. 여기에 등장한 것이 SCM(Storage Class Memory)이며, 최근의 CXL 인터페이스는 아예 메모리와 스토리지의 경계를 허물고 있다.

과거의 데이터센터는 CPU 중심의 랙 배열이 핵심이었다. 하지만 오늘날의 AI 데이터센터는 데이터 흐름 중심의 네트워크 패브릭 구조로 전환되고 있다. 스토리지가 먼저 가고 있으며 메모리도 곧 따라갈 것이라 전망한다. 무엇보다 이 모든 전환은, 한 가지 질문에서 출발한다.

“당신의 데이터는 어디에서 대기하고 있는가?”

이제 데이터는 ‘연산을 위한 재료’가 아니라 시스템을 설계하는 출발점이 되었다. 다시 말해, 데이터가 중력의 중심이 된 세계, 그것이 바로 data-centric 시대다.

이미 그 뜻을 이루어지고나니 더 이상 이 용어를 사용하는 사람도 없다. 그런데 내가 이 이야기를 꺼내는 이유는 memory-centric이라는 용어 때문이다. 이것은 SK하이닉스가 내부 비전 목적 혹은 마케팅(?) 목적으로 도입한 용어이다. 그런데 시스템 업자들이 보기엔 왠지 불편하다. “아니, 시스템에서 메모리가 중심이라니?” 이것은 시스템 아키텍트에게 다분히 도전적인 용어이다. 물론 메모리 입장에서 아마 인메모리시스템 혹은 핌을 염두에 둔 전략적 용어였을 것이다. 그러나 실제 생태계와 조화를 이루기 어려운 용어라고 생각되어 나는 반대하는 입장이다.


우리는 여전히 거대한 전환의 한가운데에 있다. 그리고 Data-centric 이 단어 하나가, 기술을 넘어 산업과 문명의 방향까지 설명하고 있다고 여겨 다시 한번 꺼내들었다.

[끝]