인공지능(AI)

구글 TPU 동향

더큰돌 2026. 4. 23. 17:12

구글 TPU의 숨은 제국: 공급망부터 v8 세대까지, AI 칩 시장의 조용한 강자
AI 시대가 본격화되면서 가장 많이 거론되는 이름은 단연 NVIDIA입니다. 하지만 그 그림자 속에서 구글의 Tensor Processing Unit, 일명 TPU가 조용히 그러나 확실하게 존재감을 키우고 있습니다. NVIDIA GPU가 시장을 장악하고 있는 지금, 왜 구글은 여전히 자체 칩을 고집하고, 심지어 외부 고객들에게까지 판매하기 시작한 걸까요? 오늘은 지금까지 조사한 TPU의 공급망과 최신 기술 동향을 바탕으로 그 비밀을 풀어보겠습니다.

먼저 TPU의 설계와 생산 과정을 살펴보면, 구글의 전략이 매우 명확해집니다. TPU의 핵심 아키텍처, 즉 텐서 코어와 시스톨릭 어레이, 칩 간 고속 연결(ICI) 같은 기본 설계는 모두 구글이 직접 주도합니다. 구글 내부 팀이 AI 모델의 실제 워크로드와 긴밀하게 협업하며 co-design하는 방식이죠. 하지만 실제 실리콘으로 구현하는 물리적 설계 단계에서는 외부 파트너와 손을 잡습니다. 오랜 기간 주력 파트너였던 브로드컴이 여전히 고성능 버전의 물리 설계와 SerDes(고속 입출력) 부분을 맡고 있고, 최근에는 미디어텍이 비용 절감형 추론 전용 버전을, 마벨이 일부 메모리 처리 유닛 관련 협력을 맡으며 공급망을 다각화하고 있습니다. 이렇게 구글이 설계를 주도하고 파트너들이 실행하는 구조는 TPU가 단순한 ‘구글 내부용’을 넘어 산업 표준으로 성장할 수 있는 기반이 됩니다.

제조 단계에서는 모든 길이 대만 TSMC로 이어집니다. 초기 28나노미터부터 최신 3나노미터, 그리고 앞으로 2나노미터까지, 구글의 모든 커스텀 실리콘은 TSMC 파운드리에서 웨이퍼를 생산합니다. 특히 고대역폭 메모리(HBM)를 붙이는 고급 패키징(CoWoS) 기술도 TSMC가 주도하며, 필요에 따라 미국의 Amkor 같은 OSAT 업체를 보조로 활용하고 있죠. HBM 자체는 삼성전자가 60% 이상을 공급하고 SK하이닉스가 나머지를 분담하는 구조입니다. 이 공급망은 한편으로는 TSMC와 삼성에 대한 의존도가 높아 리스크가 있지만, 다른 한편으로는 구글이 장기 계약을 통해 안정적으로 확보하고 있다는 점에서 강력한 경쟁력입니다.

이제 기술 자체로 들어가 보죠. 현재 양산 중인 최신 세대인 TPU v7 Ironwood는 구글의 야심작입니다. 한 개의 칩이 FP8 정밀도 기준으로 약 4.6페타플롭스(PFLOPS)의 피크 성능을 내고, 192GB에 달하는 방대한 HBM3e 메모리를 탑재해 초당 7.37테라바이트(TB/s)의 놀라운 대역폭을 제공합니다. 이는 이전 세대인 Trillium 대비 메모리 용량이 6배 가까이 늘어난 결과로, 수조 개 파라미터 규모의 초대형 모델도 거뜬히 처리할 수 있게 해줍니다. 게다가 9,216개의 칩으로 구성된 초대형 Pod 하나가 42.5엑사플롭스(EFLOPS)에 이르는 컴퓨트 파워를 발휘하니, 구글 클라우드 안에서 수만 개의 칩이 하나의 거대한 AI 클러스터로 작동하는 광경은 정말 압도적입니다. 액체 냉각 시스템까지 도입해 전력 효율도 크게 끌어올렸죠.

그런데 구글은 여기서 멈추지 않고 v8 세대로 한 발 더 나아가고 있습니다. 가장 큰 변화는 ‘훈련과 추론의 완전 분리’입니다. TPU v8t 코드네임 Sunfish는 순수 훈련 특화 모델로, 브로드컴과 공동 설계됐습니다. 두 개의 컴퓨트 다이와 하나의 I/O 칩렛, 여덟 개의 12-하이 HBM3e 스택을 사용해 Ironwood보다 메모리 대역폭을 약 30% 더 높였고, FP4 정밀도 지원을 강화해 frontier급 대형 모델 훈련에 최적화됐습니다. 반대로 TPU v8i 코드네임 Zebrafish는 미디어텍이 주도한 추론 특화 버전으로, 단일 컴퓨트 다이와 I/O 다이, 여섯 개의 HBM3e 스택이라는 비교적 단순한 구조를 채택했습니다. 이 덕분에 운영 비용을 20~30% 정도 낮추면서도 고용량 메모리와 저지연 성능을 동시에 잡았죠. 둘 다 TSMC 2나노미터 공정을 목표로 하며 2027년 말 양산을 앞두고 있습니다. 이처럼 워크로드별로 전문화한 전략은 구글이 단순히 ‘빠른 칩’을 만드는 데 그치지 않고, 실제 AI 서비스 경제성을 극대화하려는 의지를 보여줍니다.

이런 기술력이 단순히 구글 내부에서만 머무는 것은 더 이상 아닙니다. 최근 TPU는 Google Cloud를 통해 임대뿐만 아니라 Broadcom을 거쳐 직접 판매까지 확대되고 있어요. 가장 큰 고객은 단연 Anthropic입니다. Anthropic은 이미 100만 개 규모의 TPU를 사용 중이며, 2027년부터는 3.5기가와트(GW)에 달하는 차세대 TPU 용량을 추가로 확보했습니다. 이는 Claude 모델의 훈련과 서빙을 대폭 강화하기 위한 결정으로, 구글 클라우드와 Broadcom을 통한 직접 구매를 병행하는 형태입니다. Meta도 수십억 달러 규모의 다년 계약을 맺고 Llama 모델 일부 워크로드를 TPU로 옮기는 검토를 진행 중이며, Citadel Securities, G42, OpenAI(테스트 단계) 등도 TPU를 도입하거나 검토하고 있습니다. 심지어 Apple Intelligence 일부 모델 훈련에도 TPU 클러스터가 활용되고 있죠.

왜 이들이 NVIDIA 대신(또는 병행해서) TPU를 선택할까요? 비용 효율성, 특히 대규모 추론 워크로드에서의 총소유비용(TCO) 우위가 가장 큰 이유입니다. NVIDIA CUDA 생태계가 여전히 훈련 분야에서 강력하지만, 구글은 PyTorch 지원 강화와 호환성 개선으로 장벽을 낮추고 있으며, 공급망 다각화를 통해 안정적인 물량 확보까지 노리고 있습니다.

결국 TPU는 단순한 ‘구글의 내부 칩’을 넘어 AI 인프라의 또 다른 축으로 자리 잡고 있습니다. NVIDIA의 압도적 지배력이 여전한 가운데, 구글이 공급망을 철저히 다각화하고 워크로드별 전문 칩을 내놓는 움직임은 AI 칩 시장의 판도를 서서히 바꾸고 있습니다. 2027년 TPU v8이 본격 양산되면 이 변화는 더욱 가속화될 전망입니다. AI를 개발하거나 서비스하는 누구에게나, 구글 TPU는 더 이상 ‘숨겨진 선택지’가 아니라 ‘진지하게 고려해야 할 강력한 대안’으로 다가오고 있습니다.

여러분은 TPU와 NVIDIA 사이에서 어떤 선택을 하시겠습니까? 댓글로 의견 공유 부탁드려요. 다음 포스팅에서는 TPU와 NVIDIA Blackwell/Rubin의 구체적인 비용·성능 비교를 더 깊이 파보겠습니다. 감사합니다!

[참고] 구글 TPU 아키텍쳐

https://docs.cloud.google.com/tpu/docs/system-architecture-tpu-vm?hl=ko

TPU 아키텍처  |  Google Cloud Documentation

의견 보내기 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요. TPU 아키텍처 Tensor Processing Unit(TPU)은 머신러닝 워크로드를 가속화하기 위해 Google에서 설계한 주

docs.cloud.google.com