HBM(High Bandwidth Memory) 개요 (25.12.03)


Executive Summary

HBM은 고성능 컴퓨팅을 위해 개발된 3D 적층 메모리 인터페이스로, 수직으로 적층된 DRAM 칩들을 TSV(Through-Silicon Via)와 실리콘 인터포저로 연결하여 메모리 대역폭을 극대화한다. 기존 DDR/그래픽 메모리에 비해 매우 넓은 버스(예: 1024비트)와 낮은 동작 전압·低전력 특성을 지녀, 동일 전력에서 더 높은 처리량을 구현한다.

HBM 기술은 2013년 삼성·AMD·SK하이닉스가 처음 개발·채택했으며, 2015년 AMD 퓨지(GPU)에 최초 적용됐다. JEDEC 표준화도 진행되어, 2013년 10월에 HBM(1세대) 표준이 제정되었고, 이후 HBM2(2016년), HBM3(JAN 2022), HBM4(2025년) 등이 연이어 발표되었다.

HBM 기술은 수백 GB/s 이상의 초고대역폭을 지원하는 것이 특징인데, 예를 들어 HBM3는 핀당 6.4Gb/s로 동작하여 한 스택당 최대 ~819GB/s의 대역폭을 제공한다. 또한 HBM3E는 핀 속도를 9.8Gb/s까지 올려 1TB/s 이상을 구현할 수 있다. 이러한 구조 덕분에 HBM은 대용량 데이터 병렬 처리가 필요한 AI와 HPC 워크로드의 메모리 병목을 극복하는 데 핵심적인 역할을 하고 있다.

메모리 종류별 비교

메모리 종류대역폭 (예시)소비 전력·전압지연시간주요 용도
DDR4 (예: 3200MT/s)약 25.6GB/s (64비트, 3200MT/s 기준)VDD=1.2V, 평범함수십 ns 수준PC·서버 메인 메모리
DDR5 (예: 6400MT/s)약 51.2GB/s (64비트 × 6400MT/s)VDD=1.1V, 온모듈 PMIC 적용DDR4 대비 약간 높음차세대 PC·서버 메모리
GDDR6 (예: 16Gb/s, 256비트)약 512GB/s (256비트 × 16Gb/s)V≈1.35V, 매우 높음DDR보다 낮음GPU 그래픽 메모리 (고대역폭 작업용)
HBM3 (예: 6.4Gb/s, 1024비트)약 819GB/s (1024비트 × 6.4Gb/s)Vcore≈1.1V, 매우 효율적매우 낮음 (TSV로 칩 간 거리 최소화)AI/HPC 가속기 메모리 (GPU/TPU 등)

비교 요약: DDR4/DDR5는 범용 PC·서버에 쓰이며 대역폭은 수십 GB/s로 제한적이다. GDDR6는 그래픽용으로 400–1000GB/s 급의 높은 대역폭을 제공하나, 소모 전력이 크다. 반면 HBM은 좁은 공간에 스택하여 1000GB/s 이상의 대역폭을 달성하며, 단위 대역폭당 소비전력은 DDR/GDDR 대비 낮아 매우 에너지 효율적이다. 특히 HBM의 TSV 구조는 칩 사이의 데이터 경로를 극히 짧게 해 전송 지연을 최소화한다. 이러한 특성 덕분에 복잡한 AI/HPC 연산에서 요구되는 방대한 데이터 처리에 유리하다.

GPU/TPU와 HBM 적용

HBM은 GPU·AI 가속기에서 메모리 병목을 해소하기 위해 채택된다. GPU 의 경우 수많은 연산 유닛에 데이터를 공급하기 위해 초고대역폭 메모리가 필수적이다. 예를 들어 NVIDIA의 H100 텐서코어 GPU는 80GB HBM3을 탑재하여 약 3TB/s의 메모리 대역폭을 구현했고, AMD Instinct MI250X는 128GB HBM2e를 장착해 대용량 딥러닝 데이터셋 처리가 가능하다. 뿐만 아니라, 엔비디아 NVLink 같은 고속 GPU 간 인터커넥트도 메모리 대역폭에 민감한데, NVLink는 HBM과 결합하여 GPU 간 통신 병목을 줄인다.

TPU (Tensor Processing Unit)의 경우 1세대는 DDR3를 사용했으나 메모리 대역폭 한계로 2세대부터 16GB HBM2(600GB/s)로 전환했으며, 최신 Ironwood TPU(v7)에서는 칩당 192GB HBM, 7.37TB/s의 대역폭을 달성했다. 즉, GPU와 TPU 모두 AI 연산에서 메모리 대역폭이 성능을 좌우하므로, HBM의 고대역폭·저전력 특성이 매우 효과적으로 작용한다. 이처럼 HBM은 GPU, TPU 등 다양한 가속기에서 AI·HPC 워크로드를 위한 필수 요소로 자리잡았다.

HBM 기술 현황

주요 HBM 제조사

  • SK하이닉스, 삼성전자, 마이크론 등이 HBM 메모리를 생산한다.
  • SK하이닉스는 2024년 11월 SK AI 서밋에서 업계 최대 용량인 48GB 16-층(HBM3E) 개발 계획을 발표했고, 2024년에는 세계 최초로 36GB 12-층 HBM3E 양산에 성공했다.
  • SK하이닉스는 2025년 9월 세계 최초로 HBM4 개발 완성도 공개했는데, HBM3 대비 대역폭 2배·전력 효율 40% 향상된 HBM4를 양산 준비 중이다.
  • 삼성전자는 HBM3E 12-층(36GB) 개발 후 엔비디아 품질 테스트를 통과했으며, 2025년 구글 TPU용 HBM3E 물량의 60% 이상을 공급해 주요 파트너로 부상했다.
  • 또한 삼성은 10nm급 DRAM 베이스 다이와 4nm 로직 다이 기반으로 HBM4 개발을 추진 중이며, 2026년 ISSCC에서 36GB·3.3TB/s 성능의 HBM4 시제품을 공개했다.
  • 마이크론은 SK/Samsung에 비해 HBM 웨이퍼 생산능력이 적어 NVIDIA가 주요 고객이며, 2027년 목표로 TSMC와 협력한 HBM4E(커스터마이즈 가능 제품)를 준비 중이다.

GPU/AI 가속기 업체의 활용

  • NVIDIA, AMD, Google 등 주요 가속기 개발사가 HBM을 적극 활용하고 있다.
  • NVIDIA는 데이터센터 GPU(Ampere/Hopper) 전 제품군에 HBM을 채택해 왔으며, A100에는 40~80GB HBM2/HBM2e, H100에는 80GB HBM3(3TB/s) 등 초고대역폭을 제공한다.
  • AMD는 MI 시리즈(AI/HPC용) GPU에 HBM2e/3을 탑재하고 있는데, 예를 들어 MI250X는 128GB HBM2e, 최신 MI325X는 256GB HBM3E(6TB/s) 사양이다.
  • Google은 TPU 가속기에 HBM2/3을 사용하여 대용량 AI 모델 학습·추론을 수행하며, TPU v2부터 HBM2(16GB, 600GB/s)를 적용했고, 최신 Ironwood(v7)에는 192GB HBM(7.37TB/s)을 탑재했다.
  • 이 외에도 Intel의 Ponte Vecchio(Xe-HPC)와 Xeon Max CPU(‘Sapphire Rapids HBM’)도 HBM2e를 도입하는 등, 주요 반도체 기업들은 AI·HPC 수요에 대응해 HBM 메모리를 적극적으로 활용 중이다.

HBM 기술 전망

기술 발전 방향

  • JEDEC은 2025년 4월 HBM4 표준(JESD238)을 최종 확정했다.
  • HBM4는 핀당 최대 8Gb/s, 2048비트 인터페이스로 작동해 스택당 최대 2TB/s 대역폭을 지원하며, 채널 수를 16→32개로 늘리고 저전압 옵션을 도입해 효율을 높였다.
  • JEDEC 표준은 HBM4도 기존 컨트롤러와 호환되어 도입을 용이하게 한다.
  • 기업들은 이미 HBM4 기술을 앞다퉈 시연 중이다.
  • SK하이닉스는 HBM4를 상용 레벨로 완성하여 양산 준비를 마쳤고, HBM3 대비 두 배의 대역폭과 40% 향상된 전력효율을 달성했다.
  • 삼성전자도 2026년까지 HBM4 물량 생산 체제를 확보할 계획이며, 마이크론과 TSMC는 2027년을 목표로 HBM4E를 공동 개발 중이다.
  • 장기적으로는 HBM5 이후 세대도 JEDEC 논의 단계에 있으며, 인터페이스 폭과 속도 증가뿐 아니라 캐시와 CXL 연동, 내장 NAND 등 혁신적 기능이 예상된다.

시장 전망 및 수요

  • AI·HPC·데이터센터용 메모리 시장에서 HBM 비중은 급격히 늘어날 것으로 전망된다.
  • SK하이닉스는 HBM 시장이 연평균 30% 성장해 2030년에는 수십억 달러 규모에 이를 것으로 예측했다.
  • 이미 NVIDIA 같은 대형 AI 고객이 HBM을 독점적으로 사용 중이며, 최신 AI 모델의 거대화와 병렬화로 고대역폭 메모리에 대한 수요가 폭발적으로 증가하고 있다.
  • 현재 시장 점유율은 SK하이닉스가 주도적 위치에 있으며, 삼성과 마이크론이 뒤를 잇고 있다.
  • 특히 상위 데이터센터에는 여전히 DDR 메모리가 다수를 차지하지만, 워크로드가 거대화될수록 HBM 도입 비중도 크게 확대될 것으로 보인다.

전략적 중요성

  • 메모리 대역폭은 AI·HPC 시스템 성능을 결정하는 핵심 요소이다.
  • 최신 AI 모델은 초고속 연산과 대용량 데이터 처리가 필수이나, 전통적 메모리는 “메모리 벽” 문제로 성능을 제한해 왔다.
  • HBM은 이러한 병목을 해소할 수 있는 유일한 솔루션으로, 1024비트 이상의 폭넓은 인터페이스와 에너지 효율을 결합해 시스템 효율을 극대화한다.
  • 따라서 HBM 기술은 단순한 메모리 제품을 넘어 AI·HPC 아키텍처 경쟁력의 관건으로 부상했다.
  • 향후 AI 시대에는 HBM 확보 능력이 주요 반도체 업체의 전략적 승패를 좌우할 전망이다.

참고자료

참고자료: 삼성전기술블로그, Synopsys, Rambus, 위키피디아, Wevolver, Micron 공식블로그, NVIDIA/AMD 공식자료, 구글 블로그, Reuters, TrendForce 등 (각주 참조).