超越带宽：行业正致力于定制化内存（第一部分）

2026-03-10 电子工程时报

阅读时间约 3 分钟

行业标准内存技术（如高带宽内存HBM、DDR5和LPDDR5X）所提供的内存带宽，其发展路线图已基本明确至本十年末。尽管该路线图看似令人振奋，但现代人工智能系统对算力的需求极为多元且庞大，远超现有行业标准所能满足的范围。因此，产业界正积极开发定制化内存技术以应对这些严苛要求。

带宽 × 容量 × 功能特性

行业标准旨在为技术发展提供稳定、一致的框架，同时在性能、功耗、成本与芯片面积之间取得平衡。然而，标准化内存类型与诸多AI系统实际需求之间正出现显著脱节——后者需要更高带宽、更强计算能力、更低延迟、额外功能、近存处理能力，或上述特性的组合。此外，AI产业飞速演进，使得内存技术必须比JEDEC标准制定节奏快得多。此时，定制化（更准确地说是半定制化）内存技术便应运而生。

“JEDEC标准化进程缓慢，”美满电子科技（Marvell Technology）负责CXL、定制HBM、内存及存储产品营销的高级总监Khurram Malik向《电子工程时报》表示，“一项规范从启动到最终定稿往往需两至三年，之后还需一年或更久才能推出产品。与此同时，超大规模数据中心厂商如今每六至九个月就更新一次AI硬件。他们无法等待标准出台，而是急需更高的带宽、更大的容量、更低的功耗以及更多可用于计算的芯片面积。定制内存使他们得以按自身节奏推进。”

定制或半定制内存并非全新概念。英伟达在其Pascal、Ampere及Ada Lovelace系列GPU中曾采用GDDR5X与GDDR6X内存技术，二者均由美光科技独家研发并供应。克雷公司（Cray）也曾使用针对矢量计算与高性能计算（HPC）工作负载优化的定制DRAM子系统。此外，包括Xbox 360 SoC中的嵌入式DRAM（eDRAM）以及部分Haswell处理器所搭载的Crystal Well eDRAM L4缓存等，本质上均属于定制化内存类型。

www.eic.net.cn 易IC库存管理软件

然而，新兴AI工作负载形态各异，对内存类型提出差异化需求，这既影响标准内存，也波及定制内存。除目前已存在或即将面世的一系列高性能内存外，多种定制内存技术正陆续进入市场。

其中涵盖但不限于：具备JEDEC标准接口的半标准化C-HBM4E（可含或不含基底晶片中的先进逻辑电路）、采用UCIe接口的C-HBM4E、采用专属接口的C-HBM4E、由Marvell设计的基于C-HBM4E的子系统、全球晶圆代工公司（GUC）提出的“逻辑上DRAM”（DRAM-on-Logic, DoL）方案，以及三星的先进互连技术SAINT-D（注：三星将该技术定位为支持定制DRAM与HBM堆叠于逻辑晶片之上的DRAM堆叠平台，属于其封装解决方案的一部分）。

上述所有方案的核心目标在于：提供高于市售通用内存的带宽（若可行），提升单个AI加速器的内存容量，降低单位比特能耗，减少物理层（PHY）开销（从而为芯片腾出更多计算资源空间），在DRAM阵列附近集成定制逻辑，针对训练或推理任务优化访问行为，以及改进封装工艺。

同时，DoL、SAINT-D（一定程度上）以及直接将HBM4及其后续版本堆叠于处理器之上的方案，旨在缩小计算单元与内存之间的物理与逻辑距离，从而降低数据传输所需的延迟与功耗。

在某些场景下，此类内存可充当超大容量缓存，形成介于片上SRAM与外部内存（如DDR5或HBM）之间的一种新型内存层级，使软件能够精准地将激活值、缓存及中间数据部署于最需之处——即紧邻逻辑单元的位置。若实现得当，这些技术将推动内存从通用器件转变为特定平台与架构的关键组成部分，并深度绑定至软件栈。不过，多级DRAM子系统迄今仍较为罕见，主要受限于软件开发复杂性，但未来或有改观。

尽管定制内存技术在多个维度极具吸引力，但其绝不可能取代甚至排挤标准内存。

“JEDEC将始终是主导机构，”拥有多项内存领域专利的数据安全公司（DataSecure）首席技术官兼布尔实验室（Boolean Labs）CTO及首席科学家Michael Schuette向《电子工程时报》指出，“任何私有协议或许可行，但请回顾英特尔与Rambus的案例，其最终均以失败告终。唯一例外是中国技术因部分企业被禁而被迫脱离JEDEC体系，转而自研解决方案；但即便如此，这一趋势也可能仅是短期泡沫。”

“定制内存的优势并不意味着标准会消失，”Malik补充道，“标准HBM市场将长期存在。但对于超大规模数据中心使用的XPUs而言，定制化至关重要。”

尽管如此，未来某一时点，若亚马逊、谷歌或Meta等企业能有效挖掘定制内存优势并愿意投入研发，其主导开发的定制内存技术或将占据可观市场份额。但Schuette认为，许多定制化尝试可能违背理性商业策略。

“若亚马逊、谷歌、Meta等巨头各自另起炉灶，定制DRAM确有可能攫取显著市场份额，”他解释道，“但即便在这些企业内部，持续创新、改进、开发与制造也将带来高昂成本。这种模式能维持多久？此类项目几乎总是由单一人物推动……关键在于，一旦掺杂个人意志，一切皆不可控；而定制化本身恰恰违背理性策略，因此若无‘自我驱动’因素，这类项目根本无法推进。”

HBM4与HBM4E：为定制HBM铺路

C-HBM4E将是JEDEC成员定义的首个HBM标准，其从诞生之初即默认平台独占性，而非视作例外情形——这意味着标准化不再是组织原则，仅作为初始参考依据。不过，C-HBM4E仍将依赖HBM4与HBM4E内存器件，在某些情况下甚至沿用行业标准基底晶片。因此，HBM4与HBM4E的普及将为包括C-HBM4E在内的各类定制内存奠定基础。

事实上，HBM4与HBM4E代表了AI与HPC内存性能及内部架构的下一重大跃升。每颗HBM4堆栈采用2048位接口，官方数据速率分别达8 GT/s（HBM4）与12 GT/s（HBM4E），对应单堆栈带宽为2 TB/s与3 TB/s。实践中，Rambus等控制器厂商及主流DRAM制造商已支持HBM4高达10 GT/s以上的速率，以提供冗余操作裕度；若开发者能在合理功耗预算内集成八颗HBM4堆栈，整套加速器即可实现16 TB/s聚合带宽。

架构层面，HBM4将内部并行通道数翻倍至每堆栈32条独立通道，每条再划分为两条伪通道，有效减少Bank冲突，提升高度并行工作负载下的效率。该标准支持24Gb与32Gb DRAM晶粒，允许4层、8层、12层及16层堆叠，最大容量可达64 GB/堆栈。美光预计64 GB堆栈将在2027年末随HBM4E普及，这与英伟达计划为其Rubin Ultra GPU配备最高1 TB HBM4E内存的节奏相吻合。

除原始速度提升外，Rambus还在其HBM4控制器中引入链路级可靠性机制。除DRAM器件内置的标准片上纠错码（ECC）外，控制器还可选配链路级ECC与错误清除功能，保护数据在穿越PHY与互连环节时的完整性——这对系统设计者在极高数据速率、高温或信号完整性临界条件下运行内存尤为重要，因上述场景易导致误码率上升，尤其在超宽I/O接口中更为显著。

“JEDEC将6.4 GT/s设为起点，但我们已公开看到高达9.6 GT/s的公告，”Rambus硅知识产权产品管理总监Nidish Kamath向《电子工程时报》表示，“业界正大力推动突破JEDEC扩展限制，我们最不愿成为制约性能的瓶颈。因此，我们的目标是实现10 GT/s等极高速率，并集成相关功能以保障内存数据完整性与链路性能。”

据台积电（TSMC）介绍，采用其低功耗12FFC或N5工艺制造的HBM4基底晶片，以及采用N3P节点生产的定制C-HBM4E基底晶片，工作电压可低至0.75–0.8 V，相较HBM3E基底晶片的1.1 V显著下降，且功耗效率较DRAM工艺制造的HBM3E基底晶片提升近一倍。然而，HBM4与HBM4E因内部结构更复杂、外部接口达2048位，需更先进的控制器与更大更复杂的PHY模块（据GUC数据，面积约15 mm²，高于HBM3E的11 mm²），导致其子系统绝对功耗更高。但凭借大幅跃升的带宽，HBM4在单位功耗与面积效率上仍优于前代产品。

值得肯定的是，HBM4终于采用逻辑工艺制造基底晶片，但若某一供应商（如台积电）垄断基底晶片供应，将同时锁定系统设计方与内存供应商，此问题令Schuette颇为担忧。

“逻辑与内存制造工艺差异巨大——这始终是逻辑与内存集成的最大障碍，”他指出，“若要具备成本竞争力，就必须分开制造内存与逻辑单元，再将其拼接。然而，无人愿受单一来源束缚，这无异于被供应商挟持。因此无论方案多么优越，始终需要至少两家供应商。”

为降低对台积电的依赖，美光计划自行生产HBM4基底晶片，而HBM4E基底晶片则委托台积电代工。

“我们成熟的1β（1-beta）DRAM工艺、创新且节能的HBM4设计、自主先进的CMOS基底晶片及先进封装技术，共同构成这款业界领先产品的核心差异化优势，”美光CEO Sanjay Mehrotra去年表示，“对于HBM4E，美光将提供标准产品，亦可为客户定制基底逻辑晶片。我们正与台积电合作，为标准与定制化产品共同制造HBM4E基底逻辑晶片。定制化需与客户紧密协作，我们预期采用定制基底逻辑晶片的HBM4E将带来高于标准版的毛利率。”

C-HBM4E：一种‘行业标准’的定制内存

总体而言，C-HBM4E是在保留JEDEC合规HBM4E DRAM器件基础上，以定制基底晶片替代标准基底晶片的HBM4E堆栈，其重心从单纯提升带宽转向在内存堆栈内集成专用逻辑，部分方案甚至采用定制晶粒间（D2D）接口。

据Rambus描述，最简形式的C-HBM4E子系统保留2048位接口，仅对基底晶片进行基础定制；其他方案则可能切换至定制D2D接口与PHY模块，同时将行业标准HBM4E内存控制器移至基底晶片内，从而从主机处理器中移除超宽内存接口，节省宝贵芯片面积用于计算单元，同时保持与JEDEC规范在内存器件与软件层面的兼容性。

“C-HBM4E的核心理念是让企业复用标准HBM4E接口，同时在基底晶片中加入定制逻辑，”Kamath表示，“该方案对HBM4E系统尤为吸引人，因其可避免将HBM4E PHY邻近的控制与功能集成至SoC中——否则将占用大量引脚区域。C-HBM4E方法可在不破坏现有控制器与系统兼容性的前提下推动创新。新增逻辑须在JEDEC规范约束下运行，以确保互操作性与行为可预测性。”

“业内讨论多聚焦于SoC与HBM基底晶片间更窄、引脚数更少的接口，”Rambus资深研究员兼杰出发明家Steven Woo向《电子工程时报》指出，“此举可使单颗SoC连接更多HBM堆栈，因每颗堆栈所需引脚数减少。理论上，定制基底晶片允许任意SoC与HBM基底晶片间互连方式，但我们预期最终将收敛为少数几种选项（或仅一至两种），以实现规模经济并集中优化速度与能效。”

Schuette指出，尽管“窄型”512位D2D I/O在实现层面有助于为计算硬件节省部分芯片面积，但“宽而慢”与“窄而快”的内存接口在工程上同样充满挑战。

“这是权衡取舍，”Schuette强调，“需谨记每个I/O均需两根引脚、通孔与布线通道；随后将面临走线长度问题——因物理连接需实际布设，进而引发信号完整性难题。因此并无优劣之分，仅有‘窄高速’与‘宽低速’之别。哪一种更易实现？两者皆难。”

在更复杂的场景中，基底晶片可集成额外缓存以提升性能，且无需扩大I/O宽度或提高信号速率，前提是HBM4E协议、固件与软件保持兼容。然而，部分C-HBM4E堆栈将集成增强型内存控制器、协议与PHY的定制逻辑，虽可能维持电气兼容性，却需配套定制控制器与PHY实现。

“超出内存控制器范畴的附加逻辑无需遵循任何规范，”Kamath指出，“例如内存重排或内容转换逻辑，此类功能已超出JEDEC管辖范围。”

在台积电与Rambus构想的其他应用场景中，HBM4E内存控制器与定制D2D接口被集成至基底晶片，以减少处理器与内存间的走线数量，从而在不增大封装尺寸的前提下，使单颗SoC可连接更多HBM堆栈。

“对于定制HBM，SoC与HBM基底晶片间可采用任意接口，”Kamath表示，“可以是标准HBM4E，也可采用更新颖的串行接口。业内讨论多围绕SoC与HBM基底晶片间窄型低引脚接口展开——此举可使单颗SoC连接更多HBM堆栈，因每颗堆栈所需引脚数减少。”

若采用台积电N3P工艺制造，此类基底晶片可整合行业标准HBM4E内存器件、标准HBM4E控制器、定制D2D PHY及额外逻辑，甚至集成近存计算引擎，使部分C-HBM4E堆栈实质转变为具备有限处理能力的小型SoC。Woo指出，采用逻辑工艺制造基底晶片颇具合理性，因其能效显著优于DRAM工艺节点。“我们预期基底层将更多转向逻辑工艺，尤其当需在此处执行更多计算任务时。”

尽管C-HBM4E及其后续版本赋予高度自由度，内存厂商仍可能尽可能遵循行业标准，以最大化规模经济效益并简化客户采纳流程。

“内存厂商预计将倡导采用标准HBM4E控制与数据访问协议作为C-HBM4E的一部分，”Kamath表示，“因堆栈内所含晶粒与标准HBM4E堆栈中的晶粒相同或高度相似。与标准接口保持一致，可使厂商复用HBM4E内存的规模经济效应。对希望增强功能又不增加系统集成商复杂度的企业而言，复用标准接口规范最为理想。但若逻辑需求涉及新信号或协议变更，则定制接口将不可避免。”

尽管部分客户可能选择极端定制化内存子系统，Schuette认为多数用户不太可能为定制方案支付显著溢价。毕竟，行业尚需时间验证定制内存的实际效益，此前阶段用户需为差异化逻辑付费。

“关于溢价我仅能推测，但预计上限约为5%至10%，”Schuette表示。

www.eic.net.cn 易IC库存管理软件

在本系列第二篇中，我们将介绍全球晶圆代工公司（GUC）、美满电子、三星与IMEC在定制内存解决方案方面的布局，包括逻辑晶片之上的HBM技术。

← 上一篇

德州仪器为第三款MCU系列加入NPU

没有更多了