NVIDIA要用上X3D堆叠设计!下代GPU将引入LPU单元
发布时间:2026-02-01

NVIDIA要用上X3D堆叠设计!下代GPU将引入LPU单元

当AI参数规模暴涨,传统“只堆算力”已难以解决瓶颈,问题正转向带宽与延迟。近日业内消息称,NVIDIA下代GPU将采用X3D堆叠设计并引入全新的LPU单元,直指大模型推理的延迟与能效。这一组合有望在相同功耗下显著提升每瓦吞吐和响应速度。

对于Tra

所谓X3D堆叠,是在计算芯片之上垂直堆叠大容量SRAM/Cache或特定加速层,通过硅通孔与超短互连实现近存计算。配合HBM3E与CoWoS/SoIC等3D封装,数据就近存取可减少跨HBM访问次数,降低抖动与功耗。对于Transformer这类内存敏感负载,增大的片上缓存可更高命中KV Cache与注意力中间态,提升实际利用率。与此同时,LPU单元被定位为面向低延迟路径的轻量加速模块,负责token级调度、序列化解码、稀疏/压缩算子的快速处理,与GPU SM形成“吞吐+时延”的分工。

与GPU

在架构层面,NVIDIA可能采用Chiplet划分:计算die、I/O die与可堆叠的X3D缓存层解耦,通过NVLink/高速NoC互连;LPU则以内联方式贴近缓存与调度队列,减少排队与上下文切换成本。这样的X3D+LPU路径可在多实例推理(MIG)和服务端并发场景中维持稳定尾延迟。

案例分析:以70B级大语言模型为例,当KV Cache主要落在X3D片上缓存时,HBM往返减少,注意力阶段内存访问更规律,P95延迟可出现两位数下降;同时由LPU接管解码步的串行控制与小张量算子,GPU核心专注大矩阵乘,吞吐进一步攀升。在检索增强生成(RAG)或多Agent对话中,LPU还可加速token路由与压缩解压,减少冗余数据移动。

软件层面,CUDA与TensorRT-LLM预计会暴露面向X3D缓存的hint与LPU编程接口,结合图优化、KV分片与分页策略,发挥3D堆叠的局部性优势。对云推理与边缘AIGC而言,这意味着以更小的功耗预算获得更快响应。对于关注NVIDIA下代GPU、X3D堆叠、LPU单元、3D封装与AI推理的人士,这是值得持续跟进的技术方向。

Cache