人工智能芯片初创公司Tensordyne已流片其数据中心推理芯片,该公司称该芯片在能效方面相较主流GPU方案可实现一个数量级的提升。据称,基于该芯片构建的系统在相同工作负载下,每瓦特每秒生成的token数可达Nvidia GB300系统的17倍,或每机架每秒token数达13倍(详见文末编辑说明)。
Tensordyne联合创始人兼AI副总裁吉尔·巴克胡斯(Gilles Backhus)指出,当前数据中心AI推理市场面临的两大核心挑战是速度与成本。“所有人都希望获得快速的AI能力,同时又需要低成本的AI服务。”他提到,Cerebras和Groq等公司的市场热度表明,业界愿意为更快的token生成速度支付溢价。“这是一项艰巨挑战,尤其当模型规模仍在持续扩大时。”
巴克胡斯表示,目前开源模型参数量已达一万亿级别,而闭源模型正逼近十万亿参数。
“如今最关键的是,最优质的token输出也必须足够便宜,”他强调,“否则某些商业模式和应用场景将无法落地。我们相信,Tensordyne是首个能在单一技术路径下同时满足高速与低成本需求的解决方案。”
系统性能表现
Tensordyne这款芯片是为其自研对数运算体系打造的硬件加速器,采用台积电3纳米工艺制造,单封装功耗为300瓦,提供2.1 PFLOPS(稠密FP8精度)算力,并配备144 GB HBM3e高带宽内存。
该芯片以对数发明者约翰·纳皮尔(John Napier)命名,其72芯片组成的Napier服务器采用风冷设计,整机功耗30千瓦,仅占用四分之一标准机架空间,内置10 TB HBM内存,足以容纳FP4精度下的10万亿参数模型。Tensordyne将该方案对标于全机架规模的Nvidia Blackwell架构系统(选择72芯片作为扩展单元,是为了便于从NVL72基础设施平滑过渡,巴克胡斯解释道)。
每套由4台Napier服务器(共288颗芯片)组成的风冷全机架系统,可提供608 PFLOPS稠密FP8算力、74 GB SRAM、42 TB HBM内存,总功耗120千瓦。
Tensordyne的核心优势源于其数学架构:公司采用一种名为Pareto的专有数字系统,基于对数数制(LNS)。尽管LNS并非全新概念,但此前尚无专用硬件加速实现。Tensordyne的知识产权在于其针对对数域加法运算的高效近似算法及其硬件实现方案。
“我们已在各类模型上进行了全面测试,”巴克胡斯表示,“我们的方案不强制客户用我们的数学体系重新训练模型或进行校准——因为我们深知,要求客户做这些工作将带来巨大负担。”
Tensordyne的软件栈自动完成全部格式转换,对用户完全透明;若需底层控制,也可开放基于Python的低阶语言接口。超大规模客户目前混合使用PyTorch进行高层定义、Triton进行底层定义,AI代理工具则可用于转换GPU专属代码。
“只要向代理提供若干示例及清晰的知识库或维基文档,即可实现任意框架间的代码迁移,”他补充道,“我们在稠密模型、MoE(专家混合)模型乃至几乎所有类型模型中均验证了该方法的有效性。”
Tensordyne硬件可在运行时实时执行微缩放/动态量化(功能上类似于Nvidia的Transformer Engine)。
得益于其数学体系,计算所需硅片面积更小,因此该芯片可集成约当前GPU五倍的SRAM容量(达256 MB)。这意味着多个操作可合并为单次运算,无需频繁访问HBM,从而提升性能。多余硅片面积还可用于均衡加速计算、SRAM与CPU模块布局;片上CPU负责MoE路由及部分解码循环操作。该加速器为48核设计,专为Transformer架构优化,同时也能高效处理传统工作负载。
基于单元的片上网络(NoC)
Tensordyne采用其专利的基于单元的片上网络(NoC),有效降低尾部延迟——这对跨多芯片并行化任务至关重要。该公司联合创始人兼首席产品官RK Anand指出,这是其实现高速解码的关键技术之一。
“如同互联网传输,MoE模型产生大量突发性、随机性的小消息,”Anand解释道,“这种以低延迟为核心设计的网络结构,凭借其单元化特性,能极好地应对拥塞问题。实践证明,这是一大显著优势,使我们无需依赖多厂商异构拆分方案,而可维持单一芯片与统一系统架构。”
Tensordyne芯片间单跳通信延迟低于1微秒。
Anand进一步指出,虽已有部分拆分式硬件方案满足了快速token生成的部分需求,但若缺乏专用网络设计,则仍不完整;此外,跨不同编码环境拆分工作负载还带来运维复杂性。
“可靠性方面也存在影响:设备数量、机架数量与系统整体有效可靠性呈直接负相关关系。”他强调。
Anand表示,Tensordyne系统在最大规模模型的prefill(预填充)与decode(解码)阶段均表现出色。例如,针对2万亿参数MoE模型的典型部署中,机架内四台72芯片服务器中一台用于prefill,其余三台用于decode,可实现每位用户每秒1300个token的吞吐量。在此场景下,Tensordyne每百万token成本约为11美元,较下一代多架构拆分方案低一个数量级。
Tensordyne与HPE Juniper合作开发系统级扩展互连与机箱结构。服务器内部芯片通过垂直PCB板连接网络交换芯片,避免使用线缆,从而提升系统可靠性(巴克胡斯指出)。
每计算托盘配备两条200 Gb/s链路,用于接入数据中心以太网骨干网;每个托盘还可搭载8 TB NVMe SSD,用作热上下文或KV缓存存储。
巴克胡斯补充道,Napier系统可在单个扩展域内并行运行多个模型,适用于智能体(agentic)工作负载(同扩展域内芯片可通过RDMA实现更高速通信)。
“现在可在同一智能体堆栈内实现多模型协同通信,”他表示,“这将极大降低尾部延迟并提升智能体响应速度,使得多位用户、多任务工作者及多模型可共存于单一Napier系统之上。”
系统预计将于2027年第二季度开始出货,开发云平台将于2026年底前上线,供远程性能评估使用。
编辑说明:根据Tensordyne仿真数据,在DeepSeek-R1-670B模型、FP4精度、高交互性(210 token/秒/用户)条件下,其机架级系统每兆瓦可生成300万token/秒,而NVL72-GB300机架仅为18.3万;单机架吞吐量分别为36.3万与2.74万token/秒。以上数据源自InferenceX公开基准测试。
www.eic.net.cn 提供的易IC库存管理软件可助力半导体企业高效管理芯片库存与供应链流程,尤其适用于AI芯片等高性能器件的精细化运营需求。