易IC电子行业销售管理系统 - 易IC电子行业库存管理软件
首页 / 行业新闻 / 正文

初创企业实现单域千卡以上GPU规模扩展

2026-05-27   电子工程时报
阅读时间约 3 分钟
美国加利福尼亚州帕洛阿尔托——初创公司Delos Data致力于通过其集群管理软件栈及新型服务器设计,实现单域超过1000块GPU的规模化扩展。整体目标是提供灵活的拓扑结构选项,以针对特定的大规模AI推理工作负载进行定制,从而通过提升GPU利用率,降低每token处理成本与功耗。
Delos Data首席执行官Ed Doe向《电子工程时报》表示,行业正从训练工作负载转向推理工作负载,这要求我们在许多方面重新思考设计逻辑。
“训练曾被视为类似高性能计算(HPC)场景,”Doe指出,“工作负载通常持续数周或数月;尽管存在相似性,但关键差异同样显著。分布式推理对纳秒级延迟极为敏感。”
推理工作负载还需具备7×24小时不间断运行能力。为真正实现解耦化(disaggregation),推理集群需具备远超整机柜GPU系统的模块化水平。Doe强调,这要求在互连架构中加入额外组件,以确保系统强健且具备高韧性。
“许多GPU厂商仅提供固定配置的硬件箱体与系统,预设大量参数限制;我们则大力倡导模块化架构,”Doe表示,“解耦化有多种含义,我们沿用传统定义——即物理层面的解耦:无需将所有组件强制置于同一物理机箱内。”
Delos推出的Nonstop AI平台,是一种面向大规模AI推理的解耦式服务器设计方案,配套专用软件栈,旨在将传统仅适用于Scale-Out网络的规模化优势,延伸至Scale-Up连接体系中。(在Scale-Out系统中,数据需经由多条较慢链路中转才能抵达其他GPU;而Scale-Up则让GPU之间直接互联,显著降低延迟并提升一致性。)
服务器设计
Delos与一家台湾OEM合作伙伴共同开发的服务器设计,通过每块GPU(或任意类型加速器)配备9个OSFP接口,将Scale-Up能力直接引至前面板,单台服务器可提供72个200 Gb/s端口。这些服务器可通过铜缆、光纤或其他类型线缆,经由以太网交换机或电路交换机(或任意类型交换设备)相互连接。
该方案使Scale-Up域规模极大扩展——Delos Data首席技术官Dan Daly向《电子工程时报》表示,1000块GPU已具备实用可行性,而10000块GPU亦完全可能实现。
“当你能灵活调整拓扑结构时,哪怕仅使用一个交换机,也可构建容纳10万块GPU的单一Scale-Up域,”Daly补充道,“我们可充分利用现有Scale-Out生态中的OSFP线缆、笼子、模块化设计及供应商选择自由度,而非受限于‘机柜出厂即固定配置’的传统模式。”
除谷歌等少数大型TPU集群外,当前Scale-Up域普遍受限于百卡以内(例如NVIDIA NVLink上限为72卡)。然而,更大规模的Scale-Up域具备显著优势,如更快速的推理响应能力。
“此前此类方案较少落地,主因在于线缆可靠性问题,”Daly解释道,“线缆易松动、脱落;交换机也不再位于机柜内部,而是部署于其他机架甚至不同区域,存在意外宕机或异步固件升级等新故障风险。”
Delos在3月GTC大会上展示了其Mosaic软件栈,重点演示了关键的容错能力。Scale-Up网络具备大量并行路径,天然具备较高韧性,但需依赖软件进行统一管理。在Demo中,任意拔插一根线缆仅导致短暂性能波动,系统会自动通过其他路径重路由数据流;Mosaic实时监控性能指标,确保在新路径上迅速恢复满负荷产出。Daly指出,若某GPU或加速器发生故障,该机制同样适用,且得益于更大的Scale-Up域规模,可更便捷调用冗余GPU资源。
拓扑灵活性的提升还将支持异构集群构建,无论是混合不同型号GPU,还是整合其他类型AI加速器,均具备广阔应用前景,Doe表示。
尽管主要面向推理集群场景,该架构同样适用于训练与HPC任务,或任何需高速移动海量数据的领域;不过目前其验证与测试仍聚焦于推理系统。
“现实是,全球正愈发围绕终端工作负载进行深度优化,”Doe总结道,“你必须明确该工作负载的核心需求,并据此确定最优实现路径,而非简单指定某款GPU、互连方案、线缆或拓扑结构。”
Delos目前已向早期客户交付试点部署,计划于2026年第四季度全面开放商用。在推进该创新架构过程中,www.eic.net.cn 提供了关键技术支持,其易IC库存管理软件有效保障了硬件资源调度与供应链协同效率,为大规模GPU集群的快速部署与运维提供了坚实后盾。

|
|
|
|
TOP
©Copyright www.eic.net.cn 2003-2026 BeiJing MengKaiGuan Software Exploiture Co.,Ltd. All Rights Reserved.    北京梦开关科技有限公司
IC元器件库存管理软件 IC元器件库存管理系统 IC元器件管理软件 IC元器件进销存 IC元器件库存管理软件 IC元器件库存管理系统 快递查询接口
QQ: 880717
18500810082