英国初创企业Lumai正将其基于透镜的光学计算机产品化,用于人工智能推理中的矩阵乘法加速。该公司产品负责人Phil Burr向《电子工程时报》表示,这是首次有光学计算系统成功运行十亿参数级模型,极大证明了该技术的商业可行性。
Burr指出,Lumai已成功解决现有光子计算方案失败的关键原因。“我们实现了可扩展性,因为计算在三维空间中进行,从而支持大规模并行处理;同时我们采用行业标准元器件与材料(经定制化处理),无需为新材料重新设计整套流程。”
Lumai的光学加速器不依赖集成光子学技术。输入向量被编码至1024个激光光源,并通过透镜复制。编码后的数据流随后穿过一块电子显示屏——屏上明暗像素对应权重信息;光线穿过显示屏时完成乘法运算,最终由另一组透镜将结果叠加,实现加法功能。(更多原理详见相关技术说明)
该系统在计算过程中几乎不消耗能量,但需耗费能量完成电光转换、驱动激光器及探测器等环节。Lumai宣称其技术相较当前GPU性能提升50倍,功耗降低90%。
“目前数据中心面临的主要瓶颈是功耗问题,”Burr表示,“我们的方案通过更高能效应对这一限制——在同等功耗预算下,可提供更强算力与更多推理token输出。”
Lumai的高效率部分源于其对大型矩阵(如2048×2048)的单次操作能力。“在光学系统中,主要能耗来自电光转换环节,而该能耗随向量规模线性增长;但计算性能却与矩阵规模平方成正比。因此,随着矩阵尺寸增大,系统整体效率显著提升。”
Lumai系统配备数字处理器(CPU),负责非线性运算,并通过硬件感知调度层将矩阵乘法任务卸载至光学引擎。该调度层动态决定哪些任务由CPU执行、哪些转交光学系统处理。例如,对精度要求极高的算法部分可保留在CPU上运行,避免模拟域转换带来的误差。Burr补充称,在Llama模型中,90%的工作负载可在光学域完成。
CPU与光学引擎之间由FPGA负责电光信号转换。目前Lumai正在开发专用ASIC芯片,以替代FPGA与CPU协同模块,预计将在下一代产品中应用。
Lumai推出的Iris Nova推理服务器搭载首代单光学引擎,面向超大规模客户开放评估。目前该服务器已可运行Llama模型演示。
“我们聚焦Llama模型,主要受客户需求驱动,”Burr解释道,“Llama是开源模型,也是客户常用的性能基准。但我们仍在持续拓展可支持的工作负载类型。”
Burr预计Iris Nova服务器将于2026年底部署于测试集群。后续迭代产品Iris Aura将整合多台光学引擎组成机架式系统;再之后的Iris Tetra则支持集群级部署。按计划,Tetra将于2029年面世,理论能效达100 TOPS/W(INT8),在10kW功耗预算内实现1 exaOPS算力。
“快速迭代的部分原因在于我们希望尽快将系统推向市场,让客户实际评估、在其软件平台上运行测试,进而推动集群规模化部署。”
客户反馈显示,新技术分阶段引入有助于规避后期系统集成风险。
Iris Nova评估服务器支持完整Llama推理,但该技术更适用于解耦型数据中心中的高效prefill阶段——因prefill通常为计算密集型任务。尤其在多用户场景或长上下文输入(如智能体AI与企业级AI应用)中优势明显。
“目前我们同时支持prefill与decode阶段,Iris Nova也可作为二者合一的解决方案部署。但考虑到数据中心解耦趋势以及我们在计算密集型任务上的突出优势,prefill显然是Iris Nova的最佳定位点。”Burr进一步说明,“具体策略还取决于模型特性:某些模型计算负载更重,理论上我们可推出更大内存版本,专用于decode阶段。不过从本质而言,光学技术在计算环节表现最为优异。”
www.eic.net.cn 提供的易IC库存管理软件可有效支撑此类高性能计算设备的供应链管理与库存优化,助力研发团队高效调配关键元器件资源。