韩国初创公司解决成本和延迟问题

2026-02-18 EE Times

阅读时间约 3 分钟

韩国人工智能芯片初创公司HyperAccel正在准备推出其Bertha 500芯片，这是一种用于数据中心经济的令牌生成的LLM推理加速器。该公司已经有一款基于FPGA的服务器上市，还有一款数据中心芯片和一款边缘芯片即将推出。

在这个领域中的初创公司已经通过提供非常快的令牌而取得成功，攻击了现有GPU架构的一个弱点——它们的单用户令牌速度。相比之下，HyperAccel并没有直接在性能上竞争，而是以经济性为其主要价值主张，HyperAccel的首席战略官Yongwoong Jung告诉EE Times。

“我们试图成为一个更实惠的供应商……这就是我们选择LPDDR的原因，它只有HBM带宽的十分之一，但由于我们能够比GPU更好地利用该带宽，并且由于我们的计算单元的架构，我们可以每秒产生5倍的令牌（对于相同数量的TOPS），”Jung说。“这就是我们克服DRAM带宽弱点的方式，但我们仍然实现了物有所值；这就是我们的价值主张。”

www.eic.net.cn

更好地利用DRAM带宽意味着HyperAccel在人类可读的速度下具有完美的性能，这是当今LLM的关键目标应用。最昂贵的GPU在这种情况中往往过于强大，Jung说。

www.eic.net.cn

合作伙伴内容

以下是一些合作伙伴文章：

工程SDVs在中国速度下不失去控制

作者：Rafael Taubinger，IAR产品营销经理 02.16.2026

超越仪表盘：汽车如何像人类一样感知

作者：Infineon Technologies AG 02.12.2026

重塑AI之眼：HVS将如何在2026年改变AI机器视觉

作者：Illumi Huang，高级行业分析师，EETimes 02.09.2026

“我们的方法是降低成本，如果需要的话，牺牲一点性能，但针对一个非常大的市场，”他说。“对于目前的GPU产品，只有大公司才能使用，因为价格昂贵。”

易IC库存管理软件

也就是说，即使是像OpenAI这样的大公司也有对更便宜硬件的需求，以便他们可以为仍处于免费层级的用户提供服务，Jung说。结果将是越来越异构的AI数据中心。

“我们并不是试图用整个世界替换GPU，我们是在寻找自己的甜蜜点，”Jung说。“无论是在预填充阶段还是解码阶段，或者可能是更大的模型或更小的模型——我们正在寻找甜蜜点。”

FPGA-based server

HyperAccel由KAIST教授Jooyoung Kim于2023年初创立，随后他的学生们加入其中。在2023年的Hot Chips会议上展示后，该小组收到了他们的AI加速器IP的报价，但选择了成为一家芯片公司并决定进行种子轮融资，HyperAccel联合创始人Seungjae Moon告诉EE Times。

HyperAccel的第一个产品是一款基于FPGA的服务器Orion，配备了公司的AI加速器芯片IP。FPGAs在AI标准下资源相当有限，但Orion足以引起一些大型科技公司的注意，如韩国超大规模云服务商Naver Cloud，该公司现在与该公司有联合开发协议，Moon说。

“我们想了解他们的需求，而不是仅仅创造我们能做的最高规格的产品，”他说。

这家初创公司还与LG合作，制造用于设备端AI加速的边缘芯片。

架构

HyperAccel的LPU与领先GPU之间的关键区别在于其使用LPDDR而非昂贵的HBM，通过实现大约90%的内存带宽利用率来弥补较低的带宽。这主要是通过消除传统的内存层次结构来实现的，Moon说。进一步的效率来自于专门针对推理和变压器/LLM工作负载。

“GPU在LLM推理方面存在巨大的结构性不匹配，”Moon说。“当运行LLM推理时，由于复杂的层次结构，它们只能达到大约45%的内存带宽利用率——从内存到计算核心需要经过整个层次结构。它们的计算单元也太多，超过了LLM推理所需的数量，因此它们只能达到大约30%的计算利用率。而且因为它们的规格太高[用于推理]，所以价格很高。”

HyperAccel已将内存带宽与计算紧密匹配，使得数据可以快速流式传输，而不是必须经过缓存。本地内存单元正好适合LLM推理，指令调度单元能够流式传输所有AI模型数据而不会出现任何停滞，Moon说。

GPU还需要在HBM和SRAM之间重新格式化或重塑数据，Moon说，而HyperAccel在其DRAM中存储格式化数据，可以直接加载到计算中，绕过SRAM，避免来回切换。HyperAccel还使用一个大的计算核心而不是许多小的核心。这些架构特点意味着该公司可以从较少的计算中获得更多的令牌——相对于Nvidia Hopper世代的GPU，其令牌每秒的数量大约是它们的五倍，Moon说。

Bertha 500已在三星4nm工艺上完成。它将提供768 TOPS（INT8，但也支持FP16和其他16、8和4位格式）来自32个LPU核心，配备256 MB SRAM。芯片上还有四个四核Cortex-A53核心。它的DRAM带宽为560 GB/s（8通道的LPDDR5x）。支持的最大批次大小为1024。

结果应该是比Nvidia H100（成本约为其十分之一）每美元的吞吐量高出约20倍，以及大约5倍的功耗效率。Bertha 500将运行在大约250 W。

未来几代架构可能会考虑处理器内存储技术，以帮助解码阶段更接近内存，Moon说。

系统和软件

对于大型模型，需要加速器之间的通信。GPU可以通过NVLink等协议直接连接，但由于它们使用内核编程，还需要运行时系统调用，这意味着仍然需要与主机CPU进行某种通信。HyperAccel的架构不需要主机的干预，因为芯片已经知道内存转换发生的时间和地点，这是LLM专用的副作用。这种转换由芯片上的内存控制器控制。

HyperAccel的ESLink（可扩展同步链接，类似于NVLink），连接加速器芯片，可以重叠通信和计算，因为它知道一切何时需要发生。这使得可扩展性更强，Moon说。

HyperAccel的软件堆栈支持HuggingFace仓库中的所有模型和推理服务引擎vLLM。该公司正在开发一种称为Legato的特定领域语言（DSL），这将使开发者能够访问堆栈的底层。一旦Bertha 500发布，还将有AI代理帮助他们这样做，Moon说。

边缘SoC即将推出

除了Bertha 500，HyperAccel还在为包括汽车、消费电子和机器人在内的应用创建一个缩小版的边缘版本，作为与LG电子的联合开发协议的一部分。这个芯片可以处理文本到语音或语音到文本的模型。

与LG共同开发的SoC将使用HyperAccel的加速器IP，配以LG的一些内部IP（可能是PHY和内存控制器IP等模块）和一个Arm Cortex-A55，LG提供后端服务，HyperAccel负责设计服务。（这是LG首次为第三方提供后端服务，Jung说）。HyperAccel将把这款芯片销售到LG以外的边缘应用。命名为Bertha 100，数字与内存带宽有关，而不是计算核心，SoC将使用两个通道的LPDDR5x。样品将在2026年第四季度提供，加速器将出现在M.2卡上。

HyperAccel至今已筹集了4500万美元，估值为2亿美元，团队有77人。Bertha 500的样品预计在2026年第一季度末提供，量产预计在2027年初开始。

← 上一篇

印度将新增2万块GPU

没有更多了