易IC电子行业销售管理系统 - 易IC电子行业库存管理软件
首页 / 行业新闻 / 正文

韩国初创公司解决成本和延迟问题

2026-02-18   EE Times
阅读时间约 3 分钟
韩国人工智能芯片初创公司HyperAccel正在准备推出其Bertha 500芯片,这是一种用于数据中心经济的令牌生成的LLM推理加速器。该公司已经有一款基于FPGA的服务器上市,还有一款数据中心芯片和一款边缘芯片即将推出。
在这个领域中的初创公司已经通过提供非常快的令牌而取得成功,攻击了现有GPU架构的一个弱点——它们的单用户令牌速度。相比之下,HyperAccel并没有直接在性能上竞争,而是以经济性为其主要价值主张,HyperAccel的首席战略官Yongwoong Jung告诉EE Times。
“我们试图成为一个更实惠的供应商……这就是我们选择LPDDR的原因,它只有HBM带宽的十分之一,但由于我们能够比GPU更好地利用该带宽,并且由于我们的计算单元的架构,我们可以每秒产生5倍的令牌(对于相同数量的TOPS),”Jung说。“这就是我们克服DRAM带宽弱点的方式,但我们仍然实现了物有所值;这就是我们的价值主张。”
www.eic.net.cn
更好地利用DRAM带宽意味着HyperAccel在人类可读的速度下具有完美的性能,这是当今LLM的关键目标应用。最昂贵的GPU在这种情况中往往过于强大,Jung说。
www.eic.net.cn
合作伙伴内容
以下是一些合作伙伴文章:
工程SDVs在中国速度下不失去控制
作者:Rafael Taubinger,IAR产品营销经理 02.16.2026
超越仪表盘:汽车如何像人类一样感知
作者:Infineon Technologies AG 02.12.2026
重塑AI之眼:HVS将如何在2026年改变AI机器视觉
作者:Illumi Huang,高级行业分析师,EETimes 02.09.2026
“我们的方法是降低成本,如果需要的话,牺牲一点性能,但针对一个非常大的市场,”他说。“对于目前的GPU产品,只有大公司才能使用,因为价格昂贵。”
易IC库存管理软件
也就是说,即使是像OpenAI这样的大公司也有对更便宜硬件的需求,以便他们可以为仍处于免费层级的用户提供服务,Jung说。结果将是越来越异构的AI数据中心。
“我们并不是试图用整个世界替换GPU,我们是在寻找自己的甜蜜点,”Jung说。“无论是在预填充阶段还是解码阶段,或者可能是更大的模型或更小的模型——我们正在寻找甜蜜点。”
FPGA-based server
HyperAccel由KAIST教授Jooyoung Kim于2023年初创立,随后他的学生们加入其中。在2023年的Hot Chips会议上展示后,该小组收到了他们的AI加速器IP的报价,但选择了成为一家芯片公司并决定进行种子轮融资,HyperAccel联合创始人Seungjae Moon告诉EE Times。
HyperAccel的第一个产品是一款基于FPGA的服务器Orion,配备了公司的AI加速器芯片IP。FPGAs在AI标准下资源相当有限,但Orion足以引起一些大型科技公司的注意,如韩国超大规模云服务商Naver Cloud,该公司现在与该公司有联合开发协议,Moon说。
“我们想了解他们的需求,而不是仅仅创造我们能做的最高规格的产品,”他说。
这家初创公司还与LG合作,制造用于设备端AI加速的边缘芯片。
架构
HyperAccel的LPU与领先GPU之间的关键区别在于其使用LPDDR而非昂贵的HBM,通过实现大约90%的内存带宽利用率来弥补较低的带宽。这主要是通过消除传统的内存层次结构来实现的,Moon说。进一步的效率来自于专门针对推理和变压器/LLM工作负载。
“GPU在LLM推理方面存在巨大的结构性不匹配,”Moon说。“当运行LLM推理时,由于复杂的层次结构,它们只能达到大约45%的内存带宽利用率——从内存到计算核心需要经过整个层次结构。它们的计算单元也太多,超过了LLM推理所需的数量,因此它们只能达到大约30%的计算利用率。而且因为它们的规格太高[用于推理],所以价格很高。”
HyperAccel已将内存带宽与计算紧密匹配,使得数据可以快速流式传输,而不是必须经过缓存。本地内存单元正好适合LLM推理,指令调度单元能够流式传输所有AI模型数据而不会出现任何停滞,Moon说。
GPU还需要在HBM和SRAM之间重新格式化或重塑数据,Moon说,而HyperAccel在其DRAM中存储格式化数据,可以直接加载到计算中,绕过SRAM,避免来回切换。HyperAccel还使用一个大的计算核心而不是许多小的核心。这些架构特点意味着该公司可以从较少的计算中获得更多的令牌——相对于Nvidia Hopper世代的GPU,其令牌每秒的数量大约是它们的五倍,Moon说。
Bertha 500已在三星4nm工艺上完成。它将提供768 TOPS(INT8,但也支持FP16和其他16、8和4位格式)来自32个LPU核心,配备256 MB SRAM。芯片上还有四个四核Cortex-A53核心。它的DRAM带宽为560 GB/s(8通道的LPDDR5x)。支持的最大批次大小为1024。
结果应该是比Nvidia H100(成本约为其十分之一)每美元的吞吐量高出约20倍,以及大约5倍的功耗效率。Bertha 500将运行在大约250 W。
未来几代架构可能会考虑处理器内存储技术,以帮助解码阶段更接近内存,Moon说。
系统和软件
对于大型模型,需要加速器之间的通信。GPU可以通过NVLink等协议直接连接,但由于它们使用内核编程,还需要运行时系统调用,这意味着仍然需要与主机CPU进行某种通信。HyperAccel的架构不需要主机的干预,因为芯片已经知道内存转换发生的时间和地点,这是LLM专用的副作用。这种转换由芯片上的内存控制器控制。
HyperAccel的ESLink(可扩展同步链接,类似于NVLink),连接加速器芯片,可以重叠通信和计算,因为它知道一切何时需要发生。这使得可扩展性更强,Moon说。
HyperAccel的软件堆栈支持HuggingFace仓库中的所有模型和推理服务引擎vLLM。该公司正在开发一种称为Legato的特定领域语言(DSL),这将使开发者能够访问堆栈的底层。一旦Bertha 500发布,还将有AI代理帮助他们这样做,Moon说。
边缘SoC即将推出
除了Bertha 500,HyperAccel还在为包括汽车、消费电子和机器人在内的应用创建一个缩小版的边缘版本,作为与LG电子的联合开发协议的一部分。这个芯片可以处理文本到语音或语音到文本的模型。
与LG共同开发的SoC将使用HyperAccel的加速器IP,配以LG的一些内部IP(可能是PHY和内存控制器IP等模块)和一个Arm Cortex-A55,LG提供后端服务,HyperAccel负责设计服务。(这是LG首次为第三方提供后端服务,Jung说)。HyperAccel将把这款芯片销售到LG以外的边缘应用。命名为Bertha 100,数字与内存带宽有关,而不是计算核心,SoC将使用两个通道的LPDDR5x。样品将在2026年第四季度提供,加速器将出现在M.2卡上。
HyperAccel至今已筹集了4500万美元,估值为2亿美元,团队有77人。Bertha 500的样品预计在2026年第一季度末提供,量产预计在2027年初开始。
下一篇 →
没有更多了

|
|
|
|
TOP
©Copyright www.eic.net.cn 2003-2026 BeiJing MengKaiGuan Software Exploiture Co.,Ltd. All Rights Reserved.    北京梦开关科技有限公司
IC元器件库存管理软件 IC元器件库存管理系统 IC元器件管理软件 IC元器件进销存 IC元器件库存管理软件 IC元器件库存管理系统 快递查询接口
QQ: 880717
18500810082