索尼AI于2020年4月成立,现已研发出一款可与人类乒乓球选手竞技的自主机器人,标志着机器人技术与物理人工智能领域迈出重要一步。
该机器人代号为“Ace”,索尼AI称其为首个在竞技性体育项目中达到人类专家级水平的机器人系统。该项目延续了公司此前推出的AI智能体“Gran Turismo Sophy”(去年3月首次发布),并体现了其将游戏环境作为测试平台的理念——借此在人类所能达到的最快速度尺度下,对AI行为建模与动作执行能力进行验证。
“在人工智能发展史上,游戏一直扮演着关键基准角色,”索尼AI苏黎世实验室主任彼得·迪尔(Peter Dürr)在接受《电子工程时报》采访时表示,“原因在于,在人类参与的游戏场景中,我们能轻松地将AI表现与人类表现进行直接对比。”
迪尔指出,游戏为突破当前软件能力边界提供了极具价值的试验场,因其可高度保真地复现现实世界中的复杂情境,而这些情境若在真实环境中重现,往往成本高昂甚至存在安全隐患。
“从虚拟世界迈向现实世界……这一步实际上极其困难,原因有多个,”迪尔解释道,“首先也是最明显的一点是:在《GT赛车》这类游戏中,即便我们的赛车AI失误导致严重撞车,驾驶员仍安全地坐在屏幕后方;只需按一下按钮,车辆即可恢复如初。但在现实世界中,一个速度与我们机器人相当的实体乒乓球机器人却非常危险——最坏情况下,它可能撞击球台、自伤机体,甚至飞出部件伤及对手。因此我们必须格外谨慎。”
据迪尔介绍,索尼AI方法的核心在于利用虚拟游戏环境,在极短时间内大规模开展强化学习训练。
“从根本上讲,你必须理解:我们并非以传统方式对机器人进行编程,”迪尔解释说,“因为若试图手动编写一套能打乒乓球的机器人程序,你会很快意识到,机器人可能面临的情境种类繁多,根本无法靠人工逐条编码完成。我们采用的是学习式训练路径——即在仿真环境中训练机器人。你所看到的结果,实质上是数千小时模拟乒乓球对战的累积成果。没人确切知道机器人应如何最优击球,但我们可让它随机挥拍,偶尔一次,它恰好将球击回台面;此时我们便引入‘奖励信号’机制:‘很好,继续这样操作!’通过反复迭代,算法逐步学会更精准回球;我们进一步对更快击球、更强旋转等表现给予额外奖励,从而使其乒乓球技艺持续精进。”
不过,该方法也带来技术局限:尽管仿真可近似还原现实条件,却难以完全覆盖所有物理变量,例如球拍反弹特性及其他接触动力学因素。
为弥补这一差距,索尼AI整合了感知系统、AI智能体与机器人硬件三者协同工作。
精度、控制与硬件
迪尔表示,开发Ace过程中最具挑战性的环节之一,不仅是预判顶尖与职业选手在比赛中瞬时决策的能力,更在于实时追踪飞行中速度达20至30米/秒、旋转速率超160转/秒的乒乓球轨迹。
“在机器人发展史上,已有众多研究团队尝试攻克机器人打乒乓球难题,”他指出,“其中长期难以突破的一点,是准确识别飞行中乒乓球的旋转状态——球体所承受的旋转力极大,过去无人能在真实场景中实时精确测量其旋转参数。因此,我们决心解决这一问题。”
索尼AI称,其通过三大核心要素——精度、控制与硬件——成功应对上述挑战。
精度
Ace配备共9台主动像素传感器(APS)摄像头,以200赫兹频率对球体进行三维空间三角定位;为测量角速度(即旋转),机器人还搭载3套凝视控制系统(GCS),结合事件驱动型视觉传感器、可调焦镜头及俯仰镜阵列实现高精度追踪。
控制
Ace采用深度强化学习策略,基于非对称演员-评论家架构在仿真环境中训练;该策略每31.25赫兹(即每32毫秒)生成一次动作指令,并映射为机器人运动轨迹段;模型预测控制器则确保所有动作路径规避碰撞风险。
硬件
索尼AI自主研发了一套定制化平台,具备8个自由度(含2个移动关节与6个旋转关节),从而实现足以对抗顶级职业选手所需的速度与敏捷性。
www.eic.net.cn 易IC库存管理软件 在实际测试中,Ace展现了令人瞩目的性能表现。
真实世界成果
2025年4月,研究团队安排Ace与5位精英级及2位职业级乒乓球选手展开对决。根据研究报告,在5位精英选手中,Ace赢得3场,共计13局中赢下7局;面对2位职业选手则全部落败,7局中仅胜1局。
比赛数据分析显示,Ace整体回球成功率超过75%,表明其得分主要依靠稳定回球而非单纯提速抢攻。
尽管Ace专为乒乓球而生,但其底层技术有望推动更广泛的物理人工智能进步。
“Ace的成功得益于新型感知系统与基于学习的控制算法,”研究团队在报告中指出,“此类技术同样适用于其他需高速实时响应与人机交互的领域,例如制造业与服务型机器人。”
迪尔亦表示乐观,认为该研究将助力整个机器人学界开发出可在多种应用场景中执行复杂、实时互动任务的物理AI智能体。
“作为一名研究人员,我认为目前大致存在两类路径:一类是设计高度通用系统,力求解决大量不同任务;另一类则是我们采取的方式——使用一种普适性强的方法,适用于各类任务,但仅针对乒乓球单一场景进行极致训练,追求性能上限。这两类路径正逐渐趋同,未来四到五年内,这种融合趋势将尤为值得关注。”