人形机器人「网球运动员」来了！不靠预编程，银河通用破解长程打网球难题-AI Express News

LATENT团队投稿
量子位 | 公众号 QbitAI

在所有运动场景中，网球几乎是人形机器人最难的一道考题：

高速来球逼迫瞬时判断，全身协同决定回球质量，满场奔跑则持续考验爆发力与控制力。

那么，当机器人真正站上球场，它能否像人类运动员一样完成判断、移动与连续回合击球？

画面中，机器人迅速移动脚步调整站位，上下半身协同挥拍击球，并将球精准回击到指定位置。面对各种来球，它能够持续调整身体姿态与击球时机，与不同水平的网球对手完成多回合连续对拉。

在网球这样的高动态、高对抗环境中，机器人面对的是时速超过几十公里的来球、变幻莫测的落点轨迹，以及对手不断变化的击球节奏。

更重要的是，这一能力并非依赖预编程动作实现，而是机器人通过深度强化学习自主习得——全球首次在人形机器人上实现高动态网球对打，机器人正在实现从“机械复刻动作”向“智能决策响应”的底层跨越。

这背后，是来自银河通用与清华大学联合提出的新研究：LATENT（Learning Athletic Humanoid Tennis Skills from Imperfect Human Motion Data）。项目主页：zzk273.github.io/LATENT/，开源代码：github.com/GalaxyGeneralRobotics/LATENT。

研究团队提出了一种新的机器人运动学习方法，使人形机器人能够从不完美的人类动作数据中学习复杂的运动技能，并在真实世界中完成高动态、高敏捷的网球击球与对打任务。

从不完美的人类数据中，构建支持高动态、高敏捷全身运动能力的“运动小脑”

传统的人形机器人运动学习往往依赖高质量遥操作数据进行模仿学习，但在网球这样的高动态运动场景中，这类数据几乎难以获取。而通过高质量动作捕捉数据完整记录一场网球比赛所涉及的人体运动，则需要高精度、大范围动作捕捉系统，也需要精准获取运动员的击球手部动作，因此昂贵且几乎不可获得。

LATENT提供了一种完全不同的思路：

△ LATENT框架图

不依赖昂贵且几乎不可获得的网球全场比赛跑动数据，不依赖精准的运动员击球手部动作，仅靠收集前后移动、正反手挥拍、横向步伐等碎片化动作，让机器人自主学习运动技能空间，构建其“运动小脑”，从而解锁大范围跑动急停、回击各种来球的运动能力。

团队把难以规模化采集的完美专家数据替换为易获取但不完美的人类动作数据，从源头打开机器人运动技能学习的数据通路。

定义“运动技能空间”，让运动技能既自然又可控

仅仅学习动作片段并不足以让机器人完成复杂运动任务，关键在于如何把这些零散经验整合成可执行的运动技能。研究团队提出在隐空间中构建一个“运动技能空间”，将碎片化的人类动作先验组织为可组合、可泛化的技能结构。

同时，通过在训练过程中对关键自由度施加随机扰动，该空间允许关键自由度上可被修正、可探索。这一空间使机器人不再只是机械复刻训练数据，而是获得一个既保留自然运动风格、又允许击球细节被修正的技能表示，为后续任务学习出强于原始数据的技能提供了强大的基础。

△ 从训练数据构建“运动技能空间”

在训练过程中，强化学习驱动的规划器会在这一技能空间中进行采样与组合。面对不同来球，机器人可以根据球速、落点以及自身姿态，对步伐、挥拍节奏和身体姿态进行实时自主规划，在保持自然运动风格的同时实现稳定击球。

此外，机器人还会根据实时感知对动作进行微调，特别是在击球末端自主修正挥拍轨迹，从而控制回球方向与落点，使回击更加稳定、精准。

“隐空间动作屏障”，像人类网球运动员般优雅的击球

在网球这样的高动态运动中，困难的不只是把球打回去，而是在高动态对抗中既完成任务、又不牺牲动作质量。

如果完全依赖强化学习进行探索，机器人往往会找到一些“投机取巧”的策略，例如通过抖动、不自然的动作勉强击中来球。虽然任务完成了，但动作质量会严重下降。

为了避免这一问题，研究团队提出了隐空间动作屏障Latent Action Barrier（LAB）。

△ 隐空间动作屏障（LAB）

LAB为强化学习提供了一种受约束但不僵化的探索机制。策略可以针对不同来球、自主跑位以及击球动作进行灵活调整，但同时又不会轻易偏离自然的人类运动模式。

因此，在训练过程中，机器人既能够保持自然稳定的运动风格，又能够逐渐学会适应不同来球情况，实现更加精准的击球控制。通过这种方式，机器人最终能够在高动态环境中实现稳定击球，同时保持自然流畅的动作表现。

实验验证

为了进一步验证LATANT的性能，研究通过将策略部署至29自由度的宇树G1机器人，并在MuJoCo仿真器和真实世界中进行大量测试。

首先，实验系统对比了LATANT与经典基线算法例如：PPO、AMP的性能表现。

△ LATENT与其他方法的性能对比结果

LATANT在击球成功率（SR），回球落点精准性（DE），关节顺滑程度（Smth）与关节力矩（Torque）上展现出了绝对优势：LATENT不仅打得准，并且打得丝滑！

在真实物理世界中，研究者进行了连续20局的人类-机器人连续网球对拉，实验涵盖机器人正手击球、机器人反手击球、机器人前场击球、机器人后场击球等多种实验设置。

真实世界复杂多变，为了在不同场地、不同材质的网球地面上进行稳定击打，研究者在仿真中对地面弹性系数、空气阻力、网球质量、机器人本体动力学性质等多个方面进行了随机扰动，并借助GPU进行大规模强化学习训练：

△ LATENT真机性能表现的消融对比

图片[7]-人形机器人「网球运动员」来了！不靠预编程，银河通用破解长程打网球难题-AI Express News 实验证明了LATENT在不同球场位置、不同击球动作的表现下均有着较高的击球成功率和击球精准度，而研究者发现域随机化的加入和训练中观察噪声的引入对网球的在真机上的性能表现起到关键作用，测试时，机器人展现出了极强的运动自然性和稳定性。