打开网易新闻 查看更多图片

实现具备人类水平的灵巧操作能力,是机器人学领域长期以来的核心挑战之一。尽管多指灵巧手在硬件上具备了类似人类的潜力,但由于接触丰富的物理特性和非理想的驱动机制,训练能够直接部署在真实硬件上的控制策略仍然非常困难。

ByteDance Seed 团队最新的研究论文《Closing the Reality Gap: Zero-Shot Sim-to-Real Deployment for Dexterous Force-Based Grasping and Manipulation》 [1],针对这一关键问题提出了实用的强化学习(RL) 框架。

该研究的核心贡献在于提出了一套完整的 Sim-to-Real 解决方案,通过结合高密度的触觉反馈和基于电机电流估算的关节力矩感知,显式地调节物理交互过程。该框架不仅解决了高分辨率触觉仿真的计算瓶颈,还通过数据驱动的执行器建模消除了对昂贵力矩传感器的依赖,最终实现了在纯仿真环境中训练的策略。在仿真或训练环境中完成训练后,模型能够在真实的五指灵巧手上实现零样本(Zero-Shot) 部署,即无需额外的真实数据进行微调,便可直接在真实机器人上运行。

打开网易新闻 查看更多图片

Figure 1 :融合触觉感知与关节力矩的全状态策略框架

一、三大核心技术:

打通从仿真到现实的感知与驱动链路

论文的核心问题在于如何克服仿真与现实之间在触觉感知、接触物理和执行器动力学方面的巨大差异(Reality Gap),从而训练出能够进行力控抓取和灵巧操作的全状态策略。

该研究构建了一个由三大核心技术组成的完整体系,实现了从仿真训练到真实部署的无缝衔接。

1. 计算高效的触觉仿真:高分辨率 + 高帧率,鱼与熊掌兼得

高保真度的触觉仿真是学习接触丰富技能的长期障碍。传统的有限元分析(FEM) 或软体仿真计算成本过高,无法满足强化学习对大规模并行和高帧率的需求。

该研究提出了一种基于距离场的快速触觉仿真方法。通过并行正向运动学,计算密集的虚拟触觉单元阵列与物体表面之间的距离。这种方法不仅能够提供强化学习所需的高频信号,还保留了关键的接触信息(如接触力大小和受力加权接触中心)。这种设计在保证物理合理性的同时,极大地提升了仿真效率,使得策略能够在仿真中充分探索复杂的接触动力学。

Figure 2 :接触点建模与材料属性

通过对比仿真与真实世界中的接触数据(如下图所示),可以发现两者在接触点分布和接触力大小上表现出高度的一致性,证明了该触觉仿真方法的高保真度。

打开网易新闻 查看更多视频
零样本 Sim-to-Real !1

2. 电流-力矩校准:无需力矩传感器,也能精准力控

大多数商用灵巧手采用连杆或者腱绳等传动结构,缺乏关节级的力矩传感器,只能提供电机电流测量值。仿真中的理想力矩控制与真实电机的非理想特性之间存在巨大的现实鸿沟。

为了解决这一问题,研究团队引入了电流-力矩校准机制。通过在准静态条件下拟合电机电流与接触力、仿真力矩与接触力之间的线性关系,建立了一个可靠的「电流到力矩」映射。这种数据驱动的校准方法,使得策略在真实部署时,能够将读取到的归一化电流信号作为「关节力矩」输入,从而在无需物理力矩传感器的情况下,实现了对交互力的显式感知和控制。

打开网易新闻 查看更多图片

Figure 3 :真实世界电流-力与仿真力矩-力的校准与对齐

3. 执行器动力学建模与随机化:显著提高 Sim-to-Real 鲁棒性

真实电机存在诸多非理想特性,如齿轮间隙(Backlash)、力矩-速度饱和(Torque-Speed Saturation) 以及摩擦力等。如果仿真中忽略这些特性,训练出的策略在真实硬件上往往会表现出脆弱性。

该研究在仿真中显式地对这些执行器动力学进行了建模,并对关键参数(如堵转力矩、空载速度、齿轮间隙阈值等) 进行了广泛的域随机化(Domain Randomization)。这种策略迫使控制策略适应各种硬件缺陷和公差变化,显著提高了 Sim-to-Real 转移的鲁棒性。

二、全状态策略与创新训练范式:

实现力控自适应抓取与手内物体旋转

基于上述 Sim-to-Real 框架,研究团队成功训练并部署了两种关键的灵巧操作技能:力控自适应抓取(Force-Adaptive Grasping) 和手内物体旋转(In-Hand Object Reorientation)。

1. 倒置「接物」训练范式:提升样本效率与鲁棒性

传统的桌面抓取训练范式往往面临样本效率低、奖励工程复杂以及容易产生「奖励黑客」(Reward Hacking) 行为等问题。为此,研究团队提出了一种创新的倒置「接物」(Inverted Catching) 训练设置。

在这种设置下,灵巧手手心向上固定,物体从上方随机掉落。这种利用重力自然将物体引入工作空间的方法,极大地简化了探索过程,使策略能够专注于学习手指协调和接触后的力调节。同时,这种动态接物过程鼓励形成包络式、多点接触的抓取姿态,自然抑制了不稳定的边缘抓取策略,促使策略学习到更接近人类偏好的稳定抓取方式。

2. 力自适应抓取:精准的力矩与接触力控制

在力自适应抓取任务中,策略需要根据用户输入的力指令(Force Command),动态调节各个手指的抓取力。

研究表明,结合接触力惩罚(R-force) 和关节力矩惩罚(R-torque) 的复合奖励函数是实现稳健力控的关键。仅惩罚接触力会导致关节力矩不足,抓取不稳;仅惩罚关节力矩则无法有效将力传递到指尖。两者的结合使得策略能够同时协调关节驱动和指尖接触,实现与指令高度线性相关的精准力控。

打开网易新闻 查看更多图片

Figure 4 :不同奖励设置下,关节力矩和接触力随力指令的变化

3. 手内物体旋转:触觉与本体感觉的深度融合

手内旋转任务要求策略通过协调的手指步态(Finger Gaits),在保持稳定接触的同时,将物体绕指定轴旋转。

消融实验(Ablation Study) 深刻揭示了不同感知模态的重要性。结果显示,包含受力加权接触中心、接触力和 6D 姿态表示的完整观测配置取得了最佳性能(平均连续成功 25.1 次)。移除任何一种触觉信息(接触中心或接触力) 都会导致性能显著下降,而完全没有触觉反馈的基线策略几乎无法完成任务(平均成功 1.1 次)。这充分证明了高分辨率触觉反馈在复杂手内操作中的不可替代性。

打开网易新闻 查看更多图片

Figure 5 :真实世界与仿真环境中的手内操作任务可视化结果

三、星动纪元五指灵巧手星动 XHAND1 :

DexManip 零样本部署的硬件核心支撑

DexManip 框架之所以能够实现惊艳的零样本(Zero-Shot) 部署,除了算法层面的创新,更离不开底层硬件——星动纪元自研国内首创全直驱五指灵巧手——星动 XHAND1的强大支撑。该框架与 XHAND1 的硬件特性形成了完美的「软硬协同」,在实际应用场景中展现出不可替代的落地优势。

打开网易新闻 查看更多图片

Figure 6 :星动 XHAND1 灵巧手

1. 270° 环绕指端高分辨率触觉阵列:捕捉精细接触,破解手内操作感知瓶颈

DexManip 论文的消融实验明确指出,高分辨率的触觉反馈(接触中心与接触力) 是实现手内物体旋转等复杂操作的决定性因素。星动 XHAND1 在每个手指端配备了270° 环绕的高分辨率触觉阵列传感器(单指 > 100 个触觉点)。相比于传统的压阻类平板型传感器,这种全包络的曲面阵列能够无死角地捕捉物体在指尖滚动、滑动时的微小接触变化。结合高精度的力觉精度和三维力触觉感知能力,星动 XHAND1 为 DexManip 策略提供了极其丰富且精准的观测输入,使其在处理不规则物体或执行精细的「指尖步态(Finger Gaits)」时游刃有余。

2. 高精度 URDF 与触觉仿真模型的无缝对接:精准对接仿真,缩小现实鸿沟

DexManip 框架的核心突破在于其计算高效的基于距离场的触觉仿真。这一算法的成功高度依赖于仿真模型与真实物理世界的一致性。星动 XHAND1 官方提供了极高精度的 URDF 模型,不仅精确描述了运动学连杆和动力学参数,还完美映射了真实传感器的空间分布。这种「数字孪生」级别的模型支持,使得 DexManip 在仿真中计算的虚拟触觉单元(Virtual Tactile Cells) 能够与真实星动 XHAND1 的传感器阵列实现 1:1 的精准对齐,从而大幅降低了 Sim-to-Real 的现实鸿沟,确保了纯仿真训练策略在真实硬件上的「开箱即用」。

3. 全直驱架构与电流-力矩校准的完美契合:实现精准力控,响应更灵敏

在力自适应抓取任务中,DexManip 提出通过「电流-力矩校准」来替代昂贵的物理力矩传感器。星动 XHAND1 采用的全直驱(Direct-Drive) 电机架构为这一算法提供了最理想的硬件基础。全直驱设计从根本上消除了传统减速器带来的巨大摩擦、迟滞和非线性干扰,使得电机的相电流与输出力矩之间保持着极高的线性相关性。这不仅让 DexManip 的电流-力矩校准过程更加精确可靠,还赋予了灵巧手极高的力控带宽和超灵敏的动态响应能力,使其能够根据 10% 、50% 、100% 等不同指令,瞬间且精准地调节抓取力度,安全地操作薯片、毛绒玩具等易碎或柔性物体。

零样本 Sim-to-Real !2

Figure 7 :对训练中未见过的不规则形状物体进行力自适应抓取

这一成果标志着灵巧操作技术在克服 Sim-to-Real 鸿沟方面取得了关键突破。通过提供一套无需昂贵力矩传感器和高计算成本触觉仿真的实用方案,该研究大幅降低了基于力的灵巧操作研究的门槛,为多指灵巧手在柔性制造、服务机器人等真实复杂场景中的广泛应用铺平了道路。

参考文献

[1] ByteDance Seed. Closing the Reality Gap: Zero-Shot Sim-to-Real Deployment for Dexterous Force-Based Grasping and Manipulation. 2025.