打开网易新闻 查看更多图片

本文刊发于《现代电影技术》2025年第11期

专家点评

具身智能人形机器人研究是当前人工智能的前沿领域,旨在打造适配人类环境、能替代体力劳动的通用具身智能体,具有重要的理论意义和实际应用价值。其核心技术涵盖双足动态运动、全身协调控制、多模态感知融合以及高密度能源系统等,但动态稳定性与动作协调性仍极具挑战。近年来,舞蹈人形机器人逐渐进入人们的视野,比如宇树科技的舞蹈人形机器人Unitree H1在春节联欢晚会完成了令人印象深刻的扭秧歌表演。与通用人形机器人相比,舞蹈人形机器人面临更多的技术挑战,比如音乐与动作的精准同步;艺术性、表现力、情感传达等。具身智能是人工智能领域非常活跃的一个重要分支,通过物理实体与环境实时交互,实现感知、认知、决策和行动一体化。《基于具身智能的舞蹈人形机器人系统框架研究》一文提出一种基于具身智能的舞蹈人形机器人系统框架,通过多步运动处理和自适应运动追踪,增加对机身线速度内部潜在状态的估计器和探索性好奇心奖励机制训练人形机器人掌握复杂的英歌舞。该框架提升了机器人在复杂舞蹈动作中的学习与表现能力,而且在舞蹈动作的稳定性与自然性方面有一定的突破,为影视创作、艺术展演与人机交互等领域提供了新的技术手段。

—— 刘世光

教授

天津大学计算机科学与技术学院博士生导师

【项目信息】2024年北京高等教育本科教学改革创新项目“人工智能编舞及其舞台视觉设计方法研究”(0625013)。

作 者 简 介

打开网易新闻 查看更多图片

吴 振

王文强

北京舞蹈学院副教授,主要研究方向:艺术与科技。

松延动力(北京)科技有限公司算法副总裁,主要研究方向:机器人运动控制。

崔文昊

覃帮羽

王文强

松延动力(北京)科技有限公司算法工程师,主要研究方向:机器人运动控制。

北京舞蹈学院教授,主要研究方向:舞台艺术设计。

周立新

基于具身智能的舞蹈人形机器人通过模仿人类动作掌握舞蹈技能,但即使经过奖励和课程设计,现有算法也仅能追踪平滑、低速的人类运动。本文提出一种舞蹈人形机器人系统框架,在基于物理的人形运动控制(PBHC)方法基础上,通过多步运动处理和自适应运动追踪,增加对机身线速度内部潜在状态的估计器(Estimator)和探索性好奇心奖励(Curiosity Reward)机制,训练人形机器人掌握复杂的英歌舞。实验成功将动作数据部署到松延动力N2人形机器人上,N2在现实场景中展示的步态和舞蹈动作与模拟器中的图像保持了高度一致性。研究表明,该框架不仅提升了机器人在复杂舞蹈动作中的学习与表现能力,还在舞蹈动作的稳定性与自然性方面取得了突破,为舞蹈机器人在影视创作、艺术展演与人机交互领域的应用提供了新的技术路径。

关键词

具身智能;舞蹈;人形机器人;人形运动控制

1引言

具身(Embodiment) 最初的概念是“身体对心灵有意义”,指支持感觉和运动的物理身体[1]。具身智能(Embodied Intelligence, EI) 是人工智能(AI)的一个子领域,指专注于与物理环境交互的智能体,其通过物理实体与环境实时交互,实现感知、认知、决策和行动一体化,即感觉运动耦合和情境智能。与单纯的被动观察不同,EI智能体对其环境采取行动并从反应中学习[2]。人形机器人通常被定义为具有人类外观或拟人化特征的机器人[3]。凭借其类人的形态结构,人形机器人被视为具身智能体的理想载体。然而,相较于四足机器人,人形机器人因重心较高、自由度更大以及体型更为庞大,在运动技能学习与控制方面面临更大挑战[4]。本文所研究的人形机器人属于智能型机器人,具备具身智能,能够复制人类的形态与功能,并在执行不同任务时模仿多样化的人类行为[5]。随着技术的进步,机器人开始逐渐涉足如舞蹈表演这类更复杂和艺术化的任务,并有望作为“演员”参与电影表演,承担部分特技动作,舞蹈人形机器人研究应运而生。

本文借鉴基于物理的人形运动控制(Physics⁃Based Humanoid motion Control,PBHC)[6]方法,在该方法基础上,加入机身线速度内部潜在状态的估计器(Estimator),可有效解决人形机器人在舞蹈动作执行过程中无法完成抬腿和剧烈抖动的技术难题;同时,通过在奖励机制中引入探索性好奇心奖励(Curiosity Reward),促进人形机器人在训练过程中加速策略的探索,从而有效提升其对专家数据动作的学习能力。该框架应用于松延动力(北京)科技有限公司(以下简称“松延动力”)N2人形机器人的训练与部署,使其通过模仿专业演员的表演动作具备了稳定且富有表现力的舞蹈表演效果。

2研究背景

当前,舞蹈人形机器人正逐渐成为展演领域的重要技术形态。2024年春节联欢晚会上,宇树 H1 机器人完成了扭秧歌表演;2025年8月于北京举办的2025世界人形机器人运动会亦将机器人单机舞蹈与群舞项目纳入正式赛事。追溯其历史渊源,早在1952年,华特迪士尼公司即设立幻想工程(Imagineering)研发部门,并通过自动机(Automatronics)等系列计划推动智能表演机器人研究,其中包括能够替代人类完成高难度空中特技表演的“超级英雄特技”(Stuntronics)机器人[7]。此外,双足机器人 Blue 已在游乐园环境中实现连续 10 小时无跌倒运行,其兼具表现力动作与稳定动态移动的技术特征,使其能够与观众进行有效交互[8]。

机器人学界普遍认为,使机器人掌握更多动作能力对于推动该领域的发展具有重要意义[9]。自20世纪90年代以来,强化学习(Reinforcement Learning, RL)与模仿学习(Imitation Learning, IL)已成为机器人研究中取得显著成果的两类主要机器学习(ML)方法[10]。其中,强化学习是一种通过智能体与环境交互来学习最优决策策略的机器学习范式[11],在以最少先验知识教授人形机器人基本运动技能方面表现出突出的效果。然而,当奖励信号较弱时,探索过程往往会导致不自然的步态,从而引发高能耗与机械磨损,进而对实际部署造成限制。模仿学习是一类通过模仿专家行为来训练智能体的机器学习方法[12]。其侧重于从专家行为数据中提取有价值的信息〔本文利用动作捕捉(Motion Capture)技术获取专家行为数据〕,并结合分类或回归等机器学习技术对模型进行训练,使其再现专家行为。模仿学习的主要优势在于数据效率较高,可充分利用已有专家行为数据,在有限样本条件下快速获得具备基本行为能力的模型,从而使机器人能够较快掌握复杂动作。然而,其局限性在于高度依赖专家演示,且所学技能往往难以泛化至未包含于演示中的新情境。

与在游戏或动画影像纯数据虚拟环境中的模拟相比,机器人在物理世界中需要同时处理感知与行动问题,从而使任务复杂性显著增加,并面临具有本质差异的挑战。

强化学习在位移运动(Locomotion)任务中,仿真训练和真实世界部署的最大差异主要体现在环境、硬件和训练部署3方面。在环境方面,仿真环境的物理属性和干扰因素相对简化且稳定,而真实世界中物理参数复杂多变且存在大量不可预测的干扰。硬件方面,每台真实机器人都存在制造误差、零部件磨损以及传感器精度受限等问题;而仿真环境中,每个零部件执行期都是精密、准确、零公差的,二者存在较大差异。在训练与部署上,仿真训练样本效率高、试错成本低,但策略直接迁移到真实世界时,由于环境和硬件差异,常面临性能下降和仿真到现实差距(Sim⁃to⁃Real Gap)的挑战。因此,在舞蹈人形机器人动作训练中,通常采用模仿学习的方法,并探索利用少量真实数据对仿真训练进行校准,以提升物理逼真度,缩小机器人在仿真与现实间的性能差距[13]。

近年来,动作捕捉系统与动作生成方法取得进展, AIST++ 等涵盖人类舞蹈并附带文本描述的大规模舞蹈动作数据集的发布,使人形机器人在全身控制与复杂舞蹈模仿方面展现出广阔的发展前景[14]。然而,该领域仍面临多重挑战:其一,传统人形机器人训练方法虽能支持走路、挥手等低速、平滑动作的模仿,但在复杂高速舞蹈动作中效率较低,通常一次仅能稳定训练约10 s甚至更短的动作片段;其二,人类演员的动作序列往往与人形机器人在关节约束、自由度(DoF)分布及动力学特性上存在差异,易出现违反关节或稳定性约束的情况,导致物理维度的不可行,从而产生较大误差、动作失败乃至跌倒。此外,现有方法普遍缺乏自适应的误差容忍机制,进一步限制了其在真实舞蹈表演场景中的应用。

3基于具身智能的舞蹈人形机器人系统

3.1系统框架

在2025世界人形机器人运动会上,北京舞蹈学院与松延动力组成联合代表队参加了单机舞蹈表演赛事,选用松延动力N2人形机器人[15],其身高1.2 m,体重30 kg,外形相对小巧,具18个自由度用于控制,每条手臂具4个自由度,每条腿具5个自由度,最大关节输出扭矩可达 200 N·m。

为提升人形机器人在高动态、复杂全身舞蹈动作模仿与表演中的稳定性,研究团队在对N2的英歌舞训练任务中引入PBHC方法,以弥合仿真到现实的差距。在此基础上,研究团队提出的改进框架(图1)包含3个核心模块:(1)使用动作捕捉提取和处理动作;(2)基于最佳追踪因子的自适应运动追踪;(3)强化学习训练框架和仿真到现实的部署。

打开网易新闻 查看更多图片

图1 总体框架图

研究团队通过两阶段框架来应对英歌舞中快速大幅运动带来的挑战。(1)在运动处理阶段使用光学动作捕捉技术从演员舞蹈表演中提取动作,建立基于物理的指标来评估人体模型的物理量,从而过滤超出人形机器人物理极限的运动。之后,计算运动的接触掩码(Contact Masks)进行运动校正,使用逆向运动学(Inverse Kinematics, IK)将处理后的运动重映射到人形机器人上。(2)在运动模仿阶段借鉴自适应运动追踪机制通过追踪因子调整追踪奖励,根据追踪误差调整追踪因子以适应不同的运动。随后,制定双层优化(Bi⁃level Optimization, BLO) [16]来推导最优因子,并设计了一种自适应更新规则,该规则在线估计追踪误差,在训练过程中动态优化追踪因子。

基于以上框架,研究团队设计了一种用于策略优化的非对称演员-评论家(Actor⁃Critic)架构。演员(Actor)完全依赖于局部观测,即决策时只使用人形机器人能实时感知到的局部传感数据,而不依赖于全局或额外信息,从而保证策略能在真实环境中落地;评论家(Critic)则采用了奖励向量化技术,利用特权信息来改进值估计。另外,我们在此基础上增加了对机身线速度内部潜在状态的估计器和探索性好奇心奖励机制。

3.2 验证实验

基于具身智能的舞蹈人形机器人系统框架验证实验选取广东汕头、潮州、揭阳、汕尾及福建漳州等地区的英歌舞作为研究对象,并对舞蹈动作进行适当改编。为保证动作数据的准确性,邀请与人形机器人身高相近的演员完成表演,并利用光学动作捕捉技术采集相关数据(图2)。随后,对采集数据进行滤波处理,并重定向至 N2骨架进行可视化,以检验其是否符合预期动作表现;若结果不符合要求,则对动作进行修正;若符合要求,则进入强化学习训练环节,并通过仿真模拟进一步验证动作效果。若仿真结果仍未达到预期,则再次调整动作;若符合标准,则开展人形机器人实机适配与验证。最终,经多轮确认与优化,人形机器人能实现稳定且富有表现力的舞蹈表演。

打开网易新闻 查看更多图片

图2 研究团队对英歌舞动作进行简化,通过光学动作捕捉技术进行数据采集

具体训练流程(图3)可概括为以下4个阶段:(1)准备阶段,研究团队对英歌舞动作进行简化,并对人形机器人无法完成的部分进行修改,最终设计出一段时长约 1 分 30 秒的动作序列;(2)仿真阶段,在强化学习的物理仿真环境中对舞蹈动作及奖励机制进行建模,使人形机器人能在虚拟环境中逐步掌握英歌舞动作模式;(3)实机阶段,将训练结果迁移至人形机器人进行适配与验证;(4)优化阶段,在动作确认无误后,对整体动作序列进行集中优化。

打开网易新闻 查看更多图片

图3 人形机器人英歌舞训练流程

3.3 训练方法

(1)创建公式。研究团队将运动模仿问题公式化为一个目标条件强化学习问题,其数学建模为马尔可夫决策过程,即:

M=(S, A, S
ref
,γ, r, P

式(1)中,

S
S
ref
分别表示人形机器人和参考运动的状态空间;
A
为人形机器人的动作空间;
为折扣因子(Discount Factor),用于控制未来奖励的重要性,取值范围为0<
r
是由运动追踪和正则化奖励组成的混合奖励函数;
P
表示依赖于人形机器人形态和物理约束的状态转移函数。

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

(2)参考运动处理。SMPL(Skinned Multi⁃Person Linear)模型[18]为人体运动提供了一种通用表示形式。研究团队首先利用动作捕捉技术提取并处理动作数据,并将其转换为SMPL格式的运动序列。随后,通过逆向运动学方法将该序列重新映射至N2,从而生成可用于运动追踪的参考动作。

(3)改进PBHC方法。首先,生成的运动序列通过基于物理的指标进行筛选;随后,将精炼后的动作序列重映射至N2。在训练期间,利用接触掩码进行落脚点的奖励设计,帮助人形机器人学会在应该落地的时刻落地,在应该腾空的时刻保持腾空;最终得到的动作轨迹作为强化学习训练的参考,并部署于真实N2。在此过程中,额外引入了机身线速度内部潜在状态的估计器和探索性好奇心奖励,以提升表演的流畅性与稳定性,并有效消除动作抖动、站立不稳等不良状态。

(4) 好奇心奖励机制。为鼓励人形机器人探索,多样化技能的获取需要人形机器人在不同关节角度空间中进行充分试探。然而,简单的预定义奖励函数难以全面刻画这种多样性。因此,研究团队引入探索性好奇心奖励,引导人形机器人自主探索未见的状态-动作空间。具体而言,除了任务奖励

r
,还将好奇心奖励
r
c
融入价值函数,以促进更高效的探索与学习。

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

3.3.1 运动处理路径

在训练人形机器人表演英歌舞的过程中,研究团队提出了一条运动处理路径,用于提取和转换舞蹈动作,以实现人形机器人的运动追踪。该路径包括以下4个步骤,以确保生成的动作在物理上合理且能有效迁移至人形机器人平台。

(1)采用光学动作捕捉技术采集舞蹈数据并转换为SMPL格式

使用光学动作捕捉系统(Optical Motion Capture System)对舞者进行全身三维动作数据采集。该系统通过在舞者身体关键部位布设反光标记点,并利用多台高速相机同步追踪这些标记点的空间位置,获得高精度的关节运动轨迹。随后,采用人体参数化模型 SMPL对捕捉到的动作数据进行拟合与优化,将离散的标记点坐标转化为具有骨骼与表面网格结构的统一运动表示,最终得到 SMPL 格式的动作估计序列,为后续的物理过滤与人形机器人映射奠定基础。

(2)基于物理学的运动过滤

基于物理学的运动过滤是指结合人形机器人自身的物理特性对动作捕捉数据进行约束与调整,使其在物理上可执行。该过程旨在消除不符合动力学规律的动作,如滑步、穿透、关节超限及力矩超限等。具体包括两个环节:其一,物理过滤,即通过检测质心(Center of Mass, CoM)与压力中心(Center of Pressure, CoP)的距离,判断并剔除不稳定或不可实现的动作;其二,接触修正,即识别脚部与地面的接触点,对漂浮或脚滑等不合理现象进行校正,从而获得物理上合理且可迁移的运动数据。

(3)基于接触感知的运动校正

打开网易新闻 查看更多图片

(4)运动重定向

采用基于逆向运动学的重定向方法,将处理后的 SMPL 格式动作映射至 N2的骨架结构。该方法通过构建一个可微分的优化问题,在保证关节限制的前提下,使末端执行器的运动轨迹尽可能与参考动作对齐。具体流程(图4)包括:首先,利用动作捕捉系统采集人类舞者的运动数据,并将其作为N2的参考运动;其次,识别膝关节、肘关节等关键点,并对源运动进行尺度变换以匹配人形机器人的体型比例;随后,应用逆向运动学求解关节角度位置,实现动作的合理映射;最后,在仿真环境中播放生成的动作文件,以验证身体运动的对称性和执行效果。

打开网易新闻 查看更多图片

图 4 从专家数据(左)运动重定向到N2(右)

3.3.2 自适应运动追踪

在PBHC中,奖励函数采用指数形式的追踪奖励,由两部分组成:(1)任务特定奖励,用于强制追踪参考运动;(2)正则化奖励,用于促进整体动作的稳定性和平滑性。其中,对齐关节状态与刚体状态的追踪均采用指数形式,其奖励函数定义为:

r(x
=exp(-x/σ
(6)

式(6)中,

表示追踪误差,
为追踪因子,用于控制误差容忍度。当
远大于
的典型范围时,奖励接近1,且对误差变化不敏感;当
远小于
的典型范围时,奖励趋近于0,导致训练过于苛刻。合理选择
可增强追踪效果并提高精度。为确定最佳
,本文基于简化的运动追踪模型展开分析。

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

图5 自适应机制中追踪因子的闭环调整

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

3.3.3 非对称演员-评论家RL训练框架

打开网易新闻 查看更多图片

3.4 效果测试

人形机器人在现实环境中展现出的一系列高动态技能,验证了其在运动控制与模仿学习方面的先进能力。图6中,人形机器人在现实场景中实现的步态与舞蹈动作,与模拟器中的图像保持了高度一致性。例如,在英歌舞的代表性动作“转槌花”的起势环节中,由于N2的手腕结构未配置电机,无法完成槌棒在手中的内旋动作,因此对该动作进行了适当简化。具体而言,人形机器人双手紧握英歌棒,由弯腰姿态过渡至直立:首先屈膝,下肢动作表现为左脚向上蹬、右脚向后抬,上肢同时完成右臂上举;随后动作交替进行,即右脚向上蹬、左脚向后抬,同时左臂上举。

打开网易新闻 查看更多图片

图6 N2在真实世界中稳定地跳英歌舞(上),动作与模拟器中的图像(下)高度一致

这一过程表明,人形机器人能够学习包括英歌舞在内的高动态、全身协调技能,而不仅局限于简单的动作模仿。在训练与测试过程中,我们不断对控制策略进行优化。例如,早期实验发现N2在执行弯腰后退动作时无法抬脚,而表现为原地静止。通过在训练框架中引入接触掩码,该问题得以解决。同时,我们还观察到人形机器人在舞蹈表演中出现频繁抖动。为此在训练框架中加入状态估计器,显著减少了抖动现象。

为进一步评估所提出策略的追踪性能,我们对英歌舞动作进行了10次重复实验,并基于机载传感器数据计算相应的性能指标(机身位姿以及各关节的角度和速度)。实验结果显示,现实环境中的评估指标与在仿真平台Isaac Gym中获得的指标高度一致,验证了训练框架在跨虚拟与现实场景中的有效性与稳定性。

4总结与思考

研究团队在借鉴 PBHC 方法的基础上,对舞蹈动作进行了过滤与修正,并采用自适应追踪机制以动态调整误差容忍度,从而改进强化学习架构,以提升训练稳定性并缩小从仿真到现实的差距。然而,在人形机器人舞蹈创作过程中,仍会遇到超出训练数据能力范围以及从仿真到现实不一致等问题。例如,首次舞蹈数据采集的舞者为身高约 1.8 m的男性,其舞蹈动作在映射到身高仅 1.2 m的人形机器人时,由于结构差异,导致其动作幅度与运动方式与人类存在显著偏差。当演员动作幅度超出人形机器人可实现的运动极限时,人形机器人容易出现抽搐、抖动等异常。为应对这一问题,团队在第二次采集过程中选择了身高约 1.4 m、与人形机器人尺寸更为接近的女性舞者,并针对人形机器人的机械结构特性对动作进行了适配性修改,从而取得了更为理想的效果。

这一实践过程表明,舞蹈创作需要舞蹈编导与算法工程师的深度协同:舞蹈编导需深入理解人形机器人的机械构造,以判断动作的可被实现程度;算法工程师则需掌握舞蹈动作的细节特征。例如,英歌舞在最终实现过程中被拆分为三个片段,并在软件中进行编排与优化,以确保舞蹈表演既符合技术可行性,又保持艺术感染力。与此同时,创作者还需进一步思考,当人类舞蹈动作被迁移到人形机器人时,哪些特质会丧失,哪些意想不到的表现效果可能出现,以及人形机器人是否具备发展出不完全依赖于模仿人类的独特运动风格的潜力。

5结语

本文提出了一个人形机器人舞蹈动作学习框架,该框架参考了 PBHC方法,并在此基础上引入了机身线速度内部潜在状态的估计器和探索性好奇心奖励。依托这一新型全身运动控制强化学习框架,人形机器人在实际部署中展现出兼具运动与艺术表现力的鲁棒行为。在英歌舞实践中,其动作精度得到了充分验证,并最终获得2025世界人形机器人运动会单机舞蹈类银牌。这一成果推动了人形机器人运动控制技术的边界扩展,为实现更敏捷、稳定,强鲁棒性的实际应用奠定了基础。然而,该方法当前仍存在局限:首先,缺乏对环境的感知能力(如地形感知与避障),从而限制了其在非结构化场景中的应用;其次,每个策略均针对单一动作进行训练,需要针对不同舞蹈创作进行人类动作数据采集,并开展人类数据在人形机器人上的重定向,人形机器人训练、奖励函数参数微调、部署这一系列冗杂繁琐的流程。

目前,人形机器人舞蹈仍需大量人工编舞与编程才能实现。未来的研究方向应聚焦于革新人机协作模式,即通过领域专家提供少量、直观且精准的指导,结合人形机器人自身的先验知识,使其能够快速习得新任务,从而降低部署门槛。理想状态下,人形机器人应如同生物体一般,在整个生命周期中持续学习与适应,而非依赖一次性训练。此外,如何实现跨任务、跨环境甚至跨人形机器人平台的高效技能迁移,以及如何赋予人形机器人即兴舞蹈创作能力,仍是亟待解决的挑战。可以预见,在不久的将来,围绕人形机器人训练的安全、伦理、高效性与可持续性等问题也将逐步获得有效应对。随着具身智能和机器人技术在运动控制、环境感知和自主决策等方面的发展,人形机器人或将承担电影特技表演任务,并扩展电影拍摄的可能性。其不仅能在电影中完成人类演员难以胜任的高难度动作,还能在动态环境中保持稳定性和安全性,或是在危险环境中进行拍摄。此外,人形机器人与影视行业的深度融合还将催生新的商业模式和内容创作生产方式。

参考文献

(向下滑动阅读)

[1] BERGEN B. 1. Embodiment[M]//DABROWSKA E, DIVJAK D. Handbook of Cognitive Linguistics. Berlin, München, Boston: De Gruyter Mouton, 2015: 10⁃30.

[2] PAOLO G, GONZALEZ-BILLANDON J, KÉGL B. A call for embodied AI [EB/OL]. (2024⁃02⁃06)[2025⁃09⁃12]. https://arxiv.org/abs/2402.03824v4.

[3] GOSWAMI A, VADAKKEPAT P. Humanoid robotics: a reference[M]. Dordrecht: Springer, 2019.

[4] HUANG H, CUI W, ZHANG T, et al. Think on Your Feet: Seamless Transition Between Human⁃Like Locomotion in Response to Changing Commands[C]//2025 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2025: 15965⁃15971. DOI:10.1109/icra55743.2025.11127948.

[5] GU Z, LI J, SHEN W, et al. Humanoid Locomotion and Manipulation: Current Progress and Challenges in Control, Planning, and Learning[EB/OL]. (2025⁃01⁃03)[2025⁃09⁃12]. https://arxiv.org/abs/2501.02116v2.

[6] XIE W, HAN J, ZHENG J, et al. KungfuBot: Physics⁃Based Humanoid Whole⁃Body Control for Learning Highly⁃Dynamic Skills[EB/OL]. (2025⁃06⁃15)[2025⁃09⁃12]. https://arxiv.org/abs/2506.12851v1.

[7] BARNES B. Are You Ready for Sentient Disney Robots? [EB/OL]. (2021⁃08⁃19) [2025⁃09⁃12] .https://www.nytimes.com/2021/08/19/business/media/disney-parks-robots.html.

[8] GRANDIA R, KNOOP E, HOPKINS M, et al. Design and Control of a Bipedal Robotic Character[C]//Robotics: Science and Systems XX. Robotics: Science and Systems Foundation, 2024.

[9] 搜狐. 王兴兴回应争议:格斗、跳舞的意义,具身智能并非“非人形不可”?[EB/OL].(2025⁃06⁃07) [2025⁃09⁃12] .https://www.sohu.com/a/902166736_476872.

[10] 李孟阳,武兵,李利娜,等.机器人模仿学习优化方法研究[J/OL].机械设计与制造,1⁃5[2025⁃09⁃05].https://doi.org/10.19356/j.cnki.1001-3997.20250808.007.

[11] 苗中华,朱子煜,张伟,等.具身智能农业机器人关键技术与发展趋势[J].农业机械学报,2025,56(09):212⁃239.

[12] 张超,白文松,杜歆,等.模仿学习综述:传统与新进展[J].中国图象图形学报,2023,28(06):1585⁃1607.

[13] DE F A, MILANO M. Robotic Choreography Creation Through Symbolic AI Techniques[M]//Lecture Notes in Computer Science. Springer Nature Singapore, 2023: 346⁃351.

[14] LI R, YANG S, ROSS A D, et al. AI Choreographer: Music Conditioned 3D Dance Generation with AIST++ [EB/OL]. (2021⁃01⁃21)[2025⁃09⁃12]. https://arxiv.org/abs/2101.08779v3.

[15] Noetix Robotics. 从N2的矫健身姿到E1的温暖双臂,松延动力双子星以硬核科技重新定义“机器人伙伴”![EB/OL]. (2025⁃05⁃28) [2025⁃09⁃12]. https://noetixrobotics.com/newsInfo-46.html.

[16] ZHANG Y, KHANDURI P, TSAKNAKIS I, et al. An Introduction to Bilevel Optimization: Foundations and applications in signal processing and machine learning[J]. IEEE Signal Processing Magazine, 2024, 41(1): 38⁃59. DOI:10.1109/msp.2024.3358284.

[17] SCHULMAN J, WOLSKI F, DHARIWA P, et al. Proximal Policy Optimization Algorithms[EB/OL]. (2017⁃07⁃20)[2025⁃09⁃12]. https://arxiv.org/abs/1707.06347v2.

[18] LOPER M, MAHMOOD N, ROMERO J, et al. SMPL: a skinned multi⁃person linear model [J]. ACM Transactions on Graphics, 2015, 34(6): 1⁃16. DOI:10.1145/2816795.2818013.

[19] TANG H, HOUTHOOFT R, FOOTE D, et al. : A Study of Count⁃Based Exploration for Deep Reinforcement Learning[EB/OL]. (2016⁃11⁃15)[2025⁃09⁃12]. https://arxiv.org/abs/1611.04717v3.

[20] XIE W, BAI C, SHI J, et al. Humanoid Whole⁃Body Locomotion on Narrow Terrain via Dynamic Balance and Reinforcement Learning[EB/OL]. (2025⁃02⁃24)[2025⁃09⁃12]. https://arxiv.org/abs/2502.17219v2.

[21] PENG B X, ABBEEL P, LEVINE S, et al. DeepMimic: Example⁃Guided Deep Reinforcement Learning of Physics⁃Based Character Skills[EB/OL]. (2018⁃04⁃08)[2025⁃09⁃12]. https://arxiv.org/abs/1804.02717v3.

打开网易新闻 查看更多图片