在大语言模型(LLM)的训练过程中,我们已经见证了一个令人瞩目的现象:大语言模型能够跨越语言差异,学习理解相同的知识。这背后,是模型对知识本质的深度抽象——将“机器人”与“ROBOT”这类表面符号的差异剥离,聚焦于它们所共同指向的概念:“一类通过编程与自动控制,能够自主完成任务的智能体。”
这不禁引发了我们的思考:如果语言模型能够做到跨语言抽象知识,那么具身智能是否也能做到跨任务、跨环境地抽象动作的本质?换句话说,我们是否可以让机器人像大语言模型一样,通过“观看视频”自主学习各类任务中动作的共性,忽略硬件差异、拍摄视角、环境细节,从而朝着通用控制的目标迈进?
最近,来自香港大学的团队就基于这一思考提出了全新框架——UniVLA,一个跨本体、跨场景、跨任务的通用策略学习系统,就像为机器人安装了“跨界大脑”,实现了从“看视频”、“听指令”到“动手操作”的通用控制。
论文标题: UniVLA: Learning to Act Anywhere with Task-centric Latent Actions 论文链接: https://www.arxiv.org/abs/2505.06111 代码链接: https://github.com/OpenDriveLab/UniVLA
以往的通用模型如 RT-2、OpenVLA 虽已初具通用模型之势,但依然存在诸多瓶颈:
对动作标签强依赖:训练时必须大量人工采集的真机示范数据,费时费力又难scale up。
缺乏通用性和跨平台适配能力:换个机器人,动作空间就全得重来。
推理慢且精度不稳:自回归预测方式对错误累积敏感,执行效率不高。
UniVLA 选择了一条更具前瞻性的路径:不再直接预测每一步动作,而是构建一个任务中心的潜在动作空间,在这个“中间表征”上统一训练与泛化策略,不仅可以有效解决上述瓶颈,同时也能够以更低的计算资源消耗实现更优的效果。
UniVLA 的核心创新在于构建了以任务为中心的潜在动作空间(Task-Centric Latent Action Space),彻底抛弃了对动作标签的依赖,让模型可以从海量无标签视频中也可以学习任务相关且高效泛化的动作表示,只在人类视频数据(Ego4D)上预训练,也可以在 LIBERO 仿真平台上达到 SOTA 级别效果。经过预训练后同一模型也可以同时完成操作和导航等任务,实现了通用的动作学习。
UniVLA - 跨本体、跨场景、跨任务的通用策略 一、为什么是潜在动作?因为它既“压缩信息”,又“对齐知识”
传统的通用模型如 OpenVLA 采用自回归策略直接预测每一步动作,推理速度慢且鲁棒性不强。UniVLA 则另辟蹊径,将动作预测划分为三个阶段:
潜在动作学习:从海量跨领域视频中“默默学习”,通过逆动力学建模并使用VQ-VAE进行离散化,依靠语言指令构建出对任务理解更强、更紧凑的潜在动作空间。
通用策略预训练:借助 Prismatic-7B 等大模型架构,将视觉观察与语言指令编码为统一输入,预测潜在动作序列,从而实现具身无关的通用策略。
动作解码与部署:使用轻量化解码器将潜在动作转译为真实机器人控制信号,作为下游的控制策略,从而能够在多个机器人平台上进行快速适配和部署,不论是何种机械臂,都能轻装上阵,高效执行。
UniVLA 的前两阶段训练策略
相比 OpenVLA 那种直接在动作空间里“硬解”的做法,UniVLA 的“隐式编码”(Latent Encoding)策略有几个显著优势:
不依赖动作标签,泛化范围大:只需视频和语言,就能从互联网视频数据中学技能,提取动作。
压缩维度,降低计算成本:动作空间被有效压缩,推理速度从小于 5Hz 提升至 10Hz以上。
适配灵活,迁移效率高:由于潜在动作具有通用性,故只需轻量微调,就能部署到不同机器人上,下游数据效率拉满。
OpenVLA,UniVLA 在计算效率和适配能力上表现出压倒性优势:预训练GPU时长仅为其 1/20,却在多个任务和平台上实现性能的全面超越。
在 LIBERO、CALVIN 等多个操控基准测试中,UniVLA 展现出优越的通用性与任务适应能力,在四项评估指标中成功率平均提升达18.5%。此外,在单靠人类视频预训练(Ego4D)时,UniVLA 也能击败用大量真实机器人数据训练的对手,在 LIBERO 中达到 SOTA 效果。
LIBERO 实验结果
更重要的是,UniVLA 以其结构化的潜在动作空间设计,天然具备扩展性与数据可扩展性:无论是引入更多人类示范作为提取隐空间表征的与训练,还是增加新的机器人平台仅通过轻量微调即可迁移适配,实现跨具身、跨视角、跨任务的全面通用。
在真实机器部署中,受益于仅 12M 参数的简单动作解码器以及高效的隐空间动作表征,UniVLA 可以实现(闭环)10Hz 以上的实时推理控制,在多个任务中(如“清理案板”、“叠汉诺塔”等)展现出高精度、高鲁棒的操作能力,平均成功率达到 80%以上,推理时延远低于 OpenVLA,打通了通用大模型到落地应用的可能路径。
UniVLA在真机实验表现出色
同时在设计的若干泛化实验中,面对各种泛化挑战,它不仅不社恐,还能“快准稳”上手。通用的潜在动作空间+异构数据的预训练,让它不止是“聪明”,而且真·“通用”。
UniVLA 在不同泛化条件下的表现
多亏了 UniVLA 的 “潜在动作+通用训练”,UniVLA 能够充分在大量异构数据(操作、导航甚至人类视频)中进行学习,并能够有效容纳足够多的知识,照单全收,越学越强。
UniVLA 的异构数据扩展能力
少样本情况下 UniVLA 性能优势尽显,在 LIBERO 长程任务基准上仅用 10% 数据(不到50条 demo,平均每个任务仅 5 条)击败了全量数据微调的 OpenVLA。
UniVLA 在少样本情况下的表现
UniVLA 的方法不仅代表了视觉语言动作模型(VLA)领域的一次突破,更为“通用机器人智能”提供了新的思考与贡献:从像素重建走向语义解耦的潜在动作学习、从高耗能预训练走向轻量高效的跨本体适配、从单一机器人数据闭环走向人类视频与多本体数据的开放协同。
来源: 公众号【OpenDriveLab】
llustration From IconScout By IconScout Store
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线600+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈

