打开网易新闻 查看更多图片

近日,城市通用AI机器人服务提供商酷哇科技正式对外发布Coowa WAM 2.0 (World-Action Model)通用世界模型底座。

“2015年,公司成立时叫‘酷哇机器人’,目标就是做通用的AI机器人。早期专注于移动机器人(车),但受限于当时的算法还不够通用。”

酷哇科技CTO 廖文龙对笔者表示,ChatGPT及端到端AI出现后,酷哇科技看到了创造通用且有生产力价值的机器人的可能,即移动和操作能力都能通过大模型解决。

目前,酷哇科技形成了“智慧出行+智慧物业+智慧城市管家”三大业务矩阵。

在智慧出行领域,酷哇科技自研的L4级自动驾驶小巴CooBus致力于解决“最后三公里”痛点,目前已与国内多个城市签署战略协议,累计安全运营里程突破500万公里。

智慧物业领域,针对高端楼宇与封闭园区的复杂交互需求,酷哇科技发布了轮足机器人R0与四足机器人D0组成的“产品搭档”。

智慧城市管家领域,酷哇科技则形成了以“麒麟”X3、“独角兽”X1为代表的机器人产品,聚焦城市环卫清洁业务,这也是酷哇科技的主要营收来源。

相关数据显示,2025年智慧环卫需求突破74亿元/年,相较2023年提升了约4倍,千万元以上智慧环卫项目中规模化使用比例(扣除试点订单,即单项目至少有10台车以上投入的订单)在2025年达到30%。而针对这类规模化订单中,酷哇科技市场占有率约80%,交付能力居市场最高水平。

在规模化交付的基础上,酷哇科技也试图以Physical AI全栈通用底座,定义城市具身智能新范式。

在核心的模型侧,酷哇科技打造了一套类生物神经系统的Coowa Physical AI全栈平台。该平台划分为模型层、基础设施层与应用层,三者协同运作,帮助跨场景机器人实现从感知世界到改造世界的完整闭环。

针对城市服务中低频但逻辑复杂的长尾场景(如理解交警手势、判断倒塌树木的优先级),酷哇科技引入了自研的UrbanVLM,承担宏观规划与因果约束的职责。它不直接输出控制信号,而是为直觉系统提供高层的“语义围栏”。

其中,云端的UrbanVLM Large模型,拥有320亿参数的多模态大脑,负责全局任务编排。它能读懂复杂的自然语言指令(如“优先清理堵塞排水口的积物,防止暴雨积水”),并将其拆解为具身智能可执行的原子任务序列。

端侧的UrbanVLM Tiny模型,则是部署在机器人边缘侧的小参数模型,负责百毫秒级的语义风险识别。例如,它能通过语义分析识别出前方障碍物是一个“正在玩耍的儿童”,从而强制覆盖底层的绕行策略,触发更安全的“停车礼让”行为。

针对高频且标准化的移动与作业任务,Coowa WAM 2.0 (世界动作模型)利用“视频生成预测”技术,在行动前进行反事实推演(Counterfactual Reasoning),预判动作的物理后果。

“Coowa WAM 2.0是基于实车采集的大数据预训练的,基于海量的真实数据和少量是完全合成的数据(大多是基于真实数据的增强和迁移)。”

廖文龙表示,WAM 2.0提供的是通用化的移动能力,已经落地到了物业服务等场景。相比于1.0,WAM 2.0 采用视频生成理解建模,信息更丰富,更符合Scaling Law。终端表现上,机器人通行能力接近物理极限,人机博弈(如人群穿梭)更流畅、更拟人。

比如,基于VLA (Vision-Language-Action)架构,机器人的“双手”实现了视觉感知与机械臂动作的端到端对齐。通过学习数百万小时的环卫与物业作业真实数据,它能自适应调整清扫力度和机械臂轨迹,将运动控制误差收敛至厘米级。

“(通用AI能力的建立),必须要在真实世界大规模投放产品,像滚雪球一样积累数据和优化算法。”

廖文龙称,机器人市场将在未来3-5年迎来爆发性增长。WAM通用模型底座大幅降低了场景适配成本,推动了机器人商业规模的落地;而大规模商业运营产生的海量物理交互真值数据(Physical Interaction Data),又反哺模型持续进化,进一步巩固了技术护城河。

目前,酷哇科技已在全球超过50个城市和地区、累计4500万公里的真实运营中,沉淀了数百万个高价值长尾场景(Corner Case)数据点。此外,酷哇科技的订单储备已超过50亿元。(文 | 科技潜线,作者 | 饶翔宇 编辑 | 钟毅)