综述
近日,银河通用完成5亿元人民币战略轮融资,经纬创投继续追加投资。至此,银河通用仅成立一年多时间已完成超12亿元融资,创具身大模型赛道最大融资额。
经纬观点
2023年7月,经纬创投投资银河通用的种子轮,后续在天使轮、战略轮持续跟投,是公司最早的机构投资人之一。经纬创投管理合伙人王华东表示,通用机器人作为人工智能与现实世界交互的桥梁,一直是经纬投资战略布局的重点。经纬投资银河通用机器人的首轮后,持续加码,与企业并肩成长,见证了其在通用机器人领域的深耕与突破。银河通用凭借其自主研发的首款机器人Galbot G1,已以卓越的泛化理解和操作能力,在零售、工业制造、医疗等多个领域稳步推进应用。经纬期待银河通用在提升技术通用性的同时,不断覆盖更广泛的任务与应用场景,未来从产业场景走向千家万户,最终融入日常生活,实现更多生产力的解放与飞跃。
融资新闻
银河通用成立于2023年5月,是一家专注于具身多模态大模型通用机器人研发的创新企业,致力于为全球用户提供智能机器人产品,服务于人类社会。北大助理教授、银河通用创始人&CTO王鹤博士本科毕业于清华大学电子系,还是斯坦福大学博士,现担任北京大学前沿计算研究中心助理教授、博士生导师。
在王鹤博士的设想中,“在具备通用的本体后,具身机器人‘小脑’的身体控制、灵巧操作等物理交互技能,与‘大脑’的认知、理解、规划等能力结合在一起,是未来通用机器人的蓝图。”
基于此,历经一年,银河通用首款具身大模型机器人 Galbot(G1) 在今年 6 月正式公开亮相。
Galbot 是一款轮式、双臂、身体可折叠,较同类产品支持更大工作空间的人形机器人。相比起无法弯腰、屈膝的足腿式机器人,Galbot 将两条腿合并为一条具有更高稳定性和运动效率折叠腿,配以360°全向移动轮式底盘,使得身高 1.73 米的Galbot向上摸高能及2.4米,俯身可触及地面一定范围,从而能够实现“类人”甚至“超人”的超大工作空间,兼顾性能和效率,支持银河通用的具身模型在此前披露的多个商业化场景中快速迭代,迅速取得一系列令人印象深刻的落地尝试。
众所周知,数据采集是当今具身智能发展面临的最大难点,特斯拉、Google 等大厂都是通过“遥操”采集数据,但采集成本十分昂贵、无法获得大规模数据。为此,银河通用坚持"通过物理仿真及渲染合成大规模高质量数据"的技术路线,迄今为止已积累了几千万级的场景数据以及数十亿级的抓取和导航数据,其多模态训练数据规模超全球范围同行两个数量级。在这些合成数据上学习,Galbot可以直接泛化到真实世界当中。
Galbot 目前在国际范围内首次实现了成功率在95%以上抓取随机堆放、从未见过的透明、高光等物体,甚至已进一步掌握类似开柜子、开抽屉、晾衣服等泛化操作技能,在多个场合公开展示、抓取来自数千参会者任意递给的物体,受到CCTV等多家媒体直播报道。
对于自研具身大模型,银河通用更是坚定投入,并在空间智能、动作智能和硬件智能等方面全栈布局, 引领具身智能前沿技术的探索,为其产业应用上限的可持续性突破打下坚实基础。目前团队已在具身大模型研发上已取得了一系列突破性进展,多项成果领先全球,包括但不限于:
银河通用团队研发了世界上第一个支持开放语义指令六自由度取放的空间智能大模型系统Open6DOR及对应Benchmark。该大模型系统突破Google RT-2只能控制物体放置位置的局限性,进一步实现了通过开放语义指令对于物体在目标位置摆放姿态的精细控制,率先完成了空间智能从Positional Intelligence到Positional+Orientational Intelligence的突破性跨越,为具身大模型商业化应用展开更大想象空间。
研发了世界上第一个基于机器人单视角视频流的端到端导航大模型Navid。无需建图、无需除RGB相机外的其它传感器信号,Navid率先验证了具身智能领域的第一个纯视觉“FSD”模型的可行性。值得一提的是,该模型的动作数据完全来自于对真实世界的仿真合成,在未用一条真实世界动作数据的情况下,实现了在真实世界中Zero-Shot的跨场景泛化能力。
除此之外,银河通用内部还有多个面向跨场景泛化的具身导航和操作大模型及支持大小脑协同工作的大模型双系统正在内测阶段,为其在产业应用上限的可持续性突破提供坚实的前沿技术储备。大模型能力的突飞猛进,离不开团队对于具身仿真合成技术的积累与沉淀。
在数据方面,团队研发了迄今为止世界上最大规模的灵巧手抓取数据集,并首次公开十亿数据规模下针对跨场景泛化灵巧抓取的“Scaling Law”,勇探“无人区”。
除此之外,团队立足应用需求导向的大小模型联动,持续夯实跨场景泛化的基础技能,在全身运动控制和双臂协同柔性物体操作方面持续突破。随着技能库的不断丰富,捡垃圾、晾衣服等技能的泛化性更是大幅提高,为团队在各种非结构场景中的商业化落地展开了无数的想象空间。
技术加持下, Galbot 率先走进千行百业。
Galbot 第一次与公众见面始于2024 年6月北京智源大会(BAAI)。银河通用模拟 24H 无人值守场景搭建了一个简易便利店,交由机器人为现场的观众免费取送零食、饮料,两天时间内 Galbot 累计工作18个小时,服务了800多位顾客,完成1000多项任务,任务成功率超过97%。
没有盛大的发布会,没有耀眼的聚光灯,Galbot 就以这最真实的面目,最近的距离走到了大众的眼前,完成了它的首次人机交互之旅。
此后,7月世界人工智能大会(2024 WAIC)、8月 世界机器人大会(2024 WRC)、9月服贸会&云栖大会、10月的 2024 IROS 出海展……
Galbot 不断深入用户交互,累计服务了数以万计的客户,完成了大几千量的订单。在不断被外界认识的同时,Galbot 也借助每一次贴近用户的机会,不断总结经验,修炼内功,为更进一步的复杂场景积蓄力量。
实现商业化落地,离不开三个技术要素:泛化能力、可实现自然语言沟通及零代码部署。
Galbot 不负众望,已经将这些能力一一实现。
极强的泛化能力:面对桌面上任意形态、任意摆放、透明高光等物体,Galbot 都能稳稳抓起。
Galbot 在展会上展示泛化抓取能力
可实现自然语言沟通:观众们可下达语言指令,“指挥” Galbot 工作。
记者真实体验用语音给 Galbot 下达指令
零代码部署:来到陌生的环境中,Galbot 可自主对环境进行三维重建,根据重建结果执行后续任务,做到真正的“开箱即用”。
Galbot 在商业领域自主进行三维重建及效果展示
王鹤博士曾表示,通用人形机器人的实现路径将是从单一场景多任务,到多场景多任务,最终到全场景。而 Galbot 在整个产品商业化的路径发展上,也基本符合这个规律。从最早期的单一实验室场景,到稍复杂的展会临时搭建场景,如今,更是直接落地到了更复杂的真实生产环境中。
以取货、送货实际应用为例,Galbot 会自主进行三维场景重建并收集场景数据,观众通过图形界面或语音下单后,Galbot 通过3D地图找到相应商品位置,自主决策使用夹爪或者吸盘,精准拾取商品并放置到指定位置。
在补货时,面对货架上数十种商品,Galbot 可以自主分析哪些需要补货,并从货筐中自主识别出对应的商品,精准抓取并放置到货架的对应位置,无论是货架最高层还是最底层都可轻松驾驭。
Galbot 在服贸会美团买药展台上展示无人值守工作
而在工厂、车厂的应用中,围绕工厂刚需场景,Galbot 重点训练料箱搬运、物料分拣、工序监督等能力,,目前已与奔驰、极氪等多个头部车企展开合作。
在某工厂执行天窗搬运工工作时,Galbot 会实时跟进玻璃天窗、包装放置情况,并随机应变处理突发异常。
Galbot 正在车厂进行天窗转运工作
Galbot 完成对工作场景建图
Galbot 可随机应变泛化处理突发异常
在执行拆跺、料箱转运工作时,面对多层堆叠、紧密放置的料箱,Galbot 会基于每个料箱所处位置,推理并给出不同的双臂抓取方案,自主规划路径搬运至相应位置,全程完全基于视觉引导,无二维码等定位标识。
Galbot 正在完成拆跺、料箱转运工作
人形机器人的价值远不止于此,除了在商业、工业领域多方试点,快速推进落地应用的同时,银河通用也在不断探索医疗康养、教育科研、家庭应用等场景,向服务千行百业、千家万户的愿景不断挺进。
未来仍充满挑战,但也充满机遇。怀抱“服务千行百业,千家万户”的初心,银河通用将继续拓展技术边界,加速产品迭代,与合作伙伴共同,推动具身智能领域生态繁荣,构建智慧社会的蓝图。