张亚勤院士谈具身智能：自动驾驶的「GPT时刻」何时才到？

今日（6月6日），中国工程院院士、清华大学智能产业研究院（AIR）院长张亚勤在“太湖对话：人工智能+”的活动上，发表了一系列观点。

他指出，AI的整体大趋势其实没有变化，主要还是预训练、多模态、大模型、生成式。但这其中也产生了关键变化，即从信息智能向物理智能、生物智能的转变。

“我们的车、路，城市、生产力，家庭等等都正在经历智能化；而且我们的大脑、身体，DNA，我们的蛋白质、细胞、大脑也都在走向智能化，也就是物理智能+生物智能。”

在此背景下，张亚勤围绕大模型、AGI及自动驾驶分享了一些最新观点，RoboX根据其讲话内容进行了梳理：

大模型的五个方向：

更广泛的多模态：包括自然语言、视频、图像、激光雷达、三维的传感器、四维的时空信息等等，同时也包括蛋白质、细胞、DNA都是多模态的形式。
智能体自我迭代：它将可以自主规划任务，自我开发代码、调动工具、优化路径，实现目标。这包括版本的自我迭代，升级和优化。
边缘智能方向：AIPC、AI手机、AI电视等设备都需要在边缘侧实现大模型的优势。
物理智能方向：包括生物智能和具身智能应用——例如无人车、机器人、工厂、交通、通讯、电网，以及一些基础的物理设施。
生物应用方向：人工智能会将大模型运用到人类大脑和身体器官，也会催生医疗机器人和生物体。

大模型对AI的影响：

大模型和生成式AI是未来至少十年中的主流技术和产业路线。
模型需要多类并存：张亚勤并不认可“一个基础大模型能涵盖所有”的观点，他认为基础大模型、垂直深度的行业模型，以及边缘模型，都将并存。
新一轮的大模型中，语音、文字、图像、激光雷达信号，乃至蛋白质，都可以实现统一的Talking based。“Talking Based就像人类的神经元，不管是语音、文字、图像都能通过神经元来理解。只是其连接不一样，激活不一样，权重也不一样。”
需要全新的算法体系：在未来五年，整个算法效率至少要提高百倍甚至上千倍，才能有真正好的商业模式。
“现在大家都在赔钱…目前GPT的主流架构是Transformer， diffusion则是自回归架构与code架构，我认为这个架构在五年左右会被颠覆。虽然不清楚具体会是什么架构，但我希望被颠覆，颠覆才会更好。”
AGI何时可以达到：可能需要15—20年才可以达到。Sora做的很好，但是也还没有通过新的图灵测试。在未来5年中，信息方面功能可以通过图灵测试。而未来10年中，物理智能，包括人形机器人会通过图灵测试；未来20年中，脑机接口生物体会通过图灵测试。

张亚勤还指出，具身智能最重要的代表，就是无人车和机器人。“无人驾驶是机器人的一个特例，这是具身智能接下来的一个大方向。”

关于无人驾驶的5个观点：

1、L3级自动驾驶是未来五年中最大的具身智能应用，也将是第一个通过新图灵测试的具身智能模式。这就意味着，其安全性一定要比司机安全十倍，并且风格要像老司机一样。

2、大模型及生成式AI出现之后，会加速无人驾驶落地的速度和泛化能力。目前，无人驾驶还需要更多的数据，且仍然面临长尾问题和常识问题，大模型生成式AI可以大幅度推动这几个方面的发展。

3、到底是纯视觉还是多模态？视觉当然十分重要，但是激光雷达、超声雷达，以及4D毫米波雷达也是需要的，因为感知的维度越多越好。这也是机器的优势所在——人类在决策方面有优势，但机器在感知上有优势，所以数据需求一定是多维的。

另外，端到端也是一个大的方向。除了在云端的大模型，车端也需要更实时精准的边缘模型，这两个模型达成互动。

4、到底是V2X为主还是单车智能为主？张亚勤认为，还是以单车智能为主：车路云和V2X可以作为协同辅助，但是不能成为决定性的技术支撑。

5、自动驾驶的“ChatGPT时刻”何时来临？

‍“我认为是2025年。”张亚勤认为，“来临”的标志是真正的无人驾驶车，能在一个大型城市全面跑通，并且达到好司机、老司机的水平。而在2030年，无人驾驶可以成为主流，也就是10%的新车可具备L4的驾驶能力，方向盘可有可无。

张亚勤院士谈具身智能：自动驾驶的「GPT时刻」何时才到？

三口之家11天水表跑了375吨自来水公司:系因表后漏水

牛弹琴：感受到战争脚步的临近菲友华人士在北京哭了

复旦大学教授张维为：世界上绝大多数国家支持俄罗斯

当心太空中的“间谍之眼”

欧洲杯-德国2-0丹麦进8强三球被吹雷暴天气加戏

乌克兰麻烦来了，朝鲜4个旅2万大军开赴前线，战斗素质极强

卡梅伦接"乌前总统"电话上头条：谈俄乌问题怒斥美国

向“当代义和团”宣战，平台责无旁贷

湃调查｜暗访福寿螺产业链（上）：商贩大量收购野捕福寿螺，冒充田螺销售

如果你觉得祖国不好，请不要去抱怨，真正的公民应该是去改变它

广西街头的天空飘着一个黑色怪圈有市民在现场拍摄

天兵科技通报天龙三号火箭坠落：箭体跌落山中后解体

上海居住证难住了多少人？很多人花大价钱也要办，但现实屡屡碰壁

中国6月制造业PMI为49.5% 超六成企业反映需求不足

"魏新河"疑虚构教授身份参加学术活动:所在高校不存在

内蒙女网友提醒一黑人违章停车，下一秒手机就被打翻在地

正式通车！首批社会车辆驶入深中通道

三甲专家下班直播唱歌火了，本人发声

央视报道：美军每天用十多辆卡车偷叙利亚小麦

日韩互掐，起因竟是一碗泡面？

张亚勤院士谈具身智能：自动驾驶的「GPT时刻」何时才到？

三口之家11天水表跑了375吨 自来水公司:系因表后漏水

牛弹琴：感受到战争脚步的临近 菲友华人士在北京哭了

复旦大学教授张维为：世界上绝大多数国家支持俄罗斯

当心太空中的“间谍之眼”

欧洲杯-德国2-0丹麦进8强 三球被吹雷暴天气加戏

乌克兰麻烦来了，朝鲜4个旅2万大军开赴前线，战斗素质极强

卡梅伦接"乌前总统"电话上头条：谈俄乌问题 怒斥美国

向“当代义和团”宣战，平台责无旁贷

湃调查｜暗访福寿螺产业链（上）：商贩大量收购野捕福寿螺，冒充田螺销售

如果你觉得祖国不好，请不要去抱怨，真正的公民应该是去改变它

广西街头的天空飘着一个黑色怪圈 有市民在现场拍摄

天兵科技通报天龙三号火箭坠落：箭体跌落山中后解体

上海居住证难住了多少人？很多人花大价钱也要办，但现实屡屡碰壁

中国6月制造业PMI为49.5% 超六成企业反映需求不足

"魏新河"疑虚构教授身份参加学术活动:所在高校不存在

内蒙女网友提醒一黑人违章停车，下一秒手机就被打翻在地

正式通车！首批社会车辆驶入深中通道

三甲专家下班直播唱歌火了，本人发声

央视报道：美军每天用十多辆卡车偷叙利亚小麦

日韩互掐，起因竟是一碗泡面？

三口之家11天水表跑了375吨自来水公司:系因表后漏水

牛弹琴：感受到战争脚步的临近菲友华人士在北京哭了

欧洲杯-德国2-0丹麦进8强三球被吹雷暴天气加戏

卡梅伦接"乌前总统"电话上头条：谈俄乌问题怒斥美国

广西街头的天空飘着一个黑色怪圈有市民在现场拍摄