今日(6月6日),中国工程院院士、清华大学智能产业研究院(AIR)院长张亚勤在“太湖对话:人工智能+”的活动上,发表了一系列观点。

他指出,AI的整体大趋势其实没有变化,主要还是预训练、多模态、大模型、生成式。但这其中也产生了关键变化,即从信息智能向物理智能、生物智能的转变。

“我们的车、路,城市、生产力,家庭等等都正在经历智能化;而且我们的大脑、身体,DNA,我们的蛋白质、细胞、大脑也都在走向智能化,也就是物理智能+生物智能。”

打开网易新闻 查看更多图片

在此背景下,张亚勤围绕大模型、AGI及自动驾驶分享了一些最新观点,RoboX根据其讲话内容进行了梳理:

大模型的五个方向:

  1. 更广泛的多模态:包括自然语言、视频、图像、激光雷达、三维的传感器、四维的时空信息等等,同时也包括蛋白质、细胞、DNA都是多模态的形式。
  2. 智能体自我迭代:它将可以自主规划任务,自我开发代码、调动工具、优化路径,实现目标。这包括版本的自我迭代,升级和优化。
  3. 边缘智能方向:AIPC、AI手机、AI电视等设备都需要在边缘侧实现大模型的优势。
  4. 物理智能方向:包括生物智能和具身智能应用——例如无人车、机器人、工厂、交通、通讯、电网,以及一些基础的物理设施。
  5. 生物应用方向:人工智能会将大模型运用到人类大脑和身体器官,也会催生医疗机器人和生物体。

打开网易新闻 查看更多图片

大模型对AI的影响:

  1. 大模型和生成式AI是未来至少十年中的主流技术和产业路线。
  2. 模型需要多类并存:张亚勤并不认可“一个基础大模型能涵盖所有”的观点,他认为基础大模型、垂直深度的行业模型,以及边缘模型,都将并存。
  3. 新一轮的大模型中,语音、文字、图像、激光雷达信号,乃至蛋白质,都可以实现统一的Talking based。“Talking Based就像人类的神经元,不管是语音、文字、图像都能通过神经元来理解。只是其连接不一样,激活不一样,权重也不一样。”
  4. 需要全新的算法体系:在未来五年,整个算法效率至少要提高百倍甚至上千倍,才能有真正好的商业模式。
  5. “现在大家都在赔钱…目前GPT的主流架构是Transformer, diffusion则是自回归架构与code架构,我认为这个架构在五年左右会被颠覆。虽然不清楚具体会是什么架构,但我希望被颠覆,颠覆才会更好。”
  6. AGI何时可以达到:可能需要15—20年才可以达到。Sora做的很好,但是也还没有通过新的图灵测试。在未来5年中,信息方面功能可以通过图灵测试。而未来10年中,物理智能,包括人形机器人会通过图灵测试;未来20年中,脑机接口生物体会通过图灵测试。

张亚勤还指出,具身智能最重要的代表,就是无人车和机器人。“无人驾驶是机器人的一个特例,这是具身智能接下来的一个大方向。”

关于无人驾驶的5个观点:

1、L3级自动驾驶是未来五年中最大的具身智能应用,也将是第一个通过新图灵测试的具身智能模式。这就意味着,其安全性一定要比司机安全十倍,并且风格要像老司机一样。

2、大模型及生成式AI出现之后,会加速无人驾驶落地的速度和泛化能力。目前,无人驾驶还需要更多的数据,且仍然面临长尾问题和常识问题,大模型生成式AI可以大幅度推动这几个方面的发展。

3、到底是纯视觉还是多模态?视觉当然十分重要,但是激光雷达、超声雷达,以及4D毫米波雷达也是需要的,因为感知的维度越多越好。这也是机器的优势所在——人类在决策方面有优势,但机器在感知上有优势,所以数据需求一定是多维的。

另外,端到端也是一个大的方向。除了在云端的大模型,车端也需要更实时精准的边缘模型,这两个模型达成互动。

打开网易新闻 查看更多图片

4、到底是V2X为主还是单车智能为主?张亚勤认为,还是以单车智能为主:车路云和V2X可以作为协同辅助,但是不能成为决定性的技术支撑。

5、自动驾驶的“ChatGPT时刻”何时来临?

‍“我认为是2025年。”张亚勤认为,“来临”的标志是真正的无人驾驶车,能在一个大型城市全面跑通,并且达到好司机、老司机的水平。而在2030年,无人驾驶可以成为主流,也就是10%的新车可具备L4的驾驶能力,方向盘可有可无。