打开网易新闻 查看更多图片

清华大学近日实现“从0到1”的突破,发布了新型光子芯片“太极”,计算能效超现有人工智能芯片2-3个数量级,或将为实现比人类更聪明的通用人工智能(AGI)带来强大的训练和推理能力。这项研究已发表在《科学》杂志上,编辑还专门在论文前进行了总结,称这项工作是朝着支持AI各种应用的现实世界光子计算迈出的充满希望的一步。

所谓AGI,通用人工智能,朋友们可能已耳熟能详,那就是具备人类同等智能,或超越人类智能,能表现出正常人类所有智能行为的人工智能,又被称为强人工智能。一旦AGI出现,就意味着人类与人工智能共同存在、共同演化的时代来临,整个世界都将天翻地覆,变成我们现在的人所无法想象。

一些人认为OpenAI的GPT-5就有可能成为AGI,另一些人则认为,要实现AGI还有两大瓶颈,一是计算能力,二是能源消耗。以至于ChatGPT之父山姆·奥特曼满世界找7万亿美元来制造AI芯片,而马斯克则声称,到2025年,我们可能就没有足够的电力来运行所有芯片了。甚至还有一个传言说,英伟达创始人黄仁勋表示,AI的尽头是光伏和储能,AI将烧掉14个地球的能源。

虽然这个传言有点以讹传讹,但AGI将需要远超现在的算力,消耗远超现在的电力无疑是迫在眉睫的现实,而光子芯片,有可能就是解决这两大瓶颈的关键。因为光子芯片相比电子芯片,具有以下五大优势:

打开网易新闻 查看更多图片

速度和带宽

光子芯片利用光信号而不是电信号进行数据传输和处理。光信号传输速度极快,几乎接近光速,并且具有极大的带宽,可以传输大量数据,特别适合处理大量数据的密集型AI应用。

能效

光子芯片能耗低于电子芯片。电子芯片依靠电流的流动,会在导线中产生热量,导致能量损失。光子芯片则使用光波传输数据,几乎不受电阻和热损失的影响,在能效上具有显著的优势。

热管理

光子芯片产生的热量较少,热管理更为简单,这样就可以更密集地打包光子组件,无需担心过度加热,对于构建大规模集成电路尤为重要。

并行处理能力

光子芯片可以在同一光纤中传输多个频率的光信号,允许同时并行处理多个数据流,为AI应用中的大规模计算提供了可能。

减少延迟

光子芯片中数据几乎可以瞬间传输,减少了在复杂AI算法中处理大规模数据的延迟问题。

光子芯片既然在理论和实验研究中具有如此巨大的潜力,为什么电子芯片仍然是AI大潮中的主力,赚得盆满钵满呢?这是因为它们目前仍然面临巨大的挑战,如制造成本高、集成度限制、技术成熟度低、生态系统构建等各种难题。

中国工程院院士、清华大学信息科学技术学院、院长戴琼海教授长期致力于立体视觉、三维重建和计算摄像仪器等研究,试图揭示神经系统结构和功能等脑科学规律,为创建新一代人工智能提供支撑。清华大学电子工程系、长聘副教授方璐,主要从事光场智能成像理论与技术研究,率先提出了大规模可重构光电计算理论与架构,研制出扫描光场元成像传感器,为百亿像素光场智能成像提供了新路径。

戴琼海和方璐领导的团队,去年11月创造性地提出光电融合全新计算框架,研制出全世界首个全模拟光电智能计算芯片(ACCEL),运算速度高达4.6千万亿次/秒,是英伟达A100人工智能芯片0.312千万亿次/秒的15倍;而它的系统能效是74.8千万亿次/瓦秒,超过高性能芯片400万倍,这意味着这些芯片运行一个小时的电量,就可以供它运行500年以上!这项成果发表在《自然》杂志上,我也曾做过解读。

而近日,戴琼海和方璐团队再接再厉,进一步探索干涉光与衍射光的优势特性,摒弃传统电子深度计算范式,在世界上首创了干涉—衍射分布式广度光计算架构,并将其命名为Taichi,也就是“太极”的意思。方璐说,这是希望在大模型通用人工智能蓬勃发展的时代,用光子之道,为高性能计算探索新灵感、新架构、新路径。

具体来说,这种新架构不再依赖深层次的网络堆叠,而是利用光计算的“全连接”和“高并行”属性,转向分布式广度计算,从而提高计算速度和效率,同时保持系统的鲁棒性。然后在太极架构中,复杂的智能任务被拆分成多个多通道高并行的简单子任务,通过分布式“大感受野”浅层光网络来处理执行,不仅简化了问题,还减少了物理模拟设备,在多层级联中可能出现的计算误差。

所谓"感受野"(Receptive Field),是指生物感觉神经元受到刺激能够引起反应的区域,引申到机器视觉的深度神经网络中,就是一个单元能感知的输入数据范围。一个“大感受野”意味着网络单元能够接收并处理来自较大输入区域的信息。

打开网易新闻 查看更多图片

你可以想象为一张能覆盖很大区域的网,即使它只有一层(浅层),也能捕捉到很多信息,从而快速有效地处理数据。这种网络结构特别适合需要快速响应的应用,因为它不需要通过很多层来处理信息,可以大大提高处理速度和效率。同时由于结构简单,它的能耗也相对较低。

基于太极计算架构,清华团队研制出了干涉—衍射异构集成智能光计算芯片,计算能效超现有智能芯片2-3个数量级,可为百亿像素大场景光速智能分析、百亿参数大模型训练推理毫瓦级低功耗自主智能无人系统提供强有力的算力支撑。

通过将多个太极芯片拼接在一起,清华团队实现了一个由1396万人工神经元组成的光神经网络(ONN),比现在最大竞争对手的147万个几乎大了10倍。在广泛用于评估机器学习模型性能的Omniglot数据集上进行的分类测试中,太极能够识别超过1000个类别,准确率达到了91.89%,在高保真人工智能生成内容方面实现了高达两个数量级的效率改进。这表明太极芯片处理大模型复杂任务的巨大潜力,或将为光学计算的实际应用、基础模型的支撑及AGI新时代的发展提供加速。

另外就是太极的能效指标了,论文中声称达到了160.82TOPS/W,也就是每瓦特160.82万亿次操作,我看到国外一篇文章说,这个效率是英伟达明星AI芯片H100的1000倍,不过我没有找到H100的相关数据,所以暂时无法证实。但光子芯片本身用电极少,所以这应该是不足为奇的。

总之,不管是从计算能力还是能源消耗上,光子芯片都大大优于电子芯片,太极架构及芯片的问世,有可能成为一个重要的里程碑,正如科学家们在论文中所说,这将为大规模光子计算和高级任务铺平道路,进一步发掘光子技术在现代通用人工智能(AGI)中的灵活性和潜力。

这些研究发表在4月11日《科学》杂志上。