打开网易新闻 查看更多图片

新智元报道

编辑:犀牛

【新智元导读】当硅谷Taalas将大模型「物理焊死」进芯片引爆全球半导体圈,来自上海交大、辉羲智能与微软亚洲研究院的研究团队早已走得更远——他们用ROM+SRAM异构架构,将端侧LLM推理速度推至20,000 tokens/s,端侧算力直接起飞。

近期,硅谷初创公司 Taalas 提出的「模型即芯片(Model-on-Chip)」方案引发了全球半导体业界对「硬核 AI」的深度反思。

他们绕开了所有热门概念,直接把AI大模型,物理焊死在硅片里!

芯片运行Llama 3.1 8B的速度达到了17,000tokens/秒

足足比业界最顶端的英伟达GPU提升了将近10倍!

打开网易新闻 查看更多图片

英伟达这边也没闲着,GTC 2026前夕,英伟达释放明确信号:即将发布的Feynman架构将与Groq LPU技术实现深度融合。

LPU架构通过预编排的固定指令流驱动模型,摒弃传统HBM主存,转而采用片上SRAM存储权重,大幅突破了原有的访问速度与带宽瓶颈。

这些都预示着,在Scaling Law驱动的大模型时代,传统的通用指令集正成为锁死算力的枷锁。

如何从物理层面彻底击碎困扰大语言模型(LLM)部署的「内存墙」,已成为定义生成式 AI 下半场的关键。

打开网易新闻 查看更多图片

现有端侧存储方案不能同时满足LLM推理的存储容量和访存带宽需求

事实上,针对 LLM 的访存特性,来自上海交大、辉羲智能及微软亚洲研究院的研究团队早已展开了一场存储层次结构的创新研究。

通过ROMA与TOM系列研究,团队展现了与 Taalas 不谋而合的架构洞察:通过对只读存储(ROM)的颠覆性应用与「算法-架构」深度协同,成功将LLM 的端侧推理速度推向 20,000 tokens/s的水平,这一突破性成果在具身智能等前沿领域展现了巨大的应用潜力。

打开网易新闻 查看更多图片

ROMA:打破传统存储层次

重塑端侧能效

在大模型端侧部署的实战中,传统的内存层次结构正面临前所未有的挑战。

研究团队提出的 ROMA(Read-Only-Memory-based Accelerator) 架构,针对端侧场景的特殊需求,给出了一套系统的解法。

打开网易新闻 查看更多图片

ROMA的计算架构,采用ROM+SRAM的方案

1.引入只读存储(ROM):从源头解决访存能效

研究团队发现,大模型推理的能效瓶颈主要源于权重数据在外部内存(如 LPDDR)与计算单元之间的频繁搬运。

ROMA 另辟蹊径,利用高集成密度、低功耗的只读存储(ROM)作为权重的存储载体,将模型参数从源头上固化在芯片内部,大幅度降低了访存功耗。

2.QLoRA 赋能灵活性:在「固化」中寻找演进空间

完全硬连线的芯片往往难以应对算法的快速迭代。ROMA 巧妙地引入了 QLoRA 机制,通过ROM(基座模型)+ SRAM(LoRA 适配器)的混合设计,确保了芯片在拥有「硬核」性能的同时,依然保留了强大的应用灵活性。

开发者只需下发极小规模的 LoRA 插件,即可让固化的基座模型在不同垂直任务间快速切换。

3.架构与物理设计协同:极致的物理实现

为了实现真正的片上全模型存储,团队进行了深度的 架构与物理设计协同优化。

通过独创的 B-ROM 设计,将计算单元与存储阵列进行紧耦合的物理布局,极大地缩短了信号传输路径。

这种协同设计让 ROMA 在有限的芯片面积内,实现了对数亿参数模型的高效容纳与实时调度。

最终,ROMA的规格和指标与Taalas非常接近:ROMA采用7nm工艺库,芯片面积约 500 mm²,可以完整容纳4bit LLaMA3.2-3B 或者 2bit LLaMA3-8B,推理性能达到20,000 tokens/s,而同样采用ROM+SRAM的方案的Taalas是6nm工艺,面积约800mm²,可容下3-6bit llama3.1-8B,性能接近20,000 tokens/s。

TOM:深度挖掘三值化大模型

带来的存储红利

在 ROMA 的基础上,最新的TOM(Ternary-Oriented Memory)架构进一步将优化的触角延伸到了算法底层的存储特征中,把ROMA扩展到BitNet/Ternary量化这个场景,利用低比特权重的0值稀疏性,继续提升了ROM的存储密度。

打开网易新闻 查看更多图片

低比特模型0值分布特征,带来ROM存储密度提升潜力

1.捕捉 BitNet 的硬件友好性:开启「以逻辑代存储」范式

研究团队发现,以 BitNet-b1.58 为代表的三值化({-1, 0, 1})模型展现出了极佳的硬件友好性 。

基于这一发现,TOM 摒弃了传统的存储阵列,通过逻辑合成技术直接利用标准逻辑门实现模型权重的固化存储 。

在这种新范式下,硬件能够直接识别并物理消除权重中「0」元素的存储电路 。这一极致收益的实现,得益于三值模型中零值参数本就占据绝大多数的天然稀疏特性,加上定制的编码方法(使用「10」而非「11」来表示 -1),从而大幅拉高了 0-bit 的整体占比,从根本上降低了物理开销 。

2.存储逻辑的深度合并与复用:极限压缩芯片面积

为了进一步推高面积效率,TOM 引入了精细的逻辑优化策略:通过识别并提取不同权重存储逻辑中的公共子序列,对重复的逻辑门进行深度合并与复用。

这种从物理层对存储逻辑进行的「极限去重」,使得 TOM 相比 ROMA 实现了片上存储密度的数倍提升与芯片面积的大幅削减。

这也再次印证了算法-硬件联合设计在突破 AI 算力边界时的核心重要性。

具身智能与极端场景

ROM 架构的「降维打击」

「模型即芯片」方案的兴起,精准捕捉到了当前端侧应用的两大痛点:

1.具身智能的「实时确定性」

在机器人、无人设备等具身智能场景中,毫秒级的响应延迟往往决定了系统的物理安全性。

ROMA 提供的 20,000+ tokens/s 吞吐量,是为了提供一种高确定性的实时反馈。

这让机器人能够像拥有脊髓反射一样,在感知到复杂的物理环境变化时,瞬时做出语义理解与避障决策。

2.极端环境下的生存优势:深海与火星

在深海探测器、火星漫游车等极端场景下,DRAM 等易失性存储器不仅能耗高,且容易受到高能射线干扰产生软错误。

ROM 架构具有天然的稳定性和抗辐射性。

在能源匮乏、通信隔绝的极端环境下,搭载 ROMA/TOM 架构的设备依然能独立、稳定地完成复杂的智能任务,且待机功耗极低。

这使得大模型能够真正走出实验室,进入人类探索的「无人区」。

3.智能终端的隐私「防火墙」

对于手机端本地文本处理等场景,用户对模型基座的频繁更新需求并不高,但对隐私极其敏感。

将成熟、稳定的模型能力固化在本地隔离电路中,不仅免去了频繁联网的能耗,更在物理层面上杜绝了数据外泄的风险。

结语

开启端侧内存层次结构的新纪元

从 Taalas 的破圈到研究团队ROMA与TOM系列工作的深度探索,我们正见证 AI 硬件架构的一个重要转向。

这种引入ROM+SRAM异构存储层次结构的创新,结合对三值逻辑存储特性的极致挖掘,为端侧大模型部署提供了一条全新的进路。

ROMA与TOM系列研究的诞生,植根于“模型即芯片”的设计思维。

团队的这种强调算法与硬件深度耦合的思维来源,最早可追溯至微软亚洲研究院(MSRA)时期。

核心作者中,王文强与曹士杰曾先后作为MSRA实习生在徐宁仪老师指导下开展研究,积淀了深厚的工业界系统经验;张毅佳在上海交大攻读博士期间师从徐老师,并先后在 MSRA 系统组与辉羲智能实习。

研究团队长期从事算法-芯片联合设计的研究,在AI芯片架构设计、大模型轻量化等方面有丰富经验。

这种由资深架构师、企业研究员与学术新生代构成的多重纽带,让团队得以将前沿的实战思维与学术界的理论创新高效结合,在大模型范式下实现了从通用计算向 LLM 原生架构的协同突破。

团队介绍

关于上交大团队:团队来自上海交通大学计算机学院定制计算中心(Customized Computing Center - CCC,ccc.sjtu.edu.cn),CCC聚焦于解决数据中心、边缘设备和传感器的所面临的各种计算挑战。

关于辉羲智能:辉羲智能致力于成为全球领先的具身智能AI计算平台供应商,以卓越算力促进人工智能发展。成立三年,公司已实现大算力端侧旗舰芯片R1的成功流片与量产交付,率先在具身智能领域走通“芯片-平台-产品”的全栈自主国产化路径。

参考资料:

ROMA:https://arxiv.org/pdf/2503.12988

TOM:https://arxiv.org/abs/2602.20662