9B端侧开源模型跑通百万上下文,面壁全新稀疏-线性混合注意力
最强的大模型,已经把scaling卷到了一个新维度:百万级上下文。 几天前,Claude Opus 4.6发布,让人第一次真切感受到了百万上下文的涌现能力—— 单次吃进50万字中文内容、实现跨文档法律分析、多轮Agent规划…… 此情此景,用户火速用脚投票,华尔街更是直接给出K线回应。 而这股scaling的风,也很快吹到了端侧。 刚刚,面壁智能带着首次大规模训练的稀疏与线性混合注意力模型,小年交卷—— 这套新注意力架构,不仅解决了传统Transformer的计算冗余,还第一次在性能无损的前提下,让9B端侧模型能够在5090显卡上处理百万长文本。 与此同时,基于SALA注意力架构的模型MiniCPM-SALA也将一并开源。 除此之外,面壁还以OpenBMB社区名义,联合SGLang与NVIDIA发起2026稀疏算子加速大奖赛(SOAR),将这套scaling能力直接交到开发者手中,推动端侧Agent部署的性能突破。
最强的大模型,已经把scaling卷到了一个新维度:百万级上下文。 几天前,Claude Opus 4.6发布,让人第一次真切感受到了百万上下文的涌现能力—— 单次吃进50万字中文内容、实现跨文档法律分析、多轮Agent规划…… 此情此景,用户火速用脚投票,华尔街更是直接给出K线回应。 而这股scaling的风,也很快吹到了端侧。 刚刚,面壁智能带着首次大规模训练的稀疏与线性混合注意力模型,小年交卷—— 这套新注意力架构,不仅解决了传统Transformer的计算冗余,还第一次在性能无损的前提下,让9B端侧模型能够在5090显卡上处理百万长文本。 与此同时,基于SALA注意力架构的模型MiniCPM-SALA也将一并开源。 除此之外,面壁还以OpenBMB社区名义,联合SGLang与NVIDIA发起2026稀疏算子加速大奖赛(SOAR),将这套scaling能力直接交到开发者手中,推动端侧Agent部署的性能突破。
行业密探

