魔芯科技发布VGGT系列成果，实现动态高保真重建并获新一轮融资

机器之心发布

在迈向通用人工智能（AGI）的过程中，世界模型被视为让机器理解物理规律、实现空间智能的关键。而高效、鲁棒和精准的三维感知能力，被广泛认为是世界模型的首要前提。通常来说，一个成熟的世界模型需要具备三大核心能力：对长时空序列的持续记忆、对复杂动力学的因果解耦、以及对高清物理细节的精细感知。近期，魔芯科技（KOKONI 3D）联合同济大学（祝澜耘教授团队）等多个科研团队，基于视觉几何 Transformer（VGGT）架构连续发布四项成果。该系列工作系统性地突破了三维感知在流式处理、动态鲁棒性和精细感知上的瓶颈，实现了从基础图像重建到高保真 4D 世界模型的跨越。

一、三维感知的核心约束：长时序、强动态与高精度的系统性瓶颈

在真实工业级场景中，三维感知模型面临的挑战不仅在于精度本身。当输入分辨率提升、场景引入动态变化、数据形式扩展为视频流时，传统架构的算力、算法与内存资源将同时承压。具体而言，存在三大核心难题：

1.无限序列与有限内存的冲突：现有的流式重建方法在处理长视频流输入时，模型的 KV 缓存会随输入帧数呈线性增长，随着时间推移而引发显存溢出。这意味着，即便单帧重建精度再高，模型也无法在有限显存下完成对无限长序列的持续推理，长视频理解的 “记忆瓶颈” 由此形成。

2.动与静的纠缠：在动态场景中，移动的物体会对相机位姿估计产生严重干扰。传统模型难以区分 “相机自身的运动” 与 “场景中物体的独立运动”，导致两套运动信号相互污染。其后果是，静态背景被错误地扭曲变形，动态物体的结构出现坍塌或 “鬼影”，整个重建结果的几何一致性被彻底破坏。

3.算力与精度的矛盾：高分辨率特征承载着丰富的物理细节（如细薄结构、纹理边缘），但特征维度的提升会引发 Token 数量的显著增长。当模型致力于捕获更精细的几何表征时，显存占用迅速攀升直至溢出。这使得模型在精度追求与算力约束之间面临两难：若降低特征分辨率则细节丢失，若维持高分辨表达则显存难以为继。

二、三维感知能力的系统性重构：长效记忆、因果解耦与高保真感知

针对上述三大技术瓶颈，魔芯科技联合同济大学（祝澜耘教授团队）等机构，基于 VGGT 架构提出了三项系统性创新：长效时空记忆、动力学解耦与高保真感知，分别从序列、动态、分辨率三个维度切入，逐一攻克三维感知的核心难题，全方位支撑空间智能世界模型的构建。

1、流式序列重建：赋予世界模型 “长效时空记忆”

论文链接：https://arxiv.org/abs/2604.15237

一个实用的世界模型不能只具备 “瞬时感知”，必须能像生物一样持续处理无限流式信息并保持长久记忆。然而，当处理长视频流时，网络的 KV Cache 会随帧数线性增长，迅速榨干显存。针对这一痛点，魔芯团队提出 StreamCacheVGGT，使用创新的记忆管理机制，在 O (1) 恒定显存开销下，实现了对无限长序列的高保真重建。

图： StreamCacheVGGT 展示 O(1) 恒定显存下的长效流式重建架构

该方法并非简单压缩或裁剪缓存，而是引入 “选择性记忆” 的策略。通过跨层一致性评分（CLCES），模型能够追踪 Token 在不同 Transformer 层级中的稳定性表现，从而优先保留具有长期几何意义的特征，同时抑制短期噪声的干扰。

图：跨层一致性评分

在此基础上，混合缓存压缩机制创新 “三级分诊” 策略。对于中等价值的信息，通过动态性地归属合并进行压缩存储而非生硬剔除。这种机制有效保存了低频结构先验，防止世界模型在长距离任务中出现几何坍塌。

图：混合缓存压缩

在 500 帧以上的 KITTI 长序列测试中，StreamCacheVGGT 在严格的 O (1）显存限制下，将深度误差 Abs Rel 降低至 0.123。相比传统 “纯剔除” 方案，其重建点云的表面完整度与局部细节显著提升。而在多项可视化结果中，StreamCacheVGGT 也表现出了相比现有方法更完整、清晰且噪声更少的重建效果。

2、4D 动态重建：解耦动力学规律，理解动态世界的 “因果”

论文链接：https://arxiv.org/pdf/2604.09366

论文链接：https://arxiv.org/pdf/2605.12027

真实世界是动静结合的，能够分离 “自我运动” 与 “物体运动” 是世界模型理解物理因果的核心。魔芯科技从渐进式解耦与不确定性建模两个角度切入，显著提升了动态场景下的重建稳定性。

在运动建模方面，团队提出渐进式解耦策略，通过 “先稳定相机，再恢复动态” 的建模路径，将相机位姿估计与场景几何重建逐步分离。借助动态掩码机制，模型能够在初始阶段屏蔽动态物体对位姿估计的干扰，从而建立更加稳定的参考系，随后再对动态区域进行精细建模，实现动静分离的重建效果。

为应对复杂视觉环境中的噪声干扰，模型引入基于不确定性的建模方法来解构子空间投影，对多头注意力进行自适应加权。这使模型能够在信息混杂的场景中识别更具可靠性的运动信号，从而在剧烈动态变化下依然维持几何结构的稳定输出。

两项成果在多项公开数据集上表现优异。在 DyCheck 动态几何基准上，Accuracy Mean 指标提升了 15.4%；定性分析也显示，该方法能有效抑制动态噪声，恢复完整准确的物体结构，消除了动态场景中常见的 “鬼影” 现象。

3、高保真感知：精细特征驱动高清几何重建

论文链接:https://arxiv.org/pdf/2603.27222

对环境几何细节的掌握程度是影响世界模型预测精度的关键因素。为此，魔芯科研团队提出 HD-VGGT 解决了前馈式模型在处理高清输入时的算力与精度的平衡问题：

层次化细节注入：采用双分支架构，在保持低分辨率全局一致性的基础上，通过可学习特征上采样将高清图像中的高频物理细节（如细薄灯杆、墙面纹理）精准注入几何特征。

特征调制：针对镜面反射、弱纹理等视觉歧义区域，HD-VGGT 引入特征调制机制，自动识别并抑制不稳定的特征 Token，确保模型在复杂光照条件下依然能够输出规整、边界锐利的高精度点云。

在实验结果层面，HD-VGGT 在多项公开数据集上取得领先结果，特别是在 RealEstate10K 数据集上 AUC@30 达到 87.01%，刷新该数据集的记录。此外，在深度估计任务上的多项定性结果也表明 HD-VGGT 能清晰还原灯杆、椅腿等细薄结构，解决传统模型在高清输入下的过平滑与伪影问题。

魔芯科技研究团队负责人表示： “我们不仅是在做 3D/4D 重建，我们是在为机器视觉构建一套健壮的‘空间底层协议’。通过 VGGT 系列技术，我们赋予了模型精细的触感（HD）、动态的洞察（4D）和持久的记忆（Streaming），这正是通往具备物理常识的高阶世界模型的必经之路。”

此外，研究团队在 4D 基座模型上更是取得了关键进展，证明了 3D/4D 场景建模同样遵循 Scaling Law。通过将训练数据规模扩展至百万级以上，并将模型参数量提升至百亿级别，我们实现了重建误差的显著下降，并获得了稳定、长时一致的空间建模能力。

图：实验结果，随着数据量的增加（左图）和模型尺寸提升（右图），模型精度持续提高（误差降低）

基于坚实的技术进展，魔芯科技也取得了资本市场的进一步认可与支持，本轮获得由富瀚微股份、联融志道（联想控股旗下基金）、浙创投的联合投资，并且老股东持续跟投。据悉，魔芯科技后续将继续加大对空间智能与世界模型技术的投入，重点推进三维 / 四维重建、空间理解、长视频推理与交互式建模等核心能力的研发与落地。我们的目标始终是让 AI 真正理解、生成并能与物理世界交互，为各产业场景提供关键支撑。

魔芯科技发布VGGT系列成果，实现动态高保真重建并获新一轮融资

约0.01飞米！中国科学家重要发现，将改写教科书

重大突破！全球最大规格，在武汉诞生

将多教师冲突转化为动态约束，破解多模态大模型推理对齐难题

174亿元！国内最大Token大单，首次开标

百慕大三角

DECS从源头消除冗余思考，实现推理token减半且性能不降反升

LLM 仅靠自身就能增强推理？SePT 给出简洁在线自训练范式

供应链管理数智化的残酷真相：99%的失败，与那1%的“唯一解”

小模型读书大模型思考：上海AI Lab提出新知识推理解耦方法DRIFT

熊妈妈带四只幼崽过马路，网友：嘴里那只一定最调皮

男孩一个月弄丢九次书包，妈妈偷偷跟着发现了真相

4月汽车销量发布前十名仅剩一款燃油车

富豪父亲假装破产，测试谁才是真女婿

为了逃避考试，他发明了最好的压缩算法，zip的历史可谓一波三折

女孩首次面试家教迟到，反倒被富豪当场录取

男子理发付款，魔鬼算法把老板娘绕进去，最后竟然还赚钱了

印度女首富出门，保镖带着真家伙，不防外地人而是防本地男人！

富豪最狠的藏钱方式，窃贼直接看傻了眼

智谱首破5000亿！六小虎与DeepSeek千亿估值竞赛，谁的拳头最硬？

中国女婿在老挝创业，每天的日常，怎么样能扩大生意？

魔芯科技发布VGGT系列成果，实现动态高保真重建并获新一轮融资

约0.01飞米！中国科学家重要发现，将改写教科书

重大突破！全球最大规格，在武汉诞生

将多教师冲突转化为动态约束，破解多模态大模型推理对齐难题

174亿元！国内最大Token大单，首次开标

百慕大三角

DECS从源头消除冗余思考，实现推理token减半且性能不降反升

LLM 仅靠自身就能增强推理？SePT 给出简洁在线自训练范式

供应链管理数智化的残酷真相：99%的失败，与那1%的“唯一解”

小模型读书大模型思考：上海AI Lab提出新知识推理解耦方法DRIFT

熊妈妈带四只幼崽过马路，网友：嘴里那只一定最调皮

男孩一个月弄丢九次书包，妈妈偷偷跟着发现了真相

4月汽车销量发布 前十名仅剩一款燃油车

富豪父亲假装破产，测试谁才是真女婿

为了逃避考试，他发明了最好的压缩算法，zip的历史可谓一波三折

女孩首次面试家教迟到，反倒被富豪当场录取

男子理发付款，魔鬼算法把老板娘绕进去，最后竟然还赚钱了

印度女首富出门，保镖带着真家伙，不防外地人而是防本地男人！

富豪最狠的藏钱方式，窃贼直接看傻了眼

智谱首破5000亿！六小虎与DeepSeek千亿估值竞赛，谁的拳头最硬？

中国女婿在老挝创业，每天的日常，怎么样能扩大生意？

4月汽车销量发布前十名仅剩一款燃油车