机器之心Pro

机器之心Pro

关注
14.3万粉丝
1关注
1.3万被推荐

《机器之心》官方网易号

3枚勋章

专业的人工智能媒体
IP属地:北京
更多信息

  • Claude Opus 4.7 上线,这项测试没跑过千问?

    43分钟前
    图片
    01:48
  • 图灵也没想到,智能,必须在现实中「活」下来

    1小时前
    图片
    03:21
  • 4月23日 19:00-20:30,机器之心集结 4 位产学研前沿专家,探讨有关世界模型的前沿话题。欢迎大家关注机器之心视频号预约直播! 直播预约 | 世界模型,点燃下一个AI爆点(第二期)
    行业密探
  • 第六届 ATEC 科技精英赛 ATEC2026,正式开赛。4 月 1 日,报名通道同步开启,目前正在火热进行中。 图灵也没想到,智能,必须在现实中「活」下来
    行业密探
  • 直播预约 | 世界模型,点燃下一个AI爆点(第二期)

    2小时前
    图片
  • 图灵也没想到,智能,必须在现实中「活」下来

    3小时前
    图片
  • LLM真的能模仿人类行为了吗? ACL 2026 | OPeRA Dataset: 首次系统评估LLM的人类行为模拟能力
    行业密探
  • Mega MoE 干的事情是把原本支离破碎的一整套 MoE 计算流程,揉成了一坨,一次性在 GPU 上跑完。 DeepSeek悄悄更新:Mega MoE、FP4 Indexer来了
    行业密探
  • OPeRA Dataset: 首次系统评估LLM的人类行为模拟能力

    6小时前
    图片
  • 在物理世界与模型、本体之间,撕开了一道巨大的机会缝隙。谁能把混沌的物理世界数据,变成结构清晰的训练输入,并构建起反馈闭环,谁就有机会参与这个缝隙的填补,并站上基础设施级的增长快车道。 π0.6和GEN-1谁代表未来?乾坤未定,但这条底层赛道浮出水面
    行业密探
  • 表格建模也能Scaling?树模型的时代要改变了

    6小时前
    图片
  • DeepSeek悄悄更新:Mega MoE、FP4 Indexer来了

    6小时前
    图片
  • π0.6和GEN-1谁代表未来?乾坤未定,但这条底层赛道浮出水面

    6小时前
    图片
  • 周四晚间,Anthropic 宣布旗下最新款基础模型 Claude Opus 4.7 全面上市。Opus 4.7 在高级软件工程方面相比 Opus 4.6 有了显著提升,尤其是在处理最复杂的任务方面。用户反馈表示,他们现在可以放心地将以前需要密切监督的最棘手的编码工作交给 Opus 4.7 处理。 Claude Opus 4.7深夜上线,评分碾压
    行业密探
  • Claude Opus 4.7深夜上线,评分碾压

    7小时前
    1跟贴
    图片
  • 流式3D重建天花板,被国产开源模型打破了-5

    10小时前
    图片
    00:31
  • 【刚刚,DeepSeek 又有新动作了!】
    不过和模型没关系,更新了一下 DeepGEMM 代码库。 不过,此次更新,我们看到了一个新东西:Mega MoE。 链接: 根据相关信息,Mega MoE 来自 DeepSeek 基础设施团队的 Chenggang Zhao 等人。 简单说,它做的事情很直接,就是把原本被拆成多段执行的 MoE 流程,揉成一整个,在 GPU 上一次性跑完。 过去的 MoE 更像一条被切碎的流水线:dispatch、两层线性、SwiGLU、再 combine,每一步都是独立 kernel,中间还夹着频繁的跨卡通信。结果就是典型的低效节奏:算一会儿、等一会儿,传一会儿、再算一会儿。Mega MoE 的做法可以说是「直接焊死这条流水线」,不仅把所有步骤 fuse 成一个 mega-kernel,还让通信和计算同时发生,在 Tensor Core 运算的同时通过 NVLink 传数据,把等待时间尽可能吃掉。 但更值得注意的,是这次一整套工程侧的变化。DeepSeek 开始把很多原本藏在内部的调优能力开放出来,比如可以手动限制 SM 使用、控制 Tensor Core 利用率、开启或关闭 PDL 调度,以及干预 JIT 编译、对齐策略、block size 等细节。再加上一整套环境变量,连编译过程、PTX/SASS 输出、缓存策略都能控制。这种粒度更像是在调一台可以被精细操控的性能机器。 放在一起看,这次更新其实指向一个很明确的方向:DeepSeek 正在把 MoE 从「理论上很优雅,但工程上很折腾」的结构,往「可以稳定、高效跑在大规模系统上的基础设施」推进。 而 Mega MoE 很可能只是这个大方向的一块拼图;就是不知道这块拼图是不是 DeepSeek-V4 的一部分?
    行业密探
  • 北京大学彭宇新教授团队提出了置信度感知的伪标签学习框架(CPL)及其进阶版 CPL++,通过引入大模型生成多样化描述,并结合「自监督关联验证」机制,让模型在训练过程中学会动态发现并纠正自己的错误,实现弱监督视觉定位性能的提升。 北大彭宇新团队提出CPL++框架,实现视觉定位模型自知之明和自我纠错
    行业密探
  • 北大团队提出CPL++框架,实现视觉定位模型的自知之明和自我纠错

    22小时前
    图片
  • 近期,阿里云与 MiniMax 披露了一些底层技术合作,为我们解开了这道超级智能体背后的基础设施谜题。本文将基于此,深度剖析 MiniMax 究竟是如何借助阿里云的云原生方案重塑了 Agent 运行底座,撑起了智能体时代的系统变革。 当AI迈入Harness时代:以MiniMax为样本看智能体云端新基建
    行业密探
正在载入...
正在载入...