量子位

量子位

关注
17.6万粉丝
0关注
9.0万被推荐

《量子位》官方网易号

4枚勋章

2次获得编辑精选

追踪人工智能动态
IP属地:北京
更多信息


  • AI究竟是摧毁教育还是改善教育?一篇最近发表在Nature上的文章对过去51项研究进行荟萃分析后得出结论:使用ChatGPT的学生具有更好的学习表现、学习感受和高阶思维能力~
    行业密探
  • AI究竟是摧毁教育还是改善教育?

    6小时前
    图片
    01:45

  • “OpenAI希望开发AI操作系统,成为人们的核心AI订阅服务。” 这是奥特曼在红杉资本“AI Ascent 2025”中的谈话内容,他称其为OpenAI的柏拉图式理想,甚至“其余的任何东西都可以为之让路”。 他认为未来的AI模型将涵盖用户一生的数据,实现个性化推理: “它将是一个非常微小的推理模型,拥有一万亿个上下文标记,你可以把自己的整个人生投入其中。” 听起来是不是很罗曼蒂克?但奥特曼本人也坦率承认,这个计划目前还处于“PPT”阶段,明年要构建的产品可能甚至都还没有开始考虑。 不过他相当满意这种状态:“我们以灵活和随着世界变化调整策略为荣。” 在长达半小时的访谈中,除了核心AI订阅服务,奥特曼也畅聊了AI语音交互、代理与编码的价值、2025AI的发展前景等多方面见解。 下面,让我们详细地了解一下。 - 核心AI订阅服务 在奥特曼的初步构想中,ChatGPT将会转变成深度个性化的AI服务,模型不再需要重新训练,也不用定制权重,这将是一个庞大的记忆宫殿,你的一生都将包含其中。 这个想法也并非空穴来风,奥特曼提到不同用户的AI操作习惯:老一辈人将其视作谷歌等搜索工具的替代品,而年轻人则将其视作人生顾问。 尤其是大学生群体,他们使用ChatGPT的方式与使用操作系统类似,拥有复杂的设置方法,将其连接到文件,并记住或保存相当复杂的提示。 这一点在早前OpenAI官方发布的美国大学生ChatGPT使用情况调查报告中也有所体现,大约有超过1/3的18岁至24岁年轻人正在使用ChatGPT,这个年龄段的用户对其接受度更高。【图2】 借鉴年轻人的做法,奥特曼相信在未来开发高效的订阅制AI服务,对你的全部历史进行推演,从根本上改变日常生活中与技术的互动方式。 与此同时他也透露,他们现在确实有相关的学术研究项目,有在合作开展一些定制工作,希望可以激励模型变得更智能、更便宜、更广泛的可访问。 当然这需要大量的AI基础设施、构建大量的AI工厂容量,不断改进模型,以及构建一个优秀的顶层堆栈。 奥特曼认为API或SDK将在这种订阅制操作系统界面起到重要作用,确保所有的东西都能被合成为一种,能够使用OpenAI登陆其他服务,而其他服务的SDK将会接管ChatGPT的UI,实现个性化定制。 不过绝大多数人目前还是希望现有的通用模型可以整体优化,所以公司目前90%的精力都还集中在这上面。 - More Questions 在访谈的后半段问答环节,奥特曼也透露了更多有关OpenAI的信息以及他对2025年AI行业发展的理解。 OpenAI目前也有在语音交互上积极探索,他相信语音将催生全新类别的设备,让它更像真正的人类水平,不过可惜的是: “语音加图形用户界面交互我们还尚未破解。” 奥特曼提出价值将会继续体现在三件事上,比如构建更多基础设施、智能模型,以及将这些整合到社会层面。 更详细地讲,他认为2025年将会是代理做主要工作的一年。 “未来互联网会有一种新的方式或协议,事物变得联邦化并分解成更小的组件,代理会不断暴露和使用不同的工具,认证、支付、数据传输都会内置到这个层面。每个人都信任它,一切都可以互相通信,但可能需要几次迭代才能最终实现。” 而其中编码更是预计成为主导类别,它将是模型如何运作的关键,是驱动世界和调用一系列API的核心,未来将会以API和平台来展示它。因此ChatGPT应该非常擅长编写代码。 奥特曼同时也预计明年将会诞生更多AI新事物,人工智能也许会协助人类做出一些重大的科学发现。 “我猜测,明年将是一切从智力领域转移到物理世界的一年,机器人将从好奇心转变为严肃的经济价值创造者。” 主持人也是乘胜追击,在最后巧妙地打听起OpenAI的“终极”。 Q:你们将从助理世界转向代理,最终转向应用程序? A:确实如此。 Q:你的野心有多大? A:我们尝试制作优秀的模型,推出优质产品,除此之外没有更大的计划。 Q:那么初创公司如何才能不阻碍你们,不成为牺牲品呢? 奥特曼则相当自信地回复道: “我们会成为核心AI订阅,如果你能提供比我们更好的核心AI订阅服务,那就去做吧。”
    行业密探
  • 8秒极速生成!复杂场景图像定制低成本轻松驾驭,已开源

    7小时前
    1跟贴
    图片

  • 沉浸式体验的未来:不单能看到全景画面,耳朵也能听见方向! 传统音频技术仅提供声音本身,缺乏方向感。 而OmniAudio提出了一种新方法,只需输入360°全景视频,即可生成具有空间感的3D音频。 该模型可显著增强VR影片和动作游戏中的真实感,让你在虚拟世界中“听见”声音从哪儿来。 研究团队打造了首个大规模360V2SA数据集——Sphere360,内含超过10万段真实世界的视频与FOA空间音频。数据质量高,覆盖音频事件多,堪称该领域的“训练粮仓”。 在模型设计上,OmniAudio采取“先粗后细”的训练思路: - 预训练阶段,先用普通立体声生成“伪空间音频”; - 然后结合掩码预测、以及真实FOA音频微调模型,逐步学会空间结构。 此外,它采用双分支编码器,能同时提取视频的整体画面与局部动态,提升声音定位的准确性。 评估显示,OmniAudio在自建和外部测试集上,效果均优于现有方法。 但在复杂音频场景中仍有改进空间,未来团队计划扩大数据集,并优化对多目标场景的理解。 相关项目和代码已开源: Github:
    行业密探

  • AI算力,卷到天上了! 12时12分,12颗太空计算卫星,搭乘长征二号丁运载火箭,在酒泉卫星发射中心顺利升空。 这12颗计算卫星,每一颗都具备太空计算和太空互联的能力,将组成全球首个太空计算星座。 它们的背后,是商业航天企业国星宇航牵头发起的“星算”计划。 “星算”计划首发星座发射任务获得圆满成功,将开启全球“太空计算时代”新篇章。 未来,他们还计划发射更多卫星,织起一张由2800颗卫星组成的太空计算大网。 “星算”计划是什么,为什么人们要在太空中部署算力设施?了解更多细节,欢迎点击文章 数据中心不必建在地球!中国企业已经把算力设施送到了太空
    行业密探
  • 奥特曼最新访谈暗示:OpenAI终极目标是打造订阅制AI服务

    7小时前
    1跟贴
    图片
  • GPT-4o不敌Qwen,无一模型及格!UC伯克利港大等提出多模态新基准
    7小时前
    1跟贴

  • 苹果开源了FastVLM:无需联网,即可在iPhone和Mac上运行AI视觉模型,响应还超快。 从苹果的App演示来看,FastVLM可以—— 1、手势识别:对准用户的手部,模型可实时识别举起的手指数量。【图2】 2、图像文字识别:摄像头对准一张便签,FastVLM可在791毫秒内识别出文字信息。【图3】 3、图像描述生成:当模型看到一组emoji表情时,能即时生成英文简述,整个过程控制在800毫秒以内。【图4】 FastVLM的主要技术优势包括: - 视觉token优化:通过减少输出token数量,最多可压缩至原来的1/16,降低了大模型在图像预处理环节的资源消耗。 - 推理速度提升:在关键指标Time-to-First-Token(首次输出延迟)上,FastVLM比LLaVA-OneVision快85倍,响应更即时。 - 模型体积精简:最小规格的FastVLM视觉编码器相比传统模型缩小了3.4倍,而且性能未缩水。 - 原生本地推理支持:模型专为Apple Silicon芯片(如M1、M2)优化,兼容苹果机器学习框架。 架构方面,FastViTHD采用混合结构,结合了卷积和Transformer,配合多尺度下采样,既保留高分辨率信息,又压缩了冗余token。 在多个主流多模态评测基准(如GQA、TextVQA、SeedBench)中,FastVLM全面超越了包括ConvLLaVA、Cambrian-1、MM1在内的多款大模型,且资源消耗更低,推理效率更高。 目前,苹果在开源平台提供了三种模型规格(0.5B / 1.5B / 7B),同时发布了适配Apple Silicon的版本与iOS demo应用,方便开发者快速测试。 代码: 论文:
    行业密探
  • 文生图进入R1时代:港中文发布T2I-R1,让AI绘画“先推理再下笔”

    8小时前
    图片
  • 数据中心不必建在地球!中国企业已经把算力设施送到了太空
    8小时前
    1跟贴

  • 一公里开外看清毫米级字母?中国科学家做到了! 潘建伟团队在《物理评论快报》上发表最新研究成果:团队开发的强度干涉仪采用多束激光照射目标,并用一对小型望远镜接收反射光,能在1.36公里外分辨毫米级字母,分辨率较单台望远镜提升14倍。 这项技术的背后是天文学家观测遥远天体的绝活:强度干涉测量法。 以往该技术仅适用于恒星等自发光天体或近距离照明物体,潘建伟团队成功将这项技术应用于地面远距离成像。 这项研究的核心挑战在于:激光的相干特性会使得强度波动主要受激光器内部噪声影响。 研究团队想了个妙招,将100毫瓦激光分成八束,让它们经过湍流大气后变得“参差不齐”。看似矛盾的“非相干照明”方案,反而使干涉效应清晰可辨。 与传统干涉法不同,强度干涉法通过两处探测器接收到的光源强度波动,分析其时序相关性与探测器间距,从而获取目标空间信息。 这种量子层面的神奇效应,最早被用于测量恒星直径。 尽管比起信噪比更优的振幅干涉法,其应用仍较有限,但面对在面对大气湍流或生物组织等干扰严重的场景时,强度干涉法反而能大显身手。 潘建伟团队计划下一步通过提升激光控制精度、引入深度学习图像重建算法来优化系统。
    行业密探

  • 除了润色论文、编写代码,AI还能够为科研做些什么? 《Nature》杂志就人工智能能否产出原创性科学成果、AGI的发展前景以及公司即将发布的开源模型等议题,对Jakub Pachocki进行了专访。 Jakub Pachocki自2024年以来一直担任该公司的首席科学家。他于2017年从学术界加入OpenAI,领导公司最先进的AI系统的开发,这些系统旨在处理科学、数学和编码方面的复杂任务。 以下是专访内容: - 科学家们正日益广泛地采用推理模型。您认为这类模型在未来五年将发挥怎样的作用? 目前,人类可以与模型交谈,但它仍然只是一个需要持续指导的助手。我认为这一现状将发生根本性改变。 我们已经观察到,类似Deep Research这样的系统,已能在无人监督的情况下运行10-20分钟并产出有价值的内容。不过,现在用来处理这些问题的计算资源其实很少。 如果是那些尚未解决的科研问题,那确实值得投入更多的计算资源去研究。我预计未来将出现真正具备创新研究能力的人工智能。 - 强化学习对于构建OpenAI的推理模型具有怎样的重要性? ChatGPT最初版本包含无监督预训练阶段,在这个阶段,模型通过海量数据建立“世界模型”。随后我们通过强化学习结合人类反馈,从中提炼出实用助手。 最新推理模型的进展实际上提升了强化学习阶段的重要性:我们不仅从中提取知识,更让模型形成了自主的思维方式 现在的问题是,这些学习阶段是否仍应被割裂看待?推理模型的思考能力并非凭空产生,而是植根于预训练获得的基础。我的研究重点正是探索预训练与强化学习阶段的融合机制,以及二者之间的相互作用。 - 您提到模型具备"思考"能力。它们真的在进行推理吗?还是说只是在模拟类似推理的过程? 可以说这是一种推理形式,但这并不意味着它与人类的推理相同。 预训练模型虽然学习了世界知识,但它并没有真正意识到它是如何学到这些知识的,也没有任何关于何时学到了什么的时间顺序概念。 但我确信有充分证据表明,模型能够发现新颖见解。 - OpenAI首席执行官Sam Altman表示公司将很快发布自2019年GPT-2以来的首个开源模型。您能透露相关计划吗? 我对此非常期待,特别是能够为研究人员提供可下载并进一步训练的开源权重模型。随着模型能力提升,我们更需审慎考量不同部署方式的社会影响。 出于安全考虑,我们很难开放最前沿模型的权重。我的目标是发布优于现有开源模型的产品。 - 您如何定义AGI?认为何时可能实现? 我的时间预测和定义标准都已发生重大变化。 读研时,我认为攻克围棋是AGI里程碑,预计需要数十年。但2016年AlphaGo获胜彻底改变了我的认知。 2017年加入OpenAI时,我还是公司最大的怀疑者之一,但技术突破速度远超预期。 图灵测试取得重大进展后,人们质疑AI的数学和问题解决能力——如今这些领域也取得长足进步,最难基准测试可能很快被超越。 现在我关注的重大里程碑是AI产生实际可衡量的经济影响,特别是开展创新研究的能力,这最接近我过去对AGI的想象。 在这个十年结束前,我对这方面取得的重大进展充满期待。甚至在今年,我预计AI几乎可以自主生产有价值的软件,尽管可能不会解决重大科学问题。
    行业密探
  • Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型
    9小时前
    1跟贴

  • Qwen3技术报告新鲜出炉,8款模型背后的关键技术被揭晓! - 采用了双模式架构,一个模型同时支持推理和非推理任务,根据需要自动切换。 - 训练和微调过程采取分段式策略,逐步构建模型能力。 - 采取了“大带小”的模式,从大号模型中蒸馏数据训练小号模型。 有已经读完报告的网友,还发现了其中的更多亮点:Qwen3在RL阶段的样本量,竟然不到4k! 点击文章,查看Qwen3技术报告详细解读 报告 Qwen3家族训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏带动小
    行业密探
  • 拿下38项第一!字节发布Seed1.5-VL多模态推理模型
    10小时前
    2跟贴
  • 所有AI工具共享记忆!MCP协议无需云端,Cursor、Claude都能用

    11小时前
    22跟贴
    图片

  • 搜索业务疑似下滑,谷歌想出了个啥招应对? 答案可能要来了:提供“AI模式”。 近期有用户发现,谷歌搜索页面出现了一个新功能——“AI模式”。 这个按钮目前出现在两个位置:一是搜索栏内的“以图搜图”按钮旁边【图1】,二是取代了经典的“手气不错”按钮【图2】。 从用户反馈来看,这个新按钮的视觉设计也存在差异:部分版本在鼠标悬停时会显示动态彩虹边框,而取代“手气不错”的版本似乎默认带有彩虹边框效果【图3】。 不过谷歌发言人向The Verge透露:“AI Mode”还正处于测试阶段,仅对部分用户开放,而测试中的产品并不一定会全面推向市场。 尽管如此,这一改变仍然引起了广泛关注,毕竟谷歌极少改动搜索主页。 此次测试恰逢谷歌I/O大会前一周,预计大会将宣布多项AI搜索重大更新。 自ChatGPT推出以来,谷歌在搜索领域面临着前所未有的竞争压力。ChatGPT为用户提供了新的在线信息获取方式,这可能会影响谷歌在搜索市场的份额。 尽管谷歌自身也拥有表现不俗的Gemini AI产品,但在用户规模上仍需追赶ChatGPT。
    行业密探

  • Qwen也上线了“Deep Research(深度研究)”功能,能自己选择所用模型的那种(左上角自行切换)! 而且Qwen的深度研究,会先“反问”几句,确认好研究方向的侧重点,再生成一份结构清晰的研究报告。 比如【视频】中,用户输入问题: 「过去三年里,医疗健康行业是怎么适应远程医疗和数字健康工具的?」 Qwen先问了三个关键细化点: - 更关注采纳率、技术进步还是监管变化? - 想对比哪个地区或人群? - 表格里要突出哪类信息? 用户逐一回复道:关注采纳率和技术创新、对比高收入国家与中低收入国家、突出对比数据。 确认完这些信息后,Qwen进入“研究规划”阶段,生成一份系统性的研究报告。 生成的报告包括:引言、分章节分析、引用链接、图表数据、总结和结论等内容,还可以导出为PDF文件,方便分享给他人。 现在搞“深度研究”的不在少数,ChatGPT、Claude、Gemini都能一键生成长篇内容。 虽然中间的等待时间比普通对话模式略久,但结果会更“对题”,适合做认真输出时用。
    行业密探

  • 微软再次开启裁员模式,涉及约6000名员工,占总人数的近3%。 虽然公司并未公布具体岗位,但裁员范围覆盖所有层级与地区,重点是精简管理层,以提高组织执行效率。 据路透社报道,这次裁员的背景并非“公司没钱”。微软刚刚发布的2025财年Q3财报显示,公司实现了258亿美元净利润,Azure云服务继续高速增长,连续第四个季度超出华尔街预期。 既然收入不减,为何微软选择裁员?原因在于,AI带来的投入,同样面临巨大压力。 微软今年用于扩建数据中心的支出,高达800亿美元。这种重资产投入正拉低整体利润率,微软云业务的毛利率从一年前的72%降到69%。 微软CFO Amy Hood 在4月财报电话会上明确提到,公司正在“通过减少管理层级来构建高效团队”,以应对日益动态的市场环境。 分析机构D.A. Davidson也指出,微软每年持续维持目前的投资强度,理论上就需要削减1万人左右的员工,才能对冲资本支出带来的折旧压力。 需要注意的是,这并非微软今年第一次裁员。今年1月曾有一轮小规模的绩效优化裁员,华盛顿州披露,仅在微软Redmond总部就有1985个职位被裁撤。 这背后其实也能看出Big Tech的新方向:AI投入优先级很高,管理层压缩或成主流策略。
    行业密探
正在载入...
正在载入...