量子位

《量子位》官方网易号

自Perplexity官宣引入广告后，AI搜索再次成为关注焦点。而我们国内创业团队这边，也传来了新消息—— Hika AI，一个仅由5人打造的AI搜索，上线不久竟能和国外当红顶流同台竞技了？！据similar web公开数据显示，上线不到1个月，它在获取用户注意力（包括平均停留时长、跳出率、每次访问页数）方面已经超过Perplexity、秘塔等竞争对手。而且从早期用户反馈来看，很多网友or同行更是原地化身“自来水”？带着一揽子好奇，量子位直接联系上了Hika AI背后的两位核心创始人（浪仔和豁如），并围绕小团队如何AI创业展开对谈。在近1小时采访中，我们主要聊了聊：为什么选择「AI搜索」这条赛道？为什么说和Perplexity的路子不一样？实际开发过程中走了哪些弯路？缺少资源的小团队如何运营推广产品？ …… 话不多说，以下就是我们拿到的一手机密。（bushi 5人创业国产AI搜索火了，小红书Reddit都在推！创始人：我们比Perplexity留存更高

行业密探

量子位

《量子位》官方网易号

DeepSeek和o1/o3一类推理大模型持续带来震撼之际，有人开始研究他们的弱点了。最新研究揭示：在遇到高难度问题时，推理大模型可能像“三心二意的学生”一样频繁切换解题思路，却因缺乏深入探索而失败——这种现象被研究者称为Underthinking（欠思考）。研究团队来自腾讯AI实验室、苏州大学和上海交通大学，主要研究对象是开源的DeepSeek-R1和Qwen QwQ系列模型。通过分析AI的错误答案，他们发现当前的推理大模型经常在思考早期就走上了正确的路线，但倾向于“浅尝辄止”，很快开始探索别的思路，导致后续生成的数千个tokens对解题毫无贡献。这种“无效努力”不仅浪费计算资源，还显著降低了答案的正确率。超过70%的错误回答中至少包含一个正确的思路。此外，在超过50%的错误回答中，有10%以上的思路是正确的。借鉴了人类考试策略，提出了一种“思路切换惩罚机制” （Thought Switching Penalty，TIP）。其原理类似于考试时给自己定规矩：“先专注当前方法，至少尝试10分钟再换思路”。这种“无痛升级”无需重新训练模型，仅需调整解码策略，展现了其实用价值。新研究揭示DeepSeek/o3弱点：频繁切换思路放弃正确方向，最短答案往往就是对的！

行业密探

量子位

《量子位》官方网易号

#OpenAI紧急加播发布深度搜索#
就在开源的DeepSeek-R1被整合进各路AI搜索工具之际，OpenAI临时举行小型发布会。 4点27通知，8点开始直播。 ChatGPT上新“Deep Research”，把推理大模型的思考能力用于联网搜索。据介绍，Deep Research功能可在数十分钟完成人类专家需要几个小时的复杂研究任务。在“人类最后的考试”上，Deep Research刷新了最高分，比o3-mini高推理设置分数高出一倍。该测试包括3000多个多选和简答题，涵盖从语言学、火箭科学到生态学的100多个主题。与o1相比，Deep Research最突出的地方在化学，人文和社会科学以及数学中，表现出类似人类的“在必要时寻找专业信息”的能力。 Deep Research功能接下来将对Pro、Plus和Team用户开放。奥特曼后面补充，目前版本基于o3构建，Plus用户（20美元/月）每个月能用约10次，且正在构建一个更高效的版本。此外，免费用户也能获得非常少量的使用额度。

行业密探

量子位

《量子位》官方网易号

深度试玩报告抢先出炉：正愁用不上官方联网搜索
DeepSeek千般好，万般好，就是联网搜索还用不了（愁.jpg）。但先别急，这块拼图也被国产AI搜索玩家用自己的能力补全了：就在刚刚，秘塔AI搜索宣布融合了DeepSeek-R1满血版。这意味着现在起，R1推理能力已经可以链接全网实时信息一起用了！也意味着从今天开始，DeepSeek-R1还链接上了秘塔AI搜索背后数千万的高质量论文信息。如此一来，就实现了「国产最强推理+全网实时搜索+高质量知识库」结合，答得更快，答得更准。咱们就是说先来一波鲜测！大家快来围观看一看。

行业密探

量子位

《量子位》官方网易号

华为DeepSeek联手，全套国产—— 国产大模型云服务平台SiliconCloud（硅基流动），首发上线了基于华为云昇腾云服务的DeepSeek-V3、DeepSeek-R1。 Web端/手机端均可用，价格非常便宜，春节期间还打折，目前使用成本如下： - DeepSeek-V3：输入只需1块钱/M tokens，输出2块钱/M tokens - DeepSeek-R1：输入4块钱/M tokens，输出16块钱/M tokens 这个价格与DeepSeek官方优惠期（截至2月8日24:00）价格保持一致；与此同时，DeepSeek的多模态模型Janus-Pro-7B还限免。消息一出，全球用户疯狂涌入，疯狂到用“爆”都难以贴切形容。 SiliconCloud创始人兼CEO袁进辉在朋友圈表示，这波全套国产带来的泼天流量，远比团队想象中的大得多——尽管他们的预期是建立在DeepSeek春节期间爆得有目共睹的基础上。因此，官宣上线服务的第10个小时开始，SiliconCloud做出决定：只能限流。

行业密探

量子位

《量子位》官方网易号

2017年，3个佛罗里达人因为麦当劳冰淇淋殴打店员；在2024年的美国大选中，特朗普甚至将解决冰淇淋机问题作为竞选口号。一个小小冰淇淋机为何如此受美国人民的关注？

行业密探

量子位

《量子位》官方网易号

首个FP4精度的大模型训练框架来了，来自微软研究院！在相同超参数的设置下，可以达到与FP8以及BF16相当的训练效果。这意味着所需的存储和计算资源可以更少。用这种方法训练的模型规模最高可达130亿参数规模，训练Tokens数量也达到千亿级别。而且用的还不是真·FP4，而是通过FP8来模拟，如果采用真的FP4，效果还能进一步提升。

行业密探

量子位

《量子位》官方网易号

靠一根卷尺，这个溜溜球机器人能爬上一座大桥。加州理工新机器人爆火，可适应多种场地。

行业密探

量子位

《量子位》官方网易号

自动适配知识库无需纠结模型选型
RAG系统的搭建与优化是一项庞大且复杂的系统工程，通常需要兼顾测试制定、检索调优、模型调优等关键环节，繁琐的工作流程往往让人无从下手。近日，针对以上痛点，清华大学THUNLP团队联合东北大学NEUIR、面壁智能及9#AISoft团队共同推出了UltraRAG框架，该框架革新了传统RAG系统的开发与配置方式，极大降低了学习成本和开发周期。更重要的是，相比复杂配置的Llamaindex等传统RAG框架，UltraRAG更加关注将模型适配到用户提供的知识库，有效避免在“模型选型”的反复纠结。同时，其模块化设计又能为科研需求快速赋能，帮助研究者在多种场景下自由组合、快速迭代。通过UltraRAG，用户可以轻松完成从数据到模型的全流程管理。一同发布的还有一系列 RAG 技术全家桶，其中，RAG-DDR、VisRAG 刚刚被ICLR收录，MiniCPM-Embedding已有30余万次下载量。

行业密探

量子位

《量子位》官方网易号

【，中国AI科技惊艳全世界】蛇年春节前夕，科技界又在“整花活”了！2025年1月27日、28日、29日，通义大模型新春大放送多个具有技术性突破的新模型。开源Qwen2.5-1M和Qwen2.5-VL，全新升级发布Qwen2.5-Max。1月28日凌晨，通义开源全新的视觉理解模型Qwen2.5-VL，夺得十余项权威评测中的视觉理解冠军，全面超越GPT-4o与Claude3.5。有外国开发者留言称，“美国顶级模型都不香了，通义千问显然是今年AI发布的赢家！”

行业密探

量子位

《量子位》官方网易号

英伟达刚刚从DeepSeek-R1引发的4万亿元暴跌中缓过劲来，又面临新的压力？硬件媒体Tom‘s Hardware带来开年最新热议： DeepSeek甚至绕过了CUDA，使用更底层的编程语言做优化。这一次是DeepSeek-V3论文中的更多细节，被人挖掘出来。来自Mirae Asset Securities Research（韩国未来资产证券）的分析称，V3的硬件效率之所以能比Meta等高出10倍，可以总结为“他们从头开始重建了一切”。在使用英伟达的H800 GPU训练DeepSeek-V3时，他们针对自己的需求把132个流式多处理器（SMs）中的20个修改成负责服务器间的通信，而不是计算任务。变相绕过了硬件对通信速度的限制。图片△ DeepSeek-V3 Technical Report 这种操作是用英伟达的PTX（Parallel Thread Execution）语言实现的，而不是CUDA。 PTX在接近汇编语言的层级运行，允许进行细粒度的优化，如寄存器分配和Thread/Warp级别的调整。这种编程非常复杂且难以维护，所以行业通用的做法是使用CUDA这样的高级编程语言。换句话说，他们把优化做到了极致。有网友表示，如果有一群人嫌CUDA太慢而使用PTX，那一定是前量化交易员。一位亚马逊工程师提出灵魂质问：CUDA是否还是护城河？这种顶尖实验室可以有效利用任何GPU。甚至有网友开始畅想，如果“新源神”DeepSeek开源了一个CUDA替代方案…… 那么事情是否真会如此？

行业密探