昆仑万维携手南洋理工大学抢发Q*算法：百倍提升7B模型推理能力

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

自 OpenAI 的 Q* 项目曝光后，引发业内众多讨论。据现有信息汇总，Q* 项目被视作 OpenAI 在探索人工通用智能（Artificial General Intelligence, AGI）道路上的一次重大尝试，有望在包括数学问题解决能力、自主学习和自我改进等多个层面对人工智能技术带来革新性突破。

英伟达科学家 Jim Fan、图灵奖得主 Yann LeCun 等参与讨论 OpenAI 的 Q* 实现方式

Meta 科学家田渊栋则认为 Q* 是 Q-learning 和 A* 的结合，且天然地适合推理任务，尤其在数学推理方面

不过迄今为止 OpenAI 没有公开关于 Q* 算法的具体细节，其效果究竟如何我们并不得而知。

昆仑万维自 Q* 项目曝光以来，一直密切关注 Q* 的动向，且在第一时间就成立研究小组尝试开发自己的 Q* 算法，希望打破 OpenAI 的封锁，提升现有开源模型的推理能力。

经过数月的尝试，昆仑万维携手新加坡南洋理工大学成功开发了一个名为 Q* 的算法，能够显著提升现有大模型的推理能力。在 GSM8K 数据集上，Q* 帮助 Llama-2-7b 提升至 80.8% 的准确率，超越了 ChatGPT；在 MATH 数据集上，Q* 帮助 DeepSeek-Math-7b 提升至 55.4% 的准确率，超越了 Gemini Ultra；在 MBPP 数据集上，Q* 帮助 CodeQwen1.5-7b-Chat 提升至 77.0% 的准确率，缩小了与 GPT-4 的编程水平差距。

论文：Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning
论文链接：https://arxiv.org/abs/2406.14283

Q* 能够帮助小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力，这一算法不仅大幅提升了小模型的性能，还显著降低了计算资源的需求，为人工智能的广泛应用带来了全新可能，开创了高效智能的新纪元。

研究证明，Q* 能够帮助参数量仅为 7b 的小模型达到参数量比其大数十倍甚至百倍模型的推理能力，大幅提升模型的性能，并显著降低了计算资源的需求。目前，Q* 的研究尚在初级阶段，算法在各个环节还有进一步的改进空间。未来，昆仑万维会继续深入此项研究，不断提升国产开源模型推理能力，打破 OpenAI 闭源封锁，为人工智能前沿技术发展带来全新可能。

昆仑万维携手南洋理工大学抢发Q*算法：百倍提升7B模型推理能力

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

拼命抢客！OpenAI背刺中国开发者，国产大模型谁能“平替”？

力挺马斯克的前OpenAI科学家放话：AGI将导致失业潮，预言大规模AI安全危机

英国团队用AI模型寻找失踪人员，成功率达19%，训练数据来自苏格兰高地

think step by step还不够，让模型think more steps更有用

Mamba架构第一次做大！混合Transformer，打败Transformer

新一代注意力机制Lightning Attention-2：无限序列长度

纯太阳能电车何时能实现，马斯克怎么看？

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。通过视频直接提问，看看

大疆前高管带6人创业，做出了类目Top1的割草机器人

技术吹得再强，离用户不近有何用？

国产机器人也会空翻了！打破限制，世界首款！

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

被AI量产的短视频营销号气疯了，于是，我也做了一个

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

3分钟带你看遍IPF大会十年黑科技，迈向AI+新时代

这个机器人的手真的太灵活了！收纳、撸猫、修剪绿植样样都行，原速演示流畅程度堪比人类。这是星动纪

AI时代，谁还没用AI智能硬件提升工作效率？

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

昆仑万维携手南洋理工大学抢发Q*算法：百倍提升7B模型推理能力

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

拼命抢客！OpenAI背刺中国开发者，国产大模型谁能“平替”？

力挺马斯克的前OpenAI科学家放话：AGI将导致失业潮，预言大规模AI安全危机

英国团队用AI模型寻找失踪人员，成功率达19%，训练数据来自苏格兰高地

think step by step还不够，让模型think more steps更有用

Mamba架构第一次做大！混合Transformer，打败Transformer

​新一代注意力机制Lightning Attention-2：无限序列长度

纯太阳能电车何时能实现，马斯克怎么看？

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。 通过视频直接提问，看看

大疆前高管带6人创业，做出了类目Top1的割草机器人

技术吹得再强，离用户不近有何用？

国产机器人也会空翻了！打破限制，世界首款！

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

被AI量产的短视频营销号气疯了，于是，我也做了一个

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

3分钟带你看遍IPF大会十年黑科技，迈向AI+新时代

这个机器人的手真的太灵活了！ 收纳、撸猫、修剪绿植样样都行，原速演示流畅程度堪比人类。 这是星动纪

AI时代，谁还没用AI智能硬件提升工作效率？

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

新一代注意力机制Lightning Attention-2：无限序列长度

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。通过视频直接提问，看看

这个机器人的手真的太灵活了！收纳、撸猫、修剪绿植样样都行，原速演示流畅程度堪比人类。这是星动纪