导语
在人工智能发展的历程中,AlphaZero的成功堪称经典,它通过结合搜索与深度强化学习,在棋类游戏中展现了超凡的推理与决策能力。这一成就为AI推理优化提供了一个重要的范例。如今,随着大语言模型(LLMs)的兴起,人们愈发渴望复刻AlphaZero的成功,将搜索与推理机制有机结合,以实现语言模型推理性能的全面提升。基于搜索与蒙特卡洛树的大语言模型推理优化研究正是在这一背景下应运而生。该研究范式的核心目标是通过引入蒙特卡洛树搜索(MCTS)等经典规划与决策算法,配合语言模型生成的先验分布,对推理路径进行系统性探索和优化。
旨在深入探讨大模型推理新范式背后的核心技术和基本原理,而大模型2.0读书会的第五期分享将由即将入职Google DeepMind 担任研究科学家的冯熙栋带领大家深入探讨如何将搜索技术与LLMs的生成能力相结合,构建具备动态推理能力的混合范式模型,并结合近期前沿研究,解析强化学习在推理优化中的具体实现方式。与此同时,还将展望这一范式在复杂语言任务中的应用潜力,并探讨其可能为大模型推理范式带来的新变革。
分享内容简介
本次分享将围绕基于搜索与蒙特卡洛树的大语言模型(LLMs)推理优化展开。首先以经典AI系统AlphaZero为起点,分析传统强化学习与搜索算法背后的核心思想。接着,重点介绍如何结合蒙特卡洛树搜索(MCTS)与LLMs,通过先验分布指导搜索、动态评估推理路径来优化模型的决策能力。分享内容将逐步深入到系统的关键组件,详细分析每个部分的组成结构与功能,包括搜索算法的选择与设计、推理空间选择,以及搜索结果的验证与评估等。最后结合前沿研究,探讨基于搜索与推理优化的技术瓶颈与开放问题,为未来发展方向提供启发。
分享内容大纲
强化学习与搜索算法
基于搜索的大语言模型推理
系统组件解析:构成、方法与挑战
搜索空间
搜索算法
验证与评估
搜索系统工程优化
前沿研究进展和讨论
主讲人介绍
冯熙栋,伦敦大学计算机系博士,本科毕业于清华大学自动化系。即将加入 Google DeepMind 担任研究科学家。其主要研究方向涵盖语言模型、单智能体,多智能体,以及元强化学习。致力于通过强化学习推动下一代语言模型的发展。研究大模型相关的工作: https://waterhorse1.github.io/。
主要涉及到的参考文献
Tian Y, Peng B, Song L, et al. Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing[J]. arXiv preprint arXiv:2404.12253, 2024.
Zhang D, Huang X, Zhou D, et al. Accessing gpt-4 level mathematical olympiad solutions via monte carlo tree self-refine with llama-3 8b[J]. arXiv preprint arXiv:2406.07394, 2024.
Zhang D, Zhoubian S, Hu Z, et al. Rest-mcts*: Llm self-training via process reward guided tree search[J]. arXiv preprint arXiv:2406.03816, 2024.
AlphaProof Blog, https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/
Feng, X., Wan, Z., Wen, M., McAleer, S. M., Wen, Y., Zhang, W., & Wang, J. (2023). Alphazero-like tree-search can guide large language model decoding and training. arXiv preprint arXiv:2309.17179.
Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Guez, A., ... & Hassabis, D. (2017). Mastering the game of go without human knowledge. nature, 550(7676), 354-359.
Gandhi, K., Lee, D., Grand, G., Liu, M., Cheng, W., Sharma, A., & Goodman, N. D. (2024). Stream of Search (SoS): Learning to Search in Language. arXiv preprint arXiv:2404.03683.
Wang, C., Deng, Y., Lyu, Z., Zeng, L., He, J., Yan, S., & An, B. (2024). Q*: Improving multi-step reasoning for llms with deliberative planning. arXiv preprint arXiv:2406.14283.
Gu, Y., Zheng, B., Gou, B., Zhang, K., Chang, C., Srivastava, S., ... & Su, Y. (2024). Is your llm secretly a world model of the internet? model-based planning for web agents. arXiv preprint arXiv:2411.06559.
Zhao, Y., Yin, H., Zeng, B., Wang, H., Shi, T., Lyu, C., ... & Zhang, K. (2024). Marco-o1: Towards open reasoning models for open-ended solutions. arXiv preprint arXiv:2411.14405.
Hu, Z., Liu, C., Feng, X., Zhao, Y., Ng, S. K., Luu, A. T., ... & Hooi, B. (2024). Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information Seeking in Large Language Models. arXiv preprint arXiv:2402.03271.
Wang, P., Li, L., Shao, Z., Xu, R. X., Dai, D., Li, Y., ... & Sui, Z. (2023). Math-shepherd: A label-free step-by-step verifier for llms in mathematical reasoning. arXiv preprint arXiv:2312.08935.
Lightman H, Kosaraju V, Burda Y, et al. Let's verify step by step[J]. arXiv preprint arXiv:2305.20050, 2023.
Yao, S., Yu, D., Zhao, J., Shafran, I., Griffiths, T., Cao, Y., & Narasimhan, K. (2024). Tree of thoughts: Deliberate problem solving with large language models. Advances in Neural Information Processing Systems, 36.
Hao, S., Gu, Y., Ma, H., Hong, J. J., Wang, Z., Wang, D. Z., & Hu, Z. (2023). Reasoning with language model is planning with world model. arXiv preprint arXiv:2305.14992.
Chen, Z., White, M., Mooney, R., Payani, A., Su, Y., & Sun, H. (2024). When is tree search useful for llm planning? it depends on the discriminator. arXiv preprint arXiv:2402.10890.
直播信息
2025年1月4日(本周六)晚上19:00-21:00
扫码参与,加入群聊,获取系列读书会回看权限,成为人工智能社区的种子用户,与社区的一线科研工作者与企业实践者沟通交流,共同推动人工智能社区的发展。
报名成为主讲人
读书会成员均可以在读书会期间申请成为主讲人。主讲人作为读书会成员,均遵循内容共创共享机制,可以获得报名费退款,并共享本读书会产生的所有内容资源。详情请见:
大模型2.0读书会启动
o1模型代表大语言模型融合学习与推理的新范式。集智俱乐部联合北京师范大学系统科学学院教授张江、Google DeepMind研究科学家冯熙栋、阿里巴巴强化学习研究员王维埙和中科院信工所张杰共同发起,本次读书会将关注大模型推理范式的演进、基于搜索与蒙特卡洛树的推理优化、基于强化学习的大模型优化、思维链方法与内化机制、自我改进与推理验证。希望通过读书会探索o1具体实现的技术路径,帮助我们更好的理解机器推理和人工智能的本质。
从2024年12月7日开始,预计每周六进行一次,持续时间预计 6-8 周左右。欢迎感兴趣的朋友报名参加,激发更多的思维火花!
详情请见: