先做好 Agent 会比期待 GPT-5 更靠谱吗？

斯坦福大学教授吴恩达在一场演讲中提出，Agentic Workflow 工作流将在今年推动人工智能取得巨大进步，甚至可能超过下一代基础模型。这是一个值得所有人关注的趋势。

本期要点 Agent Workflow 是什么？为什么吴恩达要重推 Agent Workflow？ Agent Workflow 比 GPT-4 更会写代码吗？ Agent Workflow 有哪些做法?

为什么需要关注 Agentic workflow？

吴恩达在一场演讲中分享了他对AI智能体发展的见解，并对其潜力表示了极大的兴奋。他强调，所有AI从业者都应该密切关注Agetic Workflow的概念。

吴恩达表示，Aentic Workflow 在提高人工智能应用的性能和输出质量方面具有巨大的潜力。在传统的零试（zero-shot）条件下，大型语言模型（LLMs）被提示一次性生成最终输出，这就像是要求一个人一次性写完一篇文章并期望得到高质量的结果，过程中不允许有任何修改的机会。相比之下，Aentic Workflow 允许 LLMs 进行多次迭代，包括制定计划大纲、决定是否需要网络搜索、撰写初稿、审阅初稿以及修订草稿等步骤。这种迭代过程对于人类写作者至关重要，对于AI来说，也能比单次写作得到更优质的结果。

基于对多项研究的分析，吴恩达发现整合了迭代工作流程的 LLM 作为智能体，其表现比采用更强基础模型的提升更为显著。例如，在HumanEval编码基准测试中，尽管从GPT-3.5到GPT-4的准确率有所提高，但当将迭代代理工作流程整合进GPT-3.5后，其准确率能够达到95.1%，这一提升远远超过了从GPT-3.5到GPT-4的改进。

吴恩达进一步指出，如果用户目前正期待在尚在构建的模型如GPT-5、Claude 4等中以零试条件运行任务的表现，那么采用AI智能体可能会得到类似或甚至更好的结果。他鼓励AI领域的从业者和研究者探索和利用Aentic Workflow，以推动人工智能技术的进步和应用。

什么是 Agentic Workflow？

1、根据吴恩达在演讲及博客中的介绍，Agentic Workflow 是与 LLM 交互和完成任务的一种方法。

① 传统与 LLM 交互的模式会通过直接输入一个提示，然后有 LLM 基于该提示直接输出结果。

② Agentic Workflow 则像是将任务分解成多个步骤，在不同环节进行迭代，指导最终生成期望的结果。

③ 在 Agentic Workflow 的交互过程类似将任务拆解为多个子任务，引导 LLM 按步骤完成每个子任务，并将其输出作为下一步的输入，如此循环往复。

2、Agentic Workflow 的流程允许模型在执行任务时采取更复杂、更动态的策略，类似于人类在解决问题时的思考和行动过程。

3、吴恩达将 Agentic Workflow 的设计模式总结为反思（Reflection）、工具使用（Tool use）、规划（Planning）和多智能体协作（Multi-agent collaboration）四种。

① 反思（Reflection）：智能体检查自己的工作，并提出改进方法。例如，智能体可以生成一段代码，然后自我反思代码的正确性、风格和效率，并提出建设性的意见来改进代码。

② 工具使用（Tool use）：智能体利用外部工具，如网络搜索、代码执行等，来帮助收集信息、采取行动或处理数据。

③ 规划（Planning）：智能体提出并执行一个多步骤计划来实现目标，例如撰写论文大纲、进行在线研究，然后撰写草稿等。

④ 多智能体协作（Multi-agent collaboration）：多个 AI 智能体共同工作，分配任务并讨论和辩论想法，以提出比单个智能体更好的解决方案。

表：吴恩达推荐的 Agentic Workflow 四种设计模式的相关论文

反思模式很适合写代码吗？

吴恩达在文章《Agentic Design Patterns Part 2， Reflection》中讨论了反思模式在提升大型语言模型（LLM）性能方面的潜力。

1、反思模式通过自动化批判性反馈的过程，使得 LLM 能够自我评估并改进其输出。这种方法模仿了人类在接收到批评后改进工作的过程。

2、反思模式的关键在于将关键反馈步骤交给自动化程序，让模型自动批评自己的输出并改进其响应。

3、该文章以 LLM 编写代码为例，通过提示 LLM 直接生成所需的代码来执行某些任务 X，然后可以提示它反思自己的输出。

① 如提示 LLM 此前生成的代码和建设性反馈。

② 要求 LLM 使用反馈来重写代码，从而得到更好的响应。

③ 这种自我反思过程使 LLM 能够发现差距并改善其在各种任务上的输出，包括生成代码，编写文本和回答问题。

4、对于帮助智能体达到更好的反思效果，还可以通过提供 LLM 工具来帮助评估输出，或是采用多智能体框架进行分工。....

工具使用模式会让 LLM 更具实用性？规划模式带来了什么惊喜？多智能体协同带来了哪些机会？...查看完整解读请前往「机器之心PRO」业内通讯 · 2024年度#Week 15

本期完整版通讯含3个专题解读 +27项 AI & Robotics 赛道要事收录

1.用进化算法做模型合并是否比主流的 MoE 技术更有潜力？

为何模型融合越来越受关注？Model Merging 是什么？Model Merging、Model Fusion、MoE 都是一回事吗？进化算法+Model Merging 更有前景吗？...