打开网易新闻 查看更多图片

斯坦福大学教授吴恩达在一场演讲中提出,Agentic Workflow 工作流将在今年推动人工智能取得巨大进步,甚至可能超过下一代基础模型。这是一个值得所有人关注的趋势。

本期要点 Agent Workflow 是什么? 为什么吴恩达要重推 Agent Workflow? Agent Workflow 比 GPT-4 更会写代码吗? Agent Workflow 有哪些做法?

为什么需要关注 Agentic workflow?

吴恩达在一场演讲中分享了他对AI智能体发展的见解,并对其潜力表示了极大的兴奋。他强调,所有AI从业者都应该密切关注Agetic Workflow的概念。

吴恩达表示,Aentic Workflow 在提高人工智能应用的性能和输出质量方面具有巨大的潜力。在传统的零试(zero-shot)条件下,大型语言模型(LLMs)被提示一次性生成最终输出,这就像是要求一个人一次性写完一篇文章并期望得到高质量的结果,过程中不允许有任何修改的机会。相比之下,Aentic Workflow 允许 LLMs 进行多次迭代,包括制定计划大纲、决定是否需要网络搜索、撰写初稿、审阅初稿以及修订草稿等步骤。这种迭代过程对于人类写作者至关重要,对于AI来说,也能比单次写作得到更优质的结果。

基于对多项研究的分析,吴恩达发现整合了迭代工作流程的 LLM 作为智能体,其表现比采用更强基础模型的提升更为显著。例如,在HumanEval编码基准测试中,尽管从GPT-3.5到GPT-4的准确率有所提高,但当将迭代代理工作流程整合进GPT-3.5后,其准确率能够达到95.1%,这一提升远远超过了从GPT-3.5到GPT-4的改进。

吴恩达进一步指出,如果用户目前正期待在尚在构建的模型如GPT-5、Claude 4等中以零试条件运行任务的表现,那么采用AI智能体可能会得到类似或甚至更好的结果。他鼓励AI领域的从业者和研究者探索和利用Aentic Workflow,以推动人工智能技术的进步和应用。

什么是 Agentic Workflow?

1、根据吴恩达在演讲及博客中的介绍,Agentic Workflow 是与 LLM 交互和完成任务的一种方法。

① 传统与 LLM 交互的模式会通过直接输入一个提示,然后有 LLM 基于该提示直接输出结果。

② Agentic Workflow 则像是将任务分解成多个步骤,在不同环节进行迭代,指导最终生成期望的结果。

③ 在 Agentic Workflow 的交互过程类似将任务拆解为多个子任务,引导 LLM 按步骤完成每个子任务,并将其输出作为下一步的输入,如此循环往复。

2、Agentic Workflow 的流程允许模型在执行任务时采取更复杂、更动态的策略,类似于人类在解决问题时的思考和行动过程。

3、吴恩达将 Agentic Workflow 的设计模式总结为反思(Reflection)、工具使用(Tool use)、规划(Planning)和多智能体协作(Multi-agent collaboration)四种。

① 反思(Reflection):智能体检查自己的工作,并提出改进方法。例如,智能体可以生成一段代码,然后自我反思代码的正确性、风格和效率,并提出建设性的意见来改进代码。

② 工具使用(Tool use):智能体利用外部工具,如网络搜索、代码执行等,来帮助收集信息、采取行动或处理数据。

③ 规划(Planning):智能体提出并执行一个多步骤计划来实现目标,例如撰写论文大纲、进行在线研究,然后撰写草稿等。

④ 多智能体协作(Multi-agent collaboration):多个 AI 智能体共同工作,分配任务并讨论和辩论想法,以提出比单个智能体更好的解决方案。

表:吴恩达推荐的 Agentic Workflow 四种设计模式的相关论文

反思模式很适合写代码吗?

吴恩达在文章《Agentic Design Patterns Part 2, Reflection》中讨论了反思模式在提升大型语言模型(LLM)性能方面的潜力。

1、反思模式通过自动化批判性反馈的过程,使得 LLM 能够自我评估并改进其输出。这种方法模仿了人类在接收到批评后改进工作的过程。

2、反思模式的关键在于将关键反馈步骤交给自动化程序,让模型自动批评自己的输出并改进其响应。

3、该文章以 LLM 编写代码为例,通过提示 LLM 直接生成所需的代码来执行某些任务 X,然后可以提示它反思自己的输出。

① 如提示 LLM 此前生成的代码和建设性反馈。

② 要求 LLM 使用反馈来重写代码,从而得到更好的响应。

③ 这种自我反思过程使 LLM 能够发现差距并改善其在各种任务上的输出,包括生成代码,编写文本和回答问题。

4、对于帮助智能体达到更好的反思效果,还可以通过提供 LLM 工具来帮助评估输出,或是采用多智能体框架进行分工。....

工具使用模式会让 LLM 更具实用性?规划模式带来了什么惊喜?多智能体协同带来了哪些机会?...查看完整解读请前往「机器之心PRO」业内通讯 · 2024年度#Week 15

本期完整版通讯含3个专题解读 +27项 AI & Robotics 赛道要事收录

1.用进化算法做模型合并是否比主流的 MoE 技术更有潜力?

为何模型融合越来越受关注?Model Merging 是什么?Model Merging、Model Fusion、MoE 都是一回事吗?进化算法+Model Merging 更有前景吗?...

2. 先做好 Agent 会比期待 GPT-5 更靠谱吗?

Agent Workflow 是什么?为什么吴恩达要重推 Agent Workflow?Agent Workflow 比 GPT-4 更会写代码吗?Agent Workflow 有哪些做法?...

3. 2024 年 MAD 全景报告深度解析

MAD 是什么?2024 MAD 全景包含哪些元素?MAD 近年的资本市场有什么变化?报告关注了哪些重点话题?...