最近,吴恩达老师在 deeplearning.ai平台上对LLM的发展演进做了一段精彩的分析,预测了LLM下一个新兴方向是朝着agentic workflows优化。
Agentic AI 是未来,正在路上。
作为deeplearning.ai(AI教育平台)创始人、百度前首席科学家、Coursera的现任董事长兼联合创始人、斯坦福大学的兼职教授的吴恩达老师,不知道有多少人和我一样,是从Andrew Ng的课程可是入坑AI的。
Andrew Ng是AI民主化和普惠性的坚定主义者,一直从事让AI教育平民化工作,对AI发展趋势的判断具有很强的前瞻性。
一起看看他对未来LLM发展方向的思考和判断吧。
他的核心观点是,认为 LLM 正在从主要优化消费级问答体验,转向优化支持智能体工作流(如工具使用、计算机操作、多智能体协作等)。
模型优化正向着适配智能体工作流发展
在此之前的阶段,各大厂训练优化大语言模型的主要目标是回答好问题。
自从ChatGPT问世以来,大家开发LLM的重点都是为消费者提供更好的用户体验,回答消费级的问题,例如,“为什么莎士比亚要写《麦克白》?”。或者,执行人类指令任务。例如,“解释莎士比亚创作《麦克白》的原因”。
但是,随着AI应用的不断扩展,这些模型逐渐调整、升级以适应代理任务的工作流程,而这一趋势正在显著提升模型代理任务的性能和多功能性。
此前,大语言模型的训练过程通常采用经过指令调整的数据集,以帮助模型生成更具针对性和实用性的回答,满足用户在面向消费者的大语言模型中的问题和需求。
而现在,AI代理的应用场景对模型的行为提出了更高的要求!
在代理任务中,模型通常需要在迭代工作流程中执行更复杂的任务,如自我反思和优化输出、使用工具辅助决策、制定详细计划,甚至在多代理环境中协作以完成目标任务。
工具使用的演变:从提示设计到原生功能支持
工具调用是AI代理中一个关键功能。
例如,当被询问当前的天气情况时,大语言模型其实是无法直接从训练数据中得出答案的,而是需要生成一个API调用请求以获取所需信息。
在GPT-4及其他模型原生支持函数调用功能之前,开发者通常通过复杂的提示设计(如ReAct提示变体)引导模型生成函数调用语句。随后,这些生成的字符串通过外部解析工具(例如正则表达式)来执行实际的API调用。
而随着GPT-4等模型引入对函数调用的原生支持,工具调用变得更加高效和可靠。
如今,LLMs能够自主决定调用何种函数以实现诸如检索增强生成(RAG)、代码执行、电子邮件发送、在线下单等功能,从而显著扩展其适用范围。
Anthropic计算机使用能力的突破
前段时间,Anthropic宣布Claude将学会使用计算机,可以模拟鼠标点击和键盘操作。
这一能力使模型能够直接与计算机环境交互,虽然过去一些团队已经通过提示设计引导大语言模型实现类似功能,用于构建新一代的RPA(机器人流程自动化)应用,但此次发布标志着主流大语言模型供应商对计算机交互能力的原生支持取得了重要突破。
这一进展不仅有助于简化开发流程,还将推动RPA及其他智能应用的大规模发展。
对未来的预期
随着模型适配代理任务的能力不断增强,未来的大语言模型可能不仅仅是一个高效的“回答者”,而且将成为一个多功能的智能代理。
在复杂的多任务、多工具、多代理的协作环境中,大语言模型将能够更高效地完成信息整合、任务分配与执行。随着模型性能和功能的持续进化,AI代理有望在提升生产力和解决复杂问题方面带来革命性的变革。
在AI代理工作流程日益成熟的过程中,吴恩达观察到以下几个关键点:
许多开发者正在引导大语言模型执行他们所需的代理行为,这使得快速且丰富的探索成为可能:在数量较少的情况下,开发者会对大语言模型进行微调,以更可靠地执行特定的代理功能。例如,尽管许多LLM原生支持函数调用,但它们通过接收函数描述作为输入,然后生成输出令牌来请求正确的函数调用。对于那些对生成正确的函数调用至关重要的应用,针对特定函数调用的微调可以显著提高模型的可靠性。(但请避免过早优化!我仍然看到许多团队在应该更多地使用提示之前就开始进行微调。)
当像工具使用或计算机使用这样的能力对许多开发者有价值时,主要的大语言模型提供商会将这些能力直接构建到他们的模型中:尽管OpenAI的o1-preview在高级推理方面帮助了消费者,但我认为它在代理推理和规划方面更为有用。大多数大语言模型已经针对回答问题进行了优化,主要是为了提供良好的消费者体验,目前已经能够将它们应用于复杂的代理工作流程中,以构建有价值的应用。构建原生支持代理中特定操作的LLM的趋势将大幅提升代理性能。在未来几年内,这个方向上的大量性能提升将会实现。
吴恩达老师的主要观点很明确,就是未来LLM优化方向会是逐步适应智能体工作流,也会在这个方向取得重大进展。
其实从Anthropic宣布Claude将学会使用计算机后,国内智谱也宣布了AutoGLM,它是让LLM学会使用手机,比如帮助用户完成各种日常任务,例如预订酒店、搜索攻略、点外卖等。也能是办公助手,帮助用户处理邮件、会议记录等工作,提高工作效率。
想象一下,LLM不再是单一的、整体的基础模型,而是大量专门的智能体实例,每个实例都会针对工作流程中的特定任务进行微调。它们不仅会履行指定的角色,自主工作,而且还会共同协作动态地完成更复杂的任务。
期待,AI具备独立行动和解决问题的能力的那一天的到来,exciting~