在人工智能的发展中,训练大语言模型理解、执行人类发出的指令始终是核心任务。然而,传统的训练方法通常依赖于人类的反馈,这不仅限制了模型性能的提升,而且在实际应用中也存在难扩展的问题。因此,一种用于训练大语言模型的概念-自我奖励应运而生,它通过模型自身生成奖励信号来进行训练,旨在打破人类反馈带来的限制,开启自主学习和自我提升的新篇章。论文中提出想要培养超越人类智能的智能体,大语言模型的训练必须要用超越人类的反馈信号来调整。文中提出了用自我奖励的方法使得模型在训练过程中自行提供奖励,从而提升模型执行指令和自我奖励的能力。目前,训练得到的模型AlpacaEval 2.0在现有的排行榜上超过了多个模型,而且此研究为模型持续的自我完善开拓了新的可能性。

自我奖励大语言模型是一种新型的智能体,不仅能生成对特定提示的响应,还能生成、评估新的指令执行示例来纳入自己的训练集中。模型的训练采用了一种可迭代的直接偏好优化框架,从一个基础模型开始,创建自我指令,模型为新生成的指令生成候选响应,由同一模型分配奖励。这种自我奖励的方法克服了传统固定奖励模型的局限,使得奖励模型能够在语言模型对齐过程中持续更新和改进。

自我奖励模型的关键能力是自我指令创建和自我奖励。自我指令创建包括生成候选响应,以及随后利用模型自身来判断这些响应的质量,模型扮演自己奖励模型的角色,取代了外部奖励模型的需求。这是通过LLM-as-a-Judge机制实现的,即将响应评估表述为指令执行任务。

打开网易新闻 查看更多图片