前沿分享丨Meta发布自我奖励机制，Llama在3轮训练后超越GPT-4

在人工智能的发展中，训练大语言模型理解、执行人类发出的指令始终是核心任务。然而，传统的训练方法通常依赖于人类的反馈，这不仅限制了模型性能的提升，而且在实际应用中也存在难扩展的问题。因此，一种用于训练大语言模型的概念-自我奖励应运而生，它通过模型自身生成奖励信号来进行训练，旨在打破人类反馈带来的限制，开启自主学习和自我提升的新篇章。论文中提出想要培养超越人类智能的智能体，大语言模型的训练必须要用超越人类的反馈信号来调整。文中提出了用自我奖励的方法使得模型在训练过程中自行提供奖励，从而提升模型执行指令和自我奖励的能力。目前，训练得到的模型AlpacaEval 2.0在现有的排行榜上超过了多个模型，而且此研究为模型持续的自我完善开拓了新的可能性。

自我奖励大语言模型是一种新型的智能体，不仅能生成对特定提示的响应，还能生成、评估新的指令执行示例来纳入自己的训练集中。模型的训练采用了一种可迭代的直接偏好优化框架，从一个基础模型开始，创建自我指令，模型为新生成的指令生成候选响应，由同一模型分配奖励。这种自我奖励的方法克服了传统固定奖励模型的局限，使得奖励模型能够在语言模型对齐过程中持续更新和改进。

自我奖励模型的关键能力是自我指令创建和自我奖励。自我指令创建包括生成候选响应，以及随后利用模型自身来判断这些响应的质量，模型扮演自己奖励模型的角色，取代了外部奖励模型的需求。这是通过LLM-as-a-Judge机制实现的，即将响应评估表述为指令执行任务。

前沿分享丨Meta发布自我奖励机制，Llama在3轮训练后超越GPT-4

18个月，OpenAI这支团队搞出了GPT-4o

GPT-4 更强的标志，原来藏在了 logo 里

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

“离谱的AI扩图”火了！张张那叫一个出其不意

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

GPT-4找到我女朋友的过敏原

文生视频下一站，Meta已经开始视频生视频了

手机搜索里找来的“西门子冰箱维修官方人员”，收了1580元每天跳闸断电……杭州夫妻忍不了

美国登月真的也好，假的也罢，跟我们有什么关系？

沃特斯彻底与广东决裂？连续发文暗讽杜锋与朱芳雨，表露不爽！

央行：明起下调个人住房公积金贷款利率0.25个百分点

曾经卖7000元的顶配商务本，现在成了闲鱼上最火的洋垃圾

台立法机构发生激烈冲突有人扭打在地女"立委"尖叫

71岁作家向他们的挺俄总理连开5枪

中央督察组进驻上海！通报典型案例

父母最大的远见：未来，不要让子女从事这几种工作

未来两个月，霉运散尽，事业爱情双丰收的三个星座

导师梦想晋升院士，学生竟直言：醒醒吧，你的论文 IF 加起来都不到 30 ！

许可馨：国人往往将历经艰辛视为一种美德，简直是自轻自贱

前沿分享丨Meta发布自我奖励机制，Llama在3轮训练后超越GPT-4

18个月，OpenAI这支团队搞出了GPT-4o

GPT-4 更强的标志，原来藏在了 logo 里

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

“离谱的AI扩图”火了！张张那叫一个出其不意

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

GPT-4找到我女朋友的过敏原

文生视频下一站，Meta已经开始视频生视频了

手机搜索里找来的“西门子冰箱维修官方人员”，收了1580元每天跳闸断电……杭州夫妻忍不了

美国登月真的也好，假的也罢，跟我们有什么关系？

沃特斯彻底与广东决裂？连续发文暗讽杜锋与朱芳雨，表露不爽！

央行：明起下调个人住房公积金贷款利率0.25个百分点

曾经卖7000元的顶配商务本，现在成了闲鱼上最火的洋垃圾

台立法机构发生激烈冲突有人扭打在地 女"立委"尖叫

71岁作家向他们的挺俄总理连开5枪

中央督察组进驻上海！通报典型案例

父母最大的远见：未来，不要让子女从事这几种工作

未来两个月，霉运散尽，事业爱情双丰收的三个星座

导师梦想晋升院士，学生竟直言：醒醒吧，你的论文 IF 加起来都不到 30 ！

许可馨：国人往往将历经艰辛视为一种美德，简直是自轻自贱

台立法机构发生激烈冲突有人扭打在地女"立委"尖叫