模型训练中的RLHF指什么？有何特点？

大语言模型的发展，加速了生成式AI时代的到来。

经过人类海量知识数据的“投喂”，眼下主流大模型的对话交流能力几乎能媲美人类，但它们的快速进化，离不开一个关键词——RLHF。

什么是RLHF？

RLHF全称Reinforcement Learning from Human Feedback，翻译过来就是“人类反馈强化学习”，是一种基于人类提供的反馈来训练模型，实现学习强化和模型性能提升的机器学习方法，也被视为强化学习（RL）的一种变体，人机协作的范式。

RLHF的实现原理很简单，它不依赖打分函数，而是依靠人们的反馈来调优模型。

因为这种独特的奖励机制，经过RLHF训练的模型，一般能更大程度与人类的价值观、偏好、思维方式对齐，这驱动着模型的返回结果更符合人类的期待。

另外，除了改善模型的文本内容生成，RLHF目前同时被用于辅助优化AI图像、音视频等多模态内容的生成。

RLHF的主要价值？

从结果来看，RLHF的存在，能让大模型变得更可用、实用、好用。

因为它通过人类反馈的方式，一定程度上补足了机器学习在预训练、无监督学习中的短板，让硅基大脑尽量与人类的价值取向、道德观念、社会常识等保持一致，借以生成更精确、真实的回答。

如此一来，可以减少模型幻觉的发生，同时能有效过滤有害、含歧视性、低质量的内容生成和输出。

遇上目标复杂、存在多义、歧义或难以指定的任务，有了RLHF的助力，模型的主体性能还能大幅提升，进而将大模型导向更好的发展和更多的商用落地场景。

所以，目前主流的大模型以及模型应用都倾向于在模型训练阶段采用RLHF，RLHF也由此成了通用领域和垂直领域大模型性能优化的“标配”。

RLHF的短板？

虽然RLHF被视为“生成式AI背后的英雄”，但它同时存在一定的短板。

比如RLHF因为高度依赖人类的反馈来优化模型，所以容易因个人知识技能水平参差不齐，从而影响反馈效果。

在反馈过程中，人们容易根据直觉做出判断，可能导致反馈存在一定的主观性，影响模型训练效果等。

另外，RLHF可扩展性不足，人力与成本投入较高，也在一定程度上形成了制约。

为了减少这些因素对模型训练的影响，以谷歌为代表的研究团队，提出了一种用大模型替代人类进行偏好标注的方法，这种方法被称为人工智能反馈的强化学习（RLAIF），眼下正成为反馈强化学习的一大补充。

RLHF与PPO、DPO的关系？

在讨论RLHF时，研究人员同时还会频频提到PPO、DPO等词汇。这三者之间又存在怎样的联系呢？

其实简单来说，PPO和DPO是RLHF场景下两种最常见的深度学习算法。

其中，DPO全称Direct Preference Optimization，通常被称为：“直接偏好优化”，即基于无奖励形式，直接通过简单的分类和偏好，来优化最能满足偏好的策略目标。

而PPO（全称Proximal Policy Optimization，又被称为“近端策略优化”）与之恰好相反，它需要来自奖励模型给到的奖励反馈进一步微调模型。

在很多的学术基准测试中，DPO（基于无奖励）的表现看起来比PPO（基于奖励）好，因此，最先进的结果通常被视为只能通过无奖励的方法来实现。

不过也有学者在研究中发现：PPO在极富挑战性的代码竞争中，更容易取得最先进的结果。这意味着这两种算法在辅助RLHF训练时其实各有所长。

以上就是今天的分享，希望有用~

模型训练中的RLHF指什么？有何特点？

什么是RLHF？

RLHF的主要价值？

RLHF的短板？

RLHF与PPO、DPO的关系？

欧冠-克罗斯告别维尼修斯破门皇马2-0多特夺第15冠

泽连斯基抵达新加坡将参加香格里拉对话会

小伙投资300万在瑞典开拉面馆生意火爆 1碗面卖100元

中泰赛后龚翔宇崩溃大哭！全年无休太累，又无靠谱替补！蔡斌的锅

多地市委书记晋升副省长候补中央委员跨省履新

嫦娥六号着陆月背南极-艾特肯盆地

家长带女孩在田地里学插秧孩子情绪崩溃坐在田里哭

媒体：美国海军未来战舰又栽进"坑里" 出现一系列麻烦

已开售！从长沙坐高铁去广州，最多将便宜107元

湖南先行一步，规定除猪牛羊外，鸡鹅鸭等也要统一屠宰，太创意了

要想拉动经济增长，还得看小县城的公务员

创造历史！张志磊第五回合KO维尔德，重拳轰倒对手，高喊中国力量

距离发射不到四分钟！波音取消了“星际客机”载人试飞任务

衣锦还乡的黄仁勋说了什么？

价格大跳水!上海很多人爱吃商家:从未见过如此大降价

保定一商场三楼以上全装上网，抬头望去密密麻麻！

大冷！郑钦文遭误判1-2抢十被逆转无缘法网16强中国单打团灭

超30%，创世界纪录！我国这一研究领域获重大突破

山东一国企煤矿食堂增设“减脂餐”，遭嘲讽：不如多给矿工加点肉

网友建议办泼水节，重庆文旅委：具有典型地域特色，不宜复制

模型训练中的RLHF指什么？有何特点？

什么是RLHF？

RLHF的主要价值？

RLHF的短板？

RLHF与PPO、DPO的关系？

欧冠-克罗斯告别维尼修斯破门 皇马2-0多特夺第15冠

泽连斯基抵达新加坡 将参加香格里拉对话会

小伙投资300万在瑞典开拉面馆生意火爆 1碗面卖100元

中泰赛后龚翔宇崩溃大哭！全年无休太累，又无靠谱替补！蔡斌的锅

多地市委书记晋升副省长 候补中央委员跨省履新

嫦娥六号着陆月背南极-艾特肯盆地

家长带女孩在田地里学插秧 孩子情绪崩溃坐在田里哭

媒体：美国海军未来战舰又栽进"坑里" 出现一系列麻烦

已开售！从长沙坐高铁去广州，最多将便宜107元

湖南先行一步，规定除猪牛羊外，鸡鹅鸭等也要统一屠宰，太创意了

要想拉动经济增长，还得看小县城的公务员

创造历史！张志磊第五回合KO维尔德，重拳轰倒对手，高喊中国力量

距离发射不到四分钟！波音取消了“星际客机”载人试飞任务

衣锦还乡的黄仁勋说了什么？

价格大跳水!上海很多人爱吃 商家:从未见过如此大降价

保定一商场三楼以上全装上网，抬头望去密密麻麻！

大冷！郑钦文遭误判1-2抢十被逆转 无缘法网16强中国单打团灭

超30%，创世界纪录！我国这一研究领域获重大突破

山东一国企煤矿食堂增设“减脂餐”，遭嘲讽：不如多给矿工加点肉

网友建议办泼水节，重庆文旅委：具有典型地域特色，不宜复制

欧冠-克罗斯告别维尼修斯破门皇马2-0多特夺第15冠

泽连斯基抵达新加坡将参加香格里拉对话会

多地市委书记晋升副省长候补中央委员跨省履新

家长带女孩在田地里学插秧孩子情绪崩溃坐在田里哭

价格大跳水!上海很多人爱吃商家:从未见过如此大降价

大冷！郑钦文遭误判1-2抢十被逆转无缘法网16强中国单打团灭