打开网易新闻 查看更多图片

大语言模型的发展,加速了生成式AI时代的到来。

经过人类海量知识数据的“投喂”,眼下主流大模型的对话交流能力几乎能媲美人类,但它们的快速进化,离不开一个关键词——RLHF。

什么是RLHF?

RLHF全称Reinforcement Learning from Human Feedback,翻译过来就是“人类反馈强化学习”,是一种基于人类提供的反馈来训练模型,实现学习强化和模型性能提升的机器学习方法,也被视为强化学习(RL)的一种变体,人机协作的范式。

RLHF的实现原理很简单,它不依赖打分函数,而是依靠人们的反馈来调优模型。

因为这种独特的奖励机制,经过RLHF训练的模型,一般能更大程度与人类的价值观、偏好、思维方式对齐,这驱动着模型的返回结果更符合人类的期待。

另外,除了改善模型的文本内容生成,RLHF目前同时被用于辅助优化AI图像、音视频等多模态内容的生成。

RLHF的主要价值?

从结果来看,RLHF的存在,能让大模型变得更可用、实用、好用。

因为它通过人类反馈的方式,一定程度上补足了机器学习在预训练、无监督学习中的短板,让硅基大脑尽量与人类的价值取向、道德观念、社会常识等保持一致,借以生成更精确、真实的回答。

如此一来,可以减少模型幻觉的发生,同时能有效过滤有害、含歧视性、低质量的内容生成和输出。

遇上目标复杂、存在多义、歧义或难以指定的任务,有了RLHF的助力,模型的主体性能还能大幅提升,进而将大模型导向更好的发展和更多的商用落地场景。

所以,目前主流的大模型以及模型应用都倾向于在模型训练阶段采用RLHF,RLHF也由此成了通用领域和垂直领域大模型性能优化的“标配”。

RLHF的短板?

虽然RLHF被视为“生成式AI背后的英雄”,但它同时存在一定的短板。

比如RLHF因为高度依赖人类的反馈来优化模型,所以容易因个人知识技能水平参差不齐,从而影响反馈效果。

在反馈过程中,人们容易根据直觉做出判断,可能导致反馈存在一定的主观性,影响模型训练效果等。

另外,RLHF可扩展性不足,人力与成本投入较高,也在一定程度上形成了制约。

为了减少这些因素对模型训练的影响,以谷歌为代表的研究团队,提出了一种用大模型替代人类进行偏好标注的方法,这种方法被称为人工智能反馈的强化学习(RLAIF),眼下正成为反馈强化学习的一大补充。

RLHF与PPO、DPO的关系?

在讨论RLHF时,研究人员同时还会频频提到PPO、DPO等词汇。这三者之间又存在怎样的联系呢?

其实简单来说,PPO和DPO是RLHF场景下两种最常见的深度学习算法。

其中,DPO全称Direct Preference Optimization,通常被称为:“直接偏好优化”,即基于无奖励形式,直接通过简单的分类和偏好,来优化最能满足偏好的策略目标。

而PPO(全称Proximal Policy Optimization,又被称为“近端策略优化”)与之恰好相反,它需要来自奖励模型给到的奖励反馈进一步微调模型。

在很多的学术基准测试中,DPO(基于无奖励)的表现看起来比PPO(基于奖励)好,因此,最先进的结果通常被视为只能通过无奖励的方法来实现。

不过也有学者在研究中发现:PPO在极富挑战性的代码竞争中,更容易取得最先进的结果。这意味着这两种算法在辅助RLHF训练时其实各有所长。

以上就是今天的分享,希望有用~

备注:首发司普科技,有参考BAIR、知乎等,仅做分享。