北航提出全新偏好数据构建框架，助力大模型实现更全面的对齐效果

近期，北京航空航天大学、AI 初创公司零一万物、清华大学等团队合作，提出了一种 PopAlign 框架。

它集成了六种对比响应的引导生成策略，全面覆盖了在响应生成过程中可能出现的各种对比先验。

这些对比策略分别包括前缀对比、示例对比、引导对比、参数数量对比、排行榜对比和改良对比，涵盖了从提示（Prompt）、模型（Model）到管道（Pipeline）的多个层级。

通过对这些对比引导策略的综合应用，该课题组能够帮助大模型构建出更加多样化的偏好数据。并且，由于先验足够明确，也可以摆脱额外的人类或 AI 反馈标签。

基于此，PopAlign 不但提升了对齐效果，而且降低了对齐成本，为大模型的安全性和鲁棒性提供了保障。

图丨 PopAlign 的工作流程（来源：arXiv）

近日，相关论文以《PopAlign：使对比模式多样化，实现更全面的对齐》（PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment）为题在预印本平台arXiv上发布 [1]。

北京航空航天大学硕士研究生王泽坤是第一作者，波形智能 CTO 周王春澍以及零一万物算法副总裁黄文灏博士担任联合通讯作者。

图丨相关论文（来源：arXiv）

助力大模型实现更全面的对齐效果

在训练大模型的过程中，对齐是一个至关重要的阶段。它旨在调整大模型的响应分布，使之更符合人类的价值观或偏好。

当前，主流的对齐方法主要包括：基于人类反馈的强化学习，以及基于 AI 反馈的强化学习。

采用这些方法时，首先要让大模型针对每个用户指令生成成对的响应，再让人类用户或另一个大模型，根据用户的价值观或偏好，手工或自动地为这些成对的响应进行反馈标注，进而将它们分别标注为“更被偏好的”或“更被拒绝的”。

正是基于这些偏好标签，大模型的响应分布才得以逐步贴近人类用户所偏好的响应分布，同时远离不被偏好的响应分布。

在此过程中，让模型生成具有偏好对比度的成对响应至关重要。（编者注：这里的偏好对比度是指，一个响应与另一个响应相比，更被用户偏好的程度。）

原因在于，这个偏好对比度决定了第二步反馈标注操作的准确性，且会影响后续进行模型响应分布调整的准确性。

不过，由于第一步引导模型生成显式的成对响应，只是模型响应分布的一个采样，因此在这些成对响应的“样本”上，进行的模型响应分布优化，可能会存在不全面之处。

而目前大多数对齐方法，不但只采取有限的采样，而且不能保证响应的生成，有足够的可以引导出偏好对比度的先验。

举例来说，大模型 LLaMA 2 只通过不同的模型变体或不同的文本解码温度，来生成偏好对比响应。

这种简单的采样，不足以将要对齐的模型中对于偏好模式的理解全部引导出来。

也就是说，这可能导致大模型在某个偏好模式下对齐得比较好，但在另一个偏好模式下对齐得不够好。

图丨对比模式及其对响应分布优化的影响（来源：arXiv）

并且，生成的成对响应很容易同质化，造成很难分辨孰好孰坏，进而影响后续对齐训练的稳定性。

PopAlign 框架正是在该背景下被提出的。

它的诞生，旨在解决以下两个关键问题：

其一，如何引导出更加全面、丰富且有先验的对比模式，以增强偏好对比数据的多样性和对比度。

其二，探究这些多样化的对比模式，对模型对齐性能的影响。

一般来说，大模型的训练包括预训练、监督微调和对齐训练三个阶段。

其中，对齐训练的目的是“3H 原则”，即模型要有帮助（Helpful）、无害（Harmless）和诚实（Honest）。

这意味着，模型不仅要提供有用的回答，还要避免包含任何冒犯或有害的内容，且在回答中尽可能地做到真实可信。

也正是这些原则，确保了模型在实际应用中既能满足用户需求，又能安全、可靠地运作。

因此，从应用上看，PopAlign 框架致力于提升大模型对齐训练的效果，其作用涵盖大模型应用的方方面面，包括智能问答助手、客服、教育辅助机器人、写作助手等。

图丨王泽坤（来源：王泽坤）

研究中他们发现，这些对比模式的引导方式大体上可以分成三类，分别是：数据层面、模型层面和框架层面。

“也就是 Prompt-Model-Pipeline 三个层级，即 PopAlign 这个名字的来源。”王泽坤解释道。

同时，他们得出的实验结果，也与所预期的相符，就是让对比模式更加多样，能带来更加全面的对齐增益。

“今后大模型对齐方面的研究和实践，可以从我们的研究中汲取经验，进而帮助提升其对齐的综合效果。”王泽坤表示。

高校与企业的联合培养，促进在大模型领域收获一系列成果

在做这项研究的同时，王泽坤还在做其他的研究。

其中，包括统一四个模态数据（文本、视频、图像、语音）的理解和生成大模型 MIO[2]，提升大模型进行长度可控文本生成以及复制粘贴工具使用能力的方法 PositionID [3]，以及针对大模型工具使用的多粒度基准评测集 MTU-Bench[4] 等

这也造成分配到每项研究上的时间比较有限。所以，为了协调各项研究的进度，他除了要增加自己的工作时间，还需要保证足够的工作效率。

“这个状态从 2024 年 2 月持续到 2024 年 10 月。在这半年多的时间里，我一直过着非常充实的生活。”王泽坤说。

据介绍，王泽坤本科就读于北京航空航天大学中法工程师学院。值得一提的是，该学院在数学和物理方面的本科教育非常领先，而 AI 恰恰是一个需要数学、物理和计算机三大学科协同作用的领域。

“所以，我认为我所在的学院，为 AI 相关人才的培养提供了良好的范本，而我正是在这个环境中成长起来的。”王泽坤说。

因为王泽坤本科大部分学科都采用法语教学，所以他选择在大一时着重提升自己的法语水平，大二大三致力于补足在数学、物理和计算机方面的知识和能力。

据他介绍，在他的大二暑假，也就是 2020 年 7 月，有两件事的发生，促使他走向大模型这个研究方向。

一是 GPT-3 的诞生。

二是他阅读了复旦大学邱锡鹏教授撰写的书籍《神经网络与深度学习》。

“这本书重点讲述了自然语言处理领域相关的内容。在我阅读它，并感受到‘为机器赋智能’这项事业的趣味和使命感时，GPT-3 也恰好出现了，后者掀起了大模型的一波小高潮。

这令我开始坚信与大模型相关技术，一定会在不久后促成一波革命性的影响。”王泽坤表示。

于是，他在整个大三时期，阅读了大量与大模型相关的论文，并全力寻找与此相关的科研机会。

然而，由于当时学校的算力有限，不足以支撑大模型方向的科研，因此王泽坤选择走出校门，到大模型企业寻找实习机会。

自 2021 年 9 月开始，王泽坤先后在澜舟科技、北京智源人工智能研究院、零一万物等企业开展实习，并与合作者联合完成了一系列具有影响力的研究。

除了上面提到的 MIO，还涉及到首个大模型角色扮演数据模型评测全方案 RoleLLM[5]，具有工业级性能的全透明开源大模型系列 MAP-Neo[6] 等多项成果。

与此同时，在学校里，他也得到了其硕士生导师许可教授的大量指导和帮助，并逐渐培养起较为完善的科研素养和能力。

王泽坤表示：“得益于学校和企业的联合培养，我才能够在大模型领域获得比较迅速的成长。”

目前，王泽坤刚刚开始他硕士研究生第三年的学习生涯，并且也在字节跳动的大模型研究院继续开展实习研究和探索。

他提到，接下来将继续专注于统一理解和生成的多模态大模型、下一代大模型训练方式、大模型角色扮演等方面的研究。

参考资料：

1.Wang Z M, Wang S, Zhu K, et al. PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment.arXiv:2410.13785, 2024. https://doi.org/10.48550/arXiv.2410.13785

2.Wang Z, Zhu K, Xu C, et al. Mio: A foundation model on multimodal tokens.arXiv:2409.17692, 2024. https://doi.org/10.48550/arXiv.2409.17692

3.Wang Z, Duan F, Zhang Y, et al. PositionID: LLMs can Control Lengths, Copy and Paste with Explicit Positional Awareness.arXiv:2410.07035, 2024.https://doi.org/10.48550/arXiv.2410.07035

4.Wang P, Wu Y, Wang Z, et al. MTU-Bench: A Multi-granularity Tool-Use Benchmark for Large Language Models.arXiv:2410.11710, 2024.https://doi.org/10.48550/arXiv.2410.11710

5.Wang Z M, Peng Z, Que H, et al. Rolellm: Benchmarking, eliciting, and enhancing role-playing abilities of large language models.arXiv:2310.00746,2023.https://doi.org/10.48550/arXiv.2310.00746

6.Zhang G, Qu S, Liu J, et al. Map-neo: Highly capable and transparent bilingual large language model series.arXiv:2405.19327, 2024.https://doi.org/10.48550/arXiv.2405.19327

运营/排版：何晨龙

北航提出全新偏好数据构建框架，助力大模型实现更全面的对齐效果

依靠群体的力量：这家公司走出了一条不同于OpenAI的AGI路线

AI三重劫

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

1000多个智能体组成，AI社会模拟器MATRIX-Gen助力大模型自我进化

史上最严中文真实性评估：OpenAI o1第1豆包第2，其它全部不及格

「全球最严榜单」，阶跃拿下中国TOP 1！杀入世界前五，超过GPT-4o紧跟o1-mini

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

大疆前高管带6人创业，做出了类目Top1的割草机器人

字节AI版小李子一开口：黄风岭，八百里

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

官方公布十月失业率数据、两起公共安全事件和俄乌战争进展

收敛速度最高8倍，准确率提升超30%！华科发布MoE Jetpack框架 | NeurIPS 2024

妈妈忘带门禁卡让儿子从门缝钻过去开门，小孩哥一步一指令成功完成任务

狗狗拉车载人引围观，停车转方向全靠大爷下指令，网友：两公里只需一根骨头

象棋残局：智慧与策略的博弈

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

获学校资助的家庭困难学生晒国内外旅游照片？浙江大学相关部门回应

军事爱好者用不锈钢制作航母模型，网友：这也太硬核了

北航提出全新偏好数据构建框架，助力大模型实现更全面的对齐效果

依靠群体的力量：这家公司走出了一条不同于OpenAI的AGI路线

AI三重劫

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

1000多个智能体组成，AI社会模拟器MATRIX-Gen助力大模型自我进化

史上最严中文真实性评估：OpenAI o1第1豆包第2，其它全部不及格

「全球最严榜单」，阶跃拿下中国TOP 1！杀入世界前五，超过GPT-4o紧跟o1-mini

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

大疆前高管带6人创业，做出了类目Top1的割草机器人

字节AI版小李子一开口：黄风岭，八百里

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

官方公布十月失业率数据、两起公共安全事件和俄乌战争进展

收敛速度最高8倍，准确率提升超30%！华科发布MoE Jetpack框架 | NeurIPS 2024

妈妈忘带门禁卡 让儿子从门缝钻过去开门，小孩哥一步一指令成功完成任务

狗狗拉车载人引围观，停车转方向全靠大爷下指令，网友：两公里只需一根骨头

象棋残局：智慧与策略的博弈

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

获学校资助的家庭困难学生晒国内外旅游照片？浙江大学相关部门回应

军事爱好者用不锈钢制作航母模型，网友：这也太硬核了

妈妈忘带门禁卡让儿子从门缝钻过去开门，小孩哥一步一指令成功完成任务