允中 发自 凹非寺
量子位 | 公众号 QbitAI

大模型正引领新一轮的研究热潮,业界和学术界都涌现出了众多的创新成果。

小红书技术团队也在这一浪潮中不断探索,多篇论文研究成果在ICLR、ACL、CVPR、AAAI、SIGIR、WWW等国际顶会上频频亮相。

在大模型与自然语言处理的交汇处,小红书发现了哪些新机遇和挑战?

对于大模型,有哪些有效的评测方法?它又如何更好地融入到应用场景中的呢?

6月27日19:00-21:30,【REDtech来了】第十一期《小红书2024大模型前沿论文分享》线上开播!

REDtech特别邀请了小红书社区搜索团队来到直播间,他们将分享6篇小红书在2024年发表的大模型研究论文。

小红书精排LTR负责人冯少雄,携手多位顶会论文作者李易为、王星霖、袁沛文、张超等人,共同探讨最新的大模型解码与蒸馏技术、大模型评测方法,以及大模型在小红书平台上的实际应用。

预约直播,多篇论文一作作者在线与你交流!你将获得关于大模型技术的最新见解,探讨未来的发展趋势,并交流如何利用这些前沿技术提升用户体验,推动平台智能化发展。

活动议程

打开网易新闻 查看更多图片

01 Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step Reasoning / 入选 ICLR 2024

针对大模型多步推理中高成本问题的早停自洽性方法 | 讲者:李易为

自洽性方法(Self-Consistency,SC)一直是思维链推理中广泛使用的解码策略,通过生成多个思维链并取多数答案作为最终答案,来提高模型的性能。但它是一种高成本的方法,需要进行预设大小的多次采样。

在ICLR 2024上,小红书提出一种简单且可扩展的采样过程——早停自洽性方法(Early-Stopping Self-Consistency,ESC),它能在不牺牲性能的情况下,大幅度降低SC的成本。在此基础上,团队进一步推导出一种ESC控制方案,以动态选择不同任务和模型的性能-成本平衡。三种主流推理任务(数学,常识和符号推理)的实验结果显示,ESC在六个基准测试中显著降低了平均采样次数,同时几乎保持原有性能。

论文地址:https://arxiv.org/abs/2401.10480

02 Integrate the Essence and Eliminate the Dross: Fine-Grained Self-Consistency for Free-Form Language Generation / 入选 ACL 2024

去粗取精:面向自由格式生成任务的细粒度自洽性方法 | 讲者:王星霖

小红书在ACL 2024中提出了Fine-Grained Self-Consistency (FSC) 方法,能够显著提升自洽性方法在自由格式生成任务上的表现。

团队首先通过实验分析了现有面向自由格式生成任务的自洽性方法的不足来自于粗粒度的共性样本选择,其无法有效利用不同样本细粒度片段之间的共性知识。

在此基础上团队提出了基于大模型自融合的FSC方法,实验证实其在代码生成、摘要生成以及数学推理任务上都取得了显著更优的表现,同时保持了相当的消耗。

论文地址:https://github.com/WangXinglin/FSC

03 BatchEval: Towards Human-like Text Evaluation / 入选 ACL 2024,领域主席给出满分评分,并推荐最佳论文

迈向人类水平的文本评测 | 讲者:袁沛文

小红书在ACL 2024中提出了BatchEval方法,能够以更低的开销达到类人水平的文本评测效果。

团队首先从理论层面分析了现有文本评测方法在评测鲁棒性方面的不足来自于评测打分分布不均匀、在得分集成方面的次优表现源自于评测视角多样性的缺失。

在此基础上,受人类评测过程中通过样本间比较来建立更加立体全面、视角多样的评测基准启发,类比提出了BatchEval。与当前最先进的若干方法相比,BatchEval在评测开销与评测效果两方面都取得了显著更优的表现。

论文地址:https://arxiv.org/abs/2401.00437

04 Poor-Supervised Evaluation for SuperLLM via Mutual Consistency / 入选 ACL 2024

通过互一致性实现准确监督信号匮乏下的超人水平大语言模型评测 | 讲者:袁沛文

小红书在ACL 2024中提出了PEEM方法,其能够通过模型间的互一致性实现对于超越人类水平的大语言模型的准确评测。

团队首先分析了当前大语言模型迅猛发展的趋势会加速其在多个方面逐渐达到甚至超越人类水平,在此情况下,人类将难以再提供准确的评测信号。

为实现该场景下的能力评测,团队提出了以模型间的互一致性为评测信号的设想,并推导出了在评测样本无穷时,如果存在参考模型与待评测模型间预测分布独立,则与该参考模型间的一致性可以作为模型能力的准确度量。

在此基础上,团队提出了基于EM算法的PEEM方法,实验证实其能够有效缓解现实中上述条件的不充足,从而实现对超越人类水平的大语言模型的准确评测。

论文地址:https://github.com/ypw0102/PEEM

05 Turning Dust into Gold:Distilling Complex Reasoning Capabilities from LLMs by Leveraging Negative Data / 入选 AAAI 2024 Oral

利用负样本促进大模型推理能力的蒸馏 | 讲者:李易为

大语言模型(LLMs)在各种推理任务上表现优异,但其黑盒属性和庞大参数量阻碍了它在实践中的广泛应用。特别是在处理复杂的数学问题时,LLMs有时会产生错误的推理链。

传统研究方法仅从正样本中迁移知识,而忽略了那些带有错误答案的合成数据。在AAAI 2024上,小红书搜索算法团队提出了一个创新框架,首次提出并验证了负样本在模型蒸馏过程中的价值,构建一个模型专业化框架,除了使用正样本外,还充分利用负样本来提炼LLM的知识。

该框架包括三个序列化步骤,包括负向协助训练(NAT)、负向校准增强(NCE)和动态自洽性(ASC),涵盖从训练到推理的全阶段过程。一系列广泛的实验,展示了负向数据在LLM知识蒸馏中的关键作用。

论文地址:https://arxiv.org/abs/2312.12832

06 NoteLLM: A Retrievable Large Language Model for Note Recommendation / 入选 WWW 2024

基于大语言模型的笔记内容表征推荐系统 | 讲者:张超

小红书APP每天都有大量新笔记产生,如何有效地将这些新内容推荐给感兴趣的用户呢?基于笔记内容的推荐表征是缓解笔记冷启动问题的一种方法,也是众多下游应用的基础。

近年来,大语言模型因其强大的泛化性和文本理解能力而备受关注。因此,小红书希望利用大语言模型构建笔记内容表征推荐系统,以增强笔记内容的理解。技术团队将从生成增强表征以及多模态内容表征两个角度介绍近期的工作。

目前该系统已应用于小红书多个业务场景并取得显著收益。

论文地址:https://arxiv.org/abs/2403.01744

打开网易新闻 查看更多图片

直播观看方式

直播时间:2024年6月27日19:00-21:30

直播平台:微信视频号【小红书技术REDtech】,B站、抖音、小红书同名账号实时直播。

打开网易新闻 查看更多图片

欢迎填写问卷,反馈关于大模型你关心的问题,在直播期间与嘉宾深入互动。

扫描下方二维码进入直播交流群,将第一时间获取直播链接及开播提醒;可一键打包获取精心整理的【论文PDF合集】,还有机会与论文作者直接交流!

邀请好友预约直播好礼

招聘

小红书社区搜索团队多岗位热招中,团队负责小红书搜索效果的优化和前沿技术的探索,致力于打造中国最大的生活搜索引擎。期待你的加入!(戳“阅读原文”了解更多招聘岗位)

*本文系量子位获授权刊载,观点仅为作者所有。