1500多支国内外队伍同台竞技，快手在NeurIPS 2024顶级大赛中双杀

机器之心报道

编辑：杜伟、小舟

这几天，学术圈的小伙伴肯定都很关注正在加拿大温哥华举办的机器学习顶会——NeurIPS 2024。本届会议于今日落下帷幕，共接收 15671 篇有效论文投稿，比去年增长了 27%，最终接收率为 25.8%。

本届会议上同样值得关注的，还有一项重要的赛事，它就是「NeurIPS 2024 Auto-Bidding in Large-Scale Auctions」（大规模拍卖中的自动出价），旨在探索当前火热的强化学习、生成模型、Agent 等前沿 AI 技术在广告投放以及决策智能场景的应用。

该赛事不仅是业内首次广告出价比赛，也是 NeurIPS 2024 唯一的搜广推比赛，可以说规格和含金量都很高，也因此收获了超高的热度，吸引超过 1500 支队伍参赛，其中不乏国内外知名高校和公司、专业研究机构以及决策智能领域知名团队的身影。

赛事主页：https://tianchi.aliyun.com/specials/promotion/neurips2024_alimama#/

简单来说，在比赛中，参赛者扮演自动出价 Agent（即广告主），在大规模拍卖环境下与其他 47 个竞争对手对抗，作出有效的出价决策，并在满足投放需求的情况下帮助广告主最大化投放效果。

从①到⑤为典型广告平台的自动出价全流程。

此次比赛分为了两个赛道，分别是通用赛道和AIGB（AI-Generated Bidding）赛道。两个赛道侧重点各有不同，对参赛队伍提出了不同的技术要求，其中：

通用赛道关注不确定环境中的自动出价，需要解决数据稀疏性、转化方差、多坑等不确定问题；
AIGB 赛道使用生成模型来学习自动出价 Agent，需要采用生成模型来端到端输出决策。

算起来，自今年 6 月底注册阶段开始，经过了近半年的激烈角逐，比赛终于决出了胜负！

快手商业化算法团队（简称快手团队）从千余支队伍中脱颖而出，包揽了两个赛道的第一名，成为本次赛事最大赢家。

夺冠方案

自动出价服务是国内外各广告平台的基础组成模块，有众多的业界实践和研究工作。

此次比赛任务基于一个简化版本的 Target CPA，并将 CPA 定义为平均转化成本。参赛者需要设计和实现一个自动出价 Agent。给定广告主 j 的预算 B 和目标 CPA C，该自动出价 Agent 在一个广告投放周期内对 N 个展现机会进行竞价，目标是在保证最终实现的 CPA 不大于 C 的前提下，最大化总转化量。

具体来说，所有展现机会按顺序到达，出价 Agent 依次对每个机会进行竞价。对于每个机会 i：

通用赛道

现实世界中，复杂的广告拍卖环境往往会带来额外的挑战，特别是不确定性。因此，通用赛道要求参赛者在大规模拍卖中做出有效竞价决策，需要有效感知竞争对手策略的变化。参赛者必须考虑客户到达的随机性、转化预测的方差、数据稀疏性和其他因素。

这就需要在离线规划最优解的基础上，自适应在线竞价过程，以获得更优出价序列。快手团队创新地提出了一种基于强化学习的在线探索技术方案，巧妙地解决了该问题。

首先，考虑多坑特点，快手团队基于竞胜率以及多坑的曝光率将问题建模成约束优化问题，并基于该问题的对偶问题求解出离线最优出价系数，得到最优出价形式。

然后，快手团队建模出价系数和未来预期消耗以及预期转化的关系，并且为了解决不确定性问题，在建模时综合考虑了稠密的先验转化以及稀疏的后验转化。

最后，为了适应在线环境的不确定性，快手团队提出基于强化学习的在线搜索方案：首先搭建一个竞价模拟器环境，能够学习不同出价对应的序列长期价值；然后基于离线最优出价系数划定一个区间进行采样，最后挑选出价值最优的动作（action）作为最终的出价系数。

结合最优化理论和强化学习在线搜索。

AIGB 赛道

相比于通用赛道，AIGB 赛道面向一种全新的迭代范式。由于生成模型，包括扩散模型（Diffusion Model）、决策 Transformer（Decision Transformer）、大型语言模型（LLM），在语言、视觉等领域体现出算力和数据的 scaling law，并且在决策任务中表现出了巨大的潜力，因此 AIGB 赛道要求采用生成模型，将自动出价建模为生成式序列决策问题，探索生成模型用于出价问题的机会。

在 AIGB 赛道，一个首先要解决的问题是选择模型架构。序列决策领域有扩散模型和决策 Transformer 两大类。参赛者面临在竞争性游戏中做出长期战略决策的关键挑战，众多竞争对手的策略会快速发生变化，以 DiffBid 为代表的扩散模型方案存在两个不足：

优化目标对齐能力弱：一次性生成一条序列，序列之间约束较弱，甚至学不出剩余预算单调递减这一性质；
训练效率低：是两阶段范式，首先预测状态序列 {s_{t+1},s_{t+2},...,s_{T}}，然后根据 {s_t,s_{t+1}} 预测最终出价，训练较为复杂。

而决策 Transformer 建模长期价值 return to go（RTG），直接预测出价，相比于 DiffBid 具有和目标对齐能力更强、训练更简单的优势。

然而，快手团队发现：决策 Transformer 模型的学习机制是模仿学习，难以学习到超出数据集的出价策略。因此，他们考虑在策略学习时探索更优的出价系数，增强模型学习，但简单的探索很容易导致离线强化学习的分布外（Out Of Distribution，OOD）问题。

为了解决这个问题，快手团队从决策 Transformer 的本质出发，即决策 Transformer 根据 RTG 生成对应的出价系数，下一时刻的高 RTG 出价系数（长期价值）需要有更大的生成概率。

有了这个关键认知，快手团队提出一种 RTG 引导的出价系数探索方案——Decision Transformer with RTG-driven Explorations，保证探索性的同时兼顾安全性，从而增强模型学习。

Decision Transformer with RTG-driven Explorations

简单来说，Decision Transformer with RTG-driven Explorations 方案主要包括如下步骤：

广告收入提升 5%+

基于 RL 的自动出价在业务侧开始发力

说起来，广告投放的目的其实很简单，以企业或商家为主的广告主选择合适的广告平台，将广告传递给受众（即消费者）。但实现起来需要考虑的因素就多了，比如针对同一广告位展开竞争出价、投放预算与实际投放成本、投放收益等。这就要求广告主进行全方位权衡，其中动态调整出价是控制广告成本和提升广告收入的关键一环。

而作为广告投放平台，快手也在广告推荐、预算分配策略、效果预估以及尤为重要的自动出价调整等层面进行算法上的优化升级，更好地服务于客户的同时增加自身广告收入。

从纵向来看，快手的出价算法经历了从 PID、MPC 到强化学习（RL）的「三代」演化路径，技术上的持续迭代更新带来了广告投放效果的节节提升。

第一代出价算法 PID（被动反馈式控制）包含了三个关键的控制参数：比例（Proportional）、积分（Integral）和微分（Derivative）。该算法可以通过动态调整出价来很好地将广告平均成交价稳定在目标成交价，但不足的点在于对未来消耗和预期消耗没有预估和规划。

第二代出价算法 MPC，它的全称为 Model Predictive Control，引入了对未来的预测，在对出价与未来消耗、成本的关系进行建模的基础上可以做出更精准的出价规划。不过，该算法建模能力较弱，也无法做出多步长期决策。

到了强化学习阶段，包括出价、成本、用户行为在内各个变量的建模能力大大加强，并对序列整体长期价值进行优化。通过不断与环境互动，强化学习算法可以根据实时市场环境变化调整出价，并能够预估长期广告效果以做出更精确的出价决策。相较于 PID、MPC，强化学习算法在动态决策、处理复杂环境与竞争行为、多目标优化、应对不确定性与数据稀缺、长期收益优化等多个方面都占优。

此外，面对 OOD 问题，快手在算法选型上采用了离线强化学习算法，缓解了训练数据集不足带来的问题，可以更稳健地进行决策，降低策略失效的风险；快手又搭建离线模拟环境，优化出价策略并验证效果，确保在线策略的安全性、有效性和稳健性，降低高风险决策可能造成的损失。

目前，基于强化学习的自动出价模型已经在快手广告系统全量推全，在成本达标不降约束下取得了5% 以上的广告收入提升。消融实验也证明了：收益来自于模型泛化以及强化学习最大化序列价值建模。

通过此次大赛，快手看到生成模型（如 Decision Transformer）在广告出价场景中的应用潜力。虽然相较于强化学习在最大化序列整体价值方面存在短板，但对序列数据的拟合能力更强，因此二者的有效结合可能是下一代更强出价模型的演化方向。同时，快手也畅想借鉴 o1 思想，通过 Monte-Carlo Tree Search（MCTS）技术搜索不同出价序列，挑选出最优路径，在多轮决策和推理过程中优化出价策略。

夺冠背后

是 AI 技术的厚积薄发

此次 NeurIPS 2024 大赛，真正诠释了快手商业化算法团队的 AI 技术积累以及在实际业务中经受考验的信心。

从确定参赛、前期准备，到练习轮（Practice Round）、再到正式比赛（Official Round），参赛成员在几个月的时间里，攻克了不少的难关，这才有了最终的双赛道夺冠。

参赛成员来自清华大学、香港中文大学、香港城市大学、南洋理工大学等国内外名校。在谈到此次最大的收获时，他们表示对几类出价算法（包括最优化理论、强化学习和生成模型）的优劣有了定性和定量的分析，并对未来出价技术的演进做出清晰的判断。而且，此次比赛提出的创新点在快手的广告业务中也得到了初步验证。

据了解，作为快手核心算法部门，商业化算法团队负责快手国内及海外多场景的变现算法研发，着力构建领先的广告变现算法，通过算法驱动商业营销增长，优化用户和客户体验。团队依托快手实际业务问题，产出顶会论文覆盖 KDD、ICLR、NeurIPS、CVPR 等多个领域的国际会议，还先后斩获 CIKM Best Paper、SIGIR Best Paper 提名奖、钱伟长中文信息处理科学技术奖一等奖。在 AI 技术层面的硬实力，是他们此次夺冠的最大底气。

作为一家以人工智能为核心驱动和技术依托的科技公司，快手已经看到了以技术为引擎、辅以算法在推动业绩增长方面的巨大价值。

未来，快手将继续探索强化学习、生成模型等 AI 技术在广告出价以及更广泛业务场景的落地。届时又会带来哪些惊喜，我们拭目以待。

1500多支国内外队伍同台竞技，快手在NeurIPS 2024顶级大赛中双杀

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

沈向洋，发了一个可以识别万物的大模型

AI三重劫

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

图像领域再次与LLM一拍即合！idea撞车OpenAI强化微调，西湖大学发布图像链CoT

Ilya错了，预训练没结束！LeCun等反击，「小模型时代」让奥特曼预言成真

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

字节AI版小李子一开口：黄风岭，八百里

“我把4500多篇NeurIPS 2024论文，做成了AI搜索”

人形机器人组队进厂打工！5只Figure 02在宝马工厂

我用两年聊天记录，复刻出一个AI版的自己

AI如何改变社交娱乐新姿势？阿里云AI专家解读来了

AI如何解锁企业办公新模式？阿里云AI专家解读来了

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

网友一个定积分的WIFI密码，测出了AI数学之王。Grok超强数学思维碾压ChatGPT，引马斯克点

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

快手上线“付费短剧会员”功能：30天16.8元，可看超8000部付费短剧

把1个脑洞发展成1场顶会workshop，阿里妈妈只用了1年｜NeurIPS

国台办罕见点名台积电，对其称呼已变，赖当局就剩最后2条路可选

美再对华为出手，中方送出一句话，美大使认清现实，制裁中国没用