机器之心原创

2024/07/15 15:15

阿里妈妈给出了什么样的赛题，被顶会NeurIPS 2024 pick了？

会「出价」也是个很实用的技能。

在众多人工智能顶会中，NeurIPS 属于什么段位？有人将其代入《甄嬛传》宇宙做了张图：大概配享「后位」。

^{图源：小红书用户 @云卷月舒}

这一排名可能存在争议，但毋庸置疑的是，NeurIPS 在 AI 顶会中始终稳居前三，并且长期处于 Google Scholar 全球所有学科期刊、顶会的前十名。

因此，能够在这一会议中发表论文是众多 AI 研究者的共同目标。开创性的 AlexNet、Transformer、GPT-3 论文都是该顶会的接收论文。

但值得注意的是，论文并不能代表 NeurIPS 的全部价值，会议期间举办的一些竞赛可能更适合一些专注于 AI 实践的研究者、工程师。连 NeurIPS 官方也说，「这些竞赛在研究和解决复杂问题方面发挥着重要作用」。

那这些竞赛去哪里找呢？其实，NeurIPS 官方在 6 月份就发布了一篇博客，专门给出了这些竞赛的列表。

该列表总共包含 16 个赛题，每个赛题都经过了层层筛选，具有大会要求的「广泛的科学研究价值」。

这些赛题由 NeurIPS 官方征集而来。以往年的经验来看，能最终入选的赛题绝大部分来自高校、研究机构或者 Google、OpenAI、Meta 等国外科技公司，国内工业界提报的赛题入选几率极低。今年，由于大模型赛道火热，赛题竞争更为激烈。

但令人惊喜的是，在如此激烈的竞争环境下，国内工业界依然有人脱颖而出，列表中的「Auto-Bidding in Large-Scale Auctions: Learning Decision-Making in Uncertain and Competitive Games（大规模拍卖中的自动出价：不确定和竞争博弈中的学习决策）」便是他们提报的赛题。

大赛官网：https://tianchi.aliyun.com/specials/promotion/neurips2024_alimama#/

该赛题由北大 - 阿里妈妈人工智能创新联合实验室（PAAI）中的决策智能方向合作团队产出，阿里妈妈决策智能技术团队作为第一单位同北京大学邓小铁教授、卢宗青教授研究团队联合提报。在赛题入选后，阿里妈妈拿到了这一比赛的主办权，成为国内工业界今年唯一一家获得 NeurIPS 比赛主办权的组织。

赛题围绕「大规模拍卖中的自动出价」问题展开。该问题与我们每天打开购物 APP，搜索、浏览商品的界面息息相关，背后蕴藏着巨大的研究和商业价值。NeurIPS 专家评委给赛题的评价是「Practically important, well organized, and well tested（实际意义重大，组织良好，测试良好）」。

那么，「大规模拍卖中的自动出价」是个什么问题？为什么会由北大 - 阿里妈妈人工智能创新联合实验室提出并且获得了如此高的评价？参赛者具体要做什么？机器之心将在这篇文章中一一拆解。

什么是「大规模拍卖中的自动出价」？

要理解什么是「大规模拍卖中的自动出价」，我们先回忆一下打开淘宝开始购物的经历。

每次你输入一个关键词，系统都会弹出一个商品页面。其实，这个页面大有讲究：哪些商品会出现，哪个商品排在前面都是系统精密计算的结果，其中的广告是平台运行拍卖机制把广告位分配给广告主的结果。

整个过程的运行逻辑如下：首先，平台会通过分析用户的兴趣和行为模式来构建用户画像。当用户在淘宝上进行搜索或浏览商品时，平台会立即在后台启动广告拍卖流程。广告主们通过竞价机制参与到这场拍卖中，希望能够让自己的广告获得展示机会。自动出价系统在这个过程中发挥着核心作用，它综合考虑用户的画像、行为数据、广告主的推广目标、预算限制，以及拍卖环境中的多种因素，实时计算出最优化的出价策略。平台会根据这些数据和计算结果，选择出价最高且与用户需求最相关的广告。这些广告结果会和自然结果一起展现给用户。整个过程完全自动化，能在极短的时间内完成。

从这个过程可以看出，通过自动出价系统，广告主能够大大简化广告投放的流程，利用人工智能技术实现精准营销，从而节省时间和精力。

2023 年，全球线上广告市场规模已经达到 6268 亿美元。自动出价技术对于推动其持续增长至关重要。类似的研究问题还有广告投放策略和其他机制设计，它们都属于决策智能的研究范畴。决策智能相关研究可以为企业带来新的运营方式，在决策机制上降低对人的依赖，从而显著提企高业的收益增长速度，提升企业成长空间。

不过，要做好赛题中的「自动出价」并不容易。因为自动出价系统需应对庞大且复杂的数据洪流，涵盖用户行为数据、广告数据、竞价数据等多维度信息，而且这些数据会实时更新。此外，系统还需在一个充满不确定性的博弈环境中进行决策，无法获得所有影响因素的完整信息。因此，系统只能依赖于当前可用的数据和累积的历史经验，通过智能算法进行预测和决策，力求在瞬息万变的市场环境中做出最优的出价选择。

「自动出价」优化之路

从强化学习到生成式 AI

总体来看，整个出价领域业界的方法经历了四代演化。在自动出价策略的优化上，阿里妈妈也进行了多年的研究。

第一代：经典控制类。把效果最大化的优化问题间接转化为预算消耗的控制问题。基于业务数据计算消耗曲线，控制预算尽可能按照设定的曲线来消耗。PID 及相关改进是这一阶段常用的控制算法。当竞价流量价值分布稳定的情况下，这类算法能基本满足业务上线之初的效果优化。
第二代：规划求解类。相比于第一代，规划求解类（LP）算法直接面向目标最大化来进行求解。可基于前一天的参竞流量来预测当前未来流量集合，从而求解出价参数。自动出价问题根据当前已投放的数据变成新的子问题，因此可多次持续地用该方法进行求解，即 Online LP。这类方法依赖对未来参竞流量的精准预估，因此在实际场景落地时需要在未来流量的质和量的预测上做较多的工作。
第三代：强化学习类。现实环境中在线竞价环境是非常复杂且动态变化的，未来的流量集合也是难以精准预测的，要统筹整个预算周期投放才能最大化效果。作为典型的序列决策问题，第三阶段用强化学习类方法来优化自动出价策略。其迭代过程从早期的经典强化学习方法落地，到进一步基于 Offline RL 方法逼近「在线真实环境的数据分布」，再到末期贴近问题本质基于 Online RL 方法实现和真实竞价环境的交互学习。
第四代：生成模型类。以 ChatGPT 为代表的生成式大模型以汹涌澎湃之势到来，在多个领域都表现出令人惊艳的效果。新的技术理念和技术范式可能会给自动出价算法带来革命性的升级。阿里妈妈技术团队提前布局，以智能营销决策大模型 AIGA（AI Generated Action）为核心重塑了广告智能营销的技术体系，并衍生出以 AIGB（AI Generated Bidding）为代表的自动出价策略。

在业界的最新研究处于第三代时（2022年），北大 - 阿里妈妈人工智能创新联合实验室（PAAI）成立。这个实验室集齐了产业界和学术界的多位大牛：北京大学智能学院院长朱松纯教授领衔学术指导，北京大学讲席教授邓小铁、北大智能学院副教授宋国杰和阿里妈妈技术负责人郑波都是实验室的核心成员。几位大牛带领实验室在已有成果的基础上继续研究自动出价等决策智能问题。

在研究过程中，他们发现，原有的强化学习方法存在一些局限，比如在自动出价这种长序列决策场景下会有训练误差累积过多的问题。与此同时，ChatGPT 在多个领域正在验证生成式 AI 的强大能力。于是，该团队开始思考，生成式模型能够给自动出价策略带来什么？最终，他们提出了一种基于生成式模型构造的出价策略优化方案 ——AIGB（AI Generative Bidding）。

具体来说，AIGB 将出价、优化目标和约束等具备相关性的指标视为一个联合概率分布，从而将出价问题转化为了条件分布生成问题。与强化学习的视角不同，它直接关联决策轨迹和回报信息（如下图所示），能够避免训练误差累积，更适合长序列决策场景。这是联合实验室率先将生成式大模型应用在智能出价领域的一次尝试，相关论文已被国际顶会 KDD 2024 接收。

当然，「大规模拍卖中的自动出价」等决策智能问题远未解决，生成式 AI 在这些问题中的应用也才刚刚进入尝试阶段。因此，联合实验室就向 NeurIPS 提报了相关赛题，期望借助多年的研究积累，汇聚社区的力量，共同推动这些问题的深入研究与解决。

除了商业价值，这些问题本身也有很高的研究价值。因为决策智能整合了人工智能、数据科学和博弈论等学科，提供了系统化框架来解决复杂问题。这促进了跨学科融合，推动了计算机科学、统计学和经济学等领域的创新与合作。

AIGB、通用两大赛道

报名已开启

「大规模拍卖中的自动出价」赛题总共分为两个赛道，分别是：

AIGB 赛道：利用生成式模型学习自动出价 Agent
通用赛道：含不确定性的自动出价

在 AIGB 赛道，参赛者需要思考如何针对长序列做精准的出价决策。前面提到，传统的强化学习方法在面对这一问题时会受到误差累积等因素的限制，性能表现受限，而广义的生成模型在这一任务上表现出了较大的潜力。因此，这个本赛道要求参赛者采用广泛的生成式模型，如 Diffusion Models、Transformers 等，来应对这一挑战。如果你有 Diffusion Models、Transformers、Foundation Models、大型语言模型（LLMs）及其他生成方法的研究或从业背景，可以考虑报名该赛道。

在通用赛道，参赛选手面临的挑战是在大规模拍卖中做出有效的出价决策，这需要有效地感知竞争对手策略的变化。真实世界中复杂的广告拍卖环境带来了额外的挑战，即不确定性。参与者必须考虑消费者到达的随机性、转化行为预测的方差、数据稀疏性及其他因素。如果你有强化学习、优化、机器学习、博弈论和数据科学的研究或从业背景，可以考虑报名该赛道。

参加本次比赛将带来众多收获。NeurIPS具有极高的国际影响力，在比赛中取得优异成绩，对于你的个人简历无疑是个加分项，将非常有助于未来的职业发展。此外，优胜者还有机会赢得6000美元的赛事奖金，以及阿里巴巴的实习机会、校招绿色通道以及访问学者资格。

本次比赛也将首次公开约5亿条博弈数据及相应的训练框架，如此大规模的博弈数据在业界非常少见。这对于决策智能、强化学习、博弈和生成式模型等领域的研究者和从业者来说，都是一次很好的实践和研究机会。

赛程安排和奖项设置如下：

AIGB赛道报名：https://tianchi.aliyun.com/competition/entrance/532236
General赛道报名：https://tianchi.aliyun.com/competition/entrance/532226

点击此链接，直达大赛官网。

产业阿里妈妈NeurIPS

相关数据

朱松纯人物

朱松纯是全球著名计算机视觉专家，统计与应用数学家、人工智能专家，现任美国加州大学洛杉矶分校 [UCLA] 统计系与计算机系教授，UCLA计算机视觉、认知、学习与自主机器人中心主任。

来源：https://baike.baidu.com/item/%E6%9C%B1%E6%9D%BE%E7%BA%AF 朱松纯

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

概率分布技术

概率分布（probability distribution）或简称分布，是概率论的一个概念。广义地，它指称随机变量的概率性质－－当我们说概率空间中的两个随机变量具有同样的分布（或同分布）时，我们是无法用概率来区别它们的。

来源：维基百科

数据科学技术

数据科学，又称资料科学，是一门利用数据学习知识的学科，其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术，包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

来源：维基百科

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度，其目的是进行资源的优化。常见的规划方法包括经典规划（Classical Planning）、分层任务网络（HTN）和 logistics 规划。

来源：机器之心

逻辑技术

人工智能领域用逻辑来理解智能推理问题；它可以提供用于分析编程语言的技术，也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑（Propositional Logic ）以及一阶逻辑（FOL）等谓词逻辑。

来源：机器之心

博弈论技术

博弈论，又译为对策论，或者赛局理论，应用数学的一个分支，1944年冯·诺伊曼与奥斯卡·摩根斯特恩合著《博弈论与经济行为》，标志着现代系统博弈理论的的初步形成，因此他被称为“博弈论之父”。博弈论被认为是20世纪经济学最伟大的成果之一

来源：维基百科

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。

来源：维基百科

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科

阿里巴巴机构

阿里巴巴网络技术有限公司（简称：阿里巴巴集团）是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。

https://www.alibabagroup.com/

机器之心机构

机器之心，成立于2014年，是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系，为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/