2019/01/27 12:14

聚焦强化学习，AAAI 2019杰出论文公布：CMU、斯坦福等上榜

2019 年首场 AI 顶会 AAAI 2019 即将开幕，本文介绍此届大会的获奖信息，包括：杰出论文奖、杰出学生论文奖、经典论文奖、蓝天理念奖、Feigenbaum 奖、杰出程序委员会成员等。

AAAI 2019，进入 2019 年后人工智能领域的首场顶会，将于明天正式拉开序幕；而今天正有无数学者跨越山川海洋，乘坐数十小时的飞机陆续抵达美国夏威夷首府檀香山。

正如大家所熟知，今年论文提交数量高达 7745 篇，创下了 AAAI 历史新高；而同时论文录取率仅有 16.2%，也创下 AAAI 的历史新低。但一成不变的是，AAAI 2019 将毫无疑问成为新年首场人工智能的盛宴，值得每一位 AI 研究人员瞩目关注。

目前 AAAI 2019 的各项奖项已全部公布，包括：杰出论文奖、杰出学生论文奖、经典论文奖、蓝天理念奖、Feigenbaum 奖、杰出程序委员会成员等。

杰出论文奖（Outstanding Paper）

今年 AAAI 的杰出论文同样比较关注强化学习，它们代表了高标准的技术贡献和阐述。

论文：How to Combine Tree-Search Methods in Reinforcement Learning
作者：Yonathan Efroni、Gal Dalal、Bruno Scherrer 和 Shie Mannor
机构：以色列理工学院、法国国家信息与自动化研究所
论文地址：https://arxiv.org/abs/1809.01843

杰出论文荣誉提名奖（Honorable Mention）

论文：Solving Imperfect-Information Games via Discounted Regret Minimization
作者：Noam Brown、Tuomas Sandholm
机构：卡内基·梅隆大学
论文地址：https://arxiv.org/abs/1809.04040

杰出学生论文奖

论文：Zero Shot Learning for Code Education: Rubric Sampling with Deep Learning Inference
作者：Mike Wu、Milan Mosse、Noah Goodman 和 Chris Piech
机构：斯坦福大学
论文地址：https://arxiv.org/abs/1809.01357

杰出学生论文荣誉提名奖

论文：Learning to Teach in Cooperative Multiagent Reinforcement Learning
作者：Shayegan Omidshafiei、Dong-Ki Kim、Miao Liu、Gerald Tesauro、Matthew Riemer、Christopher Amato、Murray Campbell 和 Jonathan P. How
机构：麻省理工学院、IBM 研究院、美国东北大学
论文地址：https://arxiv.org/abs/1805.07830

经典论文奖（Classic Paper）

今年的经典论文奖颁给了 2002 年提交到 AAAI 的优秀论文，该论文发现当时基于协同过滤和基于内容的推荐系统各有优缺点，因此他们提出了一种新的框架以结合两种方法来完成推荐任务。论文的获奖词为「为推荐系统中基于内容和协同过滤的方法提供互补性框架而获奖」。

论文：Content-Boosted Collaborative Filtering for Improved Recommendations
作者：Prem Melville、Raymond J. Mooney 和 Ramadass Nagarajan
机构：德克萨斯大学奥斯汀分校
论文地址：https://www.cs.utexas.edu/~ml/papers/cbcf-aaai-02.pdf

2019 年 Feigenbaum 奖

AAAI Feigenbaum 奖旨在表彰和鼓励通过计算机科学实验方法取得的杰出人工智能研究进展。2019 年的奖项授予加州大学伯克利分校的 Stuart Russell，以表彰他在概率知识表示、推理和学习上的创新与成就。

2019 年蓝天理念奖（Blue Sky Idea）

AAAI 与计算机研究协会计算社区协会（CCC）合作，从众多论文遴选出三篇提名为「蓝天奖」，这些论文提出了可以激发研究界寻求新方向的想法和愿景，例如新问题、新应用领域或新方法。包括：

第一名：Explainable, Normative, and Justified Agency（Pat Langley）
第二名：Building Ethically Bounded AI（Francesca Rossi、Nicholas Mattei）
第三名：Recommender Systems: A Healthy Obsession（Barry Smyth）

AAAI-19 杰出程序委员会成员

每年，AAAI 都会选出几位得到认可的杰出程序委员会成员，基于其在达成共识决策时表现出的判断力、清晰度、知识丰富度和领导力。

今年 AAAI 选出了 10 名获奖的程序委员会成员，其中来自华中科技大学的白翔被授予杰出高级程序委员会奖，来自南京航空航天大学的黄圣君被授予杰出委员会奖。

获奖论文简介

如下展示了四篇杰出论文和一篇经典论文的摘要，读者可以了解它们大致都描述并解决了什么问题。因为机器学习和深度学习常见的概念涉及得比较少，所以这几篇论文看起来就很「强大」，阅读这些论文可能还需要额外的背景知识。

论文：How to Combine Tree-Search Methods in Reinforcement Learning

摘要：有限时域前瞻策略（Finite-horizon lookahead policies）被大量用于强化学习，并得到了令人印象深刻的实证成果。通常，前瞻策略是使用特定的规划方法实现的，例如蒙特卡罗树搜索（例如在 AlphaZero 中）。这些实现中有一种合理的做法是将规划问题视为树搜索，其仅在叶节点处备份值，而在根节点下获取的信息不用于更新策略。在本文中，我们对这种方法的有效性提出质疑。即，后一个过程通常是非收缩的，并且其收敛性不能保证。

我们提出的增强方法是简单明了的：使用最佳树路径的返回值来备份根节点的后代的值。这导致了一个γ ^ h 收缩过程，其中γ是折扣因子（discount factor），h 是树深度。为了实现我们的结果，我们首先介绍一种称为多步贪婪一致性（multiple-step greedy consistency）的概念。然后，在存在树搜索阶段和值估计阶段的注入噪声的情况下，我们展示了上述增强方法的两个算法实例的收敛速率。

论文：Solving Imperfect-Information Games via Discounted Regret Minimization

摘要：反事实后悔最小化（Counterfactual regret minimization / CFR）是一系列迭代算法，是最受欢迎、也是实际上也是逼近解决大型不完美信息博弈的最快方法。在这篇论文中，我们介绍了一种新型 CFR 变体，它能：1) 以各种方式从早期迭代中贴现后悔值（regrets），且在某些情况下对于正后悔值和负后悔值是不同的；2) 以各种方式重新加权迭代而获得输出策略；3) 使用非标准后悔值最小化器；4) 利用「optimistic regret matching」。

这种变体能在许多环境中显著提升性能。首先，我们在每一个测试的博弈中引入一个优于 CFR+（先前最先进的算法）的变体，这些测试博弈还会包含大规模现实设定。其中 CFR+是一种强大的基准：还没有其他算法能够超越它。最后，我们表示很多重要的新变体与 CFR+不同，它们与现代不完美信息博弈的剪枝技术相兼容，并且还与博弈树中的采样相兼容。

论文：Zero Shot Learning for Code Education: Rubric Sampling with Deep Learning Inference

摘要：在现代计算机科学教育中，大规模开放在线课程（MOOCs）记录了数千小时关于学生如何解决编码挑战赛的数据。由于数据非常丰富，这些平台已经引起了机器学习社区的兴趣，许多新算法试图自主地提供反馈以帮助之后的学生学习。但那些之前的数十万学生呢？在大多数教育环境（即教室）中，作业没有足够的历史数据用于监督学习。在本文中，我们介绍了一种人机环路（human-in-the-loop）的「量规采样/rubric sampling」方法，以解决「零样本」反馈挑战。

我们能够为第一批做入门编程作业的学生提供自主反馈，其准确性大大优于 data-hungry 的算法，并接近人类的保真度。量规采样只需要很少的教师工作量，可以将反馈与学生解决方案的特定部分相关联，并能够用教师的语言表达学生的错误观念。深度学习推断使得量规采样能够在获得更多任务特定的学生数据时进一步提高。我们在世界上最大的编程教育平台 Code.org 的新数据集上展示了我们的结果。

论文：Learning to Teach in Cooperative Multiagent Reinforcement Learning

摘要：人类集体知识显然得益于个人创新能通过交流传授给他人。与人类社会群体类似，分布式学习系统中的智能体可能会从沟通中受益，它们可以分享知识和教授技能。先前的工作已经研究了改进智能体学习的教学问题，但是这些方法做出的假设阻碍了将教学方法应用于一般的多智能体问题，或者需要领域专业知识来解决应用的问题。这种学习教学问题具有与度量教学的长期影响相关的固有复杂性，加剧了标准的多智能体协调挑战。

与现有工作相比，本文提出了智能体在多智能体环境中学习教学的第一个通用框架和算法。我们的算法，学习协调和教学强化（Learning to Coordinate and Teach Reinforcement，LeCTR），解决了合作多智能体强化学习中的点对点教学。我们的方法中的每个智能体都会学习何时何地提供建议，然后使用收到的建议来改善本地学习。重要的是，这些角色并不是固定的；这些智能体学会在适当的时刻承担学生和/或教师的角色，请求并提供建议，以提高整个团队的绩效和学习。对最先进教学方法的实证比较表明，我们的教学智能体不仅学得更快，而且学会协调现有方法失败的任务。

论文：Content-Boosted Collaborative Filtering for Improved Recommendations

摘要：大多数推荐系统使用协作过滤或基于内容的方法来预测用户感兴趣的新项目。虽然这两种方法各有优势，但若单独使用它们，在大多数情况下都无法提供好的建议。若将两种方法结合起来构成一个混合推荐系统，则可以克服这些缺点。在本文中，我们提出了一个漂亮且有效的框架，用于结合内容和协作。我们的方法使用了基于内容的预测器来增强现有用户的数据，然后通过协作过滤提供个性化建议。我们的实验结果显示这种方法（内容增强的协作过滤）比纯内容预测器、纯协作过滤器或简单混合方法的性能都要更好。

最后，值得一提的是，本届大会程序主席由南京大学周志华教授联合担任；此外香港科技大学的杨强教授以及京东集团的郑宇博士将作为特邀讲者在大会期间做特邀报告。机器之心将持续关注 AAAI 2019，为大家带来精彩的内容报道。

理论强化学习AAAI 2019推荐系统分布式计算获奖论文

相关技术

感知

周志华人物

周志华分别于1996年6月、1998年6月和2000年12月于南京大学计算机科学与技术系获学士、硕士和博士学位。主要从事人工智能、机器学习、数据挖掘等领域的研究工作。主持多项科研课题，出版《机器学习》(2016)与《Ensemble Methods: Foundations and Algorithms》(2012)，在一流国际期刊和顶级国际会议发表论文百余篇，被引用三万余次。

来源：个人页面 Zhou, Z.

杨强人物

杨强现任香港科技大学新明工程学讲席教授、计算机科学和工程学系主任，大数据研究所所长。他是人工智能研究的国际专家和领军人物，在学术界和工业界做出了杰出的服务和贡献，尤其近些年为中国人工智能(AI)和数据挖掘(KDD)的发展起了重要引导和推动作用。

来源：百度百科 Yang, Q.

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

AlphaZero技术

DeepMind 提出的 AlphaZero 不仅征服了围棋，也在将棋、国际象棋等复杂游戏中实现了超越人类的表现。DeepMind 推出的 AlphaGo 曾在围棋项目中取得了超越人类的表现，其研究曾经两次登上 Nature。2018 年 12 月，AlphaGo 的「完全自我博弈加强版」AlphaZero 的论文又登上另一大顶级期刊 Science 的封面。在论文中，AlphaZero 不仅征服了围棋，也在将棋、国际象棋等复杂游戏中实现了超越人类的表现。

来源：机器之心

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

协同过滤技术

协同过滤（英语：Collaborative Filtering），简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息，个人通过合作的机制给予信息相当程度的回应（如评分）并记录下来以达到过滤的目的进而帮助别人筛选信息，回应不一定局限于特别感兴趣的，特别不感兴趣信息的纪录也相当重要。协同过滤又可分为评比（rating）或者群体过滤（social filtering）。其后成为电子商务当中很重要的一环，即根据某顾客以往的购买行为以及从具有相似购买行为的顾客群的购买行为去推荐这个顾客其“可能喜欢的品项”，也就是借由社区的喜好提供个人化的信息、商品等的推荐服务。除了推荐之外，近年来也发展出数学运算让系统自动计算喜好的强弱进而去芜存菁使得过滤的内容更有依据，也许不是百分之百完全准确，但由于加入了强弱的评比让这个概念的应用更为广泛，除了电子商务之外尚有信息检索领域、网络个人影音柜、个人书架等的应用等。

来源：维基百科

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

剪枝技术

剪枝顾名思义，就是删去一些不重要的节点，来减小计算或搜索的复杂度。剪枝在很多算法中都有很好的应用，如：决策树，神经网络，搜索算法,数据库的设计等。在决策树和神经网络中，剪枝可以有效缓解过拟合问题并减小计算复杂度；在搜索算法中，可以减小搜索范围，提高搜索效率。

来源：Wikipedia

收敛技术

在数学，计算机科学和逻辑学中，收敛指的是不同的变换序列在有限的时间内达到一个结论（变换终止），并且得出的结论是独立于达到它的路径（他们是融合的）。通俗来说，收敛通常是指在训练期间达到的一种状态，即经过一定次数的迭代之后，训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说，如果采用当前数据进行额外的训练将无法改进模型，模型即达到收敛状态。在深度学习中，损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变，暂时形成收敛的假象。

来源：Wikipedia Google ML glossary

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度，其目的是进行资源的优化。常见的规划方法包括经典规划（Classical Planning）、分层任务网络（HTN）和 logistics 规划。

来源：机器之心

博弈树技术

游戏树（game tree）是指组合博弈理论中用来表达一个赛局中各种后续可能性的树，一个完整的游戏树（complete game tree）会有一个起始节点，代表赛局中某一个情形，接着下一层的子节点是原来父节点赛局下一步的各种可能性，依照这规则扩展直到赛局结束。游戏树相同于扩展形式的博弈理论中的树。游戏树中形成的叶节点代表各种游戏结束的可能情形，例如井字游戏会有26,830个叶节点。

来源：维基百科

蒙特卡罗树搜索技术

蒙特卡洛树搜索（英语：Monte Carlo tree search；简称：MCTS）是一种用于某些决策过程的启发式搜索算法，最引人注目的是在游戏中的使用。一个主要例子是电脑围棋程序，它也用于其他棋盘游戏、即时电子游戏以及不确定性游戏。

来源：维基百科

推荐系统技术

推荐系统（RS）主要是指应用协同智能（collaborative intelligence）做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤（Collaborative Filtering）。另外还有基于知识的推荐系统（包括基于本体和基于案例的推荐系统）是一类特殊的推荐系统，这类系统更加注重知识表征和推理。

来源：机器之心

监督学习技术

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

来源：Wikipedia

基于内容的推荐系统技术

基于内容推荐系统是主要的推荐系统类型之一，其推荐功能是基于对内容的描述和用户偏好信息。它尝试推荐给用户的内容是跟用户过去喜欢的内容的相似度相关联的。因此，推荐的内容就是通过找到与用户历史偏好内容最匹配的内容。基于内容推荐系统主要包括三部分内容: 内容分析(Content Analyzer): 通过从无结构化的数据提取，整合一些特征来结构化数据。（如词在关于电影的数据中将每一个电影作为向量表示）；Profile Learning（用户信息学习），通过对用户历史偏好的内容向量以加权的方式来表示用户的信息。一般通过使用机器学习模型（如贝叶斯分类器，神经网络等）推断用户对潜在的新内容的偏好概率；Filtering Component（过滤组件），通过匹配用户信息与推荐的item属性。

来源：Content-based Recommendation Systems

完美信息博弈技术

在经济学中，完全的信息是完美竞争的特征。随着市场信息的完善，所有消费者和生产者都被假定在对自由市场体系进行理论化和财务政策效应时，对产品的价格，效用，质量和生产方法有完整的认识。

来源：Wikipedia

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

京东机构

京东（股票代码：JD），中国自营式电商企业，创始人刘强东担任京东集团董事局主席兼首席执行官。旗下设有京东零售、京东物流、京东科技子集团、印尼&泰国海外合资跨境电商等核心业务。2013年正式获得虚拟运营商牌照。2014年5月在美国纳斯达克证券交易所正式挂牌上市。 2016年6月与沃尔玛达成深度战略合作。

https://www.jd.com