11月6日,AAAI 和 ACM SIGAI 联合发布了首个博士学位论文奖。麻省理工学院博士吴佳俊获得了 2019 年 AAAI / ACM SIGAI 博士论文奖。另外还有两位博士获得了 runners-Up 奖项,分别是毕业于佐治亚理工学院的 Aishwarya Agrawal 和毕业于爱丁堡大学的董力。
AAAI / ACM SIGAI 博士学位论文奖由 AAAI 和 ACM SIGAI 联合设立,以表彰和鼓励人工智能领域的博士生的出色研究和论文,提名者必须是 ACM SIGAI 成员和/或 AAAI 成员。该奖项将每年在 AAAI 上颁发,获奖者将被邀请在大会上发表演讲。
一篇论文,三项荣誉
吴佳俊的获奖论文是“Learning to See the Physical World”,此前,该论文还获得 2019 ACM 博士论文荣誉提名奖。
今年7月,一年一度的 ACM 博士论文奖发布,毕业于特拉维夫大学的 Dor Minzer 获得该奖项。吴佳俊和瑞士洛桑联邦理工学院(EPFL)博士 Jakub Tarnawski 获得荣誉提名奖。
相关链接:https://awards.acm.org/about/2019-doctoral-dissertation
吴佳俊获奖论文:Learning to See the Physical World
论文地址:https://jiajunwu.com/papers/dissertation.pdf
论文摘要:
人类的智慧超越是模式识别的,我们可以从一张图像中解释所看到的内容,以 3D 形式重建场景,预测将要发生的事情并相应地计划行动。
尽管在过去十年中人工智能取得了惊人的发展,但与人类智能相比,人工智能(尤其是深度学习)在某些方面仍然不足:它们通常只能解决特定问题,需要大量的训练数据,并且在泛化至新任务或新环境时很容易失败。
在这篇论文中,我们研究了物理场景理解的问题:构建通用的、数据高效的、可通用的机器,学习如何观察、推理和与物理世界交互。
其核心思想是以逼近模拟引擎的形式,利用真实世界背后的通用因果结构,包括来自计算机图形学、物理学和语言的知识,并将其与深度学习相集成。在这里,学习起着多方面的作用:模型可以学习反转模拟引擎以进行有效的推理;它们还可以学习逼近或增强模拟引擎,以进行更强大的前向模拟。
本文分为三个部分,分别研究了这种混合模型在感知、动力学建模和认知推理中的应用。
在第一部分中,我们将学习与图形引擎结合使用,以建立对象中心的场景表示形式,以实现对象的形状、姿态和纹理。
在第二部分中,除了图形引擎之外,我们还将学习与物理引擎配对以同时推断物理对象属性。我们还将探索学习逼近模拟引擎,以提高灵活性和表达能力。
在第三部分中,我们通过循环程序执行引擎来利用和扩展在第一部分和第二部分中引入的模型,以进行概念发现和认知推理。增强的模型可以发现对象和场景中的程序式结构,然后将其用于下游任务,例如视觉问答和场景处理。
值得一提的是,这篇论文还获得了麻省理工学院 George M. Sprowls 人工智能和决策博士学位论文奖。
姚班学霸
吴佳俊本科毕业于清华姚班,然后在 MIT 相继获得硕士和博士学位,现在是斯坦福大学计算机科学系的助理教授,并且隶属于斯坦福视觉与学习实验室(SVL)和斯坦福AI实验室(SAIL)。
吴佳俊个人主页:https://jiajunwu.com/
他的博士生导师是麻省理工学院认知科学与计算教授 Josh Tenenbaum,Josh Tenenbaum 以对数学心理学和贝叶斯认知科学的贡献而闻名。加入斯坦福大学之前,吴佳俊还曾当过 Google Research 的访问学者。
他的研究兴趣包括机器感知、推理及其与物理世界的相互作用,认为AI研究应该从人类认知中汲取灵感。他目前已经有多篇论文被 CVPR、ICLR、ICML、NeurIPS 等AI顶会接收。据 Google Scholar 数据显示,被引用数超过 5000。
他目前已经发表 81 篇论文,还曾被列入 ICLR 2019 最高产论文作者之一,其学术能力可谓既优质又高产。
吴佳俊是清华叉院 2010 级本科生,后来入选姚班。他在本科期间曾连续三年学分绩全年级第一,获得过清华特奖,以及蒋南翔奖学金和姚期智奖学金,是学霸无疑了。
runners-Up 获奖论文
两篇 runners-Up 博士论文奖由毕业于佐治亚理工学院的 Aishwarya Agrawal 和毕业于爱丁堡大学的董力获得。
Aishwarya Agrawal 获奖论文:Visual Question Answering and Beyond
论文地址:https://smartech.gatech.edu/handle/1853/62277
论文摘要:
在本文中,我提出并研究了一种多模态人工智能(AI)任务,即视觉问答(VQA)。给定图像和关于图像的自然语言问题(例如,“这是一家什么样的商店?” ,机器的任务是自动产生准确的自然语言答案(“面包店”)。
VQA 的应用包括:帮助视力障碍的用户了解周围环境,帮助分析人员检查大量监视数据,通过交互式演示进行教学,让人类与 AI 助手进行交互,以及使可视化社交媒体内容更易于访问。
具体来说,我研究以下内容:
1)如何创建大规模数据集,并为自由形式和开放式 VQA 定义评估指标;
2)如何开发表征 VQA 模型行为的技术;
3)如何通过提出建议来构建 VQA 模型,使得模型较少受训练数据中的语言偏见驱动,而在视觉上更具基础。建议包括一种新的评估协议、一种新的模型架构、一种新颖的目标函数。
我过去的大部分工作都是致力于建立可以“看到”和“交谈”的智能体。但是,对于许多实际应用(例如,物理智能体在房屋中导航以执行自然语言命令),我们需要的智能体不仅需要“看到”和“交谈”,还需要采取行动。在第 6 章中,我介绍了将视觉和语言智能体泛化为能够采取行动的未来方向。
Aishwarya Agrawal个人主页:https://www.cc.gatech.edu/~aagrawal307/
Aishwarya Agrawal 现在是 DeepMind 的一名研究科学家,研究兴趣是计算机视觉、深度学习和自然语言处理的交叉领域。
“Visual Question Answering and Beyond”还曾获佐治亚理工学院 2020 Sigma Xi 最佳博士论文奖和佐治亚理工学院 2020 计算机学院论文奖。
董力获奖论文:Learning Natural Language Interfaces with Neural Models
论文地址:https://era.ed.ac.uk/handle/1842/35587
论文摘要:
语言是人类交流的主要和最自然的手段。如果我们可以使用人类语言与机器对话,与各种设备和服务(例如,数字助理和智能设备)进行交互将变得更加方便。
但是,在大多数情况下,计算机只能解释和执行形式语言。在本文中,我们专注于使用神经模型来构建自然语言接口,从而学习将自然措辞的表达映射到机器可解释的表示上。
由于(1)自然语言和形式语言之间的结构不匹配,(2)输出表示需要正确的格式,(3)缺乏不确定性信息和可解释性,以及(4)语言变化的模型覆盖面,因此该任务具有挑战性。
在本文中,我们开发了几种灵活的神经架构来应对这些挑战。我们针对自然语言接口提出了一种基于注意力增强的编码器-解码器神经网络的模型。
除了序列建模之外,我们还提出了一种树解码器,以利用含义表示的组成性质和格式正确性,以自顶向下的方式递归地生成层次结构。
为了对不同粒度级别的含义进行建模,我们提出了一种结构感知的神经架构,该结构按照从粗到精的过程解码语义表示。
我们所提出的神经模型仍然难以解释,在大多数情况下是黑盒。我们探索了估计和解释模型对其预测的信心的方法,认为该模型可以为用户提供有关不确定输出的即时且有意义的反馈。
我们估计了表明模型预测是否正确的置信度得分。此外,我们确定输入的哪些部分会导致不确定的预测,从而允许用户解释其模型。
模型覆盖是导致自然语言接口不确定的主要原因之一。因此,我们开发了一个通用框架来处理自然语言表达相同信息需求的多种不同方式。
我们利用外部资源为输入生成适当的释义,然后将其提供给神经释义评分模型,该模型将较高的权重分配给最有可能产生正确答案的语言表达。使用目标任务提供的监督信号对模型组件进行端到端训练。
实验结果表明,我们所提出的神经模型可以轻松地跨任务迁移。此外,可以通过考虑输出格式正确性、置信度建模和改善模型覆盖范围来增强自然语言接口的鲁棒性。
董力个人主页:http://dong.li/
董力本科毕业于北京航空航天大学计算机学院,博士毕业于英国爱丁堡大学,目前是微软亚洲研究院自然语言计算组高级研究员,研究兴趣是结构化数据与文本之间的转换。他曾获 2015 年微软亚研奖学金和 ACL 2018 最佳论文荣誉提名奖。
参考链接:
https://sigai.acm.org/awards/doctoral_dissertation_award.html