Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

编辑维度 陈萍 小舟

ICLR 2021杰出论文公布:清华、上财校友一作获奖

ICLR 2021 距正式召开还有一个月的时间,今日公布了八篇杰出论文,主题涵盖复杂查询应答、图网络网格模拟以及基于随机微分方程的分数生成式建模等。此外,这八篇杰出论文中也有多位华人学者的参与。

机器学习顶会 ICLR 2021 将于当地时间 5 月 3 日至 7 日线上举行。1 月份,ICLR 2021 放出了本届会议的论文接收结果:在 2997 篇有效投稿中,共有 860 篇论文被接收,其中 53 篇 Oral,114 篇 Spotlight,其余为 Poster。

本届 ICLR 会议的接收率为 29%,相较 2020 年的 26.5% 有所提升。另外,值得关注的是,不同于 2020 年的 30 余篇满分论文,本届会议只有 15 篇论文获得了平均 8 分及以上的分数,也没出现「满分论文」。

今日,ICLR 2021 官方从 860 篇接收论文中挑选出了八篇杰出论文,研究主题涵盖利用神经链接预测器的复杂查询应答、通过图网络学习网格模拟、将主成分分析视作纳什均衡问题以及基于随机微分方程(SDE)的分数生成式建模等。

此外,在八篇杰出论文中,有多位华人学者的参与,其中一篇《Rethinking Architecture Selection in Differentiable NAS》的一作 Ruochen Wang 曾就读于上海财经大学,另一篇《Score-Based Generative Modeling through Stochastic Differential Equations 》的一作宋飏(Yang Song)本科毕业于清华大学,还曾是清华计算机科学系朱军教授的学生。

ICLR 2021 八篇杰出论文

论文 1:Beyond Fully-Connected Layers with Quaternions: Parameterization of Hypercomplex Multiplications with 1/n Parameters

  • 作者:Aston Zhang、Yi Tay、Shuai Zhang、Alvin Chan、Anh Tuan Luu、Siu Hui、Jie Fu

  • 机构:AWS AI、Google Research 等

  • 论文链接:https://openreview.net/pdf?id=rcQdycl0zyk


摘要:近来一些研究显示出超复杂空间中表征学习的成功。具体来说:带有四元数的全连接层(四元数是指 4D 超复数),其中用四元数的汉密尔顿积代替了全连接层中的实值矩阵乘法,这种方法节省了参数,只有 1/4 的可学习参数,在各种应用中实现了可与之前的方法媲美的性能。但是,这种超复杂空间只以几种预定义维度(4D、8D 和 16D)存在。这限制了利用超复杂乘法的模型的灵活性。为此,该研究提出了一种对超参数乘法进行参数化的方法,使得模型能够从数据中学习乘法规则,而无需考虑此类规则是否预先定义。结果,该方法不仅包含汉密尔顿积,而且还学会了在任意 nD 的超复杂空间上运行。与全连接层的对应对象相比,使用任意 1/n 可学习参数可以提供给更大的架构灵活性。在自然语言推理、机器翻译、文本样式迁移和主谓词一致方面对 LSTM 和 transformer 模型进行应用的实验验证了该方法的架构灵活性和有效性。

一作 Aston Zhang 为《动手学深度学习》的作者之一,博士毕业于 UIUC,现为亚马逊高级科学家。


论文 2:Complex Query Answering with Neural Link Predictors

  • 作者:Erik Arakelyan、 Daniel Daza、Pasquale Minervini、 Michael Cochez

  • 机构:伦敦大学等

  • 论文链接:https://openreview.net/pdf?id=Mos9F9kDwkz


摘要:神经链接预测器对于识别大规模知识图谱中的缺失边非常有用。但是对于回答多个域中出现的更复杂查询,如何使用这些模型尚不清楚,例如使用逻辑合取 (∧)、析取 (∨) 、存在(∃) 的查询,同时还要考虑缺失的边。该研究提出了一种框架,可以有效地回答不完整的知识图谱上的复杂查询。该方法将每个查询转换为端到端可微目标,其中每个原子的真值由预训练的神经链接预测器计算。研究者进一步分析了优化问题的两种解决方案,包括基于梯度的搜索和组合搜索。该研究的实验表明,该方法比 SOTA 方法的准确率更高,而且无需在大型复杂查询集上训练。使用少了几个数量级的训练数据,该研究在包含实际信息的几种知识图谱中将 Hits@3 从 8% 提升到 40%。最后,该研究解释了该模型用于每个复杂查询原子的中间解决方案所得的结果都是可解释的。

论文 3:EigenGame: PCA as a Nash Equilibrium

  • 作者:Ian Gemp、 Brian McWilliams、Claire Vernade、Thore Graepel

  • 机构:DeepMind

  • 论文链接:https://openreview.net/pdf?id=NzTU59SYbNq


摘要:该研究提出了一种新颖的观点,将主成分分析(principal component analysis, PCA)看作竞争性游戏,其中每个近似本征向量由一个玩家控制,其目的是最大化效用函数。研究者分析了 PCA 游戏的特性以及基于梯度更新的行为,并提出了一种将 Oja 规则中的元素与泛化 Gram-Schmidt 正交化结合起来的算法,该算法通过消息传递实现了分散化与并行化。最后,该算法的可扩展性在大型图像数据集和神经网络激活的实验中获得了验证。

分散式算法 1 和 2。

论文 4:Learning Mesh-Based Simulation with Graph Networks

  • 作者:Tobias Pfaff、Meire Fortunato、Alvaro Sanchez-Gonzalez、Peter W. Battaglia

  • 机构:DeepMind

  • 论文链接:https://openreview.net/pdf?id=roNqYL0_XP


摘要:该研究提出了一个使用图神经网络来学习网格模拟的模型 MeshGraphNets。通过训练,该模型可以在网格图上传递信息,并在前向模拟过程中适应网格离散化。实验表明,该模型可以准确地预测各种物理系统的动力学,包括有空气动力学、结构动力学等。该模型的自适应性使其可以学习与分辨率无关的动力学,并能在测试时扩展至更复杂的状态空间。该研究提出的方法扩展了神经网络模拟器可以解决的问题范围,并有望提升复杂科学建模任务的效率。

MeshGraphNets 在球体动力学(SphereDymanic)中的运行演示图。

论文 5:Neural Synthesis of Binaural Speech from Mono Audio

  • 作者:Alexander Richard、Dejan Markovic、Israel D. Gebru、 Steven Krenn、 Gladstone Alexander Butler、 Fernando Torre、 Yaser Sheikh

  • 机构:Facebook Reality Labs 、Pittsburgh

  • 论文链接:https://openreview.net/forum?id=uAX8q61EVRu


摘要:该研究提出了一种用于双声道声音(binaural sound)合成的神经渲染方法,该方法可以实时产生逼真且空间准确的双声道声音。该网络以单通道音频源作为输入进行合成,根据听者相对于声源的相对位置和方向,合成两通道双声道声音作为输出。研究人员在理论上研究了 l2-loss 对原始波形的影响,并引入了一种改进的损失,克服了这些限制。在经验评估中,证实该研究提出的方法是首个产生空间准确的波形输出(由真实记录测量),无论在定量和感知研究中,优于现有的方法。

论文 6:Optimal Rates for Averaged Stochastic Gradient Descent under Neural Tangent Kernel Regime

  • 作者:Atsushi Nitanda、 Taiji Suzuki

  • 机构:东京大学信息科学与技术研究生院等

  • 论文链接:https://openreview.net/pdf?id=PULSD5qI2N1


摘要:该研究分析了用于回归问题的超参数两层神经网络的平均随机梯度下降的收敛性。研究发现,神经正切核 (NTK)在基于梯度方法的全局收敛性方面起着重要作用。然而,在 NTK 机制下,仍有收敛速度分析的空间。该研究证明了通过利用目标函数和与 NTK 相关的 RKHS 的复杂性,平均随机梯度下降可以达到 minimax 最优收敛速度,并且具有全局收敛保证。

此外,该研究还证明了在一定条件下,通过对 ReLU 网络的平滑逼近,可以以最优的收敛速度学习由 ReLU 网络的 NTK 指定的目标函数。

论文 7:Rethinking Architecture Selection in Differentiable NAS

  • 作者:Ruochen Wang、 Minhao Cheng、 Xiangning Chen、 Xiaocheng Tang、Cho-Jui Hsieh

  • 机构:加州大学洛杉矶分校计算机科学系、DiDi AI 实验室

  • 论文链接:https://openreview.net/pdf?id=PKubaeJkw3


摘要:可微神经架构搜索( (NAS))是目前最流行的神经架构搜索方法之一,具有搜索效率高、搜索简单等优点,这种方法通过基于梯度的算法在权重共享的 supernet 中联合优化模型权重和架构参数来实现。虽然关于 supernet 优化的讨论很多,但架构选择过程却很少受到关注。该研究根据实验和理论分析表明,架构参数的多少并不代表对 supernet 性能的贡献。

该研究提出了一种基于扰动的架构选择的替代方案,它可以直接测量每个操作对 supernet 的影响。该研究用提出的架构选择重新评估了几种可微 NAS 方法,并发现它能够从底层 supernet 中连续提取显著改进的架构。此外,研究发现,该研究所提出的选择方法可以大大改善 DART 的几种失效模式,这表明 DART 中观察到的泛化能力差的大部分原因是基于量级的架构选择失败,而不是 supernet 的完全优化问题。

论文一作 Ruochen Wang 曾就读于上海财经大学,现为 UCLA 计算机科学硕士。

论文 8:Score-Based Generative Modeling through Stochastic Differential Equations

  • 作者:Yang Song、Jascha Sohl-Dickstein、Diederik P. Kingma、Abhishek Kumar、Stefano Ermon、Ben Poole

  • 机构:斯坦福大学、谷歌大脑

  • 论文链接:https://openreview.net/pdf?id=PxTIG12RRHS


摘要:该研究主要介绍了基于随机微分方程(SDE)的分数生成式建模。具体地,研究者提出了一个通过缓慢注入噪声来平滑地将复杂数据分布转化为已知先验分布的随机微分方程,以及通过缓慢地去除噪声来将先验分布转化回数据分布的逆时 SDE。非常重要的一点是,逆时 SDE 只依赖于扰动数据分布随时间变化的梯度场。通过利用分数生成式建模的进展,该方法可以准确地通过神经网络估计分数,并使用数值 SDE 求解器来生成样本。此外,研究者引入了预测器 - 纠正器框架来纠正离散逆时 SDE 演化中出现的误差,推导出了从与 SDE 相同的分布中采样的等价神经常微分方程(ODE),从而使得精确的似然计算成为可能,并提升了采样效率。

论文一作宋飏(Yang Song)本科毕业于清华大学,现为斯坦福大学计算机科学系博士生。
理论DeepMind机器学习ICLR
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
朱军人物

朱军,清华大学计算机系长聘副教授、卡内基梅隆大学兼职教授。2001 到 2009 年获清华大学计算机学士和博士学位,之后在卡内基梅隆大学做博士后,2011 年回清华任教。主要从事人工智能基础理论、高效算法及相关应用研究,在国际重要期刊与会议发表学术论文百余篇。担任人工智能顶级杂志 IEEE TPAMI 和 AI 的编委、《自动化学报》编委,担任机器学习国际大会 ICML2014 地区联合主席, ICML (2014-2018)、NIPS (2013, 2015, 2018)、UAI (2014-2018)、IJCAI(2015,2017)、AAAI(2016-2018)等国际会议的领域主席。获 CCF 自然科学一等奖、CCF 青年科学家奖、国家优秀青年基金、中创软件人才奖、北京市优秀青年人才奖等,入选国家「万人计划」青年拔尖人才、MIT TR35 中国区先锋者、IEEE Intelligent Systems 杂志评选的「AI's 10 to Watch」(人工智能青年十杰)、及清华大学 221 基础研究人才计划。

随机梯度下降技术

梯度下降(Gradient Descent)是遵循成本函数的梯度来最小化一个函数的过程。这个过程涉及到对成本形式以及其衍生形式的认知,使得我们可以从已知的给定点朝既定方向移动。比如向下朝最小值移动。 在机器学习中,我们可以利用随机梯度下降的方法来最小化训练模型中的误差,即每次迭代时完成一次评估和更新。 这种优化算法的工作原理是模型每看到一个训练实例,就对其作出预测,并重复迭代该过程到一定的次数。这个流程可以用于找出能导致训练数据最小误差的模型的系数。

自然语言推理技术

自然语言推理是在给定“前提”的情况下确定“假设”是真(蕴涵),假(矛盾)还是未确定(中立)的任务。

图网络技术

2018年6月,由 DeepMind、谷歌大脑、MIT 和爱丁堡大学等公司和机构的 27 位科学家共同提交了论文《Relational inductive biases, deep learning, and graph networks》,该研究提出了一个基于关系归纳偏置的 AI 概念:图网络(Graph Networks)。研究人员称,该方法推广并扩展了各种神经网络方法,并为操作结构化知识和生成结构化行为提供了新的思路。

暂无评论
暂无评论~