Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部报道

十年前,AlexNet就预定了今天的NeurIPS 2022时间检验奖

距离会议召开还有一周的时间,NeurIPS 2022 官方公布了各类奖项的获奖论文。

作为当前全球最负盛名的 AI 学术会议之一,NeurIPS 是每年学界的重要事件,通常在每年 12 月举办。大会讨论的内容包含深度学习计算机视觉、大规模机器学习、学习理论、优化、稀疏理论等众多细分领域。

今年 NeurIPS 已是第 36 届,将于 11 月 28 日至 12 月 9 日举行,为期两周。第一周将在美国新奥尔良 Ernest N. Morial 会议中心举行现场会议,第二周改为线上会议。今年 NeurIPS 官方收到了 10411 篇论文投稿,其中 2672 篇获接收,接收率为 25.6%

图片

今日,大会公布了各类奖项,包括 Main Track 杰出论文奖、数据集和基准 Track 杰出论文奖以及时间检验奖。其中,Main Track 杰出论文奖共授予 13 篇论文,数据集和基准 Track 杰出论文奖授予了 2 篇论文,时间检验奖授予了大名鼎鼎的 AlexNet 论文。

Main Track 杰出论文

论文 1:Is Out-of-Distribution Detection Learnable?

  • 机构:悉尼科技大学、威斯康星大学麦迪逊分校等
  • 作者:Zhen Fang、Yixuan Li、Jie Lu、 Jiahua Dong、Bo Han、Feng Liu
  • 论文地址:https://openreview.net/forum?id=sde_7ZzGXOE

获奖理由:这项工作提供了分布外 (OOD) 检测的理论研究,重点关注此类模型可学习的条件。该工作使用 PAC(probably approximately correct)学习理论表明 OOD 检测模型仅在数据分布空间和预测模型空间的某些条件下是 PAC 可学习的。该研究还提供了 3 个具体的不可能定理,可以用来确定 OOD 检测在实际环境中的可行性,为现有的 OOD 检测方法提供了理论基础。这项工作还提出了新的理论问题,例如关于 near-OOD 检测的可学习性。该研究将在 OOD 检测这个重要的研究领域产生广泛的理论和实践影响。

论文 2:Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

  • 机构:谷歌研究院
  • 作者:Chitwan Saharia、William Chan、Saurabh Saxena等
  • 论文地址:https://openreview.net/forum?id=08Yk-n5l2Al

获奖理由:基于扩散过程的高质量图像生成模型已在机器学习领域产生巨大的影响。该研究代表了此类模型的 SOTA 水平之一,并创新性地展示了独立训练的大型语言模型与大规模图像解码器的有效结合。这种实用的解耦很可能成为大规模文本到图像模型的主导范例。该研究的成果令人印象深刻。

论文 3:Elucidating the Design Space of Diffusion-Based Generative Models

  • 机构:NVIDIA
  • 作者:Tero Karras、Miika Aittala、Timo Aila、Samuli Laine
  • 论文地址:https://openreview.net/forum?id=k7FuTOWMOc7

获奖理由:这篇论文通过调查思考,将先前的研究组织成一个连贯的共同框架,以促成新的建模改进,这是该研究的研究方法。该研究的重点是包含某种形式扩散过程的图像生成模型,尽管训练此类模型存在困难,但这种模型最近变得非常流行。这篇论文对基于扩散过程的模型的理解和实现做出了重要贡献。

论文 4:ProcTHOR: Large-Scale Embodied AI Using Procedural Generation

  • 机构:艾伦人工智能研究院、华盛顿大学
  • 作者:Matt Deitke、Eli VanderBilt、Alvaro Herrasti等
  • 论文地址:https://openreview.net/forum?id=4-bV1bi74M

获奖理由:这项工作提出了一种新框架,用于在大量数据上训练具体的 AI 智能体,为这些智能体创造从扩展中受益的潜力,类似于语言和图像生成模型。该框架的核心是一个引擎,用于构建程序生成的、支持物理的环境,智能体可以与环境交互。该引擎与大量数据和环境控制相结合,可以生成大量不同的环境组合。研究者证明该框架可用于为多个具体 AI 任务训练 SOTA 模型。此外,该研究已将框架和代码开源。

论文 5:Using natural language and program abstractions to instill human inductive biases in machines

  • 机构:普林斯顿大学神经科学研究所、DeepMind
  • 作者:Sreejan Kumar、Carlos G. Correa、Ishita Dasgupta等
  • 论文地址:https://openreview.net/forum?id=buXZ7nIqiwE

获奖理由:该研究表明程序抽象(program abstraction)和自然语言的共同训练可以将人类偏见纳入机器的学习过程。研究者提出了一种结合人类偏见的 clean 方法,该方法对程序抽象也很稳健。

论文 6:A Neural Corpus Indexer for Document Retrieval

  • 机构:微软、清华大学
  • 作者:Yujing Wang、Yingyan Hou、Haonan Wang等
  • 论文地址:https://openreview.net/forum?id=fSfcEYQP_qc

获奖理由:这项工作提出了一种神经索引器,它将查询作为输入,并通过解码器结合集束搜索(beam search)输出与索引中相关文档对应的 ID 列表。这种新方法加入了一个小型但不断增长的研究系列,这种新范例允许使用标准深度学习算法和框架对目标应用程序的索引器进行基于梯度的优化。该研究提出的方法引入了架构和训练选择,与之前的工作相比,这些选择带来了显著改进。该研究阐明了神经索引器的广泛应用前景。

论文 7:High-dimensional limit theorems for SGD: Effective dynamics and critical scaling

  • 作者:Gerard Ben Arous、Reza Gheissari、Aukosh Jagannath
  • 论文地址:https://arxiv.org/pdf/2206.04030.pdf

获奖理由:本文研究了对 SGD 的扩展极限。它展示了如果 step 很大,SGD 可以有多复杂。该研究还描述了 SDE 的性质,并将其与 step 较小时的 ODE 进行比较,以深入了解非凸优化情况。

论文 8:Gradient Descent: The Ultimate Optimizer

  • 机构:MIT CSAIL、Meta
  • 作者:Kartik Chandra、Audrey Xie、Jonathan Ragan-Kelley等
  • 论文地址:https://openreview.net/pdf?id=-Qp-3L-5ZdI

获奖理由:本文通过开发一种优化超参数以及递归优化 hyper - 超参数的方法,降低了梯度下降中对超参数的敏感性。由于梯度无法不在,因此这项工作具有巨大的潜在影响。

论文 9:Riemannian Score-Based Generative Modelling

  • 机构:巴黎文理研究大学、牛津大学
  • 作者:Valentin De Bortoli、 Emile Mathieu、Michael John Hutchinson 等
  • 论文地址:https://arxiv.org/pdf/2202.02763.pdf

获奖理由:本文通过识别影响生成模型成功的主要因素,将基于分数的生成模型 (SGM) 从欧氏空间泛化到紧凑的黎曼流形。这种方法是一种新颖的、技术上有用的贡献。


论文 10:Gradient Estimation with Discrete Stein Operators

  • 机构:斯坦福大学、清华大学DeepMind
  • 作者:Jiaxin Shi、Yuhao Zhou、Jessica Hwang 等
  • 论文地址:https://openreview.net/pdf?id=I1mkUkaguP

获奖理由:本文探讨了分布呈离散时的梯度估计问题。大多数常见梯度估计器都存在过度方差,因此为了提高梯度估计的质量,研究者引入了一种基于离散分布 Stein 算子的方差缩减技术。尽管 Stein 算子很经典,但这项工作为梯度估计提供了一种很好的解释,并在实验中显示了实际改进。

论文 11:An empirical analysis of compute-optimal large language model training

  • 机构:DeepMind
  • 作者:Jordan Hoffmann、Sebastian Borgeaud、Arthur Mensch 等
  • 论文地址:https://www.deepmind.com/publications/an-empirical-analysis-of-compute-optimal-large-language-model-training

获奖理由:该研究提出一个问题:给定固定的 FLOPs 预算,模型的大小和训练 token 数应该如何权衡?该研究对这种权衡进行了建模,并基于该模型进行预测,同时训练与该预测相对应的模型。由此产生的模型明显更小,但包含了更多的 token,性能优于其对应模型,同时由于模型尺寸更小,在下游任务中也更实用。总而言之,这项工作为社区在语言模型背景下思考规模的方式提供了新的思路,这也可能对 AI 的其他领域有用。

论文 12:Beyond neural scaling laws: beating power law scaling via data pruning

  • 机构:斯坦福大学、图宾根大学、Meta AI
  • 作者:Ben Sorscher、Robert Geirhos、Shashank Shekhar 等
  • 论文地址:https://openreview.net/pdf?id=UmvSlP-PyV

获奖理由:这项工作重新关注选择高质量数据作为实现最佳扩展的方法的重要性。研究者精心设计了一项分析调查,开发了一个数据质量影响的理论模型,它与 ImageNet 上一系列数据过滤指标的实证实例化保持一致。这项工作富有洞察力又非常及时,将塑造关于机器学习中多个维度权衡取舍的辩论。

论文 13:On-Demand Sampling: Learning Optimally from Multiple Distributions

  • 机构:Berkeley
  • 作者:Nika Haghtalab、Michael Jordan、Eric Zhao
  • 论文地址:https://openreview.net/pdf?id=FR289LMkmxZ

获奖理由:本文研究了使用随机零和游戏博弈的多重分布式学习。对于具有接近最优结果的一类问题,该技术得出了非常有趣的理论结果。

数据集和基准 Track 杰出论文

该奖项旨在表彰面向数据工作的研究,今年有两篇论文获得了该奖项,分别由 LAION、英伟达等机构研究者摘得。

论文 1:LAION-5B: An open large-scale dataset for training next generation image-text models

  • 机构:LAION 、UC 伯克利等
  • 作者:Christoph Schuhmann 、 Romain Beaumont 、 Richard Vencu 等
  • 论文地址:https://openreview.net/pdf?id=M3Y74vmsMcY

获奖理由:对诸如 CLIP、DALL-E 等语言 - 视觉模型的训练需要数十亿对图像 - 文本数据集。到目前为止,还没有这样规模的数据集向研究团体公开提供。这项工作提出了 LAION-5B,一个由 58.5 亿 CLIP-filtered 的图像 - 文本对组成的数据集,旨在对大规模多模态模型进行研究。此外,该研究使用这些数据成功复制了 CLIP、GLIDE 和 Stable Diffusion 等基础模型,提供了几个最近邻指数,以及改进的网络界面等。

论文 2:MineDojo: Building Open-Ended Embodied Agents with Internet-Scale Knowledge

  • 机构:英伟达、加州理工学院、斯坦福大学等
  • 作者:Linxi Fan、Guanzhi Wang、Yunfan Jiang 等
  • 论文地址:https://arxiv.org/pdf/2206.08853.pdf

获奖理由:自主智能体在雅达利游戏围棋等专业领域取得了巨大进步,但通常无法泛化到更广泛的任务。本文引入 MineDojo,这是一个建立在 Minecraft 游戏上的新框架,在其仿真套件里面,包含数千种不同的开放式任务和一个具有互联网规模的知识库,包含 Minecraft 视频、教程、wiki 页面和论坛讨论。此外,MineDojo 还提出了一种新颖的智能体学习算法,能够解决以自由形式语言指定的各种开放式任务。该研究同时还提供了一个开源仿真套件、知识库、算法实现和预训练模型,以促进对通用智能体的研究。

时间检验奖

NeurIPS 2022 时间检验奖颁给了论文《ImageNet Classification with Deep Convolutional Neural Networks》,又名 AlexNet 论文。
 
这篇论文发表于 2012 年,论文作者是当时来自多伦多大学的 Alex Krizhevsky 、 Ilya Sutskever 以及 Geoffrey E. Hinton 。

图片

论文地址:https://papers.nips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf

获奖理由:2012 年,该研究作为第一个接受 ImageNet 挑战训练的 CNN,远远超过了当时最先进的技术,从那时起,它对机器学习社区产生了巨大的影响。

AlexNet 之后的 ImageNet 冠军全都采用了卷积神经网络结构,使得 CNN 成为图像分类的核心模型,从而开启了深度学习新一波浪潮。

Alex Krizhevsky 为该论文的一作,是 Hinton 的博士生,此外他还是 CIFAR-10 和 CIFAR-100 数据集的创建者。他的许多关于机器学习计算机视觉的论文经常被其他研究人员引用。

图片



Ilya Sutskever 为该论文的作者之一,也是 Hinton 的博士生,为 OpenAI 联合创始人兼首席科学家。此前,他还在斯坦福大学 Andrew Ng 的团队做博士后。




最后一位作者为深度学习三巨头之一的 Geoffrey E. Hinton ,以其在类神经网路方面的贡献闻名。Hinton 是反向传播算法和对比散度算法的发明人之一,也是深度学习的积极推动者,被誉为深度学习之父,于 2018 年的被授予图灵奖。

图片



参考链接:https://blog.neurips.cc/2022/11/21/announcing-the-neurips-2022-awards/
理论AlexNetMain Track杰出论文NeurIPS 2022
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

凸优化技术

凸优化,或叫做凸最优化,凸最小化,是数学最优化的一个子领域,研究定义于凸集中的凸函数最小化的问题。凸优化在某种意义上说较一般情形的数学最优化问题要简单,譬如在凸优化中局部最优值必定是全局最优值。凸函数的凸性使得凸分析中的有力工具在最优化问题中得以应用,如次导数等。 凸优化应用于很多学科领域,诸如自动控制系统,信号处理,通讯和网络,电子电路设计,数据分析和建模,统计学(最优化设计),以及金融。在近来运算能力提高和最优化理论发展的背景下,一般的凸优化已经接近简单的线性规划一样直捷易行。许多最优化问题都可以转化成凸优化(凸最小化)问题,例如求凹函数f最大值的问题就等同于求凸函数 -f最小值的问题。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

反向传播算法技术

反向传播(英语:Backpropagation,缩写为BP)是“误差反向传播”的简称,是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见方法。该方法计算对网络中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法,用来更新权值以最小化损失函数。 在神经网络上执行梯度下降法的主要算法。该算法会先按前向传播方式计算(并缓存)每个节点的输出值,然后再按反向传播遍历图的方式计算损失函数值相对于每个参数的偏导数。

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

Embodied AI 技术

Embodied AI (简称EAI)是一个非常广的词。在上世纪中期,EAI是对许多人工智能领域的统称。与GOFAI(Good Old-Fashioned Artificial Intelligence,译为有效的老式人工智能)不同的是,GOFAI指的是用原始的人工智能方法来解决很小的一个领域的问题,例如棋类游戏类的算法。

围棋技术

围棋是一种策略性棋类,使用格状棋盘及黑白二色棋子进行对弈。起源于中国,中国古时有“弈”、“碁”、“手谈”等多种称谓,属琴棋书画四艺之一。西方称之为“Go”,是源自日语“碁”的发音。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

雅达利游戏技术

雅达利(英语:Atari,NASDAQ:ATAR)是美国诺兰·布什内尔在1972年成立的电脑公司,街机、家用电子游戏机和家用电脑的早期拓荒者。不少诸如《乓》、《爆破彗星》等的经典早期电脑游戏的发行,使雅达利在电子游戏历史上举足轻重。经典游戏主机为1977年发行的雅达利2600。

推荐文章
暂无评论
暂无评论~