Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

蛋酱编辑

引入多感官数据学习,华人学者Ruohan Gao摘得2021 UT-Austin最佳博士论文奖

UT-Austin 本年度的最佳博士论文奖获得者 Ruohan Gao,目前是斯坦福大学的博士后研究员。


今年 5 月,德克萨斯大学奥斯汀分校(UT-Austin)研究生院公布了 2021 年度各个专业和学生奖项的获奖者。这些奖项旨在表彰研究生院成员在学术、教学和专业服务方面的卓越表现。

在本年度的评选中,华人学者 Ruohan Gao 的博士学位论文《Look and Listen: From Semantic to Spatial Audio-Visual Perception》获得了 Michael H. Granof 奖。


杰出博士论文奖设立于 1979 年,旨在表彰出色的研究以及鼓励最高的研究、写作、学术水平。每年颁发三个奖项,其中一篇会被选中获得该校的最佳论文奖「Michael H. Granof 奖」。杰出论文奖获得者将获得 5000 美元奖金,Granof 奖获得者获得 6000 美元奖金。

Ruohan Gao



Ruohan Gao2015 年于香港中文大学(CUHK)信息工程系获得一等荣誉学位,导师为刘永昌(Wing Cheong Lau)教授。

博士期间,Ruohan Gao 师从 Kristen Grauman 教授。他的研究兴趣是计算机视觉机器学习数据挖掘等,特别是视频中的多模态学习和多模态下的 embodied learning。2021 年初,Ruohan Gao 从德克萨斯大学奥斯汀分校获得博士学位。

目前,Ruohan Gao 是斯坦福大学视觉与学习实验室(SVL)的博士后研究员。

此外,Ruohan Gao 还获得过谷歌博士生奖研金(Google Ph.D Fellowship)、Adobe 研究奖研金(Adobe Research Fellowship)等荣誉。

这篇论文研究了什么?



论文链接:https://ai.stanford.edu/~rhgao/Ruohan_Gao_dissertation.pdf


理解场景和事件本质上是一种多模态经验。人们通过观察、倾听 (以及触摸、嗅和品尝) 来感知世界,特别是物体发出的声音,无论是主动产生的还是偶然发出的,都提供了关于自身物理属性和空间位置的有价值的信号,正如钹在舞台上撞击,鸟在树上鸣叫,卡车沿着街区疾驰,银器在抽屉里叮当作响……


尽管通过「看」,也就是根据物体、行为或人的外表检测的识别取得了重大进展,但它往往不能够「听」。在这篇论文中,作者证明了与视觉场景和事件同步的音频可以作为丰富的训练信号来源,用于学习 (视听) 视觉模型。此外,作者开发了计算模型,利用音频中的语义和空间信号,从连续的多模态观测中理解人、地点和事物。

当前大多数计算机视觉系统的现状是从大量「无声」数据集的标记图像中学习,而该论文研究目标是既要会倾听,又要了解视觉世界。


作者表示,受到人类利用所有感官对世界进行感知的启发,自己的长期研究目标是建立一个系统,通过结合所有的多感官输入,能够像人类一样感知世界。在论文的最后一章,作者概述了在此博士论文之外希望追求的未来研究方向。

图 1.2: 音频本身是一个监督信号,用于语义和空间理解。


研究的首要目标是从视频和嵌入智能体中复现视听模型: 当多个声源存在时,算法如何知道发声对象是什么以及在哪里?这些视听模型如何在传统的视听任务有所提升?为了解决这些问题,该研究利用了音频中的语义和空间信号,从连续的多模态观测中理解人、地点和事物(图 1.2)。


这篇论文研究了以下四个重要问题,以逐步接近视听场景综合理解的最终目标:

  • 同时观看和聆听包含多个声源的未标记视频,以学习音视频源分离模型(第 3 章、第 4 章和第 5 章);

  • 利用音频作为预览机制,在未修剪的视频中实现高效的动作识别(第 6 章);

  • 利用未标记视频中的视觉信息推断双耳音频,将平面单声道音频「提升」为空间化的声音(第 7 章);

  • 通过回声定位学习空间图像表征,监测来自与物理世界的声学互动(第 8 章)。


作者表示,本论文对视听学习的研究,体现了无监督或自监督的多感官数据学习对人工智能的未来发展具有积极而重要的意义。

更多细节请参见论文原文。
入门多模态学习德克萨斯大学奥斯汀分校
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

多模态学习技术

现实世界中的信息通常以不同的模态出现。例如,图像通常与标签和文本解释联系在一起;文本包含图像以便更清楚地表达文章的主要思想。不同的模态由迥异的统计特性刻画。例如,图像通常表示为特征提取器的像素强度或输出,而文本则表示为离散的词向量。由于不同信息资源的统计特性不同,发现不同模态之间的关系是非常重要的。多模态学习是一个很好的模型,可以用来表示不同模态的联合表示。多模态学习模型也能在观察到的情况下填补缺失的模态。多模态学习模型中,每个模态对应结合了两个深度玻尔兹曼机(deep boltzmann machines).另外一个隐藏层被放置在两个玻尔兹曼机上层,以给出联合表示。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

Audi机构

奥迪是一间德国跨国豪华汽车制造商,主要从事豪华和高性能汽车制造业。总部位于德国巴伐利亚州的英戈尔施塔特。是大众集团的成员。奥迪与德国品牌宝马和梅赛德斯-奔驰一起,是世界上最畅销的豪华汽车品牌之一。

http://www.audi.com/
推荐文章
暂无评论
暂无评论~