同时观看和聆听包含多个声源的未标记视频,以学习音视频源分离模型(第 3 章、第 4 章和第 5 章);
利用音频作为预览机制,在未修剪的视频中实现高效的动作识别(第 6 章);
利用未标记视频中的视觉信息推断双耳音频,将平面单声道音频「提升」为空间化的声音(第 7 章);
通过回声定位学习空间图像表征,监测来自与物理世界的声学互动(第 8 章)。
Auto Byte
专注未来出行及智能汽车科技
微信扫一扫获取更多资讯
Science AI
关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展
微信扫一扫获取更多资讯
UT-Austin 本年度的最佳博士论文奖获得者 Ruohan Gao,目前是斯坦福大学的博士后研究员。
同时观看和聆听包含多个声源的未标记视频,以学习音视频源分离模型(第 3 章、第 4 章和第 5 章);
利用音频作为预览机制,在未修剪的视频中实现高效的动作识别(第 6 章);
利用未标记视频中的视觉信息推断双耳音频,将平面单声道音频「提升」为空间化的声音(第 7 章);
通过回声定位学习空间图像表征,监测来自与物理世界的声学互动(第 8 章)。
机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。
知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。
在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)
现实世界中的信息通常以不同的模态出现。例如,图像通常与标签和文本解释联系在一起;文本包含图像以便更清楚地表达文章的主要思想。不同的模态由迥异的统计特性刻画。例如,图像通常表示为特征提取器的像素强度或输出,而文本则表示为离散的词向量。由于不同信息资源的统计特性不同,发现不同模态之间的关系是非常重要的。多模态学习是一个很好的模型,可以用来表示不同模态的联合表示。多模态学习模型也能在观察到的情况下填补缺失的模态。多模态学习模型中,每个模态对应结合了两个深度玻尔兹曼机(deep boltzmann machines).另外一个隐藏层被放置在两个玻尔兹曼机上层,以给出联合表示。