2019/02/14 17:52

出门问问Mobvoi AI Lab：三篇论文入选ICASSP 2019

ICASSP 2019将于2019年5月12日-17日在英国布莱顿拉开序幕，国内AI创业公司出门问问Mobvoi AI Lab有三篇论文已经被ICASSP 2019接收。ICASSP 全称 International Conference on Acoustics, Speech and Signal Processing（国际声学、语音与信号处理会议），是由 IEEE 主办的全世界最大的，也是最全面的信号处理及其应用方面的顶级学术年会。

出门问问是一家以语音交互和软硬结合为核心的人工智能公司。2012年创立后，出门问问始终以定义下一代人机交互方式为使命，坚持做AI应用的探索，希望用“AI唤醒生活”，让每一个人都能够感受到，以语音交互为代表的AI科技可以给每个人带来的美好与便利。

技术方面，出门问问拥有全套自主研发的智能语音交互八大关键核心技术，掌握600多项技术专利。从1.前端声音信号处理，到2.热词唤醒，到3.语音识别，到4.自然语言理解和5.对话管理，到6.垂直智能搜索和7.推送，到8.语音合成，在这一整套“听到-识别-处理-输出”的人机交互过程中，出门问问可以自主提供所有技术，为需要语音交互的场景提供一整套端到端人机交互解决方案。

出门问问始终坚持产学研高度一体化，在语音交互技术上一直深入探索，由IEEE院士（IEEE Fellow）黄美玉博士领导的出门问问Mobvoi AI Lab，在此次ICASSP 2019提交的论文概述如下。

一、信任正则化的知识蒸馏在递归神经网络语言模型上的应用

论文标题：Knowledge Distillation for Recurrent Neural Network Language Modeling with Trust Regularization

作者：Yangyang Shi， Mei-Yuh Hwang， Xin Lei，Haoyu Sheng

简介：基于递归神经网络的语言模型较于传统的n-gram语言模型，有显著的性能提升，已经成为语言模型的主流模型，在很多云端应用中得到广泛的青睐。然而递归神经网络语言模型在实际应用中需要占据大量的内存容量以及计算资源。在很多移动终端，由于有限的内存以及功耗，极大的限制了递归神经网络语言模型的应用。最近知识蒸馏的方法被用于压缩递归神经网络语言模型并减少它在终端装置上的计算量。这一篇文章也同样采用了知识蒸馏的方法，并用信任正则化的方法对知识蒸馏方法做出了改进。文章的实验表明这种信任正则化的知识蒸馏方法，可以把 Penn Treebank 数据集的递归神经网络的模型大小降到原有大小的33%，而仍然得到当前学术界最好的结果。在华尔街日报语音识别的任务中，这篇文章的实验表明，信任正则化的知识蒸馏方法可以将递归神经网络语言模型的大小降到原有大小的18.5%，并且仍然保持和原有模型一样的效果。

二、基于高阶LSTM-CTC的端到端语音识别

论文标题：End-To-End Speech Recognition Using A High Rank LSTM-CTC Based Model

作者：Yangyang Shi，Mei-Yuh Hwang，Xin Lei

简介：基于LSTM-CTC的端到端语音模型，由于其简单的训练过程以及高效的解码过程，最近在语音识别领域得到广泛的关注和应用。在传统的LSTM-CTC模型中，一个瓶颈投影矩阵将LSTM隐层的输出向量投影到CTC的输入向量。研究表明增强这个瓶颈投影矩阵的阶数可以提高LSTM模型的表达能力。这篇文章提出用一个高阶的投影层替代传统的投影矩阵。高阶投影层以LSTM的隐层的输出向量作为输入，经过一系列的投影矩阵以及非线性函数，这个高阶投影层的输出是一系列向量的线性组合。在高阶投影层中，这些线性组合的权重也是由模型根据训练数据学习得到。文章的实验表明在语音领域普遍采用的WSJ数据集以及Librispeech数据集合上，较于传统的LSTM-CTC的端到端语音模型，高阶的LSTM-CTC模型可以带来3%-10%相对词错误率的下降。

三、使用对抗性样例提升基于注意力机制端到端的神经网络关键字检出模型

论文标题：Adversarial Examples for Improving End-to-end Attention-based Small-Footprint Keyword Spotting

作者：Xiong Wang, Sining Sun, Changhao Shan, Jingyong Hou, Lei Xie,Shen Li, Xin Lei

简介：本文提出使用对抗性样例来提升关键字检出（Keyword spotting，KWS）的性能。对抗性样例近年来在深度学习领域是一个研究热点，它是指在原来正确分类的样例上加一个轻微的扰动后即被分类器错误分类的样例。在KWS任务中，将系统误唤醒或误拒绝的错误样例视为对抗性样例非常直观而贴切竞争性样例的概念。在我们的工作中，我们首先建立了一个训练有素的基于注意力机制端到端的KWS模型，然后使用快速梯度符号法（FGSM）生成了对抗性的样例，发现这些样例会显著降低KWS的性能，最后我们利用这些对抗性的样例作为增强数据来一起训练KWS模型。最终在出门问问智能音响上收集的唤醒词数据集上进行了实验。实验结果显示，设定阈值在每小时1.0次误唤醒情况下，提出的方法获得了相对44.7%的误拒绝率的降低。

作为AI语音领头公司，出门问问2018年开始在学术顶会发表重要论文，并在麦克风阵列噪声消减、口语理解、噪声环境下的语音识别、带口音的语音识别中实现重大突破。

未来，出门问问不仅要做人工智能技术的前锋探索者，更要做人工智能应用的奠基人，既保持前端技术的研发能力，同时拥有扎实的落地应用能力，ToC通过AI可穿戴、车载、智能家居消费级智能硬件+ToB通过AI企业服务双轮战略驱动，继续探索，用AI唤醒更多人的生活。

理论出门问问创业公司语音交互ICASSP 2019论文

相关技术

推荐系统语音识别即时定位与地图构建计算机视觉

黄美玉人物

黄美玉博士担任出门问问工程副总裁、Mobvoi AI Lab 负责人，是华盛顿大学电子工程系 Affiliate Professor，语音识别及 NLP 等人工智能领域的资深科学家。

来源：CSDN

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

自然语言理解技术

自然语言理解是人工智能的核心课题之一，也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间，都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻，它一方面承载着机器和人的交流，另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯，机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA（Ask Me Anything）栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

来源：机器之心

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

语音合成技术

语音合成，又称文语转换（Text to Speech）技术，是将人类语音用人工的方式所产生，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。

来源：张斌,全昌勤,任福继. 语音合成方法和发展综述

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

来源：What is Automatic Speech Recognition?

正则化技术

当模型的复杂度增大时，训练误差会逐渐减小并趋向于0；而测试误差会先减小，达到最小值后又增大。当选择的模型复杂度过大时，过拟合现象就会发生。这样，在学习时就要防止过拟合。进行最优模型的选择，即选择复杂度适当的模型，以达到使测试误差最小的学习目的。

来源：李航著统计学习方法清华大学出版社

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息（如声音、图像和生物测量）”的函数。例如，信号处理技术用于提高信号传输的保真度、存储效率和主观质量，并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此，对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

来源：Roland Priemer (1991). Introductory Signal Processing. World Scientific. p. 1. ISBN 9971509199.

麦克风阵列技术

麦克风阵列(Microphone Array)，从字面上，指的是麦克风的排列。也就是说由一定数目的声学传感器(一般是麦克风)组成，用来对声场的空间特性进行采样并处理的系统。早在20世纪70、80年代，麦克风阵列已经被应用于语音信号处理的研究中，进入90年代以来，基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。而到了“声控时代”，这项技术的重要性显得尤为突出。

来源：百度百科

知识蒸馏技术

Hinton 的工作引入了知识蒸馏压缩框架，即通过遵循“学生-教师”的范式减少深度网络的训练量，这种“学生-教师”的范式，即通过软化“教师”的输出而惩罚“学生”。为了完成这一点，学生学要训练以预测教师的输出，即真实的分类标签。这种方法十分简单，但它同样在各种图像分类任务中表现出较好的结果。

来源：机器之心

人机交互技术

人机交互，是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器，也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流，并进行操作。小如收音机的播放按键，大至飞机上的仪表板、或是发电厂的控制室。

来源：维基百科

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科