Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

声道长度微扰

语音识别时,说话人之间的声道之间形状的变化会影响语音识别的结果,因此每个说话人同一句话的发音是不同的。为去除不同人的声道对同一个词发音的影响,需要对音频进行处理,VLTP即用于去除说话人身份对发音的影响。VTLP是在对每一句语音时,随机生成一个扭曲因子用于对频谱的频率轴进行扭曲,来去除声道差别对语音识别结果的影响。

简介

发展历史

描述

1975年,VTLP算法被提出,并应用于语音领域。1998年,Lee L等人将VTLP应用于说话人规整中。2013年,利用VTLP随机生成的噪声,来对原始数据进行处理,生成新的数据,通过增加训练数据的数量来提高识别结果。

主要事件

年份

事件

相关论文/Reference

1975

VTLP算法被提出

Fant G. Vocal-tract area and length perturbations[J]. STL-QPSR, 1975, 4(1975): 1-14.

1998

使用VTLP进行说话人规整

Lee L, Rose R. A frequency warping approach to speaker normalization[J]. IEEE Transactions on speech and audio processing, 1998, 6(1): 49-60.

2013

利用VTLP增加训练数据的数量来提高识别结果

Jaitly N, Hinton G E. Vocal tract length perturbation (VTLP) improves speech recognition[C]//Proc. ICML Workshop on Deep Learning for Audio, Speech and Language. 2013, 117.

发展分析

瓶颈

相比较于其它生成算法,这种处理方法获得的数据种类比较单一,由于扰动因子是随机生成的,数据的变化也比较简单,因此对不同说话人,不同语音处理存在一定的局限性。

未来发展方向

如何获得更多的训练数据是目前机器学习领域面对的问题之一,通过利用扰动因子获得更多的训练数据是处理这个问题的方法之一。将来一些其他的扰动方法,如非线性的扰动也可以应用到这个问题上。

Contributor: Yilin Pan

简介