Facebook开源首个全卷积语音识别工具包「wav2letter++」
近日,Facebook AI 研究院(FAIR)的语音团队发表论文《wav2letter++: The Fastest Open-source Speech Recognition System》,开源首个全卷积语音识别工具包「wav2letter++」。该工具包完全由 C++写成,使用了 ArrayFire 张量库和 flashlight 机器学习库。所谓「全卷积」,指的是 「wav2letter++」在从声波到文本的处理过程中,所有可学习的部件都是由卷积层构成的,声音建模、语言建模任务全部由 CNN 完成。研究人员将「wav2letter++」和其他主流开源语音识别系统进行比较。在某些情况下,「wav2letter++」训练语音识别端到端神经网络速度是其他框架 2 倍还多,而且用 1 亿个参数的模型测试,使用从 1~64 个 GPU,训练时间是线性变化的。