去年十月,微软人工智能与研究部门的一个研究者和工程师团队报告他们的语音识别系统实现了和专业速录员相当甚至更低的词错率(WER)——达到了 5.9%,参考机器之心文章《微软语音识别实现历史性突破:语音转录达到专业速录员水平》。但 IBM 官方博客今日发文宣称人类的水平实际上应该是 5.1%,而同时该文章还表示 IBM 的系统的词错率已经超越了之前微软报告的最佳水平,达到了 5.5%。IBM 宣称这是一个全新的突破,但相关研究论文似乎仍未发布(我们未能找到),机器之心将继续保持关注,期待能在第一时间向读者分享这一成果的技术细节。
以下内容编译自 IBM 博客:
此篇博客日期与标题
在交谈中,人听到的每 20 个词之中便会漏听 1 至 2 个。5 分钟的对话里,我们有可能漏听 80 个单词。但是,这并不妨碍交谈。试想一下,这种情况换成计算机会怎样?
去年,IBM 宣布在会话语音识别方面取得重大进展,把语音识别的词错率降至 6.9%。自此之后,词错率一降再降,直至今天的 5.5%。
词错率的测定来自一个困难的语音识别任务:记录人们之间日常的诸如买车之类的话题交谈。这个被记录的语料库称之为 SWITCHBOARD,20 多年来一直是语音识别系统的检测标准。
IBM 集中扩展深度学习应用技术终于取得了 5.5% 词错率的突破。我们结合了 LSTM 模型和带有 3 个强声学模型的 WaveNet 语言模型。这 3 个使用的声学模型中,前两个是 6 层双向 LSTM,其中一个具有多特征输入,另一个则通过说话者-对抗多任务学习进行训练。第 3 个模型的独特之处在于可以从正负两个样本中进行学习。因此 IBM 的系统变得越来越聪明,尤其是在相似语音模式重复之处,表现更佳。
达到像人一样交谈的词错率,长久以来一直是业界的最终目标。其中一些宣称实现了与人持平的 5.9% 的词错率。作为今天成就的一部分,我们重新确定了人的实际词错率为 5.1%,比之前达到的还要低。
我们的合作者 Appen 提供了语音和搜索技术服务,帮助我们最终确定了人的真实词错率。实现 5.5% 的词错率是一个大突破,但人类实际词错率的确定表明我们还没有达到最终目标。
作为研究努力的一部分,我们联合其他业界专家获得了他们的语音数据。蒙特利尔大学 MILA 实验室领导者 Yoshua Bengio 认为,要达到像人一样,我们仍然要付出更多努力:
「尽管近些年来有这些了不起的进展,但要在语音识别和目标识别等人工智能任务中实现人类水平的表现仍然是一项极具挑战性的科学难题。实际上,标准基准并不总是可以体现真实数据的多样化和复杂性。比如说,不同的数据集可能对一个任务的不同方面有更多或更少的敏感度,而且其结果严重依赖于人类表现被评估的方式,比如在语音识别的案例中使用技能娴熟的转录员。」Bengio 说,「IBM 通过将神经网络和深度学习应用于声学和语言模型,一直在语音识别上取得显著进展。」
我们还意识到要在整个行业领域找到一种标准的测试人类表现的方法比预想的要复杂得多。除了 SWITCHBOARD,这个行业的另一个语料库 CallHome 提供了另一组可供测试的语言数据,这个数据集是根据家庭成员在没有预先固定主题上进行的更加口语化的对话而创建的。比起 SWITCHBOARD,来自 CallHome 数据的对话对机器而言更难以转录,这使得在其上的突破更难以实现。(在这个语料库上我们实现了 10.3% 的词错率——这是另一个行业记录;但同样,通过 Appen 的帮助,在同样情形下的人类的准确度是 6.8%)。
此外,在 SWITCHBOARD 测试时,在测试说话者数据中一些同样的人类声音也被包含在了用于训练该声学和语言模型的训练数据集中。因为 CallHome 没有这样的重叠,所以其语音识别模型没有接触到测试说话者的数据。因为这个原因,就没有重演(repetition),这会导致人类表现和机器表现之间出现更大的差距。随着我们继续努力向人类水平进军,我们在能够利用这些重演的深度学习技术上的进展在帮助我们最终攻克这些难题上发挥了前所未有的重要作用。
哥伦比亚大学计算机科学系教授兼主席 Julia Hirschberg 对一直以来语音识别上的复杂挑战评论说:
要达到和人类一样的识别语音的能力是一个持续性的挑战,因为人类语音,尤其是在自发性的对话(spontaneous conversation)中的人类语音,是非常复杂的。而且我们也很难定义人类的表现,因为人类在理解其他人的语音上的能力会各有不同。当我们将自动识别和人类表现进行比较时,需要考虑两件很重要的事情:在被评估的同样的语音上识别器的表现和人类的表现。因此,IBM 最近在 SWIRCHBOARD 和 CallHome 数据上的成就是非常了不起的。而且 IBM 一直以来都在努力想要更好地理解人类理解这两个得到广泛引用的语料库的能力,这也让我印象深刻。这项科学成就在当前 ASR 技术上的表现是很了不起的,也表明我们仍然有一种让机器比肩人类语音理解的方法。
今天的成就是我们在语音技术上的新里程碑。之前,比如说去年 12 月份,我们为 Watson 语音转文本服务增加了语者分类(diarization)功能,这是在区分对话中的个体方面的一项进步。这些语音进展构建于数十年的研究的基础之上,而且实现人类水平的语音识别是一项复杂的任务。我们将继续努力创造未来有一天能够达到人类所听、所说和所想的复杂度的技术。尽管我们为我们的进展而鼓舞,但我们的工作还依赖于未来的研究——而且更重要的是,要致力于实现可能的最高标准的准确度。