谷歌开源扬声器Diarization AI技术,语音区分准确率高达92%
近日,谷歌 AI 研究部门的研究者发表论文《Fully Supervised Speaker Diarization》,该论文开源了他们的扬声器分类技术,它能以 9 2% 的准确率识别出每个人声音的专属模式。
这套系统涉及到 Speaker diarization(发言者语音片段切分归类) 任务,即需要标注出「谁」从「什么时候」到「什么时候」在说话,将语音样本分割成独特的、同构片段的过程。强大的 AI 系统必须能够将新的演讲者发音与它以前从未遇到过的语音片段关联起来。
论文中称,研究人员把核心算法放在数据集 NIST SRE 2000 CALLHOME 上验证,最后得出的在线分类错误率(DER)低至 7.6%。Google 研究人员的新方法是通过递归神经网络(RNN)模拟说话者的输入,只要开始发言,每个说话者都会建立一个属于他的 RNN 模型,然后在过程中,不断更新相应的 RNN 状态。