论文合著者Rahul Goel解释说,该系统的设计是得益于两种机器学习技术:transfer learning和copying mechanism。Transferlearning,是指从现有的人工智能系统迁移知识,以减少训练一个新模型需要的大量数据;Copyingmechanism,是让模型处理从未见过的字词。
传统上,Alexa根据说话者的意图(例如播放音乐、歌曲名称和演唱者姓名)和实体插槽(如Marvin Gaye的《What 's Going On?》)解析请求。但是这种方法需要大量手工注释,很容易出错。例如,“addapples and oranges to shopping list” and “play music”这个请求包含两个主要条款(“add…to shopping list”和“play music”),由“and”这个编码连接,然后解码器将该命令解码成一个数据集”(and(addToListIntent(add(ItemName(Apples))(ItemName(Oranges))))(PlayMusicIntent(Mediatype(Music))))”来实现命令。
但简单的意图和插槽标记不适用于像“Alexa, add peanut butter and milk to theshopping list and play music”这样的请求。处理这样的具有复合意图和插槽值的请求需要一个语义解析器,分析句子的结构和组成部分的含义。
因此Alexa的研究人员不这么做,他们根据说话者的意图和实体插槽将所有标记的数据转换成多个解析树,或转换成描述请求语法结构的决策树。该团队的语义分析器通过对输入流一系列移位和减少操作进一步构建这些树,其中“移位”是指移动到输入流中的下一个单词,“减少”是指确定该词在树中的最终位置。一直以来,注意力机制跟踪解析器的任务就是检查得到的数据,并确定是使用内部词典中的单词,还是复制输入流中的单词。
The semantic parse tree of the instruction "add apples andoranges to shopping list and play music"
研究人员报告说,在使用Alexa交互提供的自然语言理解(NLU)数据进行的测试中,仅使用复制机制就能将整体模型的平均正确率提升61%,而加上迁移学习能够再提升6.4%。在另一组独立的问答测试中,说话者使用了两个公共数据集(比如“你可以在外面的哪家餐馆吃饭?”或者“科比在2004年抢断了多少次?”),测试结果显示迁移学习将模型的表现提升了10.8%。。
“我们的语义分析器在自然语言理解和问答任务上都提高了性能,这一事实表明,它有望成为一种表示意义的通用技术,也可以用于其他应用,”Rahul Goel写道。
这项研究计划于6月在路易斯安那州新奥尔良举行的计算语言学协会北美分会第16届年会上发表。
博文链接:
https://developer.amazon.com/zh/blogs/alexa/post/ce2e3e1c-5f21-4c53-b274-59de34cd4015/alexa-turn-down-the-lights-and-play-music-the-science-of-handling-compound-requests
论文: “Practical Semantic Parsing for Spoken Language Understanding”
论文链接:https://arxiv.org/pdf/1903.04521.pdf