麻省理工学院利用开放域对话系统自适应进行交互式人工评估
构建开放域会话代理是一个具有挑战性的问题,目前的评估方法主要是单回合评估的事后判断,并不能在真实的交互环境中捕获对话质量。来自麻省理工的研究团队近日在一篇论文中对交互式人类评估进行了研究,并引入了一种新的,模型不可知的,与数据集无关的方法来近似它,并开源了交互式评估平台和该团队所收集的数据集。值得一提的是,研究人员提出了一种自我游戏场景,对话系统能够在其中自说自话,与此同时研究人员会对例如对话轨迹上的情感以及语意连贯性等对话组合进行计算。研究结果表明,该指标能够比迄今已知的任何自动度量更好地捕获对话模型的人类质量。