AI对话系统起源于图灵测试,是人工智能领域最重要的研究方向之一。如果说自然语言处理是人工智能“皇冠上的明珠”,那么AI对话系统则是自然语言处理中最难、最核心的任务之一,是“明珠中最亮的那颗”。因此,AI对话系统被认为是衡量人工智能发展水平的重要因素,代表了人工智能的发展方向。
在工业应用领域,AI对话系统已经呈现出了爆炸式增长态势,在智能助理、智能客服、社交机器人、心理咨询、虚拟人和元宇宙等多样化场景中随处可见它的身影,比如以小度、小爱、为代表的智能助理,还有以谷歌对话机器人Meena、Facebook聊天机器人Blender为代表的开放域闲聊产品。
图源:mobidev
近年来,随着深度学习技术的不断发展,AI对话系统已经从基于规则的第一代和以传统机器学习为核心的第二代,发展到以大数据和大模型为显著特征的第三代。作为结果,对话能力发生了革命性变化,在开放话题上更是展现出了惊人的对话能力。
AI对话系统发展历程。
然而,作为前沿技术,当前AI对话系统标准缺失,造成其在应用中呈现出水平参差不齐、评价体系不一的现状,导致了业界因认知不统一而对人工智能交互水平出现误解,也引起了社会上关于意识、伦理、道德等方面的广泛讨论。
因此,为了更好地评估AI对话系统的能力水平,清华大学智能技术与系统实验室副主任黄民烈联合学界和业界科研机构制定了全球首个《AI对话系统分级定义》(以下简称《分级定义》),旨在衡量AI对话系统的能力水平,从而促进AI对话系统的进一步研究,同时为工业界应用提供参考。
其中,参与本次《分级定义》的业界机构包括科大讯飞、京东、阿里达摩院、华为诺亚、百度、腾讯、小米、美团、聆心智能和三星等AI对话系统领域的资深玩家,以及学界顶尖研究机构如清华、人大、中国科学院深圳先进技术研究院、哥大、北师大和哈工大等。
AI对话系统有了自己的分级规范
我们知道,根据系统智能化程度的不同,自动驾驶领域有L0-L5的分级标准。《分级定义》制定时主要参考了这种分级方法,不过这种参考并非生搬硬套,因为对话任务本身自有其特征。
黄民烈教授表示,「考虑到AI对话系统任务繁多、评价维度多样、技术路线丰富,撰写小组在制定《分级定义》时仅关注完全由机器主导的对话系统,人机混合的对话系统不在考虑范围内。」
同时,为了在实际应用中发挥价值,《分级定义》的制定是从用户可感知,以及可观察、可测量、可度量的角度出发,不考虑系统的具体技术实现方式,也不区分助理类任务、闲聊、知识对话等,均以“场景”进行表述。
黄民烈教授详细介绍《分级定义》。
在上述原则之下,《分级定义》从自动对话能力、对话质量高低、单一/多个场景、跨场景上下文依赖和自然切换能力、拟人化程度、主动和持续学习能力、多模态感知与表达能力等多个角度出发,将AI对话系统划分为从L0~L5的六个等级,等级越高,AI对话系统水平越高。
《AI对话系统分级定义》。
在此《分级定义》的规范之下,当前AI对话系统水平最高在L2~L3之间,比如小爱、小度以及市面上大多数其他智能助理,它们在单一高质量对话方面做得很好,也能完成多个场景的对话,具备一定的跨场景能力。
此外,国际上同类智能对话产品也大都在L2~L3之间,尚达不到L4,更遑论L5了。要知道,L4~L5阶段中,AI对话系统要具备记忆、联想和推理、自学习等一系列能力。同时,如果想要AI对话系统真正地类人,那么表情识别、语音理解、情绪感受等其他能力也至关重要。能不能做高表现力的语音合成、细粒度的表情表达,这些都是未来需要解决的技术难点。
专家论道:AI对话系统分级定义的意义
发布《分级定义》对于业界、学界和普通用户意味着什么呢?各路专家学者对此展开了深入探讨。
华为诺亚方舟语音语义首席科学家、ACL Fellow刘群表示,《分级定义》的制定在行业内是一次大胆的尝试,能够引发AI对话系统研究领域的思考和讨论,帮助研究人员更好地发现系统的问题并明确研究方向。
小米技术委员会主席、AI实验室主任王斌表示,在从事AI智能助理的研发过程中,时常感到难以评判所开发AI对话系统的水平,因此《分级定义》的制定非常必要。《分级定义》发布后,AI对话系统能力水平的衡量将有据可依,对于用户来说,能够更多地关注、更清晰地理解AI对话系统;对行业来说,有助于企业明确研发方向,也能够促进行业更规范地发展。
北京师范大学新闻传播学院院长张洪忠一直非常关注社交机器人所带来的伦理挑战,他认为《分级定义》的发布有助于社会对AI对话系统的发展阶段形成更清晰地认知,对于思考、讨论、制定法律规范形成有力参考,以规避AI对话可能产生的伦理问题。
AI对话系统最高级别的应用为复杂情感任务,该《分级定义》的发布将促进AI对话系统在情感任务中体现更高水平,从而促进人工智能未来在情感陪伴、心理健康、虚拟人、元宇宙等方面的应用,大大释放人力和物力成本,促进前沿科技走进大众日常生活。
此次《分级定义》的发布,只是AI对话系统走向规范化、系统化的第一步。接下来,黄民烈教授将联合该领域相关研究机构和研究者深入讨论分级定义的细节内容,编纂白皮书,系统梳理和总结过去几十年AI对话系统取得的成就、存在的问题以及努力的方向。
就长远目标来看,黄民烈教授还希望与各方一起推动建立类似于亚马逊Alexa Prize大奖赛的机制,让不同的对话系统在统一的开发环境、数据集和测试框架中较量,用能力说话。