Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

杜伟报道

全球首个《AI对话系统分级定义》发布,这下语音助手有了强弱之分

6月28日,由清华大学计算机教授、智能技术与系统实验室副主任黄民烈发起,联合了十余家科研机构、二十多位知名学者共同制定的全球首个《AI对话系统分级定义》正式发布,此举将推动AI对话系统在虚拟个人助理、智能家居、智能汽车(车载语音)、情感陪护和心理健康等领域的应用有据可依,并将加速下一代AI对话系统的研发与应用。

AI对话系统起源于图灵测试,是人工智能领域最重要的研究方向之一。如果说自然语言处理人工智能“皇冠上的明珠”,那么AI对话系统则是自然语言处理中最难、最核心的任务之一,是“明珠中最亮的那颗”。因此,AI对话系统被认为是衡量人工智能发展水平的重要因素,代表了人工智能的发展方向。

在工业应用领域,AI对话系统已经呈现出了爆炸式增长态势,在智能助理、智能客服、社交机器人、心理咨询、虚拟人和元宇宙等多样化场景中随处可见它的身影,比如以小度、小爱、为代表的智能助理,还有以谷歌对话机器人Meena、Facebook聊天机器人Blender为代表的开放域闲聊产品。

图源:mobidev

近年来,随着深度学习技术的不断发展,AI对话系统已经从基于规则的第一代和以传统机器学习为核心的第二代,发展到以大数据和大模型为显著特征的第三代。作为结果,对话能力发生了革命性变化,在开放话题上更是展现出了惊人的对话能力。

 AI对话系统发展历程。

然而,作为前沿技术,当前AI对话系统标准缺失,造成其在应用中呈现出水平参差不齐、评价体系不一的现状,导致了业界因认知不统一而对人工智能交互水平出现误解,也引起了社会上关于意识、伦理、道德等方面的广泛讨论。

因此,为了更好地评估AI对话系统的能力水平,清华大学智能技术与系统实验室副主任黄民烈联合学界和业界科研机构制定了全球首个《AI对话系统分级定义》(以下简称《分级定义》),旨在衡量AI对话系统的能力水平,从而促进AI对话系统的进一步研究,同时为工业界应用提供参考。

其中,参与本次《分级定义》的业界机构包括科大讯飞京东阿里达摩院华为诺亚、百度、腾讯、小米、美团、聆心智能和三星等AI对话系统领域的资深玩家,以及学界顶尖研究机构如清华、人大、中国科学院深圳先进技术研究院、哥大、北师大和哈工大等。

AI对话系统有了自己的分级规范

我们知道,根据系统智能化程度的不同,自动驾驶领域有L0-L5的分级标准。《分级定义》制定时主要参考了这种分级方法,不过这种参考并非生搬硬套,因为对话任务本身自有其特征。

黄民烈教授表示,「考虑到AI对话系统任务繁多、评价维度多样、技术路线丰富,撰写小组在制定《分级定义》时仅关注完全由机器主导的对话系统,人机混合的对话系统不在考虑范围内。」

同时,为了在实际应用中发挥价值,《分级定义》的制定是从用户可感知,以及可观察、可测量、可度量的角度出发,不考虑系统的具体技术实现方式,也不区分助理类任务、闲聊、知识对话等,均以“场景”进行表述。

黄民烈教授详细介绍《分级定义》。

在上述原则之下,《分级定义》从自动对话能力、对话质量高低、单一/多个场景、跨场景上下文依赖和自然切换能力、拟人化程度、主动和持续学习能力、多模态感知与表达能力等多个角度出发,将AI对话系统划分为从L0~L5的六个等级,等级越高,AI对话系统水平越高。

《AI对话系统分级定义》。

在此《分级定义》的规范之下,当前AI对话系统水平最高在L2~L3之间,比如小爱、小度以及市面上大多数其他智能助理,它们在单一高质量对话方面做得很好,也能完成多个场景的对话,具备一定的跨场景能力。

此外,国际上同类智能对话产品也大都在L2~L3之间,尚达不到L4,更遑论L5了。要知道,L4~L5阶段中,AI对话系统要具备记忆、联想和推理、自学习等一系列能力。同时,如果想要AI对话系统真正地类人,那么表情识别、语音理解、情绪感受等其他能力也至关重要。能不能做高表现力的语音合成、细粒度的表情表达,这些都是未来需要解决的技术难点。

专家论道:AI对话系统分级定义的意义

发布《分级定义》对于业界、学界和普通用户意味着什么呢?各路专家学者对此展开了深入探讨。

华为诺亚方舟语音语义首席科学家、ACL Fellow刘群表示,《分级定义》的制定在行业内是一次大胆的尝试,能够引发AI对话系统研究领域的思考和讨论,帮助研究人员更好地发现系统的问题并明确研究方向。

小米技术委员会主席、AI实验室主任王斌表示,在从事AI智能助理的研发过程中,时常感到难以评判所开发AI对话系统的水平,因此《分级定义》的制定非常必要。《分级定义》发布后,AI对话系统能力水平的衡量将有据可依,对于用户来说,能够更多地关注、更清晰地理解AI对话系统;对行业来说,有助于企业明确研发方向,也能够促进行业更规范地发展。

北京师范大学新闻传播学院院长张洪忠一直非常关注社交机器人所带来的伦理挑战,他认为《分级定义》的发布有助于社会对AI对话系统的发展阶段形成更清晰地认知,对于思考、讨论、制定法律规范形成有力参考,以规避AI对话可能产生的伦理问题。

AI对话系统最高级别的应用为复杂情感任务,该《分级定义》的发布将促进AI对话系统在情感任务中体现更高水平,从而促进人工智能未来在情感陪伴、心理健康、虚拟人、元宇宙等方面的应用,大大释放人力和物力成本,促进前沿科技走进大众日常生活。

此次《分级定义》的发布,只是AI对话系统走向规范化、系统化的第一步。接下来,黄民烈教授将联合该领域相关研究机构和研究者深入讨论分级定义的细节内容,编纂白皮书,系统梳理和总结过去几十年AI对话系统取得的成就、存在的问题以及努力的方向。

就长远目标来看,黄民烈教授还希望与各方一起推动建立类似于亚马逊Alexa Prize大奖赛的机制,让不同的对话系统在统一的开发环境、数据集和测试框架中较量,用能力说话。

产业规范分级AI对话系统
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
科大讯飞机构

科大讯飞股份有限公司成立于1999年,是亚太地区知名的智能语音和人工智能上市企业。自成立以来,长期从事语音及语言、自然语言理解、机器学习推理及自主学习等核心技术研究并保持了国际前沿技术水平;积极推动人工智能产品研发和行业应用落地,致力让机器“能听会说,能理解会思考”,用人工智能建设美好世界。2008年,公司在深圳证券交易所挂牌上市。

http://www.iflytek.com
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

规范化技术

规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到1.0 或0.0 到1.0。 通过将属性数据按比例缩放,使之落入一个小的特定区间,如0.0到1.0,对属性规范化。对于距离度量分类算法,如涉及神经网络或诸如最临近分类和聚类的分类算法,规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘,对于训练样本属性输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法,规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属相相比,权重过大。有许多数据规范化的方法,包括最小-最大规范化、z-score规范化和按小数定标规范化。

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

图灵测试技术

图灵测试(英语:Turing test,又译图灵试验)是图灵于1950年提出的一个关于判断机器是否能够思考的著名试验,测试某机器是否能表现出与人等价或无法区分的智能。测试的谈话仅限于使用唯一的文本管道,例如计算机键盘和屏幕,这样的结果是不依赖于计算机把单词转换为音频的能力。

美团机构

美团的使命是“帮大家吃得更好,生活更好”。作为中国领先的生活服务电子商务平台,公司拥有美团、大众点评、美团外卖、美团打车、摩拜单车等消费者熟知的App,服务涵盖餐饮、外卖、打车、 共享单车、酒店旅游、电影、休闲娱乐等200多个品类,业务覆盖全国2800个县区市。

www.meituan.com
京东机构

京东(股票代码:JD),中国自营式电商企业,创始人刘强东担任京东集团董事局主席兼首席执行官。旗下设有京东零售、京东物流、京东科技子集团、印尼&泰国海外合资跨境电商等核心业务。2013年正式获得虚拟运营商牌照。2014年5月在美国纳斯达克证券交易所正式挂牌上市。 2016年6月与沃尔玛达成深度战略合作。

https://www.jd.com
相关技术
腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
黄民烈人物

黄民烈,清华大学计算机科学与技术系副研究员。人工智能、深度学习、机器学习方法与应用;自然语言处理,自动问答,人机对话系统,情感分析,社交数据挖掘。

达摩院机构

阿里巴巴达摩院(The Academy for Discovery, Adventure, Momentum and Outlook,Alibaba DAMO Academy)成立于2017年10月11日,是一家致力于探索科技未知,以人类愿景为驱动力的研究院,是阿里在全球多点设立的科研机构,立足基础科学、颠覆性技术和应用技术的研究。阿里巴巴达摩院由三大主体组成,一是在全球建设的自主研究中心;二是与高校和研究机构建立的联合实验室;三是全球开放研究项目-阿里巴巴创新研究计划(AIR计划)。

https://damo.alibaba.com/
推荐文章
暂无评论
暂无评论~