2017/07/11 17:04

从声学智能到智能助手，你需要Get哪些知识点？

由中国计算机学会（CCF）主办、雷锋网与香港中文大学（深圳）全程承办的 AI 盛会——全球人工智能与机器人峰会（CCF-GAIR）在深圳大中华喜来登酒店如期召开。

7月8日下午，进入“智能助手”专场。在门罗机器人CEO杨兴义先生的主持下，哈尔滨工业大学教授刘挺、蓦然认知CEO戴帅湘、声智科技CEO陈孝良、暴风TV CEO刘耀平四位业界大咖分享了“从声学智能”到“智能助手”那些不可错过的大咖干货。

刘挺：人机对话技术进展

哈尔滨工业大学教授，社会计算与信息检索研究中心主任刘挺教授：从人机对话技术概述、人机对话技术进展、人机对话评测等方面展开介绍。

Q：人机对话技术概述？

A：我更侧重于语言的方面，这是对话的一个基本框架。人机对话技术的基本框架，包括三个重要的模块：语言理解，对话管理，语言生成。大致走过三个阶段：2012-2014，语音助手；2014-至今，聊天机器人；2016-至今，场景化任务执行。

Q：做聊天机器人有没有意义？

A：我认为有几方面的用处，第一建立人和机器信任，不同于搜索引擎机器可以向人发问，比如问你喜欢看哪类电影，你说我喜欢看动作片的机器人，他立刻推荐一个成龙的动作片，就是这个机器人的聊天机器人对用户的画像发问。另一个就是情绪抚慰的功能，对有情感障碍的，对寂寞的人机器有耐心可定制。你要愿意定制一个就愿意训练你的机器人也没问题。

Q：人机对话技术到底到了什么程度？

A：刚才四个方面也选出了最重要的，一个是聊天，一个是任务执行。我聊天的是没有明确的目标的，而任务有明确性，聊天的这个空间大。对话生成部分比较技术化，不仅仅是算法，从重排序模型到层次化模型到DQN模型，怎样形成一个一个完整的对话，这是很多技术，包括深度学习和强化学习的结合。现在很多大企业不但做智能助手而且提供对话平台，上升到人工智能层面。比如订机票，很多细节需要填补，从CRF到LSTM发展。技术也在进步。中间的对话管理也在向强化学习发展。

Q：人机对话的评测发展如何？

A：评测驱动技术进步，没有标准答案去评测。坚持的理念：自然语言处理，中文评测由中国人引导。评测有两个任务：聊天和任务类第一任务是意图的区分，第二是特定域任务型人机对话在线评测。而多轮分叉是评测的难点，主要看最短话论数内把问题解决掉。

戴帅湘：对话即应用，过去仍在，未来已来

蓦然认知 CEO 戴帅湘先生：互联网领域人机交互的发展过程说明了语音交互时代已经来临，介绍了对话即应用和交互方式融合的重要性，以及对于对话应用未来的发展预测。

Q：为什么“未来对话即应用”？

A：从贯穿互联网发展过程中人机交互的阶段来划分，第一个阶段，20年前，即互联网刚刚普及时，用户通过键盘、鼠标实现与机器的交互。第二个阶段是在触摸屏手机出现以后，用户摒弃了之前的键盘操作。这种变化也带来了应用形态的转化，行业从 Web 程序开发迅速转入 APP 程序开发，也是在这一背景下，此后的10年间，互联网几大巨头迅速经历洗牌。到了今天，我们开始面对第三个阶段，即语音交互的阶段，眼下，各大公司纷纷推出自己的智能音箱品牌，硬件连接，行业称之为“万物互联”时代。今天的设备要想和人类进行大规模合作，对话式语音交互必不可少，并且必定成为主流。未来的IoT时代，语音交互将跨越软件和硬件的边界，在不同场景下，呈现不同的应用和服务，对话即应用。

Q：语音交互时代哪些场景是产品落地与市场化的核心？

A：家居场景下必然会有一个家居控制中心，连接接听设备，需要集中式的交互入口，让它做集中式控制、使用、命令，电视是一个交互切入口。蓦然针对电视进行了专门设计，用户不仅可以获取娱乐信息，还能够实现更多的生活需求：视频电话、订票、查找周边、设置提醒、缴费等；同时为服务提供商带来更多效益。另一个场景是车载，车载是最适合对话的语音交互场景，这是目前业界的一个基本共识。除了行车过程中的路线考察，路线规划，行车导航等，蓦然更关注的是行车目的地，因为后者直接连接服务，对交互的影响更大。上述这两种场景是生活中非常重要的两大场景，它们可以通过一个整体系统，融合成更大场景。而要融合如此多功能的场景，并达成各场景之间的自由切换，必须要有非常复杂的语音交互。对话式语音交互是多种技术融合的必然结果。

Q：对于语音交互时代新交互方式，哪些关键点是最重要的？

A：对于新的交互方式，融合现有的解决方案非常重要。5个层面来说：第一VUI + GUI 融合，GUI 本身是一种确定的、简单的、没有后效性的操作。VUI 是发散的、跳跃的，相对模糊，但是可以完成复杂任务的操作。GUI 是让我们适应机器，VUI 是让机器适应我们。第二多场景融合，让用户感受到服务的意图在各种地方得到满足，才有可能成为很有效的交互方式。第三设备之间的融合，按照现在的很多框架，实现这种方式会非常复杂，需要给用户制造不同设备之间迁移、无缝连接、包裹式的经验。第四，知识+服务融合，真正有用的对话是双向的。系统理解以后做适当的动作，不理解的话做推荐动作、反问动作和澄清动作，这样才能形成完整的、任务式的、有目的、优化的对话，而不是随意的。第五技术的融合，AI 本质上是技术的集合体，是多项关键技术的融合，不是单一的模型，也不是单一的方法。

陈孝良：人机语音交互的技术趋势与商业机遇

声智科技创始人兼CEO陈孝良博士：从技术与商业趋势、以及当前所面临的技术挑战与商业挑战方面，带给了我们更多关于语音交互的商业思考。

Q：为什么人机交互的升级是国内外同步创新的机遇？

A：从交互方式来划分呢，PC时代我们主要依赖的是键盘鼠标，到了移动互联时代，其实主要以智能机为代表，因为在功能机时代，其实我们还是主要依赖于我们的键盘，但是在智能机时代，我们大量依赖于触摸屏。其实这是一种很大的变化，因为他已经解放了我们的一只手。那到了AI的互联网时代很可能我们会以语音交互作为一种数据方式，当然它不是唯一的，肯定还要和我们其他交互方式融合在一起。现在是国内外同步创新的一个机遇，因为语言它天生是一个壁垒，很大的挑战，他将来会带来全球生态的可能的一个重构。可以分为四个层次，底层包括器件、芯片、模组等，其上一层包括VOS、网络，然后再上上产品，最后到内容服务，可能都需要语音交互的变革来进行相应的改变。

Q：远场语音交互技术有哪些挑战？

A：远场语音交互瓶颈在于声学和场景。近场和远场之间的区别是非常大的。当然还要涉及到我们的语义，到底我们语义应该理解到什么程度？这也是我们现在非常迫切解决的问题。我们说带动链条升级，那首先，我们得进行器件升级，矢量麦克风是下一代的麦克风，可能会比较遥远，中间可能会加一层智能的麦克风。但现在国内这项技术还落后来一点。第二个挑战是芯片，第三就是算法。我们有一些原创的算法，因为声学也为军工服务，各个国家相对保密，所以只能各自发展。但是比如我们现在大量使用的机器学习，事实上我们国内大量在做改进性的技术。

Q：远场语音交互商业挑战有哪些？

A：说现在的商业化挑战，其风险在于不确定的启动周期。更细致化的划分：第一就是产品，关于产品怎么定义，怎么挖掘痛点可能是一个比较大的问题。第二我们来看内容服务，国内的内容和服务比较割裂，我们知道腾讯在我们国内占有了很大的音乐版权，百度上有很大量的搜索，我们的交易大量在阿里。那我们关注国外亚马逊做的事情天然有很多优势集中在一起。这是单单某一家公司做是不可能的，得需要整个链条的合作。第三就是标准与知识产权。

Q：对于远场语音交互未来的思考？

A：技术的发展趋势，刚刚我们说到麦克风要从标量麦克风下一步做到智能麦克风，下一代AI是要多传感融合的，麦克风、雷达等技术有声、光、电这三个因素合在一起，到底该怎么做，也是需要进一步研究的。算法和模型也是要考虑的。另外就是产品。音箱会不会死掉，这个问题没有太大意义。国内外都在做的事情，本来就是一个现有的品类，不存在消亡。远场语音交互，开始ren是智能音箱将来绝对不止于此，其他巨头在定位时也不会把技术限定于智能音箱，想象一下后面产品，包括智能耳机，智能盒子，智能车载等。

刘耀平：设备时代结束，助手时代到来

暴风TV CEO刘耀平先生：从AI用户——助手思维讲起，阐述从设备到助手，如何突破新的商业生态的建立和产业红利的释放，以及未来人工智能助手的展望。

Q：为什么未来AI用户将是助手思维？

A：对于我们暴风tv来说，最重要的战略思维是，以前的设备与人的关系带来的人与服务，人与信息的关系，我认为很快就会结束了。AI时代会到来共建一个未来，开启一扇新的大门，看到一个崭新的赛道和新的世界。其中思维先行，对于TC端最重要的思维，也就是助手思维，是暴风tv做人工智能产品时，是非常重要的指导性思维。

Q：从设备到助手，为什么AI助手率先解决人与人的交互突破？

A：解决从设备到助手，我们从关系上来看，就是从人到设备获取信息和服务的关系要变成人与人的关系。以前引爆服务的是触觉，视觉和语言还没有真正引爆。人与人的关系，这个一旦这种关系确定以后确定了以后，通过自然语音与助手的交互，以及在这个交互过程中建立的决策的互动机制，产生的服务的效率和能力是完全不一样。新的商业生态的建立和产业红利的释放需要有些突破口。

Q：人工智能助手的新涌现，哪些值得去关注？

A：从涌现的助手上来看这个市场的话，有三个涌现是值得去关注的。一多设备协同计算（多助手），助手之间的协同，本质是多设备之间的切换。未来一定是助手手与助手之间的联网和协同。二多屏协同服务，这是现在的所有多屏，还是要靠人去操作。声纹在多助手之间能够协同，就大屏无处不在，把这个屏会以什么方式呈现，是AR的方式还是其他的方式呈现，不一定，显示技术可以再次一起发展。但重要的是它会带来一个新的结果，就是跨空间的场景迁移。未来无处不在的助手，给你提供服务，助手之间可以协同，然后再做空间迁移的场景都可以连续服务。三未来会产生家庭社交平台，无论是泛朋友还是陌生人关系，互联网社交平台都做得已经很不错了。但家庭的这个社交平台迄今为止没有出现，关系是存在的，比如以孩子为纽带，但是服务没有做到很好。未来人与人，人与助手，助手与助手之间这种新型的关系产生后，我相信一定会产生家庭社交平台。暴风也会做比较大的投入与准备。

声学在线

产业人机对话自然语言处理人机语音交互机器学习人工智能助手

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

信息检索技术

信息检索（IR）是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

来源：机器之心

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

重构技术

代码重构（英语：Code refactoring）指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。软件重构需要借助工具完成，重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中，重构需要单元测试来支持。

来源：维基百科

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度，其目的是进行资源的优化。常见的规划方法包括经典规划（Classical Planning）、分层任务网络（HTN）和 logistics 规划。

来源：机器之心

机器人技术技术

机器人学（Robotics）研究的是「机器人的设计、制造、运作和应用，以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。机器人可以分成两大类：固定机器人和移动机器人。固定机器人通常被用于工业生产（比如用于装配线）。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器；另外还有能够实现感知能力的软件，比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成，这也是人工智能领域最早的终极目标之一。

来源：机器之心

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话，通过图灵测试。聊天机器人可用于实用的目的，如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统，但大多简单的系统只会撷取输入的关键字，再从数据库中找寻最合适的应答句。

来源：维基百科

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

人机交互技术

人机交互，是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器，也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流，并进行操作。小如收音机的播放按键，大至飞机上的仪表板、或是发电厂的控制室。

来源：维基百科