2017/03/30 12:18

Gartner：2020年30%的网络浏览无需屏幕，VPA将代替人与应用程序、API等互动

Gartner：2020年30%的网络浏览无需屏幕，VPA将代替人与应用程序、API等互动

近日，Gartner在北京召开“新兴技术：整装终端设备、平台与服务，应对人工智能挑战”研讨会，研究总监Angela McIntyre在会上分享了题为“Artificial Intelligence Fuel Competition in User Experience”的报告。

Angela McIntyre.jpg

报告预测到2020年，人工智能将会推动3000亿美元的利润。

3000亿美元撬开的市场会是什么样子呢？Angela女士说：“未来，我们对待人工智能就像对待今天自然中的水、电一样习以为常。”

推动这股潮流的是眼下超过2100家专注于人工智能的初创企业，和像百度、亚马逊和微软等传统的大型公司，以及其背后的三股技术，即深度神经网络（DNN）、多核的GPU、大数据。自2008年以来GPU得到了大规模提升，已经从当时的1千万个到达2015年的1千亿个，翻了10倍。

在技术的狂飙突进之下，如果公司想在人工智能解决方案领域有所作为，Angela女士建议：“可以使用现在市场上已成型的技术，而无须自己从头做起，同时也可以雇佣像亚马逊的AWS等来节省自己的时间。”

比如，现在对于“深度学习”有很多第三方提供的框架，可以联合公司和企业利用、创建他们自己的模型，另外还有针对解决具体任务的代码API，比如专注于图象识别的Clarifai。此外，现在市场上有很多小型的解决方案可以整合到联合公司提供的产品或服务当中。例如，可以通过识别汽车的车牌判断汽车的品牌和型号。

计算机视觉和对话式的AI平台是驱动用户体验改革的两大人工智能技术。

在医学领域，有多家公司正在使用计算机视觉技术，通过分析众多的医学影像检测癌症和肿瘤，比如Imagia公司。与人工肉眼相比，除了准确度外，计算机视觉的另一优势在于可以对不同的影像进行分类，识别视频和图象中的人脸表情，节省了大量人工。

在电商领域，计算机视觉也可以帮助我们通过各种各样的方法衡量周边环境的改变，带来更新、更好的用户体验，比如Gofind.ai和淘宝都推出了一项功能，让顾客通过手机拍照把看到的商品传到云端，在后台与类似的商品进行比照，找出最接近的匹配，在此基础上在手机客户端直接下单，就可以在这些平台上直接购买这个商品了。

在体育方面，也可以借助“计算机视觉”来分析运动员的运动状况，了解运动员的速度、球的速度等实时数据。同时将这些数据与图象、影像结合起来，便于球迷们观看，增强球迷与比赛、运动员之间的距离，加强了互动。

对话式人工智能平台（VAP）将成为用户体验的核心。

其中语音技术的发展是关键，Angela女士指出，通过深度神经网络来提升语音和文本转换中的字错率（CER）是技术突破的重点。此外，多语言以及如何将语音技术嵌入移动设备也是语音技术的两大研究趋势。

未来的虚拟个人助理（VPA）将脱离传统屏幕，通过语音为用户提供多种服务。Gartner预计在2020年，30%的网络浏览都无需浏览屏幕就可以实现。然而Angela女士认为，在这个过程中，各公司都将面临一个挑战：如何在众多的VPA当中选取优先整合的对象，同时，也要进行重新设计，从传统的以视觉、屏幕为基础的方式转化为以听觉、靠语音来操控的方法。

VPA将会取代人与各个应用程序、API或机器人进行互动

由于未来将有越来越多的互动通过VPA完成，传统形式的与应用程序互动会减少。Gartner预测在2020年，80%的消费者使用的应用程序的数量是现在的一半。Angela女士为我们描述了这样一幅画面，“届时我们将不再需要如此频繁的打开浏览器或点击链接，只需通过应用程序调用API，我们将会以VPA作为一个中枢或者是联络点与网络服务相互交互。”这就意味着，那时VPA将会取代人与各个应用程序、API或者是聊天机器人进行互动。

那么无界面的人机体验一定是最好的吗？目前还有哪些亟待解决的问题，机器之心就未来的人机互动体验对Angela女士进行了采访。

机器之心：目前人机交互方面面临着哪些亟待解决的问题，未来人工智能技术将在哪些方面提供终极互动体验？

Angela：现在人们通过语音与计算机或者技术互动，是改善用户体验最快的一种方式。当然，现在在这个领域也面临一些挑战。比如：目前语音系统要区分多种语言的使用存在一定的困难。也就是说，人们如果在多种语言之间进行切换，可能会加大识别的困难。在这个过程当中的难点都是关于语言的。

另一个难点在于语音识别系统难以理解广泛的语言及话题，以及语言想要传达的意图。例如，在英语当中有这么一个句子：“歌手都住在巴黎的希尔顿酒店听题名为《巴黎》的这一张专辑”，这句话对于系统来说识别起来存在困难，但是对于人来说这个不构成任何的问题。

此外，难点还在于人们时而会使用口语或者同音词，这些词发音相同，意思却大相径庭。再有一个难点就是麦克风，当人们在离麦克风比较远的位置或者是有很大噪音的时候，都会削弱语音识别的准确度。

机器之心：您刚才提到的一直都是语音交互，我想知道人机界面最终的形态是什么样子？它是完全语音的吗？那么一个完全消失的界面，会带来最好的用户体验吗？也就是说，一个最终杀手级的VPA它是什么样子的？它会具备哪些必要的要素？

Angela：当然，要实现您所说的这种情景，计算机就需要了解“人想要实现什么样的目的，想要完成什么样的动作”，方法就是不断的观察人及周边的环境，以及人的行为背景是什么？这对于目前的计算机视觉来说，还是很难实现的。与此同时它也会从其它来源收集数据，比如：麦克风、传感器、可穿戴设备等来监测人的一些重要的指标，例如心跳或者是人们运动参数等，通过这些数据帮助机器、计算机更好的理解人们特定行为的背景是什么、其背后的理性思考是什么，同时会辅之以历史数据，从中获取一些规律或模式，在此基础上预测人未来会采取什么样的行为。以此对人做出建议，或者对有些工作和任务进行代劳。不过这些现在谈起来好像是科幻片一样。

记者：有一些人群他们看不见也听不见，他们其实也是一个市场。这个市场现在有人在做吗？

Angela：微软在这个领域正在进行一个视觉的项目，也就是视觉记忆的人工智能。主要是通过一个类似于视频眼镜的设备来帮助盲人，这个智能眼镜会拍视频进而告诉盲人他们眼前的景象。比如，正在与他们交谈的是一位年轻的女性，她正在说话、正在微笑，或者现在来的这辆公交车是25D，或者是前面有一辆行驶的自行车等。

记者：刚才我们在演讲中一直提到的就是人工智能在处理大数据的过程中一定会涉及到很多隐私，也就是说“如何保护隐私”的问题，现在也有一些人给出了解决方案。您认为“拆分隐私”这个解决方案是不是比较好的方案？另外，目前还有什么可用的技术来解决“隐私”问题？

Angela：很多人都在考虑将“区块链”作为保护隐私的一种方法。区块链的特点就是将数据打破进行拆分，并不是放在同一个位置，这样有着密钥的人可以把这些数据再进行整合，通过这种区块链的方法保护数据、保护隐私。

入门人工智能行业报告产业投资Gartner