Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Jeffrey P. Bigham作者Geek AI、张倩编译

AI 金秋将至

最近一段时间,「AI 寒冬将至」、「AI 泡沫即将破裂」的声音此起彼伏。AI 的发展也确实遇到了一些瓶颈,以至于不少人对通用人工智能的实现望洋兴叹。本文作者也认可这些局限的存在,但同时他也指出,如果努力发展以人为中心的人工智能应用,这一领域也将结出硕果。

我们周围关于人工智能的炒作正在逐步降温,接下来我们要关注是将以人为中心的机器学习技术应用于重要问题的大丰收!

我喜欢对关于人工智能的炒作吐槽,下面是前几天的一篇推文:

MIT 展示了一个会玩叠叠乐的机器人(参见:MIT 的机器人会玩叠叠乐了!手残的你怕不怕

机器人不会教它自己怎么玩叠叠乐(Jenga)游戏。我到现在也没有读过这篇文章,但有些人决定教机器人去玩 Jenga。人类付出巨大努力开发了一个让机器人能够利用某种数据进行学习的系统。最有可能用到的数据来自于人类的试验,或者可能人们建立了适当的强化机制让机器可以通过「自己玩游戏」来学习。

类似的,在 2020 年之前,汽车也不会自动驾驶语音识别语音识别也没有达到与人类相媲美的水平。亚马逊的「Alexa」也不是一个对话性的系统。目前的计算机视觉技术不能解决任意的视觉问题。我们还没有面临具有自我意识的杀手机器人的危险。

一些人看到一个又一个曾经的预言失败了,就认为另一个「人工智能的冬天」可能即将到来,但这并不会发生。当年人工智能之所以进入寒冬,是因为尽管有大量的炒作,但是其背后还没有太多的理论支撑。近一段时间以来,在这样的炒作之下也诞生了很多重要的工作。人们认为 Alexa 是一种对话式的智能体,但它实际上只是一个更好的麦克风,是一种在工程中已经被普遍应用的基于规则的系统,而且它确实在某种程度上是由深度神经网络赋能的更好的语音识别系统。「连线」杂志表示,深度学习是贪婪的、脆弱的、不透明的、肤浅的,这些说法没有问题,但是即使有这些限制,很多重要的东西还是可以实现的。

目前实用性的人工智能技术更多地是探讨我们如何形式化定义问题以及我们能收集到什么数据,而不是以新奇的模型为出发点——在技术层面上,今天的「人工智能」是与网络、系统以及数据库息息相关的,正如它与新算法紧密相关一样。最终,人工智能技术还是围绕人类展开的。

人类的表现是「被过度炒作」的人工智能技术的对比基准(也就是说有些方法已经在某些问题上可以与人类相媲美)。然而,被过度炒作的人工智能技术却在很大程度上忽视了与人相关的因素。不过,它们也无法再被忽视了,因为当人工智能技术朝着更实际的应用方向发展而不能取得进展时,与人相关的因素又会重新回到前沿。考虑到人的因素时,炒作就会减弱。当你考虑到除了在光照良好、路况熟悉的道路上行驶,系统还要顾及人类驾驶员面临的其他状况时,自动驾驶汽车似乎不太可能实现。人类驾驶员会寻找乘客,他们会去加油,有时还会去修车,他们要确保喝醉的乘客没有危险,他们要送老年乘客去医院,等等。

我们已经越过了炒作「使用人工智能模仿人类的表现」的时代,转向更实际的以人为中心的机器学习应用。如果炒作是冰山一角的快速融化,那么以人为中心的伟大的应用工作就是漂浮在下方、支撑一切的巨大冰山。

统计模式识别和非确定性的人类

几天前,我在推特上沉思道:如果我们不再将这个领域称为「人工智能」,转而使用更加具体和准确的术语「统计模式识别」,那么现在的这种炒作是否会消失呢?

其他人则有不同的看法——Judea Pearl 认为我们需要能够进行因果推理的新方法,Pedro Domingos 正在寻找「终极算法」,其他人则希望能够超越「与动物相类似的能力的认知功能优化」,并促使我们朝着与人类同等水平的智能进发。

不管它是如何构建的,这些讨论之所以发生,是因为「人工智能」传达了一种智能的概念——人类的智能,这是目前的方法无法满足的。我们的系统往往缺乏常识、跨领域类比的能力、推理因果关系的能力,以及与非确定性的人类进行流畅的模仿和互动所必需的智能的其它组成部分 [1]。

统计模式识别是一个非常强大的工具。为了充分利用这一优势,我们需要进行艰苦的工作,找出既足够重要又足够有针对性的问题,从而使统计模式识别(SPR)方法能够很好地发挥作用。发现重要的问题,将它们映射到从计算的角度来说容易处理的解决方案,收集有意义的数据集,设计对人们有意义的交互,这些都是以人为中心的智能(HCI)及其内在方法的亮点。

HCI 是我认为人工智能这次遭遇的将不是冬天而是秋天的原因。能够应用机器学习技术来解决实际人类问题的人将成为最重要的技术人员。越来越多的易用库能够提供功能强大的机器学习技术;如果你想保持领先,你需要我们在 HCI 课程中教授的技能。

如果你的目标是熬过人工智能的冬天,希望有一天能开发出真正智能的人工智能,那么就打破深度学习和实际应用的束缚,勇敢前行。

如果你的目标是收获丰厚的回报,那么就去学习 HCI 技术吧。

HCI 如何在人工智能的丰收中获利?

HCI 的优势来自对多个学科的结合——至少涉及到计算机科学、设计和行为科学(心理学、认知科学等)。精通 HCI 的人可以使用各种以人为中心的方法来理解现在,设计和实现未来,并验证这些未来的设想。就像在大多数领域一样,从业人员是专门化的。例如,有人可能专门研究当前人们使用的技术,或者专门设计预测性的或刺激性的未来,或者为人们使用的未来技术系统构建原型。

下面,本文将给出一些我认为 HCI(以及相关的)研究和实践将在人工智能的秋天收获颇丰的一些领域,无论未来几十年在真正的智能机器方面会有什么进展,它们都将扮演一定角色:

支撑人类的智能应用

随着机器学习方法被更好的理解,并被更好地打包成工具,最大的挑战将转变为如何将它们应用于实际的与人类相关的问题。这就是 HCI 的优势所在!

人工智能发展的早期,智能机器的关注点在于智能增强(IA),正如 Vannevar Bush 在「As We May Think」中所描述的那样。我们将 Douglas Engelbart 奉为「鼠标之父」,但他在「Mother of All Demos」中着重讨论了计算技术如何才能够普遍地增强人类智能。Engelbart 对此进行了广泛的讨论。有一段时间,该领域被称为「智能用户界面」,这也成为了该领域的一个著名会议的名称。现在,随着人工智能(以及不切实际的通用人工智能)的局限性逐渐凸显,「人类增强」的概念正变得越来越流行,阅读这本较老的著作是值得的,因为其中的许多见解都具有深远的相关性。

HCI 正在努力解决支持人类的难题——收集和扩展新的数据集;找出人和机器协作的新方法;创造出使设备和世界能更易被理解的系统,无论人的能力如何;为交互和健康创建机器学习技术赋能的传感系统;并致力于打造能够帮助人们更好地创建机器学习模型的系统。

这一领域的挑战和影响与这样一个事实有关,即它的根本目的是创造和解决新的问题,而不是改进现有问题的解决方案。因此,整个过程可以被视为发现和验证一个问题、迭代地提出潜在的解决方案、对这些解决方案进行原型化和精细化、最后验证该解决方案是否解决了预期的问题。

随着机器学习算法被商品化,那些能够在整个机器学习的应用过程中发挥作用的算法将是最有价值的。

设计和人工智能

HCI 的从业人员一直站在前沿,思考人类将如何与人工智能互动,以及如何做一些工作来让人类有效地与人工智能互动。你可以在 90 年代 Pattie Maes 和 Ben Schneiderman(HCI 先驱)之间的「智能体 vs 直接操作」(agents vs. direct manipulation)的辩论中看到这一点。Ben 接着创建了信息可视化领域,从方法论的层面回应人类如何与日益丰富的数据和复杂的世界直接互动。

人工智能和 HCI 的交叉领域工作的人们很久以前就意识到,构建包含「人工智能」元素的用户界面有一些不同之处,尤其是由于人工智能是不确定的,而且常常是不正确的。Eric Horvitz 和其他人将其称之为「混合主动交互」(Mixed-Initiative Interaction)。你可以在一篇发表在 1999 年的 CHI 会议上的经典论文《Principles of Mixed-Initiative User Interfaces》中读到这一点,尽管我也喜欢下面的这个版本《Mixed-initiative interaction》,其中包括 James Allen 等对话式人工智能大牛的一些评论。Eric 和 Saleema Amershi 等新作者在他们的 CHI 2019 的论文《Guidelines for human-AI Interaction》中对此进行了新的论述。

从某种程度上说,人类往往只在火烧眉毛时才思考,那就太迟了。一位我不确定是否应该提及的同事这样描述:「很多工作都在研究如何给人工智能猪涂口红」。因此,如今设计和人工智能的研究前沿是理解设计师如何才能使用机器学习作为设计材料。其中很大一部分是教设计师如何思考机器学习。这不仅关乎如何将用户接入不确定的人工智能结果:它考虑的是应该解决什么问题;什么机器学习方法与人类预期的问题相匹配;针对于特定的用例,哪些问题可以被很好地解决。

设计正迅速成为同类产品之间的差异所在;因此,那些最擅长机器学习的设计师将提供最大的价值。

计算社会科学

机器学习正在我们所做的每一件事中发挥作用,因此我们需要仔细思考机器学习的意义,以及我们可以做些什么来减轻它的负面影响。计算社会科学家为我们带来的方法往往更倾向于面向对人类的研究,使用 HCI 中教授的各种技术,并借鉴心理学和认知科学等基础领域的方法(如调查、访谈、日志分析和人种学)。

这些技术已经对用户如何理解(或误解)与之交互的算法产生了难以置信的深远影响(例如,Facebook 的新闻 feed 流;YouTube 的推荐系统如何鼓励极端主义;社交媒体虚假新闻的识别机制;用户界面的元素如何影响在线言论;用户对在线隐私的认识,等等)。

HCI 技术在识别或解决此类问题上并没有处于垄断地位,但考虑到我们也是开发者和设计师,它在揭露和干预这些问题上确实有独一无二的地位。

结语

「埋头苦干做好高质量的工作,一切都会好起来,对吗?!」... 总的来说,在人工智能领域,越来越明显的现象是:人工智能的秋天即将到来,为了做好准备,你需要在 HCI 可以大展身手的领域和方法上有所提升。


原文链接:http://jeffreybigham.com/blog/2019/the-coming-ai-autumnn.html

入门人工智能人工智能应用
相关数据
Amazon机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

因果推理技术

基于因果关系的一类推理方法,是一种常见推理模式,涉及观察到的共同效应的原因的概率依赖性。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
暂无评论
暂无评论~