文章作者 Jean-Christophe Baillie,是 Novaquark 的创始人兼总裁,他提出了这个观点:「没有机器人,就没有 AI」。在这篇文章中,他强调了什么是 AI 以及为什么 AlphaGo 不是人工智能。
图 1:AlphaGo
什么是 AI,什么不是 AI?
毫无疑问,由 Google DeepMind 设计的围棋人工智能 AlphaGo 是一个很智能的系统。在击败世界冠军李世石后,类似的深度学习技术被用来解决工业领域中的特别难以计算的问题。因为 AlphaGo,人工智能再一次成为焦点话题。然而,作者并不赞同 AlphaGo 就是人工智能,因为它不能让我们在人工通用智能 (AGI) 上达到完全地智能。为了创建一个 AGI,其中一个关键问题就是它不能受到设计者的限制。它会自己理解这个世界。就像人类所做的一样,它对自己所遇到的、听到的、说出的以及所做的每一件事都做出自己的内在解释。而与之相反的是,如今的 AI 程序基本上不会理解正在发生的事情,也不会处理其他领域的问题。所以,到底 AI 的定义是什么呢?也许这就是关于 AI 最基本的问题。
1990 年,认知科学家史蒂文·哈纳德(Steven Harnad)在他一篇关于「符号接地问题 (The Symbol Grounding Problem)」[1] 的论文中表达了意义的问题——即系统内部存在的任何表征与实际外部世界之间的连接。例如,假设你必须将汉语作为第二语言来学习,而且你仅有的信息来源是手头的一部汉语词典。浏览字典的旅途将会相当繁杂重复,因为需要从一个无意义的符号或者符号字符串 (定义词) 到另一个定义词,而不会停下来思考一下这个东西的意义是什么。你如何才能从符号到符号的繁杂重复中脱身呢?符号在无意义的符号之外又有什么接地的含义呢?这就是典型的符号接地问题。关于 AI 的意义的问题早在几十年以前就提出来了,但是至今仍未解决。
AI 的意义的问题可以划分为下面四个困扰我们的子问题:
1. 如何组织 agent(人类或者 AI) 从外界接收到的信息?
这是 AI 意义的第一个问题,关于如何组织信息。随着机器学习,尤其是深度学习和非监督学习的快速发展,这个问题在近几年得到了较好的解决。包括 AlphaGo 在内的巨大的进步一定程度上都是由于 GPU 技术的前景,因为其的确擅长处理信息。
像深度学习这样的高效算法所做的就是用最有用的信息在高维空间表达冗余和不可读的数据。
对今天的 AI 而言,监督学习无疑是在实际应用中部署最多并且最成功的方法。朴素贝叶斯分类、Logistic 回归以及支持向量机每年能创造数十亿的价值。除此之外,上面提及的非监督学习也在快速发展。聚类和主成分分析解决了监督学习无法解决的很多问题。甚至,半监督学习和强化学习在产业界也被越来越广泛地投入使用。
尽管有很多有用并且强大的算法来解决不同的 AI 问题,但是没有能够适用于每种情形的通用 AI,没人知道哪种算法能够帮助构建通用目标的 AI。在我看来,使用非监督学习的深度神经网络会最有助于实现这个梦想。例如,IBM 的 Watson 结合了许多算法,从而能够处理各种不同的数据。不过我们要实现 AGI,还有很长的路要走。
图 2:Aldebaran 的类人机器人: Nao, Romeo 和 Pepper
2. 如何将这种结构化的信息与现实世界链接起来,或者,借用前文的定义,如何为 agent 构造「意义」?
在将信息结构化之后,第二个问题是如何将结构化的信息与现实世界链接起来,并给机器人赋予基本的意义。与世界交互的前提是拥有一个躯体,所以,没有机器人就没有 AI。躯体的实现通常被称为「实体化问题」。现在很多 AI 研究者都认同:为了解决 AI 问题,实体化和智能一样重要。从现实世界尤其是动物世界,我们可以看出,每一种躯体都有不同形式的智能。
实体化始于理解躯体的组成部分,并且控制它们以在观察到的环境中产生期望的效果,然后建立自身对这个世界的概念。这个过程被称为「感觉运动理论」,J. Kevin O'Regan 等研究人员已经对此做过许多研究工作。
3. 如何将这种意义与其他 agent 同步?
这个问题与文化的起源有关。与我们人类不同,一些动物通过舞蹈和嗅觉等方式表现出有限和简单的文化形式。没有文化这种智力的基本催化剂,AI 只不过是学术上的好奇心而已。
然而,文化是一个与心理学和认知能力相关的学习过程。它不是那种能够被手动编程到机器里面的东西。通过研究儿童如何获得文化能力,研究人员正在努力了解这一过程。
这个过程也和语言学习紧密关联,语言学习是一个进化的过程:通过与世界的交互,agent 获取新的信息,创造出新的意义,通过新创造的意义与其他 agent 进行沟通,并选择有助于沟通的最成功的结构。在从数百次试验中的错误中学习之后,最终建成了最好的系统。这是深度学习无法解释的东西。一些研究实验室(如 SoftBank Robotics 等)正在通过使用这一过程进一步获取复杂的文化习俗。
4. 为什么 agent 会做所有的事情,而不是什么都不做?如何将这一切设置为运动呢?
最后一个问题是关于欲望。agent 做一些事情是出于「内在动机」的,就像人类一样,不但要满足生存需求,而且还要探索一些由内在好奇心驱动的东西。Pierre-Yves Oudeyer 等人已经证明,简单的数学公式足以解释复杂和令人惊讶的行为。
图 3: RobotCub
当前 AI 的局限
根据作者的理解,目前世界上并没有真正的 AI,包括那些被广泛使用的和出名的 AI 服务和应用。尽管他的观点并不代表一般的想法,但是目前的 AI 确实有它们的局限性。
Siri(苹果的虚拟个人助理)
如果你的句子超出了它的任务领域,Apple 公司最流行的人工智能 Siri 也不能识别你在说什么。
Pepper(软银的机器人)
软银最出名的 AI 机器人 Pepper 也有和 Siri 一样的局限性。更有甚者,即便是配备了语音情感识别系统,它有时候也不能分辨出真正的情感,很容易被糊弄。
alipay(支付宝)
电商巨头阿里巴巴和它的附属在线支付服务支付宝曾使用面部识别技术替代密码。其准确度是可以令人满意的,但是它并不能区分长相相似的双胞胎。
这些例子反映了一个事实,目前的 AI 并没有足够的智能。它们甚至不能很好地处理从外界接收到的数据,更别说与时节交互了。
总结
很高兴看到深度学习的快速进步和 AlphaGo 的巨大成功,因为它们能够在医学研究、环境保护以及其他很多领域得到很多有用的应用。然而,深度学习并不是通向真正 AI 的灵丹妙药。真正的 AI 是那种能够从外部世界学习、与我们自然地交互,并能理解我们的情感、意愿和文化偏向的复杂智能,它最终能够帮助我们创造有更加美好的世界。
参考文献
[1]. Harnad S. The symbol grounding problem[J]. Physica D: Nonlinear Phenomena, 1990, 42(1-3): 335-346.