由图灵提出的图灵测试是用于对机器展现智能行为的能力的测试,测试某机器是否能表现出与人等价或无法区分的智能。图灵提议使人类评估者使用测试对象皆理解的语言去询问两个他不能看见的对象(人与机器)任意一串问题,对话将局限于只有文本的频道,例如计算机键盘和屏幕,因此这样的结果是不依赖于计算机把单词转换为音频的能力。如果经过若干询问以后,评估者不能得出实质的区别来分辨人类与机器的不同,则此机器通过图灵测试。
[描述来源:维基百科URL:https://en.wikipedia.org/wiki/Turing_test]
下面我们引用图灵的论文来具体解释这个术语:
我建议考虑一下这个问题,'机器能思考吗?'这应该从术语“机器”和“思考”的含义的定义开始。这些定义可能是为了尽可能反映这些词的正常使用而设计的,但这实际上会带来另一些问题。我将用另一个与这个问题密切相关的问题来取代这个问题,而不是用相对明确的词语来表达。
问题的新形式可以用我们称之为”模仿游戏“的游戏来描述。它与三个人一起玩,一个男人(A),一个女人(B)和一个询问者(C)——询问者的性别不限——询问者在与另外两个房间隔开的房间中。询问者的游戏目标是确定另外两个人哪个是男人,哪个是女人。他通过标签X和Y了解他们,在游戏结束时,他说'X是A,Y是B'或'X是B,Y是A'。询问者被允许向A和B提问:
C:请问X请告诉我他头发的长度?
现在假设X实际上是A,那么A必须回答。若A的目的是使C混淆并得出错误的答案,那么他可能会回答:
“我的头发是扎起来的,长约九英寸。”
为了排除语调对询问者的影响,最好通过在两个房间之间进行通讯来交流,或者问题和答案可以由中介重复。游戏对象B的目标是帮助询问者,所以对她来说最好的策略可能是给出真实的答案。她可以在回答中添加诸如“我是女人,不要听他的话”的言论。但这实际上对询问者没有任何用处,因为该男子可以发表类似的言论。
我们现在提出这样一个问题:'当在这个游戏中的A实际上是一台机器时会发生什么?'审讯者是否会像以往一样——在和一个男人和一个女人玩游戏的时候——经常做出错误的决定?这个问题取代了我们原来的'机器能思考吗?'的问题。
[描述来源:Turing, A.(1950). Computing Machinery and Intelligence.Mind, LIX (236): 433–460.]
发展历史
描述
图灵于1950年在他的论文中提出了图灵测试,因为'机器能思考吗?'这个问题中的“思考”很难定义,图灵选择用另一个替代问题,提出”有没有数字计算机可以在模仿游戏中表现出色?“图灵并没有把他的想法称为“图灵测试”,而是将其称为“模仿游戏”; 然而,后来的文献保留了术语“模仿游戏”来描述特定版本的测试。
图灵认为,这个问题实际上是可以回答的问题。在论文的其余部分,他反对所有主要反对“机器可以思考”这一命题[6]。
自从图灵提出了图灵测试以后,它已经成为人工智能哲学中的一个重要概念。
1966年,Joseph Weizenbaum创建了一个似乎通过图灵测试的程序——ELIZA——通过检查用户的输入中的关键词进行回复。如果ELIZA找到关键字,则会应用转换用户注释的规则,并返回结果语句。如果没有找到关键词,ELIZA会以通用的反复回复或者重复之前的评论来回应。通过这些技术,Joseph Weizenbaum的计划能够愚弄一些人相信他们正在和一个真实的人交谈,因此,有些人认为ELIZA是能够通过图灵测试的其中一个程序(可能第一个),尽管这种观点非常有争议。
John Searle在1980年的论文中提出的“中文房间”思想实验指出图灵测试不能用于确定机器是否可以思考,这一文章应当是对图灵测试最重要的批评之一。他指出,软件(如ELIZA)可以简单地通过操纵他们不理解的符号来通过图灵测试。如果不理解,就不能像人们一样将其描述为“思考”。因此,John Searle总结说,图灵测试不能证明一台机器可以思考。
从1991年起Loebner比赛提供了实际进行图灵测试的一个平台。2014 年6 月7 号,一款名为尤金·古斯特曼(Eugene Goostmanz)的聊天机器人,它伪装成了一个用第二语言沟通的13 岁乌克兰男孩儿,成功“骗过”了测试者,通过了图灵测试。不过,由于其年龄和第二语言的使用造成事后有很多质疑。
图灵测试也是自然语言处理中的重要概念,机器与人类沟通的能力可以被视为人工智能发展水平的标杆。近年来,有不少相关研究发表,但这一领域的研究成果往往都比较有争议性。
主要事件
A | B | C | |
1 | 年份 | 事件 | 相关论文/Reference |
2 | 1950 | 图灵提出了图灵测试 | Turing, A.(1950). Computing Machinery and Intelligence.Mind, LIX (236): 433–460. |
3 | 1966 | Joseph Weizenbaum模拟“个人中心治疗”而提出了ELIZA | Weizenbaum, J. (1966). ELIZA—a computer program for the study of natural language communication between man and machine. Communications of the ACM. 9: 36–45. |
4 | 1980 | John Searle在论文中提出的“中文房间”思想实验指出图灵测试不能用于确定机器是否可以思考 | Searle, J.(1980).Minds, Brains and Programs.Behavioral and Brain Sciences.3 (3): 417–457. |
5 | 2017 | 印度理工学院的 Arindam Bhattacharya 发表了一篇的论文,介绍了研究者在制造能通过标准化考试(standardized test)的机器上所取得的进展,概述能通过标准化数学和科学考试的机器的制作方法。 | Bhattacharya, A. (2017).A Survey of Question Answering for Math and Science Problem.arXiv:1705.04530. |
6 | 2018 | 微软全球执行副总裁沈向洋、微软研究院首席研究员何晓东、微软(亚洲)互联网工程院副院长李迪(小冰项目负责人)共同提交了一篇论文,回顾了过去五十年来对话机器人的发展历程,并深度讨论了构建先进会话系统的设计原则。 | Shum, H.-Y.; He, X.; Li, D. (2018). From Eliza to XiaoIce: Challenges and Opportunities with Social Chatbots. arXiv:1801.01957. |
发展分析
瓶颈
图灵测试并不直接测试计算机的行为是否智能,它只测试计算机是否像人一样行为。由于人类行为和智能行为并不完全相同,因此在下面两种情况,测试可能无法准确测量智能:
1.一些人的行为本身即是不智能的
2.一些智能行为并不“人类”
未来发展方向
目前关于聊天机器人的研究是一个热点,也许很快,我们就能拥有可以像人一样交流的机器人。
By Yuanyuan Li