Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

图灵测试已OUT,这才是测试AI的更佳方法

编者按:本文作者Jacob Aron 在一个人工智能当过评审,当时的参与者普遍表现不佳。他当时就觉得,还不如用面部识别或者扑克技巧测试来得方便一些。 [caption id="attachment_4180" align="aligncenter" width="800"]树还是花椰菜?傻傻分不清(图片:Reuters/Gleb Garanich) 机器人内心独白:这到底是树还是花椰菜?傻傻分不清(图片:Reuters/Gleb Garanich)[/caption] 上周六我在布莱切利园参与了一场智慧碰撞的活动,话说布莱切利园可是一个庄重的好地方,二战时候这里聚集了一批英国的密码破译员。而我作为评审很荣幸地参加了正在举行的一年一度的罗布纳奖(Loebner prize)比赛,主题是「机器是否具备人类的思考能力」。这题目听起来已经不新鲜了,不过不可否认的是,在某些领域,机器的确在以惊人的速度赶超人类。 布莱切利园对这一议题来说是个很合适的比赛场地:整场比赛都是基于数学家和计算机技术先锋阿兰·图灵曾经提出的测试「COMPUTING MACHINERY AND INTELLIGENCE 」。众所周知阿兰·图灵在整个二战期间把心血都贡献在了破译纳粹密码上。他曾经提出这样一个假设:如果机器可以愚弄一个人类认为他也是同类,那么就代表机器也具备思考能力。 回到Loebner prize,四个人类评审各坐在一台电脑前,将同一组测试题分别分配给远程的一台机器和一个真实人类回答。在25分钟的有限时间内,评审需要根据回答来分辨出谁是机器人,谁是人类,然后才可以继续测试下一对人/机器。 评审时,我几乎在分秒间就可以分辨出谁是机器谁是人类。其中一个机器试图诱骗我说,如果我承认它是人类就把获奖奖金与我对半分。另一个则直接说自己是宇宙飞船载来的外星人。显然这些伎俩对我派不上用场。反之,人类参赛选手却总能从最简单的问题中彰显出自己的人类特性,比如天气啦,周遭的环境啦,而机器不然就是彻底忽视这些,不然就是完全搞错了用力的方向。 最后当然四个评委都没有被机器愚弄过去。然后,就像历史上的每一届Loebner prize一样,表现最佳者赢得了一枚铜质奖牌。那么,我们有更接近真正的人工智能一些吗? 一直以来,图灵测试最大的争议就在于,究竟怎样才算通过了测试。图灵曾在1950年做出预测,到了21世纪,机器将可能具备通过30%测试题的能力。有些人就自以为是地解读为这是机器能够愚弄评审的程度。去年也有这么一个热度新闻:在伦敦英国皇家学会,有人宣称一个聊天机器人通过了图灵测试。但另一些人则视50%的正确率为通过标准。 但是就算有那么一个机器人在上周成功地愚弄了我们,也丝毫不能说明他的智能程度。这是因为实验的结果很大一部分也取决于评审自己的水平和发问技巧。而这些都会影响测试的最终参考价值。 从结果上来看,大部分的AI研究人员也早就抛弃了图灵测试转而采用更可靠的方式去测试机器。近年来,计算机算法在某些领域的能力已经开始与人类比肩甚至超越了人类。 「我把时间都花在教计算机识别视觉图案上了,因为我觉得比起图灵测试,这才是通往人工智能的捷径。」马塞诸塞州大学的Erik Learned-Miller说道。他是LFW(Labeled Faces in the Wild)人脸识别数据集背后的成员之一。LFW至今已经通过网络收集了超过13,000张人脸图片与对应信息,业已成为人脸识别算法的标准数据库。 感谢深度学习和人工神经网络对硬件和软件的巨大推动,使得这一领域的研究如今正在突飞猛进。AI技术正在试图模仿人类的脑部神经回路构造。去年Facebook公布了其DeepFace 算法的细节,并在LFW数据库进行面部识别后取得了97.25%的精确度,比人类的平均辨识度97.5%只低了一点。 「走到现在,人们开始明白这才是正确的道路。」 Learned-Miller说道。他还认为,这拉开了业界大鳄们军备竞赛的序幕。今年Google的FaceNet 系统也取得了99.63%的高分——看起来比人类都厉害了不少。不过Learned-Miller认为这事不能单从数据去看。机器现在还是无法准确地捕捉人类的动态形象。不过距离也在渐渐拉近。 除了LFW,大鳄们也在一个叫ImageNet的数据集上测试他们的面部识别算法。越来越多的图片数据被收集用做测试。他们都急切地渴望在「大规模视觉识别挑战赛」(Large Scale Visual Recognition Challenge)中获胜。为了今年的比赛,微软已经提前公布了取得历史新高的最新算法的成绩:95.06%——也还是只比人类领先一点点(人类在ImageNet上的平均成绩是94.9%——译者注)。 但是竞赛的组织者之一,卡内基梅隆大学的Olga Russakovsky指出,数据库的数据有限,算法实际上只是从1000个种类中辨认出正确的面孔。相对人类来说,这一成就实在小的可怜。「就算你能准确辨认出所有的物件,也离建立一个有智能的机器相差甚远。」她说道。要展现真正的智能,机器必须能推断出图像所处的环境,并预测图片拍摄1秒后的情景。 机器显然也需要培养这样的综合能力。当人类需要在掌握信息不完全的情况下做出决定时,我们会先推测别人的选择。AI也能这样做吗?「扑克牌已经成为在信息不全的情况下判定智能程度的标尺。」同样来自卡内基梅隆大学的 Tuomas Sandholm说道。 对于机器来说,由于扑克的众多不确定性使得它比下象棋还要难,而在象棋领域机器早已立于不败之地。一月的时候,加拿大阿尔伯塔大学的一个小组发布了机器如何在扑克牌游戏中击败所有人类对手的详细数据,但也写明,这只在较为简单的扑克规则之内才成立。 正式的扑克游戏中,人类还是占尽优势。不过几个月前Sandholm带领他的机器对战一组专业扑克选手,只以细微差距惜败。「至少99.9%的人类都比我们的计算机扑克程序要差,」他说。这种比赛相对于图灵测试也是一个进步。「我更喜欢这种测试,因为他不是让计算机去伪装AI,计算机真的要具备一定智能才能打败人类。」 那么图灵测试还有一线生机么?人工智能与仿生机器社会学专家,同时也是也是Loebner prize管理者之一的 Bertie Müller说,「举办这一比赛的部分原因就是不想忘记传承。图灵如果还活着的话,他自己现在也不会觉得图灵测试是最好的方法。」更好的测试能帮助我们观察AI在多样环境下的反应。这有点像把一个初学走路的孩子放在满是玩具的房间,然后观察它会做什么。 「对于智能机器的看法已经发生了变化。为了建立智能机器,我们想要先为机器建立一些更广泛的基本技能。」Learned-Miller说,「我认识的所有相关领域研究者都同意,一个真正的智能机器将有能力通过视觉识别技术去了解现实世界,而不仅仅是被限制在几段交互对话中。但要将所有尚未摸透的碎片化细节整合出一个真正的智能机器,我们还有很长很长的路要走。」 机器之心编译出品。来自New Scientist。作者Jacob Aron。翻译,xiaoxi。校对,汪汪。  
入门
暂无评论
暂无评论~