Yann LeCun 是深度学习研究领域内一个响当当的名字。作为 Facebook 人工智能研究团队(FAIR)的领导者,他正在帮助这家世界上最大的社交网络公司创造能够理解用户发布的文本、照片和视频等内容的人工智能。近日,美国著名网络新闻媒体 BuzzFeed 发布了一篇对 Yann LeCun 的专题特写文章,从人工智能的发展历史以及机器视觉、语音和更深层次的思考等角度对 Yann LeCun 的研究经历进行了描绘,其间也穿插着 LeCun 对相关主题的评论和解释。机器之心对这篇特写进行了编译,希望能够帮助你更好地了解 LeCun 以及他在 Facebook 的研究状况。
距离 Facebook Menlo Park 总部 3000 英里远,曼哈顿市区的一间老旧的米黄色办公建筑中,一组公司职员正在做项目,但这些项目看起来更像是科幻小说类的,而并非适合社交网络的项目。该团队就是 Facebook 人工智能研究室(内部称之为 FAIR),他们只专注于一个目标:创造人类同等水平智力的计算机。虽然离终点线还很遥远,但他们 2010 年前后已经取得了让人难以置信的进展。他们的人工智能程序绘制的画作与人类艺术家相比难以区分;在从 Wikipedia 拣选的主题上做测试;玩《星际争霸》这样的视频游戏。慢慢地,人工智能程序变得越来越聪明。某天,它们可能会把 Facebook 这个社交软件,变成你的朋友。
由于这些或其他原因,FAIR 并非典型的 Facebook 团队。该团队并非直接服务于这家价值 4100 亿美元公司及其超级受欢迎的产品:Instagram、WhatsApp、Messenger 和 Facebook。FAIR 最终的目标可能还有数十年之遥,也可能永远无法达到。而且,该团队不是由典型的那种硅谷成功者领导,而是由 56 岁的学术人士 Yann LeCun 带领,他曾经历过真正的失败并成功归来。他有关人工智能的一度被反对的理论如今被视为世界一流的理论,Facebook 的慷慨解囊证明了他自己。
LeCun 向 BuzzFeed News 表示,「你与数字世界的交互、你的手机、你的计算机,都将被改变。」
FAIR 正在改进计算机听、看和交流的能力,其成果现已渗透进了 Facebook 的产品之中,比如 News Feed 排名、相机、照片滤镜等。Facebook 做了极大的投资,不只是因为人工智能很有趣,还因为很必要。在今天的整个科技领域,公司们都在以人工智能为基础进行竞争。Uber 的人工智能驱动的自动驾驶汽车是其驾乘共享战略的核心。依赖于人工智能的 Google Home 智能音箱能回答用户在搜索栏内输入的问题。亚马逊正在使用人工智能收银员建立便利店,从而瓜分价值 6740 亿美元的食品百货市场。
而在 Facebook,人工智能无处不在。例如人工智能驱动的照片滤镜,正在帮 Facebook 应对 Snapchat 的挑战。人工智能查看图片、发现图片内容、进而决定你的推送内容的能力,使得 Facebook 拥有不可抗拒的用户体验。而且,类似的技术正用于监控骚乱、恐怖和色情内容,将其标记并清除。
Facebook 应用机器学习团队(AML)的负责人 Joaquin Candela 表示,「人们在 Facebook 所有产品上的体验都极大地依赖人工智能。」AML 团队要做的是把研究实践到平台上,「如今 Facebook 的存在不能没有人工智能,确确实实如此。」
随着该领域的进步,Facebook 将依靠 LeCun 和他的团队帮助自己保持竞争优势,因为无论是新的还是旧的竞争对手都很有可能也会拥抱这一技术。
被质疑和排斥多年之后,LeCun 最终还是成功了,现在他有:80 位研究员、Facebook 大量的资金支持、主流大众的信任。他现在所要做的就是拿出实际的东西。
LeCun 在曼哈顿
视觉
从小开始,LeCun 就相信他能让计算机获得视觉。面部识别和图像检测如今可能已经标准化了,但是当 LeCun 在 20 世纪 80 年代早期还是巴黎的一位大学生时,计算机却是「瞎的」,不能理解图像中的任何东西,也不能搞清楚摄像头内发生了什么。在大学的时候,LeCun 无意中发现了一种方法,但这种方法从 60 年代开始就没人研究了,而他认为这种方法有潜力「让机器学习多种任务,包括感知。」
这种方法被称为人工神经网络,它采用具有小型互连传感器的系统,把内容(比如图像)分割成小部分,并基于整体输入识别模式,确定看到了什么。在阅读了关于神经网络的争论之后——它们难以训练、不是特别强大——LeCun 决定继续坚持,尽管有疑问还是读了专注于研究这一领域的博士学位。谈到这些批评他说:「我只是不相信它。」
人工智能领域的艰难时刻出现得如此频繁而猛烈,以至于它们有了自己的专用名称:人工智能冬天(AI Winter)。这些情况发生的原因很大程度上是因为研究者得到的结果比不上他们给出的愿景,这让人们觉得这门科学没有效果,进而导致资金和人们的兴趣枯竭,最终阻碍了其技术进步。
LeCun 也经受过人工智能冬天的考验。当他在 90 年代中期进入贝尔实验室从事人工智能研究时,AT&T 的内部冲突导致了他们团队的破裂,那时候刚推出了可以读取支票的 ATM(这种基于神经网络的技术至今仍在使用),LeCun 相信他们刚要取得明显的进展。「这整个项目基本上就是在这项技术变得真正成功的时候被解散了,」LeCun 说,「这真的让人很沮丧。」
与此同时,其他方法也得到了主流研究者的青睐。也许这些方法不久后就会不再流行,但它们的崛起足以将神经网络推向该领域领先的地位。在 21 世纪初,其他学者甚至不允许他们在学术会议上提交他们的论文。「计算机视觉社区基本上是拒绝他的,」神经网络先驱、多伦多大学教授和谷歌工程师 Geoff Hinton 说:「其他人的观点是他进行的研究在 80 年代时看起来还有点希望,但现在他也该清醒了。」他补充到,「现在这个观点已经不存在了。」
其他神经网络研究者也遇到过类似的问题,蒙特利尔大学教授、蒙特利尔学习算法研究所的主任 Yoshua Bengio 曾经一度很难找到愿意与他合作的研究生。他说:「我不得不帮助我的学生在这个领域工作,因为他们害怕在博士毕业后会找不到工作。」
在 2003 年,LeCun 已经为实践打下了基础。那年,他加入了纽约大学,并与 Hinton 和 Bengio 共同努力复兴神经网络。LeCun 笑着说:「我们开始了我一直说的『深度学习阴谋(Deep Learning Conspiracy)』。」
「深度学习阴谋」在这一领域发挥了关键性作用,其成功基本上是因为坚持相信:不需要为每种你想要检测的对象构建单独的专用神经网络,而是可以使用同一个模板来构建一个能够用于检测图像、视频和语音的神经网络。也就是说,不需要为检测企鹅和猫分别构建神经网络,而是可以构建一个单一的神经网络来同时检测这两者并将两者区分开。这些新的神经网络也可以修改后用于其它任务,例如检查音频声波来检测语音的模式。
这种「阴谋」研究受到了两个重要因素的推动:计算能力的增长(有助于神经网络的处理速度满足实用需求)和可用数据(图像、文本等)的指数级增长(这些数据源自互联网的广泛应用,能够帮助网络变得更加聪明)。最终,这些因素催生了一种灵活、高速、准确的方法,为该领域带来了新的可能性。
在 LeCun 及其伙伴的基础设置之上,计算机视觉在 21 世纪 10 年代早期迎来了爆发。计算机开始可以识别图像中的物体,然后可以识别视频中的物体了,再然后可以直接在相机中实时工作了。现在,你只需要拿摄像头对着一个篮球,人工智能就能识别它看到的是什么。LeCun 很快就从边缘人士转变成了该理论的领头人。「在短短一年之内,就从没人研究它变成了所有人都在研究它,」LeCun 说,「这真的很疯狂——完完全全地疯狂。」
2013 年 12 月,LeCun 加入了 Facebook——对于一个想要将人工智能研究应用于照片的人来说,Facebook 有一个完美的环境。这个世界最大的社交平台上有数以十亿计的图片,为 LeCun 等研究者提供了可以实现新想法的巨大画布。FAIR 也常常和 AML 团队合作,将其研究推广到 Facebook 的实际产品中。这两个团队都构建了能将进展推广到整个公司层面的新系统。AML 正在使用 FAIR 的研究来确定应该在用户的 News Feed 中呈现什么内容以及在 Facebook 内进行内容翻译;他们也将一些研究部署到了 Facebook 的相机中,创建了能对你的表情做出反应的特效。
FAIR 的一种计算机视觉工具 SharpMark 的示例
思考
让计算机学会看见是让它们理解世界的运作方式的基本。人类理解世界的运作方式是因为我们看到了场景一次又一次地重复,并由此发展出了对它们的互相作用方式的理解。比如,当我们站在路上,一辆车快速向我们驶来时,我们预计其可能会撞到我们,所以我们会让路。再比如,当天黑的时候,我们预测控制一个灯光开关能让室内再次亮起来,所以我们拨动了开关。
FAIR 正在努力教计算机学习像人类一样预测结果,并且使用类似的方法。LeCun 解释说,他们团队先向其人工智能展示大量的相关视频,然后在某个视频的某个特定点暂停,并询问该机器接下来视频中会发生什么。比如,如果你不断向一个人工智能展示用水瓶在人头顶倒水的视频,那么它可能就会预测到这样的动作会导致有人湿身。
「在某种程度上来说,智能的本质就是预测的能力,」LeCun 解释说,「如果你可以预测你的动作将会导致怎样的结果,那么你就可以进行规划。你可以规划一个动作序列,进而达到某个特定目标。」
教人工智能学习预测是该领域目前最棘手的问题之一,很大程度是因为理论上正确的结果可能有很多,解决方案也有很多。
LeCun 说,想象假设握着一支笔,使其垂直在桌面上面,然后放手。如果你问一台计算机一秒钟后这支笔会在哪里,就不会有正确的答案——机器知道这支笔会落下来,但它不知道这支笔会落在哪里。所以你需要告诉该系统有多个答案存在,「而且实际的情况是只会出现整个可能集合中的一种代表。这就是在不确定情况下学习预测的问题。」
帮助人工智能理解和拥抱不确定性是一个叫做「无监督学习(unsupervised learning)」的人工智能学科的一部分,而且无监督学习目前正处在人工智能研究的前沿。当人工智能已经进行了足够的观察,足以了解世界的运作方式并预测未来可能发生的事情之后,它可以开始更像人类一样的思考,获得某种程度的常识(common sense);而 LeCun 相信,常识正是使机器更加智能的关键。
LeCun 等研究者了解很可能需要许多年才能让人工智能完全理解这些灰色区域,但他们相信他们会实现这个目标。「这将会实现,」LeCun 领导的一位研究经理 Larry Zitnick 说,「但我会说那可能还需要 10 年左右的时间。」
来自扎克伯格的 Jarvis 的视频的截图
语音
去年 12 月,扎克伯格发布了一条引人注目的视频,揭秘了他的人工智能管家 Jarvis。Facebook 创始人亲自披挂上阵打造的 Jarvis 为他自己赢得一片赞誉,Jarvis 不仅能借人脸识别为家中长辈开门,甚至还能教 Max 普通话。
这很酷。不过对 LeCun 来说,这并没什么特别。他说,「这基本上就是照葫芦画瓢,比较容易实现。这种智能还处在比较浅显的层次。」因此,LeCun 的视野还要更加深远一些。
LeCun 想要打造真正能够理解人类命令的智能助理。「可以与你对话的机器」,「可以提前做计划的机器。不会让你生气的聪明机器。」人类还不知道怎么打造出这样的机器,但是 FAIR 正在研究可能用于构建这台机器的部件。其中一个就是人工智能可以基本理解真实世界,我们能训练它预测可能发生的事情。FAIR 现在正在做的——教会神经网络读和写——也是部件之一。在计算机看来,一张图像就是一列数字,一句口语也能用一列数字加以表征。因此,像 LeCun 这样的研究人员就能利用神经网络架构识别图片中的物体,口语句中的单词或者文本中的主题。
人工智能还无法用理解的图像的方式来理解语言,但是,LeCun 已经看到了 Jarvis 最终的样子。理想中的智能助理不仅能够理解社会常识,还可以与其他智能助理交流。如果你想和朋友一起去音乐会,你可以将这个交给助理来协调,他们会自动根据你的品位、日程安排以及偏好做出建议。
「机器必须对世界状态进行某种表征」,LeCun 认为这是一个挑战。「人类不能同时出现在不同的地方,也无法几个小时就从纽约来到旧金山,其需要了解很多组织起我们的日常生活事情。」目前,Facebook 正在测试这些虚拟助手的简易版本 M,该虚拟助手由 Messenger 团队负责运行,FAIR 提供研究支持。最近发布的「M suggestions」中,M 会在它认为必要(可以帮助到人)的时候介入对话。当用户问「你在哪儿?」的时候,M 会进入对话,并为你提供一键共享当前位置的选择。公司可以将这一功能进一步扩展到更高级的应用中。
M 不过是 Facebook 让人工智能理解意义的诸多努力之一,且该公司正在积极考虑其他的应用场景。
2016 年大选让人们注意到 Facebook 上的两极分化以及假新闻,不过在此之前,LeCun 团队的成员之一 Y-Lan Boureau 已经致力于使用人工智能让 Facebook 上的对话更具建设性。Boureau 研究神经病学,也研究人工智能,她发现整整一个暑假,她的朋友们在 Facebook 上大肆争论却又不听取反面意见,然后她决定开始研究这个问题。「如果可以更好地理解意识状态的驱动力,理解观点是如何形成和僵化,讨论如何导致反目,这将会是一件很有意思的事情。」
Boureau 想要打造一个这样的世界:尽可能多地听取意见(在处理这些意见范围内)。人工智能可以帮助我们,比如,绘制文本中的模式,理解那些偏离轨道的情况。「如果借助数据更好地理解了学习过程、信念植入人们的头脑的过程,那么,创造更加建设性的对话也更会更容易。」
2016 年大选过后,LeCun 公开指出,Facebook 可以使用人工智能过滤掉假新闻。一些人将他所说的视为解决这一导致美国两极化问题的良方,但是,LeCun 说,假新闻最好留给第三方来解决,而不是交给可能引入偏见的机器。「人工智能可以发挥一定作用,但是,产品设计是个难题,这比技术问题还要难解决,」他说。「你不想引导人们得出某些具体意见。你只是想保持中立。」
现实
人工智能领域的技术成熟度曲线可能存在危险,LeCun 很清楚。现在,我们似乎就处在这一曲线中,2013 年第一季度,只有六家公司的财报提及了人工智能。据彭博社报道,到了 2017 年第一季度,提及人工智能的公司数量上升到 244 家。
谈及未来,LeCun 措辞谨慎。「距离理想,还很遥远。这东西的效果离我们的期望还差得很远。」实际上,正如他警告的,距离人类水平的智能(或者说:通用人工智能)仍然还很遥远。
但仍然有时候,LeCun 不能克制其热情。他对于对抗训练尤其激动,因为这种相对新的人工智能研究形式可以解决人工智能领域内的预测和不确定性难题。
对抗训练是两个人工智能系统相互对抗,试图使其自我学习关于真实世界的知识。例如,在 FAIR 的一个实验中,一个研究者使一个人工智能系统绘画,并试图让另一个人工智能系统相信这是人类画的,第一个人工智能系统通过第二个人工智能系统的反馈以学习更好地绘画。
今年早些时候,LeCun 在一次会议中展示了一些更先进的东西:第一个人工智能试图使第二个相信其创造的视频中的一些帧正是第二个人工智能所看过视频的一部分。LeCun 说:「对抗训练是机器学习领域近 10 到 20 年内最好最酷的想法。」
所以 LeCun 将继续从事对抗训练研究,并再次推动这一领域的发展。从 20 年前的默默无闻到如今的声名鹊起,LeCun 走过了很长一段路。尽管 LeCun 将是第一个告诉你工作还远没有结束的人,并且成功远不是他一个人的,他对于过往并非毫无感激,他说:「其实并不感到糟糕,而是感觉很好。」
原文链接:https://www.buzzfeed.com/alexkantrowitz/meet-the-man-who-makes-facebooks-machines-think?utm_term=.xx5MgLJoK#.crlbP2jlr