2015/08/27 12:40

Michael Jordan：类脑芯片和大数据或是场空欢喜

迈克尔·乔丹，美国加州大学伯克利分校陈丕宏杰出教授( Pehong Chen Distinguished Professor)，美国科学院、美国工程院、美国艺术与科学院的院士，ACM，IEEE，AAAS,，AAA I，ASA，IMS等学会会士(Fellow)，机器学习领域国际著名学者。

本文分七部分：为何我们谈论计算模型时不该继续用脑作比方雾里看花的机器视觉为什么大数据可能只是一场空欢喜有10亿美元他会干什么如何避谈「技术奇点」(singularity) 比起P=NP 他更关心什么图灵测试的意义到底在哪里

一、为什么我们谈论计算模型的时候不该继续用脑作比方

S：从您的文章中可以看出，您认为外界对于深度学习、大数据、计算机视觉凡此种种存在着诸多误读。

M：嗯，所有学术问题都有这样的误读。媒体总是尽力发掘那些抓人眼球的话题，有时候有些报道就言过其实了。就拿深度学习来说，基本上就是把神经网络重新包装了一下，而神经网络20世纪80年代就有了，甚至可以再往前追溯到60年代，感觉每二十年它就会卷土重来一次。目前在这一拨热潮中，主要的成功例子是卷积神经网络，可是这个想法早在上一拨就出现过了。那时候就有一个问题，并且遗憾的是目前这个问题仍然存在：即人们总是认为它（指人工神经网络。——译者注）和神经科学有着某种联系，并且认为深度学习是人们对脑如何处理信息、学习、决策乃至应对大规模数据的认识。而事实显然不是这样。

S：作为媒体从业人员，我对您刚才的话有些异议，原因是很多时候正是学术圈里的人非常渴望地想让我们写一些关于他们的故事。

M：是的，这算是一种合作关系吧。

S：我一直以来都有这样的印象，当计算机科学领域的人描述脑是如何工作的时候，他们总是采用一些极其简化的说法，而神经科学家们也许永远都不会采用这样的说法。您称之为脑的「卡通模型」。

M：我可不想简单地给人贴上标签，说计算机科学家们都是某种样子，神经科学家们又是另外一种样子。但有一点是对的，对于神经科学来说，理解一些深刻的原理可能要耗费数十、甚至数百年之久。神经科学的最底层研究的确有一些进展，但是说到更高级的认知行为——比如我们如何感知、记忆或行动，我们还毫无头绪，包括神经元如何存储信息、如何进行计算、遵循什么准则和算法、采用哪种表示等。所以，我们还没有步入可以利用我们对脑的认识来指导搭建智能系统的时代。

S：除了批评那些脑的「卡通模型」，您其实还进一步批评了那一整套所谓「神经现实主义（ne ural realism）」的思潮——他们认为一个硬件或者软件系统只要拥有了某些脑的疑似特征就会因此变得更加智能。您是如何看待那些声称比如「我的系统是一个类脑系统因为它是大规模并行的」的计算机科学家？

M：啊，这些只是打个比方而已，某些时候还挺管用的。流和流水线就是从各种电路里引申出来的概念。我记得20世纪80年代早期的时候，计算机科学还基本都在关注顺序架构——也就是冯·诺依曼的那种一段存储的程序被顺序执行的模式。由此便有了想要突破这种范式的需求，所以人们寻求高度并行大脑的一些比喻，那还是有用的。

可是研究内容转变之后，并不是所谓的神经现实主义引导着主要的进展。在深度学习中被证实最为成功的算法是基于一种叫做反向传播的技术：（假设）你有若干层处理单元，并且从最后一层获得了输出，然后你把一个信号反向传播回去以调整所有的参数。显然脑是不会这样做的，这绝对是与「神经现实主义」偏离的，但是它带来了显著的研究进展。可是人们往往将那些个别的成功例子与其他所有企图搭建类脑系统而效果却又不及万一的尝试混为一谈。

S：对于神经现实主义的失败，您还提到了（人工）神经网络中并不存在哪怕一处比较符合神经科学的地方。

M：深度学习系统中并不存在神经脉冲这样的东西，也没有神经树突，倒是有双向信号这样的脑中并不存在的东西。

我们不知道神经元是如何学习的。它是只在负责学习的突触的权重中有一个细微的改变吗？人工神经网络就是这么做的，而我们对于在脑中到底如何进行学习的则知之甚少。

S：我经常读到工程师们在描述他们新的芯片设计时采用了一种在我看来是不可思议的乱用的说法。他们会说芯片上的「神经元」或「神经突触」。但那简直是不可能的——神经元是一个活生生的细胞并且具有非凡的复杂性。难道工程师们不是擅用了生物学的语汇来描述一些在复杂程度上不及生物系统万一的结构吗？

M：呵呵，我想我还是小心为上。我认为有必要区分两个使用「神经」这一词汇的不同场合。

一个是深度学习。在那里每个「神经元」其实是一种简笔画式的描述。它实际上是一个线性的加权求和再通过一个非线性（变换），电子工程领域内随便谁都熟识这种非线性系统。把那称作为神经元显然是一个简称，就像简笔画一样。有一种在统计学中被称之为逻辑回归的过程，可以追溯到20世纪50年代，它跟神经元毫无关系而又和上述这种微小单元（指人工神经网络中的「神经元」。——译者注）别无二致。

另一个就与你刚才提到的相关。如果我没理解错的话，他们试图模拟实际的脑，或者至少是一个实际的神经元回路的简化模型。但我发现一个问题，那就是这种研究没有与对这个系统在算法层面上究竟可以实现什么功能的认识相结合，也没有与一个接收数据并且解决问题的学习系统相结合，比如视觉系统。它其实仅是一个架构，指望着哪一天人们会找到一些让它能派上用场的算法，可是又没有什么清晰的迹象表明这种愿景指日可待。我觉得它是基于这样一种信念，即如果你造出了像脑一样的东西，有朝一日它自会找到用武之地。

S：如果可以，您会宣称禁止将脑的生物学原理当成计算模型来使用吗？

M：我不会。你应该从任何可能的地方汲取灵感。就像我刚才提到的，早在20世纪80年代，说一些「让我们跳出顺序的冯·诺依曼架构，来多想想高度并行化的系统吧」的话事实上是很有益处的。但是就现在来讲，显然脑所用的细致的处理方式对于（我们设计）算法过程没有太大启示，因此我认为用脑来刻画我们的所作所为是不合适的。我们并不知道脑是如何处理视觉信息的。

二、雾里看花的机器视觉

S：在谈到视觉系统的研究时，您曾经使用了「hype」（意为猛烈且夸大的宣传——译者注）一词。最近似乎盛传着一些故事，谈到计算机已经如何解决了视觉问题并且就视觉而言与人类已经不相上下。您认为这靠谱吗？

M：人类（的视觉系统）可以应对混杂的场景，可以处理为数众多的（物体）类别，还可以针对场景做出推理，比如「如果我坐在那上面会怎样」，「我把一个东西放在另一个东西上面会怎样」，而这些都远超目前机器能力之所及。深度学习只是在某些图像分类的问题上效果不错，可以回答如「这个场景中有什么物体？」这类的问题。

但是计算视觉问题的范畴非常大。这就好比声称当（牛顿看见）那个苹果从树上掉下来的时候，我们就已经掌握了整个物理学。诚然，由此我们对于力和加速度有了更多一点儿的了解，这很有意义。在（机器）视觉方面，我们现在有了一个可以解决某一类问题的工具，但因此就说它解决了全部的问题是荒谬的。

S：与人类能做的所有事情比起来，我们现在能解决的视觉问题占了多大一部分呢？

M：比如人脸识别问题，人们认为它是可以解决的已经有一段时间了。除了人脸，还有其他一些物体类别也是如此，比如「场景中有一个杯子」，「场景中有一只狗」。但是要同时识别一个场景中的许多种类的不同物体以及它们如何相互关联，或是一个人或机器人会如何与那个场景交互，这仍然是一个很难的问题，离解决还差得很远。

S：即使是人脸识别，我印象中它也只是在有了非常干净的图像的前提下才有效果。

M：对，要让它更有效仍然是一个工程问题。随着时间推移，你会看到它会变得更好。但要说什么「革命性的」之类的话就言过其实了。

三、为什么大数据可能只是一场空欢喜

S：现在我们不妨将话题转到大数据上。您的言论中始终认为当前对大数据的执着里有把「黄铜当金子」的成分。比如您就曾预测公众即将经历一场大数据项目带来虚警的流行病。

M：当你有了大量的数据之后，你就会想提出更多的假设。而一旦提出假设的速度超出了数据的统计内涵（statistical strength），那么你的推断里有很多都可能是错误的。它们也许就只是白噪声。

S：为什么会这样？

M：在传统的数据库里，你有比方说几千个人（的数据）。你不妨把他们看成数据库中的行，而列就对应了这些人的属性：年龄、身高、体重、收入等等。

现在，这些列的组合数目是以指数的速度随着列数增加的。因此如果你有非常非常多的列（现代的数据库里的确如此），那么对每个人你都会得到数以百万计的特性。

假如我现在开始查看这些属性的所有组合——你是否在北京生活，是否骑自行车上班，是否从事某项工作，是否处于某个特定的年龄——那么你得某种疾病或者你喜欢我的广告的概率是多少呢？我将得到数以百万计的属性组合，并且这些组合的数目是指数级别的；它会达到宇宙中的原子数目的规模。

这些就是我想要考虑的假设。在任何一个特定的数据库里，我都能找到这些列的某种组合来完美地预测任何结果，哪怕只是随机地挑选。如果我只是查看所有发生过心梗的人，把他们同所有未发生过心梗的人作比较，并寻找可预测心脏病的列的组合，我就的确能够找到列的各种各样的疑似组合，这是因为它们数量庞大。

这就好像让好几十亿只猴子在那打字，总有一个会写出莎士比亚。

S：您认为大数据的这一面目前没有得到重视吗？

M：当然。

S：有哪些东西是人们承诺大数据能带来的而您认为其实是无法兑现的？

M：我认为数据分析能够按某些质量标准发布一些推断，然而我们必须交代清楚这些质量标准到底是什么样的。我们必须在我们所有的预测上加上误差线（error bar），而这正是在目前很多机器学习文献中所欠缺的。

S：如果处理数据的人并不理会您的建议会发生什么情况呢？

M：我喜欢使用造桥来做类比。假设我不依从任何准则，毫无科学根据地建造了上千座桥梁，那么它们有很多都会崩塌，造成巨大的灾难。

与此类似，假设人们使用数据并根据这些数据做出推断而完全没有考虑误差线、数据异构、噪声数据、采样模式，以及所有那些作为一个工程师和统计学家必须慎重对待的事情，他们就会做出很多的预测，并且有很大可能会偶尔解决一些真正有意思的问题。但是时不时地还会做出一些灾难性的糟糕决定。这其中的差别你事先是不会知道的。你就只能做出预测然后祈祷一切顺利。

这就是我们的现状。许多人在（用大数据）做一些事情，期望它们能有用，有时它们确实起作用了。从某种意义上讲，这么做也无可指摘，这本就是探索性的工作。但是就整个社会而言，不能放任这种情况发展，我们不能只是「但愿」它们有用，到头来我们还是要给出切实的保证。土木工程师最终学会了如何建造能够持久屹立的桥梁。那么说到大数据，我猜可能还要过几十年才能形成一个真正的工程学方法，以便你能够有一定程度的保证说，你正在公布合理的答案并且在对出错的可能性进行量化分析。

S：我们现在有提供那些误差线的工具吗？

M：我们正在着手把这门工程科学组装起来。我们有许多想法，它们来自于数百年的统计学和计算机科学的研究，我们正致力于把它们融合到一起，让它们具有可扩展性。过去30 年间涌现了许多关于如何控制所谓的「族群误差」（family wise errors）的想法，也就是在有多个假设的情况下想知道误差率。但这些想法仍有许多还没有从实际计算的角度进行研究。解决这些问题是很难的数学和工程课题，并且需要时间。

这不是一两年的问题，而是需要几十年才能做好。我们仍旧在学习如何用好大数据。

S：在阅读关于大数据和医疗保健的报道时，差不多每三篇就有一篇在谈我们将几乎完全自动地靠着从每个人身上（尤其是在云端）收集数据来获得令人惊叹的临床诊断的发现。

M：对这种事，你既不能全盘怀疑也不能彻底乐观，应该就在这两个极端之间。但是如果你把某些数据分析中得到的假设全部列出来，那么总有一部分是有用的，你只是不知道是哪一部分。所以如果你随便挑出几条来——比如说「吃燕麦麸就不会得胃癌」之类的，因为从数据上看似乎如此，那么你会有一些走运的机会。数据是能提供某种支持的。

但是这还是在赌博，除非你真的做了完整的工程统计分析来给出误差线并且量化错误率。虽然它比没有数据就直接赌博要好些，那是纯粹的轮盘赌。而这是一种部分的轮盘赌。

S ：如果我们继续在您描述的那条（错误的）轨迹上前进，大数据将会面对怎样的不利后果？

M：最主要的就会是一次「大数据的冬天」（暗指20世纪七八十年代的「人工智能的冬天」——译者注）。在一场泡沫之后——人们已经投了钱，一大批公司作了承诺却又拿不出严肃的分析结果——泡沫会破碎。并且很快，在2至5年间，人们就会说「大数据来了又走了，它死了，并且是错的。」我预言的是那样。当炒作过了头的时候，这就是在那些循环往复之中会发生的事情。这些炒作或者说断言，既不是基于对真正的问题是什么的理解，也不是基于解决问题可能要好几十年或者说我们会取得逐步进展的理解，而是基于一种我们还没有在技术进步中取得关键性跨越的理解。在此之后可能会有一个时期，获取资源来做数据分析变得十分困难。（当然）这个领域会继续发展，因为它是真实的也是有实际需求的。不过这种反弹势必会对一大批重要的研究项目造成不利影响。

四、有10亿美元他会干什么

S ：想想花在那上面的那么多钱，展示广告的背后的科学仍然看上去不可思议的简单原始。我有个爱好就是去搜寻一些荒唐的Kickstarter（一个面向全球的众筹平台，人们在上面发布项目创意吸引感兴趣的人投资，投资者将会获得一些特别的先期回报——译者注）项的相关信息，主要就是想感受一下它们到底有多可笑，然后我就在好几个月内都一直被展示来自那些公司的广告。

M：嗯，这仍然是个「谱分布」，取决于我们如何设计系统以及我们涉及的范畴。在某些范围狭窄的范畴内，它（指广告推荐）可以工作得非常好；而在非常宽泛的范畴下，语义变得比较模糊，则可能变得很糟糕。我个人觉得亚马逊公司针对图书和音乐的推荐系统非常非常棒。那是由于他们拥有大量的数据，并且（系统所涉及的）范畴相当受限制。而在衬衫或者鞋子这样的范畴下，语义变得比较模糊，他们拥有的数据量也较少，因此系统性能就差得多。

虽然还有许多问题，但是搭建这些系统的人们仍在全力以赴。我们目前的切入点就是语义与人的偏好。假如我购买了一个冰箱，这并不表示我通常对冰箱有兴趣。我已经买了一个，那么我可能不太会再对它们有兴趣了。然而假如我购买了一首泰勒·斯威夫特（Taylor Swift）的歌曲，则我很有可能购买更多她的歌曲。这与歌手或是产品或者物体的特定语义相关。要在人们广泛的兴趣「频谱」范围内把这件事做好需要大量的数据与工程实践。

S：您曾经说要是您有一笔不受限制的10亿美金的资助，您会把它用在研究自然语言处理上。您会做什么事是谷歌在谷歌翻译中还没有做的呢？

M：我相信我想干的事谷歌都已经在做了，但是我认为谷歌翻译（它涉及机器翻译）不是唯一的语言问题。另有一个好的语言问题的例子就是问答系统，比如「加州第二大不临河的城市是哪个？」假设我现在把这句话输入谷歌，我不太可能得到一个有用的答案。

S：所以您的意思是有了那10亿美元，至少就自然语言而言，您能够解决通用知识的问题并且摘取人工智能的冠上明珠，即像人那样思考的机器？

M：是的，你得要切出一个较小的问题，这类问题并不包罗万象，却能让你取得进展。我们做研究就是如此行事。我可能会挑一个特定的领域——实际上我们在进行地理问答的研究。那会让我得以专注于某类特定的关系与数据，而不是这世上的所有事情。

S：如此说来，要在问答上取得进步，您就得把它局限在某个特定的领域内吗？

M：你能取得多大的进步是一个经验主义的问题。答案取决于在这些领域中有多少可用数据，你能付多少钱让人们把他们对这个领域的了解落实到纸上，以及有多少标注数据。

S：即使有10亿美元，我们仍然可能只是得到一个不那么通用的，只在某一个领域内可用的系统，这听上去不太给力啊。

M：通常每一项这样的技术都是这样演进的。我们早先讨论过视觉。最早的视觉系统是人脸识别系统，那是领域受限的。但也正是从那儿开始我们见证了一些早期的进展并且对于它们可能真的管用（这个信念）有了一点感性认识。在语音领域也是如此，最早的进展是针对单一独立的单词的；然后慢慢地开始进到了能够处理整句话的地步。（技术）进步都是那样的——从一个受限的东西变得受限越来越少。

S：我们到底为什么需要更好的问答系统呢？谷歌现在这样难道还不够好吗？

M：谷歌有一个非常厉害的自然语言研究组正好就在做这事，因为他们认识到他们对某类查询表现得很糟糕，比如使用「不」这个词的查询。而人们需要使用「不」，比方说「告诉我一个不在河边的城市」。在当前的谷歌搜索引擎里，这个查询得不到很好的处理。

五、如何避谈「技术奇点」

S：现在换个话题。假设您在硅谷和人谈话，然后他们对您说，「告诉你啊乔丹教授，我可是技术奇点（singularity）的拥趸呢。」您对他们的印象会变好还是变坏？

M：幸运的是我还从来没有碰到这样的人。

S：天啊，怎么会！

M：真的没有，我生活在工程师和数学家组成的知识分子的小圈子里。

S：但是假设您真的碰到了这样的人，您会怎么办？

M：我会摘下自己作为一名学者的帽子，然后就跟个想着几十年后会发生些什么的普通人一样。我会饶有兴趣，就好像我读科幻小说时那样。然而这并不能指导我所做的任何学术研究。

S：好吧，但是基于您做学术研究的认识，您怎么看待这个问题呢？

M：我的理解是它不是一个学术上的科目，在一定程度上是关于社会演化以及个体改变的哲学问题，同时在某种程度上又是文学，就像科幻小说那样思考着技术发展带来的一系列后果。但这并不能产生算法层面的创意，至少我是这么认为的因为我从来没有见到，而这些创意才能启发我们如何取得技术进步。

六、比起P=NP他更关心什么（译者注：P指的是在图灵的计算模型下有多项式复杂度算法的解的问题，NP为已知可解但未知有多项式复杂度算法的解的问题。P是否等于NP是理论计算机科学关心的核心问题之一，即探讨这两类问题是否实际为同一类，亦即是否任何一个图灵可解问题都存在一个多项式复杂度算法的解。）

S：您对P是否等于NP有猜想吗？您关心吗？

M：对于多项式与指数之间的差别我倒不是那么在意，我更感兴趣的是低维多项式——线性时间和线性空间。P还是NP意谓把算法分类为多项式复杂度（因而可以有效求解）以及指数复杂度（因而没法有效求解）。我认为大多数人会赞成也许P是不等于NP的。作为一个数学问题去弄明白它是很有趣的。但是这两者的界限并不那么分明。有许多指数时间的算法在某些受限的领域内仍然是可用的，其中部分原因是由于现代计算机的发展。此外，对于最大规模的问题，多项式复杂度不足以保证有效求解。多项式只是代表复杂度以一个超线性的速度增长，比如平方或者立方，而最大规模的问题确实有必要要求时、空开销随规模以线性速度增长。就是说，假设你又拿到了5个数据样本，你就只须再多付出5份计算开销；甚至是次线性，比如对数级别：我拿到100个新的数据样本，开销就增加2份；拿到1000个新样本，开销增加3份。

那是理想的情况。那样的算法正是我们要关注的，而这个问题与P和NP的问题相去甚远。P是否等于NP是一个非常重要也非常有趣的智力问题，但是它对于我们研究的问题并没有多少指导意义。

S：同样的问题对量子计算又如何呢？

M：从学术研究的角度讲，我对这些东西都感兴趣。它是真实的，它是有趣的，只是它确实对于我的研究领域还没有什么影响。

七、图灵测试的意义到底在哪里

S：在您的有生之年机器会通过图灵测试吗？

M：我认为机器的能力是慢慢地积累起来的，包括在诸如语音、视觉与自然语言这样的领域内。也许不会有那么一个孤立的时间点让我们想说「现在宇宙中诞生了一个新的智能体」。我认为像谷歌这样的系统就已经提供了一定程度上的人工智能。

S：这些系统的确很有用，但是它们从来不会被误认成是一个人。

M：的确不会。我认为我们多数人不会觉得图灵测试是一个非常清晰的界限。然而，当我们看到智能的时候我们都能认出来，并且它在我们周围的各种设备上逐渐显现。它并不一定要嵌入一个单独个体。我能意识到我周围的基础架构变得更加智能。我们所有人不论何时都正在意识到这一点。

S：在您说「智能」这个词的时候，您是否只是把它用作「有用」的同义词？

M：没错。我们这一代感到惊奇的事情——比如计算机某种程度上识别到了我们的所需、所求、所欲——我们的孩子们会觉得没那么惊奇，而他们的孩子们会更加觉得没什么惊奇。（到了那时）人们会理所当然地觉得我们周围的环境是自适应的，是有预测能力的，鲁棒的。那还包括通过自然语言与你的环境进行交互的能力。某一天，你会惊讶于可以与你的环境进行一场自然的对话。目前我们在非常受限的条件下可以部分地做到这些，比如说我们可以（在网上）进入自己的银行账户。这是非常非常初级的。但是随着时间的推移，我们将会发现这些东西变得更加细致，更加鲁棒，也更加广泛。某一天，我们会赞叹：「哇！我小时候跟现在天差地别。」图灵测试帮助这个领域起了步，但是到头来它就会像土拨鼠日（译者注：北美地区每年2月2日的一个传统节日，那一天人们用土拨鼠预测春天的到来。）那样——是一个媒体事件，但其实没那么重要。

译者信息：

徐旻捷，清华大学博士生。主要研究方向为非参数化贝叶斯方法、矩阵低秩分解。chokkyvista06@gmail.com

朱　军，CCF会员、本刊编委，CCF青年科学家奖、优秀博士学位论文奖获得者。清华大学副教授。主要研究方向为大规模机器学习等。dcszj@mail.tsinghua.edu.cn

原文出自IEEE Spectrum，作者Lee Gomes，本文为中国计算机学会授权机器之心转载，禁止再次转载。

本文转载自《中国计算机学会通讯》2014年11月期《机器学习大家迈克尔·乔丹谈大数据等重大技术探索的迷思》和2014年12月期《机器学习大家迈克尔·乔丹谈大数据可能只是一场空欢喜》两篇文章，译者为徐旻捷和朱军。微信公众号：中国计算机学会。

入门类脑芯片大数据产业Michael Jordan人物