2019/03/01 15:51

李飞飞ACM访谈：机器在辅助并增强人类的工作，而并非取代人类

本科物理、博士电子工程，还研究过一年藏药的李飞飞最终却一头扎进了人工智能的浪潮。在 ACM 的一次访谈中，斯坦福大学教授李飞飞谈到了自己在计算机视觉和神经科学之路上的探索历程以及未来的目标。

斯坦福大学的教授李飞飞在距今最近的一次人工智能寒冬期间开始了她的职业生涯，但是她提供了一个帮助寒冬解冻的想法。通过创建包含一千五百万张图像的层级组织图像数据库 Image-Net，她证明了丰富的数据集在开发算法方面的重要性——并发布了一项竞赛，使得 Geoffrey Hinton、Ilya Sutskever 和 Alex Krizhevsky 在深度卷积神经网络方面的工作得到了广泛关注。最近被评为 ACM fellow 的李飞飞如今主管着斯坦福人工智能实验室（Stanford Artificial Intelligence Lab）和斯坦福视觉与学习实验室（Stanford Vision and Learning Lab），致力于开发能够使计算机和机器人会看、会思考的智能算法。在本次采访中，她谈到了计算机视觉和神经科学，以及如何增加这一领域的多样性。

记者：您的本科专业是物理学，您的博士研究方向是电子工程。是什么吸引您进入计算机视觉和人工智能领域的呢？

李飞飞：在普林斯顿读本科的时候，我有很大的学术自由。上大二那一年，我就为 20 世纪早期物理学家的著作而着迷——薛定谔、爱因斯坦等人在职业生涯的后期都对生命和智能有很强的好奇心。然后我做了几个关于神经科学和建模的研究项目；我被迷住了。我决定攻读结合认知神经科学和计算机视觉的博士学位——我们那时还不管它叫 AI。

那是在所谓的 AI 寒冬时期，当时的人们意识到技术没有达到他们炒作的高度，于是对 AI 的兴趣和投资都冷却下去。

那时候我正在博士学习阶段，确实是一段有趣的时间。机器学习在计算机视觉领域成为了一个非常重要的工具，所以我也属于那一代在这个学科领域接受了大量训练的学生。

记者：那种训练有助于明确一个后来被证明对人工智能领域非常关键的思想，即创建更好的数据集能够帮助计算机做出更好的决策。这促使您建立了 ImageNet 这个层级组织的图像数据库，其中每一个节点都由成百上千张图片描述。

李飞飞：在人工智能领域，有一些每个人都会遇到的重要问题；我们称其为「圣杯问题」。其中之一就是目标理解，它是视觉智能的构造模块。人类特别擅长识别成千上万甚至上百万的目标，而且依据常识就能不费吹灰之力地做到。所以我在博士阶段以及作为助理教授的前几年和领域内的很多人一起研究过这个问题。那个时期，人们付出了巨大的努力来设计能够识别物体的机器学习算法。我们也必须寻找合理的方式来测试它们的性能。那时候也有一些很好的数据集，但是通常都比较小，只有一二十种不同的物体。

那时候数据集很小，限制了能够开发的模型类别，因为没办法训练出能够识别多样性的算法，即使是像「猫」这样的单个对象。

尽管人们在那个年代一直在取得进步，但是这个领域似乎陷入了困境，因为算法无法令人满意。所以大约在 2006 年左右，我的学生和我开始思考解决目标识别问题的不同方式。我们认为，与其设计出在小规模数据集上过拟合的模型，我们更愿意考虑规模非常大的数据集，例如上百万个对象，这将推动机器学习模型朝着完全不同的方向发展。

记者：所以您开始了 ImageNet 的工作，这在那个时候看上去很疯狂。

李飞飞：我们的目标是整理出英语语言中的所有名词，然后采集成百上千张图片来描述每一个对象的变化，例如苹果或德国牧羊犬。我们最后下载并筛选了至少十亿张图片，最终通过众包将 ImageNet 整合在一起。这个数据集有 1500 万张图片，22000 个物体类别。

记者：在斯坦福视觉和学习实验室的研究中，您不仅仅与技术专家密切合作，与神经科学家也有合作。您能谈一谈这种合作是如何进行的吗？

李飞飞：从根本上来说，AI 是一个技术领域。它的最终目标是赋予机器以智能。但是由于人类的智能与这个领域有如此紧密的关联，因此拥有神经科学和认知科学的背景和合作者非常有帮助。以今天的深度学习革命为例，我们今天在神经网络中所用的算法正是受到了上世纪五六十年代关于神经科学的经典研究的启发，那个时候科学家发现神经元是以分层的方式连在一起的，并且以这种方式发送信息。同时，认知科学一直是指引 AI 寻求不同种类的任务的重要组成部分。例如，很多计算机科学家都在其启发之下进行目标识别的研究，因为认知科学家已经在这方面做了一些工作。

「我们的目标是整理出英语语言中的所有名词，然后采集...... 图片来描述每一个对象的变化，例如苹果和德国牧羊犬。」

记者：您目前的交叉学科合作之一就是一个实现了好奇心驱动学习的神经网络。

李飞飞：人类的小孩通过对世界的探索进行学习。我们尝试创建具有这些功能的算法——计算机由好奇心来驱动，而不是在类似于有标签的图像一样的传统任务进行训练。

记者：您之前讲过需要从人文角度来思考人工智能，而不是仅仅从技术角度去思考，而且您也帮助启动了斯坦福大学以人为本的人工智能倡议（HAI）。您能否谈谈自己的目标呢？

李飞飞：我们希望建立一个致力于增强人类能力的技术的研究所。以机器人为例，机器能够做人类不能做的事情。机器可以去危险的地方。它们可以潜入到深水区，去拆除爆炸设备。机器也拥有人类没有的精确度和力量。但是人类有更多的稳定性和理解力，并且能够更容易地与彼此合作。

我们可以想象未来很多潜在的场景，在这些场景中，机器人在辅助或者增强人类的工作，而并非取代他们。

记者：您也一直在谈论需要在计算机科学和人工智能研究中加入更加多元的声音。

李飞飞：如果我们相信机器的价值代表了人类的价值，我们就需要相信我们完全代表了人类，因为我们开发并部署了我们的技术。所以鼓励具有不同背景的学生参与到这个领域是很重要的。此刻，意识到技术的社会影响力在提升同样重要。此时的风险高于以往任何时候，因此我们也需要邀请具有不同背景的未来商业领袖、政策制定者、人本主义者、社会科学家，使他们具备技术背景，与科技界进行互动，将多元的思想引入这个过程中。

记者：您能给我讲讲斯坦福大学为高中生开设的 AI4All 项目吗？听说它来源于斯坦福大学人工智能实验室的早期外展暑期计划（SAILORS）？

李飞飞：AI4ALL 的目标是通过针对来自各种经济和文化背景的学生来增加人工智能领域的多样性。这是一个我们感到非常自豪并且非常乐意支持的社区。名叫 Amy Jin 的高中生是我们最早的 SAILORS 学生之一，她在我的实验室持续做关于手术培训视频的工作。然后，她就和我的团队一起撰写了一篇论文，并最终被 NIPS2017 选中。更重要的是，她在 150 篇论文中获得了最佳论文奖。我们还有学生在他们的学校启动了机器人实验室，举办以女孩为中心的黑客马拉松。他们中的很多人正在专注于将 AI 用于良好的社会用途的应用，从优化救护车部署到癌症研究和网络欺凌。

原文链接：https://cacm.acm.org/magazines/2019/3/234933-guiding-computers-robots-to-see-and-think/abstract

产业李飞飞计算机视觉ACM Fellow

相关数据

李飞飞人物

李飞飞，斯坦福大学计算机科学系教授，斯坦福视觉实验室负责人，斯坦福大学人工智能实验室（SAIL）前负责人。专业领域是计算机视觉和认知神经科学。2016年11月李飞飞加入谷歌，担任谷歌云AI/ML首席科学家。2018年9月，返回斯坦福任教，现为谷歌云AI/ML顾问。10月20日斯坦福大学「以人为中心的AI计划」开启，李飞飞担任联合负责人。11月20日李飞飞不再担任SAIL负责人，Christopher Manning接任该职位。

来源：个人主页维基百科

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

神经科学技术

神经科学，又称神经生物学，是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。对人脑研究是个跨领域的范畴，当中涉及分子层面、细胞层面、神经小组、大型神经系统，如视觉神经系统、脑干、脑皮层。

来源：维基百科

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

数据库技术

数据库，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据运行新增、截取、更新、删除等操作。所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

来源：维基百科

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

来源：Wikipedia

神经元技术

（人工）神经元是一个类比于生物神经元的数学计算模型，是神经网络的基本组成单元。对于生物神经网络，每个神经元与其他神经元相连，当它“兴奋”时会向相连的神经元发送化学物质，从而改变这些神经元的电位；神经元的“兴奋”由其电位决定，当它的电位超过一个“阈值”（threshold）便会被激活，亦即“兴奋”。目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。在这个模型中，神经元通过带权重的连接接处理来自n个其他神经元的输入信号，其总输入值将与神经元的阈值进行比较，最后通过“激活函数”（activation function）产生神经元的输出。

来源：Overview of Artificial Neural Networks and its Applications. (2018). medium.com.

认知神经科学技术

认知神经科学（英语：Cognitive neuroscience）是一门科学学科，旨在探讨认知历程的生物学基础。主要的目标为阐明心理历程的神经机制，也就是大脑的运作如何造就心理或认知功能。认知神经科学为心理学和神经科学的分支，并且横跨众多领域，例如生理心理学、神经科学、认知心理学和神经心理学。认知神经科学以认知科学的理论以及神经心理学、神经科学及计算机模型的实验证据为基础。

来源：维基百科