斯坦福大学的教授李飞飞在距今最近的一次人工智能寒冬期间开始了她的职业生涯,但是她提供了一个帮助寒冬解冻的想法。通过创建包含一千五百万张图像的层级组织图像数据库 Image-Net,她证明了丰富的数据集在开发算法方面的重要性——并发布了一项竞赛,使得 Geoffrey Hinton、Ilya Sutskever 和 Alex Krizhevsky 在深度卷积神经网络方面的工作得到了广泛关注。最近被评为 ACM fellow 的李飞飞如今主管着斯坦福人工智能实验室(Stanford Artificial Intelligence Lab)和斯坦福视觉与学习实验室(Stanford Vision and Learning Lab),致力于开发能够使计算机和机器人会看、会思考的智能算法。在本次采访中,她谈到了计算机视觉和神经科学,以及如何增加这一领域的多样性。
记者:您的本科专业是物理学,您的博士研究方向是电子工程。是什么吸引您进入计算机视觉和人工智能领域的呢?
李飞飞:在普林斯顿读本科的时候,我有很大的学术自由。上大二那一年,我就为 20 世纪早期物理学家的著作而着迷——薛定谔、爱因斯坦等人在职业生涯的后期都对生命和智能有很强的好奇心。然后我做了几个关于神经科学和建模的研究项目;我被迷住了。我决定攻读结合认知神经科学和计算机视觉的博士学位——我们那时还不管它叫 AI。
那是在所谓的 AI 寒冬时期,当时的人们意识到技术没有达到他们炒作的高度,于是对 AI 的兴趣和投资都冷却下去。
那时候我正在博士学习阶段,确实是一段有趣的时间。机器学习在计算机视觉领域成为了一个非常重要的工具,所以我也属于那一代在这个学科领域接受了大量训练的学生。
记者:那种训练有助于明确一个后来被证明对人工智能领域非常关键的思想,即创建更好的数据集能够帮助计算机做出更好的决策。这促使您建立了 ImageNet 这个层级组织的图像数据库,其中每一个节点都由成百上千张图片描述。
李飞飞:在人工智能领域,有一些每个人都会遇到的重要问题;我们称其为「圣杯问题」。其中之一就是目标理解,它是视觉智能的构造模块。人类特别擅长识别成千上万甚至上百万的目标,而且依据常识就能不费吹灰之力地做到。所以我在博士阶段以及作为助理教授的前几年和领域内的很多人一起研究过这个问题。那个时期,人们付出了巨大的努力来设计能够识别物体的机器学习算法。我们也必须寻找合理的方式来测试它们的性能。那时候也有一些很好的数据集,但是通常都比较小,只有一二十种不同的物体。
那时候数据集很小,限制了能够开发的模型类别,因为没办法训练出能够识别多样性的算法,即使是像「猫」这样的单个对象。
尽管人们在那个年代一直在取得进步,但是这个领域似乎陷入了困境,因为算法无法令人满意。所以大约在 2006 年左右,我的学生和我开始思考解决目标识别问题的不同方式。我们认为,与其设计出在小规模数据集上过拟合的模型,我们更愿意考虑规模非常大的数据集,例如上百万个对象,这将推动机器学习模型朝着完全不同的方向发展。
记者:所以您开始了 ImageNet 的工作,这在那个时候看上去很疯狂。
李飞飞:我们的目标是整理出英语语言中的所有名词,然后采集成百上千张图片来描述每一个对象的变化,例如苹果或德国牧羊犬。我们最后下载并筛选了至少十亿张图片,最终通过众包将 ImageNet 整合在一起。这个数据集有 1500 万张图片,22000 个物体类别。
记者:在斯坦福视觉和学习实验室的研究中,您不仅仅与技术专家密切合作,与神经科学家也有合作。您能谈一谈这种合作是如何进行的吗?
李飞飞:从根本上来说,AI 是一个技术领域。它的最终目标是赋予机器以智能。但是由于人类的智能与这个领域有如此紧密的关联,因此拥有神经科学和认知科学的背景和合作者非常有帮助。以今天的深度学习革命为例,我们今天在神经网络中所用的算法正是受到了上世纪五六十年代关于神经科学的经典研究的启发,那个时候科学家发现神经元是以分层的方式连在一起的,并且以这种方式发送信息。同时,认知科学一直是指引 AI 寻求不同种类的任务的重要组成部分。例如,很多计算机科学家都在其启发之下进行目标识别的研究,因为认知科学家已经在这方面做了一些工作。
「我们的目标是整理出英语语言中的所有名词,然后采集...... 图片来描述每一个对象的变化,例如苹果和德国牧羊犬。」
记者:您目前的交叉学科合作之一就是一个实现了好奇心驱动学习的神经网络。
李飞飞:人类的小孩通过对世界的探索进行学习。我们尝试创建具有这些功能的算法——计算机由好奇心来驱动,而不是在类似于有标签的图像一样的传统任务进行训练。
记者:您之前讲过需要从人文角度来思考人工智能,而不是仅仅从技术角度去思考,而且您也帮助启动了斯坦福大学以人为本的人工智能倡议(HAI)。您能否谈谈自己的目标呢?
李飞飞:我们希望建立一个致力于增强人类能力的技术的研究所。以机器人为例,机器能够做人类不能做的事情。机器可以去危险的地方。它们可以潜入到深水区,去拆除爆炸设备。机器也拥有人类没有的精确度和力量。但是人类有更多的稳定性和理解力,并且能够更容易地与彼此合作。
我们可以想象未来很多潜在的场景,在这些场景中,机器人在辅助或者增强人类的工作,而并非取代他们。
记者:您也一直在谈论需要在计算机科学和人工智能研究中加入更加多元的声音。
李飞飞:如果我们相信机器的价值代表了人类的价值,我们就需要相信我们完全代表了人类,因为我们开发并部署了我们的技术。所以鼓励具有不同背景的学生参与到这个领域是很重要的。此刻,意识到技术的社会影响力在提升同样重要。此时的风险高于以往任何时候,因此我们也需要邀请具有不同背景的未来商业领袖、政策制定者、人本主义者、社会科学家,使他们具备技术背景,与科技界进行互动,将多元的思想引入这个过程中。
记者:您能给我讲讲斯坦福大学为高中生开设的 AI4All 项目吗?听说它来源于斯坦福大学人工智能实验室的早期外展暑期计划(SAILORS)?
李飞飞:AI4ALL 的目标是通过针对来自各种经济和文化背景的学生来增加人工智能领域的多样性。这是一个我们感到非常自豪并且非常乐意支持的社区。名叫 Amy Jin 的高中生是我们最早的 SAILORS 学生之一,她在我的实验室持续做关于手术培训视频的工作。然后,她就和我的团队一起撰写了一篇论文,并最终被 NIPS2017 选中。更重要的是,她在 150 篇论文中获得了最佳论文奖。我们还有学生在他们的学校启动了机器人实验室,举办以女孩为中心的黑客马拉松。他们中的很多人正在专注于将 AI 用于良好的社会用途的应用,从优化救护车部署到癌症研究和网络欺凌。
原文链接:https://cacm.acm.org/magazines/2019/3/234933-guiding-computers-robots-to-see-and-think/abstract