几十年来,研究人员一直对此感到困惑,但近年来,这个问题变得愈加紧迫。机器视觉系统正被越来越多地应用于生活的各个领域,从医疗保健到自动驾驶。
但通过机器的眼睛“看”世界,仍然是一个不小的挑战,比如我们该怎么理解为什么它把有些人归为行人,而把有些人归为路标。如果我们无法做到这一点,就有可能会造成严重的,甚至是致命的后果。比如前段时间已经发生的,自动驾驶汽车撞上行人致死的事件。
虽然,神经网络在识别图像中的物体等任务上取得了巨大的成功,但它们是如何做到的在很大程度上仍是一个谜。它们的内部工作方式被屏蔽,隐藏在层层计算中,不让人看到,使得人类很难诊断错误或偏差。
来自谷歌和非盈利实验室open Ai的新研究希望通过绘制系统来了解世界的视觉数据,进一步撬开人工智能视觉的黑匣子。
这种被称为“激活图集”的方法,可以让研究人员分析出各个算法的工作原理,不仅能揭示它们识别的抽象形状、颜色和模式,还揭示了它们如何结合这些元素来识别特定的对象、动物和场景。
这项工作的主要研究者,谷歌的Shan Carter说,如果以前的研究就像在算法的视觉字母表中显示单个字母,那么激活图集提供了一个更接近整个词典的东西,它显示出字母是如何组合成实际单词的。卡特说:“例如,在像‘鲨鱼’这样的图像中,会由很多激活码构成,比如‘牙齿’和‘水’。”
虽然这不一定是一个巨大的突破,但它是在被称为“功能可视化”的更广泛的研究领域向前迈出的一步。佐治亚理工大学的博士生Ramprasaath Selvaraju表示,这项研究“非常吸引人”,并结合了许多现有的想法,创造了一个新的极其有用的工具。
Selvaraju说,这样的工作将有很多用途,帮助我们建立更高效和先进的算法,并通过让研究人员深入研究来提高安全性和消除偏差。“由于神经网络固有的复杂性,它们有时缺乏可解释性,”但他说,在未来,当网络被广泛用于自动驾驶汽车和引导机器人时,这将是必不可少的一步。Open Ai的Chris Olah也参与了这个项目,他说:“这有点像制作显微镜。至少,这是我们所设想的。”
要了解激活图集和其他功能可视化工具的工作原理,首先需要了解一点人工智能系统如何识别对象。实现这一点的基本方法是使用神经网络:一种与人脑大致相似的计算结构(尽管它在复杂程度上落后了一个光年)。
每一个神经网络内部都是人工神经元层,它们像网一样连接在一起。就像你大脑中的细胞一样,这些细胞会响应刺激,这一过程称成为激活。重要的是,它们不仅可以启动或关闭,它们可以在一个频谱上注册,给每个激活一个特定的值或“权重”。
要把神经网络变成有用的东西,你必须给它大量的训练数据。这意味着数十万甚至数百万张图像,每一张都标有特定的类别。在谷歌和Openai的研究人员为这项工作测试的过程中,这些图像涉及面广泛:从羊毛到温莎领带,从安全带到空间加热器。
当它输入这些数据时,神经网络中的不同神经元会响应每个图像而亮起。此模式连接到图像的标签。一旦经过训练后,您就可以向网络展示一张以前它从未见过的图片,并且神经元将激活,将输入内容与特定类别相匹配。恭喜你!刚刚成功训练了机器学习视觉算法。
这让研究人员可以观察到网络的一些情况,通过在不同信息层之间切换,他们可以看到网络是如何从构建到最终决策的,从形状和纹理等基本视觉概念开始到具体的对象。
例如,Olah注意到,狗的品种在很大程度上是以耳朵的下垂程度来区分的。图集还展示了网络是如何联系不同的物体和想法的,比如说,把狗耳朵放在离猫耳朵不太远的地方,看随着层级的发展,这些区别是如何变得清晰的。
该研究还发现了一些惊喜,例如,Olah拍摄了一张鱼鳍的照片,一条鱼鳍划过了汹涌的海水,那么它到底是属于灰鲸还是大白鲨?作为一个没有钓鱼经验的人,我不会冒险猜测,但是作为曾经看到过大量鲨鱼和鲸鱼鳍的神经网络不应该有问题。
然后Olah展示了在神经网络的特定层面上与两只动物相关的图集图像,但其中一个鲨鱼图像特别奇怪。如果你仔细一看,你可能会看到一排排洁白的牙齿和牙龈,样子却同棒球的接缝十分相似。
事实证明,他们研究的神经网络也有这样的视觉隐喻的天赋,这可以作为愚弄系统的廉价技巧。通过改变鱼鳍照片,比如说,在一个角落放置一个棒球邮票图像,Carter和Olah发现可以很容易地说服神经网络鲸鱼实际上是一条鲨鱼。
Olah说,这种方法不太可能被网络破坏者所使用,因为其实有更简单更微妙的方式来制造混乱。比如他们可以自动生成所谓的对抗性补丁,使网络混淆,把猫当作是一碗鳄梨酱,甚至导致自动驾驶汽车误读停止标志。
但令人兴奋的是,有了这个工具,人类可以充分了解网络的内部深度,使得它最终帮助我们识别混淆或偏差,并及时纠正。
但是错误也是时有发生的,比如说,把不同种族的人类识别成大猩猩而非人。有了这样的可视化工具,研究人员可以查看是什么外来信息或视觉相似性导致了错误的发生。
也就是说,试图预测神经网络的内核是存在风险的。“人们常常担心你可能在欺骗你自己,”奥拉说,风险在于我们可能试图强加我们熟悉的视觉概念或寻找有意义的简单解释。
这就是包括人工智能先驱Hinton在内的一些人物一直反对人类解释AI运作规律的原因之一,正如人类无法解释他们的大脑如何做出决定一样,计算机也是同样。他最近在接受WIRED采访时说道:“如果你非要要求他们解释所做的决定,你就会强迫他们编造一个故事。”
虽然争议不断,但“激活图集”的研究者们始终认为:每一代新工具的研发都在让我们更接近这些在网络中发生事情的真相。