这可能会引领通用AI的下一个重大突破

研究者们正在教一个大型的语言模型如何去“看”以帮助他们更好的理解这个世界。

您可能已经听我们说过无数次了：可以生成类似人类语言的大型人工智能模型GPT-3是一个奇迹，也是一个大型的海市蜃楼。您可以用一个简单的技巧来辨别：询问它绵羊的颜色，它回答“黑色”的次数和“白色”一样多——这反映出“黑色绵羊”这一短语出现在我们日常用语中。

这就是语言模型的一个问题，因为他们仅在文本上进行训练，缺乏常识。最近来自北加利福尼亚大学的研究者，Chapel Hill设计了一个新的技术来解决这一问题。他们称该技术为vokenization, 该技术赋予了诸如GPT3这样的模型“看”的能力。

这并非人类第一次尝试将语言模型和计算机视觉相结合，实际上这是一个快速发展的AI领域。产生这种想法是因为两种类型的AI都有不同的优势。像GPT-3这样的语言模型是通过无监督学习进行训练的，该过程不需要手动数据标记，因此易于扩展。相比之下，像目标识别系统这样的图像模型可以直接从现实中学习到更多。换句话说，他们学到的东西并不依赖于文本所提供的内容。他们可以从绵羊的照片中“看到”他们实际上是白色的。

可以解析语言和视觉输入的AI模型也有非常实际的用途。例如，如果我们要构建机器人助手，则他们需要计算机视觉来在世界中进行导航，需要语言来与人类进行交流。

但是，将两种类型的AI结合起来说起来容易做起来难。这并非简单地将现有语言模型与现有目标识别系统装订在一起。它需要使用包含文本和图像的数据集从头开始训练新模型，该数据集也称为视觉语言数据集。

获得此类数据集的最常用方法是收集带有描述性标题的图像集合。例如，下面的图片的标题为“一只橘猫坐在准备打包的手提箱里。” 这与典型的图像数据集不同，后者仅用一个名词来标记下面的图片，例如“猫”。因此，一种视觉语言数据集不仅可以教一个AI模型如何识别目标，而且还能使用动词和介词来告诉模型目标之间是如何相互影响和相互作用的。

但是制作这种数据集非常耗时。这就是为什么现有的视觉数据集如此微不足道。一个常用的纯文本数据集，如英文Wikipedia（实际上几乎包括所有英语Wikipedia条目），可能包含近30亿个单词。像MS COCO这样的视觉语言数据集仅包含700万。根本没有足够的数据来训练AI模型以提供有用的信息。

“Vokenization”解决了这个问题，它使用无监督学习方法将MS COCO中的少量数据缩放到英文Wikipedia的大小。在当今用于评估AI语言理解力最困难的测试中，经过该训练集训练的视觉语言模型优于目前最好的模型。

自然语言处理初创公司HuggingFace的联合创始人兼首席科学官托马斯·沃尔夫（Thomas Wolf）表示：“不进行大的变动，你无法在这些测试上超过最先进的水平。”“这不是简单的测试。这就是为什么这令人如此兴奋。”

从token到voken

首先让我们理清这些术语，究竟什么是voken？

在AI语言中，用于训练语言模型的单词称为标记(token)。因此，UNC研究人员决定将视觉语言模型中与每个标记相关的图像称为“voken”。为每个token查找voken的算法叫Vokenizer，整个过程称为vokenization。

这样做的目的不仅是为了显示AI研究人员有多喜欢编造单词。（他们的确如此）。这也有助于理解vokenization背后的基本思想。UNC研究人员不是从图像数据集开始并手动写句子作为标题（这是一个非常缓慢的过程），而是从语言数据集开始，并使用无监督学习来将每个单词与相关图像进行匹配（稍后会详细介绍）。这是一个高度可扩展的过程。

因此无监督学习技术才是本论文最大的贡献，即如何为每个单词找到相关图像。

Vokenization

让我们回到GPT-3。GPT-3是transformer语言模型家族的一员，2017年transformer的出现带了重大的突破，因为其将无监督学习应用到自然语言处理上。transformer通过观察词在上下文中的用法来学习人类语言的模式，然后根据该上下文为每个词创建数学表示，称为“词嵌入”。例如，“猫”一词的嵌入可能表明，它经常在“喵”和“橘”两词周围使用，而在“树皮”或“蓝色”等词周围较少使用。

这就是transformer如何近似的表达词的含义，以及GPT-3如何编写类似人类的句子。它部分地依靠这些嵌入来告诉它如何将单词组合成句子，将句子组合成段落。

有一种并行技术也可以用于图像。它不通过扫描文本来查找单词使用模式，而是扫描图像以查找视觉模式。比如说它列出了猫出现在床上而不是树上出现的频率，并利用该上下文信息创建了‘猫’嵌入。

UNC研究人员的想法是，他们应该在MS COCO上同时使用两种嵌入技术。他们将图像转换为视觉嵌入，将标题转换为词嵌入。这些嵌入的真正精巧之处在于可以将它们嵌入三维空间中，并直接看到它们之间的关系。与词嵌入紧密相关的视觉嵌入会在图中显示得更近。换句话说，视觉猫嵌入（理论上）应与基于文本的猫嵌入重叠。这很酷。

您应该可以看到下一步如何走。一旦将所有嵌入进行图形化表示并与其他嵌入进行比较和关联，就可以轻松地将图像（vokens）与单词（tokens）进行匹配。请记住，由于图像和单词是根据其嵌入进行匹配的，因此在上下文中他们也是匹配的。当一个词有完全不同的含义时，这会很有用。该技术通过为词的每个实例找到不同的voken来成功地解决这一问题。

例如：

Hereis her contact.

这是她的联系方式。

Some cats love human contact.

有些猫喜欢被人抚摸。

在两个示例中都用到了‘contact’。但是在第一句中，上下文语境暗示该词是指联系信息，因此，voken是一个联系人图标。在第二句中，上下文提示该词是指触摸，因此，voken显示了一只猫正在被抚摸了。

研究人员使用MS COCO创建的视觉和词嵌入来训练其vokenizer算法。训练完成后，vokenizer便可以在英语维基百科中为每个token找到对应的voken。这不是完美的。该算法仅为大约40％的tokens找到了vokens。但这仍然是拥有近30亿个字的数据集的40％。

利用这个新的数据集，研究人员重新训练了BERT的语言模型，BERT是Google早于GPT-3开发的一种开源transformer。然后，他们在六种不同的语言理解测试中测试了新改进的BERT，包括SQuAD，斯坦福问题回答数据集（该模型要求模型回答有关一系列文章的阅读理解问题）和SWAG，SWAG试图利用英语的微妙之处来测试模型以探究它是否只是模仿和记忆。改进后的BERT对所有这些都表现更好，Wolf说这需要引起重视。

研究人员，博士研究生Hao Tan和他的导师MohitBansal将在EMLNLP会议上介绍其新的vokenization技术。尽管这项工作还处于初期阶段，但Wolf认为他们的工作是使无监督学习适用于视觉语言模型的一项重要的概念突破。这有助于大大推动自然语言处理的发展。

他说：“在NLP上，两年前我们取得了巨大的突破，然后突然间NLP成为了一个正在发生很多事情的领域，它领先于所有其他AI领域。”“但是我们有将文本与其他事物联系起来的问题。否则它就像只会说话却看不见，听不到的机器人一样。”

他说：“这篇论文是他们设法将文本连接到另一种方式的一个例子，并且效果很好。”“你可以想象，当你想在机器人中利用这种功能强大的语言模型时，其中某些技术可能会被重用。也许您使用同一种技术将机器人的感官与文本联系起来。”

论文标题：

Vokenization:Improving Language Understanding with Contextualized, Visual-GroundedSupervision

论文链接：

https://www.aclweb.org/anthology/2020.emnlp-main.162/

原文标题：

This could lead to the next big breakthrough in common sense AI

原文链接：

https://www.technologyreview.com/2020/11/06/1011726/ai-natural-language-processing-computer-vision/

THU数据派

THU数据派"基于清华，放眼世界"，以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯，定期组织线下活动，分享前沿产业动态。了解清华大数据，敬请关注姐妹号“数据派THU”。

产业自然语言处理计算机视觉