2024/04/07 14:33

谷歌DeepMind发布Gecko：专攻检索，与大7倍模型相抗衡

Gecko 是一种通用的文本嵌入模型，可用于训练包括文档检索、语义相似度和分类等各种任务。

文本嵌入模型在自然语言处理中扮演着重要角色，为各种文本相关任务提供了强大的语义表示和计算能力。

在语义表示上，文本嵌入模型将文本转换为高维向量空间中的向量表示，其中语义上相似的文本在向量空间中距离较近，从而捕捉了文本的语义信息，这种表示有助于计算机更好地理解和处理自然语言；在文本相似度计算上，基于文本嵌入的向量表示，可以轻松地计算文本之间的相似度，从而支持各种应用，如信息检索、问答系统和推荐系统；在信息检索上，文本嵌入模型可以用于改善信息检索系统，通过将查询与文档嵌入进行比较，找到最相关的文档或段落；在文本分类和聚类上，通过将文本嵌入到向量空间中，可以进行文本分类和聚类任务。

不同于以往，最近的研究重点不是为每个下游任务构建单独的嵌入模型，而是寻求创建支持多个任务的通用嵌入模型。

然而，通用文本嵌入模型面临这样一个挑战：这些模型需要大量的训练数据才能全面覆盖所需的领域，研究主要集中在使用大量的训练示例来解决所面临的挑战。

LLM 的出现提供了一种强大的替代方案，因为 LLM 包含跨各个领域的大量知识，并且被认为是出色的小样本学习者。最近的研究已经证明了使用 LLM 进行合成数据生成的有效性，但重点主要是增强现有的人类标记数据或提高特定领域的性能。

这就促使研究者开始审视这一问题：我们可以在多大程度上直接利用 LLM 来改进文本嵌入模型。

为了回答这一问题，本文来自谷歌 DeepMind 的研究者提出了 Gecko，这是一种从 LLM 中蒸馏出来的多功能文本嵌入模型，其在 LLM 生成的合成数据集 FRet 上进行训练，并由 LLM 提供支持。

通过将 LLM 的知识进行提炼，然后融入到检索器中，Gecko 实现了强大的检索性能。在大规模文本嵌入基准（MTEB，Massive Text Embedding Benchmark）上，具有 256 个嵌入维度的 Gecko 优于具有 768 个嵌入尺寸的现有模型。具有 768 个嵌入维度的 Gecko 的平均得分为 66.31，在与 7 倍大的模型和 5 倍高维嵌入进行比较时，取得了相竞争的结果。

论文地址：https://arxiv.org/pdf/2403.20327.pdf
论文标题：Gecko: Versatile Text Embeddings Distilled from Large Language Models

方法介绍

Gecko 是一个基于 1.2B 参数预训练的 Transformer 语言模型，该模型经历了两个额外的训练阶段：预微调和微调。

预微调

该研究使用两个预微调数据集。首先是使用 Ni 等人提出的大规模社区 QA 数据集，该数据集包括来自在线论坛和 QA 网站的文本对。接下来，研究者从 Web 上抓取标题 - 正文文本对，这些文本对可以从网站上获得。

对大量无监督文本对进行预微调已被证明可以提高小型双编码器在各种下游任务中的性能，包括文档检索和语义相似性。预微调阶段的目标是让模型接触大量的文本多样性，这对于训练紧凑型文本嵌入模型是必要的。

FRet ：两步蒸馏

使用 LLM 生成 FRet 的两阶段方法。一般来讲，训练嵌入模型的传统方法依赖于大型的、手动标记的数据集。然而，创建此类数据集既耗时又昂贵，并且常常会导致不良偏差和缺乏多样性。在这项工作中，本文提出了一种生成合成数据来训练多任务文本嵌入模型的新方法，该方法通过两步蒸馏可以全面利用 LLM 掌握的知识。生成 FRet 的整体流程如图 2 所示：

统一微调混合

接下来，本文将 FRet 与其他学术训练数据集以相同的格式结合起来：任务描述、输入查询、正向段落（或目标）和负向段落（或干扰项），从而创建一种新颖的微调混合。然后，本文使用这种混合与标准损失函数来训练嵌入模型 Gecko。

除了 FRet 之外，学术训练数据集包括：Natural Questions 、HotpotQA、FEVER、MedMCQA、MedMCQA、SNLI、MNLI 以及来自 Huggingface 的几个分类数据集。对于多语言模型，本文添加了来自 MIRACL 的训练集。所有数据集都经过预处理，具有统一的编码格式，包含任务描述、查询、正向段落和负向段落。

实验

该研究在 MTEB 基准上评估了 Gecko。表 1 总结了 Gecko 和其他基线的比较结果。

Gecko 在每个文本嵌入任务上都显著超越了所有类似大小的基线模型（<= 1k 嵌入尺寸，<= 5B 参数）。与 text-embedding-3-large-256（OpenAI）、GTR 和 Instructor 研究相比，Gecko-1b-256 性能更好。Gecko-1b-768 通常可以匹配或超过更大模型的性能，包括 text-embedding-3-large (OpenAI)、E5-mistral、GRit 和 Echo 嵌入。值得注意的是，这些模型都使用 3-4k 嵌入维度并且参数均超过 7B。此外，该研究还观察到 Gecko 在分类、STS 和摘要方面达到了新的 SOTA 水平。

多语言检索结果。表 2 总结了 Gecko 和其他基线在 MTEB 上的性能比较。

表 3 总结了不同的标记策略用于 FRet 的结果，实验过程中使用了不同的正样本和负样本段落。从结果可以发现使用 LLM 选择的最相关段落总是优于使用原始段落。表 5 也说明了这种情况经常发生。

FRet 提供了对多种任务的查询结果，包括问答、搜索结果、事实检查和句子相似度。表 4 测试了 FRet 的多样性如何影响 MTEB 中任务之间的模型泛化性。首先，该研究使用来自特定任务（例如，FRet 问答）的 30 万个数据来训练各个模型。此外，研究者还使用原始采样分布或均匀采样分布从所有四个任务中抽取的 300k 样本（每个任务 75k；FRet-all-task）来训练模型。观察到 FRet-all-tasks 模型的卓越性能，特别是当任务被均匀采样时。该研究还发现统一格式显著影响嵌入的质量，因为它有助于模型更好地分离不同的任务。

表 4 的最后几行展示了 Gecko 如何学习更好的语义相似性和分类。

了解更多内容，请参考原论文。

产业Gecko谷歌DeepMind

相关数据

DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年，最初名称是DeepMind科技（DeepMind Technologies Limited），在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯，谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后，Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏，例如即时战略游戏《星际争霸II》（StarCraft II）。深度AI如果能直接使用在其他各种不同领域，除了未来能玩不同的游戏外，例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作，基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/

信息检索技术

信息检索（IR）是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

来源：机器之心

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

分类数据技术

一种特征，拥有一组离散的可能值。以某个名为 house style 的分类特征为例，该特征拥有一组离散的可能值（共三个），即 Tudor, ranch, colonial。通过将 house style 表示成分类数据，相应模型可以学习 Tudor、ranch 和 colonial 分别对房价的影响。有时，离散集中的值是互斥的，只能将其中一个值应用于指定样本。例如，car maker 分类特征可能只允许一个样本有一个值 (Toyota)。在其他情况下，则可以应用多个值。一辆车可能会被喷涂多种不同的颜色，因此，car color 分类特征可能会允许单个样本具有多个值（例如 red 和 white）。

来源：Google ML glossary

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋（BOW）模型、语言模型（ngram）和主题模型。隐马尔可夫模型通常用于词性标注（POS）。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

来源：机器之心

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

推荐系统技术

推荐系统（RS）主要是指应用协同智能（collaborative intelligence）做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤（Collaborative Filtering）。另外还有基于知识的推荐系统（包括基于本体和基于案例的推荐系统）是一类特殊的推荐系统，这类系统更加注重知识表征和推理。

来源：机器之心

查询技术

一般来说，查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域，查询指的是数据库和信息系统对信息检索的精确要求

来源：Wikipedia

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看，其与目前主流资讯检索技术有两点不同：首先是查询方式为完整而口语化的问句，再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例，使用者不需要思考该使用什么样的问法才能够得到理想的答案，只需要用口语化的方式直接提问如“请问谁是美国总统？”即可。而系统在了解使用者问句后，会非常清楚地回答“奥巴马是美国总统”。面对这种系统，使用者不需要费心去一一检视搜索引擎回传的网页，对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看，问答系统使用了大量有别于传统资讯检索系统自然语言处理技术，如自然语言剖析（Natural Language Parsing）、问题分类（Question Classification）、专名辨识（Named Entity Recognition）等等。少数系统甚至会使用复杂的逻辑推理机制，来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上，除了传统资讯检索会使用到的资料外（如字典），问答系统还会使用本体论等语义资料，或者利用网页来增加资料的丰富性。

来源：维基百科

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。“物以类聚，人以群分”，在自然科学和社会科学中，存在着大量的分类问题。聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法。聚类分析起源于分类学，但是聚类不等于分类。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析内容非常丰富，有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

来源：百度百科

语言模型技术

统计式的语言模型是借由一个几率分布，而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。

来源：维基百科

小样本学习技术

人类非常擅长通过极少量的样本识别一个新物体，比如小孩子只需要书中的一些图片就可以认识什么是“斑马”，什么是“犀牛”。在人类的快速学习能力的启发下，研究人员希望机器学习模型在学习了一定类别的大量数据后，对于新的类别，只需要少量的样本就能快速学习，这就是 Few-shot Learning 要解决的问题。

来源：知乎