Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

小模型准确率媲美ChatGPT,达摩院和NTU联合提出零样本文本分类新范式

本文介绍我们最近提出的基于自监督学习的零样本文本分类,被ACL 2023 Findings接收。

现有的零样本文本分类解决方案要么使用对模板选择敏感的预训练语言模型进行提示,要么依赖相关任务的大规模标注数据进行调优。 

在这项工作中,我们提出了一种基于自监督学习的新范式,通过使用未标记数据微调语言模型来解决零样本文本分类任务,称为自监督微调(SSTuning)。 通过探索常见文本的固有结构,我们提出了一个新的学习目标,称为第一句预测,以弥合未标记数据和文本分类任务之间的差距。 在训练模型学习根据段落其余部分预测段落中的第一句后,该模型能够对主题分类和情感分析等未见过的任务进行零样本分类。

 我们训练了3个不同大小的模型,实验结果表明,我们的模型优于目前同等大小最先进的模型。 此外,分析表明我们的模型对提示设计更不敏感。 3个模型都已开源到huggingFace,用户可以直接调用进行文本分类。

文章链接: 

https://arxiv.org/abs/2305.11442

代码链接:

https://github.com/DAMO-NLP-SG/SSTuning

模型链接:

https://huggingface.co/DAMO-NLP-SG/zero-shot-classify-SSTuning-base

方法

这个方法最大的挑战是设计适当的学习目标,以在没有人工注释的情况下有效地构造大规模的训练样本。直观地,文本分类任务的核心可以被视为在所有可能的选项中将最合适的标签与文本相关联。受此观察的启发,我们为自监督微调框架提出了一个新的学习目标,称为第一句话预测,以捕捉这种模式。一般来说,第一句话往往概括了段落的主要思想。因此,通过段落的其余部分预测第一句话可以使模型学习文本与其主要思想(“标签”)之间的匹配关系。

为了生成训练样本,我们将一个段落的第一句话作为正选项,其余部分作为文本。其他段落的第一句话被用作负选项。特别地,如果负选项来自与正选项相同的文章,则称其为硬性负选项(hard negative),因为同一篇文章中的句子通常具有一些相似之处,例如描述相同的主题。硬性负选项迫使模型学习文本的语义,而不是仅匹配关键字完成任务。

在推理阶段,我们将样本的所有可能标签转换为选项的表述形式。因此,调整后的模型可以检索最相关的选项作为文本的预测标签。由于调整后的模型已经看到了大量样本和各种第一句话作为选项,其选项与推理阶段选项相似的可能性更高,因此设计适当的表述形式更容易、更灵活。通过这种方式,我们的自监督微调可以在没有进一步微调的情况下,实时对未见类别的文本进行分类的高效部署。

实验

我们在10个常见的文本分类数据集上测试,包括4个常见的主题分类数据集和6个情感分类数据集。基线模型为最近几年主流或者比较有影响力的方案。

我们训练了3个不同大小的模型与基准模型进行对比。结果表明我们的方法在各个大小的底座上均超过现有的方案。

我们训练出的最强模型在7个数据集上超过所有基线模型,并在准确性上高出最强基线模型3.4个百分点。

为了测试我们的方案在不同prompt/verbalizer上的表现,我们为SST-2和IMDb设计了多个verbalizer 作为选项。相比于UniMC, 我们的模型平均表现更好而且更稳定。

与ChatGPT的对比(论文补充工作)

ChatGPT 在多项任务中表现出色。我们从10个文本分类任务中各随机选取最多1000个样本来进行对比。ChatGPT的prompt采取以下模版:

system memsge: "Please perform {task_name} classification task on the given text and output a {task_name} label from {label_list} based on the overall {task_name} of the text. Return label only."

user input: "Sentence: {sentence}"

虽然我们给出的指令让ChatGPT只输出label,但是少量的样本也会随机生成额外的文本,我们也进行了处理来提高ChatGPT的准确性。

以下是实验结果:

可以看到我们的模型 SSTuning-ALBERT在以上任务中表现和ChatGPT相当,整体的准确率(accuracy)甚至还高出一些。

以下是ChatGPT的输出结果正好是label_list之一的比例 (output hit rate):

可以看到ChatGPT的输出有一定的不可控性。但是我们提出的模型只会输出预测标签对应的数字,所以也更好处理。

总结

我们提出使用自监督微调的方法来解决零样本文本分类的任务。这个方法可在没有人工注释的情况下有效地构造大规模的训练样本。具体来说,我们设计了一个简单而有效的学习目标,名为第一句话预测,以弥合未标记数据和文本分类任务之间的差距。本方案通过段落的其余部分预测第一句话可以使模型学习文本与其主要思想(“标签”)之间的匹配关系,从而获得零样本文本分类的能力。

实验结果证明了把自监督学习应用到零样本学习上面的有效性。未来,我们计划用类似的想法去解决更多的任务。


达摩院多语言NLP
达摩院多语言NLP

阿里巴巴达摩院多语言NLP组致力于多语言NLP基础研究,同时赋能阿里巴巴的各种全球化业务。

https://github.com/DAMO-NLP-SG
理论自监督学习零样本文本分类
1
暂无评论
暂无评论~