深度思考 | 从BERT看大规模数据的无监督利用

在击败 11 个 NLP 任务的 State-of-the-art 结果之后，BERT 成为了 NLP 界新的里程碑，同时打开了新的思路：在未标注的数据上深入挖掘，可以极大地改善各种任务的效果。数据标注是昂贵的，而大量的未标注数据却很容易获得。

在分类中，标签表示训练示例所属的类; 在回归中，标签是对应于该示例的实值响应。大多数成功的技术，例如深度学习，需要为大型训练数据集提供 ground truth 标签；然而，在许多任务中，由于数据标注过程的高成本，很难获得强有力的监督信息。因此，希望机器学习技术能够在弱监督下工作。

这不可避免地导致我们重新考虑弱监督学习的发展方向。弱监督学习的主要目标是仅使用有限量的标注数据，和大量的未标注数据，来提升各项任务的效果。

弱监督最大的难点在于如何用少量的标注数据，和为标注数据来有效地捕捉数据的流形。目前的一些解决方案在面对复杂的数据时，比较难准确地还原数据的流形。但是 BERT 通过大量的预训练，在这方面有着先天的优势。

因而，BERT 凭借对数据分布的捕获是否足以超越传统半监督的效果？又或者，BERT 能否有与半监督方法有效地结合，从而结合两者优势？

专业用户独享

本文为机器之心深度精选内容，专业认证后即可阅读全文

开启专业认证

登录后开启专业认证去登录

理论BERT无监督数据标注多任务学习半监督学习无监督学习