斯坦福 AI 实验室新研究「弱监督:一种新的机器学习编程范式」
近年来,机器学习(ML)在现实生活中的影响已经突飞猛进。在很大程度上,随着深度学习模型的出现,从业者亦可在基准数据集上获得最先进的分数,而无需任何手工设计的功能。鉴于 TensorFlow 和 PyTorch 等多种开源 ML 框架的可用性,以及大量可用的最先进模型,可以说高质量的机器学习模型现在几乎是商品化的资源。然而目前仍有问题尚未解决:这些模型依赖于大量手工标记的训练数据。这些手工标记的培训集创建起来既昂贵又耗时,通常需要数月或数年才能成形,特别是在需要领域专业知识的情况下。除此之外,任务通常会在现实世界中发生变化。例如,标签指南等发生变化,则会需要重新标记。出于以上种种原因,从业者越来越多地转向较弱的监督形式,例如启发式地利用外部知识库,模式/规则或其他分类器生成训练数据。从本质上讲,这些都是以编程方式生成培训数据的方式。