作为2018年自然语言处理领域的新秀,BERT做到了过去几年NLP重大进展的集大成,一出场就技惊四座碾压竞争对手,刷新了11项NLP测试的最高纪录,甚至超越了人类的表现,相信会是未来NLP研究和工业应用最主流的语言模型之一。本文尝试由浅入深,为各位看客带来优雅的BERT解读。
除了OCR、语音识别,自然语言处理有四大类常见的任务。第一类任务:序列标注,譬如命名实体识别、语义标注、词性标注、分词等;第二类任务:分类任务,譬如文本分类、情感分析等;第三类任务:句对关系判断,譬如自然语言推理、问答QA、文本语义相似性等;第四类任务:生成式任务,譬如机器翻译、文本摘要、写诗造句等。
GLUE benchmark:General Language Understanding Evaluation benchmark,通用语言理解评估基准,用于测试模型在广泛自然语言理解任务中的鲁棒性。
BERT刷新了GLUE benchmark的11项测试任务最高记录,这11项测试任务可以简单分为3类。序列标注类:命名实体识别CoNNL 2003 NER;单句分类类:单句情感分类SST-2、单句语法正确性分析CoLA;句对关系判断类:句对entailment关系识别MNLI和RTE、自然语言推理WNLI、问答对是否包含正确答案QNLI、句对文本语义相似STS-B、句对语义相等分析QQP和MRPC、问答任务SQuAD v1.1。虽然论文中没有提及生成式任务,BERT核心的特征提取器源于谷歌针对机器翻译问题所提出的新网络框架Transformer,本身就适用于生成式任务。