幂律智能与清华大学联合开源自然语言预训练模型OpenCLaP
机器之心获悉,幂律智能与清华大学人工智能研究院自然语言处理与社会人文计算研究中心联合开源大规模自然语言预训练模型 OpenCLaP(Open Chinese Language Pre-trained Model Zoo)。OpenCLaP 中的法律预训练模型,是在超过三千万篇高质量法律文书上进行训练,并且去掉了文书之中对语言理解帮助不大的无用信息。相比于 Google 开源的中文 BERT 模型,OpenCLaP 训练速度明显快于 Google 中文 BERT。在民事文书要素抽取及刑事文书判决预测任务上,幂律智能开源的法律中文预训练模型效果显著优于 Google 开源的中文 BERT 模型。未来该项目还将持续加入更多更强的预训练模型,通过增加更多训练语料,引入大规模知识,使用全词覆盖策略等,来进一步提高预训练模型效果。