项目数据库
先上传送门,点击、收藏一气呵成:https://notebooks.quantumstat.com/
值得注意的是,此批次的数据库里内容都于近日才添加进去,整个项目还是处于非常新的阶段。从模型类型角度来看,基本涵盖了所有 NLP 领域里较为流行的模型类型。
图注:BERT
GPT2
模型种类包含 BERT,GPT2,CNN,RNN,LSTM,Seq2Seq 以及 Seq2Seq w/Attention 等等。
从各项目目标任务角度去看,数据库包含了语音合成、文本生成、语音识别、情绪识别、机器翻译以及词嵌入等主流任务。
图注:机器翻译类
图注:情绪识别类
以 5B GPT2 预训练中文模型为例
在数据库的末栏,会为每个项目附上 Colab 链接,以以 5B GPT2 Pretrained Chinese Model 为例 :
项目 Colab 界面
简单回顾下此项目,项目的 15 亿参数量的 GPT-2 中文预训练模型在 15GB 的纯文本上进行训练,一共迭代了 10 万步。这 15GB 的纯文本主要选自 THUCNews 与 nlp_chinese_corpus,它们会做一系列的数据清理。
THUCNews:http://thuctc.thunlp.org/# 中文文本分类数据集 THUCNews
nlp_chinese_corpus:https://github.com/brightmart/nlp_chinese_corpus
项目作者简化整理了 GPT-2 训练代码,移植了 Bert Tokenizer 以添加多语言支持。因为移植了 Bert Tokenizer,所以模型输出结果很容易与基于 BERT 的模型进行整合。
项目作者开放的预训练模型是在 TPU Pod v3-256 上复现的 15 亿参数 GPT2,这也是 GitHub 上第一个支持大规模 TPU 训练的中文 GPT-2 项目。
本项目的训练脚本:https://github.com/imcaspar/gpt2-ml/tree/master/train