当人工智能已进入「大数据 + 大算力 + 大模型」时代,拥有 1.75 万亿参数的「悟道 2.0」,如何延续暴力美学的奇迹?
FastMoE 论文地址:https://arxiv.org/abs/2103.13262
FastMoE 项目地址:https://github.com/laekov/fastmoe
CogView 论文地址: https://arxiv.org/abs/2105.13290
CogView 项目地址: https://github.com/THUDM/CogView
Inverse Prompting 论文地址:https://arxiv.org/abs/2103.10685
Inverse Prompting 论文地址:https://github.com/THUDM/InversePrompting
具体而言,CPM-2 有几大优势:
高效编码:研发了最高效、最抗噪的中文预训练语言模型编码,解决生僻字等问题
高效模型:构建了世界首个纯非欧空间模型,只需要一半的参数量即可达到近似欧式模型的效果;
高效训练:世界首创大规模预训练模型融合框架形成高效训练新模式,训练时间缩短 27.3%,速度提升 37.5%;
高效微调:世界首创多类别 Prompt 微调,只需训练 0.001% 参数即可实现下游任务适配;
高效推理:世界首创低资源大模型推理系统,单机单卡 GPU 即可以进行千亿参数规模的模型推理。
人类对归纳偏置的启发:隐性知识 VS 可用言辞表达的知识;
抽象变量之间的稀疏依赖和抽象变量发挥因果作用;
可重用因果机制;
系统级泛化;
离散、象征和抽象概念;
稀疏的局部化干预。