今年以来,中文 NLP 圈陆续出现了百亿、千亿甚至万亿参数的预训练语言模型,炼大模型再次延续了「暴力美学」。但 QQ 浏览器搜索团队选择构建十亿级别参数量的「小」模型,提出的预训练模型「摩天」登顶了 CLUE 总排行榜以及下游四个分榜。
收集了多类型、大量的数据并清洗出 1TB 高价值数据;
优化 Masked language model 遮蔽方案,消除预训练阶段和微调阶段不一致的问题,引入了搜索点曝任务;
自研一种相对位置编码方案,更敏感捕捉短文本位置信息契合搜索场景;
两阶段训练流程;
大规模 / 大 batch 预训练模型训练能力优化:Pre-LN、混合精度计算、梯度聚集、进一步优化 LAMB optimizer;
使用了有限资源,约 100 张 V100 显卡。