近日,百图生科与清华大学联合提出了一种名为 xTrimo Protein General Language Model (xTrimoPGLM) 的模型,参数量高达千亿(100B)。相关成果于 2023 年 7 月 7 日在 biorxiv 上发布。
MLM-adapted GLM:接着 MLM 预训练后的模型,继续训练 GLM 目标函数; GLM-adapted MLM:接着 GLM 预训练后的模型,继续训练 MLM 目标函数;
CDR3 短序列掩码(CSM):对 CDR3 部分区域进行掩码重设计。 CDR3 全序列掩码(CWM):对 CDR3 全部区域进行掩码重设计。 CDR3 随机突变(CRM):对 CDR3 区域内特定位点的随机 3-6 个位置进行突变。 CDR3 随机检索(CRR):使用来自 SARS-CoV-2 野生型库中其他抗体的序列随机替换 CDR3 区域。