2020/06/04 14:55

仵冀颖作者Joni Zhong编辑

新冠肺炎肆虐，看机器学习如何大展手脚，更有效地协助医药研发

数月以来，COVID-19 病毒在全球范围内肆虐。建立在数十年来对冠状病毒家族特征的基础研究之上，科学界对最近的 COVID-19 病毒爆发作出了快速反应，众多前沿实验室开放共享关于病毒的基因组数据库，从而使得研究人员能够快速开展针对这种新病原体的测试。本文以DeepMind开发的AlphaFold System为引子，探讨了机器学习领域的一个专门方向，即如何利用机器学习协助药物开发。希望为有志于此的读者提供一份参考性指南。

最近，Deepmind 发布了利用其基于机器学习的 AlphaFold System 所实现的与引起 COVID-19 的病毒有关的蛋白质结构的预测结果 [25][26]。DeepMind 强调，这些结构预测尚未得到实验验证，但希望它们能有助于科学界解释病毒是如何发挥作用的，以及为今后开展治疗学的实验工作提供一个假设的生成平台。我们知道，了解病毒的蛋白质结构是了解其功能的重要资源，但受限于复杂的蛋白质结构和实验流程，确定蛋白质结构的实验可能需要数月或更长的时间。为此，研究人员一直在开发从氨基酸序列预测蛋白质结构的计算方法。

这次，DeepMind 的工作（AlphaFold）是在没有类似蛋白质的结构可用时，利用称为「自由模型」的机器学习模型精确预测蛋白质结构。一般情况下，研究人员会等到披露具体研究方法的文章被学术期刊同行评议后再公布方法或模型。然而，考虑到 COVID-19 的潜在严重性和时间敏感性，DeepMind 在一个开放的许可证下提前发布了预测结构，以便任何人都可以利用它们开展相关科学研究。

在这篇文章中，我们并不具体分析 AlphaFold 的结构和应用，感兴趣的读者可以阅读我们机器之心相关的资料。在 DeepMind 这项工作的启发下，本文探讨机器学习的一个专门的应用方向，即「如何利用机器学习协助药物研发」。实际上，在药物发现领域，近年来，机器学习技术已经实现了一定程度的应用，例如预测药物早期阶段的分子特性等。我们一起来在这篇文章中对主要的应用情况进行回顾，主要内容参考了三篇综述的文章 [27][28][32]。

一、应用于药物研发的机器学习方法概览

得益于强大的 CPU 和 GPU 硬件，深度神经网络（DNNs）在药物发现中的应用非常广泛，包括生物化合物活性预测、化学结构设计、合成预测等，这其中不同的 DNN 结构，包括经典的卷积神经网络 CNNs、循环神经网络 RNN、长短期记忆神经网络 LSTM、深度自编码神经网络 DAEN、生成性对抗网络 GAN 等都被应用在不同的药物发现任务中。

应用于药物发现领域中的机器学习的工作是由至少 80% 的数据处理和清理以及 20% 的算法应用组成的，数据处理所占的比例远高于其它机器学习的应用任务。因此，机器学习在药物发现领域的应用效果取决于高质量的大量数据的可用性，训练数据需要准确、有组织性和尽可能完整，以便最大限度地提高可预测性。实验设计通常涉及到对理想样本大小的讨论和正确估计该参数的适当功率计算。在训练数据系统性好、标注质量高、噪声小的情况下，机器学习方法往往能在药物发现应用中获得很好的效果。

二、应用领域分析

在本小节中，我们选取了几个应用机器学习算法的药物研发领域进行介绍。

1、化合物活性预测

包括人工神经网络在内的机器学习方法在药物研发的化合物活性预测中应用已久。具体来说，化合物的活性直接反映在它的分子描述符（molecular descriptors），因此可以使用 DNN 进行建模来预测活性。Dahl 等在 Merck-Kaggle challenge 数据库上针对二维拓扑描述符使用 DNN 获得了较好的效果 [1]，Dahl 的实验发现：（i）DNNs 可以处理数千个药物相关的描述符。由于 DNN 的特性，无需进行预先的特征选择。（ii）使用 dropout 可以避免传统人工神经网络存在的过度拟合问题。(iii) 对超参数（层数、每层节点数、激活函数类型等）进行优化调整可以改进 DNN 性能。（iv）多任务 DNN 模型的性能优于单任务模型。Mayr 等提出了一种多任务 DNN[2]，该多任务 DNN 同样使用了 dropout 和 ReLU 激活函数，同时基于 GPU 实现了并行计算，大大提升了计算速度。他们使用一个带有静态描述符（对于预定义毒物的 3D，2D 描述符）和动态生成的扩展连接指纹描述符（extended connectivity fingerprint descriptors，ECFP）的大特征集，使 DNN 能够在训练期间进行自我特征推断，此外，利用 ECFP 对 DNN 模型进行统计关联分析，可以识别出与各隐层已知毒物显著相关的亚结构。

另一类用于化合物活性预测的方法是图卷积模型（graph convolution models），其基本思想是利用神经网络 NNs 自动生成一个分子描述向量，通过训练 NN 来学习向量值。受 Morgan 的圆形指纹方法（circular fingerprint method）启发 [31]，Duvenaud 等人提出了神经指纹方法（neural fingerprint method），通过引入图卷积模型将神经指纹作为分子描述向量，该方法的工作流程如图 1 所示 [3]。首先，读取 2D 分子结构以形成状态矩阵，其中包含每个原子的原子和键信息（基于与原子相连的键）。然后，状态矩阵通过单层神经网络进行卷积运算，生成固定长度的矢量作为分子表示。通过考虑相邻原子的贡献，卷积运算可以在不同的层级上进行，这相当于在不同的相邻层级上的圆形指纹。由不同卷积运算产生的向量首先经过一个 softmax 变换，然后求和形成化合物的最终载体，它是编码分子水平信息的神经指纹。神经指纹通过另一个全连接的神经网络层来产生最终的输出。神经指纹中的比特值是通过训练学习的，并且是可微的。

图 1：图卷积神经网络（GCNNs）图解。

2、预测反应和逆合成分析

在该领域中，两类问题可以通过机器学习来解决。一种是正向反应预测（forward reaction prediction），即在给定一组反应物的情况下预测产物；另一种是逆向合成预测（retrosynthetic prediction），即在给定最终产物的情况下，预测生成产物的反应步骤。如图 2，从机器学习本质上，逆向合成和反应预测所需要的是在可能的几十条或数百条匹配规则中选择正确的规则。

图 2：预测反映和逆向合成挑战。

Coley 等人利用神经网络对 15,000 个反应的训练库中的一组反应的候选产品进行排序，这些候选产品来自于美国专利。将产生的不同反应划分为模板，训练后的模型对于主要产品等级为 1 的情况实现了 71.8% 的正确分类，对于主要产品等级为 3 的情况实现了 86.7% 的正确分类，而对于主要产品等级为 5 的情况实现了 90.8% 的正确分类。为了克服经典基于模板的反应预测方法 (template-based) 所面临的覆盖率和效率问题，在同一研究组的后续研究中提出了一种无模板的方法。他们使用 Weisfeiler-Lehman 差分网络对生成的候选反应进行评分，与之前基于反应模板的方法相比，获得了更好的性能 [30]。Liu 等人使用神经序列到序列模型进行反向合成预测，他们使用从美国专利获得的 50,000 个反应来训练网络，并获得与基于规则的方法相似的精度 [29]。

在另一项工作中，Segler 等人将策略网络和蒙特卡罗树搜索相结合，以实现逆向合成。具体来说，研究人员利用由 1200 万科学文献反应组成的训练库进行预测的 [6]。为了自动提取规则，Segler 等人使用了 Reaxys 数据库 (约 1100 万个反应和约 30 万条规则)，并执行了蒙特卡罗树搜索 (Monte Carlo tree search，MCTS)，以结合 DNN 对树节点进行评分，以将搜索引导到最有希望的概率反应方向。该方法可以完成与经典基于规则的方法（rule-based）相比约两倍的分子逆向合成计划。在定量分析中，该方法优于黄金标准，即最佳优先搜索，并且可以有两种不同的实现方式 (启发式方法和神经网络)。此外，对于几乎三分之二的被检查的分子，MCTS 比传统的计算机辅助搜索方法快 30 倍。定性测试也是在一项双盲研究中进行的。有机化学家被要求在基于文献的合成路线和预测的合成路线之间进行选择，而不知道路线是如何获得的。在这里，所访问的化学家们认为预测路线的质量平均而言与文献中的路线一样好。该方法的流程如图 3 所示，其中，使用的机器学习方法是 DNN。

图 3：神经符号方法流程示例。

3、药物靶点识别和验证

开发药物（小分子、肽、抗体或包括短 RNAs 或细胞疗法在内的新模式）是药物研发领域中最重要的任务，其目的是开发出能通过调节分子靶点的活性来改变疾病状态的药物，即通过靶点的调节实现对疾病状态的调节。首先，根据现有医学证据确定靶点，之后，使用生理相关的体内外模型来验证所选靶点在疾病中的作用（靶点验证）。早期靶点确认对于将研发精力集中在可能成功的项目上是至关重要的。

机器学习的方法可用于分析具有假定目标函数信息的大型数据库以预测潜在因果关系，目前，机器学习已经以这种方式应用于靶点识别的几个方面。Costa 等人构建了一个基于决策树的元分类器 [7]，该分类器训练了蛋白质-蛋白质、代谢和转录相互作用的网络拓扑，以及组织表达和亚细胞定位，目的是预测与发病率相关的基因，而这些基因可用于药物治疗。通过对决策树的研究，他们将多转录因子（transcription factors, TFs）、代谢途径的中心性和细胞外定位确定为关键的分类特征。Jeon 等人建立了一个支持向量机（SVM）分类器，使用各种基因组数据集将蛋白质分类为乳腺癌、胰腺癌和卵巢癌的药物靶点和非药物靶点。主要分类特征为基因必要性、mRNA 表达、DNA 拷贝数、突变发生率和蛋白质相互作用网络拓扑结构 [8]。

文献是了解靶点与疾病关联的主要来源。自然语言处理（NLP）是一种应用于文本挖掘的机器学习方法，基于 NLP 的最新进展，数据挖掘能够更有效地识别相关论文。BeFree 等应用 NLP 核方法识别 Medline 摘要中的药物-疾病、基因-疾病和靶向药物关联 [9]。这种监督学习方法依赖于人工标注的欧盟药品不良反应（EU-ADR）关系数据库语料库和基于遗传关联数据库的半自动标注语料库。

Medline 是美国国立医学图书馆生产的国际性综合生物医学信息书目数据库，是当前国际上最权威的生物医学文献数据库。内容包括美国《医学索引》（IndexMedicus,IM）的全部内容和《牙科文献索引》（IndextoDentalLiterature）、《国际护理索引》（InternationalNursingIndex）的部分内容，涉及基础医学、临床医学、环境医学、营养卫生、职业病学、卫生管理、医疗保健、微生物、药学、社会医学等等领域。

了解剪接信号（splicing signals）的遗传变异能够找到替代模式或新靶点来确定治疗时机。最新的机器学习集成剪接模型将剪接因子在体内结合的 CLiP-seq 分析数据与这些剪接因子被敲除或过度表达的 RNA 测序实验结合起来 [10]，结合剪接编码模型和对从头开始和复杂剪接变化的预测，可以识别特定于阿尔茨海默病的剪接变体 [11]。

机器学习还可以预测肿瘤特异性药物效应。Iorio 等从 265 种抗癌药物中筛选了 990 株癌细胞株，研究了全基因组基因表达、DNA 甲基化、基因拷贝数和体细胞突变数据对药物反应的影响 [12]。他们使用方差分析、逻辑模型和机器学习算法（弹性网络回归和随机森林）来识别预测药物反应的分子特征。癌症类型中最具预测性的数据类型是基因表达，而最具预测性的癌症特异性模型包括基因组特征（驱动基因突变或拷贝数改变），如果包括 DNA 甲基化数据，则效果更好。

对药物开发人员来说，另一个重要的问题是一种药物有多大可能被用于任何给定的靶点。对于小分子药物来说，这就需要识别出具有表明这些蛋白质可以结合小分子的特征。一些研究从已知药物和非药物靶点的蛋白质序列中获得了各种物理化学性质，并将 SVM 或有偏 SVM 与叠层自编码（stacked autoencoders，一种深度学习模型）一起应用于预测药物靶点 [13]。这些机器学习方法的例子生成了一组预期可能与药物结合的靶点，从而减少了潜在的搜索空间，当然，这些靶点仍需要进一步的验证。

4、小分子设计与优化

发现能够阻断或激活感兴趣的目标蛋白的候选药物涉及对大型化合物文库进行广泛的虚拟和实验性的高通量筛选。然后进一步提纯和修饰候选结构，以提高靶标专一性和选择性，同时优化药效学、药代动力学和毒理学特性。然而，由于缺乏足够的高质量的新化学数据，如蛋白质水解靶向分裂 (PROTAC) 和大环，可能会限制应用机器学习方法对这些化学的影响。

当推断小分子的性质和活性时，DNNs 可以显著提高预测能力 [14]。单样本学习（one-shot learning）技术可以用来减少在新的实验装置中对分子读数进行有意义的预测所需的数据量。结合机器学习和马尔可夫状态模型，这项技术被用来鉴定以前未知的阿片剂与μ阿片受体结合的机制，揭示了参与其激活的变构位点 [15]。

机器学习在化学信息学、药物研发中的另一个有趣的应用是通过 NNs 产生新的化学结构。Gomez Bombarelli 等人提出了一种利用变分自动编码器（VAE）生成化学结构的新方法（图 4）。第一步是使用 VAE 进行无监督学习将 ZINC 数据库中的化学结构（SMILES 符串）映射到潜在空间。当 VAE 训练完成，潜在空间中的潜在向量就成为分子结构的连续表示，并且可以通过训练后的 VAE 可逆地转化为 SMILES 符串。通过任何一种优化方法（如贝叶斯优化）在连续的潜在空间中搜索最优的潜在解，然后将搜索到的潜在解解码成 SMILES 符串，就可以生成具有期望性能的新结构。

图 4：变分自动编码器（VAE）方法的说明。

基于 Kaggle 社区的竞赛在推动药物研发领域的方法开发也有着积极的意义。默克·夏普 (Merck Sharp) 的研究人员组织了一项 Kaggle 比赛（https://www.kaggle.com/c/MerckActivity），用于预测其他相关物质的吸收、分布、代谢和排泄 (absorption, distribution, metabolism and excretion，ADME) 参数以及某些生化指标。获胜的团队使用 DNNs，在 15 个化验系统中，有 13 个系统的表现略好于标准的随机森林 [16]。

小分子设计领域中一个尚未解决的挑战是如何最好地表示化学结构。目前存在过多的化学结构表示方法，包括简单的循环指纹、扩展连通性指纹 (extended-connectivity fingerprint，ECFP)，以及复杂的对称函数等等，如图 5 所示。目前还不清楚哪种结构表示法最适合于哪种小分子设计问题。因此，在化学信息学领域中机器学习研究的兴起是否会为结构表示的最佳选择提供更多的指导，这将是一件非常有趣的、值得深入探讨的事情。

图 5：机器学习模型中化学结构表示的 Kaggle 挑战赛。

5、预测性生物标记物

基于机器学习的生物标记物发现和药物敏感性预测模型已经被证明是帮助提高临床成功率、更好地了解药物的作用机制，以及为患者识别正确药物的一种有效方法。在药物研发的整个过程中，后期临床试验需要花费多年时间和数百万美元来进行，因此使用临床前和/或早期临床试验数据及早建立、验证和应用预测模型将是非常有益的。这一流程包括：在临床前数据库上使用机器学习方法预测翻译生物标记物，在使用独立的数据库 (临床前或临床) 进行验证后，使用该模型及其相应的生物标记物对患者进行分层，识别潜在的适应症，并提示药物的作用机制。整个过程如图 6 所示。药物敏感性预测模型 (黄框) 可以使用机器学习方法生成临床前数据。然后，可以使用来自早期临床患者样本的数据来测试该模型。一旦得到验证，该模型可用于患者分层和/或疾病适应症选择，以支持药物的临床开发，并推断其作用机制。图 6 中：En 表示弹性网络；IHC 表示免疫组织化学；MOA 表示作用机理；RF 表示随机森林；SVM 表示支持向量机。

图 6：利用预测生物标志物支持药物发现和开发。

不过，虽然有关生物标记物和预测模型的文献数以千计，但很少有文献应用于临床试验。造成这一差距的因素有很多，包括数据质量、模型选择、数据和软件的获取、模型的重复性以及适合临床环境的分析方法的设计等等。几年前，美国食品和药物管理局 (FDA) 组织了微阵列质量控制 II(MAQC II) 计划，以评估从基线基因表达数据预测临床终点的各种机器学习方法 [17]。在该项目中，36 个独立团队分析了 6 个微阵列数据集，以生成预测模型，从而将样本与 13 个临床终点中的 1 个进行分类。总体观察结果包括数据质量控制过程的重要性、对熟练科学家的需求 (一些团队的表现始终好于使用相同机器学习方法的其他团队)，以及为临床终点选择适当的建模方法的重要性。例如，多发性骨髓瘤患者的总生存期预测不佳，部分原因可能是应用了 24 个月的任意生存期截止的预设进行预测。多发性骨髓瘤的基因表达和总生存期都是连续变量，因此，使用基于回归的预测模型更为合适。事实上，使用单变量 Cox 回归方法，已经识别出了能够显著预测高危患者亚群的基因表达特征。这一特征在几个独立的研究和不同的基于回归的方法中得到了证实：这些没有用到预定义的类成员的回归方法，也有自己的优势。

此外，美国国家癌症研究所 (NCI) 旨在评估建立药物敏感性预测模型 (定义为回归问题) 的回归方法 [18]。每个参与团队都使用了他们最好的建模方法，并在相同的训练数据集 (用 31 种药物治疗的 35 个乳腺癌细胞株) 上优化了他们的参数集，然后在相同的盲测数据集 (用同样的 31 种药物治疗的 18 个乳腺癌细胞株) 上测试了他们的模型的性能。有六种类型的基线剖面数据可用于生成预测模型：RNA 微阵列、单核苷酸多态性 (SNP) 阵列、RNA 测序、反相基因表达、外显子组测序与 DNA 甲基化状态。44 个参与团队应用了各种回归方法，如核方法、非线性回归 (回归树)、稀疏线性回归、偏最小二乘回归、主成分回归或集成方法。与 MAQC II 的结果一致的是，一些团队的表现一直优于使用相同方法的其他团队。不同的表现可能反映了用于质量控制、数据约简、特征选择、分裂策略和微调机器学习参数的技术细节，以及可能将诸如基因功能信息或临床数据等生物学知识纳入预测模型的构建。

目前已经有几个成功的案例研究，其中机器学习的预测模型及其相应的生物标记物在药物发现和开发中发挥了关键作用，特别是在肿瘤学以外的适应症中，基于机器学习的预测生物标记物已经有了很大的进展。Tasaki 等人将机器学习方法应用于多组数据，以更好地了解类风湿性关节炎患者的药物反应 [19]。Pare 等人开发了一种基于梯度增强回归树的新型机器学习框架，用于建立预测复杂性状的多基因风险分数。在英国生物库数据集上进行测试，他们基于 SNP 的模型能够分别解释身高和 BMI 总体多基因方差的 46.9% 和 32.7%[20]。

Ding 等人开发了一个概率生成模型，SCVIS，通过不确定性估计将单细胞基因表达数据中的高维空间缩减为低维结构。然后，该工具被用来分析四个单细胞 RNA 测序数据集，并产生多维单细胞 RNA 测序数据的 2D 表示，这些数据可以可靠地识别细胞类型 [21]。

近年来，应用机器学习方法进行生物标记物发现的特征选择迅速兴起。例如，研究人员应用无监督 DL 模型来提取基因模块或样本簇的有意义的表示 [22]。Way 和 Greene 引入了基于癌症基因组图谱 (TCGA) 泛癌 RNA 测序数据的 VAE 模型，并确定了 VAE 编码特征中的特定模式 [23]。

在所有这些例子中，机器学习方法生成的预测生物标记物取得了很大成功，但仍有几个关键问题需要解决。一是分类器的可解释性，这对机器学习方法的临床应用至关重要。二是需要在多点、多机构数据库的背景下验证这些方法，以证明该方法的普适性。研究人员正在积极解决这些问题并已经取得了一些快速进展，包括应用客观的方法和措施进行模型训练和参数优化、模型解释和生物学见解的提取以及模型的重现性研究。

6、计算病理学

病理学是一个描述性的研究领域，因为病理学家需要通过肉眼检查来解释玻片上看到的东西。对这些玻片的分析能够获得大量信息，例如组织中存在的细胞类型和它们的空间背景。肿瘤与免疫细胞在肿瘤微环境中的相互作用在免疫肿瘤学的研究中越来越重要，除了病理学以外，目前其他技术无法做到这一点。制药公司需要了解药物治疗如何影响特定的组织和细胞，并需要在选择临床试验的候选者之前测试数千种化合物。此外，随着临床试验数量的增加，发现新的生物标记物对于识别对特定治疗有反应的患者将变得越来越重要。更多地使用计算病理学，可以发现新的生物标记物，并以更精确、可重复性和高通量的方式产生它们，最终将缩短药物开发时间，并允许患者更快地获得有益的治疗。

在应用机器学习的方法之前，组织图像分析的算法通常是通过与病理学家的合作完成，并需要计算机科学家为图像抽取描述性特征，以对特定类型的组织或细胞进行分类。图 7 给出了一些机器学习应用的计算病理学任务示例。

图 7：机器学习应用的计算病理学任务。

CNNs 在病理图像中的应用效果很好，因为从单个活检或切除的病理中可以获得大量的可用于训练的像素点。给定足够多的有效样本，DL 算法可以自动学习各种分类任务的特征 [24]。在具体的图像分析任务中，大多数问题集都采用 DL 算法和传统图像分析算法相结合的方法。这样做有几个原因。首先，虽然 DL 已经显示出它在非常具体的问题 (例如肾小球的检测) 上能够赶上或超过人类的能力，但它仍然不是一个很好的通用图像分析工具。由于缺乏灵活性，开发时间仍然很长。因为生成这些标签的成本很高, 可用于特定分类任务的专家标签总体上也比较稀缺。缓解这一问题的方法包括使用免疫组化染色为注解变长的样本向病理学家提供额外信息，以及广泛使用的案例 (癌细胞与正常细胞) 增加有效专家注释标签的可用性，这也是一项正在积极进行的社区性任务。第二是透明度问题。DL 方法以其黑盒方法而闻名。决定分类任务背后的基本原理尚不清楚。这在药物研究特别是病理学分析中是很难接受的。第三，是在临床试验中直接应用 DL 来推断治疗反应所需的大样本量问题。DL 通常需要基于数万样本来学习，而临床试验通常不会产生足够的样本。在某些情况下，可能会将跨临床试验的数据组合在一起，但可能存在偏差，从而使结果更难解释。

三、文章小结

在这篇文章中，我们介绍了几个应用机器学习协助药物开发的任务示例。这些模型或算法也可以应用在公共卫生管理领域中，与药物发现相结合可能会导致个性化医学的重大进步。此外，在医学领域中机器学习还可以应用于电子健康记录和真实世界证据，以改善临床试验结果并优化临床试验资格评估过程。

但是，基于深度训练的神经网络的一个典型问题是缺乏可解释性，也就是说，很难从训练的神经网络中获得关于它是如何得出结果的合适的解释。这一问题，在其它机器学习的应用领域中也同样存在。但是这个问题在医学或药物研发中显得更加严重，这种缺乏可解释性可能会阻碍科学家、监管机构、医生和患者选择这项技术，即使在神经网络比人类专家表现更好的情况下也是如此。比起人类专家的诊断，患者会更相信黑盒机器学习算法的诊断吗？一家制药公司是否会因为机器学习算法预测选择了一个小分子就将其纳入他们的投资组合并投入临床，而这个机器学习算法根本无法明确解释为什么会选择这个分子？目前，机器学习的结果主要作为一种猜测或预估的起点，然后由研究人员在研究中进一步发展，本文开头提到的 DeepMind 给出的与引起 COVID-19 的病毒有关的蛋白质结构的预测结果就类似如此。

机器学习的另一个重要问题是可重复性，这是因为机器学习输出高度依赖于网络参数的初始值或权重，甚至取决于向网络呈现训练样本的顺序，因为它们通常都是随机选择的。网络是否总是使用与输入相同的表达数据选择相同的疾病目标？机器学习方法提出的药物结构是否总是相同的？还有一个需要考虑的重要问题是，是否有大量高质量、准确和精选的数据来训练和开发机器学习模型。对所需数量和精度的要求取决于数据类型的复杂性和要解决的问题。因此，生成这些数据集的成本可能很高。

医学和药物研发是一个专业程度很高的专门领域，如何在其中有效发挥机器学习算法和模型的作用，值得研究人员深入研究，我们也会持续关注相关问题的最新研究进展。

本文参考引用的文章

[1] Ma, J. et al. (2015) Deep neural nets as a method for quantitative structure–activity relationships. J. Chem. Inf. Model. 55, 263–274

[2] Mayr, A. et al. (2016) DeepTox: toxicity prediction using deep learning. Front. Environ. Sci. http://dx.doi.org/10.3389/fenvs.2015.00080

[3] Duvenaud, D. et al. (2015) Convolutional networks on graphs for learning molecular fingerprints. In Proceedings of the 28th International Conference on Neural Information Processing Systems, MIT Press. pp. 2224–2232

[4] Go ´mez-Bombarelli, R. et al. (2016) Automatic chemical design using a data-driven continuous representation of molecules. ArXiv arXiv:1610.02415

[5] Coley, C.W. et al. (2017) Prediction of organic reaction outcomes using machine learning. ACS Cent. Sci. 3, 434–443

[6] Segler, M.H.S. and Waller, M.P. (2017) Neural-symbolic machine learning for retrosynthesis and reaction prediction. Chemistry 23, 5966–5971

[7] Costa, P. R., Acencio, M. L. & Lemke, N. A machine learning approach for genome- wide prediction of morbid and druggable human genes based on systems- level data. BMC Genomics11, S9–S9 (2010)

[8] Jeon, J. et al. A systematic approach to identify novel cancer drug targets using machine learning, inhibitor design and high- throughput screening. Genome Med.6, 57 (2014)

[9] Bravo, A., Pinero, J., Queralt- Rosinach, N., Rautschka, M. & Furlong, L. I. Extraction of relations between genes and diseases from text and large- scale data analysis: implications for translational research. BMC Bioinformatics16, 55 (2015)

[10] Jha, A., Gazzara, M. R. & Barash, Y. Integrative deep models for alternative splicing. Bioinformatics33, i274–i282 (2017)

[11] Vaquero- Garcia, J. et al. A new view of transcriptome complexity and regulation through the lens of local splicing variations. eLife5, e11752 (2016)

[12] Iorio, F. et al. A landscape of pharmacogenomic interactions in cancer. Cell166, 740–754 (2016). This paper applies ML to data from somatic mutations, copy number alterations, DNA methylation and gene expression from 1,000 cancer cell lines to model drug response of the cell lines and demonstrates the importance of genomic features for prediction

[13] Wang, Q., Feng, Y., Huang, J., Wang, T. & Cheng, G. A novel framework for the identification of drug target proteins: combining stacked auto- encoders with a biased support vector machine. PLOS ONE12, e0176486 (2017)

[14] Ma, J., Sheridan, R. P., Liaw, A., Dahl, G. E. & Svetnik, V. Deep neural nets as a method for quantitative structure–activity relationships. J. Chem. Inf. Model.55, 263–274 (2015)

[15] Barati Farimani, A., Feinberg, E. & Pande, V. Binding pathway of opiates to μ- opioid receptors revealed by machine learning. Biophys. J.11 4, 62a–63a (2018)

[16] Ma, J., Sheridan, R. P., Liaw, A., Dahl, G. E. & Svetnik, V. Deep neural nets as a method for quantitative structure–activity relationships. J. Chem. Inf. Model.55, 263–274 (2015)

[17] Shi, L. et al. The MicroArray Quality Control (MAQC)-II study of common practices for the development and validation of microarray- based predictive models. Nat. Biotechnol.28, 827–838 (2010)

[18] Costello, J. C. et al. A community effort to assess and improve drug sensitivity prediction algorithms. Nat. Biotechnol.32, 1202–1212 (2014). This paper is an effort to collect and objectively evaluate various ML approaches by teams around the world on multi- omics data sets and various compounds. The data sets and results are continuously used as benchmarks for new method developments and validation

[19] Tasaki, S. et al. Multi- omics monitoring of drug response in rheumatoid arthritis in pursuit of molecular remission. Nat. Commun.9, 2755 (2018). This work identifies molecular signatures that are resistant to drug treatments and illustrates a multi-omics approach to understanding drug response.

[20]Paré, G., Mao, S. & Deng, W. Q. A machine- learning heuristic to improve gene score prediction of polygenic traits. Sci. Rep.7, 12665 (2017)

[21] Ding, J., Condon, A. & Shah, S. P. Interpretable dimensionality reduction of single cell transcriptome data with deep generative models. Nat. Commun.9, 2002 (2018)

[22]Tan, J., Hammond, J. H., Hogan, D. A. & Greene, C. A.-O. ADAGE- based integration of publicly available Pseudomonas aeruginosa gene expression data with denoising autoencoders illuminates microbe-host interactions. mSystems1, e00025–15 (2016)

[23] Way, G. P. & Greene, C. S. Extracting a biologically relevant latent space from cancer transcriptomes with variational autoencoders. Pac. Symp. Biocomput.23, 80–91 (2018)

[24] anowczyk, A. & Madabhushi, A. Deep learning for digital pathology image analysis: a comprehensive tutorial with selected use cases. J. Pathol. Informat.7, 29 (2016). This article is the first comprehensive review of DL in the context of digital pathology images. The paper also systematically explains and presents approaches for training and validating DL classifiers for a number of image- based problems in digital pathology, including cell detection, segmentation and tissue classification

[25] https://deepmind.com/blog/article/AlphaFold-Using-AI-for-scientific-discovery

[26] https://deepmind.com/research/open-source/computational-predictions-of-protein-structures-associated-with-COVID-19

[27] Hong Ming Chen, et al. The rise of deep learning in drug discovery, Drug Discovery Today.

[28] Stephenson, Natalie,Survey of Machine Learning Techniques in Drug Discovery, Current Drug Metabolism.

[29] Liu, B. et al. (2017) Retrosynthetic reaction prediction using neural sequence-to-sequence models. ACS Central Science 3, 1103–1113

[30] Jin, W. et al. (2017) Predicting organic reaction outcomes with Weisfeiler–Lehman network. ArXiv arXiv:1709.04555

[31] Morgan, H.L. (1965) The generation of a unique machine description for chemical structures—a technique developed at Chemical Abstracts Service. J. Chem. Doc. 5, 107–113

[32] Vamathevan, Jessica Clark, Dominic Czodrowski, Paul Dunham, Ian Ferran, Edgardo Lee, George Li, Bin Madabhushi, Anant Shah, Parantu Spitzer, Michaela Zhao, Shanrong, Applications of machine learning in drug discovery and development, Nature Reviews Drug Discovery, 2019

机器之心技术分析师专栏

由来自世界各地的专业分析师为你解读前沿进展，技术热点和经典论文。我们的分析师团队由来自于各大名校的硕士和博士，以及一线研究机构的研究员组成。

入门机器学习