生物医疗是机器学习技术应用对接的重要领域之一。近日,Nature 报道了谷歌运用深度学习技术(主要是卷积神经网络)在该领域取得的新突破。谷歌通过分析眼球的视网膜图像,可以预测一个人的血压、年龄和吸烟状况,而且初步研究表明,这项技术在防范心脏病发作上很有成效。深度学习技术正改变着生物医疗学家处理分析图像的方式,甚至有助于发现从未触及的现象,有望开辟一条新的研究道路。
眼睛通常被认为是心灵的窗口——但是谷歌研究者却将其看作人体健康的指示器,他们正借助深度学习技术分析眼球的视网膜图像来预测一个人的血压、年龄和吸烟状况。谷歌的计算机收集视网膜血管信息,并且一项初步研究表明机器可以使用这些信息预测一个人是否有心脏病发作的风险。
这项研究依赖于一种称为卷积神经网络的深度学习算法,它正在改变生物学家分析图像的方式。科学家正使用该方法寻找基因组突变,并预测单细胞布局中的变异。谷歌的这一方法在上年 8 月的预印版中已有所描述(R. Poplin et al. https://arxiv.org/abs/1708.09843;2017),它成为了深度学习应用浪潮的一部分,使得图像处理更容易,更有用——甚至可以识别被忽略的生物现象。
谷歌研究院的工程学主管 Philip Nelson 说:「从前把机器学习技术应用到生物学领域并不现实,现在可以了;更令人兴奋的是,机器还可以看到人之前无法发现的东西。」
卷积神经网络允许计算机高效而全息地处理图像,而无需分割它。借助于算力与存储的巨大提升,该方法最初在 2012 年左右初显成效;比如,Facebook 利用这类深度学习技术识别图像中的人脸。但是科学家却努力把神经网络应用到生物学,部分原因是由于领域之间的文化区别。谷歌母公司 Alphabet 旗下的生物科技公司 Calico 的首席计算官 Daphne Koller 说:「一群聪明的生物学家和一群同样聪明的计算机科学家出现在一个房间,他们会以两种截然不同的语言和思维方式彼此交流。」
科学家同样也不得不识别何种研究可被执行,研究使用的神经网络须经过大型数据集的训练方可做出预测。当谷歌想要使用深度学习发现基因组突变时,科学家不得不把 DNA 字母链转化为计算机可识别的图像,接着他们在 DNA 片段上训练神经网络,这些片段已与参考基因组对齐,并且其突变已知。最终的结果是 DeepVariant,该工具发行于上年 12 月,可发现 DNA 序列上的小变异。至少在测试中,DeepVariant 的表现与传统工具一样好。
在位于西雅图的艾伦研究所中,细胞生物学家正在使用卷积神经网络将光学显微镜捕获的细胞平坦灰色图像转换成 3D 图像,其中一些细胞的细胞器被标记为彩色。这种方法免去了细胞染色的需要——这一过程需要很多时间和复杂的实验室设备,还可能会损坏细胞。上个月,该研究小组提交的论文中详述了仅使用少量数据(如细胞轮廓),来预测更多细胞部分的形态和位置的技术细节(G. R. Johnson et al.Preprint,bioRxiv http://doi.org/chwv; 2017)
「现在我们看到的是机器学习可以使用图像来完成生物学任务,」Broad Institute of MIT and Harvard 图像平台负责人 Anne Carpenter 说道。在 2015 年,她的跨学科团队开始使用卷积神经网络来处理细胞图像;现在,Carpenter 说道,神经网络正在处理研究中心内大约 15% 的图像数据。她认为这种方法将成为该中心在未来几年内的主要数据处理方式。
其他人则对使用卷积神经网络探索微妙的生物学现象,进而提出此前无法想象的问题而感到兴奋。「科学界最有趣的短语不是『找到了!』而是『这很奇怪——发生了什么?』」Nelson 说道。
「这样的偶然发现可以推动疾病研究,」艾伦研究所的执行董事 Rick Horowitz 说道。「如果深度学习可以找出单个细胞中微妙的癌化征兆,它就可以帮助我们改进肿瘤分类,这又可能带来癌细胞传播的新理论。」
生物学界的其他机器学习拥趸已经将目光投向了新的前沿领域,现在,卷积神经网络正在用于图像处理。「图像非常重要,化学和分子数据也同样重要,」德国环境健康研究中心计算生物学家 Alex Wolf 说道。Wolf 希望神经网络最终能够分析基因表达。「我认为在未来几年里这类技术会出现很大的突破,」他说道,「从而让生物学家能够更广泛地使用神经网络技术。」
论文:Predicting Cardiovascular Risk Factors from Retinal Fundus Photographs using Deep Learning
论文链接:https://arxiv.org/abs/1708.09843
摘要:传统上,医学发现是通过观察关联性,随后设计试验验证假设得出的。但是,在真实数据中特征、纹理、颜色、数值、形态等因素在图像中观察和量化出关联非常困难。在本文中,我们使用深度学习,一种可以自行学会特征的机器学习技术,来探索视网膜眼底图像中的新知识。通过来自 284,335 名患者的数据,我们训练出了一个模型,同时又经过了来自 999 名患者,12,026 份独立数据验证集的验证,我们的算法可以预测出此前被认为在视网膜眼底图像里无法预测的心血管风险指标,如年龄(3.26 岁以内)、性别(0.97AUC)、吸烟状况(0.71AUC)、HbA1c(1.39% 以内)、收缩压(11.23mmHg 以内),以及主要不良心脏事件(0.70AUC)。我们进一步证明,该模型可用于生成解剖学上多种类型的分析预测,如视神经盘和血管,这为未来的研究打开了新路。