2018/04/01 11:01

作者李泽南

登上《Cell》封面的AI医疗影像诊断系统：机器之心专访UCSD张康教授

人工智能（AI）有可能通过帮助人类医疗专家进行高难度分类、快速分析大量医疗图像的方式彻底改变疾病的诊断和治疗流程。近日，由加州大学圣地亚哥分校张康教授等人提出的深度学习诊断方式让我们提前看到了未来。

2018 年 2 月 22 日出版的《Cell》封面文章介绍了由加州大学圣地亚哥分校（University of California, San Diego）张康教授主导的研究成果：一种基于迁移学习，能够精确诊断致盲性视网膜疾病与肺炎的人工智能工具。该方法的表现与专业医生能力相当，并可以在 30 秒内确定患者是否应接受治疗，准确度高达 95％以上；在区分病毒性肺炎和细菌性肺炎上，新方法的准确率也超过了 90％。同时，该研究也通过显示神经网络激活区域的方法向人们提供了机器诊断的可解释性。作为中国学者主导的又一项重要研究，该文章发表以后受到了人们的广泛关注。

论文链接：http://www.cell.com/cell/fulltext/S0092-8674(18)30154-5

该研究的主要推动者张康，是加州大学圣地亚哥分校眼科教授、眼科遗传学主任，哈佛大学医学博士学位（Magna Cum Laude 荣誉），麻省理工学院（MIT）联合医学博士学位及哈佛大学遗传学博士学位。张康在约翰霍普金斯大学 Wilmer 眼科研究所完成了眼科住院医生实习期，并曾在犹他大学完成视网膜手术专科训练。

张康教授的临床和研究重点是重大疾病的基础和转化研究，寻找新的基因靶标和治疗方法。

他曾在许多著名学术期刊上发表或共同撰写了超过 200 篇同行评议论文，其中涵盖遗传学、分子生物学、干细胞、肿瘤液体活检、3D 打印及组织工程、人工智能和临床试验等多个领域。其中关于 HTRA1 基因是黄斑变性的主要易感基因的 Science 文章曾被《Science》评为 2006 年世界科学十大进展之一。

在《Cell》上的文章发表之后，机器之心对张康教授进行了专访，我们与他对迁移学习、跨学科研究、AI 在医疗领域应用等问题进行了交流。

机器之心：发表在《Cell》上的论文《Identifying Medical Diagnoses and Treatable Diseases by Image-Based Deep Learning》，该研究是从何时开始启动的？

张康：我很早就有这个想法了，真正启动是在去年（2017 年）初。

机器之心：作为眼科教授，使用计算机科学领域中也是刚刚发展起来的机器学习工具进行研究，会遇到哪些困难？

张康：生物医疗科学和计算机科学是两个完全不同的领域。由于计算机科学的高速发展，我们面临的首要问题就是学习并结合这些最近开发的深度学习技术，以确保我们的研究对当前和未来的计算机视觉研究及应用是相关和有用的。深度学习引入可取代之前技术的新方法而改变了计算机视觉领域。然而，这个项目的主要挑战是获得大量的 OCT 图像，并组织一个庞大而结构化的视网膜专家体系，以确保尽可能准确地标记大数据，另外我们必须组织一个优秀人工智能小组。

机器之心：新研究的图像识别模型对计算机的算力要求有多高？

张康：该模型在 4 个 GTX 1080 8GB GPU 中进行了训练和测试。但是，由于该模型是使用预训练权重进行训练的，从而使训练时间比训练空白神经网络要少得多。因此，还可以在合理的时间内使用更小的 GPU 甚至多个 CPU 来完成此模型的训练和推理。

机器之心：神经网络的推理是一个「黑箱」，你们提出的新方法是如何解释计算机作出「诊断」的依据的？

张康：我们在视网膜 OCT 图像的研究中加入了「遮挡测试」——通过卷积一个遮挡核心到输入图像上，机器会通过计算预测做出正确诊断最可能的部位，并输出含有高亮色块的「遮挡」图，这些色块就是 AI「认为」的病变部位，得出直观的为临床医生信任的诊断依据。

机器之心：神经网络在识别医疗图像时相比人类医生具有哪些优势？

张康：首先，通过输入大量的数据，神经网络可以获得远超过人类医生的「经验」，计算出超越人类的准确结果，在我们的系统中，我们使用超过 20 万张医学图像，通过不同的疾病分类，最终使用近 11 万张视网膜 OCT 图像训练机器。在眼病方面，能在 30 秒内正确鉴别脉络膜新生血管、糖尿病黄斑水肿、玻璃膜疣以及正常视网膜的 OCT 图像，结果的准确率、敏感度、特异度均在 95% 以上，并能得出与人类相似甚至更高的准确率。其次，计算机对比图像像素与像素之间的差异，观察到人类关注不到的细节，从而得出更精准的判断，且不像人类一样受主观性干扰。另外，我们通过「迁移学习」这种算法，还能诊断不同系统的疾病，比如我们的系统目前还能准确鉴别肺炎和正常胸部 X 线平片，区分肺炎的病原体为细菌还是病毒，准确率可达 90% 以上。

机器之心：从医学学者的角度来看，人工智能技术在医疗领域里是否会像很多媒体报道的那样「超越，甚至代替人类医生」？

张康：在上一个问题已经回答了，在某些方面人工智能的确有可能超越人类医生。也许在不久的将来，比较单一的、流水线作业式的领域将会被取代。但是，现阶段人工智能的作用是辅助医生而非取代医生，发展人工智能，对医疗科学的发展、医疗水准的提高，都是利大于弊的。

机器之心：深度学习先驱吴恩达（Andrew Ng）认为迁移学习（Transfer learning）是人工智能未来最有希望的发展方向，而你的研究正是应用了迁移学习。相比其他机器学习方法，它具备哪些优秀之处？

张康：「迁移学习」被认为是一种高效的学习技术，尤其是面临相对有限的训练数据时。相较于其他大多数学习模型的「从零开始」，「迁移学习」利用卷积神经网络（Convolutional Neural Network，CNN）学习已有的已经标记好的预训练网络系统，以医学图像学习为例，该系统会识别预系统中图像的特点，我们再继续导入含有第一层图像相似参数和结构的网络系统，最终构建出终极层级。在我们的系统中，第一层网络就是视网膜 OCT 图像，第二级网络系统使用第一级的图像寻找相应的特点，通过前向传播固定低层图像中的权重，找到已经学习的可辨别的结构，再提取更高层的权重，在其中进行反复的自我调整和反馈、传递，达到学习区分特定类型的图像的目的。我们首次使用如此庞大的标注好的高质量视网膜 OCT 数据进行迁移学习，进行常见视网膜致盲性疾病的检测及推荐治疗手段，得到与人类医生相似甚至更高的准确性。此人工智能系统还可以「举一反三」，将迁移学习用于小儿肺炎诊断。

迁移学习是深度学习的一个自然发展方向，迁移学习能让深度学习变得更加可靠，还能帮我们理解深度学习的模型。比如，我们能够知晓哪部分特征容易迁移，这些特征所对应的是某个领域比较高层、抽象的一些结构型概念。把它们的细节区分开，就能让我们对这个领域的知识表达形成一个更深的理解。这样一来，机器就可以像生物的神经系统一样终身学习，不断地对过去的知识进行总结、归纳，让一个系统越学越快，而且在学习过程中还能发现如何学习。

迁移学习在深度学习上面有极为广阔的应用前景，在图像数据资源有限的医疗领域，更高效、所需图像数量更少的迁移学习，可以说是未来 5 年内 AI 发展的热点以及深度学习成功应用的驱动力。

卷积神经网络示意图，该图描述了新研究在 ImageNet 数据集 1000 个类别上训练的卷积神经网络在面对全新 OCT 图像数据集时可以显著提高准确率、降低训练时间。区域链接的（卷积）层会被冻结并迁移到新网络中，而最后，在迁移层之上，全连接层会被重新创建，并被随机初始化重新训练。（Credit：论文《Identifying Medical Diagnoses and Treatable Diseases by Image-Based Deep Learning》）

机器之心：这项工作中，你们与广州市妇女儿童医疗中心、四川大学华西医院、同仁眼科中心、上海市第一人民医院、大连北海医院等机构进行了合作，这些合作是如何开展的？

张康：感谢这些医院为我们提供了宝贵的大量原始医疗图像数据，且由不同专科的医生对图像予以分类、标注，帮助训练 AI 系统获得更精准更稳定的诊断结果。

机器之心：我们都非常期待人工智能可以帮助我们治疗疾病，发表在《Cell》上的研究距离实际应用还有多远？

张康：我们目前已开始在美国和拉丁美洲诊所进行小规模临床试用，进一步优化系统，在未来很快时间里应该可以大规模使用。我们会同时增加准确标注的图片数量和疾病种类，如初步筛查常见疾病、就医转诊指引等功能将可能首先应用于临床，下一步则为指导治疗方案确定、随访等，最终的目标是应用到包括初级保健、社区医疗、家庭医生、急诊室，形成大范围的自动化分诊系统等。

机器之心：计算机科学领域的研究者们（如斯坦福大学吴恩达 Andrew Ng 团队、李飞飞团队）也在致力于将计算机视觉方法应用于医疗领域。作为另一个行业的学者，你是如何看待他们的研究的？

张康：他们的成果为我们的研究提供了理论基础，我们学习了他们的技术，并在他们开发的「迁移学习」模型为基础作出改进，组织一个庞大而有序的视网膜专家小组，加入总共约 11 万张准确标注的视网膜 OCT 图像以及 5000 张胸部 X 线图像，构建出我们的 AI 疾病图像诊断系统。可以说，我们取得今日的突破和他们的贡献是分不开的，感谢像他们一样的计算机学者的付出，才让我们得以更好的结合计算机视觉科学与医疗科学，从而更好的服务于全人类。

机器之心：这种以医生为主导的 AI+医疗研究与其他以人工智能学者为主导的 AI+医疗研究有什么不同？

张康：过去的人工智能研究多以人工智能学者为主导，也许能更快的设计出更为精妙的算法，但由于其对临床医生的需求的不了解，使其真正应有于临床受到限制。现在，我们的团队由专业的医生带领人工智能学者构成，我们更能了解医生对形成诊断、确定治疗方案的需求，在我们的研究中，我们医生知道什么样的医学图像诊断价值更高，从而亲自设定规范的图片纳入标准，对图像进行标注，从而使机器从源头开始就更能获得我们想要的结果。

比如，有一些图像特征较为模糊的图像，如老年黄斑变性，某些较大的玻璃膜疣和脉络膜新生血管非常相似，我们就会偏向于采取更为严重的疾病诊断，因为我们研究的最终目的是帮助病人更可能的推荐给相应的专科医生，从而更快的获得治疗。另外，我们还可以通过我们的想法设定更为贴合实际的过滤器，并按照我们临床医生的需求不断调整；通过「遮挡实验」能够反映机器得出判断的依据。并且，我们的研究还能指导治疗方案的确定。因此我们的研究可能更能达到临床医生想要的效果，并且为临床医生所信任，也许能更快更直接的应用于临床。

机器之心：如何减少医学领域与计算机科学领域之间的隔阂，让新技术能够更好地造福人类？

张康：就我们团队来说，我们以临床经验丰富的医生、教授为主导，辅以有生物医学知识的科学计算经验丰富的计算机专家，还有高通和 Intel 等计算机软硬件领域的行家作为我们的技术指导，在算法的完善和使用上起到很大的帮助。同时，我们定期会一起进行沟通交流，让程序员们更好的了解我们医生的需求。只有医学领域和计算机领域的人才之间互相帮助、互相指导、通力协作，才能使新技术真正的获得应用，更好的造福人类。

机器之心：目前的机器学习方法需要大量医疗图像用于模型的训练，如何避免泄露隐私的问题？

张康：目前的机器学习方法的确需要大量医疗图像用于模型的训练，虽然我们使用的「迁移学习」较传统的深度学习所需的数据量少，增加相应的优质数据确能更加高效的大幅度提升训练效果。通过大量的数据输入，AI 系统可以在不断的学习过程中进行调整，不断减少误差，从而获得更稳定更准确的结果输出。

我们可以保证的是，我们用来训练机器的医疗图像都是仅有疾病表现而不包含病人基本信息的（如姓名、年龄、性别等）图像，因此不存在隐私泄漏的问题。

机器之心：如何看待中国和美国在人工智能医疗领域发展上的差距或者不同？

张康：个人认为，中国在人工智能医疗领域其整体发展水平与发达国家相比仍存在一定差距，在前沿基础理论的学习、人才培训交流、关键性技术的强化，以及对数据收集的优化、质量的提升、档案的系统性、增加数据调用的方便性等方面都有待完善。

目前，国内大多数医疗人工智能仍处于实验研发阶段，其整体发展水平与发达国家相比仍存在一定差距，在前沿基础理论、关键性技术、产业基础平台、人才队伍和监管体系等方面都有待完善。要相信，现阶段人工智能的作用是辅助医生而非取代医生，从而帮助患者更容易获得治疗，随着今后医疗资源的自由流动，医院可能更需要辅助诊断系统，未来医疗人工智能是否能获得更有效的应用、开发出成熟的产品，还有赖于国家对 AI 产品使用的支持、临床医生的信赖与合作。通过加强国际交流合作、人才培训、构建研发中心，发挥我国疾病库资源庞大的优势，加强数据共享、优化数据，保持人才的长期交流与协作，才能获得更好的发展。

机器之心：在这项成功的研究之后，能否透露一下你下一步的 AI+医疗研究方向？

张康：通过算法系统的调整，继续改进学习、导出结果等过程；我们的 AI 系统对于全身各系统可以进行图像检测的疾病都具有适用性，因此我们将进一步增加准确标注的图片数量，加入不同的图像类型，增加可诊断的眼部疾病，另外，加入包括肿瘤，儿童和妇产科，病理等其他系统的疾病图片，增加其可诊断的疾病种类。同时，在疾病预测、指导治疗等等方面增加系统的适用性。

工程Cell医疗健康迁移学习医疗影像人工智能

相关技术

机器人操作系统

所属机构

百度研究院

来源：个人网站 Ng, A. Y.Twitter

李飞飞人物

李飞飞，斯坦福大学计算机科学系教授，斯坦福视觉实验室负责人，斯坦福大学人工智能实验室（SAIL）前负责人。专业领域是计算机视觉和认知神经科学。2016年11月李飞飞加入谷歌，担任谷歌云AI/ML首席科学家。2018年9月，返回斯坦福任教，现为谷歌云AI/ML顾问。10月20日斯坦福大学「以人为中心的AI计划」开启，李飞飞担任联合负责人。11月20日李飞飞不再担任SAIL负责人，Christopher Manning接任该职位。

来源：个人主页维基百科

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

大数据技术技术

大数据，又称为巨量资料，指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

来源：维基百科

迁移学习技术

迁移学习是一种机器学习方法，就是把为任务 A 开发的模型作为初始点，重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务，虽然大多数机器学习算法都是为了解决单个任务而设计的，但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。迁移学习对人类来说很常见，例如，我们可能会发现学习识别苹果可能有助于识别梨，或者学习弹奏电子琴可能有助于学习钢琴。

来源：机器之心 Pan, S. J., & Yang, Q. (2010). A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 22(10), 1345–1359.