2019/01/09 14:19

登上Nature&Science，AI「看面相」识别遗传病准确率达91%

AI 人脸识别技术已被广泛用于手机解锁、移动支付，甚至「看面相」。近日，来自美国数字医疗公司 FDNA 的研究人员提出了一种深度学习应用 Face2Gene，可以帮助医生识别罕见基因疾病。他们的研究登上了医学期刊《Nature Medicine》，并被 Nature 和 Science 争相报道。

和大多数消费产品一样，Face2Gene 的 APP 可以搭载在智能手机里，其识别遗传病的 top-10 准确率高达 91%。研究者称，这种深度神经网络识别罕见病的准确率超过了人类医生。如果继续改进一些问题，它就可以帮助全球儿童获得更好的医疗条件了。

本月 7 日发表在《Nature Medicine》上的一篇论文提出了一种深度学习算法 DeepGestalt，可以帮助医生和研究人员通过分析人们的面部照片来发现罕见遗传病。在这篇论文中，研究者详细介绍了这项辅助诊断方法背后的技术——一个名为 Face2Gene 的智能手机 APP。该应用依靠深度学习算法和类脑神经网络来区分人类照片中与先天性和神经发育障碍有关的独特面部特征。利用从照片中推断出的模式，该模型可以定位到可能的诊断结果，并提供可能的选项列表。

研究人员正在提高算法能力，以帮助发现诸如德朗热综合征 (CdLS) 等遗传疾病的身体特征。

医生已经使用这种技术作为辅助手段，尽管它给出的诊断并不是决定性的。但是，研究者表示，这一工具引发了人们对伦理、法律方面的担忧，包括训练数据集中的种族偏见和数据集的商业成分，二者都可能会限制这一诊断工具的使用范围。

FDNA 是马萨诸塞州波士顿的一家数字医疗公司。在该公司首席技术官 Yaron Gurovich 的带领下，研究者们首先训练人工智能系统来区分德朗热综合征和天使人综合征，这两种疾病患者都有有别于其他疾病的明显面部特征。他们还教该模型区分对第三种疾病——努南综合征的不同基因形式进行分类。

接下来，研究者们给算法输入了涵盖 216 种不同综合征的 17000 多张确诊病例的图像。在用新面孔进行测试时，该 APP 的最佳诊断猜测准确率达到了 65%。如果考虑多个预测结果，则 Face2Gene 的 top-10 准确率可以达到约 90%。

缩小可能病症的范围

最终，FDNA 想开发该技术来帮助其他公司过滤、优先处理和解释 DNA 分析中发现的未知基因变异。但是要想训练模型，FDNA 需要数据。

因此目前医疗专家可免费使用 Face2Gene app，其中许多人将该系统作为诊断罕见遗传性疾病的第二选择，Nemours/Alfred I. duPont 儿童医院医学遗传专家、该研究的共同作者 Karen Gripp 说道。它还可以为对病人症状摸不着头脑的医生提供思路——「类似谷歌搜索」。

Gripp 也是 FDNA 的首席医疗官，她使用该算法帮助诊断一个小女孩的 Wiedemann–Steiner 综合征。这个小女孩才四岁，由于年龄较小，除了掉落大部分乳牙并长出多个恒牙，很多典型的躯体症状尚未显现。

Gripp 读了很多关于患有 Wiedemann–Steiner 综合征的儿童牙齿过早生长的案例报告，这是由一种叫作 KMT2A 的基因变异引起的罕见疾病。为了支撑该诊断的置信度，Gripp 将这个患者的照片上传到 Face2Gene。软件上出现了「Wiedemann–Steiner 综合征」。

接着，Gripp 用靶向 DNA 测试进一步确定了这一诊断结果。她说，该 AI 方法可以帮助她缩小可能病症的范围，节约了更昂贵的多基因检测（multi-gene panel testing）费用。

DeepGestalt 高级流程和网络架构。该网络由十个卷积层组成，除了最后一个之外的所有层都是批量归一化和 ReLU。在每对卷积层之后是池化层（在前四对之后的最大池，和在第五对之后的平均池）。然后是具有 dropout（0.5）和 softmax 层的全连接层。

「打败人类」

Gurovich 表示，随着更多医疗专家将病人的照片上传到该 APP，该项目的准确率也得到略微提高。现在该项目的数据库中大约有 15 万张照片。

在去年八月举办的一个先天性缺陷研讨会上，人们对 Face2Gene 和临床医生的准确率进行了一次非正式对比，结果表明 Face2Gene 优于人类。南卡罗来纳州格林伍德遗传中心（Greenwood Genetic Center）遗传学家 Charles Schwartz 向参与者发放十个儿童的面部照片（症状「容易识别」），然后让参与者进行诊断。

只在两张照片上有半数以上的临床遗传学家诊断出正确结果。而 Face2Gene 正确识别了其中 7 张照片里的症状。

「我们输得很惨，Face2Gene 打败了我们。」美国国家人类基因组研究所（US National Human Genome Research Institute）临床遗传学家 Paul Kruszka 说道。「我认为儿科医生和遗传学家将会有一个类似的 app，并像使用听诊器一样使用它。」

筒仓效应和偏见

但只有训练数据集够好，算法才足够好用，因此这种技术存在风险。尤其是涉及那种全球患者人数极少的罕见疾病时，公司和研究人员各自为营，将其数据集商业化。「这会威胁到这项技术的主要潜在优势。」带头促进这一领域数据共享的牛津大学计算生物学家 Christoffer Nellåker 说道。

训练数据集（其中大部分为白人）中的种族偏见仍是一大问题。2017 年的一份儿童智力障碍研究表明，Face2Gene 对唐氏综合征的识别率在比利时白人小孩中为 80%，而在刚果黑人小孩中仅为 37%。然而，随着训练数据集变得更加多样化，算法对非洲面孔的识别准确率亦随之提升，表明多样化人群的更公平表示是可以实现的。

「我们知道这个问题需要解决，但随着我们技术的发展，偏见会越来越少。」Gurovich 表示。

论文：Identifying facial phenotypes of genetic disorders using deep learning

https://www.nature.com/articles/s41591-018-0279-0

摘要：综合征遗传病影响了 8% 的人口。很多综合征具有可识别的面部特征，这些特征对于临床遗传学家来说具有很高的信息价值。最近的研究表明，面部分析技术识别综合征的能力已经达到了专业医生级别。然而，这些技术只能识别少数疾病表型，因而在临床诊断中发挥的作用有限，临床诊断中需要识别的综合征有上百种。本文提出一种面部图像分析框架 DeepGestalt，该框架利用计算机视觉和深度学习算法量化了数百种综合征的相似性。

在最初的三个实验中，DeepGestalt 的表现超越了临床医师。其中两个实验用于区分患有目标综合征和其它综合征的患者，剩下的一个用于区分努南综合征的不同基因亚型。最后一个实验是反应真实临床问题，而这次 DeepGestalt 在 502 张不同图像上识别正确综合征的 top-10 准确率达到了 91%。该模型是在一个包含 17000 张图像的数据集上训练的，这些图像共呈现了 200 多个综合征，通过社区驱动的表型平台进行策划。DeepGestalt 为临床遗传学、基因测试、医学研究和精准医疗中的表型评估增加了相当大的潜在价值。

参考内容：
https://www.nature.com/articles/d41586-019-00027-x#ref-CR1
https://www.nature.com/articles/s41591-018-0279-0
https://www.sciencemag.org/news/2019/01/artificial-intelligence-could-diagnose-rare-disorders-using-just-photo-face
https://futurism.com/genetic-disorders-face-shape-app/

工程计算机视觉医疗影像基因ScienceNature

1 1

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

池化技术

池化（Pooling）是卷积神经网络中的一个重要的概念，它实际上是一种形式的降采样。有多种不同形式的非线性池化函数，而其中“最大池化（Max pooling）”是最为常见的。它是将输入的图像划分为若干个矩形区域，对每个子区域输出最大值。直觉上，这种机制能够有效的原因在于，在发现一个特征之后，它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小，因此参数的数量和计算量也会下降，这在一定程度上也控制了过拟合。通常来说，CNN的卷积层之间都会周期性地插入池化层。

来源：cs231n

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术，包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等；而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。人脸识别是一项热门的计算机技术研究领域，它属于生物特征识别技术，是对生物体（一般特指人）本身的生物特征来区分生物体个体。

来源：维基百科

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

数据库技术

数据库，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据运行新增、截取、更新、删除等操作。所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

来源：维基百科

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

深度神经网络技术

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia