2019/01/09 13:47

作者：Awni Y. Hannun等

吴恩达论文登上Nature Medicine！利用神经网络诊断心率不齐

近日，吴恩达团队开发了一种深度神经网络，可以基于单导程心电图（ECG）信号诊断心率不齐，且诊断性能堪比心脏病医生。

ECG 是医疗实践中的基础工具，全世界每年有超过 3 亿张心电图，它在诊断心律不齐过程中起关键作用。近日，吴恩达团队在 Nature Medicine 上发表了一项研究，开发了一种深度神经网络，可基于单导程 ECG 信号分类 10 种心率不齐以及窦性心律和噪音，性能堪比心脏病医生。

你能从上图中分辨出心律不齐吗？神经网络可以准确地检测出这属于 AVB_TYPE2 类型。

该团队开发了一个 1D 卷积深度神经网络，可基于任意长度 ECG 时序数据检测心律不齐。该网络使用原始 ECG 数据作为输入（以 200 Hz 进行采样，即每秒 200 个样本），并每 256 个样本（每 1.28 s）输出一个预测结果。该网络只需要原始 ECG 样本作为输入，无需病人或 ECG 相关的其他特征。该网络架构共有 34 个层，为简化网络优化，研究人员使用类似残差网络架构的捷径连接（shortcut connection）。

与近期其他 DNN 方法不同，ECG 数据无需经过大量预处理（如傅立叶变换或小波变换），就可以获得强大的 DNN 分类性能。

该团队构建了一个大型 ECG 数据集，该数据集经过专家标注，包含大量 ECG 心律类型。

他们的数据集包含了来自 53877 名成人患者的可回溯、去识别数据，这些患者大于 18 岁，使用的是 iRhythm Technologies 公司的 Zio 监护仪，这是一种美国食品和药物管理局（FDA）批准的单导程、基于块的动态心电图监护仪，在 200Hz 下持续记录来自单个载体（改良的 Lead II）的数据。

心电图记录是根据 iRhythm Technologies 公司临床工作流程产生的报告摘要提取的，其中包括由正规心电图技术人员对算法的初始注释进行的全面审查，这种算法得到了 FDA 510(k) 的批准，可以用于临床。研究人员随机采样心率不尽相同的患者，并从这些患者中抽取了 30 秒可进行心率分类的记录。尽管目标心率类别通常出现在记录中，但大多数记录包含多种心率。为了进一步改善训练数据集中类的平衡，该团队故意对 AVB 等罕见的心率进行了过度采样。

在独立测试数据集上对比 DNN 和心脏病学家的诊断能力

测试数据集由 328 个 ECG 记录构成，收集自 328 个独特的病人，这些记录由一个由心脏病专家组成的共识委员会进行注释。

除了一个心脏病共识委员会的注释，测试数据集中的每个 ECG 记录还包括六个单独的心脏科医生的注释，这些医生不属于该委员会。利用这些委员会标签作为黄金标准，研究人员比较了 DNN 算法 F1 得分与平均每个心脏病医生的 F1 得分，F1 得分是阳性预测值（PPV，查准率）和灵敏度（查全率）的调和平均值。心脏科医生 F1 得分是 6 个单独的心脏科医生 F1 得分的平均值。

结果，DNN 的 F1 平均得分超过了心脏科医生。DNN F1 得分的趋势与心脏科医生平均 F1 得分的趋势一致：二者在类似类别上的 F1 分数都比较低，如室性心动过速和房性异位节律（EAR）。

将特异度固定在心脏科医生达到的平均特异度水平，DNN 的灵敏度超过心脏科医生在所有心律分类中的平均灵敏度。

研究人员发现该模型在所有心律类型分类中的表现足以比肩、甚至超过心脏病医生的平均表现。

研究人员绘制了序列级心律分析的 ROC曲线和 PR 曲线，下图以心房颤动为例。单个心脏病医生的表现和心脏病医生的平均表现也显示在下图中。

研究人员发现 DNN 似乎可以概括单个心脏病医生的错误分类。

对错误分类部分进行人工审核后发现，DNN 的错误分类整体上非常合理。在很多情况下，缺乏语境、信号长度有限、单导程等原因导致无法从数据中得出合理结论，这使得研究人员很难确定委员会和算法谁是正确的。类似的因素和人类错误可能解释 72.8% 的标注者之间的分歧。

下面两个混淆矩阵展示了类似的模式，图中将分类时更容易出问题的心律类型突出显示（即 SVT 和 atrial fibrillation、 junctional 和 sinus rhythm、EAR 和 sinus rhythm）。

研究人员在来自不同患者群体的外部数据集上验证了其 DNN，发现该模型的表现颇具竞争力。

为了证明 DNN 架构能够泛化至外部数据，研究人员将 DNN 模型应用于 2017 PhysioNet 挑战赛数据，该数据包含 4 种心律：窦性心律、心房颤动、噪声和其它。保持 DNN 架构不变，也不调整任何超参数，研究人员在开源训练数据集（n = 8,528）上训练其 DNN 模型，保留了 10 % 的开发数据集，以便提前停止。DNN 在隐藏测试数据集（n = 3,658）上的表现显示 F1 总分属于竞赛中表现最好的分数之一，每类心律平均 F1 分数为 0.83。

论文：Cardiologist-level arrhythmia detection and classification in ambulatory electrocardiograms using a deep neural network

论文链接：https://www.nature.com/articles/s41591-018-0268-3

摘要：计算机心电图（ECG）解释在临床 ECG 工作流程中起着至关重要的作用。广泛可用的数字 ECG 数据和深度学习算法范例为大幅提升自动 ECG 分析的准确性和可扩展性提供了机会。然而，目前还没有在各种诊断类别上对用于 ECG 分析的端到端深度学习方法进行全面评估。在本文中，研究人员开发了一种深度神经网络（DNN），用来自 53549 名使用单导程动态心电图监测设备患者的 91232 个单导程心电图对 12 种心律进行分类。当对照共识委员会（由董事会认证的执业心脏病专家组成）注释的独立测试数据集进行验证时，DNN 在受试者工作特征曲线（ROC 曲线）下的平均面积为 0.97。其平均 F1 分数（即阳性预测值和敏感度的调和平均值）为 0.837，超过了平均心脏病专家（0.780）。由于特异度固定在心脏病专家达到的平均特异度上，DNN 的敏感度超过了心脏病专家对所有心律等级的的平均敏感度。这些发现表明，端到端深度学习方法可以将各种不同的心律失常从单导程心电图中区分开来，具有类似于心脏病专家的高诊断性能。如果在临床环境中得到实证，该方法将可以通过准确地筛选或优先考虑最紧急的情况，降低计算机 ECG 解释的误诊率，并提高人类专家 ECG 解释的效率。

原文链接：https://stanfordmlgroup.github.io/projects/ecg2/

理论计算机视觉吴恩达

相关技术

机器人操作系统

所属机构

百度研究院

来源：个人网站 Ng, A. Y.Twitter

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

混淆矩阵技术

混淆矩阵也称误差矩阵，是表示精度评价的一种标准格式，用n行n列的矩阵形式来表示。具体评价指标有总体精度、制图精度、用户精度等，这些精度指标从不同的侧面反映了图像分类的精度。在人工智能中，混淆矩阵（confusion matrix）是可视化工具，特别用于监督学习，在无监督学习一般叫做匹配矩阵。矩阵的每一行表示预测类中的实例，而每一列表示实际类中的实例（反之亦然）。这个名字源于这样一个事实，即很容易看出系统是否混淆了两个类。

来源：Wikipedia

提前停止技术

在机器学习中，提前停止是一种正则化形式，用于在用迭代方法（例如梯度下降）训练学习器时避免过度拟合。这种方法更新了学习器，使其更好地适合每次迭代的训练数据。这提高了学习器在训练集之外的数据上的表现。但是，提高学习器对训练数据的适应性是以增加的泛化误差为代价的。提前停止规则提供了在学习器开始过度训练之前可以运行多少次迭代的指导。提前停止规则已经在许多不同的机器学习方法中使用，理论基础不尽相同。

来源：Wikipedia

超参数技术

在机器学习中，超参数是在学习过程开始之前设置其值的参数。相反，其他参数的值是通过训练得出的。不同的模型训练算法需要不同的超参数，一些简单的算法（如普通最小二乘回归）不需要。给定这些超参数，训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式，并且必须对其进行调整以便模型能够最优地解决机器学习问题。在实际应用中一般需要对超参数进行优化，以找到一个超参数元组（tuple），由这些超参数元组形成一个最优化模型，该模型可以将在给定的独立数据上预定义的损失函数最小化。

来源：Wikipedia

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

受试者工作特征曲线技术

接收者操作特征曲线是一种坐标图式的分析工具，主要在信号处理、机器学习、医疗诊断等领域中使用，用以测试2值输出的分类模型。其主要是 (1) 选择最佳的信号侦测模型、舍弃次佳的模型。 (2) 在同一模型中设定最佳阈值。该曲线就是以假阳性概率（False positive rate，又称误诊率）为横轴，真阳性率 (True positive rate，又称灵敏度）为纵轴所组成的坐标图，和测试模型在特定数据集由于采用不同的判断阈值得出的不同结果画出的曲线，曲线中每一点代表一个被测模型。根据该曲线，设计人员可计算ROC曲线下的面积（The area under the ROC curve (AUC) ）。因为分类模型要比随机分类要好，此AOC面积通常大于0.5, 以此工程人员通常选择AUC面积较大作为参考设置最佳的阈值（但有时也不一定，依据不同应用而定）。

来源：维基百科

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中，我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。数据通常包含噪音，错误，例外或不确定性，或者不完整。错误和噪音可能会混淆数据挖掘过程，从而导致错误模式的衍生。去除噪音是数据挖掘（data mining）或知识发现（Knowledge Discovery in Database，KDD）的一个重要步骤。

来源：Han J.; Kamber M.; Pei J. (2011). Data mining: concepts and techniques. Morgan Kaufman.

深度神经网络技术

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia