CT 图像在对新冠肺炎提供准确、快速、廉价的筛查和检测方面很有前景,但很多研究者都苦于找不到合适的数据集。在本文中,来自加州大学圣地亚哥分校、Petuum 的研究者构建了一个开源的 COVID-CT 数据集,其中包含 275 个 COVID-19 检测呈阳性的 CT 图像,有助于使用深度学习方法分析病人的 CT 图像并预测其是否患有新冠的相关研究和开发。
他们在该数据集上训练了一个深度卷积神经网络,获得了 0.85 的 F1。相关数据和代码可见于:https://github.com/UCSD-AI4H/COVID-CT
论文链接:https://arxiv.org/abs/2003.13865新冠肺炎是一种感染性疾病,对该疾病检测的低效和缺乏成为了控制其传播的主要障碍。目前的检测主要基于逆转录聚合酶链反应(RT-PCR),需要 4 到 6 个小时才能获得结果。与新冠肺炎可怕的传播速度相比,这远不够快。除了效率低下之外,RT-PCR 检测试剂盒也非常短缺。这促使研究者去研究替代的检测方式。这些方式可能更快,比 RT-PCR 便宜,更容易获得,但与 RT-PCR 一样准确。在众多可能性中,加州大学圣地亚哥分校的研究者对 CT 图像尤其感兴趣。有几篇论文研究了 CT 图像在筛选和检测新冠肺炎时的效果,结果鼓舞人心。然而,出于对隐私的保护,这些研究中所使用的 CT 图像并不会公之于众,这极大地阻碍了基于 CT 图像做精准检测的人工智能方法的研发。为了解决这个问题,他们构建了一个 COVID-CT 数据集,其中包含 275 个新冠肺炎检测呈阳性的 CT 图像,并向公众开放,以帮助基于 CT 图像的新冠肺炎检测的研发。研究者从 760 个关于新冠肺炎的 medRxiv 和 bioRxiv 的论文初稿中提取了 CT 图像,并通过阅读这些图像的标题,人工筛选出具有新冠肺炎临床病症的图像。基于 183 个新冠肺炎 CT 图像和 146 个非新冠肺炎 CT 图像,他们训练了一个深度学习模型,以预测一个 CT 图像是否呈新冠肺炎阳性。他们在 35 个新冠肺炎 CT 图像和 34 个非新冠肺炎 CT 图像上进行了测试,模型 F1 值为 0.85。结果表明,CT 扫描有望用于筛选和检测新冠肺炎,然而还需要更先进的方法来进一步提高准确性。本节描述如何构建 COVID-CT 数据集。研究者首先收集了 760 个于 1 月 19 日 至 3 月 25 日期间在 medRxiv1 和 bioRxiv2 上发布的的关于新冠肺炎的论文初稿。这些论文中有许多报告了新冠患者病例并且其中一些展示了患者的 CT 图像。这些 CT 图像附有描述其临床病症的标题。研究者使用了 PyMuPDF3 提取论文 PDF 文件的底层结构信息并定位到所有嵌入的图表。这些图表的质量(包括分辨率,大小等)大都保存完好。根据结构信息,他们还识别出所有图表的标题。基于提取的图表和标题,他们首先手动选出所有 CT 扫描图像。然后对于每个 CT 图像,阅读其对应的标题从而判断它对新冠肺炎是否呈阳性。如果无法通过标题判断,则在论文中找到分析此图的文字以做出决定。对于包含多个 CT 子图像的图像,他们将其手动拆分为单个 CT 图像。最终他们获得了 275 个 CT 扫描图像,标记为新冠肺炎阳性。这些图像大小不同:最小、平均和最大高度分别为 153、491 和 1853;最小、平均和最大宽度分别为 124、383 和 1485。这些扫描来自 169 例患者。图 1 显示了新冠肺炎 CT 扫描图像的一些示例。
研究者基于这个数据集开发了一个基线方法。尽管他们所使用的关于新冠肺炎的 CT 图像数据集是目前最大的公开可使用的新冠 CT 数据集,然而它依旧较难达到训练模型所需的数据量。在如此小的数据集上训练深度学习模型十分容易导致过度拟合:模型在训练数据上表现良好,但是在测试数据上泛化不理想。为了解决训练数据不足的问题,研究者采用了迁移学习的方法:使用 NIH 发布的 ChestX-ray14 数据集来预训练 DenseNet,然后在 COVID-CT 数据集上对预训练后的 DenseNet 进行微调。另外,他们还进行了数据扩充,包括随机仿射变换、随机裁剪和翻转。随机仿射变换包括平移和旋转(角度依次为 5,15,25)。
研究者收集了 195 个检测新冠肺炎呈阴性的 CT 扫描数据,来训练一个二分类模型,用于预测一个 CT 图像是新冠阳性还是阴性。其中,他们根据病人将其分为训练集、验证集和测试集。表 1 总结了每个数据集中新冠阳性和新冠阴性图像的数量。每个 CT 图像的大小都调整为 224*224。在验证集上对超参数进行调优。优化算法为 Adam, 学习率为 0.0001,batch size 为 4。他们使用五个指标来评估模型:(1) 准确性; (2)Precision; (3) 召回率; (4)F1; (5)AUC。对于这些指标,越高越好。
表 2 展示了这个方法的准确度、Precision、召回率、F1 和 AUC。尽管 Precision 较高,然而召回率的结果并不令人满意,因此,需要使用更先进的方法来提高召回率。