2019/08/07 18:05

腾讯优图开源业界首个3D医疗影像大数据预训练模型

近日，腾讯优图首个医疗AI深度学习预训练模型MedicalNet正式对外开源。这也是全球第一个提供多种3D医疗影像专用预训练模型的项目，将为全球医疗AI发展提供基础。

许多研究表明，深度学习的发展非常依赖数据量。自然图像领域中存在着许多海量数据集，如ImageNet，MSCOCO。基于这些数据集产生的预训练模型推动了分类、检测、分割等应用的进步。不同于自然图像，医疗影像大部分都是3D结构形态的，同时，由于数据获取和标注难度大，数据量稀少，目前尚未存在海量数据集及对应的预训练模型。

MedicalNet（https://github.com/Tencent/MedicalNet）是腾讯优图首个专为3D医疗影像在深度学习应用上所开发的一系列预训练模型，为任何3D医疗影像AI应用起到“打地基”的作用，加快模型收敛，减轻模型对数据量的依赖，MedicalNet具备以下特性：

1、MedicalNet提供的预训练网络可迁移到任何3D医疗影像的AI应用中，包括但不限于分割、检测、分类等任务；

2、尤其适用小数据医疗影像AI场景，能加快网络收敛，提升网络性能；

3、通过简单配置少量接口参数值，即可进行微调训练；

4、项目提供多卡训练以及测试评估代码，接口丰富，扩展性强；

5、提供不同深度3D ResNet预训练模型，可供不同数据量级应用使用。

为了产生3D医疗影像的预训练模型，MedicalNet聚集多个来自不同3D医疗领域的语义分割小规模数据集，并提出了基于多分支解码器的多域联合训练模型来解决数据集中的标注缺失问题。我们的预训练模型可以迁移到任何3D医疗影像应用的深度学习模型中。整个系统的工作流程如下图所示：

我们将MedicalNet模型迁移到预训练时未接触过的Visceral和LIDC数据集中，完成全新的肺部分割和肺结节分类任务，并与目前常用的从零训练（train from scratch）以及Kinetics视频3D预训练模型在性能以及收敛速度上做了比较。在肺部分割应用上，相比于Train from Scratch,MedicalNet在Dice上有16%到33%幅度的提升，相比于Kinetics有4%到7%幅度的提升。在肺结节良恶性分类应用上，相比于Train from Scratch，MedicalNet有6%到23%幅度的预测正确率（Acc）提升，相比于Kinetics有7%到20%幅度的提升。

在收敛速度上，实验证明，无论是在肺分割任务还是肺结节分类任务上，MedicalNet均能为模型提供一个较低的初始化损失值，明显加快损失下降速度，下图为MedicalNet性能的一个简单示例，展示了在全器官分割应用中，不同预训练方式在一定训练迭代次数下的测试结果。可以看出，基于我们的预训练模型（MedicalNet）的结果最接近标签（ground truth），且远优于从零训练（train from scratch）的结果，更多细节请参考论文[1]。

随着人工智能的火热化，医疗影像AI也成为了当前各应用领域中最热门的版块。区别于其他人工智能应用，人工智能在医疗领域的应用门槛最高，最大的原因在于标注数据的匮乏。医疗影像数据的获取通常需要经历重重关卡，同时，由于领域的专一性，数据通常需要资深医师标注，而每个3D数据的标注耗时耗力。在当前紧张的医护资源下，医疗影像数据的获取战线将非常漫长，大大阻碍了应用落地的进程。再者，标注数据量相当有限，大部分医疗部门都需要面临数据量稀少和深度学习之间的鸿沟。

专有领域专有模型，MedicalNet相当于为各个3D医疗影像应用准备了具备临床通用知识的数据库。即使在小数据量中，该数据库的有效特征也能帮助落地应用取得较好的医疗检测性能，这大大减轻医疗影像AI应用对数据量的依赖，实现了落地需求，加快了落地速度。

MedicalNet是腾讯在医疗AI领域的首个开源项目，后续也将继续提供更多类型的模型，为全球医疗AI的基础建设助力。

截至2019年8月，腾讯已在Github上发布81个开源项目，包含腾讯AI、微信、腾讯云、腾讯安全等相关领域，并累计在 Github 获得了超过23万Star数，在国内和国际收获了关注和认可。

[1] Chen, Sihong, Kai Ma, and Yefeng Zheng. "Med3D: Transfer Learning for 3D Medical Image Analysis." arXiv preprint arXiv:1904.00625 (2019).

产业腾讯优图3D医疗影像大数据预训练模型

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

收敛技术

在数学，计算机科学和逻辑学中，收敛指的是不同的变换序列在有限的时间内达到一个结论（变换终止），并且得出的结论是独立于达到它的路径（他们是融合的）。通俗来说，收敛通常是指在训练期间达到的一种状态，即经过一定次数的迭代之后，训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说，如果采用当前数据进行额外的训练将无法改进模型，模型即达到收敛状态。在深度学习中，损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变，暂时形成收敛的假象。

来源：Wikipedia Google ML glossary

数据库技术

数据库，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据运行新增、截取、更新、删除等操作。所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

来源：维基百科

语义分割技术

语义分割,简单来说就是给定一张图片，对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支，是机器视觉技术中关于图像理解的重要一环。

来源：CSDN博客

腾讯机构

腾讯，1998年11月诞生于中国深圳，是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念，为亿万网民提供优质的互联网综合服务。腾讯的战略目标是“连接一切”，我们长期致力于社交平台与数字内容两大核心业务：一方面通过微信与QQ等社交平台，实现人与人、服务及设备的智慧连接；另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展，通过普及移动支付等技术能力，为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/