近日,由阿里云与上海瑞金医院、阿里健康联合举办的新一轮天池大赛——“瑞金医院MMC人工智能辅助构建知识图谱大赛”决赛结果颁布,来自哈尔滨工业大学、北京大学、江南大学年轻的学者团队在近2000名开发者中脱颖而出,分列前三名。
在人工智能此类前沿技术领域,拥有25万开发者的天池平台集众人之智慧产出了怎样的结果?以技术为实力比拼的比赛成果又如何与企业、医院结合应用到实际?在本次发布的大赛成果转化产品——国内首个“基于机器智能的糖尿病领域知识图谱”中,我们找到了答案。
内分泌医生缺口大,机器可替代重复性工作
“我的爸爸就是一名糖尿病患者,最初参赛是因为他,我希望能够利用我所掌握的技术,帮助到更多像他一样的糖尿病患者。技术的存在本身不该只为炫技,应该为全人类做贡献。”在谈到参赛初衷时,一位参赛的开发者表示。
根据IDF发布的第八版全球糖尿病概览中显示,2017年中国1.144亿糖尿病患者人数位居全球第一,即便按照1个医生管理1000人的需求推算,也需要10万医生。而如今,我国内分泌医生远远达不到10万,导致很多糖尿病患者不能享受到较好的慢病管理服务,而不同层级的医疗机构,对糖尿病慢病诊治水平参差不齐,也影响了糖尿病患者的治疗体验。
为了能够以最高的效率达到更好的糖尿病管理效果,中国工程院院士、上海交通大学医学院附属瑞金医院副院长、国家代谢性疾病临床医学研究中心主任宁光发起的国家标准化代谢性疾病管理中心(MMC)采用一体化的诊疗流程,将糖尿病管控做到标准化。
MMC采用1+x模式,即一家MMC的中心医院与它周围的多个社区医院相联系,形成“从国家级MMC中心到MMC中心医院再到多个社区卫生中心”的病人双向转诊就医模式。因此,医生数量尤其是基层医生数量不足、专业水平参差不齐等问题,就成为影响糖尿病患者的治疗康复一大掣肘。
宁光院士表示:“基层医生尤其是全科医生,需要处理很多种疾病,往往无法达到“术业有专攻”。如何让基层医生也能够像专科医生那样处理这些疾病的状况,这是MMC需要解决的非常重要的问题。”
此外,医生大量的从事重复性的工作,长期的疲劳容易造成漏诊、误诊,“如何让已经形成重复性劳动的事情,更多地让机器完成,而让医生更多考虑疾病中不规律的情况,是疾病治疗很重要的部分。”
首个糖尿病知识图谱出炉,助力瑞宁助糖优化用药方案
2018年9月,阿里云天池大赛就发起了用人工智能辅助构建糖尿病知识图谱的挑战。在过去半年时间里,吸引了中国、美国、日本、丹麦、新加坡等8个国家和地区共1629支队伍、1817名开发者参与。
其中,吸引的团队除了北京大学、浙江大学、哈尔滨工业大学、新加坡国立大学等国内外知名高校,还不乏国内众多企业的身影,在产业内也受到极大的关注。
大赛主办方瑞金提供与糖尿病相关的学术论文以及糖尿病临床指南。第一赛季课题为“基于糖尿病临床指南和研究论文的标注构建”,要求选手在学术论文和临床指南的基础上,做实体标注;第二赛季课题为“基于糖尿病基于糖尿病临床指南和研究论文的实体间关系构建”。选手将从中抽取实体之间的关系。通过初赛、复赛与决赛答辩,综合线上提交结果评分和线下答辩角逐冠军。
赛题组通过标注工作,形成国内糖尿病领域首个文本标注数据集合,标注中文实体近19万,最终,开发者基于糖尿病相关教科书、研究论文,通过高效的算法,进行文献挖掘并构建知识图谱,与瑞宁助糖深度融合,加速产品迭代。
时间拉回到2016年,宁光团队与阿里合作,首次发布“瑞宁助糖”,这是一款糖尿病医生AI助手,它由经验模型和知识模型的两部分机器学习构成的软件系统。
其通过人工智能深度学习的方式,以1000多份真实的糖尿病病例,加上300位的糖尿病医生的经验形成经验模型,同时,融合各种糖尿病指南和国内外文献检索数据库形成知识库,以及综合糖尿病可能导致的血脂异常、高血压、肥胖等100多种并发症的发病原理和标准化临床数据,进而对为医生给出诊断建议。
在经历过数次的迭代之后,此次应用天池大赛知识图谱构建成果的“瑞宁助糖”,三年后又迎来了一次重要的转型升级。
阿里云算法专家顾斐在展示成果时表示,知识图谱的作用在于以下三点:一是其能够电子病历、科研论文这类非结构化数据做成结构化,“这是作为下一步人工智能研究非常必要的步骤”;二是知识图谱能整合各类文献资料,将实体关系抽离出来;三是构建知识图谱的过程为后续人工智能辅助诊断和智能用药推荐提供了坚实的基础。
知识图谱示例,企业供图
以实际操作为例,首先在“瑞宁助糖”界面输入患者相关的信息及症状后,对血糖血脂等测试结果做出糖尿病及其并发症的判定;第二步,给出供医生参考的治疗建议,基于海量医学指南和学术论文,提供标准化糖尿病用药建议;最后,点击具体推荐药物,便可链接到以该药物为中心的知识图谱,包括药品名称与疾病、药品名称与副作用等实体关系。此外,界面右侧会显示与药物相关的最新研究文献,并随着数据库的更新而实时更新。
如在输入某个病历后,出现Ⅱ型糖尿病的用药推荐,其中,包括二甲双胍或阿卡波糖,在点击阿卡波糖后,会出现以“阿卡波糖”为中心的知识图谱,在实体关系中,就包括“腹泻”这一副作用,而右侧同样会显示与“阿卡波糖”相关的文献,给医生形成参考。
模拟专家演绎,辅助基层医生科学决策
知识图谱本质上是一种语义网络。 其结点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种语义关系。
阿里巴巴达摩院医疗健康负责人谢宣松认为:“人理解知识很多是单线条的,而知识图谱是一张‘交叉的网’,本身关系就很复杂,又有很强的专业性,每一条文本都跟人的生命健康紧密相关,又包含了海量的数据,因此在构建医疗知识图谱的过程中,每一个环节都有其特殊的难点。”
要构建医学的知识图谱,尤其是糖尿病领域的知识图谱,其难点在于:1.在临床中,大量的医疗文书是以文本形式存在,不仅海量且非结构化,提升了文本处理的难度;2.糖尿病对应的慢病是周期性很长的疾病,每个阶段不同症状对应的知识点可能是有所区别的,另外,糖尿病是并发症最多的慢病之一,每一个并发症都会对应不同的只是体系,导致整个知识图谱构建的内容和规模就会远远大于一般的疾病。
通过对近19万数据的标注,糖尿病知识图谱的构建促使瑞宁助糖实现结构化能力升级,并有效帮助医生修正给病人的用药方案,优化药物方案。
此外,在医生培养方面,除了对已有文献的知识进行总结之外,通过算法,瑞宁助糖还能挖掘新的知识,从而建立新的关系。如果有新的临床研究出现,通过人工智能的标注和知识图谱的贡献,将有可能发现潜在的关系,从而帮助医生实时更新医学知识。
阿里健康医疗大脑负责人范绎表示,计算机能够辅助知识的获取和知识判定的过程。相当于建了一个更加好用的“医学字典”,而这个“医学字典”的载体是计算机,计算机又通过自己的判定呈现出文本的形式。就像医生用自己的知识演绎出对疾病的判定,以相同的方式呈现。
宁光院士表示,构建糖尿病的全面知识图谱,有助于形成糖尿病预测、干预、监控、教育等闭环管理,能最大程度还原专家在治疗糖尿病时的用药思路,辅助基层临床医生做出更科学的决策,提升用药技能,将进一步提升就诊效率、降低就医门槛。同时,对于糖尿病医学科研也有重大意义。
“医学的病史资料如何能被很好的使用,很重要,但之前我们做得并不好,如果能够在现有资料的基础上利用起来,在帮助医生成长和诊疗方面,有重要的意义。”
据悉,升级后的“瑞宁助糖”预计3月份首先在瑞金医院使用,5月份正式上线,并进一步推广到全国,服务更多的医生及患者。
——“请问瑞金医院的数据能尽快公开应用于学术研究吗,迫切期待,感谢!”
在决赛结果颁布的三个月前,有网友在该比赛的论坛中,发表了上述的帖子。可见对于数据集的开放,早有需求。此次天池大赛标注的近19万中文实体,是人工智能在医疗领域应用最为基础和关键的数据集,具有极大的科研和应用价值,有望成为糖尿病人工智能领域的标准。
“我们的宗旨是始于比赛,终于生态,希望通过我们的平台能够搭建生态环境,来对接我们医学工作者和人工智能的开发人员。”顾斐如是说。
此外,他透露,近期还会举办多场医疗相关的天池大赛,作为一个面向全球人工智能专家及技术爱好者的开发者社区和众智平台,目前天池平台上活跃着全球范围内超19万名技术爱好者、200多家大数据领域的创新创业团队,到2020年,该平台或将培养30万位AI工程师。
“我们希望可以往更垂直化的方向发展,包括一些创业公司,他们慢慢开始医疗和人工智能相结合方向的研究或者是进行创业。”届时,会有更多的比赛成果转化为实际应用,协助医生提高临床诊疗的效率,成为更好的医疗工具。