在经历“骤起”、“ 狂欢”、“冷秋”之后,人工智能创投开始趋于理性。而在此时,针对人工智能的下游应用也开始真正浮出水面,可以看到今年的各大医疗展会,人工智能成为了真正的主题,从最早的手术机器人,再到更深入的智能器械、影像识别、药物研发.....而在基因技术领域,人工智能同样备受行业关注。
“它或许会成为企业竞争力的加速器。”在日前的2019CHCC上,贝瑞基因CEO兼联合创始人周代星博士这样形容。
尽管美国平均每年要在医疗保健行业投入1万亿美元的支出,但极大的支出呈现出的效果差强人意。比如乳腺癌,即便能够对其进行筛查,但并不能阻止疾病的恶化;再比如处方药,据估算有效性只有25%,大量临床资源被浪费。
75%的处方药没有达到很好的效果
这背后的原因,其实是个体间的代谢吸收能力的差异,但目前的用药并没有考虑每个人的计量标准。“物联网强调把事物数字化,我们这一点做得很好。但是对于人类本身的数字化,这个程度很低。”周代星解释道。基因信息与人密切相关,这30亿个碱基对是人体的程序代码,调控着人体内的一系列物理和化学变化。对数字化生命的最佳解释,莫过于基因测序。
指导疾病诊疗和生活,是基因检测的最终意义
在2012年之前,这个数字化的成本相当高。而当测序成本突破摩尔定律持续下降时,测序成本渐渐不再是问题。
测序成本与超摩尔定律
“现在是大家的接受度的问题。”他继续说道。2014年,NIPT试点展开意味着基因技术临床应用迈出了第一步,而今,这项技术的年检测量已突破400万人;第一份基于NGS的肿瘤基因检测批件于2018年7月发出,肿瘤临床检测开始起步。此外,轻医疗概念的消费级基因检测在国外已经形成市场,2018年年检测量突破2600万人。尽管中国不是人口迁徙国家,对祖源检测的市场需求不比美国,但大人口基数以及健康管理需求也造就了消费基因检测的巨大市场。
在NIPT、肿瘤检测、消费基因之后,基因检测的作用还有什么呢?在半个小时的演讲中,周代星给大家分享了一个故事:
生活在辽宁海城一个普通家庭的姐妹俩,姐姐24岁,妹妹16岁,从小辗转多家医院求医问诊,不幸的是,均被诊断为“脑瘫”。而姐妹俩在接受全外显子组检测(WES)后发现,她们所患的其实是一种叫做多巴反应性肌张力障碍(DRD)的罕见病。在医生进行针对性治疗一个月后,姐妹俩可以自己吃饭;服药50天后就能自己玩手机、开直播,而每月服药的费用,仅需100多元。
这是一个极具代表性的案例,通过分子层面的诊断,对疾病最根本的原因作出解释。基因检测最终的意义,或许应该是像这样通过对遗传密码的解析指导诊疗、指导生活。
人工智能是全外显子检测实现的前提
“这对姐妹是比较幸运的,能够找到病因,并且能有治疗方案。”周代星告诉记者,“其实还有相当一部分疾病,研究上暂时没有找到对应的基因。”除了染色体疾病和单基因疾病,大多数疾病由多个位点控制。位点与位点之间有着复杂的关联,不同位点的变异组合可能会形成不同的疾病亚型。
而除了遗传以外,生活习惯、环境等因素也与疾病息息相关,带有致病位点的人并非一定会发病;即使发病,由于个人耐受不同,最终相同疾病在临床的表型也存在差异。
因此,尽管理想很丰满,但我们也不得不承认现实是骨感的,单单依靠人力,很难理清疾病与位点的对应关系。
人工智能助力未知关联的挖掘
在获取到一个人的基因信息后,通常需要与人类基因组匹配来找出可能存在的突变。而突变与疾病的对应关系的判断大部分依靠公共数据库,主要通过对已经发表的文献挖掘得来。但全球范围内每天更新的论文数量非常大,全部依赖人工整合并不现实。这个时候便体现出了人工智能的价值。
目前大部分人工智能的技术路径是人工神经网络,其中又有ART网络、LVQ网络、Kohonen网络、Hopfield网络几种算法的变形。机器学习是目前人工智能的核心,它能够通过对大量非结构化数据进行学习和整合,挖掘并计算其中的关联。通过对已有文献和新增文献的持续挖掘,人工智能可以持续不断的挖掘并更新突变位点和疾病的潜在联系。
“这种关联覆盖的越多,人们对基因的解读能力就越强,越准确。”他告诉动脉网,这也是IBM Watson做的事情。
用“老数据”得出新发现
对于已经覆盖到的疾病,人工智能之于基因的意义或许还能上升到疾病的辅助诊断。以2019年3月23andme发布的二型糖尿病研究为例,基于大量的数据训练,23andme可以完全只依靠基因数据来判断用户是否患有二型糖尿病。
尽管这是一种多基因疾病,在大量数据的加持下,23andme可以将准确性训练到79%。不过,你可能会想临床上二型糖尿病的临床诊断相对简单,为什么反而要通过更复杂的手段来诊断呢?
那么换一个例子可能会有更直观的感受。抑郁症80%的发病都与基因有关,且是一种多基因疾病。这种疾病目前在临床上主要通过对患者调查问卷来确诊,极度依赖心理医生的个人经验。不夸张的说,抑郁症的诊断还停留在经验医学时代。
“如果能够仅根据基因对抑郁症进行初步诊断,即便50%的准确率相比目前手段都是巨大突破。”周代星这样解释。
大规模数据是智能的前提
始于无创(产前)、兴于肿瘤(检测),鼎盛于全基因组测序。在可预见的未来里,全基因组或者全外显子组的普及是必然趋势。但全基因组或者全外显子组的数据解读一直面临瓶颈,如果单纯依靠人力,一位生物信息工程师一天可能只能出具一份到两份报告——这样的速度几乎不可能实现产品的规模化。因此,全外显子要大规模市场化,人工智能是必选项。
但是,这样的人工智能要如何实现呢?。数字医疗公司AliveCor的产品审批之路或许值得借鉴。AliveCor 针对 Apple Watch 推出了能够即时量测心电图的“KardiaBand”表带,这是数
110万个ECG数据,并将超过20万条有心房纤颤的状况的数据与70万条正常数据比对,再不断校准后才通过考核。
对所有的人工智能应用而言,智能的前提都是大量的数据训练。放在基因检测领域,大量数据训练的前提则是有大量数据产生,这意味着需要测序技术的大规模覆盖。
要拿出社会所需的检测产品
“企业首先得拿出符合社会需求的产品。”周代星指出。他认为,只有能够满足社会需求的产品,才能被市场所接受。毫无疑问,NIPT是成功的先例。但我们也不得不承认,仅仅是染色体的检测,覆盖的信息还太少。“现在我们在尝试推广全外显子检测,可以覆盖99%以上的遗传信息。”他透露,目前该产品价格低于3000人民币,且正在持续下降中。
另外,23andme在消费型检测市场的成功也给了基因检测行业的从业者们非常大的启示。尽管芯片检测覆盖的信息量并不算大,但基于这些信息23andme也已经有了不少成果,比如失眠基因和前文提到的二型糖尿病的研究。“全外显子检测的信息量是芯片检测的100倍,我想应该会有更多的突破。”周代星表示。
2019年2月,贝瑞基因宣布与在东南亚和欧洲市场具有影响力的基因检测公司Prenetics 联合投资成立的消费级基因检测公司圆基因,并邀请到前谷歌中国战略合作总经理严峻加盟并担任公司首席执行官,新公司定名 为“北京源圆基因技术有限公司(圆基因)”。据了解,圆基因将于2019年第二季度开始运营。周代星在采访中透露,为了使检测报告内容更客观更充分,圆基因也将采用全外显子检测。
“不管查什么,做检测的时候都应该尽可能的全面。”周代星强调,“从发展历程来看,先要有符合社会需求的产品,才能有数据的积累。有了这些基础,才能有人工智能分析,从一个疾病覆盖到更多的疾病。”
数据规范与管理
除了数量,数据质量一直是人工智能领域热议的问题。数据量大并非等同于大数据,数据的结构化、规范化程度也至关重要。
而在临床上,不同医生对同一症状可能会有不同的描述。比如A医生描述“腹痛”,可能就是B医生所写的“腹部痉挛”;再加之不同个体间痛感、表述差异,同一表征可能会有更多五花八门的描述。
在日常诊疗中,医生的各人习惯对疾病诊疗的影响并不是特别大;但当这些零星的数据汇总到一个数据集中,就很难真实有效的对这些数据进行统计和归纳。更重要的是,企业的数据库的来源可能来自多个不同的医院,如果数据量达到数万例,很难想象不同医生们对同一症状有多少表达方式。
如果能够将这些语言规范化,形成统一的表达方式,无疑将更加有利于数据的挖掘和使用。基于此,贝瑞基因开发了一款叫做NLPearl的计算软件,能够基于自然语言处理将不同用语习惯形成统一标准。
尽管几个层次的学习,NLPearl就可以对医院的自然语言描述方式进行总结,当下一次遇到非结构化的自然描述时,系统就能够自动校准为标准描述。
当数据积累到足够大的量级,且有足够量级之后,不管什么样的自然语言描述都有可能找到对应的位点;相应的,遇到这样突变的患者,也可以反推他可能会出现的一系列临床表征。
或许,当系统训练到一定程度时、全基因组或全外显子检测普及时,患者还未到医院医生就能够对其进行初步诊断。而在医院就诊的环节,或许将更加注重治疗环节的讨论。
“另外,数据的规范也对日后的影响非常大。”他指出,如果要想成体量,一家医院或者公司的数据量是不足够的,“数据能否共享将成为关键议题。”更重要的是,在数据共享的过程中,必须有严格的行业规范,在保证数据持有者隐私和数据安全的前提下进行。
而对于企业个体而言,人工智能的意义或许是让强者恒强的工具。人工智能的助力将进一步提升检测的效率和精准度,同时从侧面降低检测的成本。而这些正式企业市场竞争力的体现。而对整个行业而言,人工智能的意义则好比指南针和加速器,它让基因技术能够以更精准的角度、更快的速度进入市场并普及。
或许有一天,基因检测会成为心电图检测一样普遍的临床工具,医生们不必苦恼没有分子遗传学背景,人工智能可以帮他们解决数据解读和分析的过程。或许在基因技术和人工智能,以及其他技术的帮助下,阿尔兹海默病的秘密终将被解开;或许互联网问诊、远程医疗的实现将会有更有力的技术支持......
关于未来的设想还有很多,我们也相信这一切在未来均有可能。而落到实处,行业迈出的第一步应该从数据的产生开始。当然,行业共识和规范的达成无疑能够会让这一天更快到来。