Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

周梦亚作者

AI是基因检测发展的加速器?细聊“AI+基因检测”的正确打开方式

在经历“骤起”、“ 狂欢”、“冷秋”之后,人工智能创投开始趋于理性。而在此时,针对人工智能的下游应用也开始真正浮出水面,可以看到今年的各大医疗展会,人工智能成为了真正的主题,从最早的手术机器人,再到更深入的智能器械、影像识别、药物研发.....而在基因技术领域,人工智能同样备受行业关注。

“它或许会成为企业竞争力的加速器。”在日前的2019CHCC上,贝瑞基因CEO兼联合创始人周代星博士这样形容。

尽管美国平均每年要在医疗保健行业投入1万亿美元的支出,但极大的支出呈现出的效果差强人意。比如乳腺癌,即便能够对其进行筛查,但并不能阻止疾病的恶化;再比如处方药,据估算有效性只有25%,大量临床资源被浪费。

  75%的处方药没有达到很好的效果

这背后的原因,其实是个体间的代谢吸收能力的差异,但目前的用药并没有考虑每个人的计量标准。“物联网强调把事物数字化,我们这一点做得很好。但是对于人类本身的数字化,这个程度很低。”周代星解释道。基因信息与人密切相关,这30亿个碱基对是人体的程序代码,调控着人体内的一系列物理和化学变化。对数字化生命的最佳解释,莫过于基因测序。

指导疾病诊疗和生活,是基因检测的最终意义

在2012年之前,这个数字化的成本相当高。而当测序成本突破摩尔定律持续下降时,测序成本渐渐不再是问题。

测序成本与超摩尔定律

“现在是大家的接受度的问题。”他继续说道。2014年,NIPT试点展开意味着基因技术临床应用迈出了第一步,而今,这项技术的年检测量已突破400万人;第一份基于NGS的肿瘤基因检测批件于2018年7月发出,肿瘤临床检测开始起步。此外,轻医疗概念的消费级基因检测在国外已经形成市场,2018年年检测量突破2600万人。尽管中国不是人口迁徙国家,对祖源检测的市场需求不比美国,但大人口基数以及健康管理需求也造就了消费基因检测的巨大市场。

在NIPT、肿瘤检测、消费基因之后,基因检测的作用还有什么呢?在半个小时的演讲中,周代星给大家分享了一个故事:

生活在辽宁海城一个普通家庭的姐妹俩,姐姐24岁,妹妹16岁,从小辗转多家医院求医问诊,不幸的是,均被诊断为“脑瘫”。而姐妹俩在接受全外显子组检测(WES)后发现,她们所患的其实是一种叫做多巴反应性肌张力障碍(DRD)的罕见病。在医生进行针对性治疗一个月后,姐妹俩可以自己吃饭;服药50天后就能自己玩手机、开直播,而每月服药的费用,仅需100多元。 

这是一个极具代表性的案例,通过分子层面的诊断,对疾病最根本的原因作出解释。基因检测最终的意义,或许应该是像这样通过对遗传密码的解析指导诊疗、指导生活。 

人工智能是全外显子检测实现的前提

“这对姐妹是比较幸运的,能够找到病因,并且能有治疗方案。”周代星告诉记者,“其实还有相当一部分疾病,研究上暂时没有找到对应的基因。”除了染色体疾病和单基因疾病,大多数疾病由多个位点控制。位点与位点之间有着复杂的关联,不同位点的变异组合可能会形成不同的疾病亚型。

而除了遗传以外,生活习惯、环境等因素也与疾病息息相关,带有致病位点的人并非一定会发病;即使发病,由于个人耐受不同,最终相同疾病在临床的表型也存在差异。

因此,尽管理想很丰满,但我们也不得不承认现实是骨感的,单单依靠人力,很难理清疾病与位点的对应关系。

人工智能助力未知关联的挖掘

在获取到一个人的基因信息后,通常需要与人类基因组匹配来找出可能存在的突变。而突变与疾病的对应关系的判断大部分依靠公共数据库,主要通过对已经发表的文献挖掘得来。但全球范围内每天更新的论文数量非常大,全部依赖人工整合并不现实。这个时候便体现出了人工智能的价值。

目前大部分人工智能的技术路径是人工神经网络,其中又有ART网络、LVQ网络、Kohonen网络、Hopfield网络几种算法的变形。机器学习是目前人工智能的核心,它能够通过对大量非结构化数据进行学习和整合,挖掘并计算其中的关联。通过对已有文献和新增文献的持续挖掘,人工智能可以持续不断的挖掘并更新突变位点和疾病的潜在联系。 

“这种关联覆盖的越多,人们对基因的解读能力就越强,越准确。”他告诉动脉网,这也是IBM Watson做的事情。

 用“老数据”得出新发现

对于已经覆盖到的疾病,人工智能之于基因的意义或许还能上升到疾病的辅助诊断。以2019年3月23andme发布的二型糖尿病研究为例,基于大量的数据训练,23andme可以完全只依靠基因数据来判断用户是否患有二型糖尿病。

尽管这是一种多基因疾病,在大量数据的加持下,23andme可以将准确性训练到79%。不过,你可能会想临床上二型糖尿病的临床诊断相对简单,为什么反而要通过更复杂的手段来诊断呢?

那么换一个例子可能会有更直观的感受。抑郁症80%的发病都与基因有关,且是一种多基因疾病。这种疾病目前在临床上主要通过对患者调查问卷来确诊,极度依赖心理医生的个人经验。不夸张的说,抑郁症的诊断还停留在经验医学时代。 

“如果能够仅根据基因对抑郁症进行初步诊断,即便50%的准确率相比目前手段都是巨大突破。”周代星这样解释。 

大规模数据是智能的前提

始于无创(产前)、兴于肿瘤(检测),鼎盛于全基因组测序。在可预见的未来里,全基因组或者全外显子组的普及是必然趋势。但全基因组或者全外显子组的数据解读一直面临瓶颈,如果单纯依靠人力,一位生物信息工程师一天可能只能出具一份到两份报告——这样的速度几乎不可能实现产品的规模化。因此,全外显子要大规模市场化,人工智能是必选项。 

但是,这样的人工智能要如何实现呢?。数字医疗公司AliveCor的产品审批之路或许值得借鉴。AliveCor 针对 Apple Watch 推出了能够即时量测心电图的“KardiaBand”表带,这是数

110万个ECG数据,并将超过20万条有心房纤颤的状况的数据与70万条正常数据比对,再不断校准后才通过考核。 

对所有的人工智能应用而言,智能的前提都是大量的数据训练。放在基因检测领域,大量数据训练的前提则是有大量数据产生,这意味着需要测序技术的大规模覆盖。 

要拿出社会所需的检测产品

“企业首先得拿出符合社会需求的产品。”周代星指出。他认为,只有能够满足社会需求的产品,才能被市场所接受。毫无疑问,NIPT是成功的先例。但我们也不得不承认,仅仅是染色体的检测,覆盖的信息还太少。“现在我们在尝试推广全外显子检测,可以覆盖99%以上的遗传信息。”他透露,目前该产品价格低于3000人民币,且正在持续下降中。

另外,23andme在消费型检测市场的成功也给了基因检测行业的从业者们非常大的启示。尽管芯片检测覆盖的信息量并不算大,但基于这些信息23andme也已经有了不少成果,比如失眠基因和前文提到的二型糖尿病的研究。“全外显子检测的信息量是芯片检测的100倍,我想应该会有更多的突破。”周代星表示。 

2019年2月,贝瑞基因宣布与在东南亚和欧洲市场具有影响力的基因检测公司Prenetics 联合投资成立的消费级基因检测公司圆基因,并邀请到前谷歌中国战略合作总经理严峻加盟并担任公司首席执行官,新公司定名 为“北京源圆基因技术有限公司(圆基因)”。据了解,圆基因将于2019年第二季度开始运营。周代星在采访中透露,为了使检测报告内容更客观更充分,圆基因也将采用全外显子检测。

“不管查什么,做检测的时候都应该尽可能的全面。”周代星强调,“从发展历程来看,先要有符合社会需求的产品,才能有数据的积累。有了这些基础,才能有人工智能分析,从一个疾病覆盖到更多的疾病。” 

数据规范与管理

除了数量,数据质量一直是人工智能领域热议的问题。数据量大并非等同于大数据,数据的结构化、规范化程度也至关重要。 

而在临床上,不同医生对同一症状可能会有不同的描述。比如A医生描述“腹痛”,可能就是B医生所写的“腹部痉挛”;再加之不同个体间痛感、表述差异,同一表征可能会有更多五花八门的描述。

在日常诊疗中,医生的各人习惯对疾病诊疗的影响并不是特别大;但当这些零星的数据汇总到一个数据集中,就很难真实有效的对这些数据进行统计和归纳。更重要的是,企业的数据库的来源可能来自多个不同的医院,如果数据量达到数万例,很难想象不同医生们对同一症状有多少表达方式。 

如果能够将这些语言规范化,形成统一的表达方式,无疑将更加有利于数据的挖掘和使用。基于此,贝瑞基因开发了一款叫做NLPearl的计算软件,能够基于自然语言处理将不同用语习惯形成统一标准。

尽管几个层次的学习,NLPearl就可以对医院的自然语言描述方式进行总结,当下一次遇到非结构化的自然描述时,系统就能够自动校准为标准描述。

当数据积累到足够大的量级,且有足够量级之后,不管什么样的自然语言描述都有可能找到对应的位点;相应的,遇到这样突变的患者,也可以反推他可能会出现的一系列临床表征。

或许,当系统训练到一定程度时、全基因组或全外显子检测普及时,患者还未到医院医生就能够对其进行初步诊断。而在医院就诊的环节,或许将更加注重治疗环节的讨论。

“另外,数据的规范也对日后的影响非常大。”他指出,如果要想成体量,一家医院或者公司的数据量是不足够的,“数据能否共享将成为关键议题。”更重要的是,在数据共享的过程中,必须有严格的行业规范,在保证数据持有者隐私和数据安全的前提下进行。 

而对于企业个体而言,人工智能的意义或许是让强者恒强的工具。人工智能的助力将进一步提升检测的效率和精准度,同时从侧面降低检测的成本。而这些正式企业市场竞争力的体现。而对整个行业而言,人工智能的意义则好比指南针和加速器,它让基因技术能够以更精准的角度、更快的速度进入市场并普及。 

或许有一天,基因检测会成为心电图检测一样普遍的临床工具,医生们不必苦恼没有分子遗传学背景,人工智能可以帮他们解决数据解读和分析的过程。或许在基因技术和人工智能,以及其他技术的帮助下,阿尔兹海默病的秘密终将被解开;或许互联网问诊、远程医疗的实现将会有更有力的技术支持...... 

关于未来的设想还有很多,我们也相信这一切在未来均有可能。而落到实处,行业迈出的第一步应该从数据的产生开始。当然,行业共识和规范的达成无疑能够会让这一天更快到来。

动脉网
动脉网

专注医疗产业服务平台

产业基因检测
相关数据
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

Hopfield网络技术

Hopfield神经网络是一种递归神经网络,由约翰·霍普菲尔德在1982年发明。Hopfield网络是一种结合存储系统和二元系统的神经网络。它保证了向局部极小的收敛,但收敛到错误的局部极小值(local minimum),而非全局极小(global minimum)的情况也可能发生。Hopfield网络也提供了模拟人类记忆的模型。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

规范化技术

规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到1.0 或0.0 到1.0。 通过将属性数据按比例缩放,使之落入一个小的特定区间,如0.0到1.0,对属性规范化。对于距离度量分类算法,如涉及神经网络或诸如最临近分类和聚类的分类算法,规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘,对于训练样本属性输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法,规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属相相比,权重过大。有许多数据规范化的方法,包括最小-最大规范化、z-score规范化和按小数定标规范化。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

摩尔定律技术

摩尔定律是由英特尔创始人之一戈登·摩尔提出来的。其内容为:积体电路上可容纳的电晶体数目,约每隔两年便会增加一倍;经常被引用的“18个月”,是由英特尔首席执行官大卫·豪斯所说:预计18个月会将芯片的性能提高一倍。

物联网技术技术

物联网(英语:Internet of Things,缩写IoT)是互联网、传统电信网等信息承载体,让所有能行使独立功能的普通物体实现互联互通的网络。物联网一般为无线网,而由于每个人周围的设备可以达到一千至五千个,所以物联网可能要包含500兆至一千兆个物体。在物联网上,每个人都可以应用电子标签将真实的物体上网联结,在物联网上都可以查出它们的具体位置。通过物联网可以用中心计算机对机器、设备、人员进行集中管理、控制,也可以对家庭设备、汽车进行遥控,以及搜索位置、防止物品被盗等,类似自动化操控系统,同时通过收集这些小事的数据,最后可以聚集成大数据,包含重新设计道路以减少车祸、都市更新、灾害预测与犯罪防治、流行病控制等等社会的重大改变,实现物和物相联。

推荐文章
暂无评论
暂无评论~