Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

凯霞编译

AI+临床数据助力新药靶点发现,北京天坛医院院长王拥军谈「神农计划」

今年年初《Science》杂志和媒体在征求中国科学家说出:2020年,有哪些让你心潮澎湃的科技进展?一共征集了20条,其中1条——医疗AI:打破「黑箱子」。人工智能(AI)在医疗中的应用,透明度和可重复性是人们十分关注的问题,人们越来越认识到,涉及AI的干预措施需要进行严格的前瞻性评估,以证明对健康结果的影响。
在6月3日举行的2021BAAI 智源大会上,首都医科大学附属北京天坛医院院长、神经内科教授王拥军在「AI制药」专题论坛上分享了「人工智能在临床队列研究中的应用」。介绍了如何在临床大队列中找出新药靶点;分享了基于临床队列的人工智能应用案例,提出北京天琪国际转化医学研究院和「神农计划(SINON)」助力新药研发。本文整理了王拥军教授在此次分享中的部分内容。

图片王拥军教授

去年7月份,国际上提出两个指南:CONSORT-AI EXTENSION与SPIPIT-AI EXTENSION。这两个指南分别告诉我们在医疗AI领域,如何评价一个产品,如何设计一个产品的临床研究方式。这是药物审评必须用的东西。这两个报告可以说是2020年人工智能在医学领域的标志性进步。
「我所在的国家医学中心有一个和别人合作的人工智能团队,有200多个工程师。在去年研发了6个产品,有一个产品已拿到国家医疗器械证,还有5个产品在排队,同时人工智能也对我们医药研发有所助力,下面我给大家汇报一下这个团队所做的前期工作。」
AI在医疗领域的应用历史   
从上世纪50年代AI开始出现,真正进到医学界是两个阶段。第一个阶段从2010年开始,那时在医学领域用的最多的是基因组测序、数据挖掘、自然语言处理、机器人外科。到2019年最大的变化是利用AI找新靶点。2019年开始在临床相关领域,越来越多地把AI技术开始用于大数据处理和用AI方式找更多新药的靶点。
药物历史上什么时候引入人工智能的?药物是医学基本的基础,从1800年开始出第一代药物,1910年开始做小分子化合物,一直到2015年深度学习开始给了新药研发的机会,最近几年国际上声音越来越多。上个月国际上公布的新指南,临床界呼吁把AI技术和队列技术用于新药研发上。
从2015年到现在,在药物研发方面用的最多的有:药品设计、相关药理学、化学合成、药物重新定位、药物筛选。现在在网上也推荐了很多用AI设计药物的人工智能软件,这些商业化和非商业化软件都帮助我们利用AI用于药物发现。各大药厂都在和人工智能合作,比如:罗氏、辉瑞、拜耳、阿斯利康等,未来依赖人工智能的领域将会越来越多。
「我自己本身做临床,我想看一下临床数据如何用人工智能的方式,过去认为和药物研发无关数据中找到新药靶点的机会。」
源于临床、止于临床
最近,国际上一种新兴的找药方式——「BBB(Bedside-Bench-Bedside Model)」,即从临床到实验室,再回到临床。
过去找药都是知识驱动,知道一个分子生理作用和病理作用,之后在动物身上做实验,动物有效然后开始进入临床实验,这是传统的转化医学方式。
另外一种方式,从数据上找规律,如果有规律再回过头来解决它的生理效应。所以先建队列,测出队列里的样本(血液、尿液、粪便等)数据,利用多组学方式测基因组、蛋白组、表观遗传等,测出数据之后,开始用人工智能的方式在大数据超算平台上磨合哪一个分子网络与所关心的临床数据相关,如果和心梗相关,未来就发明预防心肌梗死的靶点。
如果计算发现数据上有关联,我们有可能把它列为潜在的药物干预靶点。然后回到实验室进行验证,如果解读清楚就在实验室寻找干预方式,找到之后再进入临床前的动物实验,动物实验有效开始上临床实验,这就是从临床大数据找新药靶点的数据驱动套路。它有庞大的计算平台,这是过去只有台式计算机无法实现的。  
人工智能在临床队列研究中的应用案列
「我给大家介绍两个案例,一个是成功的案例,一个是我们在做的工作。」
成功案例
来自于美国德克萨斯大学西南医学中心教授Helen Hobbs,毕业于宾夕法尼亚大学,毕业后在达拉斯建了一个队列——「达拉斯新脑队列」(4100人),那个时候没有全基因测序,只有外显子测序,她把这4100人血液样本拿出来,测血糖血脂,之后再测外显子基因,发现128人血脂非常低,比其他人低了40%。同时发现这148个人其中有一个基因(PCSK9)和别人不一样,她想如果基因有突变血脂能下降,人为的阻断这个靶点是不是降脂药呢?她把这个想法发到杂志上,大家知道4100例的队列是很小的队列,尽管有文章发表,但是没有人相信这个数据是真的,所以她想找更大的队列去进行数据验证。
之后在全美寻找可以验证的队列,这就是为什么队列研究数据一定要共享,如果不共享这个想法就OUT了。后来找到北卡罗来纳大学一个更大的社区队列(ARIC,有上万人),她把上万人的基因拿过来重新测了PCSK9,发现基因突变血脂一定会低,这篇文章2006年发表。之后她和同事在实验室寻找抑制PCSK9的药,做药最简单的方法就是做单抗。在2012年两个药厂把这个靶点用于药物研发,在新英格兰医学杂志上报道了首个PCSK9单克隆抗体作用于健康志愿者和无家族性高胆固醇血症的受试者LDL胆固醇,这就是降脂药。
图片PCSK9单克隆抗体作用机制
这就是用临床队列的方式,找到一个新药的靶点,为新药研发提供完全性干预途径的可能。在这成功之后她在Science杂志发表了《Simple Genetics for a Complex Disease》,表明一个复杂疾病用单一基因找复杂疾病治疗方法,有可能是临床多组学的数据和临床队列发挥作用的重要切口。
在这个发现之后,两个药厂(Amgen和赛诺菲)在几年之前先后在全球上市两个单抗,2015年FDA同年批准,再加上诺华公司即将上市的干预产品,全球降脂药每年增加700亿美元,所以这是4100队列给新药研发带来的巨大机会。
因此,2016年,Helen Hobbs获得美国被称为豪华版「诺贝尔奖」的「科学突破奖」,颁奖词称她的工作是基因称作基因组时代里转化医学研究的典范。这个药发现之后,世界上很多地方在用所谓临床数据或者临床加上超算和人工智能找新药。
研究中的案例
计算残余风险  用临床基于大队列的人工智能解决过去不能满足的临床需求——脑血管病残余风险。脑血管病是中国的第一大病,中国因为这个病每年多死亡150万人,也就是每21秒钟就因为这个病离开人世。所以过去我们发明了很多降压药物,已经从过去复发27%降低到8%,但仍然有的人把药全部用上都没有用,没有用就称为疾病的残余风险。去年年初发表的文章(Residual Risk and Its Risk Factors for Ischemic Stroke with Adherence to Guideline-Based Secondary Stroke Prevention),计算了残余风险在中国情况。分为三类:(1)医生知道,但是没用,这个很容易纠正;(2)知道机制但是找不到药;(3)机制也不不知道,这是很大的问题。所以第三类是全新的靶点,这个用传统的靶点是无法攻克的,来用基于多组学人工智能的方式去找到。
第一步在北京启动了队列登记CNSR-3。在全国找到201家医院,每个医院连续入了一年,把15166例病例的血液、尿液通过冷链运输进入国家样本库。这个队列的做法是:所有这些病人都是在脑血管病发病一周内,在入院后开始采集临床数据。
下一步,把这些采到的数据开始多组学测定。我们选择30X的测序深度,基本上可以识别90%的基因,之后开始做表观遗传学,测完之后用人工智能找各组学的跨组学的信息哪一个和复发相关,如果和致残相关就可能是神经保护的靶点,如果和死亡相关,可能是抗水肿的靶点。把各种数据交汇在一起,计算之后开始进入到细胞模型和动物模型验证,数据算出来的东西到底是真的吗?生物学怎么解释呢?如果解释清楚,我们就会交到药物研发人的手里,找一个东西把靶点阻断,所以做法就是用多组学技术结合临床的数据,用到庞大的计算平台上,用现在已经商业化或者非商业化的人工智能软件去寻找跨组学的信息,这就是用临床数据找的一种方式。
ABO基因与脂质代谢——潜在靶点 去年,我们用基因的数据也找到非常有意思的靶点,第一个案例是去年年初转出去的靶点,这个靶点第一次算出ABO血型,学生说ABO血型和复发相关,结果每次算出来的血型都和复发相关,我们把ABO血型周边的编码蛋白都拿出来,发现和血脂相关,血脂由胆固醇和甘油酸酯,结果发现每一次算和胆固醇和甘油酸酯都相关,这个从生物学上就解释不通。
我们开始找靶点,国家有一个脑库和全身尸体库资源,全身尸体库每一个脏器上标记蛋白,后来在小肠上皮发现这个是胃肠里新的靶点,未来这将是在临床数据算出来与胆固醇吸收的一个新药。
PDE3A与卒中复发——潜在治疗靶点 去年转到南京的案例,我们基于7674例首发缺血性卒中患者的基因位点(SNP)关联分析发现,PDE3A基因位点卒中复发有强相关,强相关的关联性主要在脑小血管性卒中人群中;PDE3A表达在卒中病人的小血管平滑肌;进一步机制正在研究中。
我们用临床的数据里,还有一些靶点因为算出来会有很多,哪一个能成药,一定生物学能解决才能成药,后来发现有能转化的,那是用临床数据算出来的,像药物转化的过程。
建立SMAS图 过去只有基因数据,今年年底会把基因数据换算成另外的大分子图(SMAS),这个做完之后将会是全世界脑血管病人最丰富的一张图,这张图能够呈现给人工智能团队和新药团队去找里面更多新靶点机会,用跨组学的方式把组学数据和临床数据关联起来,这就是人工智能在队列里面未来有可能给我们做的贡献,这种贡献也是非常成熟的方式。
图片SMAS
用多组学的方式用数学分析找到新药,要想这个过程能够实现有三个点是关键:一是高质量队列;二是多组学为基础的大数据平台;三是有一个能懂生物信息和人工智能新的团队。
北京天琪国际转化医学研究院
以上三个关键点全凑齐也不容易,需要多个中心的合作,才能把这个设想变成现实,为了这个合作更通畅一些,「我和鲁白教授2019年开始筹划一个新研究院——北京天琪国际转化医学研究院(简称I2TM),今年5月14日正式被市政府正式批准,建成的目的是想完成新药转化的全链条。」分以下几步进行:
  • 建立临床队列的大平台。

  • 基于组学的神经系统大数据中心。

  • 基于人工智能多组学的信息平台。

  • 生物学验证。

  • 新药研发。

  • 神经系统疾病临床试验中心。

把整个链条串起来,完全串通是不可能的,在串通里合作了一些平台,非常高兴在上个月和百放英库香港有限公司(BioFront)签署了第一个战略合作协议。

也欢迎各团队加入,能够利用I2TM平台为中国新药研发走出一条新的路。

神农计划
我们也在北京市政府推动下,今年按照国家重大项目,正在推动为我们提供数据的一种可能,就是在北京建立中国百万慢病人群队列,这个队列如果能建成,以后找药靶点就不需要人找数据,只需要能算就行,这个叫做「神农计划(SINON)」。我们在「神农计划」第一步,争取今年先启动20万精准队列,初步解决四大慢病发病靶点,这是一个漫长的过程,希望大家能够关注「神农计划」,给基础研究提供更多丰富的临床数据。

参考论文:

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3839083/

https://www.j-stroke.org/upload/pdf/jos-2020-03391.pdf 

理论北京天坛医院临床数据人工智能
相关数据
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

暂无评论
暂无评论~