随深度学习技术的应用与成熟,人工智能也在不断拓展疆界。跨越传统的语音、图像、数据挖掘等强相关领域,人工智能正不断与物流、教育、金融等领域碰撞出新灵感。
在医疗领域,人工智能的应用往往表现为辅助诊断或者影像检测的「轻」应用,如辅助影像诊断医生筛查早期肿瘤,或是帮助完成病例电子化、流程无人化。
也许在药物开发和药物选择这样的「重」领域上,人工智能同样能发挥不俗的作用。
新时代的 Lipinski Rule of Five
1997 年,辉瑞公司资深药物化学家 Christopher A. Lipinski 分析了 2,000 多种二期临床后的药物理化特征,总结出了四条非常具体的结论。如果一个化合物违反其中任何两个,将可能面临水溶性或透膜性差的问题:
氢键给体(连接在 N 和 O 上的氢原子数)数目小于 5;
氢键受体(N 和 O 的数目)数目小于 10;
相对分子质量小于 500;
脂水分配系数小于 5。
因为都与 5 相关,这些规则被称为 Rule of Five(RO5)。很快,RO5 成为药物化学家设计药物前必须考虑的因素。
事实上,水溶性或透膜性只是药物设计过程几十个障碍中的两个。2008 年,销量前 10 名的小分子药物中,只有 4 个完全符合 RO5。作为「经验法则」(Rule of Thumb),凭「肉眼」总结、被奉为药物研发圭臬的 RO5,并不能概括药物的全部特征。
Rule of Thumb 来源于用拇指测量木材的木工,指代「使用广泛、但非绝对精确的原则」
「我们认为制药的规则不应该『脑袋一拍』就提出。一个人能见过 1,000 种药物,但不可能见到 10,000、100,000 万种,机器可以做的比人好。」
对于以往随机发现的药物研发方式,人工智能的加入也许能让「大海捞针」变成「有的放矢」。来自 Accutarbio 的创始人范捷博士,本科毕业于复旦大学生命科学院,硕士就读于加州伯克利分校。博士师从 Nikola Pavletich,期间解析了 RPA-DNA 复合物晶体结构;博士后师从 99 年诺贝尔医学奖获得者 Günter Blobel,解析了核孔小体复合物的相关结构。他相信人工智能与实验验证相结合 (hybrid-method),可以加速新一代靶向治疗药物开发,也可以为癌症病人提供更多可选择的治疗方案。
AccutarBio 官网上,创始人范捷的信息
病人使用药物的目的,是改变致病蛋白质的构象,让其被「锁住」停止「作恶」,或者干脆降解消除它们。这也是制药的基本原理——药物像一把开锁(治疗)的「钥匙」,制造钥匙的方法是了解「钥匙孔」(致病蛋白质)的准确形状(构象)。
想要获得蛋白质的构象信息,传统的方法是通过实验。但这种方法的局限也很明显,一方面蛋白质晶体难以培养,另一方面实验中得到的都是在一定条件下瞬间、片面的结构信息;另一种方法则是计算方法,即通过统计学规律,计算出某种情况下蛋白质的结构情况。
AccutarBio 显然选择了第二种。通过运用机器学习方法,学习大分子晶体结构数据库(Protein Data Bank,PBD)中全世界研究者上传的蛋白质、核酸的 X 光晶体衍射、NMR 核磁共振结构数据,AccutarBio 可以在准确描绘钥匙孔形状、选择氨基酸构象这件事上,给出比目前行业好得多的算法。
有了钥匙孔的形状,配钥匙就变得有迹可循。这套算法可以画出钥匙孔中每个氨基酸的构象、蛋白与蛋白相互接触表面的氨基酸构象,在预测「钥匙孔」周围氨基酸位置、钥匙摆放方法和位置构象上,可以提供更高准确性。
目前,AccutarBio 的药物与靶点蛋白的结合模式预测(docking),即为锁「配钥匙」的过程,在准确度和速度上都较行业药物设计领头羊 Schrodinger 有显著提升。「我们的预测更准确的原因,在于使用了基于数据的算法。与常规基于经验和大量物理学假设的方法相比,在数据量足够大时具有明显优势。」
可前往 AccutarBio 的官网查看相关视频示例
与市面上通过调参来预测、设计药物的方法不同,AccutarBio 的算法没有为不同药物的设计使用不同的函数和参数。「并不是把所有问题都解决,至少目前我们的方法论是用一种方法解决不同的问题,这样才有说服力。」目前,AccutarBio 正在进行相关专利申请。
算法衍生的一张表格
如今听起来耳朵长茧的「靶向假说」、「精准医疗」,其实已是医疗界相当新的想法。
19 年前,Peter Nowell 和 Janet Rowley 因对慢性粒细胞白血病(CML)研究的贡献,获得了「小诺贝尔奖」the Albert Lasker 医学研究奖的认可。他们发现 CML 患者基因突变中丢失的 22 号染色体 DNA 片断,「移位」至 9 号染色体,使两种正常蛋白发生结合从而致病。这项研究促成了一种新药物的诞生——格列卫(Gleevec,伊马替尼),这也是历史上第一个成功的靶向治疗药物。
自 1997 年利妥昔单抗被 FDA 批准上市以来,已经有 40 多种靶向治疗药物在市面上流通。但它们仅覆盖了十几个靶点,在人类的基因中,致癌的基因数量的是以千为单位的。
2009 年,致力于研究白血病和其他癌症发病因的 Janet Rowley 被授予总统自由勋章
药物的缺乏也许可以用「老药新用」的方式解决。本为治疗心绞痛开发的西地那非(Sildenafil),如今已是大名鼎鼎的伟哥(Viagra);失败的化疗药物叠氮胸苷(Azidothymidine),也曾被用来治疗 HIV 病毒感染。常用药物同样可能对癌症靶点起作用。
药物与靶点的对应关系还需要通过实验不断去试吗?计算力的提升和机器学习提供了一种可能:用算法替代随机发现的自然科学过程。通过前文所述的算法,AccutarBio 将 FDA 认证过的 1400 多种药物与 10000 个左右的潜在靶点进行匹配计算,得出了一个巨大的对应表格。
计算发现,FDA 认证过的药物中,没有几种药物的优先靶点是它的设计靶点,大部分药物都排在靶点对应药物序列的几百名左右。如果病人已经无药可医,也许这张表格能提供一些选择。
尽管提供了按图索骥的可能,对应关系的验证仍需要大量实验,「这张表更有指向性和预见性,把实验的过程变得更精准」。并非将这张巨大表格当作许愿神灯,范捷希望 AccutarBio 的实验室与合作实验室尽量将这张表格验证填满,「有越来越多实验的支撑,才会真正给病人带来更多临床治疗的选择」。
Accutar——Accurate Targeting「精准打靶」
「算法是下金蛋的鹅。金蛋的今天是表,明天是药,后天可以做一些不同的事情。」
把表格中较强的药物与靶点对应关系找出来,可以直接从临床 II 期或临床 III 期开始药物实验申请认证,是这张表格的运用方式之一。范捷也在不断思考算法和衍生表格的商业模式,不过终点都指向一个方向,「让更多病人尽快受益」。
目前 AccutarBio 的团队近 20 名成员,分别来自生物学、化学、计算机科学等不同背景。在上海、纽约均设有实验室,顾问包括诺贝尔奖得主 Günter Blobel、美国国家科学院院士 Jerard Hurwitz 以及 Mount Sinai 的教授 Jin Jian。
「去做别人认为是风险,在我们看来是机会的事。」在学术与创业的岔路口,身为导师的 Günter Blobel 曾给过范捷这样的指引。在创业过程中,不论学术还是融资,Günter Blobel 博士都给予了不少帮助。「他会用他的资源帮你成长,而不是和你抢功劳」,这大概是人们常说名师出高徒的原因。
师徒相协也许是人工智能领域不可忽视的特点之一。无论是在图像识别、NLP 还是其他分支,都能循着这条规律的影子找到不少印证。人工智能大概是门槛最高的创业方向中的一个,先在学术上取得认可也许是最好的选择,包括与其他学科的结合。