本文为「重塑产业的AI科技」系列主题「ScienceAI」圆桌环节的分享内容节选。点击进入「机器之心Pro」,查看更多优质内容。
AI+Science技术实践与产业应用中的挑战与机遇
在圆桌环节,创新工场的任博冰,华为昇腾的黄之鹏及天壤的苗洪江围绕本期的主题探讨三个方面的问题:AI forScience 的市场需求、AI for Science的技术路径与探索实践,还有 AI for Science 未来发展方向以及挑战。以下为部分精选 QA,完整内容可通过机器之心机动组视频号回顾了解。
昇思在2020年3月正式开源后快速在ScienceAI领域推进,华为对这个市场的具体思考和战略是什么样的呢?
黄之鹏:MindSpore社区作为一个比较新生而且还是国产的开源深度学习框架,我们为什么会把很大一部分的精力放在科学计算与 AI 结合这块?我们认为目前支撑科学研究的三大支柱:理论研究、科学实验、科学计算,现在基本上已经形成了。那再往前走的话,一个 AI深度学习本身框架的突破,需要有更深度的场景去驱动它,同时需要更加有力的需求去驱动它的开发。我们认为科学计算最能为我们提供创新场景,而且它在技术上要求非常高。刚才我的议题里也讲到场景实现的难度非常高。所以我们判断科学计算与AI结合是推动深度学习再往前发展的主要的方向之一。同时,我们发现,很多的科研领域,在应用了 AI 的方法之后,确实有了很多突破性的进展。
刚才给大家介绍的例子是AlphaFold2, 其实除了分子这块之外,很多之前用传统数值计算无法实现的领域,我们已有一些突破,比如在地球物理很多气象的仿真,包括电磁的仿真、航天制造都是通过深度学习能力的加持实现的。
天壤为何选择从结构生物学入手?
苗洪江:我们之所以选择从结构生物学入手,从大的方向来讲,最重要的原因是我们刚才已经提到的结构生物学在整个生物学中领域有着非常核心的价值和意义。我们只有快速、准确、大量的解析蛋白质结构,才能对很多的生物问题进行基于生物学本身或者说物理化学本身的解释。另外,在ScienceAI领域,我们之前在围棋和交通等众多复杂场景解决方案中沉淀了很多的AI算法和能力,我们希望将能力继续扩大来解决Science的问题。但是我们看到在众多的Science问题里,结构生物学或者是说蛋白结构预测其实是众多生物学课题中数据充足、问题定义明确、而且比较适合 AI 的应用场景,而AI会极大的帮助到这一问题的解决。这就是为什么我们做的第一件事情,就是将 AI 的方式应用到结构生物学中,来解析蛋白质的结构预测。
ScienceAI在科学上的突破用于商业,打开的是巨大的增量市场,可以请您介绍您及团队投了哪些ScienceAI领域的项目吗?有没有遇到过一些团队的技术让您觉得眼前一亮,但是对市场需求思考不足、发展路径推敲不足或者商业逻辑比较超前较难验证的情况?
任博冰:我刚才已经基本上介绍了一些我们投的项目,但创新工场的投资思路可能跟很多机构也不一样。我们会看一些发展方向比较的公司,如果没有这方面的公司,我们就自己孵化,对于像AlphaForl2这样的重大方向,我们会按照产业链去做布局。
我们的孵化和投资,主要围绕新的生产和设计能力带来的一些产业链上可能会遇到的一些问题来展开布局。比如说刚刚老师提到整体实验的高通量,我们投了实验室自动化的机器人、核酸的自动化实验、高通量的未来不流控的公司。围绕蛋白质组学数据不够,我们还投了蛋白质组学的公司,围绕着AlphaFold2带来的能力,创新工场也在投用 AlphaFold2的蛋白质结构设计去做合成生物和医药。材料方面,我们不光设计新的材料,我们还布局材料生产,从实验室到工厂,再到工厂优化生产、材料加工等上下游环节。
但是对于市场思考不足和发展路径推敲不足的情况,我觉得大部分科学家早期都会遇到这样的情况,但也不代表不能解决。在早期的时候,我们孵化的投资公司,大部分的问题我们是一起去做讨论和打磨的,一起讨论发展路径、打磨商业逻辑,跟他们一起去做客户调研、行业调研等等。面对以上情况,只要我们保持一个开放的心态,问题是可以解决的。当然我们也不能保证我们的想法一定是正确的,但至少经过深度思考和深度调研,成功率就会高一些。
目前使用AI算法解决结构生物学领域的问题,主要的技术实践方向有哪些?可否请您简单介绍一下当前这些领域进展的情况?
苗洪江:目前来讲,整个结构生物学其实是一个非常大的领域,因为 2020 年AlphaFold2的出现导致大家对蛋白质结构预测关注度变高,但是结构生物学还有很多没有被解决的问题,希望 AI 能够进入,帮助我们来解决的问题。比如RNA结构的解析、基因突变对蛋白质结构和功能的影响、蛋白质的动力学分析、蛋白质和其他小分子 DNA和RNA包括蛋白质的相互作用以及他们的复合体结构的解析,都是我们现在正在关注和研究的方向。
天壤其实正在研究刚才提到的像蛋白质相互作用和蛋白设计的方向,另外比如蛋白质的序列突变对于结构和功能的影响方向。其实很多人体疾病的发生都是由于我们的基因产生突变,导致蛋白质的序列和结构产生变化。这种结构的变化导致了核心蛋白质功能的缺失或者改变,从而导致了疾病的发生。而 TRFold 建立了快速准确的蛋白质结构预测的框架和理念,我们希望能够借助 AI 算法快速、准确地提取和解析蛋白质序列和结构中间的关联关系,来帮助我们理解突变蛋白质结构和功能的影响,为将来我们在这个领域的生物机理研究和靶点、药物发现做更好的铺垫。
在AI+科学计算具体的实践过程中都有哪些难题?这些难题在团队的实践过程中是如何被解决的?
苗洪江:和大家分享一个在我们自己 TRFold 的训练过程中遇到的困难。Alphafold2 的训练是用了 128 张 TPU 来进行的。而我们TRFold训练资源只有 8 张3090的训练资源。我们希望在这样的资源下能够支持起一个模型框架,能够达到和它近似的预测水平。在整个过程中,我们就不得不在算法层面和计算层面做很多的优化,包括我刚才提到的通过参数共享、精度混用的一些方式,通过介于中层和模型中间的优化,达到同时兼顾准确度和预测效率的提升。
黄之鹏:我们可能更偏底层一些,所以我们看到的基本上是对更基础的软硬件的挑战。现在的用来做拟合的这个模型的规模,趋势也越来越大。有的时候硬件毕竟还是有限的,现在很多人也都在看系数化,通过系数化去进行优化。对于我们来说,我们在开发MindSpore的时候,我们希望MindSpore提供自动并行的能力,除了在传统的框架一般会有数据并行模型并行之外,我们还可以提供更多维度的优化器的并行、流水线的并行等等。
除了通过加速生物及化学物理的科研进展,从而推动新药和新材料的研发之外,我们有可能看到AI技术对其的推动、变革作用将显著被社会所知的下一个细分领域将是什么?这个领域取得突破所面临的最核心的难题是什么?
黄之鹏:我个人觉得,疫情给全球带来的变化需要大家重视起来。现在一些的人不重视疫情对全球的影响,其实是一个划时代的变化。我认为未来的基调其实是一个虚拟互联时代,物理上可能会有更多人因为疫情被隔离。由此,我比较关注生物信息的数字化方向。
现在我们看到的这些热点,不管是元宇宙,还是我们今天聊的 AI +科学计算,包括区块链涉及到的加密学、伊朗的太空发射、Neuralink、脑机接口,归根结底来说,我特别喜欢任老师提的可编程的世界的概念。我们在后疫情时代的大设定下,生物信息的数字化我觉得会是一个越来越重要的议题,它意味着生物体像元宇宙一样,生物体怎么接入到这个数字世界中,甚至包括着跨距离的虚拟层面的连接。我觉得在我们的业务范畴内,其实我比较关注的一个关键词叫就是circuit 。大家可以发现不管是做加密算法,还是我们做神经网络。不管你怎么去设计一个AI 算法的电路,还是一个加密电路。未来我们会看到 circuit 的设计是不是会朝着生物和技术方向发展。刚才我们说AI 和科学计算二者是交互影响,circuit 发展可能会朝向一个交互影响共同演进的趋势去发展,它所带来的生物信息的数字化会对各个方面带来技术的需求,不管是 metaverse所带来的图像渲染或者是数据流通,对网络编码都会带来一些非常新的需求和新的技术发展。
任博冰:因为 AI 技术在很多领域都有应用。但是从AI技术的推动来看,如果还要 AI 起主导地位的话,我觉得一部分是在人的认知理解上可能会是一个比较大的机会。当然它也会结合一些 AI 技术,包括像 CV 和traffic 成分的结合。从训练的角度来讲,现在我觉得还非常非常简单,简单到现在在这个人本身几乎都没有办法去把它定义成一个人。但是从 LT 包括 CV 和 graphic 这方面,包括一些其他的硬件领域的进展来看,LT在未来几年可能在复杂推理上会有一些比较大的突破。在对话复杂推理这方面的融合,有可能离对人的情感计算一些理解可能会进入一个新的层次。我们目前看到一些应用已经基本上能够满足比较简单的一些对话了,只是在记忆和推理上面做不好。另外,在 graphic 和 CV 方面如何能够把物理世界和虚拟世界东西做很好的交互。可能未来在原本的基础上通过两到三年或者三到五年我觉得会有比较大的突破。这两点加起来,人和机器的交互可能会变成一个非常有意思的世界。
第二个肯定是AI在生物里面突破。其实不光是AI,核心生物学的下游产业其实是包罗万象,其覆盖领域从食品农业到材料工业再到生物等等各个方面,所以它也是一个典型的通过编程能够获得一些新东西的一条路径。
苗洪江:对于产业来说,我个人比较看好的是合成生物学领域,因为合成生物学本身非常符合我们现在对食物、工业材料各个领域的需求。我们已经逐渐看到 AI 技术在这个领域的应用,但是我们认为应用和产生的效果远远没有达到极限,其实还是会有非常大的空间可以去操作。
在科学方面,我个人感触比较深的是 AI 对于数学领域的影响。在2016 年、2017 年左右。AI 在解数学问题上只有初中水平且经常出错,到去年大家比较熟悉的AI 能够解决了薛定谔问题,Deepmind 还用 AI 的方式来启发数学家解之前我们不能解的数学问题,一直到像 MIT 研发的 AI 算法能够解决近似于大学水平的一些数学难题。我们可以看到在不仅仅是我们之前比较关注的可能更落地的领域,在一些可能比较接近基础学科的领域,其实 AI 也有非常大的应用的潜力和前景。
观众提问:请问设计新的网络结构更难还是设计新药更难?
黄之鹏:从我们的角度来说,可能还是会觉得新的网络结构会容易一些。因为现在很多新模型的开发其实更多的是算力资源加上人力投入,它是最终可以解决的一个问题。但是药物这块我确实不太熟悉,感觉新药的设计还是要更复杂一些。
任博冰:其实药的难点主要在科学的不确定性上,因为无论你如何去做仿真模拟,都不太可能去解决人体内的很多不确定因素,包括现在无论是小分子可能的拖把独立的问题,还有大分子有很多这样的不同的构态,所带来的空的特异性上的一些问题。我记得之前有一篇paper 报道中提到好像在过去的 20 年还是 10 年的动态里面,事实上 FDA 本身二期临床的成功率并没有显著的上升,其实在人体有太多的 QA 上的不确定性没有去理解。所以从确定性方向看,我觉得设计新药会更难一点。
苗洪江:从可控性上来说,我觉得其实对于模型的设计和模型的训练还是比较可控的。但是对于新药研发,是完全不可控的一个事情。人体本身或者说生物学细胞本身是一个非常复杂的体系,我们现在对这个体系的了解其实是非常片面而且是不全的,这就导致了我们在制药过程中会发现和遇到各种各样我们之前甚至没有想过的问题。这种不可控的风险其实在整个流程中是最值得关注的,这就是为什么我们希望通过模拟得到更多的数据,来尽量补齐之前知识或者信息的缺失,能够将这个不可控的风险尽量降低,将大家比较关注的新药的研发或者是一些治疗方式的研发,更快速、安全的提出和解决。