离开 360 集团创办碳硅智慧,是因为邓亚峰相信,创新药研发的范式,将从专家+实验驱动,变为智能计算+自动化实验+专家驱动,在未来十年甚至更久远的时间里,AI 和计算将成为整个生命科学领域发展的核心驱动力。在这里他将更好地挑战自我并创造价值。
21 世纪是生命科学的世纪。
要是你认识本科学生物的人,尤其是在本世纪之交那几年参加高考的,他们会告诉你这句话有多么讽刺。与同期学计算机或通信的人相比,无论是搞科研还是找工作,别问,问就是没前(钱)途。
但情况正在发生改变。
碳硅智慧创始人兼 CEO 邓亚峰告诉机器之心,生命科学正处在新一轮爆发的前期,人工智能技术与这个领域开始深度融合,展现出巨大的可能,对于一直渴望成就一番事业的他来说,眼下正是最好的时机。
两个月前,邓亚峰结束了他在 360 作为集团副总裁、人工智能研究院院长兼搜索事业部总经理的任职,为期不到三年,网络上关于他的搜索结果还有不少停留在格灵深瞳 CTO 时期,而邓亚峰自己则似乎更乐意从 2013 年加入百度 IDL(注:百度深度学习研究院,现百度研究院的前身)说起,强调他是最早一批投身深度学习的人。
从求学清华入门计算机视觉,到加入百度 IDL 再到格灵深瞳力挽狂澜,邓亚峰凭借着对人工智能尤其是深度学习的强大信念,在不断挑战自我的同时,敏锐地把握住了每一次技术和行业的发展,让自己站得更高,想得更远。如今吸引着他并且他也深信不疑的,是不远的前方一个由 AI 驱动的生命科学时代。
第十一届国际图象图形学学术会议(ICIG 2021),邓亚峰代表 360 集团发表报告
药物发现即将迎来范式的转变,邓亚峰相信,AI 和计算将成为新的核心驱动力,在这种技术的代际更替进程中,新势力完全有可能与行业巨擘并驾齐驱,共同推动领域发展。
碳硅智慧将作为 AI 基础设施和服务提供商,提供针对新药发现的一站式全流程设计平台及相关服务。「我们希望与合作伙伴一起探索 AI 赋能新药发现的边界,共享新药发现新范式,期待在人工智能、物理计算和自动化技术的驱动下,新药发现领域取得十倍速的效率提升。」
预判、选择与时机
回望职业生涯 20 年,几段经历,邓亚峰每一步都踩在了对的点上。
2002 年考入清华电子工程系读研究生,并凭兴趣选择了模式识别方向,尚不知晓十多年后这个方向会热得发烫。在 2012 年以前,大家都是用传统的机器学习技术解决领域问题,当时的他,总感觉前面有堵看不见的墙。邓亚峰回忆说,那时候团队经过一年的努力,大概能让识别率提升 3~5 个百分点,而且是在 70% 的水平上,距离落地仍有很大的距离。「你会发现努力一年,依然看不到真正落地的希望。」
2012 年,深度学习算法在学术界展露了实力。但那时并非所有人都看好深度学习,这不难理解,试想现在有人告诉你科学家在小鼠——不,在与人类亲缘关系最近的倭黑猩猩身上发现了某种基因,可以延缓衰老,你会依此对即将到来的人类抗衰老药物抱有多大期待?
邓亚峰调研后认为,深度学习拥有巨大的潜力,于是毅然加入当时刚成立的百度 IDL,国内最早专注于研究深度学习并将其定位为核心技术创新的机构,那时候的院长还是余凯——没错,地平线的那个余凯。在百度 IDL 的三年里,邓亚峰参与提出了第一个基于深度学习的端到端的一阶段物体检测框架 DenseBox,和团队一起将那时候的「学术界人脸识别世界杯」——LFW 评测的准确率做到了第一,成绩是接近极限的 99.77%,随着图像分类、语义分割、人脸识别、物体检测……很多以前觉得不太可能的任务被逐渐突破,他也度过了一段快乐而充实的技术时光。那时候刷榜很容易,但落地却有些难。
2016 年 8 月,邓亚峰加入格灵深瞳。这家 2013 年成立的公司今年 3 月在上海科创板作为第一家 AI 公司挂牌上市,但彼时正因前期战略性的误判在市场表现上陷入低谷。邓亚峰加入后主要做了两件事,完善技术团队的组织架构,以及建立技术体系框架并攻坚深度学习技术。例如,为算法团队建立数据智能和数据标注等支撑团队,启动深瞳大脑项目,让数据的获取、标注和管理,以及模型的训练与部署自动化;成立基础引擎团队,优化人工智能算法在各种分布式异构平台上的性能、部署和调度,更好地连通应用和算法;对软件团队做了垂直领域划分,使得各团队能更专注于智慧安防、智慧银行、智慧零售等业务。
经过调整以及团队的努力,格灵深瞳的技术和产品有了显著的提升。邓亚峰本人也实现了从 CV 技术专家到技术管理者的蜕变,作为 CTO 带领团队将包括人脸识别、车辆结构化以及人体再识别等核心算法,后来居上做到行业一流水平,不仅仅赢得了客户,也赢得了生态合作伙伴华为、英特尔的尊敬。特别是在 2019 年,格灵深瞳在「工业界人脸识别世界杯」——美国标准化局举办的 FRVT 竞赛中,取得了四项任务综合成绩排名世界第一的殊荣。而这背后,整个团队的研发投入,特别是研发团队人数,仅是行业头部公司的十分之一。
2020 年 4 月,邓亚峰加入 360 集团,一手接过颜水成离开后的 360 人工智能研究院,另一手担起 360 搜索事业部的大梁。选择加入 360 集团的原因与加入格灵深瞳一样,邓亚峰坦言,都是为了更好地提升自己,都是最需要他同时也是他最能有所施展的平台。
此时的邓亚峰管理着 400 人左右的团队,一方面带领人工智能研究院在支撑公司内部业务AI 需求的同时进行 AI 前沿探索,另一方面管理着搜索事业部,保障集团最重要的业绩来源。360 有着非常广阔的 AI 落地场景,从互联网软件到智能硬件,有海量用户和数据,近期大热的多模态预训练大模型,在 360 有最好的应用场景。他和团队一起,提出一种新的中文图文跨模态预训练框架 R2D2 ,结合双塔模型和单塔模型的优点,在 8 个评测数据集上都取得了最好成绩,且显著超越之前最好成绩。这些模型与 2000 多万优质训练测试数据一起都已经开源,为中文大模型的研究及社区发展贡献了一点力量。此外,在知识图谱的权威竞赛 OGB-WIKI 上,他的团队曾两次登顶。
在 360 的这几年,邓亚峰从计算机视觉领域成功拓展到了自然语言理解、机器人等领域,深度学习技术的发展,让他越来越意识到 AI 的底层技术方法及在各个领域的演进是相通的。同时,在软硬件协同及 SaaS 服务方面的经验,以及在产业数字化等方向的探索和思考,进一步历练了他业务规划和判断能力,也让他习惯站在行业的高度洞悉技术趋势和市场动向。这个时间点,他已经由一个技术管理者蜕变为一个创新业务负责人。
在外人看来,在 360,他一方面负责AI 研究院,一方面负责搜索,既管最前沿的创新部门,又管非常核心的业务部门,一切都很完美。
我希望自己能做一件更有成就感,而且能对我个人的成长更有价值的一件事情。如果最初选择留在百度,我可以不断提升技术,不断晋升,原来我所带领团队的小伙伴已经升到 T9、T10 了。做了 20 年人工智能,我一直在追求把 AI 技术大规模落地,而且希望真正能给大家的生活带来价值和改变。 此外,我内心也一直期待自己能创立一家我认同的公司,一个能发挥出每个人潜质和优势,而且真正为社会创造价值的一个平台。
发现 AI for Science 新机遇
做过智慧城市、智慧商业、智慧银行这些计算机视觉相关的软硬件产品,又做过互联网、移动互联网的搜索、移动应用、视频推荐等产品,从商业角度看,邓亚峰发现这个时间点新机会相对来说比较少。更重要的,对他个人来讲,「价值感上会感觉没有特别强」。
比较偶然的机会接触到生命科学,尤其是新药发现这个领域后,邓亚峰说他天然地被吸引,觉得非常有兴趣,这是一个提起来就非常有使命感的行业。看好 AI 赋能药物研发有很多原因,最核心的还是他认为药物研发领域迎来了研发范式变革的机会点,在这样的机会点躬身入局,对他而言是非常顺理成章的事情。
邓亚峰相信,创新药研发的范式,将从专家+实验驱动的模式,变革为 AI 计算+自动化实验+专家驱动的模式,在未来十年甚至更久的时间里,AI 计算将成为生命科学领域发展的核心驱动力。作为 AI 从业者,最让人激动的当然是找到一个对社会非常有价值,且以 AI 为核心驱动力的行业。
药物研发当然需要领域知识,不仅仅涉及到药学,还包括物理、化学、生物、医学等,这绝对是一个非常跨学科的交叉领域,邓亚峰总结说。但是,当运用领域知识把一些问题抽象之后,会发现和其他领域遇到的人工智能任务并没有本质不同。
与其他领域不同的是,这个领域的 AI 技术能力还处于较为初级的阶段,还没有被解决,这背后的原因,一方面是因为药物研发领域的问题有独特挑战,另外一方面是因为太少真正具有 AI 建模能力的人进入这个领域。从最早期就亲身经历了深度学习技术的兴起,并见证了深度学习在计算机视觉和自然语言理解领域的颠覆式发展之后,邓亚峰对人工智能于生命科学的改变坚信不已。
邓亚峰回忆道「这只是时间问题。2013 年时,除了亲身见证的人外,很少有人相信深度学习,甚至包括一些行业大佬,人总是见到才会相信。」
对于药物研发而言,确实需要有领域知识,除了计算之外,也包括非常多的复杂环节。但过去药物研发领域失败率高的重要原因,是人类专家难以完全掌握药物研发过程中的所有知识,也难以完全消化利用所有的试验数据,使得药物研发充满了偶然性。而人工智能,有望理解和建模药物研发领域的所有数据,融入人类知识,并与专家人机协作,显著提高药物研发的确定性。这里面涉及到的大量模型,就如同量化交易领域一样,最终会被既懂领域知识,更懂建模的团队解决。
碳硅智慧的另一位创始人兼首席科学家是浙江大学药学院的侯廷军教授,拥有 20 多年药物设计方法学和应用研究经验。这是一只拥有 20 年以上经验的药学专家和人工智能专家领衔的团队,他们希望将最先进的生命科学技术与人工智能等信息科学技术深度融合,利用人工智能、物理计算,以及软硬件自动化技术,三轮驱动,通过提高新药研发领域生产数据、管理数据以及对数据进行 AI 建模的能力,将新药研发的各个环节数字化和智能化,形成干湿试验数据闭环,解决新药研发难题。这个团队过去在深度学习、多模态预训练、知识图谱、软硬件自动化、高性能计算、物理计算、计算化学和药学上的经验,将会让他们区别于其他团队,为行业带来不同价值。
碳硅智慧目前已建立了业内领先且完全拥有自主知识产权的一站式新药发现平台 DrugFlow,包括靶标发现、虚拟筛选、先导化合物优化、成药性预测等模块,可以帮助药化专家更高效、便捷地找到潜在成药分子。
从市场的角度,中国的制药行业与国外相比差距悬殊,新的政策导向下 Me-too 药和仿制药发展受限,药企和生物制药公司有更强的诉求去做差异化和创新药物研发。
邓亚峰强调说,作为新药研发领域的 AI 基础设施和服务提供商,碳硅智慧的战略目标是与药厂和生物医药公司合作,而非竞争。「相对传统的CRO 模式,我们会在提供软硬件基础设施之上,与战略合作伙伴一起针对重点管线进行合作研发,提供包括新靶点发现、成药分子发现及优化等服务。我们也希望用更开放的姿态,与行业伙伴一起推动生命科学领域人工智能技术的发展。」
范式改变的力量
1944 年,物理学家薛定谔出版了生物学著作《生命是什么?》(What Is Life? The Physical Aspect of the Living Cell),从物理学家的视角探讨生物学问题。尽管当时的物理和化学无法回答「生命是什么」这个问题,但薛定谔指出,这种无法回答是经过充分论证的,正是说明了需要用新的科学理论和科学工具去解释生物系统。
如今,一个类似的机遇摆在我们面前。生命或许本质上是一种信息系统,从计算的角度能够被更好地理解。如果说数学是科学的语言,那么 AI 则最适合用来描述生命。
药物发现需要领域知识,但 AI 人在这里拥有得天独厚的优势。在药物发现领域,人工智能的力量还没有真正发挥出来,想想过去几年计算机视觉、自然语言理解、自动驾驶等领域的巨变,一切都不过才刚要开始。
邓亚峰说:「新药研发领域踏实做人工智能的团队其实非常少,真正懂药又懂 AI 的团队屈指可数。我们团队希望能够通过自己的努力,与整个行业生态一起,把中国新药研发的能力向前推进一大步。也期待更多志同道合的朋友加入这个领域,无论从产业角度还是技术角度,这里都是一片全新的蓝海。」