Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

性能优于o3-mini,DeepMind发布通用医学开源LLM与问答Agent,改善治疗开发

图片

编辑 | 萝卜皮

开发一种新的治疗方法风险特别大,过程非常缓慢,而且可能花费数十亿美元。据统计,90% 的候选药物过不了第一阶段的试验。

在这里,Google DeepMind 团队发布了 TxGemma,这是一组开源模型,旨在通过利用大型语言模型的强大功能来提高治疗开发的效率。

TxGemma 以之前发布的 Gemma(一组轻量级、先进的开源模型)为基础,经过专门训练,可以理解和预测整个发现过程中治疗实体的属性,从确定有希望的目标到帮助预测临床试验结果。这可以缩短从实验室到临床的时间,并降低与传统方法相关的成本。

TxGemma 使用 700 万个训练示例从 Gemma 2 进行微调,是专为预测和对话式治疗数据分析而设计的开源模型。这些模型有三种尺寸,每种尺寸都包含一个「预测」版本,专门针对从治疗数据共享中提取的狭窄任务进行量身定制,例如预测分子是否有毒。

这些任务包括:分类(例如,该分子是否会穿过血脑屏障)、回归(例如,预测药物的结合亲和力)、生成(例如,给定某些反应的产物,生成反应物集)。

开发人员和医学研究者可以根据自己的治疗数据和任务对 TxGemma 进行适配调整。

图片

论文链接:https://storage.googleapis.com/research-media/txgemma/txgemma-report.pdf

与执行特定任务的模型不同,TxGemma 综合了来自不同来源的信息,从而能够广泛应用于整个治疗开发流程。

TxGemma 包括 2B、9B 和 27B 参数模型,这些模型基于 Gemma-2 进行了微调,适用于小分子、蛋白质、核酸、疾病和细胞系的综合数据集。

图片

图示:TxGemma 概述。(来源:论文)

高效的通用治疗 LLM

TxGemma 代表了治疗开发领域从任务特定型人工智能向高效通用模型的潜在转变。这些高效的 LLM(2B-27B 参数)为专业模型提供了有竞争力的替代方案,在广泛的预测和生成任务中实现了出色的性能。

在 TDC(Therapeutics Data Commons )策划的 66 项治疗开发任务中,TxGemma Predict 在 64 项任务中的表现优于或接近最先进的通用模型(在 45 项任务中优于),在 50 项任务中的表现优于或接近最先进的专业模型(在 26 项任务中优于)。

图片

图示:TxGemma-Predict 的性能与治疗属列表模型的比较。(来源:论文)

此外,与微调基础 Gemma-2 相比,对治疗下游任务(例如临床试验不良事件预测)微调 TxGemma 模型所需的训练数据较少,这使得 TxGemma 适合数据有限的应用。

除了这些预测能力之外,TxGemma 还具有对话模型,可以弥补一般 LLM 和专业属性预测器之间的差距。这些模型允许科学家和医学工作者以自然语言进行交互,为基于分子结构的预测提供机械推理,并参与科学讨论。例如,研究人员可以询问 TxGemma-Chat 为什么它预测某种分子有毒,并根据分子的结构获得解释。

通用治疗 Agent 系统

在此基础上,研究人员进一步推出了 Agentic-Tx,这是一个由 Gemini 2.0 提供支持的通用治疗 Agent 系统,可以推理、行动、管理各种工作流程并获取外部领域知识。Agentic-Tx 配备了 18 种工具,包括:TxGemma 作为多步推理工具;来自 PubMed、维基百科和网络的通用搜索工具;特定分子工具;基因和蛋白质工具。

图片

图示:使用 Agentic-Tx 进行代理规划和执行的示例工作流程。(来源:论文)

Agentic-Tx 在 Humanity’s Last Exam 基准(化学和生物学)上超越了当下领先的模型,与高级推理模型 o3-mini(high)相比提高了 9.8%,与 o1 相比提高了 17.9%。

在 ChemBench 上,TxGemma 表现出色,与 o3-mini (high) 相比,其性能提升了 5.6% (ChemBench-Preference) 和 1.1% (ChemBench-Mini),与 o1 相比,其性能提升了 17.0% 和 4.3%。

发布模型的同时,DeepMind 还提供了一个微调示例 Colab 笔记本,演示了开发人员如何根据自己的治疗数据和任务调整 TxGemma。此笔记本使用 TrialBench 数据集来展示如何微调 TxGemma 以预测临床试验中的不良事件。

微调使研究人员能够利用其专有数据来创建适合其独特研究需求的模型,从而可能产生更准确的预测,帮助研究人员评估潜在新疗法的安全性或有效性。为更具挑战性的现实世界治疗应用中的治疗安全性和有效性铺平道路。

TxGemma 开源地址:

https://console.cloud.google.com/vertex-ai/publishers/google/model-garden/txgemma?pli=1&invt=AbtNKA

https://huggingface.co/collections/google/txgemma-release-67dd92e931c857d15e4d1e87

相关内容:

https://x.com/GoogleDeepMind/status/1905274923980853412

https://developers.googleblog.com/en/introducing-txgemma-open-models-improving-therapeutics-development/

产业人工智能科学治疗医学影像AI for Science
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

参数模型技术

在统计学中,参数模型是可以使用有限数量的参数来描述的分布类型。 这些参数通常被收集在一起以形成单个k维参数矢量θ=(θ1,θ2,...,θk)。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
暂无评论
暂无评论~