2025/03/05 12:58

无缝集成知识图谱，开源Python框架BioChatter降低LLM生物医学使用门槛

编辑丨coisini

大型语言模型（LLMs）已经改变了人们的工作方式，从支持内容创作、编程到改进搜索引擎等。然而，LLMs 在透明度、可重复性和定制化方面的不足仍然是一个挑战，限制了它们在生物医学研究中的广泛应用。

对生物医学研究人员来说，针对特定研究问题优化 LLMs 可能是一项艰巨的任务，因为这需要编程技能和机器学习专业知识。这些障碍减少了许多研究任务中 LLMs 的采用。

为了克服这些限制，最近海德堡大学、欧洲生物信息研究所（EMBL-EBI）等机构发表在《Nature Biotechnology》杂志上的一项新研究提出了 BioChatter。BioChatter 旨在通过提供一个开放、透明的开源 Python 框架，来降低生物医学研究人员使用 LLMs 的门槛。该框架可以适应不同的研究需求，将帮助科学家专注于他们的研究，将技术复杂性交给平台处理。

论文地址：https://www.nature.com/articles/s41587-024-02534-3
项目地址：https://github.com/biocypher/biochatter

与生物医学知识图谱无缝集成的开源框架

BioChatter 可以适应特定的研究领域，从生物医学数据库和文献中提取数据。此外，通过 BioChatter 的 API 调用功能，指导 LLMs 使用外部软件可以实现对最新信息的实时访问，并与生物信息学工具集成。

BioChatter 的一个关键特性是其能够与 BioCypher（面向生命科学研究设计的知识图谱构建框架）构建的知识图谱高度集成 —— 这些图谱链接了生物医学数据，如基因突变、药物 - 疾病关联和其他临床信息，旨在帮助研究人员分析复杂的数据集，以识别疾病中的基因变异或理解药物机制。

BioChatter 提供了一个易于使用的接口，通过直观的 API 与 LLMs 及辅助技术进行交互，其功能可以集成到任意数量的用户界面中，例如 Web 应用程序、命令行界面或 Jupyter 笔记本。

图注：BioChatter 框架架构。

BioChatter 框架设计为模块化结构：其任何组件都可以与其他实现进行交换。BioChatter 的功能包括：

与由提供商（如 OpenAI）托管的大型语言模型（LLMs）以及本地部署的开源模型进行基本的问答交互。
可复现的提示工程（prompt engineering），以引导 LLM 完成特定任务或行为。
知识图谱（KG）查询，并自动集成在 BioCypher 框架中创建的任何知识图谱。
检索增强生成（RAG）：利用用户提供的文献向量数据库嵌入，增强生成内容的准确性和相关性。
模型链式调用：通过 LangChain 框架，在单一对话中协调多个 LLM 及其他模型，实现复杂的交互和任务执行。
LLM 响应的真实性核查：使用第二个 LLM 对第一个 LLM 的响应进行事实核查，以提高信息的准确性。
LLM、提示及其他组件的基准测试：对不同的 LLM、提示策略及其他组件进行性能评估和比较，以优化系统表现。

图注：BioChatter 可组合平台架构（简化）。

实验评估

由于生物医学领域有其特定的任务和要求，研究团队创建了一个定制化的基准测试，以便更精确地评估各组件的性能。

基准测试结果主要衡量了 LLM 在生物医学等领域应用中的实用性。

图注：基准测试结果。

为了评估 BioChatter 功能的优势，研究团队比较了使用和不使用 BioChatter 提示引擎进行知识图谱（KG）查询的模型性能。实验结果表明，未使用提示引擎的模型仍然可以访问 BioCypher 模式定义（详细描述了 KG 结构），但无法使用 BioChatter 提供的多步骤流程。因此，未使用提示引擎的模型在生成正确查询方面的性能低于使用提示引擎的相同模型，如上图 (B) 所示。

未来展望

BioChatter 的下一步是试验其与生命科学数据库的集成。BioChatter 研究团队正在与 Open Targets 密切合作，旨在利用人类遗传学和基因组学数据进行系统的药物靶点识别和优先排序。将 BioChatter 集成到 Open Targets 平台中，可以帮助用户更高效地访问和使用平台中的生物医学数据。

研究团队还在开发一个补充系统 ——BioGather，旨在从其他临床数据类型（包括基因组学、医学笔记和图像）中提取信息。BioGather 将帮助研究人员解决个性化医学、疾病建模和药物开发中的复杂问题。

相关报道：https://www.eurekalert.org/news-releases/1070721

理论AI for Science开源

相关数据

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

知识图谱技术

知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲，知识图谱就是把所有不同种类的信息（Heterogeneous Information）连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。知识图谱这个概念最早由Google提出，主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎，知识图谱可用来更好地查询复杂的关联信息，从语义层面理解用户意图，改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候，搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月，家庭情况等等。

来源：机器之心

数据库技术

数据库，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据运行新增、截取、更新、删除等操作。所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

来源：维基百科

查询技术

一般来说，查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域，查询指的是数据库和信息系统对信息检索的精确要求

来源：Wikipedia

强生机构

强生公司成立于1886年，是全球最具综合性、业务分布范围广的医疗健康企业之一，业务涉及制药、医疗器材及消费品三大领域。强生坚信健康是活力人生、繁荣社区和不断进步的基础。正因如此，130多年来，公司始终致力于推进健康事业，让人们在每个年龄段和每个人生阶段都保持健康。

http://www.jnj.com/

语言模型技术

统计式的语言模型是借由一个几率分布，而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。