Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

谷歌医疗大模型登Nature:Med-PaLM准确率与人类医生相当

图片
编辑 | 绿萝

大型语言模型 (LLM) 已展现出令人印象深刻的功能,但临床应用的门槛很高。评估模型临床知识的尝试通常依赖于基于有限基准的自动评估。

今年年初,谷歌 Med-PaLM 的下一个迭代:Med-PaLM 2,在医学考试问题上持续表现出「专家」医生水平。

Med-PaLM 2 是首个在美国医疗执照考试(USMLE)的 MedMCQA 数据集上达到「专家」应试者水平表现的 LLM,准确率达到 85% 以上,也是首个在包括印度 AIIMS 和 NEET 医学考试问题的 MEDMCQA 数据集上达到及格分数的 AI 系统,得分为 72.3%。

现在,谷歌又对医学大模型进行了优化和升级。

该研究以「Large language models encode clinical knowledge」为题,于 7 月 12 日发布在《Nature》上。

图片

研究人员提出了新的基准 MultiMedQA,由七个医学问答数据集组成,包括六个现有数据集:MedQA、MedMCQA、PubMedQA、LiveQA、MeductionQA 和 MMLU 临床主题。,以及一个新的在线搜索医疗问题数据集 HealthSearchQA。

还提出了一个人类评估框架模型答案沿着多个轴,包括事实,理解,推理,可能的伤害和偏见。

此外,研究人员还在 MultiMedQA 上评估 PaLM(一个 5400 亿参数的 LLM)及其指令调整变体 Flan-PaLM。通过结合提示策略,Flan-PaLM 在每个 MultiMedQA 多项选择数据集:MedQA、MedMCQA、PubMedQA 和测量大规模多任务语言理解 MMLU 临床主题上均实现了最先进的准确性。

Flan-PaLM 在美国医学执照考试(USMLE) MedQA 上,取得了 67.6% 的成绩,超越现有技术水平 17% 以上。

尽管 Flan-PaLM 在多项选择题上表现强劲,但其对消费者医疗问题的回答却暴露出关键差距。

为了解决这个问题,研究人员引入了指令提示调整。由此产生的模型 Med-PaLM 表现令人鼓舞,但仍然不如临床医生。

图片

图示:临床医生对答案的评估。(来源:论文)

例如,一个临床医生小组认为只有 61.9% 的 Flan-PaLM long-form 答案符合科学共识,而 Med-PaLM 答案为 92.6%,与临床医生生成的答案 (92.9%) 相当。

同样,29.7% 的 Flan-PaLM 答案被评为可能导致有害结果,而 Med-PaLM 的这一比例为 5.9%,这与临床医生生成的答案 (5.7%) 的结果相似。

研究表明,随着模型规模和指令提示调整,理解力、知识回忆和推理能力得到提高,这表明 LLM 在医学领域的潜在用途。

主要贡献

第一个关键贡献是:在医学问答的背景下评估 LLM 的方法。

研究引入了 HealthSearchQA,这是一个包含 3,173 个常见搜索的消费者医疗问题的数据集。将这个数据集与六个现有的开放数据集一起展示,用于回答涵盖医学检查、医学研究和消费者医学问题的医学问题,作为评估 LLM 临床知识和问答能力的多样化基准。

研究为医生和非专业用户试用了一个框架,以评估 LLM 绩效的多个轴,超越多项选择数据集的准确性。

第二个关键关键贡献是:使用 Flan-PaLM 和提示策略组合在 MedQA、MedMCQA、PubMedQA 和 MMLU 临床主题数据集上展示最先进的性能,超越了几个强大的 LLM 基线。

具体来说,在 MedQA 上达到 67.6% 的准确率(比之前的最新技术水平高出 17% 以上),在 MedMCQA 上达到 57.6%,在 PubMedQA 上达到 79.0%。

第三个贡献是:引入指令提示调整。并利用这项技术构建了 Med-PaLM,这是专门针对医疗领域的 Flan-PaLM 的指令提示调整版本。

人类评估框架揭示了 Flan-PaLM 在科学基础、危害和偏见方面的局限性。尽管如此,根据临床医生和非专业用户的说法,Med-PaLM 在其中几个轴上大大缩小了与临床医生的差距(甚至是有利的)。

图片

图示:贡献概述。(来源:论文)

总之,基础模型和 LLM 的出现,促使人们重新思考医疗人工智能的发展,并使其使用起来更容易、更安全和更公平。与此同时,医学对于 LLM 的应用来说是一个特别复杂的领域。

尽管这些结果很有希望,但医学领域很复杂。进一步的评估是必要的,特别是在安全性、公平性和偏见方面。在这些模型可用于临床应用之前,必须克服许多限制。

论文链接:https://www.nature.com/articles/s41586-023-06291-2

参考内容:https://blog.google/technology/health/ai-llm-medpalm-research-thecheckup/

产业
暂无评论
暂无评论~