LLM在放射科学中应用潜力

2023-11-13

本论文在全球范围内评估了 31 个大型语言模型 (LLM) 在解读放射科报告并从放射学发现中推导出诊断信息（impression）任务上的表现。这是目前已知的对全球 LLM 用于放射科学自然语言处理 (NLP) 进行的最全面评估之一。该研究通过在这个关键的放射科 NLP 任务上对海外和中国研发的主流 LLM 进行基准测试，填补了该领域目前的知识空白。数十家研究机构联合测试

近年来，大型语言模型（LLM）在自然语言领域（NLP）掀起了革新的狂潮，在大规模、高质量数据训练的驱动下，LLM 在多种领域都展现出卓越的性能。LLMs 的崛起不仅让我们重新审视了自然语言的处理方式，更是为多个领域注入了革新的 “新鲜血液”。值得注意的是，近期像 ChatGPT、BLOOM、Llama 这样的 LLM 正在大量涌现与飞速进化，令人叹为观止。更令人兴奋的是，国内多个优秀模型，如 Ziya-LLaMA、ChatGLM、baichuan 等，也在 LLM 的世界舞台上崭露头角。这一潮流不仅见证了 LLM 不断涌现和更新迭代，还展示了它们在医疗健康领域的巨大潜力。

在这一浪潮中，放射学 NLP 领域备受瞩目，LLM 在这个领域的发展和应用更是已经成为不可忽视的趋势。然而，尽管 LLMs 发展趋势迅猛，系统性地评估它们在放射科 NLP 能力上的研究还远远不足，尤其是对来自像中国这样的多语言国家的新兴模型的研究：这些模型在英文和中文（等其它语言）的多语言处理能力方面有独特的优势，但却鲜有深入的科学性能评估研究。在医学和放射学领域，我们正面临着一个亟需填补的知识空白。

因此，我们认为有必要对这些全球性 LLMs 进行严格且系统性的探索和分析。这不仅有助于更全面、更深入地了解它们的能力和局限性，还能将它们有机地融入全球 LLMs 的生态系统中之中，从而推进全球医疗领域、放射学领域 LLM 社区的发展。本研究旨在通过广泛测试全球 31 个主流 LLMs 在两个公开放射科数据集 (MIMIC-CXR 和 OpenI) 上的性能，验证它们在生成放射学诊断信息（impression）的能力。

论文地址：https://arxiv.org/pdf/2307.13693.pdf

在这项研究中，我们采用了一系列具体指标来评估模型，模型的评估标准均基于它们从放射学发现生成诊断信息的能力，通过具体指标来验证模型所生成诊断信息的质量。所用指标包括零样本（zero-shot）、一样本（one-shot）和五样本（five-shot）条件下的 Recall@1、Recall@2 和 Recall@L。通过将这 31 个国际主流 LLMs 在这些指标上进行 “竞争”，我们旨在揭示它们在放射学领域的相对优势和劣势，为 LLMs 在放射学领域的应用提供更加深入的理解。

值得一提的是，这项研究的成果不仅有助于推动放射学自然语言处理工具和LLM的优化和开发，而且这些 LLM 模型也将成为放射科医师和广泛医学界的宝贵工具，推动放射学 NLP 领域的发展。在这个充满挑战和机遇的时刻，我们对 LLMs 在放射学领域的应用充满信心，并期待它们在未来的发展中发挥更加重要的作用。方法介绍

测试方法

对于整体实验，我们会使用一些精心设计的 prompt 和推理参数来测试这 31 个大模型。对于三类样本数推理测试，即 zero-shot、one-shot 以及 five-shot inference，我们结合专业医疗意见，对每种都设计了专有、统一的 Prompt 来进行测试。结合过程中的测试的效果，我们在大量实验中总结、固定了推理参数，即 temperature=0.9、top-k=40 以及 top-p=0.9。

模型选择

鉴于资源和比较一致性的考虑，我们集中评估了拥有约 70 亿参数的大型语言模型（LLMs）。这个参数规模被选中是因为它在计算效率和性能之间取得了平衡，使得在高效地全面评估成为可能，并能够代表不同类型的 LLMs 性能。对于开源模型，我们从官方 GitHub 存储库获取了代码和模型参数，确保了正确的实施和评估。而对于商业模型，我们利用它们的应用程序编程接口（APIs），以一致可靠的方式与模型进行交互，确保了评估的准确性和一致性。

测试 Prompt

为了确保在不同的 LLM 之间进行公平而公正的比较，不论是 zero-shot、one-shot，还是 five-shot 的情形，我们都严格遵循相同的提示设置，保持了一致性。在 zero-shot 评估中，模型将面对全新的任务，没有任何之前的示例可供参考。而在 one-shot 的情景下，我们向模型提供了一个先前的示例作为参考。同时，在 five-shot 的情况下，模型将得到五个示例供其学习。所有的示例都是结合医疗建议严格挑选、设计。这些评估场景旨在模拟真实世界的使用条件，其中模型只获得有限数量的示例，并需要从中推导出通用规则。

数据集

我们的研究充分利用了 MIMIC-CXR 和 OpenI 两个放射学领域广泛使用的公开数据集，评估了大型语言模型（LLMs）在生成放射学文本报告方面的性能。我们的研究重点集中在放射学报告的 “Finding” 和 “Impression” 部分，这些部分提供了对影像结果和放射科医师的详细解释性文本信息。

实验结果

在 OpenI 数据集上，Anthropic 的 Claude2 实现了最佳的 zero-shot 表现，而 BayLing-7B 在 five-shot 中领先。在 MIMIC-CXR 上，Claude2 再次在 zero-shot 中排名第一，PaLM2 在 one-shot 中排名第一，BayLing-7B 在 five-shot 中领先。 whaosoft aiot http://143ai.com

我们观察到在不同模型之间存在显著的性能差异。这些全面的测试结果为每个 LLM 在放射科应用中提供了质量指标数据，为领域研究者提供了关于其丰富的优势和劣势的深刻见解。

众多的实验结果表明，国内许多新兴 LLM 与全球对手相比也有充分的竞争力，能够在全球性的舞台上作为后起之秀与全世界的对手一决高下。但是，像 AtomGPT_8k 这样的一些模型在所有设置下的表现都很差。总体而言，模型大小并不意味着表现一定优越与否，更重要的是对于模型应用领域的适应性，我们的结果正是强调了根据特定放射科任务而不是模型大小本身来仔细选择 LLM 的重要性，我们的工作正是为现在 LLM 研究中模型大小与效果优劣的相关问题抛出了预见性的 “橄榄枝”，为日后更为高效的 LLM 研究提供了经验知识。结论

这项开创性的研究对来自全球各大团队的 LLM 在解释放射科报告这一领域进行了详尽的评估。关于模型之间能力和性能的差距所获得的见解将作为引导未来扩展 LLM 以增强在放射科领域、乃至更多医疗健康领域实践的坚固基石。通过审慎的应用和开发，LLM 在促进全球医疗保健交付方面显示出巨大的前景。

但是，总体而言结果中 LLM 局限的能力（仍然不够高的指标得分）预示着还需要开展持续的研究，开发更具有专业性、领域性、精确性的多语言和多模态 LLM, 以充分发挥它们在不同医学专业中的潜力，这将为全世界的医疗行业提供启发与便利，并且也是通用人工智能（AGI）在医疗行业中又一强大可能性。

总之，本全面基准测试研究对于 LLM 作为全球放射科医生的宝贵工具的采用做出了重要贡献，推进了全球 LLM 社区，尤其是在放射学、医疗领域的发展，为 AGI 在医疗领域的进一步实践、发展提供了重要启示。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

人工智能

LLM在放射科学中应用潜力的相关文章

毕业设计-基于深度学习的细菌微生物目标检测系统系统 YOLO python 目标检测人工智能卷积神经网络机器学习

目录前言设计思路一课题背景与意义二算法理论原理 2 1 CBAM模块 2 2 损失函数三检测的实现 3 1 数据集 3 2 实验环境搭建 3 3 实验及结果分析实现效果图样例最后前言大四是整个大学期间最忙碌的时光一
2024年华数杯国际赛B题：光伏发电功率思路模型代码解析

2024年华数杯国际赛B题光伏发电功率 Photovoltaic Power 一问题描述中国的电力构成包括传统能源发电如煤油和天然气可再生能源发电如水电风能太阳能和核能以及其他形式的电力这些发电模式在满足中国对电力的巨
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
【信道估计】【MIMO】【FBMC】未来移动通信的滤波器组多载波调制方案（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
【卡尔曼滤波】粗略模型和过滤技术在模型不确定情况下的应用研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文献
问CHAT很繁琐的问题会不会有答案呢？

问CHAT 什么已有的基于极值理论的极端温度重现期主要针对极端高温事件对极端低温事件研究较少 CHAT 回复为这主要可能是由于以下几个原因 1 气候变化与全球变暖当前全球变暖和气候变化的问题备受关注这导致科研者更加关注极端高温事件
基于java的ssh医院在线挂号系统设计与实现

基于java的ssh医院在线挂号系统设计与实现 I 引言 A 研究背景和动机基于Java的SSH医院在线挂号系统设计与实现的研究背景和动机随着信息技术的迅速发展和应用医院在线挂号系统已成为医院管理的重要组成部分传统的挂号方式存在许多
扬帆证券：三只松鼠去年扣非净利预增超1.4倍

在高端性价比战略驱动下三只松鼠 300783 重拾增势 1月15日晚间三只松鼠发布成绩预告预计2023年度净赢利为2亿元至2 2亿元同比增加54 97 至70 47 扣非后净赢利为1亿元至1 1亿元同比增速达146 9 至17
明日 15:00 | NeurIPS 2023 Spotlight 论文

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入哔哩哔哩直播通道扫码关注AITIME哔哩哔哩官方账号预约直播 1月17日 15 00 16 00 讲者介绍黄若孜腾讯AI LAB游戏AI研究员 2020年复旦大学硕士毕业后
无人机视角、多模态、模型剪枝、国产AI芯片部署

无人机视角多模态模型剪枝国产AI芯片部署是当前无人机技术领域的重要研究方向其原理和应用价值在以下几个方面进行详细讲述一无人机视角无人机视角是指在无人机上搭载摄像头等设备通过航拍图像获取环境信息并进行图像处理和分析这种技术
如何快速申请GPT账号？

详情点击链接如何快速申请GPT账号一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Gemini以及大模型
手把手教你用 Stable Diffusion 写好提示词

Stable Diffusion 技术把 AI 图像生成提高到了一个全新高度文生图 Text to image 生成质量很大程度上取决于你的提示词 Prompt 好不好前面文章写了一篇文章一份保姆级的 Stable Diffusion
做大模型也有1年多了，聊聊这段时间的感悟！

自ChatGPT问世以来做大模型也有1年多了今天给大家分享这一年后的感悟过去一年应该是AI圈最万千瞩目的一年了大家对大模型 OpenAI ChatGPT AI Native Agent这些词投入了太多的关注以至于有一年的时间好像经
机器学习算法实战案例：时间序列数据最全的预处理方法总结

文章目录 1 缺失值处理 1 1 统计缺失值 1 2 删除缺失值 1 3 指定值填充 1 4 均值中位数众数填充
用通俗易懂的方式讲解：使用 LlamaIndex 和 Eleasticsearch 进行大模型 RAG 检索增强生成

检索增强生成 Retrieval Augmented Generation RAG 是一种结合了检索 Retrieval 和生成 Generation 的技术它有效地解决了大语言模型 LLM 的一些问题比如幻觉知识限制等随着 RAG
机器学习算法实战案例：Informer实现多变量负荷预测

文章目录机器学习算法实战案例系列答疑技术交流 1 实验数据集 2 如何运行自己的数据集 3 报错分析机器学习算法实战案例系
AI帮助终结全球饥饿问题

全球饥饿问题是牵动人心的头等大事 5月28日是世界饥饿日这一问题更值得关注让人人都能吃饱的想法不仅令人向往而且很快就会变成现实与大多数新事物引进一样对于在控制世界粮食供应这样复杂的任务中AI究竟应该发挥多大的作用人们还踟蹰不前
回望计算机视觉会议ICCV的31年

作者原野寻踪编辑汽车人原文链接 https zhuanlan zhihu com p 670393313 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心全栈算法技术交流群本文只做
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
实力认证！鼎捷软件荣膺“领军企业”和“创新产品”两大奖项

近日由中国科学院软件研究所中科软科技股份有限公司联合主办的 2023中国软件技术大会于北京成功举办本届大会以大模型驱动下的软件变革为主题数十位来自知名互联网公司和软件巨头企业的技术大咖不同领域行业专家畅销书作者等分享嘉宾

随机推荐

Dsadd批量域帐号（详细属性）添加方法

由于网上的都不够详细鼓搞了很久理清了贴上来大家需要的用下先了解一下 dsadd 命令该命令只有2003服务器系统以上才存在系统开始运行输入Cmd dsadd dsadd computer 将计算机添加到目录 dsadd cont
mysql数据库非正常关机报错，启动时mysql被killed掉

阿里云服务器centos7 6 mysql数据库5 6 44 mysql启动报错 usr bin mysqld safe line 183 15006 Killed nohup usr sbin mysqld basedir usr dat
不翻墙安装油猴

不翻墙安装油猴 https chrome zzzmh cn info token dhdgffkkebhmkfjojejmpbldmpobfkfo 利用极简插件安装
解决adb connect 连接Android设备报错：由于目标计算机积极拒绝，无法连接

解决adb connect 连接Android设备报错由于目标计算机积极拒绝无法连接神马东东目录一问题描述二解决方法需Root 三解决方法不需要Root 一问题描述在使用adb连接Android设备时可以通过有线
mysql底层数据存储原理

一前言 1 1 数据存储在哪里操作系统从寄存器中读取数据是最快的因为它离CPU最近但是寄存器有个非常致命的问题是它只能存储非常少量的数据设计它的目的主要是用来暂存指令和地址并非存储大量用户数据的内存的大小虽然比寄存器大但是
Java 封装、继承、多态的理解

更好的阅读体验 Java 封装继承多态的理解 1 封装封装就是隐藏对象的属性和实现细节仅对外提供公共访问方式让使用者知道的才暴露出来不需要让使用者知道的全部隐藏起来封装的好处避免使用者直接操作属性值隐藏类的实现细节让使
python函数可变参数问题

函数参数必选参数默认参数可选参数关键字参数 1 有默认参数和可变参数 argment def test a b 0 c print a b c test 1 2 运行结果 1 2 由此可以看出参数是按顺序传递的不管参数是不是有默认
wiredtiger java_Mongodb WT_ERROR：非特定的WiredTiger错误，

我试过这个命令 mongod repair dbpath storageEngine wiredTiger并收到同样的错误 Mongo版本v3 4 9 当我尝试启动指向现在损坏的数据库的mongo时出现错误 E STORAGE initan
科技云报道：5G还未普及，6G已经来了？

科技云报道原创 2021年相信大部分人仍在用着4G网络甚至都没明白什么是5G 就开始听到6G的消息了近日国家知识产权局知识产权发展研究中心发布了 6G通信技术专利发展状况报告对6G关键技术的专利发展情况进行深度解读报告显示当前
mysql状态下，命令行清空指令

mysql状态下命令行清空指令
attention机制_【CV中的Attention机制】SelectiveKernelNetworksSE进化版

前言 SKNet是SENet的加强版是attention机制中的与SE同等地位的一个模块可以方便地添加到现有的网络模型中对分类问题分割问题有一定的提升作者 pprp 编辑 BBuf 1 SKNet SKNet是SENet的加强版
QT中QLoggingCategory类的作用

使用前须知 include category 美 k t ri 种类类别使用举例 QLoggingCategory setFilterRules QStringLiteral qt modbus true 作用总结控制打印输出类别和区
html5 first child,childfirst

在html里 firstchild 有什么作用表示对第一个字对象的引用如 DIV的子对象 alert document getElementById abc firstChild tagname 返回SPAN alert documen
vcruntime140_1.dll丢失的详细解决办法

今天准备打开CAD跟ps时候当打开我自己的ps软件后弹出了一个对话框内容是由于找不到vcruntime140 1 dll 无法继续执行代码重新安装程序可能会解决此问题我很纳闷前几天还好好着呢于是我上网上查了一下成功解决了问
signature=0e936ad5c99bd8d603e71fa74e787bee,JavaScript 的 BASE64 算法实现完美解决中文乱码...

收藏的Base64编码解码在一个外国网站看到的不过对中文不支持自己加入了escape 对中文也支持了先用escape 对中文进行编码然后再进行base64编码解码时再加入对中文进行解码 p gt W3C DTD HTML
URL 链接中 #、?、连接符& 分别有什么作用？

在一个 URL 中可以包含很多的内容其中不仅仅是包含 26 个英文字母 10 个罗马数字中文汉字还可以拥有井号问号连接符等三种最常见的符号那么这些符号在网站中都有哪些作用呢文章目录一井号二问号三连接一井号井
Qt：十六进制字符串和十六进制互转

Qt 十六进制字符串和十六进制互转前言一字符串转换十六进制 1 封装函数 2 函数调用示例二 16进制转换字符串前言网上查了不少方式踩了不少坑最终这个方式是我目前使用感觉较好的一种具体出处已经没印象了这里放出完整代码供大
Spring（二）IOC容器的初始化流程

文章目录一 Spring 核心容器类 1 1 BeanFactory 1 2 ApplicationContext 1 3 BeanDefinition 二 IOC容器的初始化 2 1 基于Xml的IOC容器的初始化 2 1 1 寻找入口
15个顶级Java多线程面试题及答案

1 现在有T1 T2 T3三个线程你怎样保证T2在T1执行完后执行 T3在T2执行完后执行这个线程问题通常会在第一轮或电话面试阶段被问到目的是检测你对 join 方法是否熟悉这个多线程问题比较简单可以用join方法实现 2 在Ja
LLM在放射科学中应用潜力

本论文在全球范围内评估了 31 个大型语言模型 LLM 在解读放射科报告并从放射学发现中推导出诊断信息 impression 任务上的表现这是目前已知的对全球 LLM 用于放射科学自然语言处理 NLP 进行的最全面评估之一该研究通过在这

LLM在放射科学中应用潜力

LLM在放射科学中应用潜力 的相关文章

随机推荐

热门标签

LLM在放射科学中应用潜力的相关文章