LLM在放射科学中应用潜力

2023-11-13

本论文在全球范围内评估了 31 个大型语言模型 (LLM) 在解读放射科报告并从放射学发现中推导出诊断信息(impression)任务上的表现。这是目前已知的对全球 LLM 用于放射科学自然语言处理 (NLP) 进行的最全面评估之一。该研究通过在这个关键的放射科 NLP 任务上对海外和中国研发的主流 LLM 进行基准测试,填补了该领域目前的知识空白。数十家研究机构联合测试

近年来,大型语言模型(LLM)在自然语言领域(NLP)掀起了革新的狂潮,在大规模、高质量数据训练的驱动下,LLM 在多种领域都展现出卓越的性能。LLMs 的崛起不仅让我们重新审视了自然语言的处理方式,更是为多个领域注入了革新的 “新鲜血液”。值得注意的是,近期像 ChatGPT、BLOOM、Llama 这样的 LLM 正在大量涌现与飞速进化,令人叹为观止。更令人兴奋的是,国内多个优秀模型,如 Ziya-LLaMA、ChatGLM、baichuan 等,也在 LLM 的世界舞台上崭露头角。这一潮流不仅见证了 LLM 不断涌现和更新迭代,还展示了它们在医疗健康领域的巨大潜力。

在这一浪潮中,放射学 NLP 领域备受瞩目,LLM 在这个领域的发展和应用更是已经成为不可忽视的趋势。然而,尽管 LLMs 发展趋势迅猛,系统性地评估它们在放射科 NLP 能力上的研究还远远不足,尤其是对来自像中国这样的多语言国家的新兴模型的研究:这些模型在英文和中文(等其它语言)的多语言处理能力方面有独特的优势,但却鲜有深入的科学性能评估研究。在医学和放射学领域,我们正面临着一个亟需填补的知识空白。

因此,我们认为有必要对这些全球性 LLMs 进行严格且系统性的探索和分析。这不仅有助于更全面、更深入地了解它们的能力和局限性,还能将它们有机地融入全球 LLMs 的生态系统中之中,从而推进全球医疗领域、放射学领域 LLM 社区的发展。本研究旨在通过广泛测试全球 31 个主流 LLMs 在两个公开放射科数据集 (MIMIC-CXR 和 OpenI) 上的性能,验证它们在生成放射学诊断信息(impression)的能力。

论文地址:https://arxiv.org/pdf/2307.13693.pdf

在这项研究中,我们采用了一系列具体指标来评估模型,模型的评估标准均基于它们从放射学发现生成诊断信息的能力,通过具体指标来验证模型所生成诊断信息的质量。所用指标包括零样本(zero-shot)、一样本(one-shot)和五样本(five-shot)条件下的 Recall@1、Recall@2 和 Recall@L。通过将这 31 个国际主流 LLMs 在这些指标上进行 “竞争”,我们旨在揭示它们在放射学领域的相对优势和劣势,为 LLMs 在放射学领域的应用提供更加深入的理解。

值得一提的是,这项研究的成果不仅有助于推动放射学自然语言处理工具和LLM的优化和开发,而且这些 LLM 模型也将成为放射科医师和广泛医学界的宝贵工具,推动放射学 NLP 领域的发展。在这个充满挑战和机遇的时刻,我们对 LLMs 在放射学领域的应用充满信心,并期待它们在未来的发展中发挥更加重要的作用。方法介绍

测试方法

对于整体实验,我们会使用一些精心设计的 prompt 和推理参数来测试这 31 个大模型。对于三类样本数推理测试,即 zero-shot、one-shot 以及 five-shot inference,我们结合专业医疗意见,对每种都设计了专有、统一的 Prompt 来进行测试。结合过程中的测试的效果,我们在大量实验中总结、固定了推理参数,即 temperature=0.9、top-k=40 以及 top-p=0.9。

模型选择

鉴于资源和比较一致性的考虑,我们集中评估了拥有约 70 亿参数的大型语言模型(LLMs)。这个参数规模被选中是因为它在计算效率和性能之间取得了平衡,使得在高效地全面评估成为可能,并能够代表不同类型的 LLMs 性能。对于开源模型,我们从官方 GitHub 存储库获取了代码和模型参数,确保了正确的实施和评估。而对于商业模型,我们利用它们的应用程序编程接口(APIs),以一致可靠的方式与模型进行交互,确保了评估的准确性和一致性。

测试 Prompt

为了确保在不同的 LLM 之间进行公平而公正的比较,不论是 zero-shot、one-shot,还是 five-shot 的情形,我们都严格遵循相同的提示设置,保持了一致性。在 zero-shot 评估中,模型将面对全新的任务,没有任何之前的示例可供参考。而在 one-shot 的情景下,我们向模型提供了一个先前的示例作为参考。同时,在 five-shot 的情况下,模型将得到五个示例供其学习。所有的示例都是结合医疗建议严格挑选、设计。这些评估场景旨在模拟真实世界的使用条件,其中模型只获得有限数量的示例,并需要从中推导出通用规则。

数据集

我们的研究充分利用了 MIMIC-CXR 和 OpenI 两个放射学领域广泛使用的公开数据集,评估了大型语言模型(LLMs)在生成放射学文本报告方面的性能。我们的研究重点集中在放射学报告的 “Finding” 和 “Impression” 部分,这些部分提供了对影像结果和放射科医师的详细解释性文本信息。

实验结果

在 OpenI 数据集上,Anthropic 的 Claude2 实现了最佳的 zero-shot 表现,而 BayLing-7B 在 five-shot 中领先。在 MIMIC-CXR 上,Claude2 再次在 zero-shot 中排名第一,PaLM2 在 one-shot 中排名第一,BayLing-7B 在 five-shot 中领先。 whaosoft aiot http://143ai.com  

我们观察到在不同模型之间存在显著的性能差异。这些全面的测试结果为每个 LLM 在放射科应用中提供了质量指标数据,为领域研究者提供了关于其丰富的优势和劣势的深刻见解。

众多的实验结果表明,国内许多新兴 LLM 与全球对手相比也有充分的竞争力,能够在全球性的舞台上作为后起之秀与全世界的对手一决高下。但是,像 AtomGPT_8k 这样的一些模型在所有设置下的表现都很差。总体而言,模型大小并不意味着表现一定优越与否,更重要的是对于模型应用领域的适应性,我们的结果正是强调了根据特定放射科任务而不是模型大小本身来仔细选择 LLM 的重要性,我们的工作正是为现在 LLM 研究中模型大小与效果优劣的相关问题抛出了预见性的 “橄榄枝”,为日后更为高效的 LLM 研究提供了经验知识。结论

这项开创性的研究对来自全球各大团队的 LLM 在解释放射科报告这一领域进行了详尽的评估。关于模型之间能力和性能的差距所获得的见解将作为引导未来扩展 LLM 以增强在放射科领域、乃至更多医疗健康领域实践的坚固基石。通过审慎的应用和开发,LLM 在促进全球医疗保健交付方面显示出巨大的前景。

但是,总体而言结果中 LLM 局限的能力(仍然不够高的指标得分)预示着还需要开展持续的研究,开发更具有专业性、领域性、精确性的多语言和多模态 LLM, 以充分发挥它们在不同医学专业中的潜力,这将为全世界的医疗行业提供启发与便利,并且也是通用人工智能(AGI)在医疗行业中又一强大可能性。

总之,本全面基准测试研究对于 LLM 作为全球放射科医生的宝贵工具的采用做出了重要贡献,推进了全球 LLM 社区,尤其是在放射学、医疗领域的发展,为 AGI 在医疗领域的进一步实践、发展提供了重要启示。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

LLM在放射科学中应用潜力 的相关文章

随机推荐

  • Dsadd批量域帐号(详细属性)添加方法

    由于网上的都不够详细 鼓搞了很久 理清了 贴上来大家需要的用下 先了解一下 dsadd 命令 该命令只有2003服务器系统以上才存在 系统开始运行输入Cmd dsadd dsadd computer 将计算机添加到目录 dsadd cont
  • mysql数据库非正常关机报错,启动时mysql被killed掉

    阿里云服务器centos7 6 mysql数据库5 6 44 mysql启动报错 usr bin mysqld safe line 183 15006 Killed nohup usr sbin mysqld basedir usr dat
  • 不翻墙安装油猴

    不翻墙安装油猴 https chrome zzzmh cn info token dhdgffkkebhmkfjojejmpbldmpobfkfo 利用极简插件安装
  • 解决adb connect 连接Android设备报错:由于目标计算机积极拒绝,无法连接

    解决adb connect 连接Android设备报错 由于目标计算机积极拒绝 无法连接 神马东东 目录 一 问题描述 二 解决方法 需Root 三 解决方法 不需要Root 一 问题描述 在使用adb连接Android设备时 可以通过有线
  • mysql底层数据存储原理

    一 前言 1 1 数据存储在哪里 操作系统从寄存器中读取数据是最快的 因为它离CPU最近 但是寄存器有个非常致命的问题是 它只能存储非常少量的数据 设计它的目的主要是用来暂存指令和地址 并非存储大量用户数据的 内存的大小虽然比寄存器大 但是
  • Java 封装、继承、多态的理解

    更好的阅读体验 Java 封装 继承 多态的理解 1 封装 封装 就是隐藏对象的属性和实现细节 仅对外提供公共访问方式 让使用者知道的才暴露出来 不需要让使用者知道的全部隐藏起来 封装的好处 避免使用者直接操作属性值 隐藏类的实现细节 让使
  • python函数可变参数问题

    函数参数 必选参数 默认参数 可选参数 关键字参数 1 有默认参数和可变参数 argment def test a b 0 c print a b c test 1 2 运行结果 1 2 由此可以看出参数是按顺序传递的 不管参数是不是有默认
  • wiredtiger java_Mongodb WT_ERROR:非特定的WiredTiger错误,

    我试过这个命令 mongod repair dbpath storageEngine wiredTiger并收到同样的错误 Mongo版本v3 4 9 当我尝试启动指向现在损坏的数据库的mongo时出现错误 E STORAGE initan
  • 科技云报道:5G还未普及,6G已经来了?

    科技云报道原创 2021年 相信大部分人仍在用着4G网络 甚至都没明白什么是5G 就开始听到6G的消息了 近日 国家知识产权局知识产权发展研究中心发布了 6G通信技术专利发展状况报告 对6G关键技术的专利发展情况进行深度解读 报告显示 当前
  • mysql状态下,命令行清空指令

    mysql状态下 命令行清空指令
  • attention机制_【CV中的Attention机制】SelectiveKernelNetworksSE进化版

    前言 SKNet是SENet的加强版 是attention机制中的与SE同等地位的一个模块 可以方便地添加到现有的网络模型中 对分类问题 分割问题有一定的提升 作者 pprp 编辑 BBuf 1 SKNet SKNet是SENet的加强版
  • QT中QLoggingCategory类的作用

    使用前须知 include category 美 k t ri 种类 类别 使用举例 QLoggingCategory setFilterRules QStringLiteral qt modbus true 作用总结 控制打印输出类别和区
  • html5 first child,childfirst

    在html里 firstchild 有什么作用 表示对第一个字对象的引用 如 DIV的子对象 alert document getElementById abc firstChild tagname 返回SPAN alert documen
  • vcruntime140_1.dll丢失的详细解决办法

    今天准备打开CAD跟ps时候 当打开我自己的ps软件后 弹出了一个对话框 内容是 由于找不到vcruntime140 1 dll 无法继续执行代码 重新安装程序可能会解决此问题 我很纳闷 前几天还好好着呢 于是我上网上查了一下 成功解决了问
  • signature=0e936ad5c99bd8d603e71fa74e787bee,JavaScript 的 BASE64 算法 实现 完美解决中文乱码...

    收藏的Base64编码 解码 在一个外国网站看到的 不过对中文不支持 自己加入了escape 对中文也支持了 先用escape 对中文进行编码 然后再进行base64编码 解码时 再加入 对中文进行解码 p gt W3C DTD HTML
  • URL 链接中 #、?、连接符& 分别有什么作用?

    在一个 URL 中可以包含很多的内容 其中不仅仅是包含 26 个英文字母 10 个罗马数字 中文汉字 还可以拥有井号 问号 连接符 等三种最常见的符号 那么这些符号在网站中都有哪些作用呢 文章目录 一 井号 二 问号 三 连接 一 井号 井
  • Qt:十六进制字符串和十六进制互转

    Qt 十六进制字符串和十六进制互转 前言 一 字符串转换十六进制 1 封装函数 2 函数调用示例 二 16进制转换字符串 前言 网上查了不少方式 踩了不少坑 最终这个方式是我目前使用感觉较好的一种 具体出处已经没印象了 这里放出完整代码供大
  • Spring(二)IOC容器的初始化流程

    文章目录 一 Spring 核心容器类 1 1 BeanFactory 1 2 ApplicationContext 1 3 BeanDefinition 二 IOC容器的初始化 2 1 基于Xml的IOC容器的初始化 2 1 1 寻找入口
  • 15个顶级Java多线程面试题及答案

    1 现在有T1 T2 T3三个线程 你怎样保证T2在T1执行完后执行 T3在T2执行完后执行 这个线程问题通常会在第一轮或电话面试阶段被问到 目的是检测你对 join 方法是否熟悉 这个多线程问题比较简单 可以用join方法实现 2 在Ja
  • LLM在放射科学中应用潜力

    本论文在全球范围内评估了 31 个大型语言模型 LLM 在解读放射科报告并从放射学发现中推导出诊断信息 impression 任务上的表现 这是目前已知的对全球 LLM 用于放射科学自然语言处理 NLP 进行的最全面评估之一 该研究通过在这