从ChatGPT到ChatCAD:基于大型语言模型的医学图像交互式计算机辅助诊断

2023-11-02

1. 导读

2023年年初最火热的话题之一就是OpenAI的ChatGPT1,给人类带来了巨大的冲击。1月底,美国《财富》杂志2/3月合刊的封面文章《全球爆红的ChatGPT是如何诞生的?》引爆了创投圈。在这巨大的浪潮冲击下,如何让其在医疗领域发挥其强大的作用呢?沈定刚教授团队给出了初步的答案。在本文中,作者提出了一种将大型语言模型(LLMs)集成到医学影像计算机辅助诊断网络中的初步方法。

2. 背景动机

2.1 计算机辅助诊断(CAD)

传统的计算机辅助诊断网络模型是基于各种计算机视觉的先进算法在大量数据上进行训练,使他们能够学习识别特定于医学领域的视觉信息中的复杂模式和关系,在医学领域的各个任务中已取得了显著性地效果。

2.2 大型语言模型(LLMs)

大型语言模型(如ChatGPT)是经过大量文本数据训练的高级人工智能系统,在自然语言处理方面取得了显著成果,并有可能彻底改变各个行业。ChatGPT已经成功通过了部分美国医疗执照考试,展示了其在增加医疗专业人员提供护理方面的潜力。然而LLMs目前难以从医学影像中解释和提取信息,从而限制了他们全面支持临床决策过程的能力。但医学影像在临床决策中发挥着巨大的作用,如何整合 LLM 以理解计算机视觉任务中的视觉信息是一个有趣的问题。

2.3 视觉语言模型

一种流行的将视觉信息转换为语言的方法是通过图像描述。通过训练大量的数据,基于深度学习的图像描述模型可以生成连贯的描述。

在医学图像分析中,研究人员使用异质图、知识图谱和自监督算法等方法对图像进行描述来生成影像报告。

近年来,随着模型规模的增大,该领域的进展已转向视觉语言预训练和利用预训练模型,如:CLIP2、Frozen3和Flamingo4等。

3. 研究目的

本文目标是将 LLM 的医学领域知识和逻辑推理的优势与现有医学图像 CAD 模型的视觉理解能力相结合,为患者创建一个比传统 CAD 系统更加用户友好和易于理解的系统。这样患者就可以更好地理解病情,减少患者的咨询开销,增强在线医疗服务的可行性。

图2:使用LLMS的交互式CAD。本例使用ChatGPT作为LLM。例如,基于图像和生成的报告,患者可以询问适当的治疗方案(第二个面板)或定义医学术语,如"空域整合" (第三个面板)。或者以患者的主诉(第四小组),LLMs可以解释为什么会出现这样的症状。

4. 模型构建

图1:模型策略总览。

4.1 图像和文本的连接

为了将医学影像转为文本内容输入到LLM中,作者采用了以下策略:

1. 将影像输入到训练好的CAD模型中产生输出。

2. 将该输出转为自然语言。

3. 使用语言模型总结结果并作出最总的总结。

4. 基于以上结果和语言模型(基于医学知识预训练),参与关于症状、诊断和治疗的谈话。

以图3为例:

图3:提示张量和文本之间的桥梁。我们展示了三种不同的提示设计。

1. CAD模型的分类输出为一个含有5个概率值的向量。(即判别为五种类别的可能性)。

2. 将上述结果转为一个用以用于LLM的提示性语句。一种自然的提示方式是显示所有五种病理及其相应的分数。

① 为了避免一些误解,规定“疾病得分越高,患病的可能性就越大”作为基本规则。

② 将每种疾病的分数表示为“{疾病}分数:{分数}”(Prompt#1)。但这种表示不符合临床报告需求。

③ 为了和临床报告形式一致,作者又将概率分数转为定性描述疾病的严重程度。“没有迹象”[0.0-0.2],“可能性很小”[0.2-0.5],“可能”[0.5-0.9],“肯定”[0.9 及以上)。(Prompt#2)

④ 为了使报告更简洁,报告诊断分数高于 0.5 的疾病。(Prompt#3)

如果没有预测在这五种类别中,则显示“未发现”。

4.2 数据集和实验设定

模型:

● CvT2DistilGPT25

● R2GenCMN6

● 本文提出的模型(基于GPT-3)

● 本文提出的模型(基于ChatGPT)

数据:

● 用于报告生成的数据:MIMIC-CXR7

● 用于疾病分类器训练的数据:CheXpert8

5. 实验结果

5.1 报告生成

5.1.1 改进后的报告的质量

表1:模型诊断正确率对比。

图5:四种模型在五次观测上的F1分数。

5.1.2 LLMs是如何影响报告质量

语言模型的诊断能力与其大小成正比,这突显了LLMS的逻辑推理能力的关键作用。

表2:比较不同大小的GPT-3模型的性能。参数大的模型更好些。

越有效的模型会产生更长的报告。

图6:不同模型生成报告的长度。

5.2 交互的、可理解的CAD

ChatCAD能够利用LLM广泛而可靠的医学知识来提供交互式的解释和建议。通过这种方法,患者可以更清楚地了解自己的症状、诊断和治疗方案,从而更高效、更具成本效益地咨询医疗专家。

随着语言模型的不断进步,随着对更可信的医疗培训数据的访问,ChatCAD变得更加准确,ChatCAD有潜力显著提高在线医疗服务的质量。

图7:两个ChatCAD案例。一个讨论胸腔积液,另一篇讨论水肿及其与肿胀的关系。

图8:基于ChatGPT的模型生成的报告。

6. 局限不足

目前这个方向是个比较新的领域,还是有很多工作需要去完善:

● LLM生成的报告在某种程度上不像人类。ChatCAD 提高了诊断准确性,但降低了 BLEU 分数9

● ChatCAD只给出了三种prompts,还需要继续完善。

● ChatCAD中不包含患者的主诉信息,因为没有相应的数据库。需要更好的数据集和基准。

● 视觉分类器的作用尚未得到探索,需要进行额外的研究以确定具有更大参数的ViT或 SwinTransformer等模型是否可以提供改进的结果。

● LLMs也可以用来帮助视觉模型的训练,比如利用在LLMs中学到的相关医学知识来修正视觉模型的输出。

● 对prompt设计只是进行定性分析,应该进行更准确的定量评估。

● ChatCAD的内容没有和临床医生进行专业的讨论,需要进一步完善。

7. 一些想法

● 虽然本文不那么完善(毕竟只是preprint,说不定作者已经在改进的路上了),但作者团队相当于挖了一个坑给大家,大家快冲!。(大佬们的动作真的快啊!)

● 基于现有的通用人工智能ChatGPT,给其输入医学知识学习构建ChatMedicine是一个很有意思的研究。(毕竟人工智能和人最大的区别是:你给他知识他是真的学啊!)

▎脚注列表

[1] 关于ChatGPT的解读互联网很多,推荐两个:https://zhuanlan.zhihu.com/p/597586623https://mp.weixin.qq.com/s/IF43iCk4v3qwIBjMdljtJA

[2] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In International Conference on Machine Learning, pages 8748–8763. PMLR, 2021.

[3] Maria Tsimpoukelli, Jacob L Menick, Serkan Cabi, SM Eslami, Oriol Vinyals, and Felix Hill. Multimodal few-shot learning with frozen language models. Advances in Neural Information Processing Systems, 34:200–212, 2021.

[4] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katie Millican, Malcolm Reynolds, et al. Flamingo: a visual language model for few-shot learning. arXiv preprint arXiv:2204.14198, 2022.

[5] Aaron Nicolson, Jason Dowling, and Bevan Koopman. Improving chest x-ray report generation by leveraging warmstarting. arXiv preprint arXiv:2201.09405, 2022.

[6] Zhihong Chen, Yaling Shen, Yan Song, and Xiang Wan. Generating radiology reports via memory-driven transformer. In Proceedings of the Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing, Aug. 2021.

[7] Alistair EW Johnson, Tom J Pollard, Seth J Berkowitz, Nathaniel R Greenbaum, Matthew P Lungren, Chih-ying Deng, Roger G Mark, and Steven Horng. Mimic-cxr, a deidentified publicly available database of chest radiographs with free-text reports. Scientific data, 6(1):317, 2019.

[8] Jeremy Irvin, Pranav Rajpurkar, Michael Ko, Yifan Yu, Silviana Ciurea-Ilcus, Chris Chute, Henrik Marklund, Behzad Haghgoo, Robyn Ball, Katie Shpanskaya, et al. Chexpert: A large chest radiograph dataset with uncertainty labels and expert comparison. In Proceedings of the AAAI conference on artificial intelligence, volume 33, pages 590–597, 2019.

[9] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. Bleu: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting of the Association for Computational Linguistics, pages 311–318, 2002.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

从ChatGPT到ChatCAD:基于大型语言模型的医学图像交互式计算机辅助诊断 的相关文章

  • Jenkins流水线怎么做?

    问CHAT Jenkins流水线怎么做 CHAT回复 Jenkins流水线是一种创建 测试和部署应用程序的方法 以下是为Jenkins创建流水线的步骤 1 安装Jenkins 首先你需要在你的服务器上安装Jenkins 这个过程可能会根据你
  • 用CHAT如何写大学生会计综合模拟实训报告

    CHAT回复 标题 大学生会计综合模拟实训报告 一 前言 随着信息化时代的发展 现代会计工作不再只依赖手动运算和记录 而是更加倚重电脑软件系统的配合运用 因此 对我们大学生来说 把握会计理论知识的同时 积极掌握相关的实践应用技能变得非常重要
  • 用通俗易懂的方式讲解:图解 Transformer 架构

    文章目录 用通俗易懂方式讲解系列 1 导语 2 正文开始 现在我们开始 编码 从宏观视角看自注意力机制 从微观视角看自注意力机制 通过矩阵运算实现自注意力机制
  • 用通俗易懂的方式讲解:如何用大语言模型构建一个知识问答系统

    传统搜索系统基于关键字匹配 在面向 游戏攻略 技术图谱 知识库等业务场景时 缺少对用户问题理解和答案二次处理能力 本文探索使用大语言模型 Large Language Model LLM 通过其对自然语言理解和生成的能力 揣摩用户意图 并对
  • 【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
  • 【路径规划】基于A*算法路径规划研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
  • 【卡尔曼滤波】粗略模型和过滤技术在模型不确定情况下的应用研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文献
  • 用CHAT写一份标题为职业教育教师教学能力提升培训总结

    CHAT回复 标题 职业教育教师教学能力提升培训总结 一 活动概述 本次由学校组织的职业教育教师教学能力提升培训于8月15日至8月20日顺利进行 来自全校的60位职业教育教师参与了此次培训 主讲人为享有盛名的教育专家马丁先生 二 培训内容与
  • 利用CHAT写实验结论

    问CHAT 通过观察放置在玻璃表面上的单个水滴 人们可以观察到水滴充当成像系统 探究这样一个透镜的放大倍数和分辨率 CHAT回复 实验报告标题 利用玻璃表面的单一水滴观察成像系统的放大倍数和分辨率 一 实验目的 通过对比和测量 研究和探索玻
  • 扬帆证券:三只松鼠去年扣非净利预增超1.4倍

    在 高端性价比 战略驱动下 三只松鼠 300783 重拾增势 1月15日晚间 三只松鼠发布成绩预告 预计2023年度净赢利为2亿元至2 2亿元 同比增加54 97 至70 47 扣非后净赢利为1亿元至1 1亿元 同比增速达146 9 至17
  • 打造完美人像,PixCake像素蛋糕助您一键修图

    您是否曾经为自己的人像照片需要进行繁琐的修图而感到困扰 是否曾经想要打造出完美的自拍照 却不知道该如何下手 现在 我们为您推荐一款强大的人像处理技术修图软件 PixCake像素蛋糕 PixCake像素蛋糕是一款基于AI人像处理技术的修图软件
  • 基于opencv的大米计数统计(详细处理流程+代码)

    在我每周的标准作业清单中 有一项是编写计算机视觉算法来计算该图像中米粒的数量 因此 当我的一个好朋友M给我发了一张纸上的扁豆照片 显然是受到上述转发的启发 请我帮他数一下谷物的数量时 它勾起了我怀旧的回忆 因此 我在我的旧硬盘上寻找很久以前
  • 毕业设计:基于卷积神经网络的验证码识别系统 机器视觉 人工智能

    目录 前言 设计思路 一 课题背景与意义 二 算法理论原理 2 1 字符分割算法 2 2 深度学习 三 检测的实现 3 1 数据集 3 2 实验环境搭建 3 3 实验及结果分析 最后 前言 大四是整个大学期间最忙碌的时光 一边要忙着备考或实
  • 机器学习算法实战案例:时间序列数据最全的预处理方法总结

    文章目录 1 缺失值处理 1 1 统计缺失值 1 2 删除缺失值 1 3 指定值填充 1 4 均值 中位数 众数填充
  • AI帮助终结全球饥饿问题

    全球饥饿问题是牵动人心的头等大事 5月28日是 世界饥饿日 这一问题更值得关注 让人人都能吃饱的想法不仅令人向往 而且很快就会变成现实 与大多数新事物引进一样 对于在控制世界粮食供应这样复杂的任务中AI究竟应该发挥多大的作用 人们还踟蹰不前
  • 主流进销存系统有哪些?企业该如何选择进销存系统?

    主流进销存系统有哪些 企业该如何选择进销存系统 永久免费 的软件 这个可能还真不太可能有 而且就算有 也只能说是相对免费 因为要么就是数据存量有限 要么就是功能有限 数据 信息都不保障 并且功能不完全 免费 免费软件 免费进销存 诸如此类
  • 史上最全自动驾驶岗位介绍

    作者 自动驾驶转型者 编辑 汽车人 原文链接 https zhuanlan zhihu com p 353480028 点击下方 卡片 关注 自动驾驶之心 公众号 ADAS巨卷干货 即可获取 点击进入 自动驾驶之心 求职交流 技术交流群 本
  • 深度学习(5)--Keras实战

    一 Keras基础概念 Keras是深度学习中的一个神经网络框架 是一个高级神经网络API 用Python编写 可以在TensorFlow CNTK或Theano之上运行 Keras优点 1 允许简单快速的原型设计 用户友好性 模块化和可扩
  • 自动驾驶离不开的仿真!Carla-Autoware联合仿真全栈教程

    随着自动驾驶技术的不断发展 研发技术人员开始面对一系列复杂挑战 特别是在确保系统安全性 处理复杂交通场景以及优化算法性能等方面 这些挑战中 尤其突出的是所谓的 长尾问题 即那些在实际道路测试中难以遇到的罕见或异常驾驶情况 这些问题暴露了实车
  • 两个月进口猛增10倍,买近百台光刻机,难怪ASML不舍中国市场

    据统计数据显示 2023年11月和12月 中国从荷兰进口的光刻机设备同比猛增10倍 进口金额超过19亿美元 让ASML赚得盆满钵满 ASML早前表示中国客户在2023年订购的光刻机全数交付 2023年11月中国进口的光刻机达到42台 进口金

随机推荐

  • (休息几天)读米什金之货币银行学——货币与汇率

    1货币 当一国货币升值时 相对于其他货币价值上升 则该国商品在国外变得更贵 而外国商品唉本国则变得更便宜 相反 一国货币贬值 则该国商品在国外更便宜 而外国商品在本国则变得更贵 货币升值使得本国制造的商品在国外竞争力下降 而国外商品在本国竞
  • Koa2.js router 异步返回ctx.body失效的问题

    koa2 js 用router返回数据时 正常写法如下 我是将接口封装了 一个很普通的koa2 js get请求 router put getUserInfo ctx next gt const data ctx request body
  • PHP自己的框架2.0版本目录结构和命名空间自动加载类(重构篇一)

    目录 1 目录结构演示效果 2 搭建目录结构 以及入口public gt index php 3 引入core下面core gt base php 4 自动加载实现core gt fm gt autoload php 5 框架运行文件cor
  • Basic Level 1012 数字分类 (20分)

    题目 给定一系列正整数 请按要求对数字进行分类 并输出以下 5 个数字 A 1 A 1 A1 能被 5 整除的数字中所有偶数的和 A 2
  • matlab 取余(rem)和取模(mod)的区别

    取余 rem 和取模 mod 的区别 Matlab 生成机制 取余 采取fix 函数 向0方向取整 取模 采取floor 函数 向无穷小方向取整 当A B异号时 其实同号也是这个规律 取余 结果和A同号 取模 结果和B同号 PS 在js c
  • ASP .net core 整合 nacos 通过Spring Cloud Gateway 网关访问

    ASP net core 整合 nacos 通过Spring Cloud Gateway 网关访问 使用vs创建web项目 选择api 注意这里要取消掉Https配置否则使用网关转发也需要配置为https请求这里我们直接取消 添加nacos
  • WebRTC实现多人视频聊天

    写在前面 实现房间内人员的视频聊天 由于并未很完善 所以需要严格按照步骤来 当然基于此完善 就是时间的问题了 架构 整个设计架构如下 图片来自于参考博文 我使用的是第一种Mesh 架构 无需任何流媒体服务器 直接利用成熟的WebRTC 协议
  • windows10进程查询命令、端口占用查询命令、杀进程命令

    windows环境下编码开发经常遇到端口占用问题 解决时需要找到对应进程杀掉 释放占用 自己常用的几项操作命令如下 首先 打开Windows的命令窗口 键盘 win R 输入cmd 回车 1 查询端口被占用的进程 命令 netstat ao
  • 马虎的算式 有一次,老师出的题目是:36 x 495 = ?他却给抄成了:396 x 45 = ? 但结果却很戏剧性,他的答案竟然是对的!!

    马虎的算式 小明是个急性子 上小学的时候经常把老师写在黑板上的题目抄错了 有一次 老师出的题目是 36 x 495 他却给抄成了 396 x 45 但结果却很戏剧性 他的答案竟然是对的 因为 36 495 396 45 17820 类似这样
  • 信息传递【NOIP2015】【强连通分量 Tarjan】

    题目链接 题目描述 有 n 个同学 编号为 1 到 n 正在玩一个信息传递的游戏 在游戏里每人都有一个固定的信息传递对象 其中 编号为 i 的同学的信息传递对象是编号为Ti的同学 游戏开始时 每人都只知道自己的生日 之后每一轮中 所有人会同
  • python链家新房信息获取练习

    使用python对链家新房相关数据进行爬取 并进行持久化存储 文章目录 前言 一 页面分析 二 代码编写 1 数据库表的建立 2 代码编写 结果 前言 保持练习 以下是本篇文章正文内容 下面案例可供参考 一 页面分析 老样子进行页面分析 u
  • 解决在win10下DNS_PROBE_FINISHED_BAD_CONFIG问题

    解决在win10下DNS PROBE FINISHED BAD CONFIG问题 打开控制面板 进入 网络和 Internet 进入 网络和共享中心 进入 更改适配器设置 选择当前使用的网络链接适配器 点击 属性 选择 Internet协议
  • C++:带内嵌对象成员的派生类的构造函数,析构函数的声明方式与执行的先后顺序

    声明了某个带内嵌对象成员的派生类的对象并进行初始化时 我们要使用到派生类的构造函数 在这时 派生类的构造函数会调用内嵌对象 父类 基类 的构造函数 那么 这些构造函数的执行顺序是什么呢 我们知道 被继承的类可以被叫做父类或基类 因此它作为构
  • 黑马Python教程实战项目--美多商城(五)

    一 用户基本信息 首先需要为用户模型类 也就是用户数据表 补充一个邮箱验证状态字段 用来记录用户的邮箱是否验证成功 然后新建用户中心视图类 继承LoginRequiredMixin和View类 在子路由中添加路由 定义get方法 在requ
  • 虚拟机非正常关机,重启网卡

    在命令行运行以下命令即可重新连接上网络 sudo service network manager stop sudo rm var lib NetworkManager NetworkManager state sudo service n
  • Google云

    Google 云计算 Cloud Computing 是个新概念 但也不过是分布式处理 Distributed Computing 并行处理 Parallel Computing 和网格计算 Grid Computing 的发展 也许是一个
  • 余弦计算相似度度量

    目录 pytorch 余弦相似度 余弦计算相似度度量 pytorch 余弦相似度 余弦相似度1到 1之间 1代表正相关 0代表不相关 1代表负相关 def l2 norm input axis 1 norm torch norm input
  • [改善Java代码]适当设置阻塞队列长度

    阻塞队列BlockingQueue扩展了Queue Collection接口 对元素的插入和提取使用了 阻塞 处理 我们知道Collection下的实现类一般都采用了长度自行管理方式 也就是变长
  • adamax参数_5 Optimizer-庖丁解牛之pytorch

    优化器是机器学习的很重要部分 但是在很多机器学习和深度学习的应用中 我们发现用的最多的优化器是 Adam 为什么呢 pytorch有多少优化器 我什么时候使用其他优化器 本文将详细讲述 在torch optim 包中有如下优化器torch
  • 从ChatGPT到ChatCAD:基于大型语言模型的医学图像交互式计算机辅助诊断

    1 导读 2023年年初最火热的话题之一就是OpenAI的ChatGPT1 给人类带来了巨大的冲击 1月底 美国 财富 杂志2 3月合刊的封面文章 全球爆红的ChatGPT是如何诞生的 引爆了创投圈 在这巨大的浪潮冲击下 如何让其在医疗领域