麻省布里格姆医院:ChatGPT在临床决策中,准确率高达71.7%!

转载
312 天前
3589
AIGC开放社区

文章转载来源:AIGC开放社区

原文来源:AIGC开放社区

图片来源:由无界 AI生成

美国最大非营利医疗机构之一麻省布里格姆医院发布了,关于ChatGPT在临床医疗决策中应用的研究论文。

该医院表示,从提出诊断、推荐诊断检查到最终诊断以及护理管理决策,ChatGPT的准确率为71.7%,在整个临床决策中的表现令人感到惊讶。

特别是与初始诊断相比,ChatGPT 在最终诊断任务中表现出了最高的准确率76.9%

此外,ChatGPT在所有医学专业的初级保健和急诊环境中表现同样出色,可以充当医疗助手角色辅助主治医生增强决策、治疗和护理等医疗工作,在医疗领域的应用潜力巨大。

论文地址:https://www.jmir.org/2023/1/e48659/

评估方法

研究人员评估了ChatGPT 在解决医疗综合临床决策方面的准确性,比较了患者的年龄、性别和临床表现的敏锐度。

通过将临床工作流程的每一部分,作为对模型的连续提问,依次提出鉴别诊断、诊断测试、最终诊断和临床管理

数据来源和测试

测试数据选自《默克手册》,这世界上最古老和最广泛使用的医学参考书之一,涵盖了各种疾病和医疗状况的详细信息,包括症状、病因、诊断、治疗和预防等内容

例如,现病史 (HPI)、系统审查 (ROS)、体检(PE) 和实验室测试结果等,以模拟鉴别诊断、诊断检查和临床管理中的决策。

病例记录是通过将《默克手册》插图直接复制到 ChatGPT 中生成的。所有要求临床医生分析图像的问题都被排除在研究之外,因为ChatGPT 还无法准确识别医疗图片信息。

评分方法,ChatGPT每回答对一道题将获得1分,例如,每次 ChatGPT 的答案与提供的《默克手册》答案一致时都会获得一分。每一道题的最终分数计算为 3 次重复分数的平均值。

不同患者和年龄的表现

研究人员进行了多变量线性回归分析,以研究患者年龄和性别对ChatGPT 准确性的影响。年龄和性别的回归系数均不显着(年龄:P= .35;性别:P = .59;)。

这一结果表明,ChatGPT的表现在本研究中的各个年龄段,以及性别的二元定义中都是相同的。

测试结果

ChatGPT在所有36个临床测试题中的总体准确率达到71.7%;

在做出最终诊断方面表现出最高的表现,准确率为76.9% ;

在生成初级鉴别诊断方面表现最低,准确率为60.3%。

总体来说,ChatGPT在临床决策方面取得了令人印象深刻的准确性,并且随着它获得更多可用的临床信息将变得越来越强大。特别是,与初始诊断相比,ChatGPT在最终诊断任务中表现出最高的准确性。

在用药方面,ChatGPT可以提供正确用药但无法给出准确的剂量,这可能表明ChatGPT的训练数据偏向于语言准确性,而不是数字准确性。

如果想获得更准确的答案,可能需要对模型进行特定领域的数据训练和微调。

关于麻省布里格姆医院

麻省布里格姆医院由麻省总医院(Massachusetts General Hospital)和布莱根妇女医院(Brigham and Women's Hospital)于1994年合并而成。

麻省总医院,全名马萨诸塞州公共卫生和总医院,是美国最古老和最有声望的医疗机构之一,创立于1811年总部位于波士顿。麻省总医院是美国排名第一的研究型医院,同时也是哈佛医学院的主要教学医院。

在过去的200多年中,麻省总医院一直在医疗创新和研究领域处于领先地位。例如,1846年,进行了世界上第一次成功的全麻手术。此外,该医院在医学影像、心脏病学、神经科学和许多其他领域做出了重要贡献。