随着数字医疗领域不断发展,AI医生,尤其是像MedGPT这样的技术,正逐渐成为医疗行业的焦点。但是,我们需要深入探讨,这些AI医生是否真正代表了医疗领域的巨大进步,还是只是一种被炒作的噱头?
AI医生并非简单地帮助写病历或辅助查看报告,它也不只是手术导航定位或智能导诊的工具。它的真正价值或许在于能够真正地看病。近期,中国的医疗科技公司已开始自主研发基于Transformer架构的医疗大语言模型,并将其应用于现实医疗场景中,这就是“MedGPT”。而其首次的实际验证,是通过一场规模达上百人的真实世界试验而实现的。
这场试验于6月30日在成都举行,试验参与者包括120多名真实患者,以及10位来自四川大学华西医院的主治医师,还有7位来自全国各地三甲医院的专家充当陪审。毫无疑问,对于能否使用大型模型来进行医疗诊断,最有权威的发言者是专业医生。
最终,试验结果显示,在评价上,“AI医生”与三甲医院主治医生的一致性达到了96%。这表明MedGPT在医学诊断方面的表现颇为可观。
截至8月10日,MedGPT的研发企业医联Medlinker还公布了该产品的最新进展。据介绍,医联MedGPT已完成1052例医生临床测试,不断积累数据来验证其临床有效性,并持续确保医疗安全性。
围绕这款引人瞩目的“AI医生”产品以及其实际效果,有几个核心问题值得讨论:
1. MedGPT是否可靠?如何评价它的可靠性?
2. MedGPT可以在哪些环节提升就医体验、诊疗效率和质量?
3. 随着MedGPT的成熟和普及,能否解决医疗资源不平衡、就医困难等医疗难题?
一、MedGPT看病,可靠吗?
在评价MedGPT的可靠性时,关键在于医患之间存在的信息鸿沟。在此试验中,120位真实患者使用“AI医生”进行问诊,实习医生协助将信息传达给10位四川大学华西医院的医生,双方独立进行判断。评估过程中,将问诊、诊断、治疗建议、辅助检查方案、分析检查结果、提供解释等六个环节分为不同部分,来自多家三甲医院的七位主任专家按统一标准分别对AI和真人医生进行评分。最终,真人医生的综合得分为7.5,而AI医生得分为7.2,二者的一致性达到96%。评测涵盖了多个病种,例如消化科、心内科、老年呼吸科、骨科等。
实际上,在评分过程中,有位专家甚至给予AI医生高于真人医生的分数。这是因为在专业水平相近的情况下,MedGPT更为细致,能够避免误诊和漏诊,并且表现出更大的人文关怀。
医联MedGPT在研发过程中投入了大量资源。其参数规模达到了100B,预训练阶段使用了超过20亿条医学文本数据,微调阶段则使用了800万条高质量的结构化临床诊疗数据,并有1000名医生参与人工反馈监督微调训练。短短40天内,MedGPT的患者测试案例增加了十倍。这一投入程度显示了医联对产品的承诺。
二、大型语言模型在在医疗领域的应用
虽然已经有一些应用了AI技术的医疗产品存在,但它们通常聚焦于诊疗流程的特定环节,如电子病历、医学影像辅助诊断等。然而,大型语言模型的突破意味着AI技术在医疗领域有可能参与或跟踪整个诊疗流程。除了一些必须在实体医院进行的环节外,如手术和取药,其他步骤如咨询、诊断、辅助检查、治疗建议等都可以通过对话来完成。
对于患者来说,MedGPT的角色类似于一个能够识别和诊断常见疾病的“AI家庭医生”。患者可以随时进行咨询,并通过上传检查结果等方式与AI医生互动,从而得到准确的诊断和治疗建议。
对于医生而言,MedGPT可以成为“AI助理医师”,帮助高年资医生完成基础工作,也可以充当“AI医生导师”,帮助低年资医生学习和成长,甚至是“学术推广AI医生”,帮助一线医生获取前沿治疗指南和专家共识。
从整个医疗医药行业的角度来看,大型AI技术可能成为引领发展的全新引擎。MedGPT的研发公司医联已在医疗领域耕耘了近十年。他们呼吁AI科技、医学、院校机构等各类合作伙伴共同参与医疗应用场景的开发。
虽然MedGPT的出现让人感到振奋,但也仍需面对一些优化问题。例如,是否存在过度诊疗的问题,以及是否能突破医生的认知边界。
总之,AI医生的出现可能会给医疗领域带来巨大的变革。然而,在享受便捷医疗服务的同时,我们也需要保持审慎态度,确保其可靠性和安全性。只有在不断优化和监管的基础上,AI医生才能真正成为医疗进步的推动者,而非噱头。