新华社北京2月10日电 美国执业医师资格考试以难度大著称,而美国研究人员发现,聊天机器人ChatGPT无需经过专门训练或加强学习就能通过或接近通过这一考试。对此,有人对人工智能在临床医学的应用充满期待,有人则开始反思美国医学教育及相关考试的不足。
参与这项研究的人主要来自美国医疗保健初创企业安西布尔健康公司(AnsibleHealth)。他们在美国《科学公共图书馆·数字健康》杂志9日刊载的论文中说,他们从美国执业医师资格考试官网2022年6月发布的376个考题中筛除基于图像的问题,让ChatGPT回答剩余350道题。这些题类型多样,既有要求考生依据已有信息给患者下诊断这样的开放式问题,也有诸如判断病因之类的选择题。两名评审人员负责阅卷打分。
结果显示,在三个考试部分,去除模糊不清的回答后,ChatGPT得分率在52.4%至75%之间,而得分率60%左右即可视为通过考试。值得注意的是,ChatGPT有88.9%的主观回答包括“至少一个重要的见解”,即见解较新颖、临床上有效果且并非人人能看出来。相比之下,专门针对生物医学领域文献训练出来的一款大型语言模型PubMedGPT在类似测试中得分率刚过50%。
研究人员说,“在这个出了名难考的专业考试中达到及格分数,且在没有任何人为强化(训练)的前提下做到这一点”,这是人工智能在临床医学应用方面“值得注意的一件大事”,显示“大型语言模型可能有辅助医学教育、甚至临床决策的潜力”。
实际上,在这篇论文初稿写作过程中,ChatGPT就做出了“较大贡献”,与研究人员关系如同事般,而安西布尔健康公司的临床医生们也已在使用ChatGPT改写一些术语繁多的报告,以便患者理解。
新西兰惠灵顿维多利亚大学软件工程高级讲师西蒙·麦卡勒姆对人工智能在医学领域的应用同样乐观。他告诉法新社记者,谷歌公司一款名为Med-PaLM的人工智能医疗助手“能够向患者提供和专业全科医生一样好的建议”。随着技术不断发展,“我们可能很快会从‘谷歌医生’或‘必应(微软旗下搜索引擎的名称)护士’那里得到医学方面建议”。
这是2021年1月22日,在美国加利福尼亚州蒙特贝洛市贝弗利医院,医护人员在“新冠病区”治疗病人。新华社发
不过,也有人持异议。《科学公共图书馆·数字健康》同日刊载的一篇文章题目是《ChatGPT通过美国执业医师资格考试让人们注意到医学教育的缺陷》。作者在文章中说,ChatGPT的成功,一方面反映医师考试过于强调机械记忆,对疾病机理死记硬背,“不能充分评估现代医疗实践所需技能”;另一方面反映医学教学方式僵化,易让学生误以为医学上的问题“非对即错”,而临床中“正确的”选择含义丰富,既需要医生摒弃偏见、发挥创造力、展开批判性思考,也需要考虑众多现实因素。
美国执业医师资格考试属于标准化考试,分为三部分。第一部分侧重于考察基础科学和药理学,考生通常是完成300至400小时专业学习的医学生;第二部分一般由四年级医学生参加,重点考察临床诊断推理能力、医疗管理水平和生物伦理方面内容;最后一部分考试对象是完成至少6至12个月研究生医学教育的实习医生。
ChatGPT意为“聊天生成预训练转换器”,是美国开放人工智能研究中心研发的大型语言模型,去年11月发布,由于能在数秒内按用户需求写出论文、诗歌或编程代码而引起轰动。美国科学促进会运营的全球科技新闻服务网站“尤里卡警报”说,与现有的多数聊天机器人不同,ChatGPT不能上网搜索,而是经由内部数据处理生成类似人类语言的文本。(王鑫方)