报告题目:Towards Conversational Diagnostic AI (Google 2024)
作者:
Tao Tu*,1, Anil Palepu *,1, Mike Schaekermann *,1,
Khaled Saab1, Jan Freyberg1, Ryutaro Tanno2, Amy Wang1, Brenna Li1, Mohamed Amin1,
Nenad Tomasev2, Shekoofeh Azizi2, Karan Singhal1, Yong Cheng2, Le Hou1, Albert Webson2,
Kavita Kulkarni1, S. Sara Mahdavi2, Christopher Semturs1,
Juraj Gottweis1, Joelle Barral2, Katherine Chou1, Greg S. Corrado1, Yossi Matias1,
Alan Karthikesalingam†,1 and Vivek Natarajan †,1
单位:1Google Research, 2Google DeepMind
报告人:刘淑钰
报告时间:2024.4.22
报告地点:博学楼621
报告内容摘要:
医学的核心是医患对话,精良的历史对话记录为准确的诊断,有效的管理,和持久的信任铺平了道路 。能够进行诊断对话的人工智能(AI)系统可以提高护理的可及性、一致性和质量。然而,接近临床医生的专业知识是一个突出的重大挑战。在这里,我们介绍了AMIE(清晰度医学智能探索器),一个基于大型语言模型(LLM)的,用于优化的诊断对话(问诊过程)的人工智能系统。AMIE使用了一种新的基于自博弈(self-play)的模拟环境,具有自动反馈机制,用于扩展不同疾病条件、专业和上下文中的学习。我们设计了一个框架来评估有临床意义的表现轴,包括历史记录、诊断准确性、管理推理、沟通技能和同理心。我们在一项随机、双盲交叉研究中,采用客观结构化临床检查(OSCE)风格的有患者演员进行衡量,比较了AMIE的表现与初级保健医生(pcp)的表现。该研究包括了来自加拿大、英国和印度的临床提供者的149个案例场景,20个与AMIE进行比较的pcp,以及由专科医生和患者行为者进行的评估。AMIE在专科医生评估的32个轴中的28个上和患者演员评估的26个轴中的24个上表现出更高的诊断准确性和优越的表现。【在专科医生(32人中28人)和患者参与者(26人中24人)对应的多个轴上,AMIE被评为优于pcp,而在其他方面并不低于pcp。】我们的研究有几个局限性,应该适当谨慎地解释。临床医生仅限于不熟悉的同步文本聊天,这允许大规模的llm-患者互动,但不能代表通常的临床实践。虽然在将AMIE转化为现实世界之前还需要进一步的研究,但研究结果代表了会话诊断人工智能的一个里程碑。