2月11日,国际顶级医学科研期刊《Nature Medicine》在线发布了题为"Evaluation and accurate diagnoses of pediatric diseases using artificial intelligence"(《使用人工智能评估和准确诊断儿科疾病》)的文章。该文章由广州市妇女儿童医疗中心与依图医疗等企业和科研机构共同完成,基于机器学习的自然语言处理(NLP)技术实现不输人类医生的强大诊断能力,并具备多场景的应用能力。这是全球首次在顶级医学杂志发表有关自然语言处理(NLP)技术基于电子健康记录(EHR)做临床智能诊断的研究成果,也是利用人工智能技术诊断儿科疾病的重磅科研成果。
业界公认,人工智能是医疗行业革新的核心动力。然而,尽管机器学习在影像诊断方面表现强势,但在数量巨大、多样的电子病历数据分析方面,仍面临巨大挑战。电子病历的数据信息之广、数据类型之多,以及某些方面的数据贫乏及可能出现的特殊案例等,都导致机器学习难以进行精确的数据分析,并进而形成预测临床检测的数据模型。
人工智能系统诊断儿科疾病流程图
依图提出并测试了一个专门对电子医学病例进行数据挖掘的系统框架,将医学知识和数据驱动模型结合在一起。该模型先通过NLP对电子病例进行标注,利用逻辑回归来建立层次诊断,在常见儿童疾病方面的综合诊断准确率优于相对低年资儿科医生(3年+8年临床经验)。
从数据来看,以呼吸系统疾病为例,对上呼吸道疾病和下呼吸道疾病的诊断准确率分别为89%和87%,而在上呼吸道疾病诊断中,急性喉炎和鼻窦炎的准确率分别高达86%和96%,对不同类型哮喘的诊断准确率从83%到97%。同时对普通系统性疾病以及危险程度更高的疾病也有很高的诊断准确率,例如传染性单核细胞增多症(90%)、水痘(93%)、玫瑰疹(93%)、流感(94%)、手足口病(97%)和细菌性脑膜炎(93%)。也就是说,该系统可以根据NLP系统注释的临床数据信息对儿科疾病做出准确的判断。
人工智能系统和医疗团队在儿科疾病诊断水平的比较
"此次成果的核心技术部分,实际上是通过深度学习技术与医学知识图谱,对EHR数据进行解构,从而构建了高质量的智能病种库。使得后续可以较容易地利用智能病种库建立各种诊断模型。而诊断模型证明了基于AI的系统可以帮助医生处理大型数据和辅助诊断,同时在诊断的不确定性和复杂性上给予临床支持",依图医疗总裁倪浩表示,"儿科疾病症状多种多样,临床医生同样难以区分,诊断流程费时费力,但明确诊断非常重要。拥有可与经验丰富的儿科医生相媲美的助手进行辅助诊断,能够让医生有效地降低诊断时间,显著优化诊断流程。"
依图与广州市妇女儿童医疗中心进行合作,收集了该中心在2016年1月至2017年7月间的567,498个门诊病人的1,362,559次问诊电子病历,抽取到覆盖初始诊断包括儿科55种病例学中常见疾病的1.016亿个数据点,并将这些信息用于训练和验证系统框架。相比以往模型,此次研究使用了超过140万的庞大数据,以完善诊断系统,此外,此次研究中使用数据在表达和描述上的一致性,极大的提高了数据质量。
不仅如此,此次研究还基于NLP实现了病历的重新格式化。首先,有超过25年临床实践经验的资深主治医师手动注释了6,183个图表,然后用3,564张人工标注的图表对NLP信息提取模型进行训练,并用剩下的2,619张图表对模型进行验证。该NLP模型总结了代表临床数据的关键概念类别,利用深度学习技术自动将EHR注释到标准化词汇和临床特征中,从而允许对诊断分类进行进一步处理。
广州市妇女儿童医疗中心夏慧敏教授表示,"这篇文章的启示意义在于,通过系统学习文本病历,人工智能或将可以诊断更多疾病。但须要清醒认识到,我们仍有很多基础性工作要做扎实,比如高质量数据的集成便是一个长期的过程,因为大数据的收集和分析需要算法工程师、临床医生、流行病学专家等在内的多专家的通力合作。此外,人工智能学习了海量数据后,其诊断结果的准确性仍然需要更大范围的数据对其进行验证和比对。"
此次研究得到Nature Medicine杂志的高度认可,其原因还在于其具备极强的多场景应用能力。例如在分诊环节,通过记录基础数据让模型产生预测诊疗结果,并通过这个结果评估病人的优先级,以确保医生可以按需就诊。此外,基于AI的诊断模型还可以帮助医生诊断复杂或罕见病症,提示可能情况,避免由于医生受限于自身专业或经验,在复杂病症出现时出现误诊。此外,基于 EHR 构建的高质量智能病种库,还可打破原有信息化系统的界限,便于更多的科研项目和业务领域高效地使用,优化临床数据的获取链路,以及打造更具价值的诊断系统,大大提升临床诊疗的效率。可以预见的是,这个模型不仅能在医疗资源短缺或不均的地区发挥巨大作用,也将为全世界带来重要的普适进步意义。
毫无疑问的是,在大数据时代,医疗信息正变得越来越复杂。近年来,疾病实体、诊断测试和生物标志物以及治疗方式的范围呈指数级增长,临床决策也变得更加复杂,需要大量数据点的综合。在当前的数字时代,EHR代表了大量的电子数据点存储库,这些数据点代表了各种各样的临床信息。人工智能方法已经成为挖掘EHR数据的潜在强大工具,以帮助疾病诊断和管理,模仿甚至可能增强人类医生的临床决策。
作为Nature杂志专注于生物医学领域的专业子刊,Nature Medicine注重基础研究和涵盖医学各方面的早期临床研究,高度关注人工智能技术对医疗行业带来的巨大革新作用。在2019年1月刊中,Nature Medicine曾发表9篇论文聚焦AI医疗,此次文章,在说明这一研究的学术领先性与应用拓展性的同时,也标志着人工智能在医疗行业的深度落地,及驱动医疗行业深层革新的巨大作用。