中新网2月12日电 2月11日,国际医学科研期刊《Nature Medicine》在线发布了题为“Evaluation and accurate diagnoses of pediatric diseases using artificial intelligence”(《使用人工智能评估和准确诊断儿科疾病》)的文章。该文章由广州市妇女儿童医疗中心与依图医疗等企业和科研机构共同完成,基于机器学习的自然语言处理(NLP)技术实现不输人类医生的强大诊断能力,并具备多场景的应用能力。
业界公认,人工智能是医疗行业革新的核心动力。然而,尽管机器学习在影像诊断方面表现强势,但在数量巨大、多样的电子病历数据分析方面,仍面临巨大挑战。电子病历的数据信息之广、数据类型之多,以及某些方面的数据贫乏及可能出现的特殊案例等,都导致机器学习难以进行精确的数据分析,并进而形成预测临床检测的数据模型。
依图提出并测试了一个专门对电子医学病例进行数据挖掘的系统框架,将医学知识和数据驱动模型结合在一起。
“此次成果的核心技术部分,实际上是通过深度学习技术与医学知识图谱,对EHR数据进行解构,从而构建了高质量的智能病种库。使得后续可以较容易地利用智能病种库建立各种诊断模型。而诊断模型证明了基于AI的系统可以帮助医生处理大型数据和辅助诊断,同时在诊断的不确定性和复杂性上给予临床支持”,依图医疗总裁倪浩表示,“儿科疾病症状多种多样,临床医生同样难以区分,诊断流程费时费力,但明确诊断非常重要。拥有可与经验丰富的儿科医生相媲美的助手进行辅助诊断,能够让医生有效地降低诊断时间,显著优化诊断流程。”
依图与广州市妇女儿童医疗中心进行合作,收集了该中心在2016年1月至2017年7月间的567,498个门诊病人的1,362,559次问诊电子病历,抽取到覆盖初始诊断包括儿科55种病例学中常见疾病的1.016亿个数据点,并将这些信息用于训练和验证系统框架。相比以往模型,此次研究使用了超过140万的庞大数据,以完善诊断系统,此外,此次研究中使用数据在表达和描述上的一致性,极大的提高了数据质量。
不仅如此,此次研究还基于NLP实现了病历的重新格式化。首先,有超过25年临床实践经验的资深主治医师手动注释了6,183个图表,然后用3,564张人工标注的图表对NLP信息提取模型进行训练,并用剩下的2,619张图表对模型进行验证。该NLP模型总结了代表临床数据的关键概念类别,利用深度学习技术自动将EHR注释到标准化词汇和临床特征中,从而允许对诊断分类进行进一步处理。
广州市妇女儿童医疗中心夏慧敏教授表示,“这篇文章的启示意义在于,通过系统学习文本病历,人工智能或将可以诊断更多疾病。但须要清醒认识到,我们仍有很多基础性工作要做扎实,比如高质量数据的集成便是一个长期的过程,因为大数据的收集和分析需要算法工程师、临床医生、流行病学专家等在内的多专家的通力合作。此外,人工智能学习了海量数据后,其诊断结果的准确性仍然需要更大范围的数据对其进行验证和比对。”