临床表型数据泛指能够体现患者健康与疾病水平的一切特征,如疾病、症状、家庭病史、治疗效果等,是医学研究的核心数据。从电子病历提取表型信息可以极大地加速表型数据的采集,形成表型大数据,促进表型组学的发展。近年来,利用机器学习算法进行文本分析,对表型进行提取逐渐成为主流。然而,特征设计以及对样本的人工标注需要消耗极大的专家人力和时间,阻碍表型大数据的发展。本报告介绍基于电子病历的表型提取技术的两个新进展:无监督疾病表型鉴定模型PheNorm,和无监督中文医学文本分词模型SPECTER。
Math formula preview: