基于半监督学习的中文电子病历命名实体识别-《浙江科技学院学报》

文章信息/Info

Title:: On named entity recognition for Chinese electronic medical record based on semisupervised learning

文章编号:: 1671-8798(2022)06-0502-10

作者:: 张杰; 黄杰; 万健; 浙江科技学院信息与电子工程学院,杭州 310023

Author(s):: ZHANG Jie; HUANG Jie; WAN Jian; School of Information and Electronic Engineering, Zhejiang University of Science and Technology, Hangzhou 310023, Zhejiang, China

关键词:: 中文电子病历; 命名实体识别; 半监督学习; 语言模型; 自举算法

分类号:: TP183

文献标志码:: A

摘要:: 面向中文电子病历的命名实体识别(named entity recognition,NER)研究已经取得不错的成果,但其中大部分方法依赖于已标注医疗语料而无法充分利用未标注语料,且方法中构建的文本特征相对单一,无法深入获取医疗文本的特征。针对上述问题,设计了一种基于半监督学习的NER模型。首先,本模型通过构建多个特征来捕捉病历文本中的语义信息,使用基于转换器的双向编码表征(bidirectional encoder representation from transformers,BERT)训练海量的未标注数据来学习适合中文医疗领域的字向量表示,并使用双向语言模型捕捉每个字的上下文特征向量,以及使用医疗词典结合双向最大匹配算法构建文本的词典特征向量。其次,融合3种特征向量后输入由双向门控循环单元、自注意力机制和条件随机场组成的NER模型中训练。最后,NER模型通过预测未标注语料获得候选标注语料,引入自举(bootstrapping)算法筛选置信度高的候选标注语料,将其合并到初始标注语料后迭代训练NER模型。试验结果表明,本模型在自建脑血管数据集和中国知识图谱与语义计算大会(China Conference on Knowledge Graph and Semantic Computing,CCKS)发布的CCKS2017、CCKS2018数据集上的F1值分别为90.16%、92.72%和90.93%,优于其他使用额外特征的NER模型和主流神经网络模型。本模型为提高中文电子病历的实体识别精度提供了一种新方法,可应用于实际工程中的NER任务。

《浙江科技学院学报》[ISSN:1001-3733/CN:61-1062/R]

文章信息/Info

相似文献/References:

常用功能

导航/Navigate

工具/Tools

统计/Statistics