本发明医学自然语言处理,具体涉及一种电子病历嵌套命名实体识别方法。
背景技术:
1、智慧医疗是当前人工智能领域的研究热点,而在各种医疗数据中,中文电子病历具有重要价值。中文电子病历通常由自然语言书写而成,大多数为医疗信息系统无法直接利用的半结构化或无结构化数据。为了充分挖掘电子病历包含的重要医学知识,研究人员使用命名实体识别(named entity recognition, ner)技术来识别和提取其中的医学实体,从而为后续的数据处理和分析提供结构化的信息。ner是指对自由文本中的一些具有特定类型的、有实际意义的事物名称或数量短语进行识别,通过命名实体识别技术将电子病历非结构化信息转变为结构化信息,可以对电子病历自由文本中蕴含的医学知识进行有效抽取。传统的ner主要是针对平面实体进行识别,而中文电子病历由于文本的复杂性存在较多实体嵌套问题。嵌套命名实体是指文本中存在的命名实体之间有层次嵌套关系的情况,如“冠状动脉搭桥术”属于既往史,而“冠状动脉”属于身体部位,一个实体中嵌套另一个实体。通过对嵌套实体的提取可以更全面的捕获医学领域的知识。
2、当前针对通用领域的嵌套命名实体识别建模方法主要有以下四种:基于分层的方法,基于序列生成的方法,基于超图神经网络的方法,以及基于跨度枚举的方法。其中基于跨度枚举的方法指直接枚举文本中所有可能的实体跨度,根据语义信息预测各跨度的实体标签,实现嵌套命名实体的识别。而在医学领域,中文电子病历文本由于包含大量专业术语、复杂的语法结构、上下文依赖性强以及多层次嵌套等问题,造成了其嵌套实体识别效果不佳。
技术实现思路
1、本申请要解决的技术问题是提供一种电子病历嵌套命名实体识别方法,具有可以更准确地识别电子病历中的嵌套实体的特点。
2、第一方面,一种实施例中提供一种电子病历嵌套命名实体识别方法,包括:
3、获取电子病历文本;
4、将所述电子病历文本作为训练好的电子病历实体识别神经网络的输入,进行嵌套命名实体识别,得到实体识别结果;包括:
5、基于输入的电子病历文本进行字符级编码和词级编码,得到字符向量和词向量;
6、将所述词向量作为bilstm特征提取子网络的输入,进行特征提取得到上下文特征表示向量;
7、对所述字符向量依次进行顺序图构建和cgcn特征提取,得到顺序图特征提取结果,对所述词向量依次进行句法依存图构建和cgcn特征提取,得到句法依存图特征提取结果;
8、将顺序图特征提取结果和句法依存图特征提取结果进行cgcn特征提取得到级联特征图;将所述级联特征图进行聚类,得到聚类提取结果;
9、基于输入的电子病历文本,得到每个字的部首集合中每个部首的部首特征向量;基于每个部首的部首特征向量,使用语义相似度矩阵构建部首语义相似图,对部首语义相似图进行cgcn特征提取得到部首特征提取结果;所述部首语义相似图中,每个节点表示一个部首,边表示两个部首之间的语义相似关系;
10、基于所述上下文特征表示向量、聚类提取结果和部首特征提取结果,进行跨度预测,实现电子病历的实体识别。
11、本发明的有益效果是:
12、利用图结构对非结构化信息的强大表征能力,构建顺序图和句法依存图,通过级联图卷积神经网络作为图结构特征抽取模块,捕捉不同粒度的局部特征信息与线性顺序信息、语法结构信息与全局句法依存信息;其次,使用双向长短期记忆网络进行上下文信息提取;此外,构建部首相似图,使用级联图卷积提取部首信息及其相似性,以便更深层次地理解汉字的语义结构和形态特征。通过融合特征对跨度进行预测,从而实现级联图卷积神经网多特征融合的中文电子病历嵌套命名实体识别,可以更准确地识别电子病历中的嵌套实体。
1.一种电子病历嵌套命名实体识别方法,其特征在于,包括:
2.如权利要求1所述的电子病历嵌套命名实体识别方法,其特征在于,所述的对所述字符向量依次进行顺序图构建和cgcn特征提取,得到顺序图特征提取结果,包括:
3.如权利要求1所述的电子病历嵌套命名实体识别方法,其特征在于,所述的将所述级联特征图进行聚类,得到聚类提取结果,包括:
4.如权利要求3所述的电子病历嵌套命名实体识别方法,其特征在于,所述的对于级联特征图中的每个节点,计算所有任意两个节点之间的相似度,包括:
5.如权利要求3所述的电子病历嵌套命名实体识别方法,其特征在于,所述的对于任意两个节点第一节点和第二节点,基于第一节点和第二节点之间的相似度和除第二节点外第一节点选择其他节点作为簇中心的最大值,更新第一节点和第二节点的责任值,包括:
6.如权利要求5所述的电子病历嵌套命名实体识别方法,其特征在于,所述的对于任意两个节点第一节点和第二节点,基于第二节点对自己作为簇中心的责任值和除第一节点外其他节点选择第二节点作为簇中心的正责任值之和,更新第一节点和第二节点的可用性值,还包括:
7.如权利要求1所述的电子病历嵌套命名实体识别方法,其特征在于,所述的基于输入的电子病历文本,得到每个字的部首集合中每个部首的部首特征向量;基于每个部首的部首特征向量,使用语义相似度矩阵构建部首语义相似图,对部首语义相似图进行cgcn特征提取得到部首特征提取结果,包括:
8.如权利要求1所述的电子病历嵌套命名实体识别方法,其特征在于,所述的基于所述上下文特征表示向量、聚类提取结果和部首特征提取结果,进行跨度预测,实现电子病历的实体识别,包括:
9.如权利要求8所述的电子病历嵌套命名实体识别方法,其特征在于,所述的将所述上下文特征表示向量和聚类提取结果进行特征融合得到融合特征图,包括:
10.如权利要求8所述的电子病历嵌套命名实体识别方法,其特征在于,所述的计算每个词向量的跨度分数,包括: