本技术涉及文本数据处理,尤其涉及一种文本数据处理方法、装置、设备、介质及程序产品。
背景技术:
1、在实际应用中,通常通过预先定义的指定领域的事件分类模板,对文本数据比如新闻数据进行分析,从而确定文本数据所表征的事件类型。然而,上述事件分类模板中包含的事件类型以及事件特征相对固定,因此,上述方案无法满足实际应用中多样化的文本数据处理需求。
技术实现思路
1、基于以上技术问题,本技术实施例提供了一种文本数据处理方法、装置、设备、介质及程序产品。
2、本技术实施例首先提供了一种文本数据处理方法,所述方法包括:
3、通过k个事件分类模型对文本数据进行处理,得到k个分类参数;其中,k为大于1的整数;
4、基于第一决策树的第m层学习器的第m输出结果中的第n数据与预设类型之间的第一差异程度,确定第m权重中与所述第m输出结果的所述第n数据关联的权重;其中,所述第一决策树的第一层学习器用于对所述k个分类参数进行处理,得到第一输出结果;m与n均为大于或等于1的整数;所述第n数据与所述第m层学习器中的第n学习器关联;
5、基于所述第m权重以及所述第m输出结果,确定第m+1输入数据;其中,所述第m+1输入数据用于供所述第一决策树的第m+1层学习器处理以得到第m+1输出结果;
6、基于所述第一决策树的第m层学习器的第m输出结果与所述文本数据的类型标签之间的第二差异程度,调整所述第一决策树的参数,得到训练完成的第一决策树;其中,m为大于1的整数。
7、在一种实施方式中,所述基于第一决策树的第m层学习器的第m输出结果中的第n数据与预设类型之间的第一差异程度,确定第m权重中与所述第m输出结果的所述第n数据关联的权重,包括:
8、若所述第一差异程度大于第一阈值,确定与所述第m输出结果中所述第n数据关联的权重大于权重阈值。
9、在一种实施方式中,所述方法还包括:
10、获取待处理文本;
11、通过所述k个事件分类模型对所述待处理文本进行处理,得到k个分类结果;
12、通过所述训练完成的第一决策树对所述k个分类结果进行处理,得到所述待处理文本所表征的事件类型;
13、通过训练完成的第二决策树基于所述事件类型对所述待处理文本中的至少数据进行处理,得到所述待处理文本所包含的论元数据。
14、在一种实施方式中,所述方法还包括:
15、通过所述训练完成的第一决策树对所述文本数据进行处理,得到针对所述文本数据的样本分类结果;
16、通过p个论元提取模型对所述文本数据进行处理,得到p个论元参数;其中,p为大于1的整数。
17、基于所述p个论元参数以及所述样本分类结果对第二决策树进行训练,得到所述训练完成的第二决策树。
18、在一种实施方式中,所述基于所述p个论元参数以及所述样本分类结果对第二决策树进行训练,得到所述训练完成的第二决策树,包括:
19、若所述第二决策树的第x层学习器输出的第x论元数据中的第y数据与预设论元之间的第三差异程度大于或等于第二阈值,确定第x权重中与所述第x输出结果中所述第y数据关联的权重大于或等于权重阈值;其中,所述第二决策树的第一层学习器用于对所述p个论元参数进行处理,得到第一论元数据;x以及y均为大于或等于1的整数;所述第y数据与所述第x层学习器中的第y学习器关联;
20、基于所述第x权重以及所述第x论元数据,确定第x+1输入论元;其中,所述第x+1输入论元用于供所述第二决策树的第x+1层学习器处理以得到第x+1论元数据;
21、基于所述第二决策树的第x层学习器输出的第x论元数据与所述文本数据的论元标签之间的第四差异程度,调整所述第二决策树的参数,得到所述训练完成的第二决策树;其中,x为大于1的整数;x为大于或等于1且小于或等于x的整数。
22、在一种实施方式中,所述方法还包括:
23、将所述训练完成的第一决策树以及所述训练完成的第二决策树部署为文本处理组件。
24、在一种实施方式中,所述p个论元提取模型中的第p论元提取模型至少包括第一双向提取单元;p为大于或等于1且小于或等于p的整数;所述通过p个论元提取模型对所述文本数据进行处理,得到p个论元参数,包括:
25、通过所述第p论元提取模型中的第一双向提取单元对所述文本数据进行双向特征提取,得到第p论元提取结果;
26、基于所述第p论元提取结果,确定第p论元参数。
27、在一种实施方式中,所述k个事件分类模型中的第k事件分类模型至少包括第二双向提取单元;k为大于或等于1且小于或等于k的整数;所述通过k个事件分类模型对文本数据进行处理,得到k个分类参数,包括:
28、通过所述第k事件分类模型中的第二双向提取单元对所述文本数据进行双向特征提取,得到第k类型提取结果;
29、基于所述第k类型提取结果,确定第k分类参数。
30、本技术实施例还提供了一种文本数据处理装置,所述文本数据处理装置包括:
31、处理模块,用于通过k个事件分类模型对文本数据进行处理,得到k个分类参数;其中,k为大于1的整数;
32、确定模块,用于基于第一决策树的第m层学习器的第m输出结果中的第n数据与预设类型之间的第一差异程度,确定第m权重中与所述第m输出结果的所述第n数据关联的权重;其中,所述第一决策树的第一层学习器用于对所述k个分类参数进行处理,得到第一输出结果;m与n均为大于或等于1的整数;所述第n数据与所述第m层学习器中的第n学习器关联;
33、所述确定模块,还用于基于所述第m权重以及所述第m输出结果,确定第m+1输入数据;其中,所述第m+1输入数据用于供所述第一决策树的第m+1层学习器处理以得到第m+1输出结果;
34、所述处理模块,还用于基于所述第一决策树的第m层学习器的第m输出结果与所述文本数据的类型标签之间的第二差异程度,调整所述第一决策树的参数,得到训练完成的第一决策树。
35、本技术实施例还提供了一种电子设备,所述电子设备包括处理器和存储器;所述存储器中存储有计算机程序;所述计算机程序被所述处理器执行时,能够实现如前任一所述的文本数据处理方法。
36、本技术实施例还提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序;所述计算机程序被电子设备的处理器执行时,能够实现如前任一所述的文本数据处理方法。
37、本技术实施例还提供了一种计算机程序产品,所述计算机程序产品包括计算机程序;所述计算机程序被电子设备的处理器执行时,能够实现如前任一所述的文本数据处理方法。
38、本技术实施例提供的文本数据处理方法,通过k个事件分类模型对文本数据进行处理,得到k个分类参数,且k为大于1的整数,如此,通过上述操作,能够得到多个事件分类模型对文本数据处理后得到的分类参数;并且,基于第一决策树的第m层学习器的第m输出结果中的第n数据与预设类型之间的第一差异程度,确定第m权重中与第m输出结果的第n数据关联的权重,且第一决策树的第一学习器用于对k个分类参数进行处理得到第一输出结果,如此,通过上述操作,能够将第m权重的取值与第m输出结果中的第n数据关联起来,从而能够提高第m权重的针对性;与此同时,由于第m权重中与第n数据关联的权重基于第一差异程度确定,且通过基于第m权重以及第m输出结果确定第m+1输入数据,而第m+1输入数据用于供第一决策树的第m+1层学习器处理以得到第m+1输出结果,通过上述操作,使得第m权重中的权重值能够针对性的调整第m输出结果中的第n数据,从而能够削弱第m层学习器分类或数据处理的误差对后级学习器的分类或数据处理的消极影响,进而能够降低多层学习器对文本数据处理的分类误差;在此基础上,通过基于第一决策树的第m层学习器的第m输出结果与文本数据的类型标签之间的第二差异程度,调整第一决策树的参数得到训练完成的第一决策树,能够提高训练完成的第一决策树对任意类型的文本数据的事件类型分类精度,还能够提高训练完成的第一决策树对任一文本数据进行事件类型分析的普适度,进而能够满足实际应用中对文本数据的事件分类需求。
1.一种文本数据处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于第一决策树的第m层学习器的第m输出结果中的第n数据与预设类型之间的第一差异程度,确定第m权重中与所述第m输出结果的所述第n数据关联的权重,包括:
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
5.根据权利要求4所述的方法,其特征在于,所述基于所述p个论元参数以及所述样本分类结果对第二决策树进行训练,得到所述训练完成的第二决策树,包括:
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
7.根据权利要求4所述的方法,其特征在于,所述p个论元提取模型中的第p论元提取模型至少包括第一双向提取单元;p为大于或等于1且小于或等于p的整数;所述通过p个论元提取模型对所述文本数据进行处理,得到p个论元参数,包括:
8.根据权利要求1所述的方法,其特征在于,所述k个事件分类模型中的第k事件分类模型至少包括第二双向提取单元;k为大于或等于1且小于或等于k的整数;所述通过k个事件分类模型对文本数据进行处理,得到k个分类参数,包括:
9.一种文本数据处理装置,其特征在于,所述文本数据处理装置包括:
10.一种电子设备,其特征在于,所述电子设备包括处理器和存储器;所述存储器中存储有计算机程序;所述计算机程序被所述处理器执行时,能够实现如权利要求1至8任一所述的文本数据处理方法。
11.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序;所述计算机程序被电子设备的处理器执行时,能够实现如权利要求1至8任一所述的文本数据处理方法。
12.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序;所述计算机程序被电子设备的处理器执行时,能够实现如权利要求1至8任一所述的文本数据处理方法。

