本技术涉及信息处理,具体而言,涉及基于知识图谱的数据管理方法及装置。
背景技术:
1、网络媒体平台是人们获取新闻数据的重要途径;各新闻媒体以及门户网站都会在网络上发布并展示新闻,然而多个新闻媒体针对同一新闻事件发布的新闻报道往往是相同的,且门户网站在展示不同新闻媒体发布的新闻报道时,可能缺乏内容验证,导致新闻页面展示的内容单薄、杂乱且重复性多。
2、同时用户若是想检索自己感兴趣的新闻事件中的地点或人物,只能再输入关键词并逐个浏览才能零散的找到,不仅效率低下,查找内容不全面,同时搜索内容并不能直观的看出不同新闻事件之间的关联,也不能确定某一新闻事件涉及到的人物或地点是否与其他新闻事件或其他人物或地点存在关联。
3、现有技术没有基于知识图谱进行数据管理的方法。
技术实现思路
1、本技术实施例的目的在于提供基于知识图谱的数据管理方法及装置,用以解决现有技术存在的上述问题,可基于知识图谱进行数据的管理,并基于新闻事件更新新闻事件知识图谱,全面、直观的为用户展示新闻事件之间以及新闻事件发生地点与人物之间的关联关系。
2、第一方面,提供了一种基于知识图谱的数据管理方法,该方法可以包括:
3、获取新闻事件的目标新闻报道和预先构建的新闻事件知识图谱;其中, 所述新闻事件知识图谱包括事件实体知识图谱、地点实体知识图谱和对象实体知识图谱;
4、从所述目标新闻报道中,提取所述新闻事件的事件要素;其中,所述事件要素包含发生地点和事件对象;
5、基于所述事件要素,生成知识图谱事件节点;
6、将所述知识图谱事件节点添加到所述事件实体知识图谱中,得到更新后的事件实体知识图谱;
7、从所述地点实体知识图谱中,匹配与所述发生地点相同的地点实体,得到目标地点实体;
8、建立所述知识图谱事件节点与所述目标地点实体的关联关系,得到更新后的地点实体知识图谱;
9、从所述对象实体知识图谱中,匹配与所述事件对象相同的对象实体,得到目标对象实体;
10、建立所述知识图谱事件节点与所述目标对象实体的关联关系,得到更新后的对象实体知识图谱;
11、基于所述更新后的事件实体知识图谱、更新后的地点实体知识图谱以及所述更新后的对象实体知识图谱,得到更新后的新闻事件知识图谱。
12、在一个可选的实现中,所述目标新闻报道的获取方法,包括:
13、获取与所述新闻事件相关的所有新闻报道;其中,所述新闻报道包括未标注新闻来源的新闻报道和标注新闻来源的新闻报道;任一新闻报道均包含新闻内容和发布时间;
14、从所有标注新闻来源的新闻报道中,提取得到多个新闻来源;对得到的多个新闻来源去重,得到去重后的新闻来源;
15、提取各去重后的新闻来源发布的新闻报道,得到多个第一新闻报道;
16、将各第一新闻报道按照发布时间的先后进行排序,得到排序后的多个第一新闻报道;
17、将最先发布的第一新闻报道,作为第一目标新闻报道;
18、从排序后的多个第一新闻报道中,删除与所述第一目标新闻报道的新闻内容完全相同的第一新闻报道后,得到筛选后的第一新闻报道;
19、从所有未标注新闻来源的新闻报道中,删除与所述第一目标新闻报道的新闻内容相同且发布时间晚于所述第一目标新闻报道的新闻报道,得到筛选后的未标注新闻来源的新闻报道;
20、基于所述第一目标新闻报道、筛选后的第一新闻报道和筛选后的未标注新闻来源的新闻报道,得到目标新闻报道。
21、在一个可选的实现中,所述新闻报道还包括:发布所述新闻报道的新闻id;
22、基于所述第一目标新闻报道、筛选后的第一新闻报道和筛选后的未标注新闻来源的新闻报道,得到目标新闻报道,包括:
23、将发布所述第一目标新闻报道、筛选后的第一新闻报道和筛选后的未标注新闻来源的新闻报道的新闻id,作为目标新闻id;
24、从预先构建的新闻id与评估值对照表中,匹配所述目标新闻id对应的评估值;
25、基于所述第一目标新闻报道、筛选后的第一新闻报道和筛选后的未标注新闻来源的新闻报道,得到第二新闻报道;
26、对得到的第二新闻报道去重后,得到去重后的第二新闻报道;
27、从去重后的第二新闻报道中,删除对应的新闻id的评估值小于预设的评估值阈值的第二新闻报道,得到第三新闻报道;
28、对第三新闻报道的新闻内容进行分析,得到第三新闻报道的内容分析结果;
29、基于所述第三新闻报道的内容分析结果,对各第三新闻报道之间内容不同的地方进行标注,得到标注后的第三新闻报道;
30、将标注后的第三新闻报道、不同第三新闻报道对应的新闻id以及发布时间按照发布时间的先后排序,得到目标新闻报道。
31、在一个可选的实现中,在从所述目标新闻报道中,提取所述新闻事件的事件要素之前,所述方法还包括:
32、获取所述新闻事件的事件类型;
33、从预先构建的事件类型与事件要素提取模型对照表中,匹配所述事件类型对应的事件要素提取模型,得到目标事件要素提取模型;
34、从所述目标新闻报道中,提取所述新闻事件的事件要素,包括:
35、将所述目标新闻报道的新闻内容,输入所述目标事件要素提取模型,得到所述新闻事件的事件要素。
36、在一个可选的实现中,所述事件要素还包括:新闻摘要;
37、在基于所述事件要素,生成知识图谱事件节点之前,所述方法还包括:
38、对所述目标新闻报道的新闻内容进行预处理,得到预处理后的新闻内容;
39、对所述预处理后的新闻内容进行分词处理,得到多个提取词;
40、针对任一提取词,统计所述提取词在所述预处理后的新闻内容中出现的频次,得到所述提取词的频次数据;
41、对各个提取词进行聚类分析,得到聚类分析结果;
42、基于不同提取词的频次数据与所述聚类分析结果,确定提取词中的关键词;
43、从所述预处理后的新闻内容中,提取包含所述关键词的句子与段落;
44、对包含所述关键词的句子与段落进行语义分析,得到语义分析结果;
45、基于所述关键词和所述语义分析结果,生成所述目标新闻报道的新闻摘要。
46、在一个可选的实现中,在基于所述事件要素,生成知识图谱事件节点之前,所述方法还包括:
47、针对任一事件对象,基于所述事件对象,对目标新闻报道进行分析,确定所述事件对象与所述新闻事件的关联类型;
48、基于所述事件对象与所述新闻事件的关联类型,确定所述事件对象与其他事件对象之间的关联关系;
49、基于事件对象与所述新闻事件的关联类型,得到所述事件对象与所述新闻事件发生地点之间的关联类型。
50、在一个可选的实现中,基于所述事件要素,生成知识图谱事件节点,包括:
51、将所述发生地点,作为所述知识图谱事件节点的地点实体;
52、将各事件对象,作为知识图谱事件节点的对象实体;
53、基于各事件对象之间的关联关系,建立所述地点实体与不同对象实体之间的关系;
54、基于不同事件对象与所述新闻事件的关联类型以及不同事件对象与所述新闻事件发生地点之间的关联类型,建立不同对象实体之间的关系;
55、将所述新闻摘要,作为知识图谱事件节点的属性;
56、基于所述地点实体、各对象实体、所述属性、所述地点实体与不同对象实体之间的关系以及不同对象实体之间的关系,得到所述知识图谱事件节点。
57、第二方面,提供了一种基于知识图谱的数据管理装置,该装置可以包括:
58、获取单元,用于获取新闻事件的目标新闻报道和预先构建的新闻事件知识图谱;其中, 所述新闻事件知识图谱包括事件实体知识图谱、地点实体知识图谱和对象实体知识图谱;
59、提取单元,用于从所述目标新闻报道中,提取所述新闻事件的事件要素;其中,所述事件要素包含发生地点和事件对象;
60、生成单元,用于基于所述事件要素,生成知识图谱事件节点;
61、更新单元,用于将所述知识图谱事件节点添加到所述事件实体知识图谱中,得到更新后的事件实体知识图谱;从所述地点实体知识图谱中,匹配与所述发生地点相同的地点实体,得到目标地点实体;建立所述知识图谱事件节点与所述目标地点实体的关联关系,得到更新后的地点实体知识图谱;从所述对象实体知识图谱中,匹配与所述事件对象相同的对象实体,得到目标对象实体;建立所述知识图谱事件节点与所述目标对象实体的关联关系,得到更新后的对象实体知识图谱;基于所述更新后的事件实体知识图谱、更新后的地点实体知识图谱以及所述更新后的对象实体知识图谱,得到更新后的新闻事件知识图谱。
62、第三方面,提供了一种电子设备,该电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
63、存储器,用于存放计算机程序;
64、处理器,用于执行存储器上所存放的程序时,实现上述第一方面中任一所述的方法步骤。
65、第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一所述的方法步骤。
66、本技术基于新闻事件的新闻报道对其中包含的数据进行整理与分析,从而实现数据的管理,以便为用户呈现全面、准确的数据。
67、本技术通过对不同新闻媒体发布的新闻报道进行查重、去同存异与融合处理,能够条理的一次性展示不同新闻媒体针对同一新闻事件发布的不同的新闻报道,避免了重复查看同样的新闻报道导致的用户体验感不佳;本技术通过对发布不同内容的新闻报道进行验证,能够筛除不实新闻,保证新闻的真实性与可靠性;本技术通过对不同新闻报道中包含的不同内容进行标注,不仅能够直观的为用户呈现不同之处,还能够更加全面与丰富的呈现同一新闻事件的新闻报道。
68、本技术通过构建新闻事件知识图谱,并为新闻事件创建事件节点,为新闻事件中的地点与人物创建实体,并基于分析事件与地点与人物之间的关联关系,为事件节点、地点和人物建立关系,同时基于大数据搜索技术检索与该新闻事件相关的人物、地点以及其他数据,并为新闻事件以及地点和人物添加属性;使得呈现某一新闻事件时,并不是单纯的呈现该新闻事件的报道内容,而是会自动关联分析与新闻事件相关的地点、人物以及其他新闻事件的数据,从而高效且全面的展示该新闻事件的所有相关内容,无需用户再单独进行检索;同时本技术基于不同实体之间的关系,能够直观的展示不同人物或不同地点或不同新闻事件之间的关联。
69、本技术通过为每个新闻事件生成一个事件节点,并基于新闻事件中的人物与地点生成不同的实体,基于生成的不同实体进行知识图谱实体更新;再通过分析人物、地点与事件之间的关联关系,并为不同实体搭建关系的方式,实现了构建并更新新闻事件知识图谱,同时本技术的更新并不单纯的更新事件节点,而是对人物实体与地点实体以及不同实体之间的关系进行统一更新,更新全面,且更新后的知识图谱全面、可靠,能够直观的展示实体之间的关联性以及实体与事件节点之间的关联性。
1.一种基于知识图谱的数据管理方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述目标新闻报道的获取方法,包括:
3.如权利要求2所述的方法,其特征在于,所述新闻报道还包括:发布所述新闻报道的新闻id;
4.如权利要求1所述的方法,其特征在于,在从所述目标新闻报道中,提取所述新闻事件的事件要素之前,所述方法还包括:
5.如权利要求4所述的方法,其特征在于,所述事件要素还包括:新闻摘要;
6.如权利要求5所述的方法,其特征在于,在基于所述事件要素,生成知识图谱事件节点之前,所述方法还包括:
7.如权利要求6所述的方法,其特征在于,基于所述事件要素,生成知识图谱事件节点,包括:
8.一种基于知识图谱的数据管理装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法。