本技术涉及知识图谱,尤其涉及一种机构合作关系图谱生成方法、装置、电子设备及存储介质。
背景技术:
1、在分析文献趋势时,需要获取文献信息进行统计,共同发文量越大的作者或机构,合作关系越紧密。然而在文献分析数据库查找相关文献时,导出的文献信息较为混乱,例如,同一篇文献的多个归属机构被列举在同一个单元格内,难以分析各个机构的合作关系。
技术实现思路
1、本技术实施例的主要目的在于提出一种机构合作关系图谱生成方法、装置、电子设备及存储介质,以获取各个机构间准确、清晰的合作关系。
2、为实现上述目的,本技术实施例的一方面提出了一种机构合作关系图谱生成方法,所述方法包括以下步骤:
3、从文献信息中提取各个文献标题对应的归属机构的字符串;
4、检测各个所述归属机构的所述字符串中是否存在预定义的关键词;
5、若存在,则定位各个所述字符串中与所述关键词最相近的两个分隔符,并将两个所述分隔符之间的子字符串确定为对应所述归属机构的机构名称;
6、根据所述文献信息确定各个所述机构名称对应的机构发文量作为节点表格;
7、根据所述机构发文量确定机构间合作关系矩阵,并根据所述机构间合作关系矩阵确定机构间一对一合作关系表作为边表格;
8、根据所述节点表格和所述边表格生成机构合作关系图谱。
9、在一些实施例中,所述从文献信息中提取各个文献标题对应的归属机构的字符串,包括以下步骤:
10、以各个所述文献标题作为各列的表头,将同一个所述文献标题的各个所述归属机构的所述字符串划分到对应列的各行,生成文献-归属机构表;
11、依次从所述文献-归属机构表中获取各个所述文献标题对应的各个所述归属机构的所述字符串。
12、在一些实施例中,所述检测各个所述归属机构的所述字符串中是否存在预定义的关键词,包括以下步骤:
13、对每个所述字符串,按照各个预定义的所述关键词的优先级由高到低依次检测所述字符串是否存在对应的所述关键词。
14、在一些实施例中,所述若存在,则定位各个所述字符串中与所述关键词最相近的两个分隔符,并将两个所述分隔符之间的子字符串确定为对应所述归属机构的机构名称,包括以下步骤:
15、将在各个所述字符串中第一次检测到的所述关键词作为第一关键词,定位所述第一关键词在对应所述字符串中的第一位置,并在对应所述字符串中确定与所述第一位置最相近的前后两个第一分隔符;
16、将各个所述字符串中两个所述第一分隔符之间的第一子字符串确定为暂定机构名称;
17、判断所述暂定机构名称是否为重名机构;
18、若所述暂定机构名称为重名机构,则确定所述暂定机构名称所属的各个城市,并检测对应所述字符串中是否存在对应所述城市;若对应所述字符串中存在对应所述城市,则根据对应所述城市将所述暂定机构名称更改为正式机构名称,再判断所述正式机构名称是否存在下属机构;若对应所述字符串中不存在对应所述城市,则将所述暂定机构名称确定为正式机构名称,再执行所述判断所述正式机构名称是否存在下属机构;
19、若所述暂定机构名称不为重名机构,则将所述暂定机构名称确定为正式机构名称,再执行所述判断所述正式机构名称是否存在下属机构;
20、若所述正式机构名称存在下属机构,则对各个所述字符串检测是否存在第二关键词;其中,所述第二关键词的优先级低于所述第一关键的优先级;
21、若各个所述字符串存在第二关键词,则定位所述第二关键词在对应所述字符串中的第二位置,并在对应所述字符串中确定与所述第二位置最相近的前后两个第二分隔符;将各个所述字符串中两个所述第二分隔符之间的第二子字符串确定为下属机构名称;以预设分隔符合并所述正式机构名称和所述下属机构名称作为对应所述归属机构的机构名称;
22、若各个所述字符串不存在所述第二关键词,则在对应所述字符串中获取所述正式机构名称到前一个分隔符之间的子字符串作为所述下属机构名称;以预设分隔符合并所述正式机构名称和所述下属机构名称作为对应所述归属机构的机构名称;
23、将同一个所述归属机构但不同形式的机构名称转换为相同形式的机构名称;
24、若所述正式机构名称不存在下属机构,则所述正式机构名称确定为对应所述归属机构的机构名称,执行所述将同一个所述归属机构但不同形式的机构名称转换为相同形式的机构名称。
25、在一些实施例中,所述根据所述文献信息确定各个所述机构名称对应的机构发文量作为节点表格,包括以下步骤:
26、创建第一空白矩阵作为所述节点表格,所述节点表格的行数至少为所述文献-归属机构表的行列数乘积,所述节点表格的列数至少为4;
27、将所述节点表格第1行前4列的表头分别设置为机构名称、国家、发文量以及标签;
28、将所述文献-归属机构表中的各个所述机构名称依次填入所述节点表格的第1列的各行,并根据所述文献-归属机构表将各个所述机构名称所属的国家对应填入所述节点表格的第2列的各行;
29、根据所述文献-归属机构表统计各个所述机构名称对应的发文量,并将所述发文量填入所述节点表格的第3列中对应的各行;
30、将所述节点表格各行的前两列内容合并,再将合并得到的内容填入对应行的第4列;所述节点表格用于确定所述机构发文量。
31、在一些实施例中,所述根据所述机构发文量确定机构间合作关系矩阵,并根据所述机构间合作关系矩阵确定机构间一对一合作关系表作为边表格,包括以下步骤:
32、创建第二空白矩阵作为所述机构间合作关系矩阵;
33、将所述机构间合作关系矩阵的各行和各列的表头分别设置为各个所述机构名称;
34、根据所述机构发文量统计任意两个所述机构名称的共同发文量数值,并将所述共同发文量数值填入所述机构间合作关系矩阵中与两个所述机构名称对应的单元格;
35、创建第三空白矩阵,将所述第三空白矩阵前三列的表头依次设置为来源、目标以及共同发文量;
36、根据所述机构间合作关系矩阵将所述共同发文量数值大于0的两个所述机构名称依次分别填入所述第三空白矩阵的前两列,对应的所述共同发文量数值依次填入所述第三空白矩阵的第三列,得到所述机构间一对一合作关系作为所述边表格。
37、在一些实施例中,所述根据所述节点表格和所述边表格生成机构合作关系图谱,包括以下步骤:
38、将所述节点表格和所述边表格输入到gephi软件,利用所述gephi软件生成对应的所述机构合作关系图谱。
39、为实现上述目的,本技术实施例的另一方面提出了一种机构合作关系图谱生成装置,所述装置包括:
40、字符串提取单元,用于从文献信息中提取各个文献标题对应的归属机构的字符串;
41、关键词检测单元,用于检测各个所述归属机构的所述字符串中是否存在预定义的关键词;
42、机构名称确定单元,用于若存在,则定位各个所述字符串中与所述关键词最相近的两个分隔符,并将两个所述分隔符之间的子字符串确定为对应所述归属机构的机构名称;
43、发文量确定单元,用于根据所述文献信息确定各个所述机构名称对应的机构发文量作为节点表格;
44、合作关系确定单元,用于根据所述机构发文量确定机构间合作关系矩阵,并根据所述机构间合作关系矩阵确定机构间一对一合作关系表作为边表格;
45、关系图谱生成单元,用于根据所述节点表格和所述边表格生成机构合作关系图谱。
46、为实现上述目的,本技术实施例的另一方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
47、为实现上述目的,本技术实施例的另一方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
48、本技术实施例至少包括以下有益效果:
49、本技术可以从文献信息中提取各个文献标题对应的归属机构的字符串;检测各个归属机构的字符串中是否存在预定义的关键词;若存在,则定位各个字符串中与关键词最相近的两个分隔符,并将两个分隔符之间的子字符串确定为对应归属机构的机构名称;根据文献信息确定各个机构名称对应的机构发文量作为节点表格;根据机构发文量确定机构间合作关系矩阵,并根据机构间合作关系矩阵确定机构间一对一合作关系表作为边表格;根据节点表格和边表格生成机构合作关系图谱。本技术通过关键词准确提取分隔符之间的机构名称,进而根据机构名称准确统计出各个归属机构的机构发文量,进而根据机构发文量确定得到清晰的机构间合作关系矩阵和机构间一对一合作关系表,最后根据机构发文量和机构间一对一合作关系表准确生成逻辑清晰的机构合作关系图谱。
1.一种机构合作关系图谱生成方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的一种机构合作关系图谱生成方法,其特征在于,所述从文献信息中提取各个文献标题对应的归属机构的字符串,包括以下步骤:
3.根据权利要求1所述的一种机构合作关系图谱生成方法,其特征在于,所述检测各个所述归属机构的所述字符串中是否存在预定义的关键词,包括以下步骤:
4.根据权利要求3所述的一种机构合作关系图谱生成方法,其特征在于,所述若存在,则定位各个所述字符串中与所述关键词最相近的两个分隔符,并将两个所述分隔符之间的子字符串确定为对应所述归属机构的机构名称,包括以下步骤:
5.根据权利要求2所述的一种机构合作关系图谱生成方法,其特征在于,所述根据所述文献信息确定各个所述机构名称对应的机构发文量作为节点表格,包括以下步骤:
6.根据权利要求1所述的一种机构合作关系图谱生成方法,其特征在于,所述根据所述机构发文量确定机构间合作关系矩阵,并根据所述机构间合作关系矩阵确定机构间一对一合作关系表作为边表格,包括以下步骤:
7.根据权利要求1至6任一项所述的一种机构合作关系图谱生成方法,其特征在于,所述根据所述节点表格和所述边表格生成机构合作关系图谱,包括以下步骤:
8.一种机构合作关系图谱生成装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。