本发明涉及数据挖掘,尤其涉及基于时序知识图谱的意见领袖挖掘方法及装置。
背景技术:
1、随着计算机技术和互联网的迅速发展,越来越多的人习惯于通过互联网了解社会热点,借助互联网发表个人的意见、看法和主张。互联网已成为人们获取信息、发表意见、维护权益的重要场所。因而,如何监管舆情事件在互联网上的传播已成为一个具有现实意义的重大问题。网络舆情传播分析是对舆情信息在网络中的传播过程进行系统性的分析,主要包括追踪信息的源头、了解信息传播的路径、识别关键的传播节点和影响因素等,其实都与网络舆情当中的意见领袖密切相关。意见领袖挖掘技术正是在这种情况下应运而生的。
2、传统的意见领袖挖掘方法使用用户所发表贴文的属性信息(转发数、评论数、点赞数、浏览数)和社交网络中的静态结构信息(度中心性、邻近中心性、中介中心性)等作为意见领袖的判别标准,或者使用pagerank算法计算用户的重要性,以实现意见领袖挖掘。但判断用户是否是意见领袖,还需要关注其发表的言语是否能够引导舆论的发展、是否能影响多数人。因此,传统的意见领袖挖掘算法存在以下问题:一方面,未考虑用户的语义信息,只使用结构信息挖掘意见领袖;另一方面,未考虑时序因素,导致网络舆情萌芽期和衰退期的小流量的意见领袖淹没在爆发期大流量意见领袖当中;此外,随着舆情事件的发展,在网络舆情生命周期初期的意见领袖不一定是网络舆情末期的意见领袖。
技术实现思路
1、为解决当前意见领袖挖掘方法只考虑用户在社交网络中的静态结构特征的问题,本发明提出基于时序知识图谱的意见领袖挖掘方法及装置。
2、一方面,一种基于时序知识图谱的意见领袖挖掘方法,包括如下步骤:
3、s101,对采集的网络舆情数据进行分析,构建出时序网络舆情知识图谱;
4、s102,基于超关系子图建模的时序知识图谱表示学习与推理方法对时序网络舆情知识图谱进行表示学习,得到节点和关系的嵌入表示;
5、s103,基于节点和关系的嵌入表示,对时序网络舆情知识图谱进行实体关系建模,获得用户结构特征;将用户所发布的贴文作为预训练语言模型的输入文本,经过语义建模获得用户的贴文语义特征;设计一个人工特征作为用户在社交网络中的用户属性特征;
6、s104,结合用户结构特征、贴文语义特征和用户属性特征,使用softmax函数实现意见领袖的挖掘。
7、优选的,所述s101对采集的网络舆情数据进行分析,构建出时序网络舆情知识图谱,具体包括:
8、采用自顶向下的方法构建时序网络舆情知识图谱,包括:模式层构建、语料库获取、实例层构建;
9、1)模式层构建包括:
10、为每个历史子图构建相同的模式层,其中,模式层中的贴文属性包括“是否是意见领袖贴文;
11、2)语料库获取包括:
12、对采集到的数据进行数据预处理操作,步骤如下:
13、将采集到的数据转化为utf-8编码格式;
14、使用正则表达式将数据中的预设信息删除;
15、过滤掉只包含标点符号的贴文和用户评论,以及过滤违规账号发布的贴文;
16、3)实例层构建包括:
17、基于预处理过的语料库和设计好的模式层,按照以下步骤完成时序网络舆情知识图谱的实例层构建:
18、实体抽取:将语料库中的用户抽取为用户实体;将语料库中的贴文抽取为贴文实体;将主题信息抽取的结果作为话题实体;最后,在neo4j数据库中创建对应类型的节点;
19、属性抽取:将采集到的语料库信息对应上各实体的属性,并在neo4j数据库中为对应节点添加相应属性;
20、关系构造:在neo4j数据库中,为用户实体间构造“关注”关系,为用户与贴文实体构造“发布”、“转发”和“评论”关系,为贴文与话题实体构造“属于”关系;
21、数据划分:按照一天为一个快照,对数据进行划分。
22、优选的,所述s102中,对时序网络舆情知识图谱进行表示学习,通过局部循环编码器、全局历史编码器和时间引导解码器实现,具体如下:
23、1)局部循环编码器首先根据时序网络舆情知识图谱实例层所构造的关系的相对位置构建孪生超关系子图,利用关系图卷积网络分别对原图和超关系子图实现实体和关系的聚合,并使用长短时记忆网络完成实体和关系的交互,从而获得包含局部信息的实体和关系嵌入,完成局部循环编码;
24、对于每个查询,局部循环编码器考虑k个相邻时间戳的子图序列g={gt-k+1,…,gt-1,gt};包括3个模块:实体聚合模块、关系聚合模块和实体关系交互模块;
25、实体聚合模块用于聚合历史子图中相邻实体和实体之间的信息;通过实体聚合r-gcn对每个历史子图的实体的邻域信息进行聚合,过程描述为:
26、
27、其中,分别表示实体聚合r-gcn的第l层和第l-1层实体的嵌入,rn×d表示n行d列的矩阵;表示与实体eo相邻并通过关系r连接的实体集合;和rl-1表示相邻实体在l-1层中的嵌入和在实体聚合r-gcn的第l-1层中的对应关系嵌入;co,r表示的大小;表示relu激活函数;表示关系r的可学习参数;表示自环关系的可学习参数;
28、第t个子图的实体聚合r-gcn表示为:
29、
30、其中,为实体聚合r-gcn在t时刻的输出;et-1∈rn×d为实体聚合的gru在t-1时刻的输出;rt∈rn×d是在t时刻的关系聚合模块中得到的关系嵌入;
31、然后,使用gru学习不同历史子图中实体嵌入演化的时序信息;实体聚合模块将gru在上一个历史时间戳的输出和聚合实体的r-gcn在下一个历史时间戳的输出传递给当前r-gcn,如下:
32、
33、其中,et∈rn×d为原始子图在t时刻的最终实体嵌入;grue为学习实体演化的时序信息的gru;
34、关系聚合模块运行方式与实体聚合方式类似,将原始子图转化为超关系子图后,通过关系聚合r-gcn对每个时刻超关系子图中关系的邻域信息进行聚合,具体描述如下:
35、
36、其中,分别表示关系聚合r-gcn的第l层和第l-1层关系的嵌入,rm×d表示m行d列的矩阵;表示与超关系hr相邻并通过关系ro连接的关系集合;和hrl-1表示相邻关系的嵌入和在关系聚合r-gcn的第l-1层中的对应的超关系;表示的大小;表示超关系hr的可学习参数;表示自环关系的可学习参数;
37、最后,第t个子图的关系聚合r-gcn表示为:
38、
39、其中,为关系聚合r-gcn在t时刻的输出;为lstm在t-1时刻的输出;hrt-1∈r2m×d是在t-1时刻的关系聚合r-gcn中学习到的超关系嵌入;
40、然后,通过将关系嵌入输入到gru单元中,规范关系聚合r-gcn的聚合操作,并学习时序信息:
41、
42、其中,grue为学习关系演化的时序信息的gru;
43、实体关系交互模块用于将实体和关系的学习过程进行关联;首先,来自t-1时刻的实体嵌入参与平均池化操作来更新关系嵌入,通过拼接第一个时刻的关系嵌入来保留遥远的特征,如下:
44、
45、其中,r0∈r2m×d,et-1∈rn×d,mean表示平均池化操作;表示直接与关系r连接的实体;
46、然后,利用lstm来模拟实体关系相互作用随时间的演变,如下:
47、
48、其中,为关系聚合r-gcn在t时刻的关系嵌入输入;rt-1∈r2m×d为关系聚合模块对前一个时刻的关系嵌入输出;ct∈r2m×2d和ct-1∈r2m×2d是lstm序列建模过程的可学习参数;
49、总的来说,在t时刻上,首先根据t-1时刻实体聚合模块学习到的实体嵌入,生成关系嵌入使得关系嵌入包含了时刻t中关系和实体之间的位置关联约束;然后,关系聚合模块生成关系嵌入rt,是根据对时刻t的完整相邻信息进行聚合得到的;最后,实体聚合模块根据关系聚合模块输出的关系嵌入rt和t-1时刻的实体嵌入et-1,在t时刻获得更新的实体嵌入et;
50、2)全局历史编码用于为解码器提供全局依赖,是根据历史事实获取实体关系的候选矩阵;对于每个查询(s,r,?,t+1)或(s,?,o,t+1),获取历史事实中的候选单跳实体和关系;具体的,遍历t时刻之前的所有子图g={g0,…,gt-1,gt},根据头实体和关系,得到t个时刻尾实体候选集根据头实体和尾实体,得到t个时刻关系候选集然后,取t个时刻候选实体集合的并集作为t+1时刻的候选集,如下:
51、
52、对于查询(s,r,?,t+1),候选实体矩阵是将中存在候选实体的位置赋值1,不存在的位置赋值0;同理,候选关系矩阵也将中存在候选关系的位置赋值1,不存在的位置赋值0;
53、3)将实体关系嵌入与周期性时间向量进行拼接;
54、在获得实体和关系的候选集以及局部实体和关系的向量之后,使用时间引导解码器对事实进行评分;解码的过程就是知识推理过程,知识推理任务细分为实体预测任务和关系预测任务,具体定义如下:
55、实体预测在实体缺失的情况下预测可用三元组,即给定(s,r,?,t+1+预测o;
56、关系预测在关系缺失的情况下预测可用三元组,即给出(s,?,o,t+1)预测r;
57、考虑历史事实的周期性和非周期性,设计周期时间向量和非周期时间向量,周期时间向量使用正弦函数实现,定义如下:
58、
59、
60、其中,分别是周期时间编码向量和非周期编码向量;为正弦函数,ωp、分别是正弦函数的频率和相位;wnp和bnp为非周期时间向量的可学习参数;
61、4)最后根据得到的实体和关系嵌入表示以及候选矩阵,利用实体预测和关系预测技术,实现时序知识图谱推理;
62、对于t+1时刻的实体预测任务(s,r,?,t+1)和关系预测任务(s,?,o,t+1),采用conv_transe作为解码器;具体来说,在特定历史时间点t,实体和关系解码过程分别表示为:
63、
64、
65、其中,为softmax函数;和的每个维度表示预测相应实体或关系作为缺失客体或关系的概率得分;
66、全局时间解码器即在局部时间解码器计算的基础上与全局信息编码器得到的结果进行矩阵乘法,描述为:
67、
68、
69、其中,为指示函数;
70、模型设置了一个参数来综合考虑局部和全局信息对t+1时刻的影响;局部和全局信息按该参数求得事实的最终分数:
71、p=α×local_p+(1-α)×global_p
72、其中,变量α∈(0,1);实体预测和关系预测计算分数的方法相同;
73、最后,将实体预测和关系预测视为多标签学习问题,将实体预测和关系预测一起训练;最终的损失函数为:
74、
75、其中,pe和pr分别是实体和关系预测的最终概率得分;和是这两个任务的标签向量,如果事实发生,则为1,否则为0。
76、优选的,所述s103具体包括:
77、使用图谱的节点表征代表用户或贴文在当前时刻社交网络的结构信息,并使用其发表的贴文表征作为语义信息,步骤如下:
78、利用基于超关系子图建模的时序知识图谱表示学习与推理方法,对时序网络舆情知识图谱进行实体关系建模,得到t时刻实体的嵌入,充当用户的结构特征;
79、将用户所发布的贴文作为预训练语言模型bert的输入文本,经过语义建模得到用户的语义特征;若一个用户在一天内发布多条贴文,则将多条贴文的语义特征进行均值池化操作,池化层输出的特征作为该用户在t时刻的语义特征;
80、设计一个人工特征作为该用户在社交网络中的用户属性特征;用户属性特征包括如下信息:是否为当事人、是否为官方媒体、是否为网络大v、粉丝数、贴文点赞数、贴文评论数和贴文转发数。
81、优选的,所述s104具体包括:
82、将得到的用户结构特征、用户属性特征和贴文语义特征进行拼接,输入到线性层中进一步提取特征,使用softmax函数实现分类,判断一个用户或者贴文是否为意见领袖或意见领袖贴文;
83、所述softmax函数采用交叉熵作为损失函数,具体描述如下:
84、
85、其中,h拼接了用户结构特征、贴文语义特征和用户属性特征;为向量拼接操作;wp和bp为线性层可学习参数;为意见领袖概率。
86、另一方面,一种基于时序知识图谱的意见领袖挖掘装置,包括:
87、时序网络舆情知识图谱构建模块,用于对采集的网络舆情数据进行分析,构建出时序网络舆情知识图谱;
88、表示学习模块,用于基于超关系子图建模的时序知识图谱表示学习与推理方法对时序网络舆情知识图谱进行表示学习,得到节点和关系的嵌入表示;
89、特征获取模块,用于基于节点和关系的嵌入表示,对时序网络舆情知识图谱进行实体关系建模,获得用户结构特征;将用户所发布的贴文作为预训练语言模型的输入文本,经过语义建模获得用户的贴文语义特征;设计一个人工特征作为用户在社交网络中的用户属性特征;
90、意见领袖挖掘模块,用于结合用户结构特征、贴文语义特征和用户属性特征,使用softmax函数实现意见领袖的挖掘。
91、与现有技术相比,本发明具有如下有益效果:
92、本发明基于时序知识图谱获取用户结构特征、用户属性特征和贴文语义特征,进而有效挖掘不同时刻的意见领袖,相比于传统只使用结构信息的静态意见领袖挖掘方法,能够提高意见领袖挖掘的准确性及性能。
1.一种基于时序知识图谱的意见领袖挖掘方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于时序知识图谱的意见领袖挖掘方法,其特征在于,所述s101具体包括:
3.根据权利要求2所述的基于时序知识图谱的意见领袖挖掘方法,其特征在于,所述s102中,对时序网络舆情知识图谱进行表示学习,通过局部循环编码器、全局历史编码器和时间引导解码器实现,具体如下:
4.根据权利要求1所述的基于时序知识图谱的意见领袖挖掘方法,其特征在于,所述s103具体包括:
5.根据权利要求1所述的基于时序知识图谱的意见领袖挖掘方法,其特征在于,所述s104具体包括:
6.一种基于时序知识图谱的意见领袖挖掘装置,其特征在于,包括:
