一种多领域假新闻智能检测方法

技术2025-04-04 8

本发明属于假新闻检测，尤其涉及一种多领域假新闻智能检测方法。

背景技术：

1、当新闻业进入互联网时代以后，虚假新闻也开始带有强烈的网络时代特征，严重损害新闻媒体公信力。目前各领域（如医疗、金融、管理、商业等）社交网络媒体平台流通的新闻数据与公众评论与日俱增，假新闻信息难以识别。当面对庞大的新闻数据与快速的假新闻传播速度，仅靠行业监管部门定期人工巡检的情况下，效率低、周期长，难以及时有效的整改网络生态环境。因此需要对假新闻进行智能检测，实时预警，对假新闻详情进行统计分析。

2、假新闻智能检测方法是治理假新闻的关键，是实现假新闻智能监控的前提。目前的假新闻智能检测方法存在两方面问题：1）假新闻智能检测算法的设计中，单领域模型的训练需要大量标注了真假性的新闻数据，而新闻真假性通常需要专业领域的专家，且耗时费力，同时各领域的真新闻和假新闻数据数量相差巨大。2）对假新闻智能检测方法的应用仍是一种人工检测方式，需要人工在后台将新闻内容输入，然后得到是否异常的结果。如此，仍需消耗大量的人力，而且效率较低，难以覆盖全面。为此本发明提出一种多领域假新闻智能检测方法。

技术实现思路

1、本发明的目的在于提供一种多领域假新闻智能检测方法，旨在解决上述背景技术中提出的问题。

2、为实现上述目的，本发明提供如下技术方案：

3、一种多领域假新闻智能检测方法，包括以下步骤：

4、步骤1、获取历史新闻数据，拆分训练数据，验证数据与测试数据；

5、步骤2、数据预处理：将原始文本被转换成bert模型可处理的数字序列；

6、步骤3、构建双分支领域对抗网络模型，包括：步骤31、领域独立文本特征提取；步骤32、领域共享文本特征提取；步骤33、特征融合；

7、步骤4、构建模型整体目标函数，包括：步骤41、计算领域分类损失；步骤42、计算假新闻分类任务损失；步骤43、计算辅助分类约束损失；步骤44、计算模型整体损失；

8、步骤5、模型训练：利用反向传播算法训练神经网络的参数，通过步骤44计算模型整体损失函数关于网络参数的梯度来调整网络权重；

9、步骤6、待识别假新闻智能识别，实时监控、预警。

10、进一步的，所述步骤2的具体步骤如下：

11、步骤21、初始化分词器：选择合适的bert预训练模型来初始化分词器；

12、步骤22、输入文本并分词：将待处理的文本输入到分词器中，分词器将文本拆分成一系列的子词或词块，即tokens，tokens是bert模型在预训练过程中学习到的最佳词单元；

13、步骤23、转换为bert输入格式：将tokens转换为数字形式的词嵌入索引，并添加特殊标记来标识句子的开始和结束，以及不同句子之间的分隔；

14、步骤24、输出分词结果：最后将分词后的结果输出，得到token序列。

15、进一步的，所述步骤3的具体步骤如下：

16、步骤31、领域独立文本特征提取：将预训练的bert编码器与基于mlp的映射函数相结合作为领域独立编码器，其中bert编码器的参数不参与网络参数的更新过程，映射函数的函实时更新；将获得的文本token序列输入bert编码器，将bert编码器的输出结果输入映射函数，得到领域独立编码特征；

17、；

18、其中表示领域独立特征，表示预训练的bert编码器，表示bert编码器的冻结参数，表示映射函数，表示映射函数中需更新的网络参数，表示新闻文本的token序列；

19、步骤32、领域共享文本特征提取：将预训练的bert编码器作为领域共享编码器，bert编码器的参数参与网络参数的更新过程；将获得的文本token序列输入领域共享编码器，得到领域独立编码特征；

20、；

21、其中表示领域共享特征，表示领域共享编码器，表示bert编码器中需更新的网络参数，表示新闻文本的token序列；

22、步骤33、特征融合：将领域共享特征与领域特定特征进行融合，最终融合特征的计算方式如下：

23、；

24、；

25、其中表示逐元素相乘，表示主元素相加，表示领域独立特征的权重，表示领域共享特征的权重，表示领域共享模块需更新的网络参数，表示激活函数，函数的输出位于 (0, 1) 区间内。

26、进一步的，所述步骤4的具体步骤如下：

27、步骤41、计算领域分类损失：构建多领域分类器，对于d域，鉴别器是一个d分类器并输出一个d维度向量；向量中的每个维度对应于输入新闻文本属于第k个域的预测概率，将领域共享特征与领域独立特征分别输入多领域分类器，得到预测结果；利用分类交叉熵损失分别计算领域共享特征的预测结果、领域独立特征的预测结果与真实的领域标签的损失；损失计算方式如下：

28、；

29、；

30、其中表示真实的领域标签，表示领域分类损失，表示激活函数，表示领域分类器；

31、步骤42、计算假新闻分类任务损失：构建假新闻任务分类器，将融合特征输入假新闻任务分类器，得到假新闻预测概率；分类器由mlp网络构成，将mlp网络的结果经过函数变换成0-1之间的实数，表示假新闻预测概率；

32、利用二元分类交叉熵损失函数计算预测标签与真实标签之间的损失，计算范式如下：

33、；

34、；

35、其中表示假新闻任务分类器mlp网络中需更新的参数，y表示真实的新闻真实性标签，表示假新闻分类任务损失；

36、步骤43、计算辅助分类约束损失：为特征和设计面向任务的分类约束，每个分支被视为单任务网络，其中编码器与假新闻任务分类器互动；特征和直接输入到假新闻任务分类器中以分别获得当前任务中假新闻预测概率和，用于假新闻检测；对和的辅助约束表述如下：

37、；

38、；

39、其中，表示领域独立特征的辅助分类约束；表示领域共享特征的辅助分类约束；

40、步骤44、计算模型整体损失：模型的整体损失包括假新闻分类任务损失、分别针对领域独立特征和领域共享特征的辅助分类约束和领域分类损失，计算方式如下：

41、；

42、其中，表示领域独立特征的领域分类损失表示领域共享特征的领域分类损失。

43、进一步的，所述步骤5的具体过程如下：

44、对于领域共享编码器，采用领域对抗策略更新，通过在领域共享编码器与领域分类器间插入梯度反转网络层实现在反向传播过程中梯度符号反转的过程，即将原梯度转换为，其中λ表示一个超参数。

45、进一步的，所述步骤6的具体步骤如下：

46、步骤61、设计假新闻实时监控指标，包括实时数量、传播动态和实时流量；

47、步骤62、数据库实时监测，包括：

48、步骤621、使用变更数据捕获技术来实时捕获新闻数据库的更新，并设置数据库触发器，在新闻发布时自动收集相关指标数据；

49、步骤622、使用时序数据库或搜索引擎来存储和索引实时数据；

50、步骤623、使用流处理技术来实时处理和分析数据流，基于网络模型对数据实时分析，以识别潜在的假新闻；

51、步骤63、预警通知；包括：

52、步骤631、当检测出潜在假新闻时，实时计算监控指标；

53、步骤632、根据监控指标设置预警规则，当指标超出正常范围时触发警报；

54、步骤633、在检测到潜在假新闻时，通过电子邮件、短信或应用程序推送方式通知相关人员。

55、与现有技术相比，本发明的有益效果是：

56、本发明实际应用于各领域网络平台假新闻内容检测场景下具有切实的实际意义，为加强网络生态环境治理提供了技术支撑。本发明提供的方法解决了因单一领域数据稀疏导致模型无法训练的问题，同时提升模型的检测性能。在监控系统的作用下，可以提升假新闻检测效率，缓解人工压力，避免信息错漏，为假新闻进一步治理提供帮助。

技术特征：

1.一种多领域假新闻智能检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的多领域假新闻智能检测方法，其特征在于，所述步骤2的具体步骤如下：

3.根据权利要求2所述的多领域假新闻智能检测方法，其特征在于，所述步骤3的具体步骤如下：

4.根据权利要求3所述的多领域假新闻智能检测方法，其特征在于，所述步骤4的具体步骤如下：

5.根据权利要求4所述的多领域假新闻智能检测方法，其特征在于，所述步骤5的具体过程如下：

6.根据权利要求1所述的多领域假新闻智能检测方法，其特征在于，所述步骤6的具体步骤如下：

技术总结
本发明适用于假新闻检测技术领域，提供了一种多领域假新闻智能检测方法，包括以下步骤：获取历史新闻数据，拆分训练数据，验证数据与测试数据；数据预处理；构建双分支领域对抗网络模型；构建模型整体目标函数；模型训练；待识别假新闻智能识别，实时监控、预警。本发明实际应用于各领域网络平台假新闻内容检测场景下具有切实的实际意义，为加强网络生态环境治理提供了技术支撑。本发明提供的方法解决了因单一领域数据稀疏导致模型无法训练的问题，同时提升模型的检测性能。在监控系统的作用下，可以提升假新闻检测效率，缓解人工压力，避免信息错漏，为假新闻进一步治理提供帮助。

技术研发人员：欧阳继红,郭泽琪
受保护的技术使用者：吉林大学
技术研发日：
技术公布日：2024/10/24

转载请注明原文地址:https://symbian.8miu.com/read-28690.html

专利

最新回复(0)