基于多模态融合的文档图像篡改检测方法与流程

技术2025-02-02 68

本发明涉及一种网络数据检测方法，特别是涉及一种基于多模态融合的文档图像篡改检测方法。

背景技术：

1、随着数字图像编辑技术的不断发展，文档图像篡改成为一种常见的篡改手段，给信息安全和知识产权保护带来了困扰，目前的图像篡改检测方法，主要依赖于对图像的局部或全局的特征信息统计，但是，当篡改操作经过模糊、旋转或缩放等操作后，往往难以捕捉到篡改区域的细微差异。

技术实现思路

1、本发明针对以上技术问题，提供一种基于多模态融合的文档图像篡改检测方法，该基于多模态融合的文档图像篡改检测方法，能够避免检测时依赖于对图像的局部或全局的特征信息统计，并且，当篡改操作经过模糊、旋转或缩放等操作后，能够快速准确的捕捉到篡改区域的细微差异。

2、为此，本发明的技术方案是，一种基于多模态融合的文档图像篡改检测方法，包括如下步骤：

3、步骤(1)：分别提取待检测文档图像中的ckcc特征、rgb特征以及pgc特征；

4、步骤(2)：通过cnn分别提取ckcc特征、rgb特征以及pgc特征，将提取的ckcc特征、rgb特征以及pgc特征分别输入至三层卷积层，得到特征向量cci、cri以及cpi；

5、将提取的ckcc特征、rgb特征以及pgc特征分别输入至一层最大池化层，得到特征向量mpci∈rw×h×c、mpri∈rw×h×c以及mppi∈rw×h×c；

6、步骤(3)：将特征向量mpci∈rw×h×c分别沿着w、h、c的方向进行全局平均池化操作，得到特征向量mpciw∈rh×c、mpcih∈rw×c、mpcic∈rh×w；

7、将特征向量mpri∈rw×h×c分别沿着w、h、c的方向进行全局平均池化操作，得到特征向量mpriw∈rh×c、mprih∈rw×c、mpric∈rh×w；

8、将特征向量mppi∈rw×h×c分别沿着w、h、c的方向进行全局平均池化操作，得到特征向量mppiw∈rh×c、mppih∈rw×c、mppic∈rh×w；

9、其中，w、h、c分别表示特征向量的宽度、高度以及通道数；

10、步骤(4)：将特征向量mpciw∈rh×c、mpcih∈rw×c、mpcic∈rh×w输入至transformer的多头自注意网络，得到特征向量mhciw、mhcih、mhcic；

11、将特征向量mpriw∈rh×c、mprih∈rw×c、mpric∈rh×w输入至transformer的多头自注意网络，得到特征向量mhriw、mhrih、mhric；

12、将特征向量mppiw∈rh×c、mppih∈rw×c、mppic∈rh×w输入至transformer的多头自注意网络，得到特征向量mhpiw、mhpih、mhpic；

13、步骤(5)：将所得到的特征向量mhciw、mhcih、mhcic、mhriw、mhrih、mhric、mhpiw、mhpih、mhpic拼接在一起，得到vfinal，将vfinal输入全连接网络，并通过softmax函数得到最终的分类结果公式如下：

14、

15、其中，w1、w2分别表示权重向量；

16、步骤(6)：构建包含正常文档图像和篡改文档图像的文档图像数据集，通过步骤(1)-步骤(5)训练出基于多模态融合的文档图像篡改检测模型，对文档图像篡改进行检测。

17、优选地，步骤(1)中，待检测文档图像中的ckcc特征、rgb特征以及pgc特征的提取，包括如下步骤：

18、步骤(1-1)：通过开放数据集搜集、手动标注以及数据集合成方法，标注文档图像数据集；

19、步骤(1-2)：给定文档图像数据集i＝{i1,i2,...,i4000}，分别提取文档图像的ckcc特征、rgb特征以及pgc特征，得到多模态特征ci＝ckcc(i)、ri＝rgb(i)、pi＝pgc(i)；

20、其中，ci、ri、pi分别表示文档图像的ckcc特征、rgb特征以及pgc特征。

21、优选地，步骤(2)中，三层卷积层的卷积核大小均为3×3，输入至三层3×3的卷积层后，得到的特征向量cci、特征向量cri、特征向量cpi的公式分别为：

22、cci＝relu(con3×3(relu(con3×3(relu(con3×3(ci))))))

23、cri＝relu(con3×3(relu(con3×3(relu(con3×3(ri))))))

24、cpi＝relu(con3×3(relu(con3×3(relu(con3×3(pi))))))

25、其中，relu()表示激活函数，con3×3()表示卷积核大小为3×3的卷积层，三层卷积层的卷积核的数量分别为256、256以及128；

26、步骤(2)中，一层最大池化层的步幅为2，并进行2×2的池化，输入至一层最大池化层后，得到的特征向量mpci、特征向量mpri以及特征向量mppi的公式分别为：

27、mpci＝max-pool(cci)

28、mpri＝max-pool(cri)

29、mppi＝max-pool(cpi)

30、其中，max-pool()表示最大池化操作。

31、优选地，步骤(4)中，多头自注意网络中的头数为8。

32、优选地，步骤(5)中，全连接网络的层数为3层，前两层的神经元的数量均为518，最后一层的神经元的数量为2。

33、优选地，步骤(6)中，文档图像篡改检测模型的评价指标选用accuracy和f1-score，定义如下：

34、

35、

36、

37、

38、其中，p和n分别表示正向样本总量和反向样本总量，tp和fp分别表示正确预测的正向样本数量和错误预测的正向样本数量，tn和fn分别表示正确预测的反向样本数量和错误预测的反向样本数量。

39、优选地，步骤(6)中，正常文档图像和篡改文档图像的数量均为2000。

40、本发明的有益效果是，该检测方法，通过整合不同特征提取方式得到的特征表征，充分挖掘了图像在不同颜色、结构和语义层面的信息，进而提高了篡改检测的准确性，为保护文档图像的完整性和安全性提供了更加可靠的手段。

41、同时，为了实现文档图像篡改的高准确度检测，该检测方法构建了基于多模态融合的文档图像篡改检测模型，首先分别提取文档图像的ckcc特征、rgb特征以及pgc特征，然后通过cnn和transformer进一步提取文档图像的深度隐藏特征，并且通过和五个文档图像篡改基线方法进行对比实验，结果证明通过该检测方法构建的检测模型具有明显的优越性。

技术特征：

1.一种基于多模态融合的文档图像篡改检测方法，其特征是：包括如下步骤：

2.根据权利要求1所述的基于多模态融合的文档图像篡改检测方法，其特征在于：所述步骤(1)中，待检测文档图像中的ckcc特征、rgb特征以及pgc特征的提取，包括如下步骤：

3.根据权利要求1所述的基于多模态融合的文档图像篡改检测方法，其特征在于：所述步骤(2)中，三层卷积层的卷积核大小均为3×3，输入至三层3×3的卷积层后，得到的特征向量cci、特征向量cri、特征向量cpi的公式分别为：

4.根据权利要求1所述的基于多模态融合的文档图像篡改检测方法，其特征在于：所述步骤(4)中，多头自注意网络中的头数为8。

5.根据权利要求1所述的基于多模态融合的文档图像篡改检测方法，其特征在于：所述步骤(5)中，全连接网络的层数为3层，前两层的神经元的数量均为518，最后一层的神经元的数量为2。

6.根据权利要求1所述的基于多模态融合的文档图像篡改检测方法，其特征在于：所述步骤(6)中，文档图像篡改检测模型的评价指标选用accuracy和f1-score，定义如下：

7.根据权利要求1所述的基于多模态融合的文档图像篡改检测方法，其特征在于：所述步骤(6)中，正常文档图像和篡改文档图像的数量均为2000。

技术总结
本发明提供一种基于多模态融合的文档图像篡改检测方法，其检测方法包括：分别提取待检测文档图像中的CKCC特征、RGB特征以及PGC特征，通过CNN分别提取CKCC特征、RGB特征以及PGC特征，将提取的CKCC特征、RGB特征以及PGC特征分别输入至三层卷积层，得到特征向量CCI、CRI以及CPI，将提取的CKCC特征、RGB特征以及PGC特征分别输入至一层最大池化层，得到特征向量MPCI∈R<supgt;W×H×C</supgt;、MPRI∈R<supgt;W×H×C</supgt;以及MPPI∈R<supgt;W×H×C</supgt;。其解决了目前的图像篡改检测方法，主要依赖于对图像的局部或全局的特征信息统计，但是，当篡改操作经过模糊、旋转或缩放等操作后，往往难以捕捉到篡改区域的细微差异的技术问题。该发明可广泛应用于多模态融合的文档图像篡改的检测。

技术研发人员：王向阳,范国才,邱俊淞,姜会敏,王先迪,林帅宇,赵帅强
受保护的技术使用者：威海蓝海银行股份有限公司
技术研发日：
技术公布日：2024/10/24

转载请注明原文地址:https://symbian.8miu.com/read-25805.html

专利

最新回复(0)