本发明涉及一种网络数据检测方法,特别是涉及一种基于多模态融合的文档图像篡改检测方法。
背景技术:
1、随着数字图像编辑技术的不断发展,文档图像篡改成为一种常见的篡改手段,给信息安全和知识产权保护带来了困扰,目前的图像篡改检测方法,主要依赖于对图像的局部或全局的特征信息统计,但是,当篡改操作经过模糊、旋转或缩放等操作后,往往难以捕捉到篡改区域的细微差异。
技术实现思路
1、本发明针对以上技术问题,提供一种基于多模态融合的文档图像篡改检测方法,该基于多模态融合的文档图像篡改检测方法,能够避免检测时依赖于对图像的局部或全局的特征信息统计,并且,当篡改操作经过模糊、旋转或缩放等操作后,能够快速准确的捕捉到篡改区域的细微差异。
2、为此,本发明的技术方案是,一种基于多模态融合的文档图像篡改检测方法,包括如下步骤:
3、步骤(1):分别提取待检测文档图像中的ckcc特征、rgb特征以及pgc特征;
4、步骤(2):通过cnn分别提取ckcc特征、rgb特征以及pgc特征,将提取的ckcc特征、rgb特征以及pgc特征分别输入至三层卷积层,得到特征向量cci、cri以及cpi;
5、将提取的ckcc特征、rgb特征以及pgc特征分别输入至一层最大池化层,得到特征向量mpci∈rw×h×c、mpri∈rw×h×c以及mppi∈rw×h×c;
6、步骤(3):将特征向量mpci∈rw×h×c分别沿着w、h、c的方向进行全局平均池化操作,得到特征向量mpciw∈rh×c、mpcih∈rw×c、mpcic∈rh×w;
7、将特征向量mpri∈rw×h×c分别沿着w、h、c的方向进行全局平均池化操作,得到特征向量mpriw∈rh×c、mprih∈rw×c、mpric∈rh×w;
8、将特征向量mppi∈rw×h×c分别沿着w、h、c的方向进行全局平均池化操作,得到特征向量mppiw∈rh×c、mppih∈rw×c、mppic∈rh×w;
9、其中,w、h、c分别表示特征向量的宽度、高度以及通道数;
10、步骤(4):将特征向量mpciw∈rh×c、mpcih∈rw×c、mpcic∈rh×w输入至transformer的多头自注意网络,得到特征向量mhciw、mhcih、mhcic;
11、将特征向量mpriw∈rh×c、mprih∈rw×c、mpric∈rh×w输入至transformer的多头自注意网络,得到特征向量mhriw、mhrih、mhric;
12、将特征向量mppiw∈rh×c、mppih∈rw×c、mppic∈rh×w输入至transformer的多头自注意网络,得到特征向量mhpiw、mhpih、mhpic;
13、步骤(5):将所得到的特征向量mhciw、mhcih、mhcic、mhriw、mhrih、mhric、mhpiw、mhpih、mhpic拼接在一起,得到vfinal,将vfinal输入全连接网络,并通过softmax函数得到最终的分类结果公式如下:
14、
15、其中,w1、w2分别表示权重向量;
16、步骤(6):构建包含正常文档图像和篡改文档图像的文档图像数据集,通过步骤(1)-步骤(5)训练出基于多模态融合的文档图像篡改检测模型,对文档图像篡改进行检测。
17、优选地,步骤(1)中,待检测文档图像中的ckcc特征、rgb特征以及pgc特征的提取,包括如下步骤:
18、步骤(1-1):通过开放数据集搜集、手动标注以及数据集合成方法,标注文档图像数据集;
19、步骤(1-2):给定文档图像数据集i={i1,i2,...,i4000},分别提取文档图像的ckcc特征、rgb特征以及pgc特征,得到多模态特征ci=ckcc(i)、ri=rgb(i)、pi=pgc(i);
20、其中,ci、ri、pi分别表示文档图像的ckcc特征、rgb特征以及pgc特征。
21、优选地,步骤(2)中,三层卷积层的卷积核大小均为3×3,输入至三层3×3的卷积层后,得到的特征向量cci、特征向量cri、特征向量cpi的公式分别为:
22、cci=relu(con3×3(relu(con3×3(relu(con3×3(ci))))))
23、cri=relu(con3×3(relu(con3×3(relu(con3×3(ri))))))
24、cpi=relu(con3×3(relu(con3×3(relu(con3×3(pi))))))
25、其中,relu()表示激活函数,con3×3()表示卷积核大小为3×3的卷积层,三层卷积层的卷积核的数量分别为256、256以及128;
26、步骤(2)中,一层最大池化层的步幅为2,并进行2×2的池化,输入至一层最大池化层后,得到的特征向量mpci、特征向量mpri以及特征向量mppi的公式分别为:
27、mpci=max-pool(cci)
28、mpri=max-pool(cri)
29、mppi=max-pool(cpi)
30、其中,max-pool()表示最大池化操作。
31、优选地,步骤(4)中,多头自注意网络中的头数为8。
32、优选地,步骤(5)中,全连接网络的层数为3层,前两层的神经元的数量均为518,最后一层的神经元的数量为2。
33、优选地,步骤(6)中,文档图像篡改检测模型的评价指标选用accuracy和f1-score,定义如下:
34、
35、
36、
37、
38、其中,p和n分别表示正向样本总量和反向样本总量,tp和fp分别表示正确预测的正向样本数量和错误预测的正向样本数量,tn和fn分别表示正确预测的反向样本数量和错误预测的反向样本数量。
39、优选地,步骤(6)中,正常文档图像和篡改文档图像的数量均为2000。
40、本发明的有益效果是,该检测方法,通过整合不同特征提取方式得到的特征表征,充分挖掘了图像在不同颜色、结构和语义层面的信息,进而提高了篡改检测的准确性,为保护文档图像的完整性和安全性提供了更加可靠的手段。
41、同时,为了实现文档图像篡改的高准确度检测,该检测方法构建了基于多模态融合的文档图像篡改检测模型,首先分别提取文档图像的ckcc特征、rgb特征以及pgc特征,然后通过cnn和transformer进一步提取文档图像的深度隐藏特征,并且通过和五个文档图像篡改基线方法进行对比实验,结果证明通过该检测方法构建的检测模型具有明显的优越性。
1.一种基于多模态融合的文档图像篡改检测方法,其特征是:包括如下步骤:
2.根据权利要求1所述的基于多模态融合的文档图像篡改检测方法,其特征在于:所述步骤(1)中,待检测文档图像中的ckcc特征、rgb特征以及pgc特征的提取,包括如下步骤:
3.根据权利要求1所述的基于多模态融合的文档图像篡改检测方法,其特征在于:所述步骤(2)中,三层卷积层的卷积核大小均为3×3,输入至三层3×3的卷积层后,得到的特征向量cci、特征向量cri、特征向量cpi的公式分别为:
4.根据权利要求1所述的基于多模态融合的文档图像篡改检测方法,其特征在于:所述步骤(4)中,多头自注意网络中的头数为8。
5.根据权利要求1所述的基于多模态融合的文档图像篡改检测方法,其特征在于:所述步骤(5)中,全连接网络的层数为3层,前两层的神经元的数量均为518,最后一层的神经元的数量为2。
6.根据权利要求1所述的基于多模态融合的文档图像篡改检测方法,其特征在于:所述步骤(6)中,文档图像篡改检测模型的评价指标选用accuracy和f1-score,定义如下:
7.根据权利要求1所述的基于多模态融合的文档图像篡改检测方法,其特征在于:所述步骤(6)中,正常文档图像和篡改文档图像的数量均为2000。