基于多模态融合的文档图像篡改检测方法与流程

    技术2025-02-02  59


    本发明涉及一种网络数据检测方法,特别是涉及一种基于多模态融合的文档图像篡改检测方法。


    背景技术:

    1、随着数字图像编辑技术的不断发展,文档图像篡改成为一种常见的篡改手段,给信息安全和知识产权保护带来了困扰,目前的图像篡改检测方法,主要依赖于对图像的局部或全局的特征信息统计,但是,当篡改操作经过模糊、旋转或缩放等操作后,往往难以捕捉到篡改区域的细微差异。


    技术实现思路

    1、本发明针对以上技术问题,提供一种基于多模态融合的文档图像篡改检测方法,该基于多模态融合的文档图像篡改检测方法,能够避免检测时依赖于对图像的局部或全局的特征信息统计,并且,当篡改操作经过模糊、旋转或缩放等操作后,能够快速准确的捕捉到篡改区域的细微差异。

    2、为此,本发明的技术方案是,一种基于多模态融合的文档图像篡改检测方法,包括如下步骤:

    3、步骤(1):分别提取待检测文档图像中的ckcc特征、rgb特征以及pgc特征;

    4、步骤(2):通过cnn分别提取ckcc特征、rgb特征以及pgc特征,将提取的ckcc特征、rgb特征以及pgc特征分别输入至三层卷积层,得到特征向量cci、cri以及cpi;

    5、将提取的ckcc特征、rgb特征以及pgc特征分别输入至一层最大池化层,得到特征向量mpci∈rw×h×c、mpri∈rw×h×c以及mppi∈rw×h×c;

    6、步骤(3):将特征向量mpci∈rw×h×c分别沿着w、h、c的方向进行全局平均池化操作,得到特征向量mpciw∈rh×c、mpcih∈rw×c、mpcic∈rh×w;

    7、将特征向量mpri∈rw×h×c分别沿着w、h、c的方向进行全局平均池化操作,得到特征向量mpriw∈rh×c、mprih∈rw×c、mpric∈rh×w;

    8、将特征向量mppi∈rw×h×c分别沿着w、h、c的方向进行全局平均池化操作,得到特征向量mppiw∈rh×c、mppih∈rw×c、mppic∈rh×w;

    9、其中,w、h、c分别表示特征向量的宽度、高度以及通道数;

    10、步骤(4):将特征向量mpciw∈rh×c、mpcih∈rw×c、mpcic∈rh×w输入至transformer的多头自注意网络,得到特征向量mhciw、mhcih、mhcic;

    11、将特征向量mpriw∈rh×c、mprih∈rw×c、mpric∈rh×w输入至transformer的多头自注意网络,得到特征向量mhriw、mhrih、mhric;

    12、将特征向量mppiw∈rh×c、mppih∈rw×c、mppic∈rh×w输入至transformer的多头自注意网络,得到特征向量mhpiw、mhpih、mhpic;

    13、步骤(5):将所得到的特征向量mhciw、mhcih、mhcic、mhriw、mhrih、mhric、mhpiw、mhpih、mhpic拼接在一起,得到vfinal,将vfinal输入全连接网络,并通过softmax函数得到最终的分类结果公式如下:

    14、

    15、其中,w1、w2分别表示权重向量;

    16、步骤(6):构建包含正常文档图像和篡改文档图像的文档图像数据集,通过步骤(1)-步骤(5)训练出基于多模态融合的文档图像篡改检测模型,对文档图像篡改进行检测。

    17、优选地,步骤(1)中,待检测文档图像中的ckcc特征、rgb特征以及pgc特征的提取,包括如下步骤:

    18、步骤(1-1):通过开放数据集搜集、手动标注以及数据集合成方法,标注文档图像数据集;

    19、步骤(1-2):给定文档图像数据集i={i1,i2,...,i4000},分别提取文档图像的ckcc特征、rgb特征以及pgc特征,得到多模态特征ci=ckcc(i)、ri=rgb(i)、pi=pgc(i);

    20、其中,ci、ri、pi分别表示文档图像的ckcc特征、rgb特征以及pgc特征。

    21、优选地,步骤(2)中,三层卷积层的卷积核大小均为3×3,输入至三层3×3的卷积层后,得到的特征向量cci、特征向量cri、特征向量cpi的公式分别为:

    22、cci=relu(con3×3(relu(con3×3(relu(con3×3(ci))))))

    23、cri=relu(con3×3(relu(con3×3(relu(con3×3(ri))))))

    24、cpi=relu(con3×3(relu(con3×3(relu(con3×3(pi))))))

    25、其中,relu()表示激活函数,con3×3()表示卷积核大小为3×3的卷积层,三层卷积层的卷积核的数量分别为256、256以及128;

    26、步骤(2)中,一层最大池化层的步幅为2,并进行2×2的池化,输入至一层最大池化层后,得到的特征向量mpci、特征向量mpri以及特征向量mppi的公式分别为:

    27、mpci=max-pool(cci)

    28、mpri=max-pool(cri)

    29、mppi=max-pool(cpi)

    30、其中,max-pool()表示最大池化操作。

    31、优选地,步骤(4)中,多头自注意网络中的头数为8。

    32、优选地,步骤(5)中,全连接网络的层数为3层,前两层的神经元的数量均为518,最后一层的神经元的数量为2。

    33、优选地,步骤(6)中,文档图像篡改检测模型的评价指标选用accuracy和f1-score,定义如下:

    34、

    35、

    36、

    37、

    38、其中,p和n分别表示正向样本总量和反向样本总量,tp和fp分别表示正确预测的正向样本数量和错误预测的正向样本数量,tn和fn分别表示正确预测的反向样本数量和错误预测的反向样本数量。

    39、优选地,步骤(6)中,正常文档图像和篡改文档图像的数量均为2000。

    40、本发明的有益效果是,该检测方法,通过整合不同特征提取方式得到的特征表征,充分挖掘了图像在不同颜色、结构和语义层面的信息,进而提高了篡改检测的准确性,为保护文档图像的完整性和安全性提供了更加可靠的手段。

    41、同时,为了实现文档图像篡改的高准确度检测,该检测方法构建了基于多模态融合的文档图像篡改检测模型,首先分别提取文档图像的ckcc特征、rgb特征以及pgc特征,然后通过cnn和transformer进一步提取文档图像的深度隐藏特征,并且通过和五个文档图像篡改基线方法进行对比实验,结果证明通过该检测方法构建的检测模型具有明显的优越性。



    技术特征:

    1.一种基于多模态融合的文档图像篡改检测方法,其特征是:包括如下步骤:

    2.根据权利要求1所述的基于多模态融合的文档图像篡改检测方法,其特征在于:所述步骤(1)中,待检测文档图像中的ckcc特征、rgb特征以及pgc特征的提取,包括如下步骤:

    3.根据权利要求1所述的基于多模态融合的文档图像篡改检测方法,其特征在于:所述步骤(2)中,三层卷积层的卷积核大小均为3×3,输入至三层3×3的卷积层后,得到的特征向量cci、特征向量cri、特征向量cpi的公式分别为:

    4.根据权利要求1所述的基于多模态融合的文档图像篡改检测方法,其特征在于:所述步骤(4)中,多头自注意网络中的头数为8。

    5.根据权利要求1所述的基于多模态融合的文档图像篡改检测方法,其特征在于:所述步骤(5)中,全连接网络的层数为3层,前两层的神经元的数量均为518,最后一层的神经元的数量为2。

    6.根据权利要求1所述的基于多模态融合的文档图像篡改检测方法,其特征在于:所述步骤(6)中,文档图像篡改检测模型的评价指标选用accuracy和f1-score,定义如下:

    7.根据权利要求1所述的基于多模态融合的文档图像篡改检测方法,其特征在于:所述步骤(6)中,正常文档图像和篡改文档图像的数量均为2000。


    技术总结
    本发明提供一种基于多模态融合的文档图像篡改检测方法,其检测方法包括:分别提取待检测文档图像中的CKCC特征、RGB特征以及PGC特征,通过CNN分别提取CKCC特征、RGB特征以及PGC特征,将提取的CKCC特征、RGB特征以及PGC特征分别输入至三层卷积层,得到特征向量CCI、CRI以及CPI,将提取的CKCC特征、RGB特征以及PGC特征分别输入至一层最大池化层,得到特征向量MPCI∈R<supgt;W×H×C</supgt;、MPRI∈R<supgt;W×H×C</supgt;以及MPPI∈R<supgt;W×H×C</supgt;。其解决了目前的图像篡改检测方法,主要依赖于对图像的局部或全局的特征信息统计,但是,当篡改操作经过模糊、旋转或缩放等操作后,往往难以捕捉到篡改区域的细微差异的技术问题。该发明可广泛应用于多模态融合的文档图像篡改的检测。

    技术研发人员:王向阳,范国才,邱俊淞,姜会敏,王先迪,林帅宇,赵帅强
    受保护的技术使用者:威海蓝海银行股份有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-25805.html

    最新回复(0)