特征共享和多视口自适应的全景图像质量评价方法、系统

    技术2024-12-27  103


    本发明涉及图像处理领域,涉及一种图像评价方法,更为具体地,涉及一种特征共享和多视口自适应的全景图像质量评价方法、系统。


    背景技术:

    1、全景图像在采集、编码、传输等过程中会难以避免地引入模糊、块效应、过曝/欠曝等各种降质问题,影响用户的观看感受。为了保障用户的视听体验、提升并优化视频平台服务质量,需要对全景图像感知质量(omnidirectional image quality assessment,oiqa)进行有效评价。

    2、现有的全景图像质量评价算法根据对输入数据的处理方式,可分为面向投影、面向图像块和面向视口三类。

    3、面向投影的算法直接对等距柱状投影(equirectangular projection,erp)等方式映射的内容进行特征提取和融合,可直接将现有面向普通二维图像质量评价的模型应用到全景图像质量评价领域。面向图像块的算法一般把全景图像划分为多个局部区域分别进行训练,其目的是增加训练样本数量以促进模型收敛。面向视口的算法首先将erp内容映射到球体,随后将局部范围的视口内容投影到二维平面以消除几何畸变,最后通过模拟用户观看全景内容时的行为模式设计评价模型。

    4、但是,面向投影的算法并未深入考虑普通图像与全景图像在观看行为模式之间的区别。同时,由于该类算法直接将具有几何畸变的投影图像送入深度学习模型,没有分析这种畸变对于现有深度学习模型的潜在影响。面向图像块的算法对各局部区域共享整个图像的平均意见分数,对于一些空域感知质量分布不均匀的失真类型,会引入明显的标注误差。面向视口的评价模型在像素域进行多视口分割后,各视口内容需分别利用深度学习模型进行特征提取,即各视口内容需分别送入骨干网络提取局部特征,使得其复杂度较高;且由于各视口内容在送入骨干网络前已确定,这种框架较难适配端到端的训练过程。

    5、因此,亟需一种能够在有效降低模型复杂度的同时,对模型进行更为充分的端到端训练,并且能实现更为灵活的局部特征划分与聚合的特征共享和多视口自适应的全景图像质量评价方法、系统。


    技术实现思路

    1、鉴于上述问题,本发明的目的是提供一种特征共享和多视口自适应的全景图像质量评价方法、系统,以解决现有技术要么未深入考虑普通图像与全景图像在观看行为模式之间的区别,要么没有分析这种畸变对于现有深度学习模型的潜在影响,要么对于一些空域感知质量分布不均匀的失真类型,会引入明显的标注误差的问题。

    2、本发明提供的一种特征共享和多视口自适应的全景图像质量评价方法,其中,包括:

    3、将目标图像输入至预训练的resnet50骨干网络中,以提取所述目标图像的多尺度特征,并通过不同步长的卷积核将所述多尺度特征中的每个尺度的特征映射至相同维度以对映射后的特征进行拼接形成多尺度质量特征;

    4、采用斐波那契球面均匀采样算法对所述目标图像进行采样计算以获取采样点坐标,并基于所述采样点坐标和所述多尺度质量特征提取各个视口对应的特征信息以获取质量视口特征和语义视口特征;

    5、对所述质量视口特征和所述语义视口特征添加额外嵌入向量和位置嵌入向量以形成质量视口token和语义视口token,并将所述质量视口token和所述语义视口token作为预设的tansformer编码器的输入以获取所述tansformer编码器的第n层输出的全局质量特征;

    6、将所述全局质量特征输入至预设的回归网络中以获取隐藏层输出向量,并根据所述隐藏层输出向量进行偏置计算以获取所述目标图像的图像质量分数。

    7、优选地,将目标图像输入至预训练的resnet50骨干网络中,以提取所述目标图像的多尺度特征,并通过不同步长的卷积核将所述多尺度特征中的每个尺度的特征映射至相同维度以对映射后的特征进行拼接形成多尺度质量特征的过程,包括:

    8、将目标图像i∈rh×w×3送入至经imagenet数据集预训练所形成的resnet50骨干网络fb中提取所述目标图像的多尺度特征l={li|i∈[1,m]}=fb(i;θb);其中,h和w分别代表所述目标图像的高度和宽度的分辨率;li表示m个尺度中第i个尺度的特征,θb表示所述resnet50骨干网络的预训练参数;

    9、基于映射函数,通过不同步长的卷积核将每个尺度的特征映射至相同维度以获取映射特征其中,gi表示第i个尺度上的映射函数,表示为所述映射函数的参数,ci∈rh×w×d表示映射后第i个尺度上的映射特征,h,w和d分别为所述映射特征ci的高度分辨率、宽度分辨率和通道数;

    10、对m个映射特征进行拼接以形成多尺度质量特征,记作c={ci|i∈[1,m]}。

    11、优选地,采用斐波那契球面均匀采样算法对所述目标图像进行采样计算以获取采样点坐标,并基于所述采样点坐标和所述多尺度质量特征提取各个视口对应的特征信息以获取质量视口特征和语义视口特征的步骤,包括:

    12、采用斐波那契球面均匀采样算法对所述目标图像进行采样计算以获取采样点坐标;

    13、根据所述采样点坐标获取各个视口的视口位置信息;

    14、根据所述视口位置信息和所述多尺度质量特征形成质量视口特征和语义视口特征。

    15、优选地,采用斐波那契球面均匀采样算法对所述目标图像进行采样计算以获取采样点坐标的步骤,包括:

    16、通过斐波那契球面均匀采样算法对所述多尺度质量特征进行采样计算以获取第k个采样点的空间直角坐标(xk,yk,zk);

    17、将所述空间直角坐标转换为球坐标

    18、将所述球坐标转换为平面像素坐标并将所述平面像素坐标作为采样点坐标。

    19、优选地,根据所述采样点坐标获取各个视口的视口位置信息的步骤,包括:

    20、基于所述采样点坐标根据所述采样点所在的纬度设置视口宽度wlocal,并将视口高度hlocal设置为同样的值;其中,采样点k的视口宽度其中,a为预设的控制缩放量的常数;

    21、根据所述视口宽度和所述视口高度计算视口的左上角和右下角的顶点坐标以获取各个视口的视口位置信息。

    22、优选地,在根据所述视口位置信息和所述多尺度质量特征形成质量视口特征和语义视口特征的过程中,:

    23、利用预设的roi_align算法根据所述视口位置信息和所述多尺度质量特征形成质量视口特征,根据所述视口位置信息和第四个维度的多尺度质量特征形成语义视口特征;其中所述第四个维度的多尺度质量特征为语义层面的特征。

    24、优选地,在将所述质量视口token和所述语义视口token作为预设的tansformer编码器的输入以获取所述tansformer编码器的第n层输出的全局质量特征的过程,包括:

    25、将所述质量视口token作为所述tansformer编码器的第一层的key向量和value向量,分别记作k0和v0;将所述语义视口token作为所述tansformer编码器的第一层的query向量,记作q0;

    26、基于所述tansformer编码器的预训练参数对所述tansformer编码器的第一层的key向量、value向量和query向量进行更新处理以获取第一层输出key向量、第一层输出value向量和第一层输出query向量;

    27、将第一层输出key向量、第一层输出value向量和第一层输出query向量作为所述tansformer编码器的第二层的key向量、value向量和query向量进行更新处理以获取第二层输出key向量、第二层输出value向量和第二层输出query向量,依次更新,直至将第n-1层输出key向量、第n-1层输出value向量和第n-1层输出query向量作为所述tansformer编码器的第n层的key向量、value向量和query向量进行更新处理以获取第n层输出key向量、第n层输出value向量和第n层输出query向量。

    28、基于多头注意力机制对所述第n层输出key向量、第n层输出value向量和第n层输出query向量进行加权和归一化处理以获取所述tansformer编码器的第n层输出的全局质量特征。

    29、优选地,基于多头注意力机制对所述第n层输出key向量、第n层输出value向量和第n层输出query向量进行加权和归一化处理以获取所述tansformer编码器的第n层输出的全局质量特征的步骤,包括:

    30、将所述第n层输出key向量、第n层输出value向量和第n层输出query向量作为所述tansformer编码器的第n层的输入与所述质量视口token相加以形成残差连接;

    31、对所述残差连接进行归一化处理以获取归一化向量;

    32、通过预设的前反馈神经网络对所述归一化向量进行变换和非线性映射以获取前馈神经网络输出向量;所述前反馈神经网络包括两个全连接层和一个relu激活函数;

    33、对所述前馈神经网络输出向量与所述归一化向量进行残差连接,并进行层归一化以获取第n层输出tansformer编码器的全局质量特征。

    34、优选地,将所述全局质量特征输入至预设的回归网络中以获取隐藏层输出向量,并根据所述隐藏层输出向量进行偏置计算以获取所述目标图像的图像质量分数的步骤,包括:

    35、将d维向量的全局质量特征f0′送入至预设的回归网络,使所述全局质量特征f0′通过所述回归网络的第一个全连接层,以获取低维度的隐藏层输出向量h;其中,h=w1·f′0+b1;w1为第一个全连接层的权重矩阵,b1为预设的第一偏置向量;

    36、通过relu激活函数对所述隐藏层输出向量h进行激活处理以获取隐藏层输出h'=relu(h);

    37、使所述隐藏层输出h'通过所述回归网络的第二个全连接层以获取为所述目标图像预测的图像质量分数:q=w2·h'+b2,其中,w2代表第二个全连接层的权重矩阵,b2代表预设的第二偏置向量,q代表预测的图像质量分数。

    38、本发明还提供一种特征共享和多视口自适应的全景图像质量评价系统,其中,包括:

    39、质量特征提取单元,用于将目标图像输入至预训练的resnet50骨干网络中,以提取所述目标图像的多尺度特征,并通过不同步长的卷积核将所述多尺度特征中的每个尺度的特征映射至相同维度以对映射后的特征进行拼接形成多尺度质量特征;

    40、非均匀视口切割单元,用于采用斐波那契球面均匀采样算法对所述目标图像进行采样计算以获取采样点坐标,并基于所述采样点坐标和所述多尺度质量特征提取各个视口对应的特征信息以获取质量视口特征和语义视口特征;

    41、全局质量特征获取单元,用于对所述质量视口特征和所述语义视口特征添加额外嵌入向量和位置嵌入向量以形成质量视口token和语义视口token,并将所述质量视口token和所述语义视口token作为预设的tansformer编码器的输入以获取所述tansformer编码器的第n层输出的全局质量特征;

    42、质量分数获取单元,用于将所述全局质量特征输入至预设的回归网络中以获取隐藏层输出向量,并根据所述隐藏层输出向量进行偏置计算以获取所述目标图像的图像质量分数。

    43、从上面的技术方案可知,本发明提供的特征共享和多视口自适应的全景图像质量评价方法、系统,首先提取目标图像的多尺度特征,并将多尺度特征中的每个尺度的特征映射至相同维度以对映射后的特征进行拼接形成多尺度质量特征,再对目标图像进行采样计算以获取采样点坐标,并提取各个视口对应的特征信息以获取质量视口特征和语义视口特征,如此,将基于质量视口特征和语义视口特征形成的全局质量特征输入至预设的回归网络中以获取隐藏层输出向量,并根据隐藏层输出向量进行偏置计算以获取目标图像的图像质量分数,基于此,本方法:1)局部特征提取模块的计算复杂度固定,在视口数量较多时可以实现更为轻量级的计算;2)该采样点坐标基于球面均匀采样,通过球面均匀采样在观察空间选取在球面上分布均匀的采样点,根据每个采样点所在的纬度确定以该采样点为中心的视口宽度,从而保证各局部特征对应相同的视场角,如此既能有效避免了模型计算过程中的多次前馈操作,又能维持观察空间和表示空间像素密度的一致性,并确保所提取各局部特征对应相同的视场角。


    技术特征:

    1.一种特征共享和多视口自适应的全景图像质量评价方法,其特征在于,包括:

    2.如权利要求1所述的特征共享和多视口自适应的全景图像质量评价方法,其特征在于,将目标图像输入至预训练的resnet50骨干网络中,以提取所述目标图像的多尺度特征,并通过不同步长的卷积核将所述多尺度特征中的每个尺度的特征映射至相同维度以对映射后的特征进行拼接形成多尺度质量特征的过程,包括:

    3.如权利要求2所述的特征共享和多视口自适应的全景图像质量评价方法,其特征在于,采用斐波那契球面均匀采样算法对所述目标图像进行采样计算以获取采样点坐标,并基于所述采样点坐标和所述多尺度质量特征提取各个视口对应的特征信息以获取质量视口特征和语义视口特征的步骤,包括:

    4.如权利要求3所述的特征共享和多视口自适应的全景图像质量评价方法,其特征在于,采用斐波那契球面均匀采样算法对所述多尺度质量特征进行采样计算以获取采样点坐标的步骤,包括:

    5.如权利要求4所述的特征共享和多视口自适应的全景图像质量评价方法,其特征在于,根据所述采样点坐标获取各个视口的视口位置信息的步骤,包括:

    6.如权利要求5所述的特征共享和多视口自适应的全景图像质量评价方法,其特征在于,在根据所述视口位置信息和所述多尺度质量特征形成质量视口特征和语义视口特征的过程中,:

    7.如权利要求6所述的特征共享和多视口自适应的全景图像质量评价方法,其特征在于,在将所述质量视口token和所述语义视口token作为预设的tansformer编码器的输入以获取所述tansformer编码器的第n层输出的全局质量特征的过程,包括:

    8.如权利要求7所述的特征共享和多视口自适应的全景图像质量评价方法,其特征在于,基于多头注意力机制对所述第n层输出key向量、第n层输出value向量和第n层输出query向量进行加权和归一化处理以获取所述tansformer编码器的第n层输出的全局质量特征的步骤,包括:

    9.如权利要求8所述的特征共享和多视口自适应的全景图像质量评价方法,其特征在于,将所述全局质量特征输入至预设的回归网络中以获取隐藏层输出向量,并根据所述隐藏层输出向量进行偏置计算以获取所述目标图像的图像质量分数的步骤,包括:

    10.一种特征共享和多视口自适应的全景图像质量评价系统,其特征在于,基于如权利要求1-9中任一项所述的方法,包括:


    技术总结
    本发明提供一种特征共享和多视口自适应的全景图像质量评价方法、系统,首先将多尺度特征中的每个尺度的特征映射至相同维度以对映射后的特征进行拼接形成多尺度质量特征,再基于多尺度质量特征提取各个视口对应的特征信息以获取质量视口特征和语义视口特征,如此,将基于质量视口特征和语义视口特征形成的全局质量特征输入至预设的回归网络中以获取隐藏层输出向量,并根据隐藏层输出向量进行偏置计算以获取目标图像的图像质量分数,基于此,本方法既能有效避免了模型计算过程中的多次前馈操作,又能维持观察空间和表示空间像素密度的一致性,并确保所提取各局部特征对应相同的视场角。

    技术研发人员:叶龙,冯晨曦,张远,王兵,陈志业,罗泽文
    受保护的技术使用者:中国传媒大学
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-24382.html

    最新回复(0)