一种基于级联掩膜模型的全髋骨置换术X影像无监督去噪方法

    技术2026-05-06  12


    本发明属于x影像图像处理领域。


    背景技术:

    1、全髋关节置换手术(total hip arthroplasty,tha)使用金属髋关节假体替换人体髋关节,能有效治疗髋关节疾病,是治疗髋关节严重损伤的标准手术。随着我国社会老龄化加剧,全髋关节置换术的需求量也在不断增大。在tha中,手术医生需要对术前术后的x射线放射图像进行手动的关键点标注与关键角度计算,从而制定手术方案与评估术后风险。然而,x射线的成像过程容易受到电子干扰、线束硬化现象影响,影像中往往包含大量噪声。尤其是tha术后,患者体内被置入金属假体,当x射线穿过金属时,金属会对x射线进行散射或吸收,产生严重的金属伪影。复杂的噪声和金属伪影会严重干扰医生的判断,进而影响tha手术效果。

    2、目前x射线放射图像的主流去噪方法有两种,分别是基于传统图像处理和基于深度学习的去噪方法。基于传统图像处理的去噪方法一般利用频域滤波或图像梯度进行去噪,工作原理是直接对图像进行变换实现图像降噪,但是这种方法并不能完全去除噪声与伪影,同时也会造成图像的过渡平滑,丢失掉部分信息。现有的基于深度学习的去噪方法主要基于卷积神经网络(convolutional neural networks,cnn)的有监督去噪方法,其训练数据集是大规模人工标注的有噪声图像或是大批量有噪声-无噪声图像对,而在实际的医学应用中,高质量的标注成本极其昂贵,并且有噪声-无噪声图像对难以获取,所以有监督的深度学习去噪方法难以在临床场景中应用推广。因此,为了克服有监督去噪模型的弊端,学者们近期也逐渐开展了基于无监督深度学习的医学影像去噪研究,例如,liu等人提出了一种针对ct图像去噪的扩散模型,liu,x.,yaoqin xie,junting cheng,songhui diao,shan tan and xiaokun liang.“diffusion probabilistic priors for zero-shot low-dose ct image denoising.”(2023),采用一个无条件扩散模型和一个有条件扩散模型级联,该方法使用扩散先验对低剂量ct图进行去噪。但是该模型需要较多迭代次数,模型训练时间太长,并且模型层数较多,难以收敛。


    技术实现思路

    1、针对目前基于传统图像处理的去噪算法无法完全去除噪声以及可能会过渡平滑丢失信息、基于深度学习的去噪方法迭代步长较大,模型训练时间太长,且模型层数较多,难以收敛,同时训练数据集难以获得的问题,本专利提出了一种基于级联掩膜cmdit模块的全髋骨置换术x影像无监督去噪方法。

    2、本专利提出将多个diffusion transformers(dit)模型级联,将位于浅层的dit模块所生成的低分辨率去噪正常x射线辐射剂量放射(normal dose x-ray radiation,ndxr)图像,作为下一级dit模块的条件参数c,进而把一次性生成高分辨率清晰去噪图像的总任务拆分为由多个子任务,每个子任务中的dit模块都采用较小的结构并单独进行训练,极大地减小了模型的层数,降低了模型训练难度。

    3、对于目前医学图像去噪模型训练数据获取难度大的问题,本专利通过扩散先验求解出迭代去噪算法,从低x射线辐射剂量放射(low dose x-ray radiation,ldxr)图像生成相较于前一个模型分辨率更高的去噪图像,实现仅需ndxr图像的完全无监督训练。

    4、对于目前医学图像去噪模型由于多次迭代导致训练耗时长的问题,本专利提出了掩膜mask方法,在生成tokens信息的过程中,并行计算所有tokens,只对置信度较低的tokens重新计算,对置信度较高的tokens进行保留,大大降低迭代次数,减少模型训练时间。

    5、因而本发明采用的技术方案为:一种基于级联掩膜模型的全髋骨置换术x影像无监督去噪方法,该方法包括:

    6、步骤1:获取人体骨盆位髋关节的图像数据集;该数据集为全髋关节置换手术前术后的正骨盆位和单侧骨盆位的图像,图像包括:ndxr图像和ldxr图像;ndxr表示正常x射线辐射剂量放射,ldxr表示低x射线辐射剂量放射;

    7、步骤2:构建dit模块,dit模块包括变分自动编码器vae和u-vit网络;

    8、输入图像、扩散时间t以及条件c拼接后作为变分自动编码器vae的输入,通过变分自动编码器vae将输入图像、扩散时间t以及条件c映射到潜在空间,若条件c不存在则不映射;然后将映射后的数据输入u-vit网络;

    9、步骤3:将n个dit模块级联,使用ndxr图像对每个dit模块单独训练;第一个dit模块为无条件dit模块,训练流程为n*k阶降采样ndxr图像通过前向扩散产生随机噪声,对随机噪声进行不断去噪产生一个n*k阶降采样的ndxr图像,n为级联模型的数量,k为预先设定的降采样阶数;向后级联n-1个有条件dit模块,对于第n个dit模块,将前一个dit模块生成的低分辨率的ndxr图像作为条件,以n*k阶降采样ndxr图像经前向扩散产生的随机噪声作为输入,训练模型对随机噪声不断去噪恢复为n*k阶降采样ndxr图像;

    10、步骤4:采用mask方法生成tokens;

    11、对tokens进行遮掩,并行生成tokens并计算置信度,随后保留置信度高于阈值的tokens并重新生成置信度低于设定阈值的tokens内容,不断重复直至生成所有tokens信息;tokens表示噪声,mask表示掩膜;

    12、步骤5:ldxr图像的去噪;

    13、将ldxr图像y0输入进预训练的无条件dit模块,经过n*k阶降采样为通过前向扩散得到完全随机噪声图根据由扩散先验得出的无条件迭代去噪算法,经过dit的反向扩散得到去噪后的低分辨率ndxr图像作为下一级有条件dit模块的条件输入;

    14、步骤6:步骤5中无条件dit生成的低分辨率ndxr图像作为一个有条件dit模块的条件c输入,同时对y0进行(n–1)*k阶降采样与前向扩散获得输入进有条件dit模块,根据有条件迭代去噪算法,生成低分辨率ndxr图像作为下一级dit模块的条件c输入;

    15、步骤7:重复步骤6,直到最后一级有条件dit模块生成超高分辨率ndxr图像x0,完成对ldxr图像的降噪。

    16、进一步的,所述步骤2中单个dit模块中u-vit网络为多个串联的transformerblock结构,transformer block为transformer架构中的一个组件,每个transformerblock结构为:patch embedding模块的输出数据为a,依次经过transformer block结构、第一norm模块、multi-head attention模块后,multi-head attention模块的输出数据拼接输入数据a得到数据b,数据b依次经过第二norm模块、mlp模块,mlp模块的输出数据与第二norm模块的输出数据拼接后依次经过第三norm模块、pointwise feedforward模块,pointwise feedforward模块的输出与数据b拼接后作为transformer block结构的输出;

    17、patch embedding模块表示对图像进行切分处理,将图像分为多个尺寸相同的小图像,然后将每个小图像进行扁平化处理,multi-head attention表示多头注意力块,mlp表示对图像进行升维再降维操作,pointwise feedforward表示非线性变换模块;

    18、进一步的,所述步骤3中,dit模块的训练方法为:

    19、前向扩散过程为:将ndxr图像拆分为多个大小相同的图像块,记录每个图像块的位置,每个图像块单独输入变分自动编码器vae,使用现有的变分自动编码器vae将图像空间x映射到潜在空间z,潜在维度为d;将时间步长t以及条件参数c也通过变分自动编码器vae后,将映射后的所有扁平化序列进行拼接,然后输入进嵌入层,嵌入对应的位置信息;若条件参数c不存在,则不嵌入条件参数;将潜在空间上的序列输入进多头注意力块,通过多头注意力机制将图像信息映射到q、k、v三个向量,q表示查询向量,用于在序列中寻找相关信息,k表示键向量,用于与查询向量匹配的相关性,v为值向量,由q、k点乘的加权求和得到,通过q,k,v三个向量实现网络对全局信息的注意;最后通过mlp将序列升维再降维,得到维度不变的序列;然后通过逆转前向扩散过程学习dit模块反向扩散过程,在最后的dit模块之后序列从潜在空间被解码到图像空间,经过重排列生成预测的噪声。

    20、进一步的,所述步骤3的扩散方法具体为:

    21、前向扩散过程为:

    22、

    23、其中,q(xt|x0)表示以x0为条件的xt概率分布,表示高斯分布,x0表示真实的、无噪声的数据样本,i表示单位矩阵,是预先设定好的参数,在时间步长为t时:

    24、

    25、其中,xt表示时间步长为t时数据样本,εt表示时间步长为t时添加到数据样本中的高斯噪声;

    26、反向扩散过程为:

    27、

    28、pθ(xt-1|xt)表示以xt为条件的xt-1概率分布,uθ(xt,t)表示以xt,t为参数的均值,∑θ(xt,t)表示以xt,t为参数的方差;

    29、反向扩散是通过训练x0的对数似然变分下界实现:

    30、

    31、表示损失函数,dkl(q*(xt-1|xt,x0)||pθ(xt-1|xt))表示kl散度,衡量了模型生成数据分布与真实数据分布的差异,q*(xt-1|xt,x0)表示给定噪声数据xt和原始数据x0的真实后验xt-1分布;

    32、只有dkl项需要训练,且dkl项为:

    33、

    34、表示简化后的训练损失函数,εθ(xt)表示模型在时间步长t时,根据输入数据xt预测的噪声,表示2-范数的平方;

    35、将dit被训练为预测一个噪声εθ尽可能接近前向扩散过程中的εt,使得有噪声图像减去噪声εθ后还原为干净图像。

    36、进一步的,所述步骤4的具体方法为:

    37、采用采样函数生成二进制掩码m={mi}i=1,2...256,t表示采样函数的总步长,t表示当前采样步长,将二进制掩码m作用于潜在空间z,当mi=1时,使用m*token代替原本token内容,结果表示为zm,计算被遮掩token的对数似然:

    38、

    39、zi为zm中的第i个元素,在每一个迭代步长t中,将被遮掩token的logp(zi|zm)作为置信度,未被遮掩的所有的token记为tokens并设置置信度为1;在下一个步长t+1中,根据采样函数重新计算需要遮掩的tokens数量,将置信度最高的tokens取消遮掩,mi的计算方式为:

    40、

    41、表示计算出的置信度,sortedj(.)表示对所有进行从小到大排序,在每个迭代中,并行化预测所有tokens的logp(zi|zm),保留置信度最高的tokens;其余的tokens被遮掩,并在下一次迭代中重新预测;遮掩比率逐渐减小,直到在t次迭代中生成所有tokens。

    42、进一步的,所述步骤5中去噪的具体方法为:

    43、设ldxr图像y0与无噪声的ndxr图像x0之间存在关系:

    44、y0=x0+εn

    45、其中εn表示ldxr图像y0中所包含的噪声,根据前向扩散过程,对于时间步长t,在无条件dit模块中的反向扩散过程中有:

    46、

    47、yt表示时间步长为t时的ldxr图像数据,表示dit中的参数,εt表示时间步长为t时添加到数据样本中的高斯噪声;

    48、将上式带入到前向扩散过程公式,有:

    49、

    50、xt表示ldxr图像yt对应的ndxr图像数据;

    51、将前向扩散过程作为去噪的先验,结合反向扩散公式:

    52、

    53、pθ(x0:t)表示x0到xt的联合概率分布,p(xt)表示单独时间步长t的边际概率分布,pθ(xt-1|xt)表示以xt为条件的xt-1概率分布;

    54、代入最大后验框架求解迭代去噪公式:

    55、

    56、表示由后验计算出的真实ndxr图像xt-1数据,λt-1表示预先设定的超参数,表示以为参数的均值,σt表示时间步长为t时的方差;

    57、若为有条件扩散模型:

    58、

    59、本专利提出了一种基于级联掩膜cmdit模块的全髋骨置换术x影像无监督去噪方法,该方法提出的dit模块以u-vit为主干网络,对噪声有较强的学习能力,并且,利用掩膜mask方法,对置信度较低的tokens进行遮掩,可大幅地减少模型迭代次数和训练时间。之后,将多个dit模块进行级联,上一级dit模块的输出为下一级dit模块的先验条件,有效地降低了模型的训练难度并提高了收敛性。同时,训练过程无需传统的类文本辅助,也无需大量已标注的噪声-非噪声图像对数据集,仅需容易大量获取的ndxr图像就能进行完全无监督训练,生成高分辨率高精确度的去噪影像。因此,本专利提出的去噪方法可有效地去除复杂的影像噪声和伪影,提高髋骨x影像解剖关键点标注工作的精确度,实现更智能化的手术流程。


    技术特征:

    1.一种基于级联掩膜模型的全髋骨置换术x影像无监督去噪方法,该方法包括:

    2.如权利要求1所述的一种基于级联掩膜模型的全髋骨置换术x影像无监督去噪方法,其特征在于,所述步骤2中单个dit模块中u-vit网络为多个串联的transformer block结构,transformer block为transformer架构中的一个组件,每个transformer block结构为:patch embedding模块的输出数据为a,依次经过transformer block结构、第一norm模块、multi-head attention模块后,multi-head attention模块的输出数据拼接输入数据a得到数据b,数据b依次经过第二norm模块、mlp模块,mlp模块的输出数据与第二norm模块的输出数据拼接后依次经过第三norm模块、pointwise feedforward模块,pointwisefeedforward模块的输出与数据b拼接后作为transformer block结构的输出;

    3.如权利要求1所述的一种基于级联掩膜模型的全髋骨置换术x影像无监督去噪方法,其特征在于,所述步骤3中,dit模块的训练方法为:

    4.如权利要求1所述的一种基于级联掩膜模型的全髋骨置换术x影像无监督去噪方法,其特征在于,所述步骤3的扩散方法具体为:

    5.如权利要求1所述的一种基于级联掩膜模型的全髋骨置换术x影像无监督去噪方法,其特征在于,所述步骤4的具体方法为:

    6.如权利要求1所述的一种基于级联掩膜模型的全髋骨置换术x影像无监督去噪方法,其特征在于,所述步骤5中去噪的具体方法为:


    技术总结
    本发明公开了一种基于级联掩膜模型的全髋骨置换术X影像无监督去噪方法,属于图像处理领域。本发明对DiT模块的Tokens生成过程进行了改进,并且为了提高去噪影像的生成精度、降低训练难度,本专利构建了级联DiT模块,前一个DiT生成的低分辨率图像作为下一个DiT模块的条件输入,从而逐步生成超高分辨率的无噪声人体髋关节图像。利用扩散先验计算迭代去噪算法,只需要医学实践中容易获得的无噪声人体髋关节图像对模型进行完全无监督训练。本发明所提出的级联掩膜CMDiT模块训练简单,生成的去噪影像准确且分辨率高,能够大大提高医生在全髋骨置换术前术后中的手术方案制定与手术效果评估的准确性,在医学领域中起着重要的作用。

    技术研发人员:万佳欣,郝如茜,王浩然,刘霖,李伟,杜晓辉,刘娟秀,张静
    受保护的技术使用者:电子科技大学
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-42384.html

    最新回复(0)