本发明属于图像数聚类分析领域,涉及一种基于双层标签传播的增量半监督图像聚类方法与系统。
背景技术:
1、图像聚类是计算机视觉和模式识别中的一个重要研究领域,其目的是根据图像特征将相似的图像归为一类,使得同一类中的图像具有较高的相似性,而不同类之间的相似性较低。然而手动标注图像数据需要大量的人力和时间,特别是在专业领域(如医学影像)中,专家标注的成本更高。如何高效、准确地对不断增加且拥有少量半监督信息的图像数据进聚类成为研究者关注的重点。
2、在已有的图像聚类方法中,要么设计增量学习算法解决如何随着新图像数据的到来持续更新模型的问题,要么研究半监督聚类算法,利用有限的标记图像数据指导未标记图像数据的聚类,从而达到提高聚类质量的目的。但是目前很少有人研究增量的半监督图像聚类算法,以解决在图像数据流环境中同时,利用有限标记图像数据和大量未标记图像数据进行增量聚类的问题。
3、因此,需要一种能够高效处理增量图像数据的增量半监督图像聚类方法,以满足现代图像数据处理需求适用于实时检测和聚类的应用,如视频监控、医疗诊断等。
技术实现思路
1、发明的目的:本发明的目的在于设计一种基于双层标签传播的增量半监督图像聚类方法与系统,实现对随时间递增的图像数据及其成对约束进行增量半监督图像聚类。
2、技术方案:为实现上述发明目的,本发明采用如下技术方案:
3、基于双层标签传播的增量半监督图像聚类方法,其特征在于,包括如下步骤:
4、(1)给定初始时刻经过预处理的图像数据样本集和约束条件集xi表示第i幅图像拉成的向量,n0为初始时刻样本数量,样本集中包括初始时刻受约束的图像数据集和不受约束的图像数据集表示第i和第j幅图像属于同一类,则表示第i和第j幅图像不属于同一类;采用双层半监督随机游走获得初始时刻的聚类结果y0,具体包括:
5、样本层的随机游走:首先结合约束信息计算图像样本间的相似度矩阵w0,采用行归一化获取图像样本间的概率转移矩阵p0,然后进行样本层的随机游走,设定为随机游走的吸收态,为转移态,定义每个受约束图像数据以及受其影响的部分图像数据为一个组件,计算稳态分布中每个受约束图像数据对其它图像数据的吸收概率,作为每个图像数据对不同组件的隶属度矩阵f0;
6、组件层的随机游走:结合约束信息计算组件间的相似度矩阵s0,采用行归一化获取组件之间的概率转移矩阵q0,随后对其进行特征值分解获取每个组件在低维空间的簇指示矩阵u0,再联合隶属度矩阵f0获取图像数据样本在低维空间的簇指示矩阵g0,对g0进行聚类,得到初始时刻的聚类结果y0;
7、(2)给定t>0时刻的新增的图像数据样本集和新增的约束条件集和分别表示t时刻新增的必连约束和不连约束,得到t时刻累积的图像数据样本集和累积的约束条件集样本集中包括t时刻累积的受约束图像数据集和无约束图像数据集和分别表示t-1时刻累积的图像数据样本集和约束条件集;采用双层半监督标签传播获得t时刻所有图像数据的聚类结果y0:t,具体包括:
8、样本层的标签传播:利用图像数据样本的空间分布在时间上具有平滑性的特点,增量计算t时刻所有图像样本之间的相似度矩阵w0:t,并结合约束信息进行相似度的调整,接着采用行归一化得到当前时刻所有图像样本间的概率转移矩阵p0:t,通过标签传播算法增量计算t时刻图像样本对组件的隶属度矩阵f0:t;
9、组件层的标签传播:结合约束信息计算t时刻组件间的相似度矩阵s0:t,采用行归一化获取组件间的概率转移矩阵q0:t,利用上一时刻的聚类结果y0:t-1计算簇代表组件进而获取簇标签信息,通过标签传播计算t时刻组件对各个簇的隶属度矩阵r0:t,最后联合隶属度矩阵f0:t,计算所有图像样本对簇的隶属度矩阵g0:t,对g0:t进行聚类,获得t时刻所有图像样本的聚类结果y0:t。
10、作为优选,所述结合约束信息计算图像样本间的相似度矩阵w0,包括首先利用高斯核函数计算两个图像样本的相似度,然后以指数的形式放大或者缩小满足约束条件的图像数据样本之间的相似度,若满足约束则放大相似度,若满足约束则缩小相似度。
11、作为优选,计算图像样本之间的相似度矩阵w0,具体公式如下:
12、
13、其中w0(i,j)表示经过调整后第i和第j幅图像样本之间的相似度矩阵,σ是高斯核函数的参数,q∈(0,1]表示对相似度的调整系数。
14、作为优选,采用行归一化获取图像样本间的概率转移矩阵p0=(diag(w01))-1w0,其中1表示全为元素值全为1的向量,diag(·)表示取矩阵对角向量操作;所述每个图像数据对不同组件的隶属度矩阵的计算方式为:
15、
16、其中和分别表示受约束和无约束的图像数据的被吸收概率,i为单位阵,和为p0内部的块矩阵,表示无约束图像数据样本到自身的概率转移矩阵,表示无约束图像数据样本与受约束图像数据样本之间的概率转移矩阵。
17、作为优选,所述组件间的相似度矩阵s0=(f0)tw0f0,利用约束信息对组件相似度矩阵进行调整,以指数的形式放大或者缩小受约束影响的组件间相似度,若组件包含的受约束图像样本满足约束则放大相似度,若组件包含的受约束图像样本满足约束则缩小相似度;所述每个组件在低维空间的簇指示矩阵u0由对q0进行特征值分解后,取前预设数量的最小特征值所对应的特征向量组成;所述图像数据样本在低维空间的簇指示矩阵为g0=f0×u0。
18、作为优选,t时刻所有图像样本之间的相似度矩阵w0:t结构如下:
19、
20、其中为上一时刻所有图像样本之间的相似度矩阵,当t=1时w0:0=w0,和为上一时刻所有图像数据样本与当前时刻新增图像数据样本之间的相似度矩阵,为当前时刻新增图像数据样本之间的相似度矩阵;根据新增约束条件对w0:t进行调整,以指数的形式放大或者缩小满足新增约束条件的图像数据样本之间的相似度,若满足约束则放大相似度,若满足约束则缩小相似度。
21、作为优选,接着采用分块矩阵的方式增量构造图像样本对组件的隶属度矩阵f0:t,具体如下:
22、
23、其中和分别代表受约束图像数据和无约束图像数据对组件的隶属度矩阵,和分别表示前一时刻所有受约束图像数据和无约束图像数据对组件的隶属度矩阵,当t=1时且表示则分别表示当前t时刻新增图像数据中无约束样本对历史时刻组件的隶属度矩阵,表示历史时刻图像数据中无约束样本对当前t时刻新增组件的隶属度矩阵,则表示新增图像数据样本中无约束样本对组件的隶属度矩阵,计算方式如下:
24、
25、其中表示上一时刻所有无约束图像样本之间的转移概率矩阵,表示上一时刻所有无约束图像样本与当前时刻新增受约束图像样本之间的转移概率矩阵,表示当前时刻新增无约束图像样本之间的转移概率矩阵,表示当前时刻新增无约束图像样本与受约束图像样本之间的转移概率矩阵。
26、作为优选,计算t时刻所有图像样本的聚类结果γ0:t,具体包括:
27、首先计算组件间的相似度矩阵s0:t=(f0:t)tw0:tf0:t,并结合约束信息进行调整,以指数的形式放大或者缩小受约束影响的组件间相似度,若组件包含的受约束图像样本满足约束则放大相似度,若组件包含的受约束图像样本满足约束则缩小相似度;
28、接着通过行归一化获取组件之间的概率转移矩阵q0:t=(diag(s0:t1))-1s0:t;
29、假设数据的增量过程中,簇的数量始终未发生改变,利用上一时刻的聚类结果来计算当前时刻每个簇的簇中心,其中表示t-1时刻的第k个簇,进而得到簇中心集合
30、
31、然后计算当前时刻离每个簇中心最近的簇代表组件,用于代表各个簇:
32、
33、其中表示第k个簇的簇代表组件;
34、接着进行组件层的标签传播,设定选出的簇代表组件为随机游走的吸收态,其余的非簇代表组件为转移态,则稳态分布时所有组件对各个簇的隶属度矩阵r0:t表示为:
35、
36、和分别表示簇代表组件和非簇代表组件对每个簇的隶属度,和为q0:t内部的块矩阵,表示非簇代表组件之间的相互转移概率矩阵,表示簇代表组件到非簇代表组件的转移概率矩阵;
37、最后计算当前时刻所有图像样本对簇的隶属度矩阵g0:t=f0:t×r0:t,并对其进行聚类,得到当前时刻所有图像样本的聚类结果y0:t。
38、一种计算机系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序/指令,所述计算机程序/指令被处理器执行时实现所述的基于双层标签传播的增量半监督图像聚类方法的步骤。
39、一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现所述的基于双层标签传播的增量半监督图像聚类方法的步骤。
40、有益效果:本发明提出了一种用于图像聚类领域的基于双层标签传播的增量半监督图像聚类方法。该方法法克服了以往方法的两大缺点:在传统的图像聚类方法中,要么设计增量学习算法解决如何随着新图像数据的到来持续更新模型的问题,要么研究半监督聚类算法,利用有限的标记图像数据指导未标记图像数据的聚类,从而达到提高聚类质量的目的。但是目前很少有人研究增量的半监督图像聚类算法,以解决在图像数据流环境中同时,利用有限标记图像数据和大量未标记图像数据进行增量聚类的问题。本方法通过结合半监督学习和增量学习,既能利用少量约束图像数据指导图像数据的聚类,达到提高模型性能,又可以增量更新模型,适应新图像数据和新约束的出现,保持模型的时效性和准确性。通过对图像数据的实验表明该方法具有优越的性能,具体表现为:
41、1)提出的方法是针对增量变换的图像数据进行的,采用增量计算技术,可以在新图像样本到达时,依据上一时刻的已有数据增量更新当前时刻所需数据,从而显著降低计算成本,提高处理效率;
42、2)提出的方法能够在少量约束信息的帮助下,指导大量无约束图像数据进行聚类,从而提高聚类的准确性;
43、3)随着时间推移,图像数据分布可能发生变化。本方法能够适应这些变化,及时调整模型,保持聚类结果的稳定性和一致性,避免模型老化。
44、本发明的优点在于它利用了图像数据样本的空间分布在时间上的变化是相对缓慢且连续的特性,将增量学习思想与半监督学习思想相结合,作用于随时间推移不断增加的图像数据集上。该方法不仅在实时处理能力、计算和存储效率表现优异,而且约束信息的增加也能使得聚类质量得到提升。
1.基于双层标签传播的增量半监督图像聚类方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于双层标签传播的增量半监督图像聚类方法,其特征在于,所述结合约束信息计算图像样本间的相似度矩阵w0,包括首先利用高斯核函数计算两个图像样本的相似度,然后以指数的形式放大或者缩小满足约束条件的图像数据样本之间的相似度,若满足约束则放大相似度,若满足约束则缩小相似度。
3.根据权利要求2所述的基于双层标签传播的增量半监督图像聚类方法,其特征在于,计算图像样本之间的相似度矩阵w0,具体公式如下:
4.根据权利要求1所述的基于双层标签传播的增量半监督图像聚类方法,其特征在于,采用行归一化获取图像样本间的概率转移矩阵p0=(disg(w01))-1w0,其中1表示全为元素值全为1的向量,diag(·)表示取矩阵对角向量操作;所述每个图像数据对不同组件的隶属度矩阵的计算方式为:
5.根据权利要求1所述的基于双层标签传播的增量半监督图像聚类方法,其特征在于,所述组件间的相似度矩阵s0=(f0)tw0f0,利用约束信息对组件相似度矩阵进行调整,以指数的形式放大或者缩小受约束影响的组件间相似度,若组件包含的受约束图像样本满足约束则放大相似度,若组件包含的受约束图像样本满足约束则缩小相似度;所述每个组件在低维空间的簇指示矩阵u0由对q0进行特征值分解后,取前预设数量的最小特征值所对应的特征向量组成;所述图像数据样本在低维空间的簇指示矩阵为g0=f0×u0。
6.根据权利要求1所述的基于双层标签传播的增量半监督图像聚类方法,其特征在于,t时刻所有图像样本之间的相似度矩阵w0:t结构如下:
7.根据权利要求1所述的基于双层标签传播的增量半监督图像聚类方法,其特征在于,接着采用分块矩阵的方式增量构造图像样本对组件的隶属度矩阵f0:t,具体如下:
8.根据权利要求1所述的基于双层标签传播的增量半监督图像聚类方法,其特征在于,计算t时刻所有图像样本的聚类结果y0:t,具体包括:
9.一种计算机系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现根据权利要求1-8任一项所述的基于双层标签传播的增量半监督图像聚类方法的步骤。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现根据权利要求1-8任一项所述的基于双层标签传播的增量半监督图像聚类方法的步骤。