本技术涉及数据处理,特别是涉及一种数据降维方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
背景技术:
1、随着计算机技术的发展,出现了各种数据处理技术,尤其对于大量的图片类数据,在进行图像识别时,往往需要对数据先进行降维处理,以降低数据处理的复杂度,提升处理的效率。
2、传统技术中,对于数据降维处理一般分为两类:第一类,是以主成分分析为代表性的线性降维算法,通过借助线性变换,提取原始数据的有效特征,同时对数据进行降维,减少冗余错误信息的干扰,此类算法可解释性较强。第二类,是以拉普拉斯特征映射为代表的非线性降维的算法,通过借助图的概念,从样本之间的近邻关系作为出发点,构造特征矩阵,把相近样本之间的联系建立起来。然而,上述的线性降维算法对于噪声数据鲁棒性不强,容易受到特殊样本的干扰,导致模型过拟合。上述的非线性方法,构造的样本间的关系较为单一,通常只能对有直接连接关系的样本有作用。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够在增强算法鲁棒性的同时,捕获数据的更高阶局部结构信息,以构建样本之间更丰富的近邻关系,从而能更好的描述数据的数据降维方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本技术提供了一种数据降维方法,包括:
3、将用户数据转化为矩阵形式,得到待降维处理的数据矩阵;
4、将所述数据矩阵转化为数据流形和特征流形,其中,所述数据流形是指基于数据的具体值构建的拉普拉斯矩阵,所述特征流形是指基于数据所处空间的维度值构建的拉普拉斯矩阵;
5、根据所述数据流形和所述特征流形构建双谱图滤波器,其中,所述双谱图滤波器包括:基于数据流形构建的谱图滤波器和基于特征流形谱图滤波器;
6、基于所述双谱图滤波器进行正则化的非线性降维处理,得到降维后的用户数据。
7、在其中一个实施例中,所述将用户数据转化为矩阵形式,得到待降维处理的数据矩阵,包括:
8、若所述用户数据为用户行为数据,则将用户的k个行为数据作为列向量,且令每个用户为一列数据,则n个用户的行为数据组成一个rk*n的二维矩阵;
9、若所述用户数据为用户图片数据,则将二维图片数据拉伸变换成一组包含k个元素的列向量,则n个用户的图片数据组成一个rk*n的二维矩阵;其中,n,k表示大于0的自然数。
10、在其中一个实施例中,所述将所述数据矩阵转化为数据流形和特征流形,包括:
11、构建所述数据矩阵的近邻图;
12、根据所述近邻图构建邻接矩阵和对角矩阵;
13、根据所述邻接矩阵和所述对角矩阵计算拉普拉斯矩阵,得到所述数据流形和所述特征流形。
14、在其中一个实施例中,在根据所述数据流形和所述特征流形构建双谱图滤波器之前,所述方法还包括:
15、确定双谱图滤波器的滤波器参数。
16、在其中一个实施例中,所述确定双谱图滤波器的滤波器参数,包括:
17、构建测试数据集,其中,所述测试数据集中的用户数据已经转换为数据矩阵,且预先已知结果;
18、选取所述测试数据集中的部分数据矩阵转化为数据流形和特征流形,并构建双谱图滤波器,其中,所述双谱图滤波器中的滤波器参数为随机生成;
19、基于所述双谱图滤波器进行正则化的非线性降维处理,得到降维后的用户数据;
20、对所述降维后的用户数据进行识别处理,得到识别结果;
21、根据用户数据的预先已知结果对所述识别结果进行准确率评估;
22、若准确率大于预设值,则记录所述双谱图滤波器的滤波器参数;
23、若准确率不大于预设值,则调整所述双谱图滤波器的滤波器参数,并重新进行非线性降维处理,直到所述识别结果的准确率大于预设置时,记录所述双谱图滤波器的滤波器参数。
24、在其中一个实施例中,在根据所述数据流形和所述特征流形构建双谱图滤波器之前,所述方法还包括:
25、判断所述用户数据的类别是否属于原始数据集中包含的数据类别;
26、若属于,则无需调整所述双谱图滤波器的滤波器参数;
27、若不属于,则根据所述用户数据构建新的测试数据集,并基于所述新的测试数据集,重新确定所述双谱图滤波器的滤波器参数。
28、第二方面,本技术还提供了一种数据降维装置,包括:
29、预处理模块,用于将用户数据转化为矩阵形式,得到待降维处理的数据矩阵;
30、数据转化模块,用于将所述数据矩阵转化为数据流形和特征流形,其中,所述数据流形是指基于数据的具体值构建的拉普拉斯矩阵,所述特征流形是指基于数据所处空间的维度值构建的拉普拉斯矩阵;
31、双谱图滤波器构建模块,用于根据所述数据流形和所述特征流形构建双谱图滤波器,其中,所述双谱图滤波器包括:基于数据流形构建的谱图滤波器和基于特征流形谱图滤波器;
32、降维处理模块,用于基于所述双谱图滤波器进行正则化的非线性降维处理,得到降维后的用户数据。
33、第三方面,本技术还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
34、将用户数据转化为矩阵形式,得到待降维处理的数据矩阵;
35、将所述数据矩阵转化为数据流形和特征流形,其中,所述数据流形是指基于数据的具体值构建的拉普拉斯矩阵,所述特征流形是指基于数据所处空间的维度值构建的拉普拉斯矩阵;
36、根据所述数据流形和所述特征流形构建双谱图滤波器,其中,所述双谱图滤波器包括:基于数据流形构建的谱图滤波器和基于特征流形谱图滤波器;
37、基于所述双谱图滤波器进行正则化的非线性降维处理,得到降维后的用户数据。
38、第四方面,本技术还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
39、将用户数据转化为矩阵形式,得到待降维处理的数据矩阵;
40、将所述数据矩阵转化为数据流形和特征流形,其中,所述数据流形是指基于数据的具体值构建的拉普拉斯矩阵,所述特征流形是指基于数据所处空间的维度值构建的拉普拉斯矩阵;
41、根据所述数据流形和所述特征流形构建双谱图滤波器,其中,所述双谱图滤波器包括:基于数据流形构建的谱图滤波器和基于特征流形谱图滤波器;
42、基于所述双谱图滤波器进行正则化的非线性降维处理,得到降维后的用户数据。
43、第五方面,本技术还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
44、将用户数据转化为矩阵形式,得到待降维处理的数据矩阵;
45、将所述数据矩阵转化为数据流形和特征流形,其中,所述数据流形是指基于数据的具体值构建的拉普拉斯矩阵,所述特征流形是指基于数据所处空间的维度值构建的拉普拉斯矩阵;
46、根据所述数据流形和所述特征流形构建双谱图滤波器,其中,所述双谱图滤波器包括:基于数据流形构建的谱图滤波器和基于特征流形谱图滤波器;
47、基于所述双谱图滤波器进行正则化的非线性降维处理,得到降维后的用户数据。
48、上述数据降维方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,将用户数据转化为矩阵形式,得到待降维处理的数据矩阵;以便于后续进行降维处理符合矩阵算法要求,提升处理效率。将所述数据矩阵转化为数据流形和特征流形,其中,所述数据流形是指基于数据的具体值构建的拉普拉斯矩阵,所述特征流形是指基于数据所处空间的维度值构建的拉普拉斯矩阵;通过构建数据流形和特征流形两种拉普拉斯矩阵,从而可以保留数值信息和空间维度信息。根据所述数据流形和所述特征流形构建双谱图滤波器,其中,所述双谱图滤波器包括:基于数据流形构建的谱图滤波器和基于特征流形谱图滤波器;基于所述双谱图滤波器进行正则化的非线性降维处理,得到降维后的用户数据。从而能够在增强算法鲁棒性的同时,捕获数据的更高阶局部结构信息,以构建样本之间更丰富的近邻关系,从而能更好的描述数据。
1.一种数据降维方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将用户数据转化为矩阵形式,得到待降维处理的数据矩阵,包括:
3.根据权利要求1所述的方法,其特征在于,所述将所述数据矩阵转化为数据流形和特征流形,包括:
4.根据权利要求1至3任意一项所述的方法,其特征在于,在根据所述数据流形和所述特征流形构建双谱图滤波器之前,所述方法还包括:
5.根据权利要求4所述的方法,其特征在于,所述确定双谱图滤波器的滤波器参数,包括:
6.根据权利要求4所述的方法,其特征在于,在根据所述数据流形和所述特征流形构建双谱图滤波器之前,所述方法还包括:
7.一种数据降维装置,其特征在于,所述装置包括:
8.根据权利要求7所述的装置,其特征在于,所述预处理模块,具体用于:
9.根据权利要求7所述的装置,其特征在于,所述数据转化模块,具体用于:
10.根据权利要求7至9任意一项所述的装置,其特征在于,所述装置还包括:参数确定模块,所述参数确定模块,用于在根据所述数据流形和所述特征流形构建双谱图滤波器之前,确定双谱图滤波器的滤波器参数。
11.根据权利要求10所述的装置,其特征在于,所述参数确定模块,具体用于:
12.根据权利要求10所述的装置,其特征在于,所述装置还包括:数据类别判断模块,
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。