数据降维方法、装置、计算机设备、存储介质和程序产品与流程

    技术2025-05-31  21


    本技术涉及数据处理,特别是涉及一种数据降维方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。


    背景技术:

    1、随着计算机技术的发展,出现了各种数据处理技术,尤其对于大量的图片类数据,在进行图像识别时,往往需要对数据先进行降维处理,以降低数据处理的复杂度,提升处理的效率。

    2、传统技术中,对于数据降维处理一般分为两类:第一类,是以主成分分析为代表性的线性降维算法,通过借助线性变换,提取原始数据的有效特征,同时对数据进行降维,减少冗余错误信息的干扰,此类算法可解释性较强。第二类,是以拉普拉斯特征映射为代表的非线性降维的算法,通过借助图的概念,从样本之间的近邻关系作为出发点,构造特征矩阵,把相近样本之间的联系建立起来。然而,上述的线性降维算法对于噪声数据鲁棒性不强,容易受到特殊样本的干扰,导致模型过拟合。上述的非线性方法,构造的样本间的关系较为单一,通常只能对有直接连接关系的样本有作用。


    技术实现思路

    1、基于此,有必要针对上述技术问题,提供一种能够在增强算法鲁棒性的同时,捕获数据的更高阶局部结构信息,以构建样本之间更丰富的近邻关系,从而能更好的描述数据的数据降维方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

    2、第一方面,本技术提供了一种数据降维方法,包括:

    3、将用户数据转化为矩阵形式,得到待降维处理的数据矩阵;

    4、将所述数据矩阵转化为数据流形和特征流形,其中,所述数据流形是指基于数据的具体值构建的拉普拉斯矩阵,所述特征流形是指基于数据所处空间的维度值构建的拉普拉斯矩阵;

    5、根据所述数据流形和所述特征流形构建双谱图滤波器,其中,所述双谱图滤波器包括:基于数据流形构建的谱图滤波器和基于特征流形谱图滤波器;

    6、基于所述双谱图滤波器进行正则化的非线性降维处理,得到降维后的用户数据。

    7、在其中一个实施例中,所述将用户数据转化为矩阵形式,得到待降维处理的数据矩阵,包括:

    8、若所述用户数据为用户行为数据,则将用户的k个行为数据作为列向量,且令每个用户为一列数据,则n个用户的行为数据组成一个rk*n的二维矩阵;

    9、若所述用户数据为用户图片数据,则将二维图片数据拉伸变换成一组包含k个元素的列向量,则n个用户的图片数据组成一个rk*n的二维矩阵;其中,n,k表示大于0的自然数。

    10、在其中一个实施例中,所述将所述数据矩阵转化为数据流形和特征流形,包括:

    11、构建所述数据矩阵的近邻图;

    12、根据所述近邻图构建邻接矩阵和对角矩阵;

    13、根据所述邻接矩阵和所述对角矩阵计算拉普拉斯矩阵,得到所述数据流形和所述特征流形。

    14、在其中一个实施例中,在根据所述数据流形和所述特征流形构建双谱图滤波器之前,所述方法还包括:

    15、确定双谱图滤波器的滤波器参数。

    16、在其中一个实施例中,所述确定双谱图滤波器的滤波器参数,包括:

    17、构建测试数据集,其中,所述测试数据集中的用户数据已经转换为数据矩阵,且预先已知结果;

    18、选取所述测试数据集中的部分数据矩阵转化为数据流形和特征流形,并构建双谱图滤波器,其中,所述双谱图滤波器中的滤波器参数为随机生成;

    19、基于所述双谱图滤波器进行正则化的非线性降维处理,得到降维后的用户数据;

    20、对所述降维后的用户数据进行识别处理,得到识别结果;

    21、根据用户数据的预先已知结果对所述识别结果进行准确率评估;

    22、若准确率大于预设值,则记录所述双谱图滤波器的滤波器参数;

    23、若准确率不大于预设值,则调整所述双谱图滤波器的滤波器参数,并重新进行非线性降维处理,直到所述识别结果的准确率大于预设置时,记录所述双谱图滤波器的滤波器参数。

    24、在其中一个实施例中,在根据所述数据流形和所述特征流形构建双谱图滤波器之前,所述方法还包括:

    25、判断所述用户数据的类别是否属于原始数据集中包含的数据类别;

    26、若属于,则无需调整所述双谱图滤波器的滤波器参数;

    27、若不属于,则根据所述用户数据构建新的测试数据集,并基于所述新的测试数据集,重新确定所述双谱图滤波器的滤波器参数。

    28、第二方面,本技术还提供了一种数据降维装置,包括:

    29、预处理模块,用于将用户数据转化为矩阵形式,得到待降维处理的数据矩阵;

    30、数据转化模块,用于将所述数据矩阵转化为数据流形和特征流形,其中,所述数据流形是指基于数据的具体值构建的拉普拉斯矩阵,所述特征流形是指基于数据所处空间的维度值构建的拉普拉斯矩阵;

    31、双谱图滤波器构建模块,用于根据所述数据流形和所述特征流形构建双谱图滤波器,其中,所述双谱图滤波器包括:基于数据流形构建的谱图滤波器和基于特征流形谱图滤波器;

    32、降维处理模块,用于基于所述双谱图滤波器进行正则化的非线性降维处理,得到降维后的用户数据。

    33、第三方面,本技术还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

    34、将用户数据转化为矩阵形式,得到待降维处理的数据矩阵;

    35、将所述数据矩阵转化为数据流形和特征流形,其中,所述数据流形是指基于数据的具体值构建的拉普拉斯矩阵,所述特征流形是指基于数据所处空间的维度值构建的拉普拉斯矩阵;

    36、根据所述数据流形和所述特征流形构建双谱图滤波器,其中,所述双谱图滤波器包括:基于数据流形构建的谱图滤波器和基于特征流形谱图滤波器;

    37、基于所述双谱图滤波器进行正则化的非线性降维处理,得到降维后的用户数据。

    38、第四方面,本技术还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

    39、将用户数据转化为矩阵形式,得到待降维处理的数据矩阵;

    40、将所述数据矩阵转化为数据流形和特征流形,其中,所述数据流形是指基于数据的具体值构建的拉普拉斯矩阵,所述特征流形是指基于数据所处空间的维度值构建的拉普拉斯矩阵;

    41、根据所述数据流形和所述特征流形构建双谱图滤波器,其中,所述双谱图滤波器包括:基于数据流形构建的谱图滤波器和基于特征流形谱图滤波器;

    42、基于所述双谱图滤波器进行正则化的非线性降维处理,得到降维后的用户数据。

    43、第五方面,本技术还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:

    44、将用户数据转化为矩阵形式,得到待降维处理的数据矩阵;

    45、将所述数据矩阵转化为数据流形和特征流形,其中,所述数据流形是指基于数据的具体值构建的拉普拉斯矩阵,所述特征流形是指基于数据所处空间的维度值构建的拉普拉斯矩阵;

    46、根据所述数据流形和所述特征流形构建双谱图滤波器,其中,所述双谱图滤波器包括:基于数据流形构建的谱图滤波器和基于特征流形谱图滤波器;

    47、基于所述双谱图滤波器进行正则化的非线性降维处理,得到降维后的用户数据。

    48、上述数据降维方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,将用户数据转化为矩阵形式,得到待降维处理的数据矩阵;以便于后续进行降维处理符合矩阵算法要求,提升处理效率。将所述数据矩阵转化为数据流形和特征流形,其中,所述数据流形是指基于数据的具体值构建的拉普拉斯矩阵,所述特征流形是指基于数据所处空间的维度值构建的拉普拉斯矩阵;通过构建数据流形和特征流形两种拉普拉斯矩阵,从而可以保留数值信息和空间维度信息。根据所述数据流形和所述特征流形构建双谱图滤波器,其中,所述双谱图滤波器包括:基于数据流形构建的谱图滤波器和基于特征流形谱图滤波器;基于所述双谱图滤波器进行正则化的非线性降维处理,得到降维后的用户数据。从而能够在增强算法鲁棒性的同时,捕获数据的更高阶局部结构信息,以构建样本之间更丰富的近邻关系,从而能更好的描述数据。


    技术特征:

    1.一种数据降维方法,其特征在于,所述方法包括:

    2.根据权利要求1所述的方法,其特征在于,所述将用户数据转化为矩阵形式,得到待降维处理的数据矩阵,包括:

    3.根据权利要求1所述的方法,其特征在于,所述将所述数据矩阵转化为数据流形和特征流形,包括:

    4.根据权利要求1至3任意一项所述的方法,其特征在于,在根据所述数据流形和所述特征流形构建双谱图滤波器之前,所述方法还包括:

    5.根据权利要求4所述的方法,其特征在于,所述确定双谱图滤波器的滤波器参数,包括:

    6.根据权利要求4所述的方法,其特征在于,在根据所述数据流形和所述特征流形构建双谱图滤波器之前,所述方法还包括:

    7.一种数据降维装置,其特征在于,所述装置包括:

    8.根据权利要求7所述的装置,其特征在于,所述预处理模块,具体用于:

    9.根据权利要求7所述的装置,其特征在于,所述数据转化模块,具体用于:

    10.根据权利要求7至9任意一项所述的装置,其特征在于,所述装置还包括:参数确定模块,所述参数确定模块,用于在根据所述数据流形和所述特征流形构建双谱图滤波器之前,确定双谱图滤波器的滤波器参数。

    11.根据权利要求10所述的装置,其特征在于,所述参数确定模块,具体用于:

    12.根据权利要求10所述的装置,其特征在于,所述装置还包括:数据类别判断模块,

    13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

    14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

    15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。


    技术总结
    本申请涉及数据处理领域,具体公开了一种数据降维方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。方法包括:将用户数据转化为矩阵形式,得到待降维处理的数据矩阵;将数据矩阵转化为数据流形和特征流形,根据数据流形和特征流形构建双谱图滤波器,其中,双谱图滤波器包括:基于数据流形构建的谱图滤波器和基于特征流形谱图滤波器;基于双谱图滤波器进行正则化的非线性降维处理,得到降维后的用户数据。通过在数据流形的基础上,利用特征流形构建双谱图滤波器,以获取数据所处空间的维度信息之间的K阶连接关系,从而在增强算法鲁棒性的同时,能够捕获更高阶局部结构信息,构建样本之间更丰富的近邻关系,从而能更好的描述数据。

    技术研发人员:潘宜辰
    受保护的技术使用者:中国建设银行股份有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-31625.html

    最新回复(0)