特征编码方法、装置、电子设备和存储介质与流程

    技术2024-12-06  12


    本技术属于数据预处理领域,特别涉及一种特征编码方法、装置、电子设备和存储介质。


    背景技术:

    1、在相关技术中,结构化数据是电信领域中种类最多、体量最大的数据类型,是服务智能化转型升级发展的基础生产要素。为了挖掘结构化数据的数据价值,需要对结构化数据中的特征进行编码,针对编码结果进行后续处理,例如可以用于训练神经网络。在相关技术中,在对结构化数据中的特征进行编码时,没有考虑结构化数据中不同数据之间的时序,因此,编码结果并不能体现不同时段同一特征之间的关系,不利于后续进一步使用编码结果,降低了编码结果的适用范围。


    技术实现思路

    1、本技术实施例提供一种特征编码方法、装置、电子设备和存储介质。

    2、本技术实施例提供一种特征编码方法,所述方法包括:

    3、获取连续多个周期的结构化数据,所述多个周期中每个周期的结构化数据包括至少一个连续特征和/或至少一个离散特征;

    4、针对所述每个周期的结构化数据中的特征进行编码,得到所述每个周期的特征编码数据;

    5、按照所述连续多个周期的时序,将连续多个周期的特征编码数据转换为编码序列数据,所述编码序列数据至少包括所述连续多个周期的特征编码数据。

    6、在一些实施例中,所述按照所述连续多个周期的时序,将连续多个周期的编码数据转换为编码序列数据,包括:按照所述连续多个周期的时序,确定所述多个周期中每个周期的位置编码,所述位置编码用于表征所述每个周期在所述连续多个周期中的时序位置;针对所述连续多个周期的每个周期,将所述特征编码数据和所述位置编码组合,得到所述每个周期的组合编码数据;将所述连续多个周期的组合编码数据进行组合,得到所述编码序列数据。

    7、可以看出,本技术实施例可以在不同周期的特征编码数据加入对应的位置编码,从而使得最终得出的编码序列数据能够更加准确地体现不同周期同一特征之间的关系,在使用编码序列数据训练模型的情况下,需要训练的模型可以学习到不同周期同一特征之间的关系,有利于提升训练后的模型的性能。

    8、在一些实施例中,所述针对所述每个周期的结构化数据中的特征进行编码,得到所述每个周期的特征编码数据,包括:针对所述每个周期的结构化数据中的每个离散特征,进行特征名称和特征取值的编码,得到所述每个离散特征的第一编码;生成所述每个周期的特征编码数据,所述每个周期的特征编码数据至少包括所述每个周期的结构化数据中的所有离散特征的第一编码。

    9、可以看出,本技术实施例可以针对结构化数据中的离散特征,进行特征名称和特征取值的编码,与相关技术中采用的对离散特征进行编码的方案相比,在一定程度上可以减少离散特征的编码过程带来的信息损失,并且可以提升每个周期的特征编码数据中离散特征表示的有效性。

    10、在一些实施例中,针对所述每个周期的结构化数据中的每个离散特征,进行特征取值的编码,包括:针对所述每个周期的结构化数据中的每个离散特征,确定每个特征取值的频数编码,所述频数编码用于表征每个特征取值在对应离散特征的各个特征取值中的出现频率。

    11、可以看出,本技术实施例可以针对结构化数据中的离散特征,进行特征取值的频数编码,与相关技术中采用的对离散特征的方案相比,在一定程度上可以减少离散特征的编码过程带来的信息损失。

    12、在一些实施例中,在生成所述每个周期的特征编码数据前,所述方法还包括:在所述结构化数据包括具有标注数据的训练数据时,针对所述每个周期的训练数据中的每个离散特征,确定每个离散特征对应的所有标注数据的均值以及每个特征取值对应的标注数据的均值;根据所述每个离散特征对应的所有标注数据的均值以及每个特征取值对应的标注数据的均值,生成用于表征所述训练数据的训练目标的目标编码;所述每个周期的特征编码数据还包括所述每个离散特征对应的目标编码。

    13、可以看出,本技术实施例可以对训练数据中的每个离散特征,进行目标编码,在每个周期的特征编码数据还包括每个离散特征对应的目标编码的情况下,可以将每个周期的特征编码数据可以应用于有监督的模型训练任务中,即,本技术实施例的特征编码方案可以应用于有监督的模型训练任务,有利于基于每个周期的特征编码数据,高效地执行有监督的模型训练任务。

    14、在一些实施例中,所述针对所述每个周期的结构化数据中的特征进行编码,得到所述每个周期的特征编码数据,包括:针对所述每个周期的结构化数据中的每个连续特征,进行特征名称和特征的归一化取值的编码,得到所述每个连续特征的第二编码;生成所述每个周期的特征编码数据,所述每个周期的特征编码数据至少包括所述每个周期的结构化数据中的所有连续特征的第二编码。

    15、可以看出,通过对连续特征的特征取值进行归一化处理,可以在一定程度山消除不同周期数据分布的差异性;进一步地,本技术实施例可以针对结构化数据中的离散特征,进行特征名称和特征的归一化取值的编码,与相关技术中采用的对连续特征进行编码的方案相比,在一定程度上可以减少连续特征的编码过程带来的信息损失。

    16、在一些实施例中,在生成所述每个周期的特征编码数据前,所述方法还包括:针对所述每个周期的结构化数据中的每个连续特征,进行特征的归一化取值的统计,得到所述每个连续特征的统计数据;所述每个周期的特征编码数据还包括所述每个周期的结构化数据中的所有连续特征的统计数据。

    17、可以看出,由于每个周期的特征编码数据不仅可以体现对特征名称和特征的归一化取值的编码,还可以体现连续特征的统计数据,因此,可以提升每个周期的特征编码数据中连续特征的表示的有效性。

    18、在一些实施例中,所述针对所述每个周期的结构化数据中的特征进行编码,得到所述每个周期的特征编码数据,包括:在目标周期的结构化数据中的特征包括连续特征和离散特征的情况下,对所述目标周期的结构化数据中的离散特征进行编码,得到所述目标周期的结构化数据中的离散特征的第一编码结果;对所述目标周期的结构化数据中的连续特征进行编码,得到所述目标周期的结构化数据中的连续特征的第二编码结果;所述目标周期为所述连续多个周期中的任意一个周期;将所述第一编码结果和所述第二编码结果进行维度对齐,将经维度对齐后的所述第一编码结果和所述第二编码结果组合,得到所述目标周期的特征编码数据。

    19、可以理解地,通过将第一编码结果和第二编码结果进行维度对齐,有利于实现经维度对齐后的第一编码结果和第二编码结果的组合,从而有利于生成目标周期的特征编码数据。

    20、本技术实施例还提供一种特征编码装置,所述装置包括:

    21、获取模块,用于获取连续多个周期的结构化数据,所述多个周期中每个周期的结构化数据包括至少一个连续特征和/或至少一个离散特征;

    22、第一处理模块,用于针对所述每个周期的结构化数据中的特征进行编码,得到所述每个周期的特征编码数据;

    23、第二处理模块,用于按照所述连续多个周期的时序,将连续多个周期的特征编码数据转换为编码序列数据,所述编码序列数据至少包括所述连续多个周期的特征编码数据。

    24、本技术实施例还提供了一种电子设备,所述电子设备包括处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,所述处理器用于运行所述计算机程序以执行上述任意一种特征编码方法。

    25、本技术实施例还提供了一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任意一种特征编码方法。

    26、可以看出,本技术实施例可以在获取连续多个周期的结构化数据的情况下,对每个周期的结构化数据中的特征进行编码,得到每个周期的特征编码数据;在将连续多个周期的特征编码数据转换为编码序列数据的过程中,需要考虑连续多个周期的时序,因此,编码序列数据可以体现不同时段同一特征之间的关系,有利于扩大编码序列数据的应用场景,即有利于增加编码序列数据的适用范围。


    技术特征:

    1.一种特征编码方法,其特征在于,所述方法包括:

    2.根据权利要求1所述的方法,其特征在于,所述按照所述连续多个周期的时序,将连续多个周期的编码数据转换为编码序列数据,包括:

    3.根据权利要求1所述的方法,其特征在于,所述针对所述每个周期的结构化数据中的特征进行编码,得到所述每个周期的特征编码数据,包括:

    4.根据权利要求3所述的方法,其特征在于,针对所述每个周期的结构化数据中的每个离散特征,进行特征取值的编码,包括:

    5.根据权利要求3所述的方法,其特征在于,在生成所述每个周期的特征编码数据前,所述方法还包括:

    6.根据权利要求1所述的方法,其特征在于,所述针对所述每个周期的结构化数据中的特征进行编码,得到所述每个周期的特征编码数据,包括:

    7.根据权利要求6所述的方法,其特征在于,在生成所述每个周期的特征编码数据前,所述方法还包括:

    8.根据权利要求1至7任一项所述的方法,其特征在于,所述针对所述每个周期的结构化数据中的特征进行编码,得到所述每个周期的特征编码数据,包括:

    9.一种特征编码装置,其特征在于,所述装置包括:

    10.一种电子设备,其特征在于,所述电子设备包括处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,

    11.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8任一项所述的特征编码方法。


    技术总结
    本实施例公开了一种特征编码方法、装置、电子设备和计算机存储介质,该方法包括:获取连续多个周期的结构化数据,所述多个周期中每个周期的结构化数据包括至少一个连续特征和/或至少一个离散特征;针对所述每个周期的结构化数据中的特征进行编码,得到所述每个周期的特征编码数据;按照所述连续多个周期的时序,将连续多个周期的特征编码数据转换为编码序列数据,所述编码序列数据至少包括所述连续多个周期的特征编码数据。

    技术研发人员:纪春芳,郭曦煜,邱婉,王础,刘遥遥,赵学峰
    受保护的技术使用者:中国移动通信有限公司研究院
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-23170.html

    最新回复(0)