产业链关联企业的确定方法、装置和存储介质与流程

    技术2025-02-11  52


    本技术涉及数据处理,尤其涉及一种产业链关联企业的确定方法、装置和存储介质。


    背景技术:

    1、目前通常通过多标签分类的方法,或者相似度计算的方法来确定产业链关联的企业。首先,基于多标签分类的方式,通常是先人工标注训练样本,然后使用训练样本训练分类模型,最后使用分类模型来确定产业链关联的企业。可以看出,这种方式需要人工标注训练样本,从而分类效率较低。其次,基于相似度计算的方式,通常是通过计算企业与产业链之间的相似度,再根据相似度阈值来确定产业链关联的企业。但是,由于相似度阈值的设定对于分类的准确率和召回率影响较大,从而使得使用这种方式确定出的产业链关联企业的准确度较差。


    技术实现思路

    1、为了解决上述技术问题,本技术提供了一种产业链关联企业的确定方法、装置和存储介质,能够提高确定出产业链关联企业的准确度。

    2、第一方面,本技术提供了一种产业链关联企业的确定方法,包括:确定目标产业链的产业链关键词和目标种子企业;目标种子企业为与目标产业链关联的企业;根据产业链关键词,从全量企业中筛选出目标产业链的相关企业和无关企业;根据产业链关键词、目标种子企业、以及无关企业训练生成分类模型;利用分类模型对相关企业进行分类处理,得到目标产业链的关联企业。

    3、在一些实施例中,确定目标产业链的产业链关键词,包括:针对多条产业链中的每条产业链,确定至少一个种子企业;根据预设信息采集每个种子企业的种子企业关键词;一个种子企业对应多个种子企业关键词;对所有种子企业关键词进行分析处理,并根据共现分析处理结果确定每条产业链对应的产业链关键词;将多条产业链中的任一条产业链确定为目标产业链,得到目标产业链的产业链关键词。

    4、在一些实施例中,对所有种子企业关键词进行分析处理,并根据共现分析处理结果确定每条产业链对应的产业链关键词,包括:针对每条产业链对应的种子企业,统计每个种子企业关键词的词频tf值;针对所有产业链,统计每个种子企业关键词的逆文档频率idf值;根据tf值和idf值,计算每个种子企业关键词,对于每条产业链的tf-idf值;针对每条产业链,将tf-idf值满足第一条件的种子企业关键词,确定为产业链对应的产业链关键词;第一条件包括:tf-idf值排序在第一阈值之前,或者,tf-idf值大于第二阈值。

    5、在一些实施例中,对所有种子企业关键词进行分析处理,并根据共现分析处理结果确定每条产业链对应的产业链关键词,包括:针对每条产业链,统计每个种子企业关键词的出现频率;将出现频率满足第二条件的种子企业关键词,确定为产业链对应的产业链关键词;第二条件包括:出现频率排序在第三阈值之前,或者,出现频率大于第四阈值。

    6、在一些实施例中,根据产业链关键词,从全量企业中筛选出目标产业链的相关企业和无关企业,包括:根据预设信息采集全量企业中每个企业的企业关键词;针对每个企业,在企业的企业关键词中包括有至少一个产业链关键词时,确定企业为目标产业链的相关企业;在企业的企业关键词中不包括产业链关键词时,确定企业为目标产业链的无关企业。

    7、在一些实施例中,根据产业链关键词、目标种子企业、以及无关企业训练生成分类模型,包括:根据产业链关键词从目标种子企业中确定出正相关企业,并从无关企业中确定出负相关企业;正相关企业的种子企业关键词包括任一产业链关键词;将正相关企业的种子企业关键词作为正样本数据,负相关企业的企业关键词作为负样本数据,采用梯度下降法训练生成分类模型。

    8、在一些实施例中,分类模型包括至少包括向量化层、池化层、权重层、分类层;利用分类模型对相关企业进行分类处理,得到目标产业链的关联企业,包括:针对任一相关企业,确定相关企业的企业关键词,并使用向量化层对企业关键词进行向量化处理,得到特征矩阵;使用池化层对特征矩阵进行平均池化处理,得到池化矩阵;使用权重层对池化矩阵进行加权处理,得到加权特征向量;使用分类层对加权特征向量进行线性变换处理,并将线性变换处理结果映射为二分类结果的概率数值;二分类结果包括相关企业是目标产业链的关联企业,和相关企业不是目标产业链的关联企业;将概率数值中最大的概率数值对应的二分类结果,确定为相关企业的分类结果。

    9、第二方面,本技术提供了一种产业链关联企业的确定装置,包括:获取模块,用于确定目标产业链的产业链关键词和目标种子企业;目标种子企业为与目标产业链关联的企业;筛选模块,用于根据产业链关键词,从全量企业中筛选出目标产业链的相关企业和无关企业;训练模块,用于根据产业链关键词、目标种子企业、以及无关企业训练生成分类模型;处理模块,用于利用分类模型对相关企业进行分类处理,得到目标产业链的关联企业。

    10、在一些实施例中,获取模块,包括确定模块、采集模块、分析模块;确定模块,用于针对多条产业链中的每条产业链,确定至少一个种子企业;采集模块,用于根据预设信息采集每个种子企业的种子企业关键词;一个种子企业对应多个种子企业关键词;分析模块,用于对所有种子企业关键词进行分析处理,并根据共现分析处理结果确定每条产业链对应的产业链关键词;确定模块,还用于将多条产业链中的任一条产业链确定为目标产业链,得到目标产业链的产业链关键词。

    11、在一些实施例中,分析模块,具体用于:针对每条产业链对应的种子企业,统计每个种子企业关键词的词频tf值;针对所有产业链,统计每个种子企业关键词的逆文档频率idf值;根据tf值和idf值,计算每个种子企业关键词,对于每条产业链的tf-idf值;针对每条产业链,将tf-idf值满足第一条件的种子企业关键词,确定为产业链对应的产业链关键词;第一条件包括:tf-idf值排序在第一阈值之前,或者,tf-idf值大于第二阈值。

    12、在一些实施例中,分析模块,具体用于:针对每条产业链,统计每个种子企业关键词的出现频率;将出现频率满足第二条件的种子企业关键词,确定为产业链对应的产业链关键词;第二条件包括:出现频率排序在第三阈值之前,或者,出现频率大于第四阈值。

    13、在一些实施例中,筛选模块,具体用于:根据预设信息采集全量企业中每个企业的企业关键词;针对每个企业,在企业的企业关键词中包括有至少一个产业链关键词时,确定企业为目标产业链的相关企业;在企业的企业关键词中不包括产业链关键词时,确定企业为目标产业链的无关企业。

    14、在一些实施例中,训练模块,具体用于:根据产业链关键词从目标种子企业中确定出正相关企业,并从无关企业中确定出负相关企业;正相关企业的种子企业关键词包括任一产业链关键词;将正相关企业的种子企业关键词作为正样本数据,负相关企业的企业关键词作为负样本数据,采用梯度下降法训练生成分类模型。

    15、在一些实施例中,分类模型包括至少包括向量化层、池化层、权重层、分类层;处理模块,具体用于:针对任一相关企业,确定相关企业的企业关键词,并使用向量化层对企业关键词进行向量化处理,得到特征矩阵;使用池化层对特征矩阵进行平均池化处理,得到池化矩阵;使用权重层对池化矩阵进行加权处理,得到加权特征向量;使用分类层对加权特征向量进行线性变换处理,并将线性变换处理结果映射为二分类结果的概率数值;二分类结果包括相关企业是目标产业链的关联企业,和相关企业不是目标产业链的关联企业;将概率数值中最大的概率数值对应的二分类结果,确定为相关企业的分类结果。

    16、第三方面,本技术提供了一种电子设备,包括:处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现如第一方面任一实施例提供的产业链关联企业的确定方法。

    17、第四方面,本技术提供了一种计算机可读存储介质,包括:计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现如第一方面任一实施例提供的产业链关联企业的确定方法。

    18、第五方面,本技术提供了一种计算机程序产品,包括:当计算机程序产品在计算机上运行时,使得计算机实现如第一方面任一实施例提供的产业链关联企业的确定方法。

    19、本技术提供的技术方案与现有技术相比具有如下优点:首先确定目标产业链的产业链关键词和目标种子企业。其中,目标种子企业为与目标产业链关联的企业。其次,根据产业链关键词,从全量企业中筛选出目标产业链的相关企业和无关企业,并根据产业链关键词、目标种子企业、以及无关企业训练生成分类模型,最后,利用分类模型对相关企业进行分类处理,得到目标产业链的关联企业。可以看出,首先,本技术能够使用产业链关键词对全量企业进行初步筛选,得到相关企业,这样,由于全量企业中与目标产业链关联的企业占少数,因此,这一部分能够过滤掉大部分企业的数据,从而避免使用分类模型对全量企业的分类,在保证确定出目标产业链关联企业的准确度的情况下,节省了计算资源,大幅度缩减了分类用时,间接地提高了用户体验。另外,本技术还能够根据产业链关键词、目标种子企业、以及无关企业训练生成分类模型,并利用分类模型对相关企业进行分类处理,得到目标产业链的关联企业。避免了人工标注训练样本导致分类效率较低的问题,提高了分类效率;同时还避免了采用相似度阈值确定产业链关联企业时,导致确定出的产业链关联企业的准确度较差的问题,提高了确定出产业链关联企业的准确率。


    技术特征:

    1.一种产业链关联企业的确定方法,其特征在于,包括:

    2.根据权利要求1所述的确定方法,其特征在于,所述确定目标产业链的产业链关键词,包括:

    3.根据权利要求2所述的确定方法,其特征在于,所述对所有种子企业关键词进行分析处理,并根据共现分析处理结果确定每条产业链对应的产业链关键词,包括:

    4.根据权利要求2所述的确定方法,其特征在于,所述对所有种子企业关键词进行分析处理,并根据共现分析处理结果确定每条产业链对应的产业链关键词,包括:

    5.根据权利要求1所述的确定方法,其特征在于,所述根据所述产业链关键词,从全量企业中筛选出所述目标产业链的相关企业和无关企业,包括:

    6.根据权利要求1所述的确定方法,其特征在于,所述根据所述产业链关键词、所述目标种子企业、以及所述无关企业训练生成分类模型,包括:

    7.根据权利要求1所述的确定方法,其特征在于,所述分类模型包括至少包括向量化层、池化层、权重层、分类层;所述利用所述分类模型对所述相关企业进行分类处理,得到所述目标产业链的关联企业,包括:

    8.一种产业链关联企业的确定装置,其特征在于,包括:

    9.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的产业链关联企业的确定方法。

    10.一种计算机可读存储介质,其特征在于,包括:所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的产业链关联企业的确定方法。

    11.一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,使得所述计算机实现如权利要求1至6中任一项所述的产业链关联企业的确定方法。


    技术总结
    本申请涉及数据处理技术领域,尤其涉及一种产业链关联企业的确定方法、装置和存储介质。包括:确定目标产业链的产业链关键词和目标种子企业;目标种子企业为与目标产业链关联的企业;根据产业链关键词,从全量企业中筛选出目标产业链的相关企业和无关企业;根据产业链关键词、目标种子企业、以及无关企业训练生成分类模型;利用分类模型对相关企业进行分类处理,得到目标产业链的关联企业。本申请实施例用于解决目前确定出的产业链关联企业准确度较差的问题。

    技术研发人员:白敬宇
    受保护的技术使用者:北京中科闻歌科技股份有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-26312.html

    最新回复(0)