一种基于聚类算法的消保热点数据分析系统及方法与流程

    技术2024-12-19  5


    本发明涉及数据分析,具体为一种基于聚类算法的消保热点数据分析系统及方法。


    背景技术:

    1、随着公众维权意识的提升、市场主体数量的增长以及消费活动的多样性发展,各消费维权平台受理的举报投诉数量与日俱增,对相关事件受理、调解、分派、处置、监督等消费者权益保护工作显得尤为关键;

    2、而在当前,各互联网端的消费维权案件多为消费者自行录入,对维权数据的行业分类存在填写缺乏准确的理解且较为随意,对行业分类选择错误多等问题,同时由于用户自行录入的数据质量低下,数据量庞大,数据多样且不可完全预测,由人工标定而后机器学习的传统的全监督文本分类技术无法完全适用;此外,很多公共互联网平台无监督聚类算法形成的自主分类模型存在数据基础不统一、对同一问题处理结果各不相同等情况,无法给予消费者精准可信的分类结果与维权方向;

    3、因此,需要一种基于聚类算法的消保热点数据分析系统及方法来解决以上问题。


    技术实现思路

    1、本发明的目的在于提供一种基于聚类算法的消保热点数据分析系统及方法,以解决上述背景技术中提出的问题。

    2、为了解决上述技术问题,本发明提供如下技术方案:

    3、一种基于聚类算法的消保热点数据分析方法,包括以下分析步骤:

    4、步骤s100:获取消保维权投诉历史数据,并对历史数据投诉文本进行预处理,获取历史数据投诉文本词向量,并将所有词向量中关键词汇总为已标识关键词库;

    5、步骤s200:根据历史数据投诉文本词向量对预处理的历史数据跟据行业归属进行初次聚类,分析计算各行业消保数据簇中心点;

    6、步骤s300:实时获取消保维权投诉信息,提取投诉文本并进行关键词提取及词权重分析,计算所提取未标识关键词与已标识关键词库中关键词间相似度,将实时获取的消保维权投诉文本中未标识关键词映射为已标识关键词,对实时获取的消保维权投诉文本词向量进行转化;

    7、步骤s400:根据转化后的词向量对实时获取的消保维权投诉文本进行类别划分,并根据划分结果向对应处理部门进行反馈;

    8、步骤s500:实时监测消保维权投诉信息数量,并设置数量阈值上限,当消保维权投诉信息数量大于阈值时,标记时间单位并选取新数据进行聚类模型迭代。

    9、根据上述技术方案,步骤s100包括以下内容:

    10、对历史数据投诉文本使用bert算法进行处理,对于任一历史数据投诉文本,获取投诉文本中所有关键词及各关键词与当前投诉文本的相似度权重,并设置相似度权重阈值,当关键词与投诉文本相似度权重小于阈值时,将该关键词从当前投诉文本筛选的关键词中去除,再将所有历史数据投诉文本预处理后的关键词数据汇总为已标识关键词库,并根据关键词库中所有关键词在各历史数据投诉文本中的相似度权重对各历史数据投诉文本分别生成词向量;通过将投诉文本数据进行向量化处理,将原本复杂多样的投诉文本统一化处理,形成标准的词向量,为模型初次聚类提提供规范的数据标准;

    11、其中各历史数据投诉文本词向量形式为:其中,l为当前投诉文本词向量,k1,k2,…,kn为关键词库中所有关键词对应的在当前投诉文本中的相似度权重,n为已标识关键词库中关键词数量;将关键词相对文本相似度权重作为词向量参数进行聚类簇中心计算,充分考虑不同关键词在投诉文本中出现时对投诉文本分类结果的影响;

    12、根据上述技术方案,步骤s200包括以下内容:

    13、将各历史数据投诉文本根据行业归属进行分类,根据消保维权投诉行业数量设置聚类簇数量,对于任一行业,根据公式:计算各行业消保数据簇中心点;其中,c为当前行业簇中心点,m为当前行业历史数据投诉文本数量,i为历史数据投诉文本编号,li为历史数据投诉文本i词向量;

    14、根据上述技术方案,步骤s300包括以下内容:

    15、实时获取消保维权投诉信息,将投诉文本使用bert算法进行处理,获取投诉文本中所有关键词及各关键词与文本的相似度权重;

    16、再计算其中未标识关键词与已标识关键词库中所有关键词间相似度,进而对投诉文本词向量中各已标识关键词与当前投诉文本的相似度权重进行修正,对于投诉文本词向量中任一已标识关键词,根据公式:

    17、

    18、其中,kf为当前已标识关键词修正后的相似度权重,k0为当前已标识关键词修正前的相似度权重,j为投诉文本中未标识关键词编号,p为投诉文本中未标识关键词数量,sj为未标识关键词j与当前已标识关键词间相似度,kj为未标识关键词j在当前投诉文本中相似度权重;

    19、通过将实时获取的消保维权投诉信息中的未标识关键词根据相似度转化为已标识关键词,确保了当已标识关键词库中未收纳对应关键词时模型依旧能够适用,进而提升了模型在使用时的普适性;

    20、根据上述技术方案,步骤s400包括以下内容:

    21、获取消保维权投诉信息中投诉文本修正后的词向量,计算投诉文本与各行业消保数据簇中心点的距离,对于任一行业消保数据簇中心点,根据公式:

    22、

    23、其中,d为投诉文本与当前行业消保数据簇中心点的距离,t为已标识关键词编号,n为已标识关键词数量,为当前行业消保数据簇中心点中已标识关键词t对应数据,为修正后的投诉文本词向量中已标识关键词t对应数据;

    24、设置距离阈值,并选取与投诉文本距离小于阈值的行业消保数据簇中心点,计算各中心点与投诉文本距离的倒数并进行比例分配,获取所选各行业与投诉文本的关联因子,对于任一行业,根据公式:其中,r为当前行业与投诉文本关联因子,d为当前行业消保数据簇中心点与投诉文本距离,d1、d2、…、dx为所选取各行业消保数据簇中心点与投诉文本距离;

    25、根据关联因子由大到小将各行业进行排序,并等时间间隔依次向行业投诉处理部门进行反馈,直至得到部门反馈,并将该投诉文本分类至所收到反馈对应的行业类别中;在多行业分类中根据投诉文本与簇中心点的距离分析投诉文本与各行业的关联因子,反映投诉文本与各行业之间的关联程度,进而实现多行业反馈,以确保单一文本多行业归属的情况下也能使消费者寻求到更精准便捷的维权方向;

    26、根据上述技术方案,步骤s500包括以下内容:

    27、设定单位时间与迭代阈值,统计各单位时间内收到的消保维权投诉信息数量,并计算各单位时间消保维权投诉信息数量均值n及标准差σ,设置数量阈值上限n+σ,当单位时间内收到消保维权投诉信息数量大于数量阈值上限时,标记当前时间单位,当被标记时间单位数量大于迭代阈值时,获取所有标记时间内投诉文本及文本最终分类结果进行模型迭代;通过数据统计分析相关维权热点的出现,确保模型在长久使用下的健康迭代与持久优化;

    28、获取投诉文本中所有未标识关键词,统计各未标识关键词在投诉文本中出现次数及出现时该关键词与所处投诉文本相似度权重总和,并设置权重和阈值,将相似度权重总和大于权重和阈值的未标识关键词添加到已标识关键词库中;

    29、使用所选取的投诉文本新数据进行聚类,根据扩展后的已标识关键词库生成投诉文本词向量,并计算各行业投诉文本新数据簇中心,进而分析各行业消保数据簇中心偏移量,并获取各行业消保数据新簇中心点,对于任一行业,根据公式:

    30、

    31、其中,cf为当前行业消保数据新簇中心点,n1为当前行业原消保数据簇中心聚类数据数量,co当前行业原消保数据簇中心,n2为行业投诉文本新数据数量,co当前行业投诉文本新数据簇中心。

    32、根据上述技术方案,步骤s300中计算所提取未标识关键词与已标识关键词库中关键词间相似度包括以下内容:

    33、当实时获取的投诉文本中存在未标注关键词时,设置延时分析时间并获取延时时间里所有投诉文本数据,从所获取投诉文本数据中检索该关键词存在信息,统计该关键词出现次数,进而计算该关键词与已标识关键词间相似度,针对任一未标识关键词x与已标识关键词y,根据公式:

    34、

    35、其中,n(x)为所获取投诉文本中出现未标识关键词x的投诉文本数量,p(y)为所获取投诉文本中出现已标识关键词y的投诉文本数量,n(x,y)为所获取投诉文本中同时出现未标识关键词x与已标识关键词y的投诉文本数量,z为同时出现未标识关键词x与已标识关键词y的投诉文本编号,为投诉文本z中未标识关键词x的相似度权重,为投诉文本z中已标识关键词y的相似度权重;根据关键词间同时出现的可能性及同时出现时各自相对文本的相似度权重衡量关键词间相似度,基于数据进行分析,为模型的实际使用以及迭代优化提供较为可信的数据基础,提高了模型持续性与科学性;

    36、应用上述技术方案中所述的一种基于聚类算法的消保热点数据分析方法的一种基于聚类算法的消保热点数据分析系统,所述系统包括:数据采集模块、数据处理单元、模型迭代模块、行业分类单元;

    37、所述数据采集模块用于采集消保维权投诉历史数据及对应行业分类结果,还用于实时获取消保维权数据投诉文本进行分类以及聚类模型迭代;所述数据处理单元用于将获取的消保维权数据进行文本处理,获取各投诉文本词向量及各关键词相似度权重数据;所述模型迭代模块用于根据消保维权投诉历史数据及对应行业分类结果构建行业分类模型,还用于根据选取的投诉文本新数据对行业分类模型进行更新迭代;所述行业分类单元使用行业分类模型对实时获取的消保维权数据进行行业分类。

    38、根据上述技术方案,所述数据采集模块包括:历史数据采集单元、实时数据采集单元;

    39、所述历史数据采集单元用于采集消保维权投诉历史数据及对应行业分类结果数据;所述实时数据采集单元用于实时采集消保维权投诉信息以进行消保维权数据行业分类。

    40、根据上述技术方案,所述模型迭代模块包括:模型预训练单元、模型更新单元;

    41、所述模型预训练单元用于根据消保维权投诉历史数据及对应行业分类结果数据进行初次聚类;所述模型更新单元在消保维权投诉信息数量大于数量阈值的时间单位数量大于迭代阈值时,使用所选时间单位内所有消保维权投诉文本数据及对应行业分类结果进行模型迭代更新。

    42、与现有技术相比,本发明所达到的有益效果是:

    43、本发明通过对消保维权数据的已处理历史数据处理后进行聚类模型预训练,实现消保维权数据的行业分类,通过分析投诉文本的词向量及关键词与文本的相似度权重,对投诉文本进行精准量化,为后续行业分类模型的训练提供坚实的数据基础;在对实时获取的投诉文本进行行业分类时,充分考虑新关键词对行业分类结果的影响,引入关键词间相似度,进行关键词间映射转化,实现了模型的泛化使用;在模型迭代中,实时监测各时间单位的消保维权投诉信息数量以监测热点事件的出现,进而使用各行业激增的投诉数据进行模型迭代,将新关键词吸纳入关键词库,实现模型的自适应优化与智能迭代,使模型能更加与时俱进,提高模型的普适性;而不断更新的关键词库,也能为行业分类提供更标准的分类规范,也可以有效避免传统模式下的标准杂乱与数据随意等问题。


    技术特征:

    1.一种基于聚类算法的消保热点数据分析方法,其特征在于,所述方法包括以下分析步骤:

    2.根据权利要求1所述的一种基于聚类算法的消保热点数据分析方法,其特征在于,步骤s100包括以下内容:

    3.根据权利要求1所述的一种基于聚类算法的消保热点数据分析方法,其特征在于,步骤s200包括以下内容:

    4.根据权利要求1所述的一种基于聚类算法的消保热点数据分析方法,其特征在于,步骤s300包括以下内容:

    5.根据权利要求1所述的一种基于聚类算法的消保热点数据分析方法,其特征在于,步骤s400包括以下内容:

    6.根据权利要求2所述的一种基于聚类算法的消保热点数据分析方法,其特征在于,步骤s500包括以下内容:

    7.根据权利要求4所述的一种基于聚类算法的消保热点数据分析方法,其特征在于,步骤s300中计算所提取未标识关键词与已标识关键词库中关键词间相似度包括以下内容:

    8.应用权利要求1-7中任一项所述的一种基于聚类算法的消保热点数据分析方法的一种基于聚类算法的消保热点数据分析系统,其特征在于,所述系统包括:数据采集模块、数据处理单元、模型迭代模块、行业分类单元;

    9.根据权利要求8所述的一种基于聚类算法的消保热点数据分析系统,其特征在于,所述数据采集模块包括:历史数据采集单元、实时数据采集单元;

    10.根据权利要求8所述的一种基于聚类算法的消保热点数据分析系统,其特征在于,所述模型迭代模块包括:模型预训练单元、模型更新单元;


    技术总结
    本发明涉及数据分析领域,具体为一种基于聚类算法的消保热点数据分析系统及方法,所述系统包括:数据采集模块、数据处理单元、模型迭代模块、行业分类单元;所述数据采集模块用于采集消保维权投诉历史数据及对应行业分类结果,还用于实时获取消保维权数据投诉文本进行分类以及聚类模型迭代;所述数据处理单元用于将获取的消保维权数据进行文本处理,获取各投诉文本词向量及各关键词相似度权重数据;所述模型迭代模块用于根据消保维权投诉历史数据及对应行业分类结果构建行业分类模型,还用于根据选取的投诉文本新数据对行业分类模型进行更新迭代;所述行业分类单元使用行业分类模型对实时获取的消保维权数据进行行业分类。

    技术研发人员:张向飞,倪孟锴,朱丽华,方海宾,王轶,顾琦,吴浩
    受保护的技术使用者:上海市大数据中心
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-23903.html

    最新回复(0)