基于改进卷积网络和社媒数据的台风灾情识别方法和系统与流程

    技术2025-02-26  40


    本发明涉及台风预测,更具体地,涉及一种基于改进卷积网络和社媒数据的两阶段台风灾情识别方法和系统。


    背景技术:

    1、台风作为一种极端天气事件,不仅会影响海上活动,而且会给沿海地区人民的生活和城市经济造成重大损失。因此,台风信息的及时收集和准确识别一直是各个沿海地区城市关注的重点。

    2、台风灾情信息收集的传统方法包括实地调查和遥感卫星技术等。实地调查由工作人员现场调查记录后上报,该方法能较全面地反映灾情,但需耗费大量人力物力和时间成本。遥感卫星技术则通过遥感影像监测灾区变化,该方法能反映大范围灾情,但对与日常生活密切相关的灾情,如停电停运、停工停学等灾害影响的获取能力有限。传统方法的特点限制了灾害应急和救援工作的有效开展。

    3、近年来,随着互联网的普及,诸多社交媒体平台如国内的新浪微博、微信,国外的twitter、facebook等快速发展,越来越多的人开始使用社交媒体平台发表自己的观点和活动等信息。在台风过程的不同阶段,随着台风强度、降雨和风速等地理背景变化,人们如“传感器”般快速敏锐地发布大量灾害相关信息。社交媒体文本以其收集成本低和表达内容丰富等特点成为灾情信息收集的重要部分。然而,由于社交媒体平台的开放性和自由性,虚假或猜测信息往往混杂在社交媒体文本中。已有研究大多仅依靠文本内容进行台风识别,忽视了文本对灾害相关地理背景的高度敏感性,难以分辨此类虚假或猜测信息,对应急救援工作产生负面影响。

    4、文本分类是获取台风灾情信息的关键,随着机器学习的发展进步,分类模型和方法等不断涌现。例如,常见的文本表示模型包括基于词袋模型的word2vec、glove以及基于transformer的gpt、bert(bidirectional encoder representations fromtransformers,双向编码器表征法)等系列模型。经典的文本分类模型包括基于cnn的dcnn、textcnn以及基于rnn的lstm(long short-term memory,长短期记忆网络)、bilstm(bi-directional long short-term memory,双向长短期记忆网络)等系列模型。

    5、文本表示模型和文本分类模型相结合有助于增强模型的文本语义理解,然而,在分类方法方面,现有的大多数方法都是基于单阶段、单标签的分类,例如,现有的专利文件中公开了一种台风预测报警方法,步骤为:1、对历史台风数据进行归一化处理;2、对归一化后的数据序列进行分析,分析降雨量、蒸发量和风力影响因素对台风形成以及路径的影响;3、建立模型训练数据集s1;4、建立台风预测模型;5、建立实时误差校正模型训练数据集s2,输入与s1相同,台风预测模型的预测误差作为输出;6、建立台风实时误差校正模型;7、对实时监测的降雨量、蒸发量和风力,利用台风预测模型对实时数据进行预测,利用台风实时误差校正模型进行校正,获得最终的预测值,并输出台风数据对海防监控进行实时调整并在台风来临之前进行报警;基于单标签的分类方法对复杂文本的语义理解存在偏差,无法全面识别灾情信息。


    技术实现思路

    1、本发明为克服上述现有技术仅依靠文本内容进行识别和单标签分类造成的台风灾情识别精度低的缺陷,提供一种基于改进卷积网络和社媒数据的两阶段台风灾情识别方法和系统,基于二阶段的分类方案进行台风识别,先进行粗分类,再进行二阶段多标签分类,且在粗分类阶段加入了台风属性信息进行辅助识别,识别更全面,同时能够有效提高台风灾情识别精度。

    2、为解决上述技术问题,本发明的技术方案如下:

    3、一种基于改进卷积网络和社媒数据的台风灾情识别方法,包括以下步骤:

    4、s1:从互联网的各个社交媒体平台上采集网民评论文本,并结合所评论台风的属性构建文本数据集;对所述文本数据集进行预处理;

    5、s2:利用bert预训练模型对预处理后的文本数据集进行文本特征提取,获取文本特征数据集;所述文本特征数据集包括每条文本数据对应的句向量和字矩阵;

    6、对所述文本特征数据集中的所有句向量和所有字矩阵分别依次进行实体消歧和分组,获取分组后的句向量数据集和字矩阵数据集;

    7、s3:构建台风灾情识别模型;所述台风灾情识别模型包括依次连接的粗分类网络和多标签分类网络;

    8、所述粗分类网络用于判断输入的文本数据是否属于台风灾情的相关文本;

    9、所述多标签分类网络基于改进卷积网络sit-cnn,用于进一步识别台风灾情相关文本中包含的具体灾情类别;

    10、s4:将所述分组后的句向量数据集输入所述粗分类网络,将所述分组后的字矩阵数据集输入所述多标签分类网络,利用多任务学习对所述粗分类网络和多标签分类网络进行联合优化训练,获取训练好的台风灾情识别模型;

    11、s5:获取待识别的文本数据并输入所述训练好的台风灾情识别模型中进行识别,获取台风灾情识别结果。

    12、优选地,所述步骤s1中,台风的属性包括:台风等级、风速、气压、移动速度和地理位置信息,台风属性数据用于作为地理背景对社媒文本的可信度进行分析,有助于提高粗分类阶段台风灾情相关文本识别的准确性。

    13、优选地,所述步骤s1中,对所述文本数据集进行预处理包括:

    14、分词编码:通过分词器将所述文本数据集中的所有文本分为单独的字词,并利用预设的词汇表将所有字词转换成对应的编码,获取编码后的文本数据集;

    15、添加标记:在所有编码后的文本开头和末尾位置分别添加开头标记和末尾标记,并将添加标记后的所有文本转换为对应的文本向量;

    16、填充空白:在所有长度小于预设值的文本向量末尾填充零向量,使得各文本向量长度一致;

    17、位置嵌入:为每个文本向量设置用于表示字词在该文本向量中位置顺序的嵌入信息,完成预处理。

    18、优选地,所述步骤s2中,所述bert预训练模型包括若干层依次连接的transformer编码器;

    19、将每个所述transformer编码器提取到的文本特征共同保存为所述文本特征数据集。

    20、优选地,所述步骤s2中,实体消歧包括:

    21、对于每个所述transformer编码器提取到的文本特征:

    22、两两计算不同句向量之间的第一相似度,将第一相似度大于等于预设第一阈值的两个句向量进行信息融合;

    23、两两计算不同字矩阵之间的第二相似度,将第二相似度大于等于预设第二阈值的两个字矩阵进行信息融合,完成实体消歧;

    24、所述相似度的计算公式为:

    25、

    26、其中,为两个文本特征和之间的相似度;和分别为两个文本特征和对应的属性信息。

    27、优选地,所述步骤s2中,所述bert预训练模型中的transformer编码器层数具体为12,分组包括:

    28、按以下规则中的任意一种对12层transformer编码器输出的文本特征进行分组:

    29、规则1:设置一个分组,仅包含第12层transformer编码器输出的文本特征;

    30、规则2:设置一个分组,包含第1~12层transformer编码器输出的所有文本特征;

    31、规则3:设置两个分组,分别包含第1~6层和第7~12层transformer编码器输出的文本特征;

    32、规则4:设置三个分组,分别包含第1~4层、第5~8层和第9~12层transformer编码器输出的文本特征;

    33、规则5:设置四个分组,分别包含第1~3层、第4~6层、第7~9层和第10~12层transformer编码器输出的文本特征;

    34、规则6:设置六个分组,分别包含第1~2层、第3~4、第5~6层、第7~8层、第9~10层和第11~12层transformer编码器输出的文本特征;

    35、规则7:设置十二个分组,分别包含第1~12层transformer编码器输出的文本特征。

    36、优选地,所述步骤s3中,粗分类网络包括依次连接的:bilstm神经网络、组注意力层、第一全连接层和第一softmax激活层;

    37、文本数据不同分组的句向量通过bilstm神经网络提取句子特征,利用组注意力层将句子特征与台风的属性进行匹配和特征融合,获取包含地理背景特征的句子特征,并输入第一全连接层和第一softmax激活层,输出文本数据属于台风灾情的相关文本的二分类概率。

    38、优选地,所述步骤s3中,多标签分类网络包括依次连接的:sit-cnn神经网络、组交换层、第二全连接层、第一拼接层、第三全连接层和sigmoid激活层;

    39、所述sit-cnn神经网络包括依次连接的:维度填充层、分组卷积层、平均池化层、第四全连接层、重塑层、第二softmax激活层、最大池化层和第二拼接层;所述分组卷积层的输出还与所述第二softmax激活层的输出加权相乘连接;

    40、所述分组卷积层中设置有不同大小的卷积核;

    41、所述sit-cnn的输入为台风灾情相关的文本数据不同分组的字矩阵,字矩阵先通过维度填充层进行维度扩展,随后利用分组卷积层中对应大小的卷积核进行卷积,提取卷积特征;将所有卷积特征经过平均池化层后加权求和,获取中间特征;将中间特征输入第四全连接层进行扩展,并利用重塑层进行打乱重塑,获取重塑特征;将重塑特征输入第二softmax激活层,获取不同卷积核的核注意力权重;将每个卷积核的卷积特征与其对应的核注意力权重加权相乘,获取选择性特征;将所有选择性特征依次输入最大池化层和第二拼接层,获取对应分组的语义特征;

    42、将每个分组的语义特征输入组交换层,将每个分组的语义特征打乱,避免分组卷积造成的信息隔离;随后利用第二全连接层进行特征整合,利用第一拼接层进行语义特征串联,得到该文本数据的最终语义特征;

    43、将文本数据的最终语义特征依次输入第三全连接层和sigmoid激活层进行多标签分类,获取台风的具体灾情类别,并作为台风灾情识别结果。

    44、优选地,所述步骤s4中,对所述粗分类网络和多标签分类网络进行联合优化训练时,设置有总损失函数,具体为:

    45、

    46、其中,为总损失函数,和分别为bce二元交叉熵损失函数和focal多标签分类损失函数,和分别为第一和第二权重因子。

    47、本发明还提供一种基于改进卷积网络和社媒数据的台风灾情识别系统,应用上述的一种基于改进卷积网络和社媒数据的台风灾情识别方法,包括:

    48、预处理单元:用于从互联网的各个社交媒体平台上采集网民评论文本,并结合所评论台风的属性构建文本数据集;对所述文本数据集进行预处理;

    49、特征提取单元:用于利用bert预训练模型对预处理后的文本数据集进行文本特征提取,获取文本特征数据集;所述文本特征数据集包括每条文本数据对应的句向量和字矩阵;

    50、对所述文本特征数据集中的所有句向量和所有字矩阵分别依次进行实体消歧和分组,获取分组后的句向量数据集和字矩阵数据集;

    51、模型构建单元:用于构建台风灾情识别模型;所述台风灾情识别模型包括依次连接的粗分类网络和多标签分类网络;

    52、所述粗分类网络用于判断输入的文本数据是否属于台风灾情的相关文本;

    53、所述多标签分类网络基于改进卷积网络sit-cnn,用于进一步识别台风灾情相关文本中包含的具体灾情类别;

    54、模型训练单元:用于将所述分组后的句向量数据集输入所述粗分类网络,将所述分组后的字矩阵数据集输入所述多标签分类网络,利用多任务学习对所述粗分类网络和多标签分类网络进行联合优化训练,获取训练好的台风灾情识别模型;

    55、台风灾情识别单元:用于获取待识别的文本数据并输入所述训练好的台风灾情识别模型中进行识别,获取台风灾情识别结果。

    56、与现有技术相比,本发明技术方案的有益效果是:

    57、本发明提供一种基于改进卷积网络和社媒数据的台风灾情识别方法和系统,首先从互联网的各个社交媒体平台上采集网民评论文本,并结合所评论台风的属性构建文本数据集;对文本数据集进行预处理;利用bert预训练模型对预处理后的文本数据集进行文本特征提取,获取文本特征数据集;对文本特征数据集中的所有句向量和所有字矩阵分别依次进行实体消歧和分组,获取分组后的句向量数据集和字矩阵数据集;构建台风灾情识别模型,台风灾情识别模型包括依次连接的粗分类网络和多标签分类网络;将分组后的句向量数据集输入粗分类网络,将分组后的字矩阵数据集输入多标签分类网络,利用多任务学习对粗分类网络和多标签分类网络进行联合优化训练,获取训练好的台风灾情识别模型;最后获取待识别的文本数据并输入训练好的台风灾情识别模型中进行识别,获取台风灾情识别结果;

    58、本发明基于改进的卷积网络和社媒数据进行二阶段的台风识别,先进行粗分类,判断输入的文本是否为台风相关文本;随后进行二阶段的多标签分类,将台风相关文本进一步细分为更具体的灾情类别,识别更全面且精度更高;其次,本发明在粗分类阶段加入了台风属性信息对输入的社媒文本进行可信度进行分析,从而提高了粗分类的精度;同时,为了更好地利用bert各层的不同语义信息,本发明将bert各层提取到的句向量和字矩阵进行分组,通过对比不同分组的结果来确定文本的最佳分组规则和表示,从而提高识别精度;另外,本发明在多标签分类阶段,基于sit-cnn对台风灾情文本的字矩阵进行不同语义等级的特征提取,sit-cnn能够动态地、选择性地提取不同层次和分组的语义信息,最终将台风灾情文本分类为特定的灾情类别,有效提高了灾情识别精度。


    技术特征:

    1.一种基于改进卷积网络和社媒数据的台风灾情识别方法,其特征在于,包括以下步骤:

    2.根据权利要求1所述的一种基于改进卷积网络和社媒数据的台风灾情识别方法,其特征在于,所述步骤s1中,台风的属性包括:台风等级、风速、气压、移动速度和地理位置信息。

    3.根据权利要求1所述的一种基于改进卷积网络和社媒数据的台风灾情识别方法,其特征在于,所述步骤s1中,对所述文本数据集进行预处理包括:

    4.根据权利要求1所述的一种基于改进卷积网络和社媒数据的台风灾情识别方法,其特征在于,所述步骤s2中,所述bert预训练模型包括若干层依次连接的transformer编码器;

    5.根据权利要求4所述的一种基于改进卷积网络和社媒数据的台风灾情识别方法,其特征在于,所述步骤s2中,实体消歧包括:

    6.根据权利要求4所述的一种基于改进卷积网络和社媒数据的台风灾情识别方法,其特征在于,所述步骤s2中,所述bert预训练模型中的transformer编码器层数具体为12,分组包括:

    7.根据权利要求1~6任意一项中所述的一种基于改进卷积网络和社媒数据的台风灾情识别方法,其特征在于,所述步骤s3中,粗分类网络包括依次连接的:bilstm神经网络、组注意力层、第一全连接层和第一softmax激活层;

    8.根据权利要求7所述的一种基于改进卷积网络和社媒数据的台风灾情识别方法,其特征在于,所述步骤s3中,多标签分类网络包括依次连接的:sit-cnn神经网络、组交换层、第二全连接层、第一拼接层、第三全连接层和sigmoid激活层;

    9.根据权利要求1或8所述的一种基于改进卷积网络和社媒数据的台风灾情识别方法,其特征在于,所述步骤s4中,对所述粗分类网络和多标签分类网络进行联合优化训练时,设置有总损失函数,具体为:

    10.一种基于改进卷积网络和社媒数据的台风灾情识别系统,应用权利要求1~9任意一项中所述的一种基于改进卷积网络和社媒数据的台风灾情识别方法,其特征在于,包括:


    技术总结
    本发明提供一种基于改进卷积网络和社媒数据的台风灾情识别方法和系统,方法包括:先对社媒文本依次进行预处理、BERT文本表示提取以及分组操作,随后进行两阶段的台风灾情识别,在第一阶段使用句向量结合台风属性信息进行二分类,在第二阶段使用字矩阵进行多标签分类,并通过多任务学习对两阶段进行联合训练;本发明融合了BERT各个隐藏层的输出,并对各隐藏层的输出进行分组,识别精度更高;另外,本发明在粗分类阶段加入了台风属性进行辅助识别,同时在多标签分类阶段设置Sit‑CNN,Sit‑CNN能够动态地、选择性地提取不同层次和分组的语义信息,进一步提高了灾情识别精度。

    技术研发人员:邱衍庆,郑泽爽,贺智,阮浩德,费智涛,张思敏
    受保护的技术使用者:广东省城乡规划设计研究院科技集团股份有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-26872.html

    最新回复(0)