本公开涉及人工智能,尤其涉及一种文本处理方法、装置、设备及存储介质。
背景技术:
1、信令流程图通常用于描述在通信系统中用于控制和管理通信过程的消息传递和处理流程。它们展示了信令消息如何在不同的节点之间传递,以及在每个节点上如何被处理和响应。这些流程图可以涵盖多种通信系统,如电话网络、互联网协议(ip)通信、移动通信网络(如gsm、lte)、voip(voice over ip)系统等。
2、在通信网络运维领域,针对信令流程图的处理方式主要以人工处理为主,通过人工分析和理解信令流程图的结构和语义,手动记录关键信息,将其转换为可供nlp模型学习的文本信息。
3、目前,信令流程图中的信息的获取效率低,且人工成本高。
技术实现思路
1、本公开提供一种文本处理方法、装置、设备及存储介质,以至少解决现有信令流程图中的信息的获取效率低,且人工成本高的问题。
2、本公开的技术方案如下:
3、本公开实施例提供一种文本处理方法,包括:
4、对信令流程图进行目标检测,得到所述信令流程图中的关键元素的位置坐标和类别;
5、根据所述关键元素的位置坐标和类别,构建关键元素关系图;
6、根据所述关键元素和所述关键元素关系图,生成自然语言文本;
7、对所述自然语言文本进行标注,得到标注后的自然语言文本;
8、对所述标注后的自然语言文本进行向量化处理,得到专用文本语料库。
9、可选地,在所述对所述标注后的自然语言文本进行向量化处理,得到专用文本语料库之后,所述方法还包括:
10、将所述专用文本语料库输入自然语言处理模型中,并对所述专用文本语料库中的语料进行学习和理解。
11、可选地,所述对信令流程图进行目标检测,得到所述信令流程图中的关键元素的位置坐标和类别,包括:
12、将所述信令流程图进行二值化处理,得到二值化流程图;
13、将所述二值化流程图输入目标检测模型中,得到所述关键元素的所述位置坐标和所述类别。
14、可选地,所述关键元素的类别包括:网元、信令和箭头;所述根据所述关键元素的位置坐标和类别,构建关键元素关系图,包括:
15、按照所述网元的位置坐标从小到大的顺序依次作为所述关键元素关系图的顶点;
16、根据所述箭头的位置坐标,识别所述箭头的方向;
17、根据所述信令的位置坐标的顺序和所述箭头的方向,构建所述关键元素关系图的有向边;
18、其中,所述关键元素关系图中的顶点表示所述网元,所述有向边表示所述信令传输过程中的流转关系。
19、可选地,所述根据所述关键元素和所述关键元素关系图,生成自然语言文本,包括:
20、构建描述信令流程的语法规则;
21、将所述关键元素映射到所述语法规则中;
22、生成带有占位符的文本模板;
23、将所述关键元素填充到所述文本模板的所述占位符中,生成文本片段;
24、将文本片段按照逻辑顺序进行连接,得到所述自然语言文本。
25、可选地,所述对所述自然语言文本进行标注,得到标注后的自然语言文本,包括:
26、将所述自然语言文本输入神经网络标注模型,得到所述标注后的自然语言文本;其中,在所述神经网络标注模型内部,对所述自然语言文本对应的输入文本序列进行实体标注和动作标注。
27、可选地,所述对所述标注后的自然语言文本进行向量化处理,得到专用文本语料库,包括:
28、将所述标注后的自然语言文本进行预处理操作,得到预处理后的自然语言文本;
29、将所述预处理后的自然语言文本输入bert模型中,进行向量化处理,得到所述预处理后的自然语言文本对应的向量化表示;
30、将所述向量化表示存储至数据库中,得到所述专用文本语料库。
31、本公开实施例还提供一种文本处理装置,包括:
32、目标检测模块,用于对信令流程图进行目标检测,得到所述信令流程图中的关键元素的位置坐标和类别;
33、构建模块,用于根据所述关键元素的位置坐标和类别,构建关键元素关系图;
34、生成模块,用于根据所述关键元素和所述关键元素关系图,生成自然语言文本;
35、标注模块,用于对所述自然语言文本进行标注,得到标注后的自然语言文本;
36、向量化模块,用于对所述标注后的自然语言文本进行向量化处理,得到专用文本语料库。
37、本公开实施例还提供一种电子设备,包括:
38、处理器;
39、用于存储所述处理器可执行指令的存储器;
40、其中,所述处理器被配置为执行所述指令,以实现上述的方法中的各步骤。
41、本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法中的各步骤。
42、本公开的实施例提供的技术方案至少带来以下有益效果:
43、在本公开的一些实施例中,对信令流程图进行目标检测,得到信令流程图中的关键元素的位置坐标和类别;根据关键元素的位置坐标和类别,构建关键元素关系图;根据关键元素和关键元素关系图,生成自然语言文本,自动对信令流程图进行处理,自动获取信令流程图中的关键元素,提高信令流程图中的关键元素的获取效率;对自然语言文本进行标注,得到标注后的自然语言文本;对标注后的自然语言文本进行向量化处理,得到专用文本语料库;自动获取专用文本语料库,降低人工成本。
44、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
1.一种文本处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在所述对所述标注后的自然语言文本进行向量化处理,得到专用文本语料库之后,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述对信令流程图进行目标检测,得到所述信令流程图中的关键元素的位置坐标和类别,包括:
4.根据权利要求1所述的方法,其特征在于,所述关键元素的类别包括:网元、信令和箭头;所述根据所述关键元素的位置坐标和类别,构建关键元素关系图,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述关键元素和所述关键元素关系图,生成自然语言文本,包括:
6.根据权利要求1所述的方法,其特征在于,所述对所述自然语言文本进行标注,得到标注后的自然语言文本,包括:
7.根据权利要求1所述的方法,其特征在于,所述对所述标注后的自然语言文本进行向量化处理,得到专用文本语料库,包括:
8.一种文本处理装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的方法中的各步骤。