一种用于招标文件的文本识别方法及系统与流程

技术2024-11-10 52

本发明涉及招标文件的识别，具体地涉及一种用于招标文件的文本识别方法及系统。

背景技术：

1、在招标过程中，招标文件的编制和审阅是确保公平竞争和合规性的关键步骤。招标文件通常包括多种类型的文件，如技术规格书、商务条款、合同条件、图纸、工程量清单等。这些文件共同构成了招标项目的全面要求，对投标者的准备和评审委员会的评估至关重要。

2、然而，传统的招标文件审阅流程存在一些效率和准确性方面的问题。由于文件类型众多，后台人员在审阅时往往需要逐一打开每个文件进行审查，这种方式不仅耗时耗力，而且难以实现文件之间的快速比对和综合分析。此外，由于缺乏集中化的审阅平台，审阅人员可能错过文件间的关联信息，导致评审结果的不一致性或遗漏重要条款。

3、为了提高招标文件审阅的效率和准确性，需要一种能够支持多文件类型集中展示、比对和审阅的技术解决方案。这种解决方案应该能够允许审阅人员在一个统一的界面上查看所有相关文件，轻松地进行跨文件的比较，以及快速地识别出潜在的不一致性和问题点。通过这种方式，可以大大减少审阅时间，提高审阅质量，确保招标过程的公正性和透明度。

技术实现思路

1、本发明实施例的目的是提供一种用于招标文件的文本识别方法及系统，该文本识别方法及系统能够提高招标文件的审阅效率。

2、为了实现上述目的，本发明实施例提供一种用于招标文件的文本识别方法，包括：

3、获取待识别的招标文件；

4、基于预设的标签在所述招标文件中搜索信息文档；

5、遍历每个所述信息文档，确定每个所述信息文档的字词向量和图像；

6、提取所述字词向量对应的文本信息和所述图像对应的证明信息；

7、采用所述文本信息和所述证明信息根据预设的显示布局生成显示页面。

8、可选地，获取待识别的招标文件，包括：

9、获取所述招标文件的压缩文件；

10、对所述压缩文件进行解压；

11、按照预设的命名规则选择读取解压后的文件。

12、可选地，基于预设的标签在所述招标文件中搜索信息文档，包括：

13、读取所述招标文件的索引标签和对应的页码编号；

14、采用预设的标签与所述索引标签进行比对，以得到标签比对结果；

15、根据所述标签比对结果对应的页码编号确定所述信息文档。

16、可选地，提取所述字词向量对应的文本信息和所述图像对应的证明信息，包括：

17、采用spire.doc for python工具获取所述文本信息；

18、采用字词识别模型分别读取所述文本信息中的标题向量、标签向量和内容向量。

19、可选地，采用字词识别模型分别读取所述文本信息中的标题向量、标签向量和内容向量，包括：

20、通过预设的关键词库在所述文本信息中获取所述标题向量；

21、通过第一词向量模型确定所述文本信息中的标签向量；

22、通过第二词向量模型确定所述文本信息中的内容向量；

23、根据所述标签向量和内容向量判断文本信息是否有误；

24、在判断所述文本信息无误的情况下，确定所述标题向量、标签向量以及内容向量无误。

25、可选地，提取所述字词向量对应的文本信息和所述图像对应的证明信息，包括：

26、将所述图像输入预设的图像识别模型中，以得到所述图像对应的图像标签；

27、根据所述图像所在的位置确定所述图像对应的标签向量；

28、将所述标签向量和所述图像标签进行比对，以确定所述图像是否有误；

29、在判断所述图像无误的情况下，将所述图像和对应的标签向量关联。

30、可选地，采用所述文本信息和所述证明信息根据预设的显示布局生成显示页面，包括：

31、将所述标题向量、标签向量以及内容向量对应的特征关键词在显示页面的一侧显示；

32、按照所述图像和对应关联的标签向量的关联关系将所述图像显示于所述显示页面的另一侧的相同高度。

33、可选地，所述第一词向量模型包括：

34、第一词嵌入层，用于进行词向量嵌入操作；

35、第一卷积层，所述第一卷积层的第一端与所述第一词嵌入层连接；

36、第一池化层，所述第一池化层的一端与所述第一卷积层的第二端连接；

37、第一lstm层，所述第一lstm层的一端与所述第一池化层的另一端连接；

38、第一dropout层，所述第一dropout层的一端与所述第一lstm层的另一端连接；

39、第一全连接层，所述第一全连接层的一端与所述第一dropout层的另一端连接；

40、第二卷积层，所述第二卷积层的一端与所述第一卷积层的第三端连接；

41、第二池化层，所述第二池化层的一端与所述第二卷积层的另一端连接；

42、第二lstm层，所述第二lstm层的一端与所述第二池化层的另一端连接；

43、第二dropout层，所述第二dropout层的一端与所述第二lstm层的另一端连接；

44、第二全连接层，所述第二全连接层的一端与所述第二dropout层的另一端连接；

45、第一输出层，与所述第一全连接层的另一端、所述第二全连接层的另一端连接，用于输出标签向量的分类结果。

46、可选地，所述第二词向量模型包括：

47、第三词嵌入层，用于进行词向量嵌入操作；

48、第三卷积层，所述第三卷积层的第一端与所述第三词嵌入层连接；

49、第三池化层，所述第三池化层的一端与所述第三卷积层的第二端连接；

50、第四卷积层，所述第四卷积层的一端与所述第三卷积层的第三端连接；

51、第四池化层，所述第四池化层的第一端与所述第四卷积层的另一端连接；

52、第一拼接层，所述第一拼接层的第一端与所述第三池化层的另一端连接，所述第一拼接层的第二端与所述第四池化层的第二端连接；

53、第一rnn层，所述第一rnn层的一端与所述第一拼接层的第三端连接；

54、第三dropout层，所述第三dropout层的一端与所述第一rnn层的一端连接；

55、第三全连接层，所述第三全连接层的一端与所述第三dropout层的另一端连接；

56、第三lstm层，所述第三lstm层的一端与所述第四池化层的第三端连接；

57、第四dropout层，所述第四dropout层的一端与所述第三lstm层的另一端连接；

58、第四全连接层，所述第四全连接层的一端与所述第四dropout层的另一端连接；

59、第四词嵌入层，用于进行词向量嵌入操作；

60、第五卷积层，所述第五卷积层的第一端与所述第五词嵌入层连接；

61、第五池化层，所述第五池化层的第一端与所述第五卷积层的第二端连接；

62、第六卷积层，所述第六卷积层的一端与所述第五卷积层的第三端连接；

63、第六池化层，所述第六池化层的一端与所述第六卷积层的另一端连接；

64、第二拼接层，所述第二拼接层的第一端与所述第五池化层的第二端连接，所述第二拼接层的第二端与所述第六池化层的另一端连接；

65、第二rnn层，所述第二rnn层的一端与所述第五池化层的第三端连接；

66、第五dropout层，所述第五dropout层的一端与所述第二rnn层的另一端连接；

67、第五全连接层，所述第五全连接层的一端与所述第五dropout层的另一端连接；

68、第四lstm层，所述第四lstm层的一端与所述第二拼接层的第三端连接；

69、第六dropout层，所述第六dropout层的一端与所述第四lstm层的另一端连接；

70、第六全连接层，所述第六全连接层的一端与所述第六dropout层的另一端连接；

71、第二输出层，与所述第三全连接层、第四全连接层、第五全连接层、第六全连接层连接，用于输出内容向量的分类结果。

72、另一方面，本发明还提供一种用于招标文件的文本识别系统，所述识别系统包括处理器，所述处理器被配置成执行如上述任一所述的文本识别方法。

73、通过上述技术方案，本发明实施方式提供了一种用于招标文件的文本识别方法及系统，该文本识别方法及系统通过在标签在招标文件中搜索包含不同类型的信息的信息文档，从而完成对招标文件中的各个文件的分类，然后，通过对每个信息文档进行字词向量的提取以及图像的证明信息的提取，实现了对招标文件的分类识别。相较于现有技术而言，本发明提供的文本识别方法及系统由于是分别针对招标文件中的每个信息文档进行识别，同时采用对字词向量以及证明信息的分别提取，克服了现有技术的统一文件整理的方法的技术缺陷，提高了对招标文件的识别效率。

74、本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

技术特征：

1.一种用于招标文件的文本识别方法，其特征在于，所述识别方法包括：

2.根据权利要求1所述的识别方法，其特征在于，获取待识别的招标文件，包括：

3.根据权利要求1所述的识别方法，其特征在于，基于预设的标签在所述招标文件中搜索信息文档，包括：

4.根据权利要求1所述的识别方法，其特征在于，提取所述字词向量对应的文本信息和所述图像对应的证明信息，包括：

5.根据权利要求4所述的识别方法，其特征在于，采用字词识别模型分别读取所述文本信息中的标题向量、标签向量和内容向量，包括：

6.根据权利要求5所述的识别方法，其特征在于，提取所述字词向量对应的文本信息和所述图像对应的证明信息，包括：

7.根据权利要求4所述的识别方法，其特征在于，采用所述文本信息和所述证明信息根据预设的显示布局生成显示页面，包括：

8.根据权利要求5所述的识别方法，其特征在于，所述第一词向量模型包括：

9.根据权利要求5所述的识别方法，其特征在于，所述第二词向量模型包括：

10.一种用于招标文件的文本识别系统，其特征在于，所述识别系统包括处理器，所述处理器被配置成执行如权利要求1至9任一所述的文本识别方法。

技术总结
本发明实施例提供一种用于招标文件的文本识别方法及系统，属于招标文件的识别技术领域。所述文本识别方法包括：获取待识别的招标文件；基于预设的标签在所述招标文件中搜索信息文档；遍历每个所述信息文档，确定每个所述信息文档的字词向量和图像；提取所述字词向量对应的文本信息和所述图像对应的证明信息；采用所述文本信息和所述证明信息根据预设的显示布局生成显示页面。相较于现有技术而言，本发明提供的文本识别方法及系统由于是分别针对招标文件中的每个信息文档进行识别，同时采用对字词向量以及证明信息的分别提取，克服了现有技术的统一文件整理的方法的技术缺陷，提高了对招标文件的识别效率。

技术研发人员：孙扬,孙启兵,王培龙,宋欣,周梦迪,刘俊杰,张斌,何灵,郝湛斐,程艳从,毛云涛,董旭阳,马木雨石,丁雨霏,魏永,刘暘,刘宜文
受保护的技术使用者：国网物资有限公司
技术研发日：
技术公布日：2024/10/24

转载请注明原文地址:https://symbian.8miu.com/read-21873.html

专利

最新回复(0)