图像结构化方法、装置、电子设备、存储介质及程序产品与流程

技术2024-12-25 45

本技术涉及图像处理，尤其涉及一种图像结构化方法、装置、电子设备、存储介质及程序产品。

背景技术：

1、随着信息技术的快速发展，尤其是人工智能和机器学习技术的突破，影像处理和文本识别领域取得了显著进步。

2、现有技术中，清单影像结构化技术(比如，光学字符识别技术，简称ocr识别技术)，通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息，再利用文字识别技术将图像信息转化为可编辑、可搜索的结构化格式。

3、但是，上述方法的图像结构化识别效果取决于输入图像的质量，如果输入图像存在拍摄倾斜、透视或者弯曲等情况，则会导致图像结构化识别错误，准确性较低。

技术实现思路

1、本技术实施例提供一种图像结构化方法、装置、电子设备、存储介质及程序产品，用于提升图像结构化的准确性。

2、第一方面，本技术实施例提供一种图像结构化方法，包括：

3、获取待识别图像的文本框区域图；其中，所述文本框区域图包括属性行文本框和内容行文本框；所述属性行文本框对应的文本为属性文本；

4、基于所述属性行文本框的中心点确定属性行的行线，并通过将上一行线向下平移第一距离，得到每个内容行的行线；其中，所述第一距离为上一行线穿过的文本框的框间距中的最小值；所述文本框的框间距为该文本框与下方最近文本框之间的距离；

5、确定每个内容行的行线穿过的内容行文本框，作为该内容行下的内容行文本框；确定每个内容行下的内容行文本框对应的属性文本，进行结构化。

6、一种实施方式中，获取待识别图像的文本框区域图，包括：

7、通过文字检测模型和文字识别模型，获取所述待识别图像的文本框集合和文本内容集合；所述文本框集合包括所述待识别图像中各文本框的顶点坐标；所述文本框集合中的文本框与所述文本内容集合中的文本内容一一对应；

8、生成与所述待识别图像尺寸一致的初始图像，根据每个文本框的顶点坐标在所述初始图像中绘制框体，并确定每个框体在所述待识别图像对应的文本框，得到所述文本框区域图。

9、一种实施方式中，根据每个文本框的顶点坐标在所述初始图像中绘制框体，包括：

10、对每个文本框的每个顶点坐标中的纵坐标，分别使用加权函数进行修正，得到每个文本框的修正后的顶点坐标；

11、基于每个文本框的修正后的顶点坐标在所述初始图像中绘制框体。

12、一种实施方式中，所述方法还包括：

13、从所述文本框集合中筛选出多个第一文本框，所述第一文本框对应的文本内容属于所述属性文本；

14、以最左侧的第一文本框为起点向右依次查找，与前一第一文本框的文本框斜率相同且最近的第一文本框，得到第一文本框集合；

15、将所述第一文本框集合在所述文本框区域图中对应的框体，作为所述属性行文本框。

16、一种实施方式中，基于所述属性行文本框的中心点绘制属性行的行线，并通过将上一行线向下平移第一距离，得到每个内容行的行线，包括：

17、生成与所述文本框区域图尺寸一致的全零图；

18、根据所述属性行文本框的中心点坐标，在所述全零图确定属性行的行线；将当前全零图中的行线向下平移第一距离，得到当前内容行的行线。

19、一种实施方式中，确定每个内容行的行线穿过的内容行文本框，包括：

20、将当前的全零图和所述文本框区域图对应的图像矩阵进行矩阵乘处理；

21、从处理结果中筛选出大于零的元素，将该元素在所述文本框区域图中对应的框体，确定为当前内容行的行线穿过的内容行文本框。

22、一种实施方式中，所述方法还包括：

23、若本次平移得到的行线穿过的内容行文本框的数量少于预设的阈值，则将该行线继续向下平移第一距离，直至行线穿过的内容行文本框的数量达到所述阈值，得到当前内容行的行线。

24、一种实施方式中，所述将上一行线向下平移第一距离之前，还包括：

25、所述将上一行线向下平移第一距离之前，针对上一行线穿过的每个文本框，向下查找与该文本框最接近的文本框，并计算该最接近的文本框与该文本框的中心点之间的垂直距离；

26、从上一行线穿过的文本框对应的垂直距离中，选取最小的垂直距离作为所述第一距离。

27、一种实施方式中，确定每个内容行下的内容行文本框对应的属性文本，包括：

28、若内容行文本框垂直对应的上一行内容行文本框的数量为零，则选取与该内容行文本框距离最近的上一行内容行文本框，确定该内容行文本框对应的属性文本为该上一行内容行文本框对应的属性文本；

29、若内容行文本框垂直对应的上一行内容行文本框的数量为一个，则确定该内容行文本框对应的属性文本为该上一行内容行文本框对应的属性文本；

30、若内容行文本框垂直对应的上一行内容行文本框的数量为多个，则将该内容行文本框拆分为多个，分别对应多个上一行内容行文本框，并确定拆分得到的各内容行文本框对应的属性文本分别为对应的上一行内容行文本框所对应的属性文本。

31、一种实施方式中，所述方法还包括：

32、针对首个内容行中的内容行文本框，判断该内容行文本框垂直对应的属性行文本框所对应的属性文本是否存在分隔符号，若存在，则将所述属性行文本框拆分为多个；

33、若位于同一内容行的多个内容行文本框垂直对应的上一行内容行文本框相同，则合并该位于同一内容行的多个内容行文本框，并确定合并得到的内容行文本框对应的属性文本为该上一行内容行文本框对应的属性文本。

34、第二方面，本技术实施例提供一种图像结构化装置，包括：

35、获取模块，用于获取待识别图像的文本框区域图；其中，所述文本框区域图包括属性行文本框和内容行文本框；所述属性行文本框对应的文本为属性文本；

36、处理模块，用于基于所述属性行文本框的中心点确定属性行的行线，并通过将上一行线向下平移第一距离，得到每个内容行的行线；其中，所述第一距离为上一行线穿过的文本框的框间距中的最小值；所述文本框的框间距为该文本框与下方最近文本框之间的距离；

37、结构化模块，用于确定每个内容行的行线穿过的内容行文本框，作为该内容行下的内容行文本框；确定每个内容行下的内容行文本框对应的属性文本，进行结构化。

38、一种实施方式中，所述获取模块具体用于：

39、通过文字检测模型和文字识别模型，获取所述待识别图像的文本框集合和文本内容集合；所述文本框集合包括所述待识别图像中各文本框的顶点坐标；所述文本框集合中的文本框与所述文本内容集合中的文本内容一一对应；

40、生成与所述待识别图像尺寸一致的初始图像，根据每个文本框的顶点坐标在所述初始图像中绘制框体，并确定每个框体在所述待识别图像对应的文本框，得到所述文本框区域图。

41、一种实施方式中，所述获取模块具体用于：

42、对每个文本框的每个顶点坐标中的纵坐标，分别使用加权函数进行修正，得到每个文本框的修正后的顶点坐标；

43、基于每个文本框的修正后的顶点坐标在所述初始图像中绘制框体。

44、一种实施方式中，所述处理模块还用于：

45、从所述文本框集合中筛选出多个第一文本框，所述第一文本框对应的文本内容属于所述属性文本；

46、以最左侧的第一文本框为起点向右依次查找，与前一第一文本框的文本框斜率相同且最近的第一文本框，得到第一文本框集合；

47、将所述第一文本框集合在所述文本框区域图中对应的框体，作为所述属性行文本框。

48、一种实施方式中，所述处理模块具体用于：

49、生成与所述文本框区域图尺寸一致的全零图；

50、根据所述属性行文本框的中心点坐标，在所述全零图确定属性行的行线；将当前全零图中的行线向下平移第一距离，得到当前内容行的行线。

51、一种实施方式中，所述处理模块具体用于：

52、将当前的全零图和所述文本框区域图对应的图像矩阵进行矩阵乘处理；

53、从处理结果中筛选出大于零的元素，将该元素在所述文本框区域图中对应的框体，确定为当前内容行的行线穿过的内容行文本框。

54、一种实施方式中，所述处理模块具体用于：

55、若本次平移得到的行线穿过的内容行文本框的数量少于预设的阈值，则将该行线继续向下平移第一距离，直至行线穿过的内容行文本框的数量达到所述阈值，得到当前内容行的行线。

56、一种实施方式中，所述处理模块具体用于：

57、针对上一行线穿过的每个文本框，向下查找与该文本框最接近的文本框，并计算该最接近的文本框与该文本框的中心点之间的垂直距离；

58、从上一行线穿过的文本框对应的垂直距离中，选取最小的垂直距离作为所述第一距离。

59、一种实施方式中，所述结构化模块具体用于：

60、若内容行文本框垂直对应的上一行内容行文本框的数量为零，则选取与该内容行文本框距离最近的上一行内容行文本框，确定该内容行文本框对应的属性文本为该上一行内容行文本框对应的属性文本；

61、若内容行文本框垂直对应的上一行内容行文本框的数量为一个，则确定该内容行文本框对应的属性文本为该上一行内容行文本框对应的属性文本；

62、若内容行文本框垂直对应的上一行内容行文本框的数量为多个，则将该内容行文本框拆分为多个，分别对应多个上一行内容行文本框，并确定拆分得到的各内容行文本框对应的属性文本分别为对应的上一行内容行文本框所对应的属性文本。

63、一种实施方式中，所述结构化模块具体用于：

64、针对首个内容行中的内容行文本框，判断该内容行文本框垂直对应的属性行文本框所对应的属性文本是否存在分隔符号，若存在，则将所述属性行文本框拆分为多个；

65、若位于同一内容行的多个内容行文本框垂直对应的上一行内容行文本框相同，则合并该位于同一内容行的多个内容行文本框，并确定合并得到的内容行文本框对应的属性文本为该上一行内容行文本框对应的属性文本。

66、第三方面，本技术实施例提供一种电子设备，包括：存储器，处理器；

67、所述存储器存储计算机执行指令；

68、所述处理器执行所述存储器存储的计算机执行指令，使得所述处理器执行如上第一方面和/或第一方面各种可能的实施方式。

69、第四方面，本技术实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上第一方面和/或第一方面各种可能的实施方式。

70、第五方面，本技术实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上第一方面和/或第一方面各种可能的实施方式。

71、本技术实施例提供的图像结构化方法、装置、电子设备、存储介质及程序产品，首先通过获取待识别图像的文本框区域图得到属性行文本框和内容行文本框，以属性行文本框的中心点绘制属性行的行线，然后根据相邻行的最短距离，将上一行的行线向下平移第一距离，得到各行的行线，根据当前行线穿过的内容确定各行的行文本框，最后确定每个内容行下的内容行文本框对应的属性文本，进行结构化。本方案基于各行的行线确定各行的文本框，能够避免因图像质量不佳，比如因影像拍照的角度存在透视变换或者弯曲导致图像中的行歪扭等情况对结构化结果的影响，有效提高图像结构化的准确性。

技术特征：

1.一种图像结构化方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待识别图像的文本框区域图，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据每个文本框的顶点坐标在所述初始图像中绘制框体，包括：

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

5.根据权利要求3所述的方法，其特征在于，所述基于所述属性行文本框的中心点绘制属性行的行线，并通过将上一行线向下平移第一距离，得到每个内容行的行线，包括：

6.根据权利要求5所述的方法，其特征在于，所述确定每个内容行的行线穿过的内容行文本框，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.根据权利要求1所述的方法，其特征在于，所述将上一行线向下平移第一距离之前，还包括：

9.根据权利要求1至8任一项所述的方法，其特征在于，所述确定每个内容行下的内容行文本框对应的属性文本，包括：

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

11.一种图像结构化装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括：存储器，处理器；

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-10任一项所述的方法。

14.一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现权利要求1-10任一项所述的方法。

技术总结
本申请实施例提供一种图像结构化方法、装置、电子设备、存储介质及程序产品。该方法包括：获取待识别图像的文本框区域图；其中，文本框区域图包括属性行文本框和内容行文本框；属性行文本框对应的文本为属性文本；基于属性行文本框的中心点确定属性行的行线，并通过将上一行线向下平移第一距离，得到每个内容行的行线；其中，第一距离为上一行线穿过的文本框的框间距中的最小值；文本框的框间距为该文本框与下方最近文本框之间的距离；确定每个内容行的行线穿过的内容行文本框，作为该内容行下的内容行文本框；确定每个内容行下的内容行文本框对应的属性文本，进行结构化，本申请实施例有效提高了图像结构化识别结果的准确性。

技术研发人员：付晓,肖杨,马文伟,刘设伟
受保护的技术使用者：泰康在线健康科技（武汉）有限公司
技术研发日：
技术公布日：2024/10/24

转载请注明原文地址:https://symbian.8miu.com/read-24240.html

专利

最新回复(0)