基于自适应结构元素的表格结构提取方法与流程

    技术2026-05-01  15


    本发明涉及图像处理方法,尤其涉及一种基于自适应结构元素的表格结构提取方法。


    背景技术:

    1、在文档自动化处理、数据分析或者是信息提取等应用场景下了,通常需要在表格区域中提取出表格的结构,包括单元格与其位置关系。目前关于表格单元格提取的现有技术与发展状况如下:

    2、1)基于边缘检测算法(如canny边缘检测)和霍夫直线检测来检测表格的横竖线,再通过轮廓信息提取单元格,这种方法在早期表格结构提取中广泛应用,结合图像处理技术能够处理简单的表格。然而,这种方法的检测效果受阈值影响较大,易受单元格中文字干扰,难以适应复杂表格结构。

    3、2)基于深度学习的表格结构提取,利用大量标注数据训练模型,通过图像分割、对象检测等技术自动识别表格的行列结构和单元格内容。然而,需要大量标注数据进行训练,对硬件要求较高,且模型复杂度较大,难以在资源有限的环境中高效部署。

    4、3)基于直线检测的表格单元格提取往往无法有效应对表格内部复杂结构情况,同时还会受到图片中文字的干扰,导致处理结果不够准确。


    技术实现思路

    1、本发明所要解决的技术问题是如何提供一种能够实现表格的单元格准确提取的基于自适应结构元素的表格结构提取方法。

    2、为解决上述技术问题,本发明所采取的技术方案是:1、一种基于自适应结构元素的表格结构提取方法,其特征在于包括如下步骤:

    3、s1,对输入的原始表格图像进行反相二值化操作,得到原始表格图像的二值图;

    4、s2,对二值图进行细化处理,得到骨架图;

    5、s3,对骨架图进行投影处理;

    6、s4,根据投影结果生成结构元素;

    7、s5,基于自定义结构元素对骨架图进行击中击不中变换;

    8、s6,遍历击中击不中变换的结果,过每个点作贯穿全图的横竖线;

    9、s7,将步骤s6的结果与原始表格图像做交集;

    10、s8,对步骤s7的结果进行轮廓提取,获取单元格结构。

    11、采用上述技术方案所产生的有益效果在于:所述方法使用投影法对表格图像的像素分布进行分析,自适应获取变换阈值,提高了单元格提取过程中的鲁棒性。使用自定义结构元素的击中击不中变换,减少了文字产生的干扰,提高了结果的准确性。该方法实现了包含表格单元格的快速提取,提高了数据提取和分析的准确性和效率。



    技术特征:

    1.一种基于自适应结构元素的表格结构提取方法,其特征在于包括如下步骤:

    2.如权利要求1所述的基于自适应结构元素的表格结构提取方法,其特征在于:二值化操作用于将灰度图像转换为二值图像,反相是指将二值图像中的黑白像素值进行翻转,将图像中的像素值与一个预定的阈值进行比较,然后根据比较结果将像素值设置为0或255:

    3.如权利要求1所述的基于自适应结构元素的表格结构提取方法,其特征在于,所述步骤s2对二值图进行细化处理,得到骨架图的方法包括如下步骤:

    4.如权利要求1所述的基于自适应结构元素的表格结构提取方法,其特征在于,所述步骤s3对骨架图进行投影处理的方法包括如下步骤:

    5.如权利要求1所述的基于自适应结构元素的表格结构提取方法,其特征在于,所述步骤s6中,击中击不中变换描述为:对于一个给定的二值图像i,以及两个结构元素e1和e2,击中击不中变换定义为:


    技术总结
    本发明公开了一种基于自适应结构元素的表格结构提取方法,涉及图像处理方法技术领域。所述方法包括如下步骤:S1,对输入的原始表格图像进行反相二值化操作,得到原始表格图像的二值图;S2,对二值图进行细化处理,得到骨架图;S3,对骨架图进行投影处理;S4,根据投影结果生成结构元素;S5,基于自定义结构元素对骨架图进行击中击不中变换;S6,遍历击中击不中变换的结果,过每个点作贯穿全图的横竖线;S7,将步骤S6的结果与原始表格图像做交集;S8,对步骤S7的结果进行轮廓提取,获取单元格结构。所述方法能够实现表格的单元格准确提取。

    技术研发人员:陈中,曹卫国,钱晶,南迪
    受保护的技术使用者:南京云阶电力科技有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-42134.html

    最新回复(0)