制表信息提取处理方法、装置、计算机设备和存储介质与流程

专利2022-05-10  3



1.本技术涉及人工智能技术领域,特别是涉及一种制表信息提取处理方法、装置、计算机设备和存储介质。


背景技术:

2.ocr(optical character recognition),中文为光学字符识别,是将打字、手写、或印刷的文本的图像电子或机械转换为机器编码的文本,无论是来自扫描的文档、文档的照片还是场景的照片或叠加在图像上的字幕文本,因而使用ocr技术可以替代人工来提取如pdf文档等文件中的关键信息,并且生成需要的如excel等格式的表格,这样可以大大提高办公作业效率。
3.ocr主要包含文本检测和文本识别两个步骤;其中,文本检测主要分为基于回归的文本检测模型和基于分割的文本检测模型两大类,基于回归的文本检测模型可以是如textboxes、textboxes 、seglink、rrd、rrpn、r2cnn和ctpn等等,基于分割的文本检测模型可以是如psenet、pannet、dbnet、craft等等;文本识别主要基于crnn框架实现,解码部分可分为基于ctc的解码和基于attention的编码器

解码器来进行解码。
4.目前所公开的文本检测和文本识别技术主要是针对街景文本数据,对于文档图像中的单个字符和过短的字符串存在容易漏定的技术问题。


技术实现要素:

5.基于此,有必要针对上述技术问题,提供一种制表信息提取处理方法、装置、计算机设备和存储介质。
6.一种制表信息提取处理方法,所述方法包括:
7.获取携带制表文本的文档图像;
8.将所述文档图像输入基于梯级特征金字塔网络构建的文本检测网络,获取所述文本检测网络输出的对所述制表文本在所述文档图像上的位置检测结果;所述梯级特征金字塔网络中各梯级网络用于提取所述文档图像的各尺度特征;
9.根据所述位置检测结果,利用文本识别网络识别所述制表文本的文本内容;
10.根据所述文本内容,获取制表信息。
11.一种制表信息提取处理装置,包括:
12.图像获取模块,用于获取携带制表文本的文档图像;
13.文本检测模块,用于将所述文档图像输入基于梯级特征金字塔网络构建的文本检测网络,获取所述文本检测网络输出的对所述制表文本在所述文档图像上的位置检测结果;所述梯级特征金字塔网络中各梯级网络用于提取所述文档图像的各尺度特征;
14.文本识别模块,用于根据所述位置检测结果,利用文本识别网络识别所述制表文本的文本内容;
15.信息获取模块,用于根据所述文本内容,获取制表信息。
16.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
17.获取携带制表文本的文档图像;将所述文档图像输入基于梯级特征金字塔网络构建的文本检测网络,获取所述文本检测网络输出的对所述制表文本在所述文档图像上的位置检测结果;所述梯级特征金字塔网络中各梯级网络用于提取所述文档图像的各尺度特征;根据所述位置检测结果,利用文本识别网络识别所述制表文本的文本内容;根据所述文本内容,获取制表信息。
18.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
19.获取携带制表文本的文档图像;将所述文档图像输入基于梯级特征金字塔网络构建的文本检测网络,获取所述文本检测网络输出的对所述制表文本在所述文档图像上的位置检测结果;所述梯级特征金字塔网络中各梯级网络用于提取所述文档图像的各尺度特征;根据所述位置检测结果,利用文本识别网络识别所述制表文本的文本内容;根据所述文本内容,获取制表信息。
20.上述制表信息提取处理方法、装置、计算机设备和存储介质,获取携带制表文本的文档图像,然后将文档图像输入基于梯级特征金字塔网络构建的文本检测网络,获取文本检测网络输出的对制表文本在该文档图像上的位置检测结果,该梯级特征金字塔网络中各梯级网络用于提取文档图像的各尺度特征,然后根据位置检测结果利用文本识别网络识别制表文本的文本内容,最后根据文本内容获取制表信息。该方案采用梯级特征金字塔网络构建的文本检测网络,进一步增强了对文档图像中多种尺度特征的提取,尤其可以文档图像中增强小目标特征的提取,从而可以减少对文档图像中的单个字符和过短的字符串的漏定,提高对文档图像中制表信息提取的准确性。
附图说明
21.图1为一个实施例中制表信息提取处理方法的流程示意图;
22.图2为一个实施例中文本检测网络的处理示意图;
23.图3为一个实施例中文本识别网络的结构示意图;
24.图4为一个应用示例中制表信息提取处理方法的流程示意图;
25.图5为一个实施例中制表信息提取处理装置的结构框图;
26.图6为一个实施例中计算机设备的内部结构图。
具体实施方式
27.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
28.本技术提供的制表信息提取处理方法,可由例如终端、服务器等计算机设备执行。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
29.在一个实施例中,如图1所示,提供了一种制表信息提取处理方法,该方法包括如
下步骤:
30.步骤s101,获取携带制表文本的文档图像;
31.本步骤中,携带制表文本的文档图像可以由携带制表文本的pdf文档解析得到。不同于街景文本的背景复杂、字体多样等特点,文档图像存在版式多样、文本密集、单个字符或者短字符串占整个图像的比例非常小等特点,尤其是一些表单、账单中单个字符或者短字符串占比很高,且通常是关键制表信息。本步骤可将携带制表文本的pdf文档解析成图片,作为携带制表文本的文档图像,这是由于pdf文档通常不能直接作为文本检测网络的输入数据,需要在程序中调用一些工具包,将pdf文档解析成图片,并且在解析过程中,可选择合适的dpi,由此既保证图片细节的质量,又不因图片过大而导致模型运行时间的增加。
32.步骤s102,将文档图像输入基于梯级特征金字塔网络构建的文本检测网络,获取文本检测网络输出的对制表文本在文档图像上的位置检测结果;
33.本步骤中,文本检测网络可基于梯级特征金字塔网络构建,该梯级特征金字塔网络所包含的各梯级网络用于提取文档图像的各尺度特征。本步骤将携带制表文本的文档图像输入该基于梯级特征金字塔网络构建的文本检测网络,然后获取该文本检测网络输出的对制表文本在文档图像上的位置检测结果,该位置检测结果可以是在文档图像上的对制表文本的定位框。
34.具体的,如图2所示,在一个实施例中,文本检测网络可以包括骨干网络、梯级特征金字塔网络和拼接层。该骨干网络可采用resnet网络(如resnet18),骨干网络从如账单等文档图像(image)提取的特征传递至梯级特征金字塔网络,梯级特征金字塔网络(stair

fpn)包括多个梯级网络(如stair

step1、stair

step2和stair

step3),各梯级网络用于提取该文档图像的各尺度特征并传递至拼接(concat)层进行拼接,该拼接层可对梯级特征金字塔网络中各梯级不同层(如图2所示的concat层左侧的四个箭头对应四层)的特征进行拼接得到拼接结果,该拼接结果经过dbnet网络(differentiable binarization network,可微分二值化网络)的后处理操作(postprocess)得到位置检测结果,该位置检测结果具体可以是对该文档图像中的制表文本的定位框。
35.步骤s103,根据位置检测结果,利用文本识别网络识别制表文本的文本内容;
36.本步骤主要是在得到对制表文本在文档图像上的位置检测结果后,利用文本识别网络识别该制表文本的具体内容即文本内容。
37.在一些实施例中,步骤s103可以包括:将文档图像中与该位置检测结果对应的文档图像区域输入文本识别网络,获取文本识别网络输出的制表文本的文本内容。
38.具体的,在得到对制表文本在文档图像上的位置检测结果后,即可确定出文档图像中与位置检测结果对应的图像区域,作为文档图像区域,该文档图像区域中即包含有制表所需的文本内容,如图2示出的“账单”、“金额:198”、“时间:”等等。本实施例可将文档图像中与该位置检测结果对应的文档图像区域输入至文本识别网络,如图3所示,该文本识别网络具体可以包括依次连接的resnet网络、rnn网络和ctc(connectionist temporal classification,联结时序分类)解码网络,该resnet网络作为文本识别网络的骨干网络,具体可采用resnet50网络,接着的rnn网络则可采用lstm结构,然后通过ctc解码网络进行ctc解码输出得到制表文本的文本内容,该文本内容作为文本识别网络最终输出的文本识别结果。
39.步骤s104,根据文本内容,获取制表信息。
40.本步骤主要是根据文本识别网络所识别输出的文本内容,获取制表信息,如图2所示,该制表信息具体可以是“金额:198”、“时间:”等等,具体将哪些文本内容作为制表信息,可依据实际场景所需进行确定。
41.上述制表信息提取处理方法,获取携带制表文本的文档图像,然后将文档图像输入基于梯级特征金字塔网络构建的文本检测网络,获取文本检测网络输出的对制表文本在该文档图像上的位置检测结果,该梯级特征金字塔网络中各梯级网络用于提取文档图像的各尺度特征,然后根据位置检测结果利用文本识别网络识别制表文本的文本内容,最后根据文本内容获取制表信息。该方案采用梯级特征金字塔网络构建的文本检测网络,进一步增强了对文档图像中多种尺度特征的提取,尤其可以文档图像中增强小目标特征的提取,从而可以减少对文档图像中的单个字符和过短的字符串的漏定,提高对文档图像中制表信息提取的准确性。
42.在一些实施例中,步骤s104中的根据文本内容,获取制表信息,可以包括:
43.将文本内容进行关键字匹配,得到文本内容中与预设关键字相匹配的第一关键文本内容;根据第一关键文本内容,获取文本内容中与第一关键文本内容在文档图像上位置关联的第二关键文本内容;将第二关键文本内容作为制表信息。
44.本实施例中,可根据文本识别网络的文本识别结果即制表文本的文本内容,进行关键字的匹配,例如将制表文本的文本内容与一个或多个预设关键字进行匹配,得到该文本内容中与预设关键字相匹配的文本内容(称为第一关键文本内容)。示例性的,如图2所示,若“金额:”为预设关键字,则可将文本识别网络所识别的制表文本的文本内容中的“金额:”作为第一关键文本内容。然后,根据该第一关键文本内容,从该制表文本的文本内容中获取与第一关键文本内容在文档图像上位置关联的第二关键文本内容,示例性的,结合图2,若第一关键文本内容为“金额:”那么需要从文本内容中获取在文档图像上位于“金额:”附近区域的值即“198”作为第二关键文本内容,也即位置关联可以是指在文档图像上位于第一关键文本内容的附近,具体可量化为在文档图像上以第一关键文本内容为中心的一定/预设图像区域范围内。在得到第二关键文本内容如“198”后,可将该第二关键文本内容“198”作为制表信息。
45.在一些实施例中,将第二关键文本内容作为制表信息之后,还可以进行如下步骤处理:基于制表信息中的第二关键文本内容以及第一关键文本内容,生成表格。
46.本实施例主要是利用从文档图像中提取的关键文本内容(如第二关键文本内容“198”、第一关键文本内容“金额:”)进行制表,具体可提取到文档图像中所有关键文本内容后,可通过相应的程序生成excel表格,也可根据实际场景使用的规则生成各种表格。
47.在一个应用实例中,还提供一种制表信息提取处理方法,如图4所示,该应用实例的方法主要包括pdf解析为图像、文本检测、文本识别、关键信息提取制表四个过程,具体的:
48.在pdf解析为图像过程中,因为pdf通常不能直接作为文本检测网络的输入数据,所以需要在程序中调用一些工具包,将pdf解析成图像即文档图像,在解析过程中,可选择合适的dpi,从而既保证图片细节的质量,又不因图片过大而导致模型运行时间的增加。在文本检测过程中,文本检测网络可采用基于梯级特征金字塔网络(stair

fpn)的改进dbnet
网络,如图2所示,其中骨干网络可采用resnet18网络,然后接梯级特征金字塔网络(stair

fpn),接着对各梯级不同层的特征通过拼接层(concat)进行拼接,然后经过dbnet原有的后处理操作(postprocess)得到最终的文本的定位框即对制表文本在文档图像上的位置检测结果。在文本识别过程中,如图3所示,文本识别网络可采用基于crnn框架(convolutional recurrent neural network,卷积递归神经网络)加ctc解码的格式来进行文本识别处理,其中骨干网络可采用resnet50网络,rnn(recurrent neural network,递归神经网络)使用lstm结构,然后进行ctc解码,得到最终的文本识别结果即制表文本的文本内容。在关键信息提取制表过程中,根据文本识别结果,进行关键词的匹配,然后于文档图像上在匹配到的关键词附近的区域匹配到相对应的值,如匹配到关键字“金额:”,然后在文档图像上的“金额:”附近匹配相对应的值“198”,从而在提取到文档图像上的所有关键制表信息以后,可通过程序生成excel表格,还可根据实际场景使用的规则生成多种表格。
49.本技术实施例提供的制表信息提取处理方法,基于stair

fpn的改进dbnet网络,通过stair

fpn进一步增强了多种尺度特征的提取,尤其可以增强小目标特征的提取,因而可以减少文档图像中的单个字符和过短的字符串的漏定,提高了文档图像中关键制表信息的检出率和准确性。
50.应该理解的是,虽然如上流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
51.在一个实施例中,如图5所示,提供了一种制表信息提取处理装置,该装置500可以包括:
52.图像获取模块501,用于获取携带制表文本的文档图像;
53.文本检测模块502,用于将所述文档图像输入基于梯级特征金字塔网络构建的文本检测网络,获取所述文本检测网络输出的对所述制表文本在所述文档图像上的位置检测结果;所述梯级特征金字塔网络中各梯级网络用于提取所述文档图像的各尺度特征;
54.文本识别模块503,用于根据所述位置检测结果,利用文本识别网络识别所述制表文本的文本内容;
55.信息获取模块504,用于根据所述文本内容,获取制表信息。
56.在一个实施例中,所述文本检测网络包括梯级特征金字塔网络和拼接层;所述梯级特征金字塔网络包括多个梯级网络,各梯级网络用于提取所述文档图像的各尺度特征并传递至所述拼接层进行拼接。
57.在一个实施例中,所述文本检测网络的骨干网络采用resnet网络;所述拼接层对所述各尺度特征的拼接结果经过dbnet网络的后处理操作得到所述位置检测结果。
58.在一个实施例中,文本识别模块503,用于将所述文档图像中与所述位置检测结果对应的文档图像区域输入所述文本识别网络,获取所述文本识别网络输出的所述制表文本的文本内容。
59.在一个实施例中,所述文本识别网络包括依次连接的resnet网络、rnn网络和ctc
解码网络。
60.在一个实施例中,信息获取模块504,用于将所述文本内容进行关键字匹配,得到所述文本内容中与预设关键字相匹配的第一关键文本内容;根据所述第一关键文本内容,获取所述文本内容中与所述第一关键文本内容在所述文档图像上位置关联的第二关键文本内容;将所述第二关键文本内容作为制表信息。
61.在一个实施例中,该装置500还包括:制表处理单元,用于基于所述制表信息中的第二关键文本内容以及所述第一关键文本内容,生成表格。
62.关于制表信息提取处理装置的具体限定可以参见上文中对于制表信息提取处理方法的限定,在此不再赘述。上述制表信息提取处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
63.在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、运营商网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种制表信息提取处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
64.本领域技术人员可以理解,图6中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
65.在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
66.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
67.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read

only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic randomaccess memory,dram)等。
68.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例
中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
69.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
转载请注明原文地址: https://doc.8miu.com/read-1550181.html

最新回复(0)