文档去噪方法、装置、设备和介质与流程

未命名 08-15 阅读:124 评论:0


1.本公开涉及人工智能技术领域,更具体地涉及一种文档去噪方法、装置、设备、介质和程序产品。


背景技术:

2.目前,当一些文件被扫描、传真、复制和打印时,由于一些外部环境的因素,极易导致文档的原始形式变得模糊,并且由于它们的变形,导致其无法以更永久的数字形式进行记录。文档中的噪声严重阻碍了光学字符识别系统的性能以及后续的数字化和分析。
3.现有的图像识别方法往往更关注于消除图像(如自然景观)中的噪声,而不是书面文件。同时,尽管在图像处理和计算机视觉应用中,深度神经网络从低级去噪到高级识别、去模糊、超分辨率、图像修补和从压缩图像中恢复原始图像具有较优的性能,但在进行文档去噪的任务中性能较差,在处理自然和人为因素导致的文档退化等问题时仍有待提高。


技术实现要素:

4.鉴于上述问题,本公开提供了提高文档图像质量以提高文字识别效率的文档去噪方法、装置、设备、介质和程序产品。
5.本公开实施例的第一方面,提供了一种文档去噪方法。所述方法包括:向训练好的融合网络模型输入第一文档图像,其中,所述融合网络模型包括编码模块和解码模块;利用所述编码模块对所述第一文档图像进行特征压缩;以及利用所述解码模块对所述编码模块的输出进行图像还原后输出第二文档图像。其中,所述编码模块包括至少一个卷积层,其中,所述卷积层包括区域生成网络和特征提取子网络;其中,所述利用所述编码模块对所述第一文档图像进行特征压缩包括:利用所述区域生成网络在所述卷积层的输入特征图上通过滑动窗口产生搜索框,并对每个搜索框进行分类,所述分类包括冗余和不冗余两类;利用所述特征提取子网络对分类到不冗余的类别中的搜索框进行特征提取,得到所述卷积层的输出特征图。
6.根据本公开的实施例,所述利用所述区域生成网络对每个搜索框进行分类包括:基于非极大值抑制算法对每个搜索框进行分类。
7.根据本公开的实施例,所述利用所述特征提取子网络对分类到不冗余的类别中的搜索框进行特征提取包括:利用感兴趣区域roi子网络对所述分类到不冗余的类别中的搜索框,划分成与所述输出特征图的维度相同大小的部分,并将每个部分的最大值作为所述输出特征图中每个位置的输出。
8.根据本公开的实施例,所述利用所述编码模块对所述第一文档图像进行特征压缩包括:通过密集连接,所述编码模块中除最后一个卷积层以外的每个卷积层,将该卷积层的输出输入到其后所有的卷积层中。
9.根据本公开的实施例,所述融合网络模型还包括空洞空间金字塔池化模块,在所述利用所述解码模块对所述编码模块的输出进行图像还原之前,所述方法还包括:将所述
编码模块的输出作为空洞空间金字塔池化模块的输入,利用所述空洞空间金字塔池化模块进行特征融合;以及将所述空洞空间金字塔池化模块的输出,输入到所述解码模块。
10.根据本公开的实施例,所述融合网络模型还包括条件随机场,所述利用所述解码模块对所述编码模块的输出进行图像还原之后,所述方法还包括:将所述解码模块的输出作为所述条件随机场的输入,利用所述条件随机场处理后输出所述第二文档图像。
11.根据本公开的实施例,所述方法还包括:利用所述光学字符识别系统识别所述第二文档图像中的文字。
12.本公开实施例的第二方面,提供了一种文档去噪装置。所述装置包括融合网络模型。融合网络模型用于接收输入的第一文档图像,对所述第一文档图像进行处理后输出第二文档图像,其中,所述第二文档图像用作光学字符识别系统的输入。具体地,所述融合网络模型包括编码模块和解码模块。所述编码模块用于对所述第一文档图像进行特征压缩,以及所述解码模块用于对所述编码模块的输出进行图像还原后输出所述第二文档图像。更具体地,所述编码模块包括至少一个卷积层,其中,所述卷积层包括区域生成网络和特征提取子网络。所述区域生成网络用于在所述卷积层的输入特征图上通过滑动窗口产生搜索框,并对每个搜索框进行分类,所述分类包括冗余和不冗余两类。所述特征提取子网络用于对分类到不冗余的类别中的搜索框进行特征提取,得到所述卷积层的输出特征图。
13.根据本公开的实施例,所述装置还包括光学字符识别系统。所述光学字符识别系统用于识别所述第二文档图像中的文字。
14.本公开实施例的第三方面提供了一种电子设备。所述电子设备包括一个或多个处理器和存储器。所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述方法。
15.本公开实施例的第四方面,还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述方法。
16.本公开实施例的第五方面,还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述方法。
17.上述一个或多个实施例具有如下优点或有益效果:可以至少部分地解决现有的光学字符识别方法在不能有效地处理由于自然和人为因素导致的文档退化等问题,并因此可以实现对由于自然和人为因素导致的存在文档退化的文档图像数据进行文字图像清晰化处理,提高文档图像中的文字识别效率。
附图说明
18.通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
19.图1示意性示出了根据本公开实施例的文档去噪方法、装置、设备、介质和程序产品的应用场景图;
20.图2示意性示出了根据本公开实施例的文档去噪方法的流程图;
21.图3示意性示出了本公开一实施例的文档去噪方法中编码模块中的卷积层的处理过程;
22.图4示意性示出了本公开另一实施例中融合网络模型对文档图像进行去噪的处理
流程;
23.图5示意性示出了本公开实施例中的融合网络模型的训练流程;
24.图6示意性示出了根据本公开实施例的文档去噪装置的结构框图;
25.图7示意性示出了本公开一实施例中图6所示的文档去噪装置中的融合网络模型的结构框图;以及
26.图8示意性示出了适于实现根据本公开实施例的文档去噪方法的电子设备的方框图。
具体实施方式
27.以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
28.在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
29.在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
30.在使用类似于“a、b和c等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有a、b和c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。本文中术语“第一”、“第二”等命名都仅用于区分,而不具有任何限制含义,以及附图中的任何元素数量均用于示例而非限制。
31.文档去噪是计算机视觉中最具挑战性的任务之一。目前仍有数百万份文档有待数字化,但由于自然和人为因素导致的文档退化等问题使这项任务非常困难。
32.鉴于此,本公开的实施例提供了一种文档去噪方法、装置、设备、介质和程序产品。根据本公开的实施例,可以利用基于编解码结构的融合网络模型对输入其中的第一文档图像进行处理,然后输出文字图像更为清晰的第二文档图像。本公开实施例可以用于恢复由于文档老化造成的变形、复印页上留下的折痕、随机的黑色补丁和轻微可见的文本等问题,并提高图像的质量和光学字符识别系统的性能。
33.图1示意性示出了根据本公开实施例的文档去噪方法、装置、设备、介质和程序产品的应用场景图。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
34.如图1所示,根据该实施例的应用场景100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
35.用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
36.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
37.服务器105可以是提供各种服务的服务器。服务器105中可以设置有用于提高文档图像中文字清晰度的融合网络模型。
38.用户可以通过终端设备101、102、103向服务器105上传文档图像。服务器105可以对用户上传的文档图像进行处理,并将处理结果反馈给终端设备101、102、103。例如,服务器105通过其中的融合网络模型对文档图像进行清晰化处理,并将处理后的清晰化的文档图像反馈给终端设备101、102、103。或者,在一些实施例中,当服务器105中设置有光学字符识别系统,服务器105可以利用光学字符识别系统对融合网络模型处理后的文档图像进行文字识别,然后将文字识别结果反馈给终端设备101、102、103。
39.需要说明的是,本公开实施例所提供的文档去噪方法一般可以由服务器105执行。相应地,本公开实施例所提供的文档去噪装置、设备、介质和程序产品一般可以设置于服务器1 05中。本公开实施例所提供的文档去噪方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的文档去噪装置、设备、介质和程序产品也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
40.应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
41.以下将基于图1描述的场景,通过图2~图4对本公开实施例的文档去噪方法进行详细描述。应注意,以下方法中各个操作的序号仅作为该操作的表示以便描述,而不应被看作表示该各个操作的执行顺序。除非明确指出,否则该方法不需要完全按照所示顺序来执行。
42.图2示意性示出了根据本公开实施例的文档去噪方法的流程图。
43.如图2所示,根据该实施例的文档去噪方法可以包括操作s210~操作s230。
44.首先在操作s210,向训练好的融合网络模型输入第一文档图像。。
45.然后在操作s220,利用融合网络模型对第一文档图像进行处理。
46.该融合网络模型包括编码模块和解码模块。其中,操作s220的具体处理过程包括:利用融合网络模型中的编码模块对第一文档图像进行特征压缩,以及利用融合网络模型中的解码模块对编码模块的输出进行图像还原后输出第二文档图像。
47.接下来在操作s230,获取融合网络模型输出的第二文档图像。其中,该第二文档图像可以用作光学字符识别系统的输入。
48.在一个实施例中,融合网络模型的输出端可以与光学字符识别系统的输入端相连接,从而可以利用光学字符识别系统识别第二文档图像中的文字。
49.本公开实施例中,编码模块可以包括至少一个经过改进的卷积层,其中,该至少一个被改进过的卷积层中每个卷积层可以包括区域生成网络和特征提取子网络,其中,该每个卷积层的数据处理过程可以如图3所示。
50.图3示意性示出了本公开一实施例的文档去噪方法中编码模块中的卷积层的处理过程。
51.如图3所示,编码模块中上述卷积层的处理过程可以包括操作s301和操作s302。
52.首先在操作s301,利用区域生成网络(region proposal network,rpn网络)在卷积层的输入特征图上通过滑动窗口产生搜索框,并对每个搜索框进行分类,该分类包括冗余和不冗余两类。
53.rpn网络通过滑动窗口产生搜索框,以此来保证对每个特征都可以通过滑动窗口产生搜索框。然后rpn网络可以对每个搜索框进行分类与回归操作。这样在后续特征提取和输出时,可以将分类到冗余的搜索框去除掉,仅对分类为不冗余的搜索框进行处理,以此解决特征压缩时候选区域过多带来的冗余问题。
54.在一个实施例中,rpn网络可以基于非极大值抑制算法对每个搜索框进行分类,以此方式可以将高度重叠的区域剔除掉。
55.然后在操作s302,利用特征提取子网络对分类到不冗余的类别中的搜索框进行特征提取,得到卷积层的输出特征图。经过rpn网络筛选掉冗余搜索框后,对剩余的搜索框使用特征提取网络进行特征提取。
56.在一个实施例中,可以用感兴趣区域(region of interest)roi子网络进行特征提取。具体地,可以利用roi子网络对分类到不冗余的类别中的搜索框,划分成与输出特征图的维度相同大小的部分,并将每个部分的最大值作为输出特征图中每个位置的输出。当然在另一些实施例中,也可以将每个部分中的像素的加权平均值作为出特征图中每个位置的输出。
57.特征提取子网络对不冗余的搜索框中的特征进行提取,实现了重新使用卷积网络中的特征映射的功能,保证重要特征不被忽略。
58.根据本公开的一个实施例,编码模块还可以通过密集连接(densenet),将编码模块中除最后一个卷积层以外的每个卷积层的输出,输入到其后所有的卷积层中。这样,编码模块中从任何层到所有后续层可以通过使用rpn提取候选区域并直接利用密集连接来确保重要特征的提取并保证最小化信息的丢失,增强了特征的复用,使得信息在融合网络模型中可以更好的保持,从而使融合网络模型在参数和计算成本更少的情形下,可以构建更深的网络模型和实现更优的性能。
59.根据本公开实施例该融合网络模型在编码模块和解码模块的基础结构基础上,还可以包括空洞空间金字塔池化模块和条件随机场。其中,空洞空间金字塔池化模块和条件随机场与编码模块和解码模块之间的输入输出关系可以参考图4的示意。
60.图4示意性示出了本公开另一实施例中融合网络模型对文档图像进行去噪的处理流程。
61.如图4所示,上述操作s220中对文档图像进行去噪时,可以将编码模块的输出先输入到空洞空间金字塔池化模块中,利用空洞空间金字塔池化模块对编码模块的输出进行特征融合,然后再输入到解码模块。使用空洞空间金字塔池化模块从不同的角度进行特征提取和再聚合方式再次将细节信息进行融合,进一步提高文档图像去噪性能。
62.进一步地,还可以将解码模块输出的图像,先输入到条件随机场(conditional random field,crf),利用使用条件随机场对解码模块的输出序列进行约束等处理后,再输
connections or shortcut connections)。编码模块是通过堆叠一系列卷积块构成,其目的是将文档的所有重要信息或特征压缩到一个特征向量中,可以用来重建文档,消除过程中的噪声;而解码模块是通过堆叠一系列反卷积块构成,其主要目的是利用编码模块产生的潜在矢量重建原始图像,同时消除重建过程中的噪声。
78.为了减轻梯度消失、加强特征传递,本公开实施例中可以在编码模块的每一卷积层中,使用rpn网络和密集连接代替原本的卷积块进行特征提取。这样一方面可以rpn网络通过滑动窗口产生搜索框,以此来保证对每个特征通过滑动窗口产生搜索框,对每个搜索框进行分类与回归操作,通过诸如非极大值抑制算法等将高度重叠的区域剔除掉,解决候选区域过多带来的冗余问题,另一方面可以通过密集连接使每层都与该层之前的所有层在特征维度上相连,增强了特征的复用,使得信息(前向传播时)或梯度(后向传播时)在整个网络中可以更好的保持,从而在参数和计算成本更少的情形下训练更深的网络模型和实现更优的性能。
79.在每一卷积层中,对经过rpn网络筛选掉冗余搜索框后,剩余的搜索框可以用roi子网络进行特征提取。roi网络是通过将每个待处理区域划分为相等大小的部分(其数量与输出的维度相同),找到每个部分的最大值,将这些最大值复制到输出,以此可以保证网络模型的处理速度,节省训练时间,并通过重新使用卷积网络中的特征映射保证重要特征不被忽略,提高权重值。
80.假设每个卷积层的输入特征图具有c个通道,每个卷积层产生c个通道的新特征图,在网络的前向传递过程中,每一个卷积层都可以接收之前所有卷积层的输出,第n个卷积层的输出可以表示为如下式:
[0081][0082]
其中δ表示激活函数;表示核尺寸大小为k
×
k的卷积操作。
[0083]
在经过编码模块的特征提取后,通过使用空洞空间金字塔池化模块可以把任何尺度图像的卷积特征统一成相同维度,在网络结构当中位于全连接层之前和最后一个池化层之后。空洞空间金字塔池化的优点是对输入图像大小和比例不敏感,可以避免对原始图像的裁剪和变形操作,并输出固定长度的特征向量。
[0084]
接下来,使用解码模块通过上采样操作恢复每个像素对应的空间位置,同时为保留不同编码层输出的特征信息,使用跳跃连接将其与下一层解码模块经过上采样操作获得的输出特征图进行特征信息的融合,融合形成新的特征图用于恢复图像的空间位置信息,通过附加特征用于提高模型的整体性能。
[0085]
最后,通过将解码模块的输出作为crf条件随机场的输入数据。crf通过计算解码模块输出的图像中每两个像素之间的相似性判断其是否属于同一类,从而对提取的结果进行精细化分类,将经过crf后处理得到的结果作为融合网络模型的最终输出。
[0086]
上述步骤4)中,通过使用交叉熵损失函数获取模型训练的损失值,损失函数的计算如下所示:
[0087][0088]
其中j(θ)为参数θ的偏导数;y(i)取0或者1,其中,具体取值根据融合网络模型最终
输出的图像,与在上述步骤2)为该输出图像预先准备的可用于文字识别的目标图像之间的各个像素对比来确定。
[0089]
上述步骤5)中,训练网络模型的评价指标使用结构相似指数(ssim)进行评价,具体公式表示为:
[0090][0091]
其中,x和y代表两张图像,μ和δ代表不同特征,代表x的方差,μ
x
代表均值,c1代表偏差。
[0092]
通过上述步骤1)~5)对融合网络模型进行训练,使得该融合网络模型可以使用编码模块和解码模块等,对由于自然和人为因素导致的存在文档退化的文档图像数据进行文字图像清晰化处理,解决噪声、模糊等外部环境导致的文档图像中复杂和细节信息难以恢复的问题。
[0093]
基于以上各个实施例的文档去噪方法,本公开实施例还提供了一种文档去噪装置。以下将结合图6和图7对该装置进行详细描述。
[0094]
图6示意性示出了根据本公开实施例的文档去噪装置600的结构框图。
[0095]
如图6所示,根据本公开的实施例,该文档去噪装置600可以包括融合网络模型610。根据本公开的另一些实施例,该文档去噪装置600还可以进一步包括光学字符识别系统620。该文档去噪装置600可以执行前述参考图2~图4所描述的方法。
[0096]
融合网络模型610用于接收输入的第一文档图像,对第一文档图像进行处理后输出第二文档图像,其中,第二文档图像用作光学字符识别系统的输入。在一个实施例中,融合网络模型610可以执行前文介绍的操作s220。
[0097]
光学字符识别系统620用于接收融合网络模型610输出的第二文档图像,并识别第二文档图像中的文字。
[0098]
图7示意性示出了本公开一实施例中图6所示的文档去噪装置600中的融合网络模型610的结构框图。
[0099]
如图7所示,根据该实施例融合网络模型610可以包括编码模块611、空洞空间金字塔池化模块612、解码模块613和条件随机场614。
[0100]
编码模块611用于对第一文档图像进行特征压缩,并将处理结果输出给空洞空间金字塔池化模块612。
[0101]
空洞空间金字塔池化模块612用于对编码模块611的输出,进行进一步特征融合,然后输出给解码模块613。
[0102]
解码模块613用于对空洞空间金字塔池化模块612的输出进行图像还原,得到初步还原的图像数据,并传输给条件随机场614。
[0103]
条件随机场614用于对解码模块613的输出进行处理后输出第二文档图像。
[0104]
根据本公开的实施例,编码模块611可以包括至少一个卷积层,其中,该至少一个卷积层中每个卷积层包括区域生成网络6111和特征提取子网络6112。
[0105]
区域生成网络6111用于在卷积层的输入特征图上通过滑动窗口产生搜索框,并对每个搜索框进行分类,分类包括冗余和不冗余两类。在一个实施例中,区域生成网络6111可
以执行前文介绍的操作s301。
[0106]
特征提取子网络6112用于对分类到不冗余的类别中的搜索框进行特征提取,得到卷积层的输出特征图。在一个实施例中,特征提取子网络6112可以执行前文介绍的操作s302。
[0107]
根据本公开的实施例,该融合网络模型610可以通过前文介绍的图5所示的训练流程进行训练,并在训练好后可以应用于本公开实施例的文档去噪方法中。
[0108]
根据本公开的实施例,融合网络模型610、光学字符识别系统620、编码模块611、空洞空间金字塔池化模块612、解码模块613、条件随机场614、区域生成网络6111和特征提取子网络6112中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,融合网络模型610、光学字符识别系统620、编码模块611、空洞空间金字塔池化模块612、解码模块613、条件随机场614、区域生成网络6111和特征提取子网络6112中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,融合网络模型610、光学字符识别系统620、编码模块611、空洞空间金字塔池化模块612、解码模块613、条件随机场614、区域生成网络6111和特征提取子网络6112中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
[0109]
图8示意性示出了适于实现根据本公开实施例的文档去噪方法的电子设备的方框图。
[0110]
如图8所示,根据本公开实施例的电子设备800包括处理器801,其可以根据存储在只读存储器(rom)802中的程序或者从存储部分808加载到随机访问存储器(ram)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如cpu)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic))等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
[0111]
在ram 803中,存储有电子设备800操作所需的各种程序和数据。处理器801、rom 802以及ram 803通过总线804彼此相连。处理器801通过执行rom 802和/或ram 803中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除rom 802和ram 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
[0112]
根据本公开的实施例,电子设备800还可以包括输入/输出(i/o)接口805,输入/输出(i/o)接口805也连接至总线804。电子设备800还可以包括连接至i/o接口805的以下部件中的一项或多项:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至i/o接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、
半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
[0113]
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
[0114]
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的rom 802和/或ram 803和/或rom 802和ram 803以外的一个或多个存储器。
[0115]
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本公开实施例所提供的方法。
[0116]
在该计算机程序被处理器801执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
[0117]
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分809被下载和安装,和/或从可拆卸介质811被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
[0118]
在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
[0119]
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如java,c++,python,“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0120]
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个
用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0121]
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
[0122]
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

技术特征:
1.一种文档去噪方法,包括:向训练好的融合网络模型输入第一文档图像,其中,所述融合网络模型包括编码模块和解码模块;利用所述编码模块对所述第一文档图像进行特征压缩;以及利用所述解码模块对所述编码模块的输出进行图像还原后输出第二文档图像,其中,所述第二文档图像用作光学字符识别系统的输入;其中,所述编码模块包括至少一个卷积层,其中,所述卷积层包括区域生成网络和特征提取子网络;其中,所述利用所述编码模块对所述第一文档图像进行特征压缩包括:利用所述区域生成网络在所述卷积层的输入特征图上通过滑动窗口产生搜索框,并对每个搜索框进行分类,所述分类包括冗余和不冗余两类;以及利用所述特征提取子网络对分类到不冗余的类别中的搜索框进行特征提取,得到所述卷积层的输出特征图。2.根据权利要求1所述的方法,其中,所述利用所述区域生成网络对每个搜索框进行分类包括:基于非极大值抑制算法对每个搜索框进行分类。3.根据权利要求1所述的方法,其中,所述利用所述特征提取子网络对分类到不冗余的类别中的搜索框进行特征提取包括:利用感兴趣区域roi子网络对所述分类到不冗余的类别中的搜索框,划分成与所述输出特征图的维度相同大小的部分,并将每个部分的最大值作为所述输出特征图中每个位置的输出。4.根据权利要求1所述的方法,其中,所述利用所述编码模块对所述第一文档图像进行特征压缩包括:通过密集连接,所述编码模块中除最后一个卷积层以外的每个卷积层,将该卷积层的输出输入到其后所有的卷积层中。5.根据权利要求1~4任意一项所述的方法,其中,所述融合网络模型还包括空洞空间金字塔池化模块,在所述利用所述解码模块对所述编码模块的输出进行图像还原之前,所述方法还包括:将所述编码模块的输出作为空洞空间金字塔池化模块的输入,利用所述空洞空间金字塔池化模块进行特征融合;以及将所述空洞空间金字塔池化模块的输出,输入到所述解码模块。6.根据权利要求5所述的方法,其中,所述融合网络模型还包括条件随机场,所述利用所述解码模块对所述编码模块的输出进行图像还原之后,所述方法还包括:将所述解码模块的输出作为所述条件随机场的输入,利用所述条件随机场处理后输出所述第二文档图像。7.根据权利要求1所述的方法,其中,所述方法还包括:利用所述光学字符识别系统识别所述第二文档图像中的文字。8.一种文档去噪装置,包括:融合网络模型,用于接收输入的第一文档图像,对所述第一文档图像进行处理后输出第二文档图像,其中,所述第二文档图像用作光学字符识别系统的输入;
其中,所述融合网络模型包括编码模块和解码模块,所述编码模块用于对所述第一文档图像进行特征压缩;以及所述解码模块用于对所述编码模块的输出进行图像还原后输出所述第二文档图像;其中,所述编码模块包括至少一个卷积层,其中,所述卷积层包括区域生成网络和特征提取子网络;所述区域生成网络用于在所述卷积层的输入特征图上通过滑动窗口产生搜索框,并对每个搜索框进行分类,所述分类包括冗余和不冗余两类;所述特征提取子网络用于对分类到不冗余的类别中的搜索框进行特征提取,得到所述卷积层的输出特征图。9.一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行权利要求1~7中任一项所述的方法。10.一种计算机可读存储介质,其上存储有计算机程序指令,该计算机程序指令被处理器执行时实现权利要求1~7中任一项所述的方法。11.一种计算机程序产品,包括计算机程序指令,所述计算机程序指令被处理器执行时实现权利要求1~7中任一项所述的方法。

技术总结
本公开提供了一种文档去噪方法,可以应用于人工智能技术领域。该方法包括:基于编解码结构的融合网络模型,利用编码模块对输入的第一文档图像进行特征压缩;以及利用解码模块对编码模块的输出进行图像还原后输出第二文档图像,其中,第二文档图像用作光学字符识别系统的输入。其中,编码模块包括至少一个卷积层,在每个卷积层中利用区域生成网络在卷积层的输入特征图上通过滑动窗口产生搜索框,并对每个搜索框进行分类,分类包括冗余和不冗余两类;利用特征提取子网络对分类到不冗余的类别中的搜索框进行特征提取,得到卷积层的输出特征图。本公开还提供了一种文档去噪装置、设备、存储介质和程序产品。存储介质和程序产品。存储介质和程序产品。


技术研发人员:张海轩
受保护的技术使用者:中国工商银行股份有限公司
技术研发日:2023.05.10
技术公布日:2023/8/14
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐