一种文档图像配准数据合成方法、系统、装置及介质
未命名
07-22
阅读:108
评论:0
1.本发明涉及模式识别与人工智能技术领域,尤其涉及一种文档图像配准数据合成方法、系统、装置及介质。
背景技术:
2.图像配准/对齐/密集映射任务旨在将不同时间、不同传感器(成像设备)或不同条件下(天候、照度、摄像位置和角度等)获取的两幅或多幅图像进行匹配、对齐、叠加。其在医学图像处理、遥感图像处理等领域有大量应用,可以实现自动医学诊断、遥感图像拼接、基于多光谱数据的遥感图像增强等。文档图像的配准可以实现自动化信息抽取,从而实现办公自动化。基于深度学习的图像配准方法取得了很好的效果,但其通常需要大量带标注(偏移场)的数据进行训练学习。自然场景配准任务可以通过施加仿射变化来合成带标注的数据,但文档图像间往往存在一些非刚性形变,无法用仿射变换简单合成。此外,随着移动设备内置摄像头的普及,文档图像越来越多地以拍摄的方式获得,合成数据需要模拟拍照过程中引入的阴影、光照变化等退化。目前仍然缺少针对文档图像配准任务的数据合成方法。
技术实现要素:
3.为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种文档图像配准数据合成方法、系统、装置及介质。
4.本发明所采用的技术方案是:
5.一种文档图像配准数据合成方法,包括以下步骤:
6.获取不包含几何形变退化、光照退化的第一文档图像;
7.生成随机非刚性形变的偏移场;
8.根据生成的所述偏移场对所述第一文档图像进行几何形变,得到第二文档图像;
9.获取阴影图;
10.根据所述阴影图对所述第一文档图像和/或所述第二文档图像进行退化处理,获得退化图像。
11.进一步地,所述偏移场是一个长宽等于第一文档图像、通道数为2的矩阵,该矩阵中每一个2维向量为所述第一文档图像对应位置的像素指定2维平面上的偏移方向以及偏移距离。
12.进一步地,给定待配准图像i1和i2,对图像i1进行偏移采样处理,获得图像i3,偏移采样过程表示如下:
13.i3=i1(x+f(x))
14.其中x为像素位置,f为偏移场,最终图像i3与i2对齐。
15.进一步地,所述生成随机非刚性形变的偏移场,包括:
16.为第一文档图像的每个像素位置指定一个在预设取值范围内的随机2维向量,再进行平滑滤波处理,获得平滑的偏移场。
17.进一步地,所述获取阴影图,包括:
18.选取各种纹理的浅色背景,在各种光照环境、拍摄角度下,利用各种移动摄像头进行拍摄,得到阴影图。
19.进一步地,对文档图像进行退化处理的表示式为:
[0020][0021]
其中r为文档图像,s为阴影图,i为退化后文档图像,代表逐像素相乘。
[0022]
进一步地,所述文档图像配准数据合成方法还包括以下步骤:
[0023]
在获得的退化图像中加入模糊噪声、压缩噪声或椒盐噪声中至少一种噪声,获得带噪声的退化图像。
[0024]
本发明所采用的另一技术方案是:
[0025]
一种文档图像配准数据合成系统,包括:
[0026]
图像获取模块,用于获取不包含几何形变退化、光照退化的第一文档图像;
[0027]
偏移生成模块,用于生成随机非刚性形变的偏移场;
[0028]
图像形变模块,用于根据生成的所述偏移场对所述第一文档图像进行几何形变,得到第二文档图像;
[0029]
阴影获取模块,用于获取阴影图;
[0030]
退化处理模块,用于根据所述阴影图对所述第一文档图像和/或所述第二文档图像进行退化处理,获得退化图像。
[0031]
本发明所采用的另一技术方案是:
[0032]
一种文档图像配准数据合成装置,包括:
[0033]
至少一个处理器;
[0034]
至少一个存储器,用于存储至少一个程序;
[0035]
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
[0036]
本发明所采用的另一技术方案是:
[0037]
一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。
[0038]
本发明的有益效果是:本发明可以合成针对文档图像配准的数据,包括两张内容相同但相互之间含有非刚性形变的文档图像以及这两张文档图像之间的偏移场,合成的数据还可以模拟真实场景中拍摄文档图像含有的阴影、光照变化等退化。该合成方法可以有效地缓解现有文档图像配准任务中训练数据欠缺的问题。
附图说明
[0039]
为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
[0040]
图1是本发明实施例中一种文档图像配准数据的合成方法的总体流程图;
[0041]
图2是本发明实施例中部分第一文档图像和第二文档图像样例示意图;
[0042]
图3是本发明实施例中采集到的部分阴影图样例示意图。
具体实施方式
[0043]
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
[0044]
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0045]
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
[0046]
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
[0047]
如图1所示,本实施例提供一种文档图像配准数据合成方法,包括以下步骤:
[0048]
s1、获取不包含几何形变退化、光照退化的第一文档图像。
[0049]
所述步骤s1的第一文档图像可以从pdf文档转化得到,也可以利用平面扫描仪扫描、互联网采集、截屏等方式获得。其中pdf文档转化以及互联网采集等方式可以通过网络爬虫等方式自动化执行,可以低成本地获得大量的目标文档。
[0050]
s2、生成随机非刚性形变的偏移场。
[0051]
所述步骤s2生成的非刚性偏移场是一个长宽同第一文档图像相同,通道数为2的一个矩阵。矩阵中的每个像素位置,即一个2维向量,为第一文档图像上对应位置的像素指定在2维平面上的偏移方向以及偏移距离。该偏移场生成方式为:为第一文档图像上每一个像素指定一个随机的2维向量,2维向量两个元素的取值范围分别为[-4*w,4*w],[-4*h,4*h],其中w、h分别为第一文档图像的宽和高,这里我们将第一文档图像统一缩放到1024
×
1024。我们可以得到一个1024
×
1024
×
2的偏移场矩阵,但真实场景中的偏移场应该是平滑的,相邻像素应该有大致相当的偏移方向以及距离,因此本实施例应用一个核大小为91的均值滤波器做两次平滑滤波得到最终的偏移场矩阵。相比于根据随机仿射变换生成的偏移场,这种方式获得的偏移场可以引入非刚性形变,更加符合文档图像间的形变方式。
[0052]
s3、根据生成的所述偏移场对所述第一文档图像进行几何形变,得到第二文档图像。
[0053]
参见图2,根据生成的偏移场,对第一文档图像上所有的像素进行处理,获得几何退化的第二文档图像。
[0054]
s4、获取阴影图。
[0055]
参见图3,所述步骤s4采集方法为:选取各种无明显纹理的浅色背景,可以是白纸、墙壁、地板、桌面等,可以直接利用自然光线,也可以人为加入各种光照、阴影变化,然后利用各种含摄像头的移动设备进行拍摄,可以是手机、平板电脑、相机等。
[0056]
s5、根据所述阴影图对所述第一文档图像和/或所述第二文档图像进行退化处理,获得退化图像。
[0057]
步骤s5退化方式为:其中r为文档图像,s为阴影图,i为退化后文档图像,代表逐像素相乘。其中s可以是采集的阴影图的裁剪子图,从而使得在阴影图有限情况下获得更丰富的多样性。
[0058]
s6、在获得的退化图像中加入模糊噪声、压缩噪声或椒盐噪声中至少一种噪声,获得带噪声的退化图像。
[0059]
为更好模拟文档图像的拍照效果,本实施例在步骤s5之后选择性加入高斯模糊、jpeg压缩噪声、椒盐噪声等。
[0060]
参见图1,本实施例合成的针对文档图像配准任务的数据包括:第一文档图像(既可以是退化后的也可以是未经退化的)、第二文档图像(既可以是退化后的也可以是未经退化的)以及用于配准第一文档图像和第二文档图像的偏移场。其中,是否采用退化可以根据具体场景进行选择,例如如果待解决任务是希望配准两张拍照文档图像,则可以对第一和第二文档图像都采用退化;如果待解决任务是希望配准一张拍照文档图像和一张pdf文档图像(无光照、阴影退化),则第一文档图像可以不采用退化,第二文档图像采用退化。
[0061]
本实施例还提供一种文档图像配准数据合成系统,包括:
[0062]
图像获取模块,用于获取不包含几何形变退化、光照退化的第一文档图像;
[0063]
偏移生成模块,用于生成随机非刚性形变的偏移场;
[0064]
图像形变模块,用于根据生成的所述偏移场对所述第一文档图像进行几何形变,得到第二文档图像;
[0065]
阴影获取模块,用于获取阴影图;
[0066]
退化处理模块,用于根据所述阴影图对所述第一文档图像和/或所述第二文档图像进行退化处理,获得退化图像。
[0067]
本实施例的一种文档图像配准数据合成系统,可执行本发明方法实施例所提供的一种文档图像配准数据合成方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
[0068]
本实施例还提供一种文档图像配准数据合成装置,包括:
[0069]
至少一个处理器;
[0070]
至少一个存储器,用于存储至少一个程序;
[0071]
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现图1所示方法。
[0072]
本实施例的一种文档图像配准数据合成装置,可执行本发明方法实施例所提供的一种文档图像配准数据合成方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
[0073]
本技术实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处
理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
[0074]
本实施例还提供了一种存储介质,存储有可执行本发明方法实施例所提供的一种文档图像配准数据合成方法的指令或程序,当运行该指令或程序时,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
[0075]
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
[0076]
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
[0077]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0078]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
[0079]
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其
他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0080]
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0081]
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
[0082]
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
[0083]
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本技术权利要求所限定的范围内。
技术特征:
1.一种文档图像配准数据合成方法,其特征在于,包括以下步骤:获取不包含几何形变退化、光照退化的第一文档图像;生成随机非刚性形变的偏移场;根据生成的所述偏移场对所述第一文档图像进行几何形变,得到第二文档图像;获取阴影图;根据所述阴影图对所述第一文档图像和/或所述第二文档图像进行退化处理,获得退化图像。2.根据权利要求1所述的一种文档图像配准数据合成方法,其特征在于,所述偏移场是一个长宽等于第一文档图像、通道数为2的矩阵,该矩阵中每一个2维向量为所述第一文档图像的像素指定2维平面上的偏移方向以及偏移距离。3.根据权利要求2所述的一种文档图像配准数据合成方法,其特征在于,给定待配准图像i1和i2,对图像i1进行偏移采样处理,获得图像i3,偏移采样过程表示如下:i3=i1(x+f(x))其中x为像素位置,f为偏移场,最终图像i3与i2对齐。4.根据权利要求2所述的一种文档图像配准数据合成方法,其特征在于,所述生成随机非刚性形变的偏移场,包括:为第一文档图像的每个像素位置指定一个在预设取值范围内的随机2维向量,再进行平滑滤波处理,获得平滑的偏移场。5.根据权利要求1所述的一种文档图像配准数据合成方法,其特征在于,所述获取阴影图,包括:选取各种纹理的浅色背景,在各种光照环境、拍摄角度下,利用各种移动摄像头进行拍摄,得到阴影图。6.根据权利要求1所述的一种文档图像配准数据合成方法,其特征在于,对文档图像进行退化处理的表示式为:其中r为文档图像,s为阴影图,i为退化后文档图像,代表逐像素相乘。7.根据权利要求1所述的一种文档图像配准数据合成方法,其特征在于,所述文档图像配准数据合成方法还包括以下步骤:在获得的退化图像中加入模糊噪声、压缩噪声或椒盐噪声中至少一种噪声,获得带噪声的退化图像。8.一种文档图像配准数据合成系统,其特征在于,包括:图像获取模块,用于获取不包含几何形变退化、光照退化的第一文档图像;偏移生成模块,用于生成随机非刚性形变的偏移场;图像形变模块,用于根据生成的所述偏移场对所述第一文档图像进行几何形变,得到第二文档图像;阴影获取模块,用于获取阴影图;退化处理模块,用于根据所述阴影图对所述第一文档图像和/或所述第二文档图像进行退化处理,获得退化图像。9.一种文档图像配准数据合成装置,其特征在于,包括:
至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现权利要求1-7任一项所述方法。10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-7任一项所述方法。
技术总结
本发明公开了一种文档图像配准数据合成方法、系统、装置及介质,其中方法包括:获取不包含几何形变退化、光照退化的第一文档图像;生成随机非刚性形变的偏移场;根据生成的偏移场对第一文档图像进行几何形变,得到第二文档图像;获取阴影图;根据阴影图对第一文档图像和/或第二文档图像进行退化处理,获得退化图像。本发明可以合成针对文档图像配准的数据,包括两张内容相同但相互之间含有非刚性形变的文档图像以及这两张文档图像之间的偏移场,合成的数据还可以模拟真实场景中拍摄文档图像含有的阴影、光照变化等退化;该合成方法可以有效地缓解现有文档图像配准任务中训练数据欠缺的问题。本发明可广泛应用于模式识别与人工智能技术领域。人工智能技术领域。人工智能技术领域。
技术研发人员:金连文 张家鑫 陈邦栋 郑晓怡
受保护的技术使用者:华南理工大学
技术研发日:2023.02.13
技术公布日:2023/7/20
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
