一种基于渐进式的碑文文字图像修复模型及修复方法
未命名
07-12
阅读:123
评论:0
1.本发明涉及一种基于渐进式的碑文文字图像修复模型及修复方法,属于计算机视觉技术领域。
背景技术:
2.图像修复起源于对艺术品的修复,尽可能地与原画相匹配。目的是使用合理的内容消除图像中不需要的区域或者以合理精细的内容填充图像中缺失的区域。基于深度学习的图像修复领域在近几年发展迅速,在2016年的cvpr的会议上,pathak等人提出了一个基于上下文编码器的图像修复手段,结合了带有通道全连接层的卷积神经网络cnn以及对抗生成网络gan,展示了卷积神经网络在图像修复的潜力。不过此类算法以及后续的算法改进都是基于图像中心矩形区域进行的图像修复工作,由于现实场景中图像的损坏区域很多都是不规则涂抹,中心矩形区域具有很大局限性。iizuka等人和yu等人提出了针对不规则图像涂抹的修复算法,不再局限在图像的中心矩形区域修复,但是这些算法的后处理比较繁琐。liu等人在2018年的eccv提出的pconv方法,不依靠繁琐的后处理,卷积的结果针对有效元素采用部分卷积的方式,不局限于中心缺失元素而可以处理不规则的孔洞。在现实场景下,图像修复需要处理大面积的受损图像。对于大面积不规则的涂抹,图像修复算法需要有效像素间的特征提取和周边区域进行学习。现有的算法对于大空洞的图片影响修复效果不够突出,li等人提出了循环特征推理(recurrent feature reasoning,rfr)模块,能多次循环递归式地完善特征图,提出的知识一致注意力模型对于背景纹理问题有极大改善。
3.碑文图像修复作为图像修复的一个分支,起步阶段较晚。目前针对文字图像修复,大多针对英文这种简单结构字体。中文具有拓扑结构以及数量众多的特点,针对中文图像修复具有很大的挑战。目前针对文字图像修复的工作不多,对于残缺的书法碑文作品需要人工的手动修复。对于不规则缺失的文本图像信息干扰,没有很好的修复方法。如chen等人提出了一种基于双判别器的彝文手写体文字修复方法。这种方法可以有效修复彝文文字的结构,但是对于复杂的字体修复效果较差。汉字是具有拓扑结构,根据偏旁等汉字组件信息可以进行对汉字的修复工作。初期的研究工作很多结合了计算机图形学和字形的拓扑结构。由于汉字的变形、枯笔、残笔、笔画模糊等特点,这些算法会让字形失去原有的风格从而降低修复准确率。
4.近几年深度学习的快速发展,也使得图像修复发展在深度学习领域结合发展。目前已经提出的图像修复方法中,针对中文文字修复大多运用基于样本的图像修复、对抗生成网络和卷积神经网络。基于样本的图像修复受制于样本的数量,碑文文字图像没有公开的数据集。目前,大多研究者对于碑文等汉字图像的修复采用对抗生成网络,基于无监督的对抗生成网络没有根据周围信息进行图像修复,会产生一些错误的字符结构,令修复结果只是看起来像字但是错误的结果。卷积神经网络会利用掩码区域的周围信息来修复图像,然而随着网络结构的加深,它会产生错误的修复结构和一些不好的纹理信息。
技术实现要素:
5.为了解决现有技术的不足,本发明提供一种基于渐进式的碑文文字图像修复模型及修复方法,利用带注意力机制的编码器和解码器结构,对于掩码图像的边缘进行修复,寻找质量最好的特征值去填充特征图,填补好的特征图进行保存,缩小掩码边界,从而达到渐进性的修复效果。
6.发明概述:
7.收集和整理碑文文字数据集是深度学习中不可或缺的一环。
8.本发明为了修复碑文在现实场景中出现的不规则的残损和涂抹文本图像,现阶段的图像修复针对文本图像的中心矩形区域,本发明通过利用相邻像素间相关性加强预测深层像素的能力,用来渐进式修复不规则形状的缺失图像。现阶段的碑文修复算法主要追求视觉的一致性,但是现实场景中碑文的汉字结构性和风格性较强,文字图像并非简单等同于传统图像,它要求修复后图像中笔画拓扑结构保持正确,而不只是视觉一致性。其次当文字存在包含关键位置的大面积破损时,仅仅依赖存在的边缘信息很难完成正确修复。
9.本发明首先收集书法家的博物馆馆藏碑文的文本图像,然后进行图片降噪并且单字分割,将碑文文字分割为单字的数据集,碑文文字图像对于背景纹理要求不高,为了追求文字修复效果,我们将数据集进行二值化处理得到纯净文本图像,将文字结构信息都保留下来,使模型学习文字结构信息并生成风格一致的文本图像。
10.为了修复碑文文字图像的随机损坏区域,以及加强大区域缺失的修复能力,我们提出了渐进式的碑文文字图像修复模型,渐进式的碑文文字图像修复模型是有三个模块组成:预处理模块、特征推理模块、自适应门控特征融合模块。
11.在预处理模块利用部分卷积对传入的掩码图和特征图进行卷积,将部分卷积后的结果对特征图进行更新,将更新后的掩码图和特征图经过正则化层和一层激活函数后,送到特征推理模块。
12.特征推理模块是采用跳远连接的编码器和解码器,中间是一个kca,输出是本轮的输出后的特征图,特征推理模块跟预处理模块进行连接重复处理六次,每次得到的结果都被记录最后作为特征融合的结果进行使用。
13.自适应门控特征融合模块通过加入门控卷积对真实图像进行渐进式修复,解决了普通卷生成特征图会包含大量冗余信息,可以在深层的网络中,增加特征图的感受野,减少特征冗余,增强碑文文字图像的结构性修复,提高了修复效果。
14.本发明采用如下技术方案:
15.一种基于渐进式的碑文文字图像修复模型,包括依次连接的预处理模块、特征推理模块和自适应门控特征融合模块;
16.所述预处理模块包括两层部分卷积,用于根据掩码图对特征图进行有效像素的进行部分卷积并且对掩码图进行更新;
17.所述特征推理模块包括编码器、解码器以及位于编码器和解码器之间的知识一致性注意力机制(kca),编码器包括6层普通卷积,解码器包括3层普通卷积;
18.所述自适应门控特征融合模块共9层,依次为反卷积、2层门控卷积、门控反卷积、门控卷积、门控反卷积、门控卷积、门控反卷积和门控卷积;
19.预处理模块利用部分卷积对传入的掩码图和特征图进行卷积,将部分卷积后的结
果对特征图进行更新,将更新后的掩码图和特征图经过正则化层和一层激活函数后,送到特征推理模块;特征推理模块用于根据需要修复的位置进行修复,得到修复后的特征图,然后将特征图反馈给预处理模块,预处理模块再输入特征推理模块输出特征图,特征推理模块跟预处理模块进行连接重复处理4-8次并保存每一次的特征图,然后将若干次得到的特征图传送到自适应门控特征融合模块,自适应门控特征融合模块通过加入门控卷积对真实图像进行渐进式修复,将若干个特征图合并成一个特征图得到修复后的图像。
20.预处理模块由两层部分卷积构成,将更新后的掩膜和特征图经过归一化层和一层激活函数后,送到特征推理模块。部分卷积是更新二进制掩码,如果当前卷积的结果有至少一个有效输入值的条件,则对应的位置对于下一个部分卷积层是有效的。归一化层将特征图中让每个特征都有均值为0,方差为1的分布,使分布相对稳定。激活函数采用了relu,激活层作用就是增加了神经网络各层之间的非线性关系。
21.特征推理模块是采用跳远连接的编码器和解码器,模块的输入是一个特征图和当前轮次的掩码图,模块的中间是一个现有的知识一致性注意力机制(kca),知识一致性注意力机制融合了相邻两次循环中的信息来计算注意力来控制特征图的不连续性。输出是当前轮次修复后的特征图,特征推理模块与步骤1的预处理模块联合重复六次,每次的循环中,特征推理模块的输出作为下一轮次的预处理模块的输入,以及每次的特征推理模块输出都会被记录,作为后来的融合使用。特征推理模块的目标是用尽可能高质量的特征值填充识别区域。
22.自适应门控特征融合模块中,特征图通过前两个模块已经迭代若干次,直接使用最后的特征图会出现梯度消失的情况,本发明采用多次门控卷积循环输出的多个特征图融合成一个特征图,然后输出特征图。
23.本发明利用带注意力机制的编码器和解码器结构,对于掩码图像的边缘进行修复,寻找质量最好的特征值去填充特征图,填补好的特征图进行保存,缩小掩码边界,从而达到渐进性的修复效果。本发明的图像修复针对碑文文本图像,对碑文的随机涂抹区域的有效像素进行学习,加强了像素的联系性。传统的卷积生成特征图时会包含大量的冗余特征信息,不同的特征图业会出现相似的情况从而产生多余的信息,从而导致修复的效果很差,本发明在自适应门控特征融合模块中加入了门控卷积,利用门控卷积代替普通卷积对传入的特征图进行融合,减少了深层网络中的特征冗余,可以在深层的网络中,增加特征图的感受野,减少特征冗余,提高碑文文本图像的结构性修复效果。
24.优选的,预处理模块第一次接收的是传入的真实图和掩码图像,之后就是接收特征推理模块传入的特征图和掩码图,特征图是当前轮次特征推理模块修复后的特征图,掩码图为在修复一轮之后,前一轮掩码图收缩一圈后的结果。根据掩码图对特征图进行有效像素的进行部分卷积并且对掩码图进行更新,掩膜图像中,1表示有效像素,0表示无效像素。如果在一个卷积窗口中,该窗口掩膜值之和大于0,则卷积后的掩膜值置为1,否则仍置为0。通过每次在卷积过程中更新掩膜的方法,在经过多层卷积操作之后,最终掩膜将会全部置为1。部分卷积计算之后重新归一化特征图。碑文文字的结构信息不受彩色像素的影响,将预处理模块网络的输入层设置为单通道,可以有效地减少图像以及mask的更新的成本。
25.预处理模块中部分卷积在卷积的过程中,只对有效像素进行操作,输入的掩码在
卷积层里更新完成,掩码也在部分卷积的层数加深之下不断进行收缩;
26.部分卷积层的计算公式如下:
[0027][0028]
公式中:表示在第z通道x,y像素位置的特征值;wz是通道z的卷积核;f
x,y
和m
x,y
是以x,y为中心并且尺寸与卷积核一样的输入特征块和掩码块;b表示卷积层滤波器的偏差,为放缩因子。
[0029]
优选的,预处理模块由部分卷积新生成位置i,j的掩码值公式为:
[0030][0031]
优选的,特征推理模块中,特征推理模块与预处理模块循环迭代优选为6次,每次的循环中,特征推理模块的输出作为下一轮次的预处理模块的输入,以及每次的特征推理模块输出都会被记录,作为后来的融合使用。
[0032]
优选的,在训练阶段,为计算出预测值和真实值之间的差异值,碑文文字图像修复模型总体更新所用的损失函数包括感知损失l
perceptual
、风格损失l
style
、待填充区域的l1损失l
mask
以及非待填充区域的l1损失l
unmask
四部分;
[0033]
感知损失l
perceptual
是真实图像生成的特征图与预测图像生成的特征图采用vgg-16的特征输出,由于传入的特征图与预测图像都是灰度图,传统的vgg16也是在彩色图像训练的,不适合碑文图像,vgg-16改变为适合灰度图的输入层,感知损失l
perceptual
如下所示:
[0034][0035]
其中φ代表vgg16网络,i代表vgg16的第i层的特征图作为使用输出,将vgg16设置为训练单通道灰度图的网络层,hi,wi,ci分别为vgg16的第i层的高、宽、通道数;n为在vgg的第i层的特征点数量;i
out
为输出的特征图像,i
gt
为真实图像。
[0036]
优选的,采用了vgg16是可以识别输入图像在特征图的像素级差别,风格损失保证了图像的颜色和图案的相似性,并且对转置卷积产生的棋盘效应有一定缓解效果;
[0037]
计算风格损失l
style
如下所示:
[0038][0039][0040]
其中φ代表vgg16网络,j代表vgg16的第j层的特征图作为使用输出,cj,hj,wj分别代表高、宽、通道数,g代表计算格拉姆矩阵,是每个通道c的特征图和每个通道c
′
的特征图的内积。
[0041]
优选的,待填充区域的l1损失如下所示
[0042][0043]
n表示训练样本数量,i表示当前样本,mi表示当前样本的掩码图,i
gt
表示当前训练真实的图像,i
out
表示当前模型训练后修复输出的特征图像;
[0044]
非待填充区域的l1损失如下所示
[0045][0046]
n表示训练样本数量,i表示当前样本,mi表示当前样本的掩码图,i
gt
表示当前训练真实的图像,i
out
表示当前模型训练后修复输出的特征图像。
[0047]
优选的,碑文文字图像修复模型总的损失函数为:
[0048]
l
total
=λ
mask
l
mask
+λ
unmask
l
unmask
+λ
style
l
style
+λ
perceptual
l
perceptual
[0049]
其中λ
mask
、λ
unmask
、λ
style
、λ
perceptual
分别代表对应损失函数的权重值,可根据时间需要取值,如权重值λ
style
可为120。
[0050]
本发明提供一种基于深度学习的碑文文字图像渐进式修复方法,针对现实场景下,碑文文字存在的破损以及涂抹不均匀以及自然风化等原因造成的不规则破坏等情况下,提出了基于渐进式的碑文文字图像修复模型;
[0051]
一种基于渐进式的碑文文字图像修复模型的修复方法,包括如下步骤:
[0052]
(1)碑文数据集收集;
[0053]
收集书法家的博物馆馆藏碑文的文本图像;
[0054]
(2)将收集的碑文数据集进行预处理,对碑文数据集的单字进行提取;
[0055]
(3)利用python生成相同图像大小的掩码数据集,将掩码图像和训练集的单字图像传入到碑文文字图像修复模型当中训练,保存训练之后得到的模型文件;
[0056]
(4)将待修复的图像,利用步骤(3)训练好的碑文文字图像修复模型机进行修复。
[0057]
优选的,碑文汉字间隔匀称、布局合理,单个汉字提取简单,如图3所示,步骤(2)的具体实现步骤为:
[0058]
2.1、对碑文的汉字进行分割,分割后的每张图片代表一个汉字;
[0059]
2.2、判断分割后的汉字是否破损,若破损则丢弃,反之进行步骤2.3;
[0060]
2.3、利用opencv对单字图像进行预处理:
[0061]
碑文由于时间以及保存条件的改变,字体周围会有腐蚀磨损,表现在数字图像上的是图像噪点,依次进行降噪、高斯滤波和阈值处理,利用反色将文字变成白底黑字;opencv作为开源的计算机视觉库,有丰富的python接口,提供了很多计算机视觉处理方法,本发明利用opencv的fastnlmeansdenoisingcolored方法对分割后的头像进行
[0062]
本发明进行了图片降噪并且单字分割,将碑文文字分割为单字的数据集,碑文文字图像对于背景纹理要求不高,为了追求文字修复效果,本发明将数据集进行二值化处理得到纯净文本图像,将文字结构信息都保留下来,使模型学习文字结构信息并生成风格一致的文本图像;
[0063]
3.4、将单字图像设置大小为128像素的图片,然后利用欧阳询风格字体作为补充,将所有单字图像分为训练集和测试集。
[0064]
本发明未详尽之处,均可参见现有技术。
[0065]
本发明的有益效果为:
[0066]
1、传统的对抗生成网络,对抗生成网络的模型会产生一些错误的字符结构,令修复结果只是看起来像字但是错误的结果,碑文是书法的一种表现形式,具有较强的字体风格。本发明利用的是带注意力机制的编码器和解码器结构,在对于掩码的网络边缘进行渐进性修复,是根据像素间的联系进行修复,不会产生错误的字符,并且针对碑文文本图像的风格化具有一定的修复和还原作用。
[0067]
2、本发明的数据集利用的是单通道的二值图像,可以更好地针对碑文文字的特征提取,相较于彩色图像,更好地节省了图像修复模型的训练成本。由于碑文大多都是在黑灰色的碑石,利用二值图像可以更好地还原碑文,加强修复过程中的特征提取,从而提升修复效果。
[0068]
3、利用的掩码图像是不规则的随机涂抹图像,可以针对碑文文字的不规则破损进行图像修复。现实情景中,碑文的损坏大多都是随机性的,本发明的掩码图像选用具有更好的现实性。
附图说明
[0069]
构成本技术的一部分的说明书附图用来提供对本技术的进一步理解,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。
[0070]
图1为本发明的基于渐进式的碑文文字图像修复模型的结构示意图;
[0071]
图2为本发明的整理收集到的碑文数据集收集的流程示意图;
[0072]
图3为本发明的碑文单字文本图像提取过程图;
[0073]
图4为本发明的自适应门控特征融合模块的改进示意图;
[0074]
图5为掩码图像与碑文本文图像以及融合后的效果;
[0075]
图6为碑文图像修复结果的展示。
具体实施方式:
[0076]
为了使本技术领域的人员更好的理解本说明书中的技术方案,下面结合本说明书实施中的附图,对本发明书实施例中的技术方案进行清楚、完整的描述,但不仅限于此,本发明未详尽说明的,均按本领域常规技术。
[0077]
实施例1
[0078]
一种基于渐进式的碑文文字图像修复模型,包括依次连接的预处理模块、特征推理模块和自适应门控特征融合模块;
[0079]
所述预处理模块包括两层部分卷积,用于根据掩码图对特征图进行有效像素的进行部分卷积并且对掩码图进行更新;
[0080]
所述特征推理模块包括编码器、解码器以及位于编码器和解码器之间的知识一致性注意力机制(kca),编码器包括6层普通卷积,解码器包括3层普通卷积;
[0081]
所述自适应门控特征融合模块共9层,依次为反卷积、2层门控卷积、门控反卷积、门控卷积、门控反卷积、门控卷积、门控反卷积和门控卷积;
[0082]
预处理模块利用部分卷积对传入的掩码图和特征图进行卷积,将部分卷积后的结
果对特征图进行更新,将更新后的掩码图和特征图经过正则化层和一层激活函数后,送到特征推理模块;特征推理模块用于根据需要修复的位置进行修复,得到修复后的特征图,然后将特征图反馈给预处理模块,预处理模块再输入特征推理模块输出特征图,特征推理模块跟预处理模块进行连接重复处理4-8次并保存每一次的特征图,然后将若干次得到的特征图传送到自适应门控特征融合模块,自适应门控特征融合模块通过加入门控卷积对真实图像进行渐进式修复,将若干个特征图合并成一个特征图得到修复后的图像。
[0083]
如图1所示,碑文文本图像和掩码图传入的两层是部分卷积,箭头表示与特征推理模块的连接。预处理模块由两层部分卷积构成,将更新后的掩膜和特征图经过归一化层和一层激活函数后,送到特征推理模块。部分卷积是更新二进制掩码,如果当前卷积的结果有至少一个有效输入值的条件,则对应的位置对于下一个部分卷积层是有效的。归一化层将特征图中让每个特征都有均值为0,方差为1的分布,使分布相对稳定。激活函数采用了relu,激活层作用就是增加了神经网络各层之间的非线性关系。
[0084]
特征推理模块是采用跳远连接的编码器和解码器,模块的输入是一个特征图和当前轮次的掩码图,模块的中间是一个现有的知识一致性注意力机制(kca),知识一致性注意力机制融合了相邻两次循环中的信息来计算注意力来控制特征图的不连续性。输出是当前轮次修复后的特征图,特征推理模块与步骤1的预处理模块联合重复六次,每次的循环中,特征推理模块的输出作为下一轮次的预处理模块的输入,以及每次的特征推理模块输出都会被记录,作为后来的融合使用。特征推理模块的目标是用尽可能高质量的特征值填充识别区域。
[0085]
自适应门控特征融合模块中,特征图通过前两个模块已经迭代若干次,直接使用最后的特征图会出现梯度消失的情况,本发明采用多次门控卷积循环输出的多个特征图融合成一个特征图,然后输出特征图。
[0086]
本发明利用带注意力机制的编码器和解码器结构,对于掩码图像的边缘进行修复,寻找质量最好的特征值去填充特征图,填补好的特征图进行保存,缩小掩码边界,从而达到渐进性的修复效果。本发明的图像修复针对碑文文本图像,对碑文的随机涂抹区域的有效像素进行学习,加强了像素的联系性。传统的卷积生成特征图时会包含大量的冗余特征信息,不同的特征图业会出现相似的情况从而产生多余的信息,从而导致修复的效果很差,本发明在自适应门控特征融合模块中加入了门控卷积,利用门控卷积代替普通卷积对传入的特征图进行融合,减少了深层网络中的特征冗余,可以在深层的网络中,增加特征图的感受野,减少特征冗余,提高碑文文本图像的结构性修复效果。
[0087]
本发明的自适应门控特征融合模块共9层,依次为反卷积、2层门控卷积、门控反卷积、门控卷积、门控反卷积、门控卷积、门控反卷积和门控卷积;第3~8层的改变如图4所示,采用门控卷积代替普通卷积,在特征融合模块中减少由于网络深层网络带来的特征冗余,增强了碑文文字图像的结构性修复,加深网络,达到更好的修复效果,提高了修复效果,提升文字修复的图像质量。
[0088]
普通卷积不适合深层的图像修复,普通卷积将每一个像素都当成有效值去计算的,普通卷积也会对特征图中缺失的区域进行计算,从而会造成特征冗余,门控卷积会通过使用卷积和sigmoid函数来使得网络去学习这种区分,保证卷积操作仅针对有效像素,经过第9层门控卷积将多次门控卷积循环输出的多个特征图融合成一个特征图,之后输出最后
的修复结果。
[0089]
此外,现有的方法大多是两级网络结构或基于gan的网络结构。这种类型的网络结构消耗计算资源,并且网络没有经过良好的训练,容易过拟合。
[0090]
自适应门控特征融合模块将特征推理模块的特征映射进行合并。由于保存的不同特征图的掩膜区域不相同,合并特征图可以有效避免某些位置的值过于突兀,导致预测图像的纹理或结构不一致。并且因为卷积生成特征图时会包含大量的冗余特征信息,不同的特征图业会出现相似的情况从而产生多余的信息,从而导致修复的效果很差,如图4所示,使用门控代替卷积,这样可以减少特征冗余。
[0091]
实施例2
[0092]
一种基于渐进式的碑文文字图像修复模型,如实施例1所述,所不同的是,预处理模块第一次接收的是传入的真实图和掩码图像,之后就是接收特征推理模块传入的特征图和掩码图,特征图是当前轮次特征推理模块修复后的特征图,掩码图为在修复一轮之后,前一轮掩码图收缩一圈后的结果。根据掩码图对特征图进行有效像素的进行部分卷积并且对掩码图进行更新,掩膜图像中,1表示有效像素,0表示无效像素。如果在一个卷积窗口中,该窗口掩膜值之和大于0,则卷积后的掩膜值置为1,否则仍置为0。通过每次在卷积过程中更新掩膜的方法,在经过多层卷积操作之后,最终掩膜将会全部置为1。部分卷积计算之后重新归一化特征图。碑文文字的结构信息不受彩色像素的影响,将预处理模块网络的输入层设置为单通道,可以有效地减少图像以及mask的更新的成本。
[0093]
预处理模块中部分卷积在卷积的过程中,只对有效像素进行操作,输入的掩码在卷积层里更新完成,掩码也在部分卷积的层数加深之下不断进行收缩;
[0094]
部分卷积层的计算公式如下:
[0095][0096]
公式中:f
x
*
,y,z
表示在第z通道x,y像素位置的特征值;wz是通道z的卷积核;f
x,y
和m
x,y
是以x,y为中心并且尺寸与卷积核一样的输入特征块和掩码块;b表示卷积层滤波器的偏差,为放缩因子。
[0097]
预处理模块由部分卷积新生成位置i,j的掩码值公式为:
[0098][0099]
特征推理模块中,特征推理模块与预处理模块循环迭代优选为6次,每次的循环中,特征推理模块的输出作为下一轮次的预处理模块的输入,以及每次的特征推理模块输出都会被记录,作为后来的融合使用。
[0100]
实施例3
[0101]
一种基于渐进式的碑文文字图像修复模型,如实施例2所述,所不同的是,在训练阶段,为计算出预测值和真实值之间的差异值,碑文文字图像修复模型总体更新所用的损失函数包括感知损失l
perceptual
、风格损失l
style
、待填充区域的l1损失l
mask
以及非待填充区域的l1损失l
unmask
四部分;
[0102]
感知损失l
perceptual
是真实图像生成的特征图与预测图像生成的特征图采用vgg-16的特征输出,由于传入的特征图与预测图像都是灰度图,传统的vgg16也是在彩色图像训练的,不适合碑文图像,vgg-16改变为适合灰度图的输入层,感知损失l
perceptual
如下所示:
[0103][0104]
其中φ代表vgg16网络,i代表vgg16的第i层的特征图作为使用输出,将vgg16设置为训练单通道灰度图的网络层,hi,wi,ci分别为vgg16的第i层的高、宽、通道数;n为在vgg的第i层的特征点数量;i
out
为输出的特征图像,i
gt
为真实图像。
[0105]
采用了vgg16是可以识别输入图像在特征图的像素级差别,风格损失保证了图像的颜色和图案的相似性,并且对转置卷积产生的棋盘效应有一定缓解效果;
[0106]
计算风格损失l
style
如下所示:
[0107][0108][0109]
其中φ代表vgg16网络,j代表vgg16的第j层的特征图作为使用输出,cj,hj,wj分别代表高、宽、通道数,g代表计算格拉姆矩阵,是每个通道c的特征图和每个通道c
′
的特征图的内积。
[0110]
待填充区域的l1损失如下所示
[0111][0112]
n表示训练样本数量,i表示当前样本,mi表示当前样本的掩码图,i
gt
表示当前训练真实的图像,i
out
表示当前模型训练后修复输出的特征图像;
[0113]
非待填充区域的l1损失如下所示
[0114][0115]
n表示训练样本数量,i表示当前样本,mi表示当前样本的掩码图,i
gt
表示当前训练真实的图像,i
out
表示当前模型训练后修复输出的特征图像。
[0116]
碑文文字图像修复模型总的损失函数为:
[0117]
l
total
=λ
mask
l
mask
+λ
unmask
l
unmask
+λ
style
l
style
+λ
perceptual
l
perceptual
[0118]
其中λ
mask
、λ
unmask
、λ
style
、λ
perceptual
分别代表对应损失函数的权重值,可根据时间需要取值,如权重值λ
style
可为120。
[0119]
实施例4
[0120]
一种基于渐进式的碑文文字图像修复模型的修复方法,包括如下步骤:
[0121]
(1)碑文数据集收集;
[0122]
收集书法家的博物馆馆藏碑文的文本图像,本实施例中主要收集了欧阳询的碑文
文字数据集,包括了欧阳询的《九成宫醴泉铭》和《皇甫诞碑》,欧阳询的书法广采各家之长,书法成就以楷书为最,后人称为“欧体”。他的楷书特点严谨工整、平正峭劲,字体结构规整并且可认度高,其书法作品众多有利于构建用于模型训练的数据集;
[0123]
(2)将收集的碑文数据集进行预处理,对碑文数据集的单字进行提取;
[0124]
(3)利用python生成相同图像大小的掩码数据集,如图5所示,最左边的图是生成的掩码图像,第2个图像为真实的碑文文本图像,将这两个图像传入模型之后会融合成为涂抹后的碑文文本图像如第3个图像,将掩码图像和训练集的单字图像传入到碑文文字图像修复模型当中训练,保存训练之后得到的模型文件;
[0125]
(4)将待修复的图像,利用步骤(3)训练好的碑文文字图像修复模型机进行修复。
[0126]
得到的修复效果如图6所示,其中,第一行是输入的碑文涂抹图片,第二行是本发明输出修复后的结果,第三到五行是其他算法修复的结果,第六行是真实图像。
[0127]
从图6可看出,本发明的修复效果突出,方框标记出来的位置明显可以看到其他修复模型对于碑文文字的结构性修复效果不佳,有的存在笔划上的错误和缺少明显的结构特征,而本发明的修复效果对比之下效果良好。
[0128]
实施例5
[0129]
一种基于渐进式的碑文文字图像修复模型的修复方法,如实施例4所述,所不同的是,碑文汉字间隔匀称、布局合理,单个汉字提取简单,如图3所示,步骤(2)的具体实现步骤为:
[0130]
2.1、对碑文的汉字进行分割,分割后的每张图片代表一个汉字;
[0131]
2.2、判断分割后的汉字是否破损,若破损则丢弃,反之进行步骤2.3;
[0132]
2.3、利用opencv对单字图像进行预处理:
[0133]
碑文由于时间以及保存条件的改变,字体周围会有腐蚀磨损,表现在数字图像上的是图像噪点,依次进行降噪、高斯滤波和阈值处理,利用反色将文字变成白底黑字;opencv作为开源的计算机视觉库,有丰富的python接口,提供了很多计算机视觉处理方法,本发明利用opencv的fastnlmeansdenoisingcolored方法对分割后的头像进行
[0134]
本发明进行了图片降噪并且单字分割,将碑文文字分割为单字的数据集,碑文文字图像对于背景纹理要求不高,为了追求文字修复效果,本发明将数据集进行二值化处理得到纯净文本图像,将文字结构信息都保留下来,使模型学习文字结构信息并生成风格一致的文本图像;
[0135]
3.4、将单字图像设置大小为128像素的图片,然后利用欧阳询风格字体作为补充,将所有单字图像分为训练集和测试集。
[0136]
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
技术特征:
1.一种基于渐进式的碑文文字图像修复模型,其特征在于,包括依次连接的预处理模块、特征推理模块和自适应门控特征融合模块;所述预处理模块包括两层部分卷积,用于根据掩码图对特征图进行有效像素的进行部分卷积并且对掩码图进行更新;所述特征推理模块包括编码器、解码器以及位于编码器和解码器之间的知识一致性注意力机制,编码器包括6层普通卷积,解码器包括3层普通卷积;所述自适应门控特征融合模块共9层,依次为反卷积、2层门控卷积、门控反卷积、门控卷积、门控反卷积、门控卷积、门控反卷积和门控卷积;预处理模块利用部分卷积对传入的掩码图和特征图进行卷积,将部分卷积后的结果对特征图进行更新,将更新后的掩码图和特征图经过正则化层和一层激活函数后,送到特征推理模块;特征推理模块用于根据需要修复的位置进行修复,得到修复后的特征图,然后将特征图反馈给预处理模块,预处理模块再输入特征推理模块输出特征图,特征推理模块跟预处理模块进行连接重复处理4-8次并保存每一次的特征图,然后将若干次得到的特征图传送到自适应门控特征融合模块,自适应门控特征融合模块通过加入门控卷积对真实图像进行渐进式修复,将若干个特征图合并成一个特征图得到修复后的图像。2.根据权利要求1所述的基于渐进式的碑文文字图像修复模型,其特征在于,预处理模块中部分卷积在卷积的过程中,只对有效像素进行操作,输入的掩码在卷积层里更新完成,掩码也在部分卷积的层数加深之下不断进行收缩;部分卷积层的计算公式如下:公式中:表示在第z通道x,y像素位置的特征值;w
z
是通道z的卷积核;f
x,y
和m
x,y
是以x,y为中心并且尺寸与卷积核一样的输入特征块和掩码块;b表示卷积层滤波器的偏差,为放缩因子。3.根据权利要求2所述的基于渐进式的碑文文字图像修复模型,其特征在于,预处理模块由部分卷积新生成位置i,j的掩码值公式为:4.根据权利要求1所述的基于渐进式的碑文文字图像修复模型,其特征在于,特征推理模块中,特征推理模块与预处理模块循环迭代优选为6次,每次的循环中,特征推理模块的输出作为下一轮次的预处理模块的输入,以及每次的特征推理模块输出都会被记录,作为后来的融合使用。5.根据权利要求1所述的基于渐进式的碑文文字图像修复模型,其特征在于,碑文文字图像修复模型总体更新所用的损失函数包括感知损失l
perceptual
、风格损失l
style
、待填充区域的l1损失l
mask
以及非待填充区域的l1损失l
unmask
四部分;感知损失l
perceptual
是真实图像生成的特征图与预测图像生成的特征图采用vgg-16的特
征输出,vgg-16改变为适合灰度图的输入层,感知损失l
perceptual
如下所示:其中φ代表vgg16网络,i代表vgg16的第i层的特征图作为使用输出,将vgg16设置为训练单通道灰度图的网络层,h
i
,w
i
,c
i
分别为vgg16的第i层的高、宽、通道数;n为在vgg的第i层的特征点数量;i
out
为输出的特征图像,i
gt
为真实图像。6.根据权利要求5所述的基于渐进式的碑文文字图像修复模型,其特征在于,计算风格损失l
style
如下所示:如下所示:其中φ代表vgg16网络,j代表vgg16的第j层的特征图作为使用输出,c
j
,h
j
,w
j
分别代表高、宽、通道数,g代表计算格拉姆矩阵,是每个通道c的特征图和每个通道c
′
的特征图的内积。7.根据权利要求6所述的基于渐进式的碑文文字图像修复模型,其特征在于,待填充区域的l1损失如下所示n表示训练样本数量,i表示当前样本,m
i
表示当前样本的掩码图,i
gt
表示当前训练真实的图像,i
out
表示当前模型训练后修复输出的特征图像;非待填充区域的l1损失如下所示n表示训练样本数量,i表示当前样本,m
i
表示当前样本的掩码图,i
gt
表示当前训练真实的图像,i
out
表示当前模型训练后修复输出的特征图像。8.根据权利要求7所述的基于渐进式的碑文文字图像修复模型,其特征在于,碑文文字图像修复模型总的损失函数为:l
total
=λ
mask
l
mask
+λ
unmask
l
unmask
+λ
style
l
style
+λ
perceptual
l
perceptual
其中λ
mask
、λ
unmask
、λ
style
、λ
perceptual
分别代表对应损失函数的权重值。9.一种基于渐进式的碑文文字图像修复模型的修复方法,其特征在于,包括如下步骤:(1)碑文数据集收集;收集书法家的博物馆馆藏碑文的文本图像;(2)将收集的碑文数据集进行整理,对碑文数据集的单字进行提取;(3)利用python生成相同图像大小的掩码数据集,将掩码图像和训练集的单字图像传入到碑文文字图像修复模型当中训练,保存训练之后得到的模型文件;(4)将待修复的图像,利用步骤(3)训练好的碑文文字图像修复模型机进行修复。
10.根据权利要求9所述的基于渐进式的碑文文字图像修复模型的修复方法,其特征在于,步骤(2)的具体实现步骤为:2.1、对碑文的汉字进行分割,分割后的每张图片代表一个汉字;2.2、判断分割后的汉字是否破损,若破损则丢弃,反之进行步骤2.3;2.3、利用opencv对单字图像进行预处理:依次进行降噪、高斯滤波和阈值处理,利用反色将文字变成白底黑字;2.4、将单字图像设置大小为128像素的图片,将所有单字图像分为训练集和测试集。
技术总结
本发明涉及一种基于渐进式的碑文文字图像修复模型及修复方法,属于计算机视觉领域,模型包括预处理模块、特征推理模块和自适应门控特征融合模块,预处理模块利用部分卷积对传入的掩码图和特征图进行卷积,并送到特征推理模块;特征推理模块与预处理模块进行连接重复处理4-8次,然后将若干次得到的特征图传送到自适应门控特征融合模块,自适应门控特征融合模块通过加入门控卷积对真实图像进行渐进式修复,将若干个特征图合并成一个特征图得到修复后的图像。本发明利用带注意力机制的编码器和解码器结构,对于掩码图像的边缘进行修复,寻找质量最好的特征值去填充特征图,填补好的特征图进行保存,缩小掩码边界,从而达到渐进性的修复效果。性的修复效果。性的修复效果。
技术研发人员:赵龙 娄煜昊 袁宗龙
受保护的技术使用者:齐鲁工业大学(山东省科学院)
技术研发日:2023.03.22
技术公布日:2023/7/7
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种液压系统及胶装机的制作方法 下一篇:一种台架制动尖叫噪声复现的实验方法与流程
