一种基于多模态重建约束的手写汉字识别和检索方法
未命名
07-20
阅读:166
评论:0
1.本发明涉及序列和图像识别及检索领域,尤其是涉及一种基于多模态重建约束的手写汉字识别和检索方法。
背景技术:
2.手写汉字是中华民族数千年的文化结晶,是继承和发展中华文化的载体。手写汉字虽然具有高度简洁和抽象的性质,但可以说明,使其在通信和设计等各种场景中都有用。因此,在计算机视觉和模式识别、计算机图形学、人机交互、机器人学和认知科学领域均有手写汉字相关研究。
3.然而,手写汉字序列与汉字的自然照片有着根本的不同。手写汉字提供了一种特殊的数据模式。它的独特之处在于,可以以多种表示形式存储和处理手写汉字,因为它的来源是动态的笔划运动。
4.近年来,由于触摸屏设备(例如智能手机、平板电脑)的普及使得手写汉字序列的获取比以往任何时候都容易得多,工业界和学术界的手写汉字研究和应用都在蓬勃发展。一些经典的研究主题,如手写汉字识别和基于手写汉字的图像检索已经在深度学习环境中得到重新研究。
5.如公开号为cn115527214a的中国专利文献公开了一种手写汉字识别方法,包括:将待识别图像输入汉字识别融合模型中;基于多个不同的神经网络,确定不同的神经网络对应输出的多个待识别手写汉字的识别结果;基于所述多个待识别手写汉字的识别结果,确定待识别手写汉字的目标识别结果。
6.公开号为cn114419629a的中国专利文献公开了一种基于胶囊网络模型的手写汉字识别方法,方法首先从已知数据集中随机抽取相同数量的样本作为训练集和测试集,并将训练集和测试集中的样本统一大小;然后搭建胶囊网络模型,再输入训练集样本对胶囊网络模型进行训练;接着输入测试集样本到训练好的胶囊网络模型中,对模型的准确率进行测试;最后将手写汉字输入到测试完成的胶囊网络模型中对汉字进行识别,得到手写汉字的识别结果。
7.目前的手写汉字识别及检索方法中,效率及准确性均还有继续提升的空间。在自然语言处理领域,涌现出了一类基于注意力机制的特征学习模型,称为transformer模型。transformer模型给许多领域带来了翻天覆地的变化。在自然语言处理和计算机视觉领域,几乎所有目前性能最优越的模型均基于transformer模型。然而,在手写汉字研究领域,尤其是手写汉字的识别和基于手写汉字的图像检索领域,鲜有人使用transformer模型。transformer模型在手写汉字领域的应用亟待研究。此外,基于多模态重建约束的模型训练方式还未在手写汉字识别与检索领域得到充分研究。
技术实现要素:
8.本发明提供了一种基于多模态重建约束的手写汉字识别和检索方法,可以显著提
升手写汉字识别和检索的准确率。
9.一种基于多模态重建约束的手写汉字识别和检索方法,包括如下步骤:
10.(1)获取从硬件记录得到的手写汉字坐标点序列,对坐标点序列进行预处理后,划分为训练集和验证集;
11.(2)构建基于多模态重建约束的特征提取模型,其中,特征提取模型的结构包括嵌入层、特征提取层和特征优化层;
12.手写汉字坐标点序列输入到三个嵌入层中,分别生成坐标点嵌入、位置嵌入和笔画嵌入,并将三种嵌入求和得到综合嵌入,输入特征提取层;
13.特征提取层基于多头注意力机制,用于提取手写汉字的空间和时间特征;特征提取层中包含手写汉字序列重建和手写汉字图像重建的多模态预训练任务;特征优化层用于对特征提取层提取的特征进行优化;
14.所述的特征提取模型在预训练过程中使用辅助特征提取模块,所述的辅助特征提取模块包括辅助序列重建约束的线性模型和辅助图像重建约束的unet模型;
15.(3)将手写汉字分类器连接到预训练完成的特征提取模型,利用特征提取模型输出的手写汉字特征对手写汉字分类器进行微调训练,并在验证集上对手写汉字分类器进行评估;
16.(4)应用过程中,对于识别任务,将待识别手写汉字坐标点序列输入到特征提取模型中,将特征提取模型输出的手写汉字特征输入手写汉字分类器,得到识别结果;
17.对于图像检索任务,将待检索的手写汉字坐标点序列输入特征提取模型中,计算输出的手写汉字特征与所有汉字样本特征之间的特征距离,对所有汉字样本按照特征距离从小到大进行排序。
18.步骤(1)中,对坐标点序列进行预处理的具体过程为:将坐标点序列归一化到(0,1)范围内,并使用ramer-douglas-peucker(rdp)算法压缩长度序列;此外,将手写汉字坐标点序列转化为对应rgb手写汉字图像。
19.作为优选,可将超出长度阈值的手写汉字序列剔除或截取,以提升特征提取性能。
20.作为优选,可对手写汉字序列进行数据增强,包括仿射变换、旋转和笔画顺序调换等。
21.步骤(2)中,利用嵌入层生成嵌入的公式如下:
22.e
pt
=w
pt
(x,y,p1,p2,p3)
[0023][0024][0025]
e=e
pt
+e
ps
+e
st
[0026]
其中,x,y分别为手写汉字序列的横坐标和纵坐标,p1,p2,p3均为0或1,p1为0表示落笔状态,p2为0表示提笔状态,p3为1表示绘画完毕;e
pt
为坐标点嵌入,w
pt
为坐标点嵌入权重,1
pt
为独热向量;e
ps
为位置嵌入,w
ps
为位置嵌入权重,1
ps
为独热向量;e
st
为笔画嵌入,w
st
为笔画嵌入权重,1
st
为独热向量;e为综合嵌入。
[0027]
步骤(2)中,多头注意力机制的计算公式如下:
[0028][0029][0030]
其中,a(q,k,v)为自注意力矩阵,softmax为归一化函数,为放缩因子,q为查询矩阵,k为键矩阵,v为值矩阵,w为对应矩阵的权值矩阵,m(q,k,v)为多头自注意力矩阵,[...]为矩阵拼接操作;的下标n代表多头自注意力机制的头数。特征提取层中包含若干自注意力层。
[0031]
作为优选,自注意力层之间的模型参数可以共享,以提升模型鲁棒性,并减少训练所需资源,加快训练速度。
[0032]
步骤(2)中,特征优化层的计算公式如下:
[0033][0034]
其中,y为特征优化层的输出,h为激活函数,wi为神经元的权重,xi为输入。
[0035]
步骤(2)中,在预训练阶段,使用辅助特征提取模块同时进行序列重建约束和图像重建约束,预训练阶段的损失函数如下:
[0036]
l
pretrain
=α
seq
l
seq
+α
img
l
img
[0037]
l
seq
=|f(e(e))-[x,y,p1,p2,p3]|
[0038]
l
img
=|g(e(e))-i|2[0039]
式中,l
pretrain
为预训练阶段的损失函数,l
seq
和l
img
分别为序列重建约束和图像重建约束的损失函数,α
seq
和α
img
分别为序列重建约束和图像重建约束的损失函数的权重;f为线性函数,e为特征提取模块,|...|为绝对值,[x,y,p1,p2,p3]为输入的序列坐标;l
seq
的训练目标为最小化模型重建的序列坐标与真实序列坐标之间的距离;g为基于unet的图像生成模型,e为特征提取模块,i为输入的手写汉字图片,|...|为绝对值;|...|2为绝对值的平方;l
img
的训练目标为最小化模型重建的图像与输入图像的距离平方。
[0040]
对于序列重建约束,辅助特征提取模块构造一个基于线性模型的多层感知机,所述线性模型的线性层共5层,每层神经元数量分别为768、512、256、128和5,使用relu激活函数;
[0041]
对于图像重建约束,辅助特征提取模块构造一个基于unet模型的反卷积图像生成器,反卷积图像生成器由若干反卷积层构成,输入为768维的手写汉字特征。
[0042]
步骤(3)中,对手写汉字分类器进行微调训练的损失函数为:
[0043][0044]
其中,l
cls
为分类损失函数,为权值矩阵。
[0045]
与现有技术相比,本发明具有以下有益效果:
[0046]
1、本发明使用transformer作为特征提取模型,相比于基于rnn或cnn的模型,模型性能得到提升。
[0047]
2、使用基于多模态重建约束的预训练方法,使得特征提取模型能够生成更优的特征空间,进一步提升识别和检索性能。
附图说明
[0048]
图1为本发明方法中多模态重建与训练任务的示意图;
[0049]
图2为本发明方法中的手写汉字分类器微调任务的示意图。
具体实施方式
[0050]
下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
[0051]
如图1和图2所示,一种基于多模态重建约束的手写汉字识别和检索方法,包括如下步骤:
[0052]
步骤1,获取从硬件记录得到的手写汉字序列,对坐标点序列进行预处理后,划分为训练集、验证集和测试集。
[0053]
例如,从手写设备(如手机和平板电脑等)采集得到手写汉字序列,序列格式为(x,y,p1,p2,p3),其中x,y分别为手写汉字序列的横坐标和纵坐标,p1,p2,p3均为0或1,p1为0表示落笔状态,p2为0表示提笔状态,p3为1表示绘画完毕。将坐标点序列归一化到(0,1)范围内,并使用ramer-douglas-peucker(rdp)算法压缩长度序列;此外,将手写汉字坐标点序列转化为对应rgb手写汉字图像。
[0054]
步骤2,构建基于多模态重建约束的特征提取模型,具体如下:
[0055]
采用多维度嵌入层,对于序列重建约束,将手写汉字序列输入到三个嵌入层,分别生成坐标点嵌入、位置嵌入和笔画嵌入,并将三种嵌入求和得到综合嵌入,输入特征提取层。嵌入生成公式如下:
[0056]ept
=w
pt
(x,y,p1,p2,p3)
[0057][0058][0059]
e=e
pt
+e
ps
+e
st
[0060]
其中,x,y分别为手写汉字序列的横坐标和纵坐标,p1,p2,p3均为0或1,p1为0表示落笔状态,p2为0表示提笔状态,p3为1表示绘画完毕。e
pt
为坐标点嵌入,w
pt
为坐标点嵌入权重,1
pt
为独热向量;e
ps
为位置嵌入,w
ps
为位置嵌入权重,1
ps
为独热向量;es□
为笔画嵌入,w
st
为笔画嵌入权重,1
st
为独热向量。e为综合嵌入。
[0061]
采用多层感知机模型作为特征优化层,其计算公式如下:
[0062][0063]
其中,y为特征优化层的输出,h为激活函数,wi为神经元的权重,xi为输入。
[0064]
采用基于多头注意力机制的特征提取层,使用包含了手写汉字序列重建和手写汉字图像重建等多模态预训练任务,提取手写汉字的空间和时间特征。多头注意力机制计算
公式如下:
[0065][0066][0067]
其中,a(q,k,v)为自注意力矩阵,softmax为归一化函数,为放缩因子,q为查询矩阵,k为键矩阵,v为值矩阵,w为对应矩阵的权值矩阵,m(q,k,v)为多头自注意力矩阵,[...]为矩阵拼接操作;的下标n代表多头自注意力机制的头数。
[0068]
具体而言,特征提取层采用8层自注意力机制层,共12个注意力头,输出特征为768维的向量。可以共享8层自注意力机制层的模型参数,以减少模型参数来,提升模型鲁棒性,减少模型训练时间。
[0069]
根据预训练任务和下游任务的需要,采用不同的辅助特征提取模块,包括辅助序列重建约束的线性模型和辅助图像重建约束的unet模型。
[0070]
对于序列重建约束,构造一个多层感知机,其线性层共5层,每层神经元数量分别为768,512,256,128和5,使用relu激活函数。序列重建约束训练方法为:
[0071]
l
seq
=|f(e(e))-[x,y,p1,p2,p3]|
[0072]
其中,l
seq
为序列重建约束的损失函数,f为多层感知机,e为特征提取模型,[x,y,p1,p2,p3]为输入的序列坐标。|...|为绝对值。训练目标为最小化模型重建的序列坐标与真实序列坐标之间的距离。
[0073]
对于图像重建约束,构造一个基于unet模型的反卷积图像生成器。具体而言,图像生成器由若干反卷积层构成,输入为768维的手写汉字特征。图像重建约束训练方法为:
[0074]
l
img
=|g(e(e))-i|2[0075]
其中,l
img
为图像重建约束的损失函数,g为基于unet的图像生成器,e为特征提取模型,i为输入的手写汉字图片。|...|2为绝对值的平方。训练目标为最小化模型重建的图像与输入图像的距离平方。
[0076]
为获得最优分类性能和检索性能,在预训练阶段同时使用序列重建约束和图像重建约束。预训练阶段的训练方法为:
[0077]
l
pretrain
=α
seq
l
seq
+α
img
l
img
[0078]
其中,l
pretrain
为预训练阶段的损失函数,l
seq
和l
img
分别为序列重建约束和图像重建约束的损失函数,α
seq
和α
img
分别为序列重建约束和图像重建约束的损失函数的权重。预训练的目标是最小化l
pretrain
。
[0079]
步骤3,预训练后,对于识别任务,手写汉字分类器连接预训练完成的特征提取模型,进行微调训练,在验证集上对分类器进行评估,如图2所示。
[0080]
对于图像检索任务,在验证集上计算所有样本的输出特征,计算两两样本之间的特征距离,按照特征距离从小到大对于某一样本对其他所有样本排序,获得同类样本的排序位置,以此评估检索性能。
[0081]
训练分类器的方法为:
[0082][0083]
其中,l
cls
为分类损失函数,为权值矩阵。
[0084]
步骤4,在测试集上测试分类器的分类性能和鲁棒性,并应用于在线手写汉字输入的识别和图像检索。
[0085]
为了验证本发明提出的基于多模态重建约束的手写汉字识别和检索方法的有效性,本发明实施例在quickdraw数据集上对识别和检索的准确率进行了统计,并对比了基于单模态重建约束的模型,得到表1。
[0086]
表1
[0087][0088]
相比于基于序列重建的单模态模型,top1识别准确率提升6.75%,top5识别准确率提升2.40%,top1检索准确率提升7.36%,top5检索准确率提升4.01%;相比于基于图像重建的单模态模型,top1识别准确率提升5.16%,top5识别准确率提升0.89%,top1检索准确率提升1.92%,top5检索准确率提升1.13%。由以上结果可以看出,本发明中,基于多模态重建约束的手写汉字识别和检索模型性能更优。
[0089]
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。
技术特征:
1.一种基于多模态重建约束的手写汉字识别和检索方法,其特征在于,包括如下步骤:(1)获取从硬件记录得到的手写汉字坐标点序列,对坐标点序列进行预处理后,划分为训练集和验证集;(2)构建基于多模态重建约束的特征提取模型,其中,特征提取模型的结构包括嵌入层、特征提取层和特征优化层;手写汉字坐标点序列输入到三个嵌入层中,分别生成坐标点嵌入、位置嵌入和笔画嵌入,并将三种嵌入求和得到综合嵌入,输入特征提取层;特征提取层基于多头注意力机制,用于提取手写汉字的空间和时间特征;特征提取层中包含手写汉字序列重建和手写汉字图像重建的多模态预训练任务;特征优化层用于对特征提取层提取的特征进行优化;所述的特征提取模型在预训练过程中使用辅助特征提取模块,所述的辅助特征提取模块包括辅助序列重建约束的线性模型和辅助图像重建约束的unet模型;(3)将手写汉字分类器连接到预训练完成的特征提取模型,利用特征提取模型输出的手写汉字特征对手写汉字分类器进行微调训练,并在验证集上对手写汉字分类器进行评估;(4)应用过程中,对于识别任务,将待识别手写汉字坐标点序列输入到特征提取模型中,将特征提取模型输出的手写汉字特征输入手写汉字分类器,得到识别结果;对于图像检索任务,将待检索的手写汉字坐标点序列输入特征提取模型中,计算输出的手写汉字特征与所有汉字样本特征之间的特征距离,对所有汉字样本按照特征距离从小到大进行排序。2.根据权利要求1所述的基于多模态重建约束的手写汉字识别和检索方法,其特征在于,步骤(1)中,对坐标点序列进行预处理的具体过程为:将坐标点序列归一化到(0,1)范围内,并使用ramer-douglas-peucker算法压缩长度序列;此外,将手写汉字坐标点序列转化为对应rgb手写汉字图像。3.根据权利要求1所述的基于多模态重建约束的手写汉字识别和检索方法,其特征在于,步骤(2)中,利用嵌入层生成嵌入的公式如下:e
pt
=w
pt
(x,y,p1,p2,p3))e=e
pt
+e
ps
+e
st
其中,x,y分别为手写汉字序列的横坐标和纵坐标,p1,p2,p3均为0或1,p1为0表示落笔状态,p2为0表示提笔状态,p3为1表示绘画完毕;e
pt
为坐标点嵌入,w
pt
为坐标点嵌入权重,1
pt
为独热向量;e
ps
为位置嵌入,w
ps
为位置嵌入权重,1
ps
为独热向量;e
st
为笔画嵌入,w
st
为笔画嵌入权重,1
st
为独热向量;e为综合嵌入。4.根据权利要求1所述的基于多模态重建约束的手写汉字识别和检索方法,其特征在于,步骤(2)中,多头注意力机制的计算公式如下:
其中,a(q,k,v)为自注意力矩阵,softmax为归一化函数,为放缩因子,q为查询矩阵,k为键矩阵,v为值矩阵,w为对应矩阵的权值矩阵,m(q,k,v)为多头自注意力矩阵,[...]为矩阵拼接操作;的下标n代表多头自注意力机制的头数。5.根据权利要求4所述的基于多模态重建约束的手写汉字识别和检索方法,其特征在于,特征提取层采用8层共享模型参数的自注意力机制层,共12个注意力头,输出特征为768维的向量。6.根据权利要求1所述的基于多模态重建约束的手写汉字识别和检索方法,其特征在于,步骤(2)中,特征优化层的计算公式如下:其中,y为特征优化层的输出,h为激活函数,w
i
为神经元的权重,x
i
为输入。7.根据权利要求1所述的基于多模态重建约束的手写汉字识别和检索方法,其特征在于,在预训练阶段,使用辅助特征提取模块同时进行序列重建约束和图像重建约束,预训练阶段的损失函数如下:l
pretrain
=α
seq
l
seq
+α
img
l
img
l
seq
=|f(e(e))-[x,y,p1,p2,p3]|l
img
=|g(e(e))-i|2式中,l
pretrain
为预训练阶段的损失函数,l
seq
和l
img
分别为序列重建约束和图像重建约束的损失函数,α
seq
和α
img
分别为序列重建约束和图像重建约束的损失函数的权重;f为线性函数,e为特征提取模块,|...|为绝对值,[x,y,p1,p2,p3]为输入的序列坐标;l
seq
的训练目标为最小化模型重建的序列坐标与真实序列坐标之间的距离;g为基于unet的图像生成模型,e为特征提取模块,i为输入的手写汉字图片,|...|为绝对值;|...|2为绝对值的平方;l
img
的训练目标为最小化模型重建的图像与输入图像的距离平方。8.根据权利要求1所述的基于多模态重建约束的手写汉字识别和检索方法,其特征在于,步骤(2)中,对于序列重建约束,辅助特征提取模块构造一个基于线性模型的多层感知机,所述线性模型的线性层共5层,每层神经元数量分别为768、512、256、128和5,使用relu激活函数;对于图像重建约束,辅助特征提取模块构造一个基于unet模型的反卷积图像生成器,反卷积图像生成器由若干反卷积层构成,输入为768维的手写汉字特征。9.根据权利要求1所述的基于多模态重建约束的手写汉字识别和检索方法,其特征在于,步骤(3)中,对手写汉字分类器进行微调训练的损失函数为:
其中,lcls为分类损失函数,为权值矩阵。
技术总结
本发明公开了一种基于多模态重建约束的手写汉字识别和检索方法,包括:(1)获取从硬件记录得到的手写汉字坐标点序列进行预处理;(2)构建基于多模态重建约束的特征提取模型,其中,特征提取模型包括嵌入层、特征提取层和特征优化层;特征提取层基于多头注意力机制,包含手写汉字序列重建和手写汉字图像重建的多模态预训练任务;特征提取模型在训练时采用不同的辅助特征提取模块,包括辅助序列重建约束的线性模型和辅助图像重建约束的UNet模型;(3)预训练结束后,使用特征提取模块输出的特征微调分类器;(4)利用特征提取模型和分类器进行在线手写汉字输入的识别与检索。本发明可以提升手写汉字识别和检索的准确率。以提升手写汉字识别和检索的准确率。以提升手写汉字识别和检索的准确率。
技术研发人员:祁玉 覃捷 王跃明
受保护的技术使用者:浙江大学
技术研发日:2023.03.21
技术公布日:2023/7/19
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
