手写体文字图像的处理方法、装置、设备及可读介质与流程

未命名 10-19 阅读:78 评论:0


1.本技术涉及计算机信息处理领域,具体而言,涉及一种手写体文字图像的处理方法、装置、电子设备及计算机可读介质。


背景技术:

2.随着信息技术和网络技术的进步,手写汉字识别在各类使用汉字作为信息传递的应用场景中有非常巨大的潜在需求,因此成为众多学者研究的热点之一。如今,汉字识别技术已经应用在了车牌识别,支票签字识别等多个领域,明显提高了工作效率。但由于手写体汉字的识别率因为难度较大,一直没有达到实际应用的水平。手写汉字识别之所以被公认为是模式识别的难点,原因有以下几点:
3.(1)中文常用汉字很多,日常生活中大多数情况下使用的一级字库中的汉字就有3700多个,数量非常庞大;
4.(2)手写体字符的书写随意性较大,多种子图,而且每个人手写汉字时都有自己的书写习惯,风格各异;
5.(3)汉字中存在很多字体结构相近的相近字,这些相近字字体相似,只是在细微处有差别,增加了计算机识别和特征提取的难度。
6.虽然,手写体文本识别一直是计算机视觉领域的一个重要研究方向。目前,许多文本检测和识别算法仍然无法很好地处理这些问题。传统的基于深度学习的手写体行分割方法通常依赖于像素级预测,通过强大的深度学习模型获得更好的行分割结果。然而,对于具有强先验信息的手写体行,仅依靠更强大的深度学习模型进行分割是不可行的。
7.因此,需要一种新的手写体文字图像的处理方法、装置、电子设备及计算机可读介质。
8.在所述背景技术部分公开的上述信息仅用于加强对本技术的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现要素:

9.有鉴于此,本技术提供一种手写体文字图像的处理方法、装置、电子设备及计算机可读介质,能够克服现有技术中的技术困境,可以高效准确的对手写体文本进行文本行分割,进而进行文字分析识别等处理,提高处理效率和准确度。
10.本技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本技术的实践而习得。
11.根据本技术的一方面,提出一种手写体文字图像的处理方法,该方法包括:将手写体文字图像输入到文本行分割模型中,生成文本行分割图像,所述文本行分割模型中的主干特征提取网络是通过mim预训练方式生成的;将所述文本行分割图像中每个文本行区域作为实例边界;通过kd-tree方式计算每个实例边界中像素的真实值;基于每个边界实例中像素的真实值生成文本行边界图像;通过所述文本行边界图像提取所述手写体文字图像中
的文本行区域以进行文字分析处理。
12.在本技术的一种示例性实施例中,还包括:对手写体文字图像中的字符进行随机替换处理,生成训练图像;将所述训练图像输入到卷积神经网络模型中,所述卷积神经网络模型中包括:初始主干特征提取网络;通过mim预训练方式对所述卷积神经网络模型进行训练;在训练结束时,由训练完毕的卷积神经网络模型中提取所述主干特征提取网络。
13.在本技术的一种示例性实施例中,对手写体文字图像中的字符进行随机替换处理,生成训练图像,包括:对所述手写体文字图像进行文字识别以提取多个字符区域;由所述多个字符区域中随机提取预设比例的字符区域;通过mask token对预设比例的字符区域中的像素进行替换处理;通过替换处理之后的手写体文字图像生成所述训练图像。
14.在本技术的一种示例性实施例中,通过mim预训练方式对所述卷积神经网络模型进行训练,包括:通过子流形稀疏卷积层对所述训练图像进行特征提取,生成特征图;通过roi align提取所述特征图中的字符区域;通过解码器对所述字符区域进行像素预测,生成预测特征;将所述预测特征映射回所述训练图像,并进行图像重建。
15.在本技术的一种示例性实施例中,还包括:通过训练完毕的所述主干特征提取网络生成初始文本行分割模型;通过手写体文字图像对所述初始文本行分割模型进行训练;在训练结束时,生成所述文本行分割模型。
16.在本技术的一种示例性实施例中,通过kd-tree方式计算每个实例边界中像素的真实值,包括:通过kd-tree对所述文本行分割图像中的每个实例边界进行建模;通过kd-tree对所述文本行分割图像中的每个实例边界内的像素点进行建模;计算建模后的实例边界和实例边界中的像素点之间的距离;通过所述距离生成每个实例边界中像素的真实值。
17.在本技术的一种示例性实施例中,基于每个边界实例中像素的真实值生成文本行边界图像,包括:将每个边界实例中像素的真实值和边界阈值进行比较以生成生成文本行边界;对所述文本行边界进行膨胀处理,生成扩展文本行边界;通过扩展文本行边界生成文本行边界图像。
18.根据本技术的一方面,提出一种手写体文字图像的处理装置,该装置包括:输入模块,用于将手写体文字图像输入到文本行分割模型中,生成文本行分割图像,所述文本行分割模型中的主干特征提取网络是通过mim预训练方式生成的;实例模块,用于将所述文本行分割图像中每个文本行区域作为实例边界;计算模块,用于通过kd-tree方式计算每个实例边界中像素的真实值;边界模块,用于基于每个边界实例中像素的真实值生成文本行边界图像;提取模块,用于通过所述文本行边界图像提取所述手写体文字图像中的文本行区域以进行处理。
19.根据本技术的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
20.根据本技术的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。
21.根据本技术的手写体文字图像的处理方法、装置、电子设备及计算机可读介质,通过将手写体文字图像输入到文本行分割模型中,生成文本行分割图像,所述文本行分割模型中的主干特征提取网络是通过mim预训练方式生成的;将所述文本行分割图像中每个文
本行区域作为实例边界;通过kd-tree方式计算每个实例边界中像素的真实值;基于每个边界实例中像素的真实值生成文本行边界图像;通过所述文本行边界图像提取所述手写体文字图像中的文本行区域以进行文字分析处理的方式,能够克服现有技术中的技术困境,可以高效准确的对手写体文本进行文本行分割,进而进行文字分析识别等处理,提高处理效率和准确度。
22.应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本技术。
附图说明
23.通过参照附图详细描述其示例实施例,本技术的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
24.图1是根据一示例性实施例示出的一种手写体文字图像的处理方法的流程图。
25.图2至7是根据一示例性实施例示出的一种手写体文字图像的处理方法的示意图。
26.图8是根据另一示例性实施例示出的一种手写体文字图像的处理方法的流程图。
27.图9至12是根据另一示例性实施例示出的一种手写体文字图像的处理方法的示意图。
28.图13是根据一示例性实施例示出的一种手写体文字图像的处理装置的框图。
29.图14是根据一示例性实施例示出的一种电子设备的框图。
30.图15是根据一示例性实施例示出的一种计算机可读介质的框图。
具体实施方式
31.现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本技术将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
32.此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本技术的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本技术的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本技术的各方面。
33.附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
34.附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
35.应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组
件可称为第二组件而不偏离本技术概念的教示。如本文中所使用,术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
36.本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本技术所必须的,因此不能用于限制本技术的保护范围。
37.本技术涉及的技术缩略语解释如下:
38.手写体文本图像,是指以毛笔或钢笔等书写工具书写的汉字文本图像,其特点是每个汉字由笔画组成,笔画之间有连接关系。
39.深度学习算法,是一种基于神经网络模型的机器学习算法,其模拟人类大脑神经元之间相互连接的方式,通过多层次的非线性变换,从大量的数据中提取出高层次、抽象的特征表征。深度学习算法可以用于图像、语音、自然语言处理等各种领域的数据分析与处理。深度学习算法的核心是深度神经网络,由多个层次的神经元组成,其中每个神经元都包含输入、输出、激活函数等元素,神经元之间的权重值可以通过反向传播算法进行调整,以优化神经网络的性能。深度学习算法具有较高的自动化和泛化能力,能够自主学习和发现数据之间的规律,从而在未知数据中实现准确的预测和分类。
40.roialign是深度学习算法中两阶段检测法中比较关键的操作,这个操作将两个阶段连接起来,变成end-to-end(端到端)的网络,同时也给整个检测方法的性能带来提升。
41.gt值(ground truth,真实值),在训练深度学习模型时,需要提供标注好的数据集,即每个数据样本的输入数据和对应的输出结果。这些输出结果就是ct值,用来作为模型的训练目标。
42.mim(masked image modeling,掩码图像建模),通过恢复损坏的图像块,在自监督表示学习中展示了令人印象深刻的结果。使用语义丰富的视觉tokenizers作为掩码预测的重建目标,具体来说,引入向量量化知识蒸馏来训练分词器,它将连续的语义空间离散化为紧凑的代码。然后,我们通过预测掩码图像块的原始视觉标记来预训练视觉transformer。
43.kd-tree(k-dimensionaltree),是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。主要应用于多维空间关键数据的搜索,kd-tree是二进制空间分割树的特殊的情况。
44.图1是根据一示例性实施例示出的一种手写体文字图像的处理方法的流程图。手写体文字图像的处理方法10至少包括步骤s102至s110。
45.如图1所示,在s102中,将手写体文字图像输入到文本行分割模型中,生成文本行分割图像,所述文本行分割模型中的主干特征提取网络是通过mim预训练方式生成的。
46.如图2所示的手写体文字图像,经过图像预处理之后,输入到文本行分割模型中,得到如图3所示的文本行分割图像。其中,图像预处理可包括图像大小处理,图像增强处理等处理手段,图像预处理的目的是将;来自用户的不同清晰度、不同尺寸的输入图像进行简单处理,以便输入文本行分割模型中进行分割。
47.其中,“文本行分割模型和主干特征提取网络”将在后续实施例中进行详细描述。
48.在s104中,将所述文本行分割图像中每个文本行区域作为实例边界。如图3所示的实例图中,文本行分割图像中,每个分割出的文本行为白色区域,其他区域为黑色,可根据图像中颜色的差异,将文本行分割图像中的每个文本行均提取出来,每个文本行均作为一个实例,将文本行的边界作为实例边界。
49.在s106中,通过kd-tree方式计算每个实例边界中像素的真实值。可例如,通过kd-tree对所述文本行分割图像中的每个实例边界进行建模;通过kd-tree对所述文本行分割图像中的每个实例边界内的像素点进行建模;计算建模后的实例边界和实例边界中的像素点之间的距离;通过所述距离生成每个实例边界中像素的真实值。
50.在本技术的实施例中,kd-tree树将实例中每个像素节点作为一个k维点的二叉树。所有非叶子节点可以视作用一个超平面把空间分割成两个半空间。节点左边的子树代表在超平面左边的像素点,节点右边的子树代表在超平面右边的像素点。
51.可将实例边界作为超平面的方法,每个像素节点都与k维中垂直于超平面的那一维有关。因此,如果选择按照x轴划分,所有x值小于指定值的像素节点都会出现在左子树,所有x值大于指定值的像素节点都会出现在右子树。
52.在计算出实例边界和实例边界内每个像素点之间的距离之后,在每一个文本行实例边界内,将每一个像素点除以当前实例内部点到当前行边界距离最大值,从而将该实例内的像素点进行局部归一化,根据归一化的值生成每个实例边界中像素的真实值,即为gt值。
53.在s108中,基于每个边界实例中像素的真实值生成文本行边界图像。可例如,将每个边界实例中像素的真实值和边界阈值进行比较以生成生成文本行边界;对所述文本行边界进行膨胀处理,生成扩展文本行边界;通过扩展文本行边界生成文本行边界图像。
54.设置边界阈值,将每个边界实例中每个像素的真实值和边界阈值进行比较,可以理解的是,在如图3所述的文本行图像中,每个文本行中图像越趋于文本行中心位置,gt值越高,越偏向边界的像素点,gt值越低。将每个像素的gt值和一个设定的阈值进行比较,将小于边界阈值的像素点作为非文本行节点剔除,得到如图4所示的文本行边界。
55.对图4中的图片中的文本行进行膨胀处理,得到如图5所示的文本行边界图像。膨胀处理是在图像的边缘添加像素值,使得整体的像素值扩张,进而达到图像的膨胀效果。
56.在s110中,通过所述文本行边界图像提取所述手写体文字图像中的文本行区域以进行处理。将文本行边界图像和输入图像进行图像处理,以将输入图像中的文本行准确的提取出来。
57.更具体的,输入图像可为如图6所示的文本图像,提取出的文本行可为如图7所示,从图6,和图7的对比可以看出,本技术中的方法可以准确的将输入图像中的文本行提取出来,即使原有的输入图像中,文本书写的不规范,有些地方超过了输入图像中的文本宽度,但是,通过本技术中的方法,仍旧可以准确提取文本行。
58.将文本区域提取之后,可对文本区域内的文字进行文字识别,文字书写评分,语义识别等等处理,本技术不以此为限。
59.根据本技术的手写体文字图像的处理方法,通过将手写体文字图像输入到文本行分割模型中,生成文本行分割图像,所述文本行分割模型中的主干特征提取网络是通过mim预训练方式生成的;将所述文本行分割图像中每个文本行区域作为实例边界;通过kd-tree方式计算每个实例边界中像素的真实值;基于每个边界实例中像素的真实值生成文本行边界图像;通过所述文本行边界图像提取所述手写体文字图像中的文本行区域以进行文字分析处理的方式,能够克服现有技术中的技术困境,可以高效准确的对手写体文本进行文本行分割,进而进行文字分析识别等处理,提高处理效率和准确度。
transformer模型等,本技术不以此为限。
74.应清楚地理解,本技术描述了如何形成和使用特定示例,但本技术的原理不限于这些示例的任何细节。相反,基于本技术公开的内容的教导,这些原理能够应用于许多其它实施例。
75.本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由cpu执行的计算机程序。在该计算机程序被cpu执行时,执行本技术提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
76.此外,需要注意的是,上述附图仅是根据本技术示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
77.下述为本技术装置实施例,可以用于执行本技术方法实施例。对于本技术装置实施例中未披露的细节,请参照本技术方法实施例。
78.图13是根据一示例性实施例示出的一种手写体文字图像的处理装置的框图。如图13所示,手写体文字图像的处理装置130包括:输入模块1302,实例模块1304,计算模块1306,边界模块1308,提取模块1310。
79.输入模块1302用于将手写体文字图像输入到文本行分割模型中,生成文本行分割图像,所述文本行分割模型中的主干特征提取网络是通过mim预训练方式生成的;
80.实例模块1304用于将所述文本行分割图像中每个文本行区域作为实例边界;
81.计算模块1306用于通过kd-tree方式计算每个实例边界中像素的真实值;
82.边界模块1308用于基于每个边界实例中像素的真实值生成文本行边界图像;
83.提取模块1310用于通过所述文本行边界图像提取所述手写体文字图像中的文本行区域以进行处理。
84.根据本技术的手写体文字图像的处理装置,通过将手写体文字图像输入到文本行分割模型中,生成文本行分割图像,所述文本行分割模型中的主干特征提取网络是通过mim预训练方式生成的;将所述文本行分割图像中每个文本行区域作为实例边界;通过kd-tree方式计算每个实例边界中像素的真实值;基于每个边界实例中像素的真实值生成文本行边界图像;通过所述文本行边界图像提取所述手写体文字图像中的文本行区域以进行文字分析处理的方式,能够克服现有技术中的技术困境,可以高效准确的对手写体文本进行文本行分割,进而进行文字分析识别等处理,提高处理效率和准确度。
85.图14是根据一示例性实施例示出的一种电子设备的框图。
86.下面参照图14来描述根据本技术的这种实施方式的电子设备1400。图14显示的电子设备1400仅仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
87.如图14所示,电子设备1400以通用计算设备的形式表现。电子设备1400的组件可以包括但不限于:至少一个处理单元1410、至少一个存储单元1420、连接不同系统组件(包括存储单元1420和处理单元1410)的总线1430、显示单元1440等。
88.其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1410执行,使得所述处理单元1410执行本说明书中描述的根据本技术各种示例性实施方式的步骤。例如,所述处理单元1410可以执行如图1,图8中所示的步骤。
89.所述存储单元1420可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)14201和/或高速缓存存储单元14202,还可以进一步包括只读存储单元(rom)14203。
90.所述存储单元1420还可以包括具有一组(至少一个)程序模块14205的程序/实用工具14204,这样的程序模块14205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
91.总线1430可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
92.电子设备1400也可以与一个或多个外部设备1400’(例如键盘、指向设备、蓝牙设备等)通信,使得用户能与该电子设备1400交互的设备通信,和/或该电子设备1400能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口1450进行。并且,电子设备1400还可以通过网络适配器1460与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。网络适配器1460可以通过总线1430与电子设备1400的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1400使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
93.通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,如图15所示,根据本技术实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本技术实施方式的上述方法。
94.所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
95.所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
96.可以以一种或多种程序设计语言的任意组合来编写用于执行本技术操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户
计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
97.上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该计算机可读介质实现如下功能:将手写体文字图像输入到文本行分割模型中,生成文本行分割图像,所述文本行分割模型中的主干特征提取网络是通过mim预训练方式生成的;将所述文本行分割图像中每个文本行区域作为实例边界;通过kd-tree方式计算每个实例边界中像素的真实值;基于每个边界实例中像素的真实值生成文本行边界图像;通过所述文本行边界图像提取所述手写体文字图像中的文本行区域以进行文字分析处理。
98.该计算机可读介质还可实现如下功能:对手写体文字图像中的字符进行随机替换处理,生成训练图像;将所述训练图像输入到卷积神经网络模型中,所述卷积神经网络模型中包括:初始主干特征提取网络;通过mim预训练方式对所述卷积神经网络模型进行训练;在训练结束时,由训练完毕的卷积神经网络模型中提取所述主干特征提取网络。
99.该计算机可读介质还可实现如下功能:通过训练完毕的所述主干特征提取网络生成初始文本行分割模型;通过手写体文字图像对所述初始文本行分割模型进行训练;在训练结束时,生成所述文本行分割模型。
100.本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
101.通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本技术实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本技术实施例的方法。
102.以上具体地示出和描述了本技术的示例性实施例。应可理解的是,本技术不限于这里描述的详细结构、设置方式或实现方法;相反,本技术意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

技术特征:
1.一种手写体文字图像的处理方法,其特征在于,包括:将手写体文字图像输入到文本行分割模型中,生成文本行分割图像,所述文本行分割模型中的主干特征提取网络是通过mim预训练方式生成的;将所述文本行分割图像中每个文本行区域作为实例边界;通过kd-tree方式计算每个实例边界中像素的真实值;基于每个边界实例中像素的真实值生成文本行边界图像;通过所述文本行边界图像提取所述手写体文字图像中的文本行区域以进行处理。2.如权利要求1所述的方法,其特征在于,还包括:对手写体文字图像中的字符进行随机替换处理,生成训练图像;将所述训练图像输入到卷积神经网络模型中,所述卷积神经网络模型中包括:初始主干特征提取网络;通过mim预训练方式对所述卷积神经网络模型进行训练;在训练结束时,由训练完毕的卷积神经网络模型中提取所述主干特征提取网络。3.如权利要求2所述的方法,其特征在于,对手写体文字图像中的字符进行随机替换处理,生成训练图像,包括:对所述手写体文字图像进行文字识别以提取多个字符区域;由所述多个字符区域中随机提取预设比例的字符区域;通过mask token对预设比例的字符区域中的像素进行替换处理;通过替换处理之后的手写体文字图像生成所述训练图像。4.如权利要求3所述的方法,其特征在于,通过mim预训练方式对所述卷积神经网络模型进行训练,包括:通过子流形稀疏卷积层对所述训练图像进行特征提取,生成特征图;通过roialign提取所述特征图中的字符区域;通过解码器对所述字符区域进行像素预测,生成预测特征;将所述预测特征映射回所述训练图像,并进行图像重建。5.如权利要求2所述的方法,其特征在于,还包括:通过训练完毕的所述主干特征提取网络生成初始文本行分割模型;通过手写体文字图像对所述初始文本行分割模型进行训练;在训练结束时,生成所述文本行分割模型。6.如权利要求1所述的方法,其特征在于,通过kd-tree方式计算每个实例边界中像素的真实值,包括:通过kd-tree对所述文本行分割图像中的每个实例边界进行建模;通过kd-tree对所述文本行分割图像中的每个实例边界内的像素点进行建模;计算建模后的实例边界和实例边界中的像素点之间的距离;通过所述距离生成每个实例边界中像素的真实值。7.如权利要求1所述的方法,其特征在于,基于每个边界实例中像素的真实值生成文本行边界图像,包括:将每个边界实例中像素的真实值和边界阈值进行比较以生成生成文本行边界;对所述文本行边界进行膨胀处理,生成扩展文本行边界;
通过扩展文本行边界生成文本行边界图像。8.一种手写体文字图像的处理装置,其特征在于,包括:输入模块,用于将手写体文字图像输入到文本行分割模型中,生成文本行分割图像,所述文本行分割模型中的主干特征提取网络是通过mim预训练方式生成的;实例模块,用于将所述文本行分割图像中每个文本行区域作为实例边界;计算模块,用于通过kd-tree方式计算每个实例边界中像素的真实值;边界模块,用于基于每个边界实例中像素的真实值生成文本行边界图像;提取模块,用于通过所述文本行边界图像提取所述手写体文字图像中的文本行区域以进行处理。9.一种电子设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至7中任一所述的方法。10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至7中任一所述的方法。

技术总结
本申请涉及一种手写体文字图像的处理方法、装置、电子设备及计算机可读介质。该方法包括:将手写体文字图像输入到文本行分割模型中,生成文本行分割图像,所述文本行分割模型中的主干特征提取网络是通过MIM预训练方式生成的;将所述文本行分割图像中每个文本行区域作为实例边界;通过KD-Tree方式计算每个实例边界中像素的真实值;基于每个边界实例中像素的真实值生成文本行边界图像;通过所述文本行边界图像提取所述手写体文字图像中的文本行区域以进行文字分析处理。本申请涉及的手写体文字图像的处理方法,能够克服现有技术中的技术困境,高效准确的对手写体文本进行文本行分割,进而进行文字分析识别等处理,提高处理效率和准确度。率和准确度。率和准确度。


技术研发人员:刘旭东 郭彦宗 袁景伟
受保护的技术使用者:北京云思智学科技有限公司
技术研发日:2023.07.11
技术公布日:2023/10/15
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐