文本识别方法、装置、设备和介质与流程
未命名
09-22
阅读:124
评论:0
1.本发明涉及目标识别技术领域,尤其涉及一种文本识别方法、装置、设备和介质。
背景技术:
2.深度学习是基于大量数据的一种方法,往往算法的表现会与数据量、数据质量有直接关系。数据规模越大,数据分布越拟合现实场景越好,相应产出的模型才能有更好的泛化能力。但现实场景中,初期采集数据过程中数据量的大小和成本挂钩,往往采集数据量不足,此时模型也表现的不尽如人意。在文字识别领域也是如此,若训练数据量不够,其对文本之外的无效像素段敏感性较高,往往多一段或者少一段像素会对结果带来负面影响。在文字识别领域,模型的识别效果除了与数据规模有关,还与文字定位模型有关,训练文字识别模型的数据一般是来自文字定位模型剪切出来的图片。因此,如果文字定位模型剪切出来的图片不理想,文字识别模型的效果也不理想。若后续优化文字定位模型,新旧定位模型产生的新旧像素差可能会影响后续识别模型和最终结果的准确率,重新优化训练识别模型会带来额外的成本。
技术实现要素:
3.有鉴于此,本发明实施例提供一种文本识别方法、装置、电子设备和计算机可读介质,能够不改变待识别图像中真实文本像素分布的情况下,平衡上一步的定位模型输出的关于无效文字像素的位置敏感性,提升识别模型关于位置的泛化能力。
4.第一方面,本发明实施例提供了一种文本识别方法,包括:针对原始图像集中的每一原始图像,利用预构建的文本定位模型,对所述原始图像中的文本进行定位,确定所述原始图像中定位文本的文本框;基于预设的位置扰动策略,对所述文本框所限定的范围进行放大或缩小,以增加或减少所述文本框内的像素,并将放大或缩小后的所述文本框作为增强框;基于所述增强框对所述原始图像进行裁剪,得到多个子图像,所述子图像作为对所述原始图像进行数据增强处理后的图像;基于所述原始图像集中每一原始图像对应的子图像,训练得到文本识别模型;基于所述文本定位模型,对待识别图像中的文本进行定位,确定所述待识别图像中定位文本的文本框,基于所述文本框对所述待识别图像进行裁剪,获得待识别子图像;基于所述文本识别模型对所述待识别子图像进行识别,确定所述待识别子图像中的文本。
5.可选地,所述确定所述原始图像中定位文本的文本框包括:获取所述原始图像中定位文本的文本框的第一位置信息;所述基于预设的位置扰动策略,对所述文本框所限定的范围进行放大或缩小,包括:基于预设的位置扰动策略,对所述文本框的第一位置信息进行调整,以对所述文本框所限定的范围进行放大或缩小,并获得放大或缩小后的所述文本框的第二位置信息。
6.可选地,基于预设的位置扰动策略,对所述第一位置信息进行调整,并获得放大或缩小后的所述文本框的第二位置信息,包括:基于所述第一位置信息,分别确定所述文本框
的四个角点的第一坐标;基于预设的位置扰动策略,分别确定所述四个角点的坐标调整区间;针对所述文本框的每一角点,基于所述坐标调整区间,对所述角点的第一坐标进行随机调整,获得第二坐标,并将所述第二坐标作为第二位置信息。
7.可选地,所述第一坐标包括第一横坐标和第一纵坐标;
8.所述基于预设的位置扰动策略,分别确定所述四个角点的坐标调整区间,包括:针对每一角点,基于预设的位置扰动策略,对所述角点的第一横坐标进行扩展,得到第二横坐标,以及对所述角点的第一横坐标进行缩小,得到第三横坐标;基于所述第二横坐标和所述第三横坐标,确定横坐标调整区间;基于预设的位置扰动策略,对所述角点的第一纵坐标进行扩展,得到第二纵坐标,以及对所述角点的第一纵坐标进行缩小,得到第三纵坐标;基于所述第二纵坐标和所述第三纵坐标,确定纵坐标调整区间;基于所述横坐标调整区间和所述纵坐标调整区间,确定所述角点的坐标调整区间。
9.可选地,所述基于所述原始图像集中每一原始图像对应的子图像,训练得到文本识别模型,包括:针对所述原始图像集中每一原始图像对应的子图像,根据透视变换矩阵,对所述子图像进行矫正,以获得水平放置的子图像;基于矫正后的所述子图像,训练得到文本识别模型。
10.可选地,所述基于所述原始图像集中每一原始图像对应的子图像,训练得到文本识别模型,包括:针对所述原始图像集中每一原始图像对应的子图像,在所述子图像的尺寸与预设的标准尺寸不一致时,根据预设的尺寸对齐策略,对所述子图像的尺寸进行缩放,以使所述子图像的尺寸与所述标准尺寸一致;基于尺寸缩放后的所述子图像,训练得到文本识别模型。
11.可选地,所述基于所述原始图像集中每一原始图像对应的子图像,训练得到文本识别模型,包括:针对所述原始图像集中每一原始图像对应的子图像,确定所述子图像对应的标签信息;基于所述子图像和所述子图像对应的标签信息,训练得到文本识别模型。
12.第二方面,本发明实施例提供了一种文本识别装置,包括:第一定位模块,用于针对原始图像集中的每一原始图像,利用预构建的文本定位模型,对所述原始图像中的文本进行定位,确定所述原始图像中定位文本的文本框;扰动模块,用于基于预设的位置扰动策略,对所述文本框所限定的范围进行放大或缩小,以增加或减少所述文本框内的像素,并将放大或缩小后的所述文本框作为增强框;裁剪模块,用于基于所述增强框对所述原始图像进行裁剪,得到多个子图像,所述子图像作为对所述原始图像进行数据增强处理后的图像;训练模块,用于基于所述原始图像集中每一原始图像对应的子图像,训练得到文本识别模型;第二定位模块,用于基于所述文本定位模型,对待识别图像中的文本进行定位,确定所述待识别图像中定位文本的文本框,基于所述文本框对所述待识别图像进行裁剪,获得待识别子图像;识别模块,用于基于所述文本识别模型对所述待识别子图像进行识别,确定所述待识别子图像中的文本。
13.可选地,所述第一定位模块还用于获取所述原始图像中定位文本的文本框的第一位置信息;
14.所述扰动模块还用于基于预设的位置扰动策略,对所述文本框的第一位置信息进行调整,以对所述文本框所限定的范围进行放大或缩小,并获得放大或缩小后的所述文本框的第二位置信息。
15.可选地,所述扰动模块还用于:基于所述第一位置信息,分别确定所述文本框的四个角点的第一坐标;基于预设的位置扰动策略,分别确定所述四个角点的坐标调整区间;针对所述文本框的每一角点,基于所述坐标调整区间,对所述角点的第一坐标进行随机调整,获得第二坐标,并将所述第二坐标作为第二位置信息。
16.可选地,所述第一坐标包括第一横坐标和第一纵坐标;
17.所述扰动模块还用于:针对每一角点,基于预设的位置扰动策略,对所述角点的第一横坐标进行扩展,得到第二横坐标,以及对所述角点的第一横坐标进行缩小,得到第三横坐标;基于所述第二横坐标和所述第三横坐标,确定横坐标调整区间;基于预设的位置扰动策略,对所述角点的第一纵坐标进行扩展,得到第二纵坐标,以及对所述角点的第一纵坐标进行缩小,得到第三纵坐标;基于所述第二纵坐标和所述第三纵坐标,确定纵坐标调整区间;基于所述横坐标调整区间和所述纵坐标调整区间,确定所述角点的坐标调整区间。
18.可选地,所述装置还包括矫正模块,用于:针对所述原始图像集中每一原始图像对应的子图像,根据透视变换矩阵,对所述子图像进行矫正,以获得水平放置的子图像;
19.所述训练模块还用于基于矫正后的所述子图像,训练得到文本识别模型。
20.可选地,所述装置还包括对齐模块,用于:针对所述原始图像集中每一原始图像对应的子图像,在所述子图像的尺寸与预设的标准尺寸不一致时,根据预设的尺寸对齐策略,对所述子图像的尺寸进行缩放,以使所述子图像的尺寸与所述标准尺寸一致;
21.所述扰动模块还用于基于尺寸缩放后的所述子图像,训练得到文本识别模型。
22.第三方面,本发明实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任一实施例所述的文本识别方法。
23.第四方面,本发明实施例提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明任一实施例所述的文本识别方法。
24.上述发明中的一个实施例具有如下优点或有益效果:
25.本发明实施例的文本识别方法,通过文本定位模型对原始图像中的文本进行定位,确定原始图像中定位文本的文本框,根据预设的位置扰动策略对文本框所限定的范围进行放大或缩小,以增加或减少所述文本框内的像素,并将放大或缩小后的所述文本框作为增强框,基于增强框对原始图像进行裁剪得到多个子图像,基于该子图像训练得到文本识别模型;基于文本定位模型,对待识别图像中的文本进行定位,确定待识别图像中定位文本的文本框,基于文本框对待识别图像进行裁剪,获得待识别子图像;基于文本识别模型对待识别子图像进行识别,确定待识别子图像中的文本的技术手段,在不改变待识别图像中真实文本像素的分布的情况下,平衡文本定位模型输出的关于无效文字像素的位置敏感性,提升文本识别模型关于位置的泛化能力,提高准确率。
26.上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
27.附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
28.图1示出了本发明实施例的文本识别方法的流程示意图;
29.图2示出了本发明实施例的文本识别方法的子流程示意图;
30.图3示出了本发明实施例的文本识别方法中的扰动策略的结果示意图;
31.图4示出了本发明实施例的文本识别方法训练文本识别模型的流程示意图;
32.图5示出了本发明又一实施例的文本识别方法的流程示意图;
33.图6示出了本发明实施例的文本识别装置的结构示意图;
34.图7示出了本发明实施例的电子设备的结构示意图。
具体实施方式
35.以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
36.图1示出了本发明实施例的文本识别方法的流程示意图,如图1所示,该方法包括:
37.步骤s101:针对原始图像集中的每一原始图像,利用预构建的文本定位模型,对所述原始图像中的文本进行定位,确定所述原始图像中定位文本的文本框。
38.其中,文本定位模型用于对原始图像中的文本区域进行检测,定位原始图像中的文本,确定定位文本的文本框。该文本定位模型可以是基于深度学习算法训练得到的。作为示例,文本定位模型可以采用ctpn(connectionist text proposal network)模型、yolo模型等,本发明在此不做限制。
39.在可选的实施例中,在确定原始图像中定位文本的文本框后,还可以获取文本框的第一位置信息。其中,文本框的第一位置信息可以包括文本框的四个角点的坐标,如(x1,y1)、(x2,y1)、(x1,y2)和(x2,y2),x1《x2,y1《y2。文本框的第一位置信息也可以包括某一个角点的坐标以及文本框的长和宽,如(x1,y1,l,w),l表示文本框的长,w表示文本框的宽。
40.步骤s102:基于预设的位置扰动策略,对所述文本框所限定的范围进行放大或缩小,以增加或减少所述文本框内的像素,并将放大或缩小后的所述文本框作为增强框。
41.位置扰动策略通过对文本框所限定的范围进行放大或缩小,增减文本框确定的文本区域内的像素数量,从而实现数据增强,增加样本的多样性。
42.作为示例,在基于预设的位置扰动策略对文本框进行放大或缩小时,可以对文本框按照预设比例进行缩小或放大,也可以向外调整或向内调整文本框的某一条边或多条边,也可以在一定范围内对文本框四个角点的坐标进行调整。
43.步骤s103:基于所述增强框对所述原始图像进行裁剪,得到多个子图像,所述子图像作为对所述原始图像进行数据增强处理后的图像。
44.在本步骤中,可以将增强框映射到原始图像上,对原始图像进行裁剪,将原始图像裁剪成多个子图像,该多个子图像即为对原始图像进行数据增强处理后的图像。
45.步骤s104:基于所述原始图像集中每一原始图像对应的子图像,训练得到文本识别模型。
46.在得到每一原始图像对应的子图像之后,可以确定子图像对应的标签信息,该标签信息即为该子图像上的真实文本。然后,通过对子图像以及其对应的标签信息进行训练,得到文本识别模型。
47.步骤s105:基于所述文本定位模型,对待识别图像中的文本进行定位,确定所述待识别图像中定位文本的文本框,基于所述文本框对所述待识别图像进行裁剪,获得待识别子图像。该步骤利用文本定位模型确定待识别图像中的文本,并对待识别图像中的文本区域进行裁剪,得到包含文本的待识别子图像。
48.步骤s106:基于所述文本识别模型对所述待识别子图像进行识别,确定所述待识别子图像中的文本。
49.利用训练得到的文本识别模型对待识别子图像进行识别,识别出待识别子图像中的文本。
50.本发明实施例的文本识别方法,通过文本定位模型对原始图像中的文本进行定位,确定原始图像中定位文本的文本框,根据预设的位置扰动策略对文本框所限定的范围进行放大或缩小,以增加或减少所述文本框内的像素,并将放大或缩小后的所述文本框作为增强框,基于增强框对原始图像进行裁剪得到多个子图像,基于该子图像训练得到文本识别模型;利用文本定位模型确定待识别图像中的文本框,基于文本框对待识别图像进行裁剪,获得待识别子图像,并文本识别模型对待识别子图像进行识别,确定待识别子图像中的文本,能够在不改变待识别图像中真实文本像素分布的情况下,平衡文本定位模型输出的无效文本像素的位置敏感性,提高识别模型关于位置的泛化能力和准确率。
51.在可选的实施例中,基于预设的位置扰动策略,对文本框所限定的范围进行放大或缩小的过程可以包括:基于预设的位置扰动策略,对所述文本框的第一位置信息进行调整,以对所述文本框所限定的范围进行放大或缩小,并获得放大或缩小后的所述文本框的第二位置信息。其中,第二位置信息所确定的文本框即为增强框。如上文所述,文本框的第一位置信息可以包括文本框的四个角点的坐标,也可以包括某一个角点的坐标以及文本框的长和宽,则基于预设的位置扰动策略对文本框的四个角点的坐标进行调整,或对文本框的长和宽进行调整,以实现对文本框所限定的范围进行放大或缩小。放大或缩小后的文本框(即增强框)的第二位置信息可以包括文本框的四个角点的坐标,也可以包括某一个角点的坐标以及文本框的长和宽。
52.在可选的实施例中,基于预设的位置扰动策略,对文本框的第一位置信息进行调整,并获得第二位置信息的过程如图2所示,可以包括:
53.步骤s201:基于所述第一位置信息,分别确定所述文本框的四个角点的第一坐标。作为示例,文本框的四个角点坐标记为(x1,y1)、(x2,y1)、(x1,y2)和(x2,y2),x1《x2,y1《y2。
54.步骤s202:基于预设的位置扰动策略,分别确定所述四个角点的坐标调整区间。
55.其中,该位置扰动策略可以规定了每个角点的横坐标的调整方式以及纵坐标的调整方式,即该位置扰动策略可以规定每个角点的横坐标的扩展方式以及缩小方式、纵坐标的扩展方式以及缩小方式。则,该步骤可以包括:
56.针对每一角点,基于预设的位置扰动策略,对所述角点的第一横坐标进行扩展,得到第二横坐标,以及对所述角点的第一横坐标进行缩小,得到第三横坐标;
57.基于所述第二横坐标和所述第三横坐标,确定横坐标调整区间;
58.基于预设的位置扰动策略,对所述角点的第一纵坐标进行扩展,得到第二纵坐标,以及对所述角点的第一纵坐标进行缩小,得到第三纵坐标;
59.基于所述第二纵坐标和所述第三纵坐标,确定纵坐标调整区间;
60.基于所述横坐标调整区间和所述纵坐标调整区间,确定角点的坐标调整区间。
61.其中,在对横纵坐标进行扩展或缩小时,可以设置扩展、缩小的范围或扩展、缩小的比例。在可选的实施例中,在对横坐标进行扩展时可以扩展n个单位像素(例如1个字符像素),对横坐标进行缩小时可以缩小m个单位像素,对纵坐标进行扩展时可以扩展k个单位像素,对纵坐标进行缩小时可以缩小h个单位像素。对横坐标进行扩展是指对横坐标向外扩展。例如,对于坐标x1和坐标x2(x1《x2),将该坐标x1在坐标轴上向左移动称为扩展,将该坐标x1在坐标轴上向右移动称为缩小,将该坐标x2在坐标轴上向右移动称为扩展,将该坐标x2向左移动称为缩小。对于坐标y1和坐标y2(y1《y2),将该坐标y1在坐标轴上向上移动称为缩小,向下移动称为扩展,将坐标y2在坐标轴上向下移动称为缩小,向上移动称为扩展。
62.因此,基于该位置扰动策略分别对文本框的四个角点的第一坐标进行调整后,得到:x1的调整区间为[x
1-n*p,x1+m*p],x2的调整区间为[x
2-m*p,x2+n*p],y1的调整区间为[y
1-k*p,y1+h*p],y2的调整区间为[y
2-h*p,y2+m*p]。其中,p表示单位像素。如图3所示,阴影部分为各个角点对应的坐标调整区间。
[0063]
作为具体的示例,对横坐标进行扩展时可以扩展1个字符像素(字符像素为单位像素),对横坐标进行缩小时可以缩小0.5个字符像素,对纵坐标进行扩展时可以扩展0.5个字符像素,对纵坐标进行缩小时可以缩小0.25个字符像素。
[0064]
步骤s203:针对所述文本框的每一角点,基于所述坐标调整区间,对该角点的第一坐标进行随机调整,获得第二坐标。
[0065]
在本步骤中对文本框的每一角点,在该角点对应的坐标调整区间内对该角点的第一坐标进行随机调整,得到第二坐标。
[0066]
步骤s204:将所述第二坐标作为增强框的第二位置信息。
[0067]
本实施例中,通过位置随机扰动策略,对文本框的四个角点进行有目的、有范围的调整,从而增减文本框所限定范围内的像素,可以大大增加样本多样性,消除模型对文本之外的无效像素段的敏感性,提升模型的泛化能力。
[0068]
图4示出了本发明实施例的文本识别方法训练文本识别模型的流程图,如图4所示,该方法包括:
[0069]
步骤s401:针对原始图像集中的每一原始图像,利用预构建的文本定位模型,对所述原始图像中的文本进行定位,确定所述原始图像中定位文本的文本框,获取该文本框的第一位置信息;
[0070]
步骤s402:基于预设的位置扰动策略,对所述文本框的第一位置信息进行调整,以对所述文本框所限定的范围进行放大或缩小,并将放大或缩小后的文本框作为增强框,获得增强框的第二位置信息;
[0071]
步骤s403:基于增强框对所述原始图像进行裁剪,得到多个子图像,所述子图像作为对所述原始图像进行数据增强处理后的图像;
[0072]
步骤s404:针对所述原始图像集中每一原始图像对应的子图像,根据透视变换矩阵,对所述子图像进行矫正,以获得水平放置的子图像;
[0073]
步骤s405:基于矫正后的所述子图像,训练得到文本识别模型。
[0074]
其中,步骤s401-s403与图1-图3所示的实施例相同,本发明在此不再赘述。
[0075]
对于步骤s404,透视变换(perspective transformation)的定义为将图像投影到
一个新的视平面(viewing plane),通常也被成为投影映射(projective mapping)。通用的变换公式为:
[0076][0077]
其中,u,v是透视变换前的原始图片的坐标,x,y是透视变化后的坐标,x=x
′
/w
′
,y=y
′
/w
′
。
[0078]
变换矩阵a可以拆成4部分,表示线性变换,比如scaling(尺度)、shearing(剪切)和ratotion(旋转)。[a
31 a
32
]用于平移,[a
13 a
23
]
t
产生透视变换。
[0079]
在本实施例中,在对文本框的四个角点的坐标进行随机扰动之后,由扰动后的四个角点构成的四边形可能不是水平视角下的矩形,为了更好的识别子图像中的文本,可以通过透视变换矩阵对子图像进行矫正,从而获得水平放置的子图像。作为具体的示例,可以利用opencv的warpperspective透视变换函数对子图像进行矫正。opencv是一个基于apache2.0许可(开源)发行的跨平台计算机视觉和机器学习软件库。
[0080]
图5示出了本发明实施例的文本识别方法训练文本识别模型的流程图,如图5所示,该方法包括:
[0081]
步骤s501:针对原始图像集中的每一原始图像,利用预构建的文本定位模型,对所述原始图像中的文本进行定位,确定所述原始图像中定位文本的文本框,获取该文本框的第一位置信息;
[0082]
步骤s502:基于预设的位置扰动策略,对所述文本框的第一位置信息进行调整,以对所述文本框所限定的范围进行放大或缩小,并将放大或缩小后的文本框作为增强框,获得增强框的第二位置信息;
[0083]
步骤s503:基于增强框对所述原始图像进行裁剪,得到多个子图像,所述子图像作为对所述原始图像进行数据增强处理后的图像;
[0084]
步骤s504:针对所述原始图像集中每一原始图像对应的子图像,根据透视变换矩阵,对所述子图像进行矫正,以获得水平放置的子图像;
[0085]
步骤s505:针对所述原始图像集中每一原始图像对应的子图像,在所述子图像的尺寸与预设的标准尺寸不一致时,根据预设的尺寸对齐策略,对所述子图像的尺寸进行缩放,以使所述子图像的尺寸与所述标准尺寸一致;
[0086]
步骤s506:基于尺寸缩放后的所述子图像,训练得到文本识别模型。
[0087]
其中,步骤s501-s504可以参考图1-4所示的实施例,本发明在此不再赘述。
[0088]
对于步骤s505,在原始图像上的文本的字体大小不一,定位文本的文本框的大小也不一致,因此裁剪得到的子图像的尺寸也不一致。为保证模型的识别效果,在对子图像进行训练时,可以对子图像的尺寸进行缩放或对子图像进行填充,以使子图像的尺寸一致,例如可以对子图像的四个方向(上下左右四个方向)进行补0填充。作为示例,可以利用opencv的resize函数,再结合copymakeborder函数随机边框padding补0填充像素。
[0089]
图6示出了本发明实施例的文本识别装置600的结构示意图,如图6所示,该装置
600包括:
[0090]
第一定位模块601,用于针对原始图像集中的每一原始图像,利用预构建的文本定位模型,对所述原始图像中的文本进行定位,确定所述原始图像中定位文本的文本框;
[0091]
扰动模块602,用于基于预设的位置扰动策略,对所述文本框所限定的范围进行放大或缩小,以增加或减少所述文本框内的像素,并将放大或缩小后的所述文本框作为增强框;
[0092]
裁剪模块603,用于基于所述增强框对所述原始图像进行裁剪,得到多个子图像,所述子图像作为对所述原始图像进行数据增强处理后的图像;
[0093]
训练模块604,用于基于所述原始图像集中每一原始图像对应的子图像,训练得到文本识别模型;
[0094]
第二定位模块605,用于基于所述文本定位模型,对待识别图像中的文本进行定位,确定所述待识别图像中定位文本的文本框,基于所述文本框对所述待识别图像进行裁剪,获得待识别子图像;
[0095]
识别模块606,用于基于所述文本识别模型对所述待识别子图像进行识别,确定所述待识别子图像中的文本。
[0096]
可选地,所述第一定位模块还用于获取所述原始图像中定位文本的文本框的第一位置信息;
[0097]
所述扰动模块还用于基于预设的位置扰动策略,对所述文本框的第一位置信息进行调整,以对所述文本框所限定的范围进行放大或缩小,并获得放大或缩小后的所述文本框的第二位置信息。
[0098]
可选地,所述扰动模块还用于:基于所述第一位置信息,分别确定所述文本框的四个角点的第一坐标;基于预设的位置扰动策略,分别确定所述四个角点的坐标调整区间;针对所述文本框的每一角点,基于所述坐标调整区间,对所述角点的第一坐标进行随机调整,获得第二坐标;将所述第二坐标作为第二位置信息。
[0099]
可选地,所述第一坐标包括第一横坐标和第一纵坐标;
[0100]
所述扰动模块还用于:针对每一角点,基于预设的位置扰动策略,对所述角点的第一横坐标进行扩展,得到第二横坐标,以及对所述角点的第一横坐标进行缩小,得到第三横坐标;基于所述第二横坐标和所述第三横坐标,确定横坐标调整区间;基于预设的位置扰动策略,对所述角点的第一纵坐标进行扩展,得到第二纵坐标,以及对所述角点的第一纵坐标进行缩小,得到第三纵坐标;基于所述第二纵坐标和所述第三纵坐标,确定纵坐标调整区间;基于所述横坐标调整区间和所述纵坐标调整区间,确定所述角点的坐标调整区间。
[0101]
可选地,所述装置还包括矫正模块,用于:针对所述原始图像集中每一原始图像对应的子图像,根据透视变换矩阵,对所述子图像进行矫正,以获得水平放置的子图像;
[0102]
所述训练模块还用于基于矫正后的所述子图像,训练得到文本识别模型。
[0103]
可选地,所述装置还包括对齐模块,用于:针对所述原始图像集中每一原始图像对应的子图像,在所述子图像的尺寸与预设的标准尺寸不一致时,根据预设的尺寸对齐策略,对所述子图像的尺寸进行缩放,以使所述子图像的尺寸与所述标准尺寸一致;
[0104]
所述扰动模块还用于基于尺寸缩放后的所述子图像,训练得到文本识别模型。
[0105]
述装置可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益
效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
[0106]
本发明实施例还提供了一种电子设备,如图7所示,包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信,
[0107]
存储器703,用于存放计算机程序;
[0108]
处理器701,用于执行存储器703上所存放的程序时,实现如下步骤:针对原始图像集中的每一原始图像,利用预构建的文本定位模型,对所述原始图像中的文本进行定位,确定所述原始图像中定位文本的文本框;基于预设的位置扰动策略,对所述文本框所限定的范围进行放大或缩小,以增加或减少所述文本框内的像素,并将放大或缩小后的所述文本框作为增强框;基于所述增强框对所述原始图像进行裁剪,得到多个子图像,所述子图像作为对所述原始图像进行数据增强处理后的图像;基于所述原始图像集中每一原始图像对应的子图像,训练得到文本识别模型;基于所述文本定位模型,对待识别图像中的文本进行定位,确定所述待识别图像中定位文本的文本框,基于所述文本框对所述待识别图像进行裁剪,获得待识别子图像;基于所述文本识别模型对所述待识别子图像进行识别,确定所述待识别子图像中的文本。
[0109]
上述终端提到的通信总线704可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该通信总线704可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0110]
通信接口702用于上述终端与其他设备之间的通信。
[0111]
存储器703可以包括随机存取存储器(random access memory,简称ram),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器701的存储装置。
[0112]
上述的处理器701可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processing,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0113]
在本发明提供的又一实施例中,还提供了一种计算机可读介质,该计算机可读介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的文本识别方法。
[0114]
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的文本识别方法。
[0115]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机
指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
[0116]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0117]
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0118]
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
技术特征:
1.一种文本识别方法,其特征在于,包括:针对原始图像集中的每一原始图像,利用预构建的文本定位模型,对所述原始图像中的文本进行定位,确定所述原始图像中定位文本的文本框;基于预设的位置扰动策略,对所述文本框所限定的范围进行放大或缩小,以增加或减少所述文本框内的像素,并将放大或缩小后的所述文本框作为增强框;基于所述增强框对所述原始图像进行裁剪,得到多个子图像,所述子图像作为对所述原始图像进行数据增强处理后的图像;基于所述原始图像集中每一原始图像对应的子图像,训练得到文本识别模型;基于所述文本定位模型,对待识别图像中的文本进行定位,确定所述待识别图像中定位文本的文本框,基于所述文本框对所述待识别图像进行裁剪,获得待识别子图像;基于所述文本识别模型对所述待识别子图像进行识别,确定所述待识别子图像中的文本。2.根据权利要求1所述的方法,其特征在于,所述确定所述原始图像中定位文本的文本框包括:获取所述原始图像中定位文本的文本框的第一位置信息;所述基于预设的位置扰动策略,对所述文本框所限定的范围进行放大或缩小,包括:基于预设的位置扰动策略,对所述文本框的第一位置信息进行调整,以对所述文本框所限定的范围进行放大或缩小,并获得放大或缩小后的所述文本框的第二位置信息。3.根据权利要求1所述的方法,其特征在于,基于预设的位置扰动策略,对所述第一位置信息进行调整,并获得放大或缩小后的所述文本框的第二位置信息,包括:基于所述第一位置信息,分别确定所述文本框的四个角点的第一坐标;基于预设的位置扰动策略,分别确定所述四个角点的坐标调整区间;针对所述文本框的每一角点,基于所述坐标调整区间,对所述角点的第一坐标进行随机调整,获得第二坐标,并将所述第二坐标作为第二位置信息。4.根据权利要求3所述的方法,其特征在于,所述第一坐标包括第一横坐标和第一纵坐标;所述基于预设的位置扰动策略,分别确定所述四个角点的坐标调整区间,包括:针对每一角点,基于预设的位置扰动策略,对所述角点的第一横坐标进行扩展,得到第二横坐标,以及对所述角点的第一横坐标进行缩小,得到第三横坐标;基于所述第二横坐标和所述第三横坐标,确定横坐标调整区间;基于预设的位置扰动策略,对所述角点的第一纵坐标进行扩展,得到第二纵坐标,以及对所述角点的第一纵坐标进行缩小,得到第三纵坐标;基于所述第二纵坐标和所述第三纵坐标,确定纵坐标调整区间;基于所述横坐标调整区间和所述纵坐标调整区间,确定所述角点的坐标调整区间。5.根据权利要求1所述的方法,其特征在于,所述基于所述原始图像集中每一原始图像对应的子图像,训练得到文本识别模型,包括:针对所述原始图像集中每一原始图像对应的子图像,根据透视变换矩阵,对所述子图像进行矫正,以获得水平放置的子图像;基于矫正后的所述子图像,训练得到文本识别模型。6.根据权利要求1所述的方法,其特征在于,所述基于所述原始图像集中每一原始图像
对应的子图像,训练得到文本识别模型,包括:针对所述原始图像集中每一原始图像对应的子图像,在所述子图像的尺寸与预设的标准尺寸不一致时,根据预设的尺寸对齐策略,对所述子图像的尺寸进行缩放,以使所述子图像的尺寸与所述标准尺寸一致;基于尺寸缩放后的所述子图像,训练得到文本识别模型。7.一种文本识别装置,其特征在于,包括:第一定位模块,用于针对原始图像集中的每一原始图像,利用预构建的文本定位模型,对所述原始图像中的文本进行定位,确定所述原始图像中定位文本的文本框;扰动模块,用于基于预设的位置扰动策略,对所述文本框所限定的范围进行放大或缩小,以增加或减少所述文本框内的像素,并将放大或缩小后的所述文本框作为增强框;裁剪模块,用于基于所述增强框对所述原始图像进行裁剪,得到多个子图像,所述子图像作为对所述原始图像进行数据增强处理后的图像;训练模块,用于基于所述原始图像集中每一原始图像对应的子图像,训练得到文本识别模型;第二定位模块,用于基于所述文本定位模型,对待识别图像中的文本进行定位,确定所述待识别图像中定位文本的文本框,基于所述文本框对所述待识别图像进行裁剪,获得待识别子图像;识别模块,用于基于所述文本识别模型对所述待识别子图像进行识别,确定所述待识别子图像中的文本。8.根据权利要求7所述的装置,其特征在于,所述第一定位模块还用于获取所述原始图像中定位文本的文本框的第一位置信息;所述扰动模块还用于基于预设的位置扰动策略,对所述文本框的第一位置信息进行调整,以对所述文本框所限定的范围进行放大或缩小,并获得放大或缩小后的所述文本框的第二位置信息。9.一种电子设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
技术总结
本发明公开了一种文本识别方法、装置、设备和介质,涉及目标识别技术领域。该方法包括:利用文本定位模型对原始图像中的文本进行定位,确定原始图像中定位文本的文本框;基于位置扰动策略,对文本框进行放大或缩小;基于放大或缩小后的文本框对原始图像进行裁剪,得到多个子图像;基于子图像,训练得到文本识别模型;基于文本定位模型确定待识别图像中的文本框,基于文本框对待识别图像进行裁剪,获得待识别子图像;基于文本识别模型对待识别子图像进行识别,确定待识别子图像中的文本。该方法能够在不改变待识别图像中真实文本像素分布的情况下,平衡文本定位模型输出的无效文本像素的位置敏感性,提高识别模型关于位置的泛化能力和准确率。能力和准确率。能力和准确率。
技术研发人员:杨兵
受保护的技术使用者:北京城市网邻信息技术有限公司
技术研发日:2023.06.13
技术公布日:2023/9/20
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
