目标检测的方法、装置、设备及存储介质与流程

未命名 08-05 阅读:167 评论:0


1.本技术涉及计算机技术领域,尤其涉及一种目标检测的方法、装置、设备及存储介质。


背景技术:

2.随着人工智能的不断发展,金融机构逐渐将其应用至生产生活中。
3.光学字符识别(ocr,optical character recognition)文本技术是利用光学字符识别,通过采集文本,对文本图像进行明暗分析,对比字符库等操作,从而输出文本,解决了因手动输入大量文本而导致的准确率低、输入慢等问题。然而该技术严重依赖于光线、网络等外部环境,在光线灰暗和网络较差的环境下,往往识别效果差,甚至无法识别。
4.目前,关于如何提高ocr技术的识别文本效率,提升用户体验感,是一个亟待解决的问题。


技术实现要素:

5.本技术提供一种目标检测的方法、装置、设备及存储介质,用以解决ocr技术的识别文本效率低,用户体验感差的问题。
6.一方面,本技术提供一种目标检测的方法,包括:
7.获取待检测图片,所述待检测图片中包括目标文本;
8.对所述待检测图片进行特征提取处理,得到目标特征图,所述目标特征图中包括所述待检测图片中的图像特征;
9.通过预设模型对所述目标特征图进行处理,得到目标图片,所述目标图片中包括所述目标文本的指示标志,所述指示标志用于指示所述目标文本。
10.可选地,对所述待检测图片进行特征提取处理,得到目标特征图,包括:
11.通过残差网络对所述待检测图片进行特征提取处理,得到残差特征图,所述残差特征图中包括第一残差特征图、第二残差特征图和第三残差特征图;
12.通过特征金字塔网络对所述残差特征图进行至少一种图像处理,得到所述目标特征图,所述至少一种图像处理包括:特征提取处理、特征融合处理以及卷积映射处理。
13.可选地,通过残差网络对所述待检测图片进行特征提取处理,得到残差特征图,包括:
14.通过所述残差网络的至少一个第一残差层对所述待检测图片进行特征提取处理,得到第一残差特征图;
15.通过所述残差网络的第二残差层对所述第一残差特征图进行处理,得到第二残差特征图;
16.通过所述残差网络的第三残差层对所述第二残差特征图进行处理,得到第三残差特征图。
17.可选地,使用特征金字塔网络对所述残差特征图进行综合处理,得到目标特征图,
包括:
18.通过所述特征金字塔网络对所述第一残差特征图、所述第二残差特征图和所述第三残差特征图进行所述至少一种图像处理,得到中间特征图;
19.对所述中间特征图进行激活处理和卷积映射处理,得到第一特征图,以及对所述第三残差特征图进行激活处理和卷积映射处理,得到第二特征图,其中,所述目标特征图包括所述第一特征图和所述第二特征图。
20.可选地,通过所述特征金字塔网络对所述第一残差特征图、所述第二残差特征图和所述第三残差特征图进行所述至少一种图像处理,得到中间特征图,包括:
21.通过所述特征金字塔网络对所述第三残差特征图进行所述至少一种图像处理,得到第三中间特征图;
22.通过所述特征金字塔网络对所述第二残差特征图和所述第三中间特征图进行处理,得到第二中间特征图;
23.通过所述特征金字塔网络对所述第一残差特征图和所述第二中间特征图进行处理,得到第一中间特征图;
24.其中,所述中间特征图包括所述第一中间特征图、所述第二中间特征图和所述第三中间特征图。
25.可选地,对所述中间特征图进行激活处理和卷积映射处理,得到第一特征图,包括:
26.对所述第一中间特征图进行卷积映射处理,得到第一子特征图;
27.对所述第二中间特征图进行卷积映射处理,得到第二子特征图;
28.对所述第三中间特征图进行激活处理和卷积映射处理,得到第三子特征图;
29.其中,所述第一特征图包括所述第一子特征图、所述第二子特征图和所述第三子特征图。
30.可选地,对所述第三残差特征图进行激活处理和卷积映射处理,得到第二特征图,包括:
31.对所述第三残差特征图进行卷积映射处理,得到第四子特征图;
32.对所述第四子特征图进行激活处理和卷积映射处理,得到第五子特征图;
33.其中,所述第二特征图包括所述第四子特征图和所述第五子特征图。
34.另一方面,本技术提供一种目标检测的装置,包括:
35.获取模块,用于获取待检测图片,所述待检测图片中包括目标文本;
36.处理模块,用于对所述待检测图片进行特征提取处理,得到目标特征图,所述目标特征图中包括所述待检测图片中的图像特征;
37.处理模块,还用于通过预设模型对所述目标特征图进行处理,得到目标图片,所述目标图片中包括所述目标文本的指示标志,所述指示标志用于指示所述目标文本。
38.一种可能的实现方式中,处理模块具体用于:
39.通过残差网络对所述待检测图片进行特征提取处理,得到残差特征图,所述残差特征图中包括第一残差特征图、第二残差特征图和第三残差特征图;
40.通过特征金字塔网络对所述残差特征图进行至少一种图像处理,得到所述目标特征图,所述至少一种图像处理包括:特征提取处理、特征融合处理以及卷积映射处理。
41.一种可能的实现方式中,处理模块具体用于:
42.通过所述残差网络的至少一个第一残差层对所述待检测图片进行特征提取处理,得到第一残差特征图;
43.通过所述残差网络的第二残差层对所述第一残差特征图进行处理,得到第二残差特征图;
44.通过所述残差网络的第三残差层对所述第二残差特征图进行处理,得到第三残差特征图。
45.一种可能的实现方式中,处理模块具体用于:
46.通过所述特征金字塔网络对所述第一残差特征图、所述第二残差特征图和所述第三残差特征图进行所述至少一种图像处理,得到中间特征图;
47.对所述中间特征图进行激活处理和卷积映射处理,得到第一特征图,以及对所述第三残差特征图进行激活处理和卷积映射处理,得到第二特征图,其中,所述目标特征图包括所述第一特征图和所述第二特征图。
48.一种可能的实现方式中,处理模块具体用于:
49.通过所述特征金字塔网络对所述第三残差特征图进行所述至少一种图像处理,得到第三中间特征图;
50.通过所述特征金字塔网络对所述第二残差特征图和所述第三中间特征图进行处理,得到第二中间特征图;
51.通过所述特征金字塔网络对所述第一残差特征图和所述第二中间特征图进行处理,得到第一中间特征图;
52.其中,所述中间特征图包括所述第一中间特征图、所述第二中间特征图和所述第三中间特征图。
53.一种可能的实现方式中,处理模块具体用于:
54.对所述第一中间特征图进行卷积映射处理,得到第一子特征图;
55.对所述第二中间特征图进行卷积映射处理,得到第二子特征图;
56.对所述第三中间特征图进行激活处理和卷积映射处理,得到第三子特征图;
57.其中,所述第一特征图包括所述第一子特征图、所述第二子特征图和所述第三子特征图。
58.一种可能的实现方式中,处理模块具体用于:
59.对所述第三残差特征图进行卷积映射处理,得到第四子特征图;
60.对所述第四子特征图进行激活处理和卷积映射处理,得到第五子特征图;
61.其中,所述第二特征图包括所述第四子特征图和所述第五子特征图。
62.本技术的第三方面,提供了一种电子设备,包括:
63.处理器和存储器;
64.存储器存储计算机执行指令;
65.处理器执行存储器存储的计算机执行指令,使得电子设备执行第一方面中任一项的方法。
66.本技术的第四方面,提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现如第一方面任一项所述的
方法
67.本技术的第五方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如第一方面任一项所述的方法。
68.本实施例提供了一种目标检测的方法、装置、设备及存储介质,该方法首先获取待检测图片;接着对待检测图片进行特征提取处理,得到目标特征图;最后,通过预设模型对目标特征图进行处理,得到目标图片,目标图片中包括目标文本的指示标志。该方法通过retinanet网络对待检测图片进行特征提取处理,并通过retinanet网络中的预设模型进行进一步的处理,得到带有目标文本指示标志的目标图片,进一步为后续的目标文本识别奠定了基础,提高了目标文本识别的准确率和效率,提升了用户体验感。
附图说明
69.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
70.图1为本技术提供的目标检测的方法的具体的应用场景图;
71.图2为本技术实施例提供的目标检测的方法流程图一;
72.图3a为本技术实施例提供的目标检测的方法流程图二;
73.图3b为本技术实施例提供的retinanet网络详细结构图;
74.图4为本技术实施例提供的目标检测的方法流程图三;
75.图5为本技术实施例提供的一种目标检测的装置的结构示意图;
76.图6为本技术实施例提供一种电子设备的结构示意图。
77.通过上述附图,已示出本技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
78.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
79.图1为本技术提供的目标检测的方法的具体的应用场景图。如图1所示,该应用场景为retinanet网络,包括四部分:(a)为残差网络resnet,使用跳层连接避免了一味增加网络深度而导致梯度消失的问题,负责对输入图像进行特征提取;(b)为特征金字塔网络(feature pyramid network,fpn),用来生成多尺度的特征图;(c)为全卷积分类子网络class subnet(top),对(b)生成的特征图进行分类;(d)为全卷积回归子网络box subnet(bottom),与(c)平行,结构设计与(c)完全相同,不同的是最后输出的大小,该网络对(b)生成的特征图进行回归。
80.在实际使用该网络的过程中,将包含有目标文本的图片输入到该retinanet网络中,经过其处理,得到包含目标文本位置的指示标识的目标图片,例如,由矩形框将要识别的目标文件框起来,使得可以进一步对该目标图片进行ocr处理,输出目标文本。也就是说,
此处retinanet网络承担着ocr处理中,确定目标文本的位置的作用。
81.本技术提供了一种目标检测的方法,该方法通过改进过的retinanet网络中对待检测图片进行特征提取处理,并通过retinanet网络中的预设模型进行进一步的处理,得到带有目标文本指示标志的目标图片,进一步为后续的目标文本识别奠定了基础,提高了目标文本识别的准确率和效率,提升了用户体验感。
82.本技术提供的目标检测的方法,旨在解决现有技术的如上技术问题。
83.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
84.图2为本技术实施例提供的目标检测的方法流程图一。如图2所示,本实施例的方法,包括:
85.s201、获取待检测图片,待检测图片中包括目标文本;
86.本技术实施例的执行主体可以为电子设备,也可以为设置在电子设备中的目标检测的装置。可选地,目标检测的装置可以通过软件实现,也可以通过软件和硬件的结合实现。
87.本实施例中,待检测图片是指包括着目标文本的图片,目标文本是指根据业务需求,通过目标检测之后,需要了解其具体位置的文本。具体来说,一张图片中包括数字,文字,图案等多种信息,而业务需求是检测该图片中数字的位置,此时该图片即为待检测图片,该数字即为目标文本。
88.本实施例中,获取待检测图片可以采取多种方式,例如,由电子设备直接获取,包括由电子设备的摄像头拍摄获得,或者由电子设备直接连接的储存介质或者网络获得。这里储存介质包括但不限于电子设备的存储介质和普通存储介质。对于需要输入大段数字的场景,例如高铁进站时需要快速确定当前旅客的某个认证号码,此时通常采用摄像头拍摄获得待检测图片,从而进行进一步的处理。
89.s202、对待检测图片进行特征提取处理,得到目标特征图,目标特征图中包括待检测图片中的图像特征;
90.本实施例中,在获取到待检测图片之后,对其进行特征提取处理,进而得到目标特征图。特征提取是指使用计算机提取图像中属于特征性的信息的方法及过程。在图像中,图像特征包括边缘、角、和区域等。其中边缘是组成两个图像区域之间边界(或边缘)的像素。角是图像中点似的特征,在局部它有两维结构。区域是一个图像中的一个区域性的结构,同时区域也可能仅由一个像素组成,因此许多区域检测也可以用来检测角。
91.对待检测图片进行特征提取处理,得到目标特征图可以采取多种方式。例如,采取基于传统图像识别的方法,主要通过背景分割获得特征区域,随后提取区域图像特征,得到目标特征图。在实际应用过程中,待检测图片有着复杂的图像背景和特征多样性,传统的模式识别方法鲁棒性弱,泛化能力差,导致这些研究成果无法广泛应用于目标文本检测。
92.本技术中,由于目标文本的大小通常为较小的目标,此时即选用适用于小目标检测的物体检测的retinanet网络。小目标通常是指大小在32像素
×
32像素以下的目标,小目标检测的目的就是将这些可视化特征极少的目标从图像中精准的检测出来。retinanet网络是一种基于深度学习的目标检测方法。基于深度学习的目标检测方法主要分为两大类,
一类是基于候选框的二阶检测方法(two-stage detection),代表性的算法有rcnn2、fast rcnn和faster rcnn4等。另一类是没有候选框筛选过程的一阶检测方法(one-stage detection),代表性算法有ssds、retinanet和yolo系列等。retinanet是一种基于卷积神经网络的one-stage目标检测算法,不仅在速度上保持了one-stage方法的优势,在精度上也超过了部分two-stage方法。
93.本实施例中,采取retinanet网络对待检测图片进行特征提取处理,得到了目标特征图,为后续的操作打下基础。值得注意的是,此时的目标特征图不等同于目标文本。
94.s203、通过预设模型对目标特征图进行处理,得到目标图片,目标图片中包括目标文本的指示标志,指示标志用于指示目标文本。
95.本实施例中,在获得目标特征图之后,采用预设模型完成对目标特征图的进一步处理,即检测出目标文本的位置,并生成指示标志,在图片中指示目标文本的位置。
96.本技术中,预设模型可以采取多种方案构建。例如,训练svm分类器实现对目标特征图的分类与回归。本技术中,采用retinanet网络中的分类子网络和回归子网络构建该预设模型并进行训练。
97.训练过程如下:首先准备训练集,保存大量的待检测图片,将所有待检测图片上的目标文本用指示标志如矩形框标注出来,将标注完成的待检测图片作为训练集输入预设模型,进行训练。随后,接着准备测试集,将新的待检测图片直接输入上述步骤训练好的retinanet网络,输出结果为标注好目标文本的待检测图片。此时说明该预设模型已经完成训练。
98.在实际应用场景中,得到标有目标文本的指示标志的目标图片之后,不意味着对图片进行处理的流程完成了。检测目标文本位置的下一步操作通常为对该目标文本进行文本识别,最后输出该目标文本。
99.针对本技术中目标文本属于小目标的情况,采用此方案,进一步为后续的目标文本识别奠定了基础,提高了目标文本识别的准确率和效率。
100.本实施例提供了一种目标检测的方法,该方法首先获取待检测图片;接着对待检测图片进行特征提取处理,得到目标特征图;最后,通过预设模型对目标特征图进行处理,得到目标图片,目标图片中包括目标文本的指示标志。该方法通过retinanet网络对待检测图片进行特征提取处理,并通过retinanet网络中的预设模型进行进一步的处理,得到带有目标文本指示标志的目标图片,进一步为后续的目标文本识别奠定了基础,提高了目标文本识别的准确率和效率,提升了用户体验感。
101.图3a为本技术实施例提供的目标检测的方法流程图二。如图3a所示,本实施例的方法,在图2所示的实施例的基础上,针对对待检测图片进行特征提取处理,得到目标特征图的过程进行详细的表述。
102.s301、通过残差网络的至少一个第一残差层对待检测图片进行特征提取处理,得到第一残差特征图;
103.本实施例中,是采用通过retinanet网络中的残差网络对待检测图片进行特征提取处理,得到残差特征图,残差特征图中包括第一残差特征图、第二残差特征图和第三残差特征图。
104.残差网络的提出是为了解决由于网络过深而导致训练时出现梯度爆炸或者消失
等问题。所以常见的残差网络一般从18层到152层(甚至更多)不等。他们的区别主要在于采用的残差单元/模块不同或者堆叠残差单元/模块的数量和比例不同。
105.图3b为本技术实施例提供的retinanet网络详细结构图,如图3b所示,本技术的残差网络resnet由五个卷积残差块组成,每个残差块内部都通过跳层连接将网络前几个残差块的输出信息传递到更深的网络层次,从而很好地避免了梯度消失的问题,在训练更深层次网络的同时能够保证模型的良好性能。
106.本实施例中,将五个卷积残差块分为三个层次,将第一残差层设置为三个卷积残差块组成,即conv1、conv2_x和conv3_x为第一残差层,因此,第一残差特征图为待检测图片经过conv1、conv2_x和conv3_x这三个卷积残差块,处理之后得到的残差特征图。
107.本领域的技术人员可以理解,残差网络中的卷积残差块的设置可以根据业务需求进行调整,并不局限于上述设置。
108.s302、通过残差网络的第二残差层对第一残差特征图进行处理,得到第二残差特征图;
109.本实施例中,第二残差层为图3b中的conv4_x卷积残差块。将第一残差特征图输入conv4_x卷积残差块,处理之后得到的残差特征图即为第二残差特征图。
110.s303、通过残差网络的第三残差层对第二残差特征图进行处理,得到第三残差特征图;
111.本实施例中,第三残差层为图3b中的conv5_x卷积残差块。将第二残差特征图输入conv5_x卷积残差块,处理之后得到的残差特征图即为第三残差特征图。
112.s304、通过特征金字塔网络对第一残差特征图、第二残差特征图和第三残差特征图进行至少一种图像处理,得到中间特征图;
113.本实施例中,是采用通过retinanet网络中的特征金字塔网络对残差特征图进行至少一种图像处理,得到目标特征图,至少一种图像处理包括:特征提取处理、特征融合处理以及卷积映射处理。
114.特征金字塔网络(feature pyramid networks,fpn)是一种用于计算机视觉中物体检测、图像分割、目标跟随等任务的常用技术。它的主要思想是通过在不同的图像尺度上提取特征,来捕捉不同大小和分辨率的物体信息。如图3b所示的特征金字塔网络通过在重建层和相应的特征图之间添加横向连接,使小目标物体的位置检测更加精确。
115.特征金字塔网络首先对输入的第一残差特征图、第二残差特征图和第三残差特征图进行多尺度采样,其中每一层都对应不同的尺度。然后在每个尺度上都应用一个特征提取网络,如卷积神经网络(cnn),以提取该尺度上的特征。随后将不同尺度的特征进行融合,以得到一组具有不同尺度信息的特征图。最后采用卷积映射是卷积核分别对其进行映射,消除上采样的混叠效应,得到中间特征图。其中中间特征图是图3b所示的m3、m4和m5。
116.s305、对中间特征图进行激活处理和卷积映射处理,得到第一特征图,以及对第三残差特征图进行激活处理和卷积映射处理,得到第二特征图,其中,目标特征图包括第一特征图和第二特征图。
117.本实施例中,激活处理是引入激活函数进行实现将非线性因素引入神经网络的操作。激活函数是确定神经网络输出的数学方程式,包括sigmoid和tanh在内的饱和激活函数,以及修正线性单元(rectified linear unit,relu)函数及其变体在内的非饱和激活函
数。通过对中间特征图进行激活处理和卷积映射处理,得到第一特征图,以及对第三残差特征图进行激活处理和卷积映射处理,得到第二特征图。其中,第一特征图是图3b中的p5、p4和p3,第二特征图是图3b中的p6和p7。
118.针对本技术中目标文本属于小目标的情况,在常规的retinanet网络中,设置残差网络来解决梯度爆炸或者消失的问题,设置特征金字塔网络并引入激活函数,对其进行改进,提高目标图片的分辨率,提高目标文本的检测精度。
119.本实施例提供了一种目标检测的方法,该方法首先通过残差网络的至少一个第一残差层对待检测图片进行特征提取处理,第一残差特征图;随后通过残差网络的第二残差层对第一残差特征图进行处理,得到第二残差特征图;接着,通过残差网络的第三残差层对第二残差特征图进行处理,得到第三残差特征图;接着,通过特征金字塔网络对第一残差特征图、第二残差特征图和第三残差特征图进行至少一种图像处理,得到中间特征图;最后对中间特征图进行激活处理和卷积映射处理,得到第一特征图,以及对第三残差特征图进行激活处理和卷积映射处理,得到第二特征图。该方法通过使用残差网络对待检测图片进行处理,得到残差特征图,再通过特征金字塔网络对残差特征图进行处理,得到目标特征图,克服了残差网络处理后,提取到的高层特征虽然具有丰富的语义信息,但分辨率却相对较低的缺点,增强了分辨率,提高目标文本检测的精度,提升了用户体验感。
120.图4为本技术实施例提供的目标检测的方法流程图三。如图4所示,本实施例的方法,在图2所示的实施例的基础上,针对使用特征金字塔网络对残差特征图进行综合处理,得到目标特征图的过程进行详细的表述。
121.s401、通过特征金字塔网络对第三残差特征图进行至少一种图像处理,得到第三中间特征图;
122.本实施例中,第三残差特征图为经过图3b中的conv5_x卷积残差块处理的残差特征图。由图3b可以看出,由于conv5_x为最高层次的特征,上面没有其他层,该残差特征图有两个流向,其中一个即为经过1
×
1的卷积核进行卷积映射处理,得到名为m5的中间特征图,此时m5即为第三中间特征图。实际上,中间特征图包括第一中间特征图、第二中间特征图和第三中间特征图。
123.s402、通过特征金字塔网络对第二残差特征图和第三中间特征图进行处理,得到第二中间特征图;
124.本实施例中,第二残差特征图为经过图3b中的conv4_x卷积残差块处理的残差特征图。由图3b可以看出,第二中间特征图即名为m4的中间特征图,是有两个输入决定的。
125.首先通过在第三中间特征图m5上采样(即图中的2
×
,放大两倍)得到与第二残差特征图相同大小的特征图,接着再与第二残差特征图通过1
×
1的卷积核进行卷积映射处理后的特征图进行融合,得到第二中间特征图。
126.s403、通过特征金字塔网络对第一残差特征图和第二中间特征图进行处理,得到第一中间特征图;
127.本实施例中,第一残差特征图为经过图3b中的conv3_x卷积残差块处理的残差特征图。由图3b可以看出,第一中间特征图即名为m3的中间特征图,是有两个输入决定的。
128.首先通过在第二中间特征图m4上采样(即图中的2
×
,放大两倍)得到与第一残差特征图相同大小的特征图,接着再与第一残差特征图通过1
×
1的卷积核进行卷积映射处理
后的特征图进行融合,得到第一中间特征图。
129.s404、对第一中间特征图进行卷积映射处理,得到第一子特征图;
130.本实施例中,第一特征图是通过对中间特征图进行激活处理和卷积映射处理得到的。实际上,第一特征图包括第一子特征图、第二子特征图和第三子特征图。第一子特征图是指图3b中的p3特征图。由图3b可以看出,第一子特征图p3由第一中间特征图m3通过3
×
3的卷积核进行卷积映射处理,消除上采样的混叠效应之后得到。
131.s405、对第二中间特征图进行卷积映射处理,得到第二子特征图;
132.本实施例中,第二子特征图是指图3b中的p4特征图。由图3b可以看出,第二子特征图p4由第二中间特征图m4通过3
×
3的卷积核进行卷积映射处理,消除上采样的混叠效应之后得到。
133.s406、对第三中间特征图进行激活处理和卷积映射处理,得到第三子特征图;
134.本实施例中,第三子特征图是指图3b中的p5特征图。由图3b可以看出,第三子特征图p5由第三中间特征图m5首先通过relu函数进行非线性变换,再通过3
×
3的卷积核进行卷积映射处理,消除上采样的混叠效应之后得到。
135.s407、对第三残差特征图进行卷积映射处理,得到第四子特征图;
136.本实施例中,第二特征图是通过对第三残差特征图进行激活处理和卷积映射处理得到的。实际上,第二特征图包括第四子特征图和第五子特征图。第四子特征图是指图3b中的p6特征图。由图3b可以看出,第四子特征图p6由第三残差特征图通过3
×
3的卷积核进行卷积映射处理,消除上采样的混叠效应之后得到。
137.s408、对第四子特征图进行激活处理和卷积映射处理,得到第五子特征图。
138.本实施例中,第五子特征图是指图3b中的p7特征图。由图3b可以看出,第五子特征图p7由第四子特征图p6首先通过首先经过relu函数进行非线性变换,再通过3
×
3的卷积核进行卷积映射处理,消除上采样的混叠效应之后得到。
139.本领域的技术人员可以理解,在进行卷积映射处理时,应根据业务需求选择不同的卷积核,并不限于上述提到的卷积核。
140.针对本技术中目标文本属于小目标的情况,在常规的retinanet网络中,设置特征金字塔网络并引入激活函数,在获取第三子特征图p5和第五子特征图p7时,引入relu函数,对其进行激活,在使用3
×
3的卷积核进行卷积映射处理,提高目标图片的分辨率,提高目标文本的检测精度。
141.本实施例提供了一种目标检测的方法,该方法首先通过特征金字塔网络对第三残差特征图进行至少一种图像处理,得到第三中间特征图;通过特征金字塔网络对第二残差特征图和第三中间特征图进行处理,得到第二中间特征图;通过特征金字塔网络对第一残差特征图和第二中间特征图进行处理,得到第一中间特征图;对第一中间特征图进行卷积映射处理,得到第一子特征图;对第二中间特征图进行卷积映射处理,得到第二子特征图;对第三中间特征图进行激活处理和卷积映射处理,得到第三子特征图;对第三残差特征图进行卷积映射处理,得到第四子特征图;对第四子特征图进行激活处理和卷积映射处理,得到第五子特征图。该方法通过在常规的retinanet网络中,设置特征金字塔网络并引入激活函数,在获取第三子特征图p5和第五子特征图p7时,引入relu函数,对其进行激活,在使用3
×
3的卷积核进行卷积映射处理,提高目标图片的分辨率和目标文本的检测精度,提升了用
户体验感。
142.下面以一个具体的实施例,对本技术的技术方案进行详细说明。
143.待检测图片为包括图案,文字和数字的卡片的图片,需要识别其上的数字并输出该数字,数字具有较多位数,因此通过手动输入耗费时间的同时,准确率也不高。
144.采用本技术的方法,则首先通过电子设备的摄像头拍摄到该待检测图片。随后使用残差网络中的不同残差层对其进行特征提取,得到第一残差特征图、第二残差特征图和第三残差特征图。
145.随后,通过特征金字塔网络对第一残差特征图、第二残差特征图和第三残差特征图进行特征提取处理、特征融合处理以及卷积映射处理等处理,得到第一中间特征图、第二中间特征图和第三中间特征图。
146.最后,对第一中间特征图进行卷积映射处理,得到第一子特征图。对第二中间特征图进行卷积映射处理,得到第二子特征图;对第三中间特征图进行激活处理和卷积映射处理,得到第三子特征图;对第三残差特征图进行卷积映射处理,得到第四子特征图;对第四子特征图进行激活处理和卷积映射处理,得到第五子特征图。将这五个子特征图输入至全卷积分类子网络和全卷积回归子网络构建的预设模型中,即可得到数字周围带有矩形框的目标图片,再此基础上对其进行ocr识别,既可以又快速又准确的识别出数字了。
147.图5为本技术实施例提供的一种目标检测的装置的结构示意图。本实施例的装置可以为软件和/或硬件的形式。如图5所示,本技术实施例提供的一种目标检测的装置10,包括获取模块11和处理模块12,其中,
148.获取模块11,用于获取待检测图片,待检测图片中包括目标文本;
149.处理模块12,用于对待检测图片进行特征提取处理,得到目标特征图,目标特征图中包括待检测图片中的图像特征;
150.处理模块12,还用于通过预设模型对目标特征图进行处理,得到目标图片,目标图片中包括目标文本的指示标志,指示标志用于指示目标文本。
151.一种可能的实现方式中,处理模块12具体用于:
152.通过残差网络对待检测图片进行特征提取处理,得到残差特征图,残差特征图中包括第一残差特征图、第二残差特征图和第三残差特征图;
153.通过特征金字塔网络对残差特征图进行至少一种图像处理,得到目标特征图,至少一种图像处理包括:特征提取处理、特征融合处理以及卷积映射处理。
154.一种可能的实现方式中,处理模块12具体用于:
155.通过残差网络的至少一个第一残差层对待检测图片进行特征提取处理,得到第一残差特征图;
156.通过残差网络的第二残差层对第一残差特征图进行处理,得到第二残差特征图;
157.通过残差网络的第三残差层对第二残差特征图进行处理,得到第三残差特征图。
158.一种可能的实现方式中,处理模块12具体用于:
159.通过特征金字塔网络对第一残差特征图、第二残差特征图和第三残差特征图进行至少一种图像处理,得到中间特征图;
160.对中间特征图进行激活处理和卷积映射处理,得到第一特征图,以及对第三残差特征图进行激活处理和卷积映射处理,得到第二特征图,其中,目标特征图包括第一特征图
和第二特征图。
161.一种可能的实现方式中,处理模块12具体用于:
162.通过特征金字塔网络对第三残差特征图进行至少一种图像处理,得到第三中间特征图;
163.通过特征金字塔网络对第二残差特征图和第三中间特征图进行处理,得到第二中间特征图;
164.通过特征金字塔网络对第一残差特征图和第二中间特征图进行处理,得到第一中间特征图;
165.其中,中间特征图包括第一中间特征图、第二中间特征图和第三中间特征图。
166.一种可能的实现方式中,处理模块12具体用于:
167.对第一中间特征图进行卷积映射处理,得到第一子特征图;
168.对第二中间特征图进行卷积映射处理,得到第二子特征图;
169.对第三中间特征图进行激活处理和卷积映射处理,得到第三子特征图;
170.其中,第一特征图包括第一子特征图、第二子特征图和第三子特征图。
171.一种可能的实现方式中,处理模块12具体用于:
172.对第三残差特征图进行卷积映射处理,得到第四子特征图;
173.对第四子特征图进行激活处理和卷积映射处理,得到第五子特征图;
174.其中,第二特征图包括第四子特征图和第五子特征图。
175.本实施例提供的目标检测的装置,可用于执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
176.本技术实施例提供一种电子设备的结构示意图,请参见图6,该电子设备20可以包括处理器21和存储器22。示例性地,处理器21、存储器22,各部分之间通过总线23相互连接。
177.存储器22存储计算机执行指令;
178.处理器21执行存储器22存储的计算机执行指令,使得电子设备执行如上述的目标检测的方法。
179.应理解,上述处理器21可以是中央处理单元(英文:central processing unit,简称:cpu),还可以是其他通用处理器、数字信号处理器(英文:digital signal processor,简称:dsp)、专用集成电路(英文:application specific integrated circuit,简称:asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。存储器22可能包含高速随机存取存储器(英文:random access memory,简称:ram),也可能还包括非易失性存储器(英文:non-volatile memory,简称:nvm),例如至少一个磁盘存储器,还可以为u盘、移动硬盘、只读存储器、磁盘或光盘等。
180.本技术实施例相应还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现的目标检测的方法。
181.本技术实施例相应还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现目标检测的方法。
182.需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户
授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
183.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求书指出。
184.应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求书来限制。

技术特征:
1.一种目标检测的方法,其特征在于,包括:获取待检测图片,所述待检测图片中包括目标文本;对所述待检测图片进行特征提取处理,得到目标特征图,所述目标特征图中包括所述待检测图片中的图像特征;通过预设模型对所述目标特征图进行处理,得到目标图片,所述目标图片中包括所述目标文本的指示标志,所述指示标志用于指示所述目标文本。2.根据权利要求1所述的方法,其特征在于,对所述待检测图片进行特征提取处理,得到目标特征图,包括:通过残差网络对所述待检测图片进行特征提取处理,得到残差特征图,所述残差特征图中包括第一残差特征图、第二残差特征图和第三残差特征图;通过特征金字塔网络对所述残差特征图进行至少一种图像处理,得到所述目标特征图,所述至少一种图像处理包括:特征提取处理、特征融合处理以及卷积映射处理。3.根据权利要求2所述的方法,其特征在于,通过残差网络对所述待检测图片进行特征提取处理,得到残差特征图,包括:通过所述残差网络的至少一个第一残差层对所述待检测图片进行特征提取处理,得到第一残差特征图;通过所述残差网络的第二残差层对所述第一残差特征图进行处理,得到第二残差特征图;通过所述残差网络的第三残差层对所述第二残差特征图进行处理,得到第三残差特征图。4.根据权利要求2或3所述的方法,其特征在于,使用特征金字塔网络对所述残差特征图进行综合处理,得到目标特征图,包括:通过所述特征金字塔网络对所述第一残差特征图、所述第二残差特征图和所述第三残差特征图进行所述至少一种图像处理,得到中间特征图;对所述中间特征图进行激活处理和卷积映射处理,得到第一特征图,以及对所述第三残差特征图进行激活处理和卷积映射处理,得到第二特征图,其中,所述目标特征图包括所述第一特征图和所述第二特征图。5.根据权利要求4所述的方法,其特征在于,通过所述特征金字塔网络对所述第一残差特征图、所述第二残差特征图和所述第三残差特征图进行所述至少一种图像处理,得到中间特征图,包括:通过所述特征金字塔网络对所述第三残差特征图进行所述至少一种图像处理,得到第三中间特征图;通过所述特征金字塔网络对所述第二残差特征图和所述第三中间特征图进行处理,得到第二中间特征图;通过所述特征金字塔网络对所述第一残差特征图和所述第二中间特征图进行处理,得到第一中间特征图;其中,所述中间特征图包括所述第一中间特征图、所述第二中间特征图和所述第三中间特征图。6.根据权利要求5所述的方法,其特征在于,对所述中间特征图进行激活处理和卷积映
射处理,得到第一特征图,包括:对所述第一中间特征图进行卷积映射处理,得到第一子特征图;对所述第二中间特征图进行卷积映射处理,得到第二子特征图;对所述第三中间特征图进行激活处理和卷积映射处理,得到第三子特征图;其中,所述第一特征图包括所述第一子特征图、所述第二子特征图和所述第三子特征图。7.根据权利要求4或5所述的方法,其特征在于,对所述第三残差特征图进行激活处理和卷积映射处理,得到第二特征图,包括:对所述第三残差特征图进行卷积映射处理,得到第四子特征图;对所述第四子特征图进行激活处理和卷积映射处理,得到第五子特征图;其中,所述第二特征图包括所述第四子特征图和所述第五子特征图。8.一种目标检测的装置,其特征在于,包括:获取模块,用于获取待检测图片,所述待检测图片中包括目标文本;处理模块,用于对所述待检测图片进行特征提取处理,得到目标特征图,所述目标特征图中包括所述待检测图片中的图像特征;处理模块,还用于通过预设模型对所述目标特征图进行处理,得到目标图片,所述目标图片中包括所述目标文本的指示标志,所述指示标志用于指示所述目标文本。9.一种电子设备,其特征在于,包括:处理器和存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,使得所述电子设备执行权利要求1至7中任一项所述的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至7任一项所述的一种目标检测的方法。

技术总结
本申请提供一种目标检测的方法、装置、设备及存储介质。该方法包括:获取待检测图片,所述待检测图片中包括目标文本;对所述待检测图片进行特征提取处理,得到目标特征图,所述目标特征图中包括所述待检测图片中的图像特征;通过预设模型对所述目标特征图进行处理,得到目标图片,所述目标图片中包括所述目标文本的指示标志,所述指示标志用于指示所述目标文本。本申请的方法,解决了OCR技术的识别文本的效率低,用户体验感差的问题。用户体验感差的问题。用户体验感差的问题。


技术研发人员:刘然 王永强 李如旭 李钰
受保护的技术使用者:中国工商银行股份有限公司
技术研发日:2023.05.24
技术公布日:2023/8/4
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐