证照信息识别方法及装置、模型训练方法及装置与流程
未命名
10-19
阅读:129
评论:0
1.本技术涉及图像处理技术领域,具体涉及一种证照信息识别方法及装置、模型训练方法及装置、电子设备及存储介质。
背景技术:
2.在数字政务数据处理中,对证照信息识别是关键任务之一,它能够加速证照审核的审批速度,提高工作效率。然而,随着证照种类的不断增多,例如身份证、驾驶证、营业执照、医疗证明等,并且每种类型的证照内容设计涉及如工商、医疗、建筑、运输等很多领域,证照内容杂乱繁多,有时证照印刷内容还可能出现偏移,而证照审核准确率要求高、速度要求快。
3.因此,如何实现证照信息快速、精准识别,成为亟待解决的技术问题。
技术实现要素:
4.本技术的目的是针对上述现有技术的不足提出的一种证照信息识别方法及装置、模型训练方法及装置、电子设备及存储介质,该目的是通过以下技术方案实现的。
5.本技术的第一方面提出了一种模型训练方法,所述方法包括:
6.获取在已收集证照图上标注的字段样本和字段值样本;
7.根据所述字段值样本生成字段值模拟样本;
8.将所述字段样本、所述字段值样本以及所述字段值模拟样本添加到训练集;
9.利用所述训练集训练预设的预训练模型,得到用于识别证照信息的模型。
10.基于上述第一方面所述的模型训练方法,具有如下有益效果或优点:
11.考虑到应用场景中没有足量的真实图片标注数据作为证照识别模型的训练数据,本技术通过对有限数量的不同种类证照进行标注,获取标注获得的字段样本和字段值样本,然后再利用这些字段值样本进行数据生成,获得字段值模拟样本,从而通过证照标注和样本生成,仅需要几张证照就能获得批量规模的训练集,满足需要大量数据训练模型的需求,实现不同种类证照识别的覆盖,并且经过大量数据训练得到的模型,可以满足快速、精准识别证照的需求。
12.本技术的第二方面提出了一种证照信息识别方法,所述方法包括:
13.在待识别证照图中提取至少一组文本内容和各组文本内容在所述待识别证照图中的文本位置;
14.将所述待识别证照图的证照类别、提取的各组文本内容和相应的文本位置输入由第一方面所述方法训练得到的模型中;
15.通过所述模型根据各组文本内容和相应的文本位置,识别属于所述证照类别包含的信息类型的文本内容并输出。
16.基于上述第二方面所述的证照信息识别方法,至少具有如下有益效果或优点:
17.通过提取待识别证照图中的所有文本内容和相应的文本位置输入到预先训练得
到的模型中,同时将待识别证照图的证照类别也输入到模型中,由模型根据输入的文本内容和相应的文本位置,预测属于所述证照类别包含的信息类型的文本内容,从而实现证照信息快速、准确识别目的。
18.本技术的第三方面提出了一种模型训练装置,所述装置包括:
19.标注获取单元,用于获取在已收集证照图上标注的字段样本和字段值样本;
20.模拟生成单元,用于根据所述字段值样本生成字段值模拟样本;
21.数据集添加单元,用于将所述字段样本、所述字段值样本以及所述字段值模拟样本添加到训练集;
22.训练单元,用于利用所述训练集训练预设的预训练模型,得到用于识别证照信息的模型。
23.本技术的第四方面提出了证照信息识别装置,所述装置包括:
24.文本识别单元,用于在待识别证照图中提取至少一组文本内容和各组文本内容在所述待识别证照图中的文本位置;
25.数据输入单元,用于将所述待识别证照图的证照类别、提取的各组文本内容和相应的文本位置输入由第一方面所述方法训练得到的模型中;
26.模型识别单元,用于通过所述模型根据各组文本内容和相应的文本位置,识别属于所述证照类别包含的信息类型的文本内容并输出。
27.本技术的第五方面提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序以实现如上述第一方面或第二方面所述方法的步骤。
28.本技术的第六方面提出了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行以实现如上述第一方面或第二方面所述方法的步骤。
29.上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,可依照说明书的内容予以实施,并且为了让本技术的上述和其他目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。
附图说明
30.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
31.图1为根据一示例性实施例示出的一种模型训练方法的实施例流程图;
32.图2为根据一示例性实施例示出的一种证照标注结果示意图;
33.图3为根据一示例性实施例示出的一种证照信息识别方法的实施例流程图;
34.图4为根据一示例性实施例示出的一种证照图ocr识别结果示意图;
35.图5为根据一示例性实施例示出的一种用于实现证照识别的模型结构示意图;
36.图6为根据一示例性实施例示出的一种模型训练装置的结构示意图
37.图7为根据一示例性实施例示出的一种证照信息识别装置的结构示意图;
38.图8为根据一示例性实施例示出的一种电子设备的硬件结构示意图;
39.图9为根据一示例性实施例示出的一种存储介质的结构示意图。
具体实施方式
40.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
41.在本技术使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术。在本技术和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
42.应当理解,尽管在本技术可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本技术范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
43.如前所述,随着证照种类的不断增多,并且每种证照的内容设计杂乱繁多,例如有些证照中待识别的证照信息多达32个,有些证照印刷内容还可能出现偏移,在现有技术提供的证照识别接口中,仅支持部分常用证照的识别,对证照种类的覆盖程度比较低,且部分证照的识别准确率也比较差,这使得对证照识别算法的设计更加具有挑战性。
44.有鉴于此,本技术提出一种模型训练方法和基于深度学习模型的证照信息识别方法,考虑到应用场景中没有足量的真实图片标注数据作为证照识别模型的训练数据,通过对有限数量的不同种类证照进行标注,获取标注获得的字段样本和字段值样本,然后再利用这些字段值样本进行数据生成,获得字段值模拟样本,从而利用由字段样本、字段值样本、字段值模拟样本组成的训练集训练预训练模型,得到证照识别模型。这样通过证照标注和样本生成,仅需要几张证照就能获得批量规模的训练集,满足需要大量数据训练模型的需求,实现不同种类证照识别的覆盖。
45.在模型应用时,收到待识别证照图后,通过提取待识别证照图中的所有文本内容和相应的文本位置输入到前述训练得到的模型中,同时将待识别证照图的证照类别也输入到模型中,由该模型根据输入的文本内容和相应的文本位置,预测属于该证照类别包含的信息类型的文本内容,从而实现证照信息的快速识别,并且经过大量数据训练得到的模型,也可以满足精准识别证照的需求。
46.下面以具体的实施例对本技术的技术方案以及本技术的技术方案如何解决前述技术问题进行详细说明。所列举的若干具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。以下将结合附图,对本技术的实施例进行详细描述。
47.实施例一:
48.图1为根据一示例性实施例示出的一种模型训练方法的实施例流程图,该方法包括如下步骤:
49.步骤101:获取在已收集证照图上标注的字段样本和字段值样本。
50.其中,已收集证照图可以包含多种证照的图片,例如道路运输营业执照、驾驶证、
身份证、行驶证等种类。
51.可选的,可以通过对一种证照的多张证照图进行字段样本和字段值样本的标注,以达到增强后续样本生成鲁棒性的目的。
52.在本技术实施例中,字段样本的表示信息包含字段文本、字段文本在证照图中的字段位置,该字段文本是某种证照中固定存在的文本。字段值样本的表示信息包含字段值、该字段值所属的信息类型、该字段值在证照图上的信息位置,该字段值是待识别的证照关键信息。
53.参见图2所示的证照图标注结果,标注框包含实线框和虚线框,每一个实线框对应一个字段样本,每一个虚线框对应一个字段值样本,其中,使用实线框标注的“医疗机构执业许可证”、“机构名称”、“法定代表人”、“地址”、“主要负责人”、“诊疗科目”、“登记号”、“有效期限”等,均属于固定存在的文本;使用虚线框标注的“***社区服务中心”、“卢**”、“蒋**”、“123x34y69”等,均属于待识别的证照关键信息。
54.进一步地,字段值所属的信息类型是其表示的语义类型。例如,“卢**”和“蒋**”的信息类型是姓名;“***社区服务中心”的信息类型是企业名;“123x34y69”的信息类型是字符串。
55.字段文本的字段位置和字段值的信息位置均是像素位置,在具体实施时,可以使用实线框的斜对角顶点像素坐标表示字段位置,使用虚线框的斜对角顶点像素坐标表示字段值的信息位置,考虑到证照拍摄条件差异,会导致同一内容的像素位置不同,因此可以将实线框的斜对角顶点像素坐标相对整个证照图尺寸的比例来表示字段位置,同样地,使用虚线框的斜对角顶点像素坐标相对整个证照图尺寸的比例来表示字段值位置。通过使用像素坐标与证照图尺寸的比例表示位置,可以避免证照拍摄条件的差异引起的位置变化。
56.举例来说,以证照图的左上角顶点为原点,水平方向为横轴,垂直方向为纵轴建立像素坐标系,假设某一字段文本的实线框的左上角顶点像素坐标是(116,202)、右下角顶点像素坐标是(194,199),证照图尺寸为1024*1024,那么该字段位置的表示为(116/1024,202/1024)、(194/1024,199/1024)。
57.基于上述描述可知,通过标注证照图获得的字段样本和字段值样本相当于将证照中包含的所有文本内容进行了分类,一种类别是作为固定存在字段的字段样本,另一种类别是作为待识别信息的字段值样本。
58.步骤102:根据该字段值样本生成字段值模拟样本。
59.其中,在进行模拟数据生成时,由于字段样本中的字段文本是证照中固定存在的文本,字段样本中的字段位置在证照中的印刷位置通常也是固定不变的,并且本技术任务是识别出证照中的字段值,因此字段样本可以不进行模拟生成来扩充,而是字段值样本需要进行模拟生成来扩充训练数据,使模型能够得到充足训练。
60.在一可选实施例中,如前所述,字段值样本包含字段值、该字段值所属的信息类型、该字段值在证照图上的信息位置,因此可以根据字段值样本中字段值所属的信息类型生成预设数量的模拟字段值,然后根据字段值样本中的信息位置,为生成的各个模拟字段值生成相应的模拟信息位置,从而将每个模拟字段值和相应的模拟信息位置即可作为一个字段值模拟样本。
61.其中,通过信息类型进行模拟生成,可以使得模拟字段值与真实信息尽量相似,保
证模拟生成数据的真实性,假设信息类型是身份识别号,那么生成的模拟字段值均是不同的身份识别号。
62.对于模拟字段值的生成方式,在一个例子中,可以在字段值所属信息类型的官方领域的知识数据集中寻找,例如高等院校毕业证书中的专业,可以在教育领域的专业数据集中寻找各种专业名称。在另一个例子中,还可以根据字段值所属信息类型对应的组成规则进行mock构建,例如模仿生成车牌号、身份识别号等。
63.在一种可能实现方式中,对于各个模拟字段值的模拟信息位置生成过程,可以通过对字段值的信息位置进行随机扰动,为各个模拟字段值生成相对该信息位置发生偏移的模拟信息位置。
64.其中,在证照的真实样本中,经常存在文本印刷位置偏差的情况,为了保证模拟信息位置的真实性,在生成阶段通过增加随机扰动,使得模拟信息位置与真实位置尽量相似,保证模拟生成数据的真实性。
65.可选的,对信息位置的随机扰动方式可以包括:控制文本换行、设置字体大小、控制图片平移、控制图片缩放、控制文本偏移、为图片添加水印、文本框随机断裂、文本框随机拼接中的一种或多种组合。
66.对于控制文本换行是指,通过控制字段值换行,使得信息位置发生变化,将变化后的信息位置作为模拟信息位置。对于控制文本偏移是指,控制字段值发生偏移,使得信息位置也偏移,从而将偏移后的信息位置作为模拟信息位置。对于设置字体大小是指,通过改变字段值的字体大小,使得信息位置发生改变,将改变后的信息位置作为模拟信息位置。对于控制图片平移是指,通过对证照进行平移处理,以改变证照中字段值的信息位置,从而将平移处理后的证照中字段值的信息位置作为模拟信息位置,对于控制图片缩放是指,通过对证照进行缩放处理,以改变证照中字段值的信息位置,从而将缩放处理后的证照中字段值的信息位置作为模拟信息位置。对于为图片添加水印是指,通过对证照添加水印,然后识别添加水印后的证照中字段值的信息位置作为模拟信息位置。对于文本框随机断裂是指,通过将证照中识别得到的字段值的文本框随机切分开,将切分后的文本框的位置作为字段值的模拟信息位置。对于文本框随机拼接是指,将证照中识别得到的字段值的文本框与其他相邻文本框进行拼接,将拼接后的文本框的位置作为字段值的模拟信息位置。
67.需要说明的是,为了验证模拟生成的模拟字段值和模拟信息位置的正确性,可以将根据模拟字段值和模拟信息位置生成证照图,从而通过查看生成的证照图便可验证模拟数据的正确性。
68.步骤103:将字段样本、字段值样本以及字段值模拟样本添加到训练集。
69.其中,虽然应用场景中实际证照图的标注数据比较少,但是由于字段值模拟样本可以无限制的模拟生成,并且模型输入无需提供证照图,因此通过字段值模拟样本可以扩充足量的训练数据,提升模型预测准确率。
70.步骤104:利用该训练集训练预设的预训练模型,得到用于识别证照信息的模型。
71.至此,完成上述图1所示的模型训练流程,考虑到应用场景中没有足量的真实图片标注数据作为证照识别模型的训练数据,本技术通过对有限数量的不同种类证照进行标注,获取标注获得的字段样本和字段值样本,然后再利用这些字段值样本进行数据生成,获得字段值模拟样本,从而通过证照标注和样本生成,仅需要几张证照就能获得批量规模的
训练集,满足需要大量数据训练模型的需求,实现不同种类证照识别的覆盖,并且经过大量数据训练得到的模型,可以满足快速、精准识别证照的需求。
72.实施例二:
73.基于上述图1所示的模型训练方法基础上,图3为根据一示例性实施例示出的一种证照信息识别方法的实施例流程图,在本技术实施例中,通过使用上述图1所示模型训练方法获得的模型,作为证照识别模型进行证照信息的识别。
74.如图3所示,该方法包括如下步骤:
75.步骤301:在待识别证照图中提取至少一组文本内容和各组文本内容在待识别证照图中的文本位置。
76.在步骤301中,至少一组文本内容是待识别证照图中包含的所有文本,在这些文本内容组中既包含有证照中的字段文本,也包含有字段文本的关键信息。
77.在一可选实施方式中,可以通过使用ocr(optical character recognition,光学字符识别)方式获取待识别证照图中的文本内容和文本位置。
78.以待识别证照图是一张道路运输证为例,如图4所示,道路运输证的ocr识别结果,每一个ocr box框即为一组文本内容,由图4可以看出,通过ocr方式可以将待识别证照图中包含的所有文本内容均识别出来,以用于后续从这些文本内容中进行关键信息抽取。
79.在具体实施时,每组文本内容的文本位置也可以使用ocr box框的斜对角顶点像素坐标相对整个待识别证照图尺寸的比例来表示。
80.举例来说,假设ocr box框的左上角顶点像素坐标是(254,201)、右下角顶点像素坐标是(293,211),待识别证照图的尺寸为1024*768,那么该字段位置的表示为(254/1024,201/768)、(293/1024,211/768)。
81.需要说明的是,在提取待识别证照图中包含的文本内容之前,可以对待识别证照图进行预处理,以将背景信息裁剪掉,避免影响文本内容提取的准确性。
82.可选的,可以通过对待识别证照图进行目标区域检测,并将目标区域之外的其他区域裁减掉,然后再对裁剪后的待识别证照图进行方向校正,以得到易于提取文本内容的待识别证照图。
83.步骤302:将待识别证照图的证照类别、提取的各组文本内容和相应的文本位置输入已训练的模型中。
84.其中,证照类别用于指导模型输出与该证照类别对应种类的预测结果,以确保预测结果不受其他证照类别对应种类的预测结果的影响,关于证照类型的指导过程可以参见下述步骤的相关描述。
85.在步骤302中,已训练的模型为由上述图1所示实施例中的模型训练方法训练得到的模型。
86.步骤303:通过该模型根据各组文本内容和相应的文本位置,识别属于该证照类别包含的信息类型的文本内容并输出。
87.在一可选实施例中,参见图5所示的模型结构包括信息提取网络和分类网络,模型识别过程是:
88.首先,通过信息提取网络根据各组文本内容和相应的文本位置,从各组文本内容中提取属于关键信息的文本内容,并将提取的文本内容输出至分类网络。
89.其中,由于这些文本内容组中既包含有证照中固定存在的字段文本,也包含有证照的关键信息,因此需要由信息提取网络从这些文本内容组中抽取出属于关键信息的文本内容。由此可见,信息提取网络是用于实现关键信息抽取任务的网络模型,并且信息提取网络的输入特征只需使用文本和位置信息。
90.如下述表1所示的各种实现关键信息抽取任务的模型的输入对比,layoutlm模型、layoutlmv2模型、layoutxlm模型、layoutlmv3模型在输入特征中均涉及了文本、位置、图像三种特征,考虑到证照识别场景的具体情况,在实际应用中没有足量的真实图片标注数据作为该类模型的训练数据,特别是由于要使用到真实图片,模拟数据生成方法不能应用在该类模型上。相比之下,lilt模型、layoutreader模型在输入特征中只需使用文本和位置信息,这类信息可以通过程序手段大量模拟,造出足量的训练数据,同时考虑到证照涉及到中英文混合的多语言情况,因此可以选择lilt模型作为最终的信息提取网络。
[0091][0092][0093]
表1
[0094]
接着,通过分类网络根据该证照类别包含的信息类型确定输入的文本内容所属类型。
[0095]
其中,在使用信息提取网络将各组文本内容区分是关键信息还是固定字段之后,通过分类网络对属于关键信息的文本内容继续进行分类,以实现由证照类别指导模型输出与该证照类别对应种类的预测结果。
[0096]
可选的,分类网络可以包括全连接层和激活层,其处理过程包括:先通过全连接层对输入的文本内容预测不同信息类型的概率,再通过激活层从全连接层预测的概率中,获取属于该证照类别包含的信息类型的概率,并从获取的概率中选取最大值对应的信息类型作为文本内容所属类型。
[0097]
其中,证照类别包含的信息类型是待识别信息的信息类型,这些信息类型可以预先设置。由图2所示的医疗机构经营许可证这一类别,待识别信息的信息类型包含:企业名称、姓名、地址、日期、一定位数的登记号等。通过获取属于证照类别包含的信息类型的概率确定文本内容最终所属类型,可以确保预测结果不受其他证照类别包含信息类型的影响。
[0098]
举例说明,假设全连接层预测得到的1000种信息类型的概率,而待识别证照的证照类别包含10种信息类型,因此可以从这1000种信息类型的概率选10种信息类型的概率来确定文本内容最终所属类型。
[0099]
值得注意的是,由于在模型应用过程中,输入模型的证照类别是用于指导分类网
络的激活层从全连接层预测输出的概率中,获取属于该证照类别包含的信息类型的概率,因此证照类别并不影响模型训练过程中的参数优化,在训练模型过程中,无需输入证照类别。
[0100]
至此,完成上述图3所示的证照信息识别流程,通过提取待识别证照图中的所有文本内容和相应的文本位置输入到预先训练得到的模型中,同时将待识别证照图的证照类别也输入到模型中,由模型根据输入的文本内容和相应的文本位置,预测属于所述证照类别包含的信息类型的文本内容,从而实现证照信息快速、准确识别目的。
[0101]
本技术实施例的执行主体可以是应用程序、服务、实例、软件形态的功能模块、虚拟机(virtual machine,vm)、容器或云服务器等,或者具有数据处理功能的硬件设备(如服务器或终端设备)或硬件芯片(如cpu、gpu、fpga、npu、ai加速卡或dpu)等。实现模型训练或证照信息识别的装置可以部署在提供相应服务的应用方的计算设备或提供算力、存储和网络资源的云计算平台上,云计算平台对外提供服务的模式可以是iaas(infrastructure as a service,基础设施即服务)、paas(platform as a service,平台即服务)、saas(software as a service,软件即服务)或daas(data as a service,数据即服务)。
[0102]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
[0103]
与前述模型训练方法的实施例和证照信息识别方法的实施例相对应,本技术还提供了模型训练装置的实施例和证照信息识别装置的实施例。
[0104]
图6为根据一示例性实施例示出的一种模型训练装置的结构示意图,该装置用于执行上述图1所示实施例提供的模型训练方法,如图6所示,该模型训练装置包括:
[0105]
标注获取单元610,用于获取在已收集证照图上标注的字段样本和字段值样本;
[0106]
模拟生成单元620,用于根据所述字段值样本生成字段值模拟样本;
[0107]
数据集添加单元630,用于将所述字段样本、所述字段值样本以及所述字段值模拟样本添加到训练集;
[0108]
训练单元640,用于利用所述训练集训练预设的预训练模型,得到用于识别证照信息的模型。
[0109]
在一种可能实现方式中,所述字段值样本包含字段值、所述字段值所属的信息类型、所述字段值在证照图上的信息位置;所述模拟生成单元620,具体用于根据所述字段值所属的信息类型,生成预设数量的模拟字段值;根据所述信息位置,为各个所述模拟字段值生成相应的模拟信息位置;将每个所述模拟字段值和相应的模拟信息位置作为一个字段值模拟样本。
[0110]
在一种可能实现方式中,所述模拟生成单元620,具体用于在根据所述信息位置,为各个所述模拟字段值生成相应的模拟信息位置过程中,通过对所述信息位置进行随机扰动,为各个所述模拟字段值生成相对所述信息位置发生偏移的模拟信息位置。
[0111]
在一种可能实现方式中,所述随机扰动包括控制文本换行、设置字体大小、控制图片平移、控制图片缩放、控制文本偏移、为图片添加水印、文本框随机断裂、文本框随机拼接
中的一种或多种组合。
[0112]
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
[0113]
图7为根据一示例性实施例示出的一种证照信息识别装置的结构示意图,该装置用于执行上述图3所示实施例提供的证照信息识别方法,如图7所示,该证照信息识别装置包括:
[0114]
文本识别单元710,用于在待识别证照图中提取至少一组文本内容和各组文本内容在所述待识别证照图中的文本位置;
[0115]
数据输入单元720,用于将所述待识别证照图的证照类别、提取的各组文本内容和相应的文本位置输入上述模型训练方法训练得到的模型中;
[0116]
模型识别单元730,用于通过所述模型根据各组文本内容和相应的文本位置,识别属于所述证照类别包含的信息类型的文本内容并输出。
[0117]
在一种可能实现方式中,所述模型包括信息提取网络和分类网络;所述模型识别单元730,具体用于通过所述信息提取网络根据各组文本内容和相应的文本位置,从各组文本内容中提取属于关键信息的文本内容,将提取的文本内容输出至所述分类网络;通过所述分类网络根据所述证照类别包含的信息类型确定输入的文本内容所属类型。
[0118]
在一种可能实现方式中,所述分类网络包括全连接层和激活层;所述模型识别单元730,具体用于在通过所述分类网络根据所述证照类别包含的信息类型确定输入的文本内容所属类型过程中,通过所述全连接层对输入的文本内容预测不同信息类型的概率;通过所述激活层从所述全连接层预测的概率中,获取所述证照类别包含的信息类型的概率,从获取的概率中选取最大值对应的信息类型作为所述文本内容所属类型。
[0119]
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本技术方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0120]
本技术实施方式还提供一种与前述实施方式所提供的证照信息识别方法对应的电子设备,以执行上述证照信息识别方法。
[0121]
图8为根据一示例性实施例示出的一种电子设备的硬件结构图,该电子设备包括:通信接口601、处理器602、存储器603和总线604;其中,通信接口601、处理器602和存储器603通过总线604完成相互间的通信。处理器602通过读取并执行存储器603中与证照信息识别方法的控制逻辑对应的机器可执行指令,可执行上文描述的证照信息识别方法,该方法的具体内容参见上述实施例,此处不再累述。
[0122]
本技术中提到的存储器603可以是任何电子、磁性、光学或其它物理存储装置,可以包含存储信息,如可执行指令、数据等等。具体地,存储器603可以是ram(random access memory,随机存取存储器)、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。通过至少一个通信接口601(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、
本地网、城域网等。
[0123]
总线604可以是isa总线、pci总线或eisa总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器603用于存储程序,所述处理器602在接收到执行指令后,执行所述程序。
[0124]
处理器602可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器602中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器602可以是通用处理器,包括网络处理器(network processor,简称np)、数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。
[0125]
本技术实施例提供的电子设备与本技术实施例提供的证照信息识别方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
[0126]
本技术实施方式还提供一种与前述实施方式所提供的证照信息识别方法对应的计算机可读存储介质,请参考图9所示,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的证照信息识别方法。
[0127]
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
[0128]
本技术的上述实施例提供的计算机可读存储介质与本技术实施例提供的证照信息识别方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
[0129]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求指出。
[0130]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0131]
以上所述仅为本技术的较佳实施例而已,并不用以限制本技术,凡在本技术的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本技术保护的范围之内。
技术特征:
1.一种模型训练方法,其特征在于,所述方法包括:获取在已收集证照图上标注的字段样本和字段值样本;根据所述字段值样本生成字段值模拟样本;将所述字段样本、所述字段值样本以及所述字段值模拟样本添加到训练集;利用所述训练集训练预设的预训练模型,得到用于识别证照信息的模型。2.根据权利要求1所述的方法,其特征在于,所述字段值样本包含字段值、所述字段值所属的信息类型、所述字段值在证照图上的信息位置;所述根据所述字段值样本生成字段值模拟样本,包括:根据所述字段值所属的信息类型,生成预设数量的模拟字段值;根据所述信息位置,为各个所述模拟字段值生成相应的模拟信息位置;将每个所述模拟字段值和相应的模拟信息位置作为一个字段值模拟样本。3.根据权利要求2所述的方法,其特征在于,所述根据所述信息位置,为各个所述模拟字段值生成相应的模拟信息位置,包括:通过对所述信息位置进行随机扰动,为各个所述模拟字段值生成相对所述信息位置发生偏移的模拟信息位置。4.根据权利要求3所述的方法,其特征在于,所述随机扰动包括控制文本换行、设置字体大小、控制图片平移、控制图片缩放、控制文本偏移、为图片添加水印、文本框随机断裂、文本框随机拼接中的一种或多种组合。5.一种证照信息识别方法,其特征在于,所述方法包括:在待识别证照图中提取至少一组文本内容和各组文本内容在所述待识别证照图中的文本位置;将所述待识别证照图的证照类别、提取的各组文本内容和相应的文本位置输入权利要求1-4任一项方法训练得到的模型中;通过所述模型根据各组文本内容和相应的文本位置,识别属于所述证照类别包含的信息类型的文本内容并输出。6.根据权利要求5所述的方法,其特征在于,所述模型包括信息提取网络和分类网络;所述通过所述模型根据各组文本内容和相应的文本位置,识别属于所述证照类别包含的信息类型的文本内容,包括:通过所述信息提取网络根据各组文本内容和相应的文本位置,从各组文本内容中提取属于关键信息的文本内容,将提取的文本内容输出至所述分类网络;通过所述分类网络根据所述证照类别包含的信息类型确定输入的文本内容所属类型。7.根据权利要求6所述的方法,其特征在于,所述分类网络包括全连接层和激活层;所述通过所述分类网络根据所述证照类别包含的信息类型确定输入的文本内容所属类型,包括:通过所述全连接层对输入的文本内容预测不同信息类型的概率;通过所述激活层从所述全连接层预测的概率中,获取所述证照类别包含的信息类型的概率,从获取的概率中选取最大值对应的信息类型作为所述文本内容所属类型。8.一种模型训练装置,其特征在于,所述装置包括:标注获取单元,用于获取在已收集证照图上标注的字段样本和字段值样本;
模拟生成单元,用于根据所述字段值样本生成字段值模拟样本;数据集添加单元,用于将所述字段样本、所述字段值样本以及所述字段值模拟样本添加到训练集;训练单元,用于利用所述训练集训练预设的预训练模型,得到用于识别证照信息的模型。9.一种证照信息识别装置,其特征在于,所述装置包括:文本识别单元,用于在待识别证照图中提取至少一组文本内容和各组文本内容在所述待识别证照图中的文本位置;数据输入单元,用于将所述待识别证照图的证照类别、提取的各组文本内容和相应的文本位置输入权利要求1-4任一项方法训练得到的模型中;模型识别单元,用于通过所述模型根据各组文本内容和相应的文本位置,识别属于所述证照类别包含的信息类型的文本内容并输出。10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序以实现如权利要求1-7任一项所述方法的步骤。11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行以实现如权利要求1-7任一项所述方法的步骤。
技术总结
本申请公开了一种证照信息识别方法及装置、模型训练方法及装置,识别方法包括:获取在已收集证照图上标注的字段样本和字段值样本;根据字段值样本生成字段值模拟样本;将字段样本、字段值样本以及字段值模拟样本添加到训练集;利用训练集训练预设的预训练模型,得到用于识别证照信息的模型。考虑到应用场景没有足量真实图片标注数据作为训练数据,通过对有限数量的不同种类证照进行标注,获取标注获得的字段样本和字段值样本,再利用这些字段值样本生成字段值模拟样本,从而仅需要几张证照就能获得批量规模的训练集,满足需要大量数据训练模型的需求,实现不同种类证照识别的覆盖,经过大量数据训练得到的模型可以精准识别证照。过大量数据训练得到的模型可以精准识别证照。过大量数据训练得到的模型可以精准识别证照。
技术研发人员:张佳男 李屾
受保护的技术使用者:阿里云计算有限公司
技术研发日:2023.06.02
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
