基于自合成的图像生成方法和系统与流程

未命名 08-22 阅读:99 评论:0


1.本技术涉及图像检测的领域,尤其涉及基于自合成的图像生成方法和系统。


背景技术:

2.当今,存在需要对用户提交的图像进行检测和验证的许多场景,例如对于各种平台上的客户注册,需要客户在线提交图像,从而需要对客户所提交的图像进行验证。诸如,在客户篡改图像(例如,使用photoshop软件等)的情况下,需要检测出这些经篡改的图像,以提前进行风险防控。
3.本公开针对但不限于上述诸多因素进行了改进。


技术实现要素:

4.本说明书的一个或多个实施例通过以下技术方案来实现其上述目的。
5.根据本公开的第一方面,提供了一种基于自合成的图像生成方法,包括:对原始图像进行目标检测以确定感兴趣目标的边界框;确定所述边界框内的ocr内容;计算出能够包含所述ocr内容的最小边界框;选择掩模区域,所述掩模区域在所述感兴趣目标的边界框之内并且包含所述最小边界框;对所述掩模区域进行图像增强;以及将经图像增强的所述掩模区域混合到所述原始图像中,以得到自合成的图像。
6.根据一实施例,所述图像增强包括空间域图像增强和/或频域图像增强。
7.根据另一实施例,所述掩模区域是随机地选择的。
8.根据又一实施例,所述原始图像是商户的门头图像。
9.根据又一实施例,所述感兴趣目标是图像中的门头。
10.根据又一实施例,所述原始图像是商户的营业执照的图像。
11.根据又一实施例,所述感兴趣目标是所述商户的名称、类型、法定代表人、经营范围中的至少一者。
12.根据又一实施例,该方法还包括使用所述自合成的图像来训练图像检测模型,其中所述图像检测模型用于检测图像的真实性。
13.根据本公开的第二方面,提供了一种基于自合成的图像生成系统,包括:目标检测模块,所述目标检测模块被配置成对原始图像进行目标检测以确定感兴趣目标的边界框;ocr模块,所述ocr模块被配置成确定所述边界框内的ocr内容,其中所述目标检测模块还被配置成计算出能够包含所述ocr内容的最小边界框;图像增强模块,所述图像增强模块被配置成选择掩模区域并对所述掩模区域进行图像增强,其中所述掩模区域在所述感兴趣目标的边界框之内并且包含所述最小边界框;以及图像合成模块,所述图像合成模块被配置成将经图像增强的所述掩模区域混合到所述原始图像中,以得到自合成的图像。
14.根据一实施例,所述图像增强包括空间域图像增强和/或频域图像增强。
15.根据另一实施例,所述掩模区域是随机地选择的。
16.根据又一实施例,所述原始图像是商户的门头图像。
17.根据又一实施例,所述感兴趣目标是图像中的门头。
18.根据又一实施例,所述原始图像是商户的营业执照的图像。
19.根据又一实施例,所述感兴趣目标是所述商户的名称、类型、法定代表人、经营范围中的至少一者。
20.根据又一实施例,所述自合成的图像被使用来训练图像检测模型,其中所述图像检测模型用于检测图像的真实性。
21.根据本公开的第三方面,提供了一种基于自合成的图像生成装置,包括:处理器;以及与所述处理器耦合的存储器,所述存储器存储有处理器可执行指令,所述指令在被所述处理器执行时使所述处理器执行根据本公开的第一方面所述的方法。
22.根据本公开的第四方面,提供了一种非瞬态处理器可读存储介质,包括处理器可执行指令,所述指令在被所述处理器执行时使所述处理器执行根据本公开的第一方面所述的方法。
23.本说明书一个或多个实施例能够实现以下技术效果中的一者或多者:
24.本公开的方法和系统能生成更真实且更符合真实场景的图像来用于训练图像检测模型,以提升图像检测模型的性能。本公开的方法和系统通过自合成的方式来生成的图像(例如,商户的门头图像、营业执照等等)更加真实,同时生成成本也更低,从而使得所生成的图像在作为训练数据对图像检测模型进行训练时的效果更好。通过对比实验发现,加入本公开的方法和系统所生成的图像来对图像检测模型进行训练会大大提升图像检测模型的性能。例如,在本公开一个具体实现中,采用7000张门头图像来生成自合成的图像对图像检测模型进行增强训练,使得auc从0.93提升至0.98,准确率95%下的召回率从0.61提升至0.82。此外,本公开的方法和系统还可以方便地泛化到任何其他合适的检测任务中。
附图说明
25.以上发明内容以及下面的具体实施方式在结合附图阅读时会得到更好的理解。需要说明的是,附图仅作为所请求保护的发明的示例。在附图中,相同的附图标记代表相同或类似的元素。
26.图1示出了根据常规方法的通过在门头图像上添加店名来对示例图像进行修改以生成经修改图像。
27.图2示出了根据常规方法的通过对门头图像做遮挡来对另一示例图像进行修改以生成经修改图像。
28.图3示出根据常规方法的了通过替换不同的门头图像来对又一示例图像进行修改以生成经修改图像。
29.图4示出根据本公开的一示例实施例的基于自合成的图像生成方法的示例流程图。
30.图5示出根据本公开的一实施例的所生成的自合成的图像的示意图。
31.图6示出根据本公开的一示例实施例的基于自合成的图像生成系统的示意性框图。
32.图7示出根据本公开的一示例实施例的基于自合成的图像生成装置的示例性框图。
具体实施方式
33.以下具体实施方式的内容足以使任何本领域技术人员了解本说明书的一个或多个实施例的技术内容并据以实施,且根据本说明书所揭露的说明书、权利要求及附图,本领域技术人员可轻易地理解本说明书的一个或多个实施例相关的目的及优点。
34.当今,存在需要对用户提交的图像进行检测和验证的许多场景,例如对于各种平台上的需要客户在线提交图像的客户注册请求,需要对客户所提交的图像进行验证。诸如,在客户篡改图像(例如,使用photoshop软件等)的情况下,需要检测出这些经篡改的图像,以提前进行风险防控。
35.发明人认识到,为了提升图像检测模型的性能,常见的图像篡改检测方法主要是针对图像检测模型的结构进行改进。在训练数据方面,常规方法通常对图像的感兴趣目标的区域做遮挡和/或替换成不同的图像来做增强以生成图像样本来用于训练图像检测模型,以提升图像检测模型的性能。例如,对于商户门头图像而言,常规方法主要是对门头图像做遮挡、在门头图像上加店名以及替换不同的门头图像来生成用于增强图像检测模型的性能的图像样本。例如,图1-3分别示出了使用常规方式所生成的图像的示意图。例如,图1示出了根据常规方法的通过在门头图像上添加店名来对示例图像进行修改以生成经修改图像;图2示出了根据常规方法的通过对门头图像做遮挡来对另一示例图像进行修改以生成经修改图像;以及图3示出根据常规方法的了通过替换不同的门头图像来对又一示例图像进行修改以生成经修改图像。
36.然而,用上述常规方法生成的经修改图像的质量非常糟糕,很容易就能被区分开(例如,从图1-3中可以明显看出修改痕迹);并且上述常规方法与真实场景生成的方式差别很大,所以使用如此生成的经修改图像来对图像检测模型进行训练对于图像检测模型的性能提升帮助不大。
37.为此,本公开提出了能生成更真实且更符合真实场景的图像来用于训练图像检测模型,以提升图像检测模型的性能。本公开的方法和系统通过自合成的方式来生成的图像(例如,商户的门头图像、营业执照等等)更加真实,同时生成成本也更低,从而使得所生成的图像在作为训练数据对图像检测模型进行训练时的效果更好。通过对比实验发现,加入本公开的方法和系统所生成的图像来对图像检测模型进行训练会大大提升图像检测模型的性能。例如,在本公开一个具体实现中,采用7000张门头图像来生成自合成的图像对图像检测模型进行增强训练,使得auc从0.93提升至0.98,准确率95%下的召回率从0.61提升至0.82。此外,本公开的方法和系统还可以方便地泛化到任何其他合适的检测任务中。
38.以下结合附图阐述的详细描述旨在作为各种配置的描述,而无意表示可实践本文中所描述的概念的仅有的配置。本详细描述包括具体细节以提供对各种概念的透彻理解。然而,对于本领域技术人员将显而易见的是,没有这些具体细节也可实践这些概念。
39.参考图4,其示出了根据本公开的一示例实施例的基于自合成的图像生成方法400的示例流程图。
40.如图4所示,方法400可包括在框410,对原始图像进行目标检测以确定感兴趣目标的边界框。
41.在本公开的一实施例中,将明白,方法400所生成的图像要被用于训练图像检测模型,以使得经训练的图像检测模型能够检出所输入图像是否存在篡改和/或修改(例如,使
用photoshop等图像修改软件对图像做的修改)。因此,图像检测模型所要检测和/或验证的输入图像是取决于应用场景的。由此,用来生成自合成的图像的原始图像也是取决于应用场景的。
42.举例而言,在电商平台的商户准入阶段,需要对商户提交的门头图像、营业执照等凭证图片进行审核,以验证这些凭证的真实性。由此,在本公开的一实施例中,原始图像可以是商户的门头图像。在该实施例中,方法400中的感兴趣目标可以是图像中的商户的门头。在本公开的另一实施例中,原始图像可以是商户的营业执照的图像。在该实施例中,方法400中的感兴趣目标可以是商户的名称、类型、法定代表人、经营范围中的至少一者。
43.本领域技术人员将明白,边界框是目标检测中的常用术语,一般是将感兴趣目标包括在内的矩形框,在此不再赘述。
44.继续参考图4,方法400可包括在框420,确定感兴趣目标的边界框内的ocr内容。在本公开的一实施例中,方法400可以针对整个原始图像执行ocr(光学字符识别)以识别原始图像中包含的字符,并且随后基于在框410中确定的边界框来确定该边界框内存在的ocr内容(例如,字符)。或者方法400可以在框410确定边界框之后,仅针对该边界框所包含的图像区域执行ocr以确定感兴趣目标的边界框内的ocr内容。
45.接着,方法400可包括在框430,计算出能够包含所述ocr内容的最小边界框。换言之,在框430,方法400找出恰好能够将在框420中确定的ocr内容包括在内的最小边界框。
46.随后,方法400可包括在框440,选择掩模区域。在本公开的一实施例中,掩模区域可以在感兴趣目标的边界框之内并且包含在框430所确定的最小边界框。在本公开的优选实施例中,掩模区域的周界可以是比感兴趣目标的边界框小并且比在框430所确定的最小边界框大的矩形框。
47.在本公开的又一实施例中,掩模区域可以是随机地选择的。由此,方法400可以向所合成的图像提供随机性,使得其更适合用于训练图像检测模型来提供模型性能。
48.继续参考图4,方法400可包括在框450,对掩模区域进行图像增强。将明白,图像增强是指根据特定的需要突出图像中的某些信息,同时削弱或去除某些不需要的信息的处理方法。在本公开的一实施例中,图像增强可包括空间域图像增强和/或频域图像增强。在一示例中,空间域图像增强可包括直方图修正、灰度变换增强、图像平滑化以及图像锐化等等。频域图像增强是在图像的某个频域内对图像进行滤波等处理,并修改变换后的系数,如傅里叶变换、dct变换等的系数,然后再进行反变换,以便得到处理后的图像。本领域技术人员将明白,空间域图像增强和频域图像增强是图像处理领域的常用技术,在此不再赘述。
49.最后,在框460,方法400可包括将经图像增强的掩模区域混合到原始图像中,以得到自合成的图像。在本公开的一实施例中,可以将经图像增强的掩模区域替换原始图像中的掩模区域来得到自合成的图像。将明白,在混合过程中,还可以采用平滑技术,使得经图像增强的掩模区域适合到原始图像中。本领域技术人员可以明白,可以采用任何合适的图像合成方法将经图像增强的掩模区域与原始图像一起合成为自合成的图像,在此不再赘述。由此,本公开的方法400可以得到更真实且更符合真实场景的基于自合成的图像,能够用于训练图像检测模型来提升其性能。例如,参考图5,其示出了根据本公开的一实施例的所生成的自合成的图像。可以看到,图5所示的图像更加真实。
50.在本公开的又一实施例中,方法400所得到的自合成的图像可被使用来训练图像
检测模型。图像检测模型可被用于检测输入到该模型的图像的真实性。例如,在电商平台的商户准入阶段,需要对商户提交的门头图像、营业执照等凭证图片进行审核,以验证这些凭证的真实性。由此,图像检测模型可以对商户提供的门头图像进行验证,以检验其真实性。
51.下面参考图6,示出了根据本公开的一示例实施例的基于自合成的图像生成系统600的示意性框图。
52.如图6所示,系统600可包括目标检测模块601、ocr模块603、图像增强模块605以及图像合成模块607。将明白,尽管图6仅示出了这四个模块,但系统600可包括任何其他模块或功能,并且目标检测模块601、ocr模块603、图像增强模块605以及图像合成模块607中的任一者可被拆分成其他模块或者它们中的任两者或更多者可以合并成其他模块,只要它们实现相应模块的功能即可。
53.在本公开的一实施例中,目标检测模块601可被配置成对原始图像进行目标检测以确定感兴趣目标的边界框;ocr模块603可被配置成确定边界框内的ocr内容,其中目标检测模块601还可被配置成计算出能够ocr内容的最小边界框;图像增强模块605可被配置成选择掩模区域并对掩模区域进行图像增强,其中掩模区域在感兴趣目标的边界框之内并且包含上述最小边界框;以及图像合成模块607可被配置成将经图像增强的掩模区域混合到原始图像中,以得到自合成的图像。
54.在本公开的一实施例中,将明白,系统600所生成的图像要被用于训练图像检测模型,以使得经训练的图像检测模型能够检出所输入图像是否存在篡改和/或修改(例如,使用photoshop等图像修改软件对图像做的修改)。因此,图像检测模型所要检测和/或验证的输入图像是取决于应用场景的。由此,用来生成自合成的图像的原始图像也是取决于应用场景的。
55.举例而言,在电商平台的商户准入阶段,需要对商户提交的门头图像、营业执照等凭证图片进行审核,以验证这些凭证的真实性。由此,在本公开的一实施例中,原始图像可以是商户的门头图像。在该实施例中,感兴趣目标可以是图像中的商户的门头。在本公开的另一实施例中,原始图像可以是商户的营业执照的图像。在该实施例中,感兴趣目标可以是商户的名称、类型、法定代表人、经营范围中的至少一者。
56.本领域技术人员将明白,边界框是目标检测中的常用术语,一般是将感兴趣目标包括在内的矩形框,在此不再赘述。
57.在本公开的一实施例中,ocr模块603可以针对整个原始图像执行ocr(光学字符识别)以识别原始图像中包含的字符,并且随后基于目标检测模块601所确定的边界框来确定该边界框内存在的ocr内容(例如,字符)。或者ocr模块603可以在目标检测模块601确定边界框之后,仅针对该边界框所包含的图像区域执行ocr以确定感兴趣目标的边界框内的ocr内容。
58.在本公开的一实施例中,掩模区域可以在感兴趣目标的边界框之内并且包含目标检测模块601所确定的包含ocr内容的最小边界框。在本公开的优选实施例中,掩模区域的周界可以是比感兴趣目标的边界框小并且比包含ocr内容的最小边界框大的矩形框。
59.在本公开的又一实施例中,掩模区域可以是随机地选择的。由此,系统600可以向所合成的图像提供随机性,使得其更适合用于训练图像检测模型来提供模型性能。
60.将明白,图像增强是指根据特定的需要突出图像中的某些信息,同时削弱或去除
某些不需要的信息的处理方法。在本公开的一实施例中,图像增强可包括空间域图像增强和/或频域图像增强。在一示例中,空间域图像增强可包括直方图修正、灰度变换增强、图像平滑化以及图像锐化等等。频域图像增强是在图像的某个频域内对图像进行滤波等处理,并修改变换后的系数,如傅里叶变换、dct变换等的系数,然后再进行反变换,以便得到处理后的图像。本领域技术人员将明白,空间域图像增强和频域图像增强是图像处理领域的常用技术,在此不再赘述。
61.在本公开的一实施例中,可以将经图像增强的掩模区域替换原始图像中的掩模区域来得到自合成的图像。将明白,在混合过程中,还可以采用平滑技术,使得经图像增强的掩模区域适合到原始图像中。本领域技术人员可以明白,可以采用任何合适的图像合成方法将经图像增强的掩模区域与原始图像一起合成为自合成的图像,在此不再赘述。
62.在本公开的又一实施例中,系统600所得到的自合成的图像可被使用来训练图像检测模型。图像检测模型可被用于检测输入到该模型的图像的真实性。例如,在电商平台的商户准入阶段,需要对商户提交的门头图像、营业执照等凭证图片进行审核,以验证这些凭证的真实性。由此,图像检测模型可以对商户提供的门头图像进行验证,以检验其真实性。
63.图7示出了根据本公开的一示例实施例的基于自合成的图像生成装置700的示意图。装置700可包括处理器705以及与处理器705耦合的存储器710,存储器710被安排成存储处理器可执行指令715,处理器可执行指令715在被处理器705执行时可使处理器705执行根据本公开的方法(例如参考图4所描述的方法400)。
64.在本公开的又一实施例中,还提供了一种非瞬态处理器可读存储介质,包括处理器可执行指令,所述指令在被处理器执行时使处理器执行根据本公开的方法(例如参考图4所描述的方法400)。
65.此外,本说明书实施例还公开了一种系统,该系统包括用于实现本说明书一个或多个实施例的方法的各操作的装置。
66.尽管本公开中具体结合photoshop描述了对图像的篡改,本领域技术人员将明白,图像可以是使用任何其他合适的图像编辑和/或修改软件、应用、方法等来修改的。
67.可以理解,根据本说明书的一个或多个实施例的方法可以用软件、固件或其组合来实现。
68.应该理解,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参考即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参考方法实施例的部分说明即可。
69.应该理解,上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
70.应该理解,本文用单数形式描述或者在附图中仅显示一个的元件并不代表将该元件的数量限于一个。此外,本文中被描述或示出为分开的模块或元件可被组合为单个模块或元件,且本文中被描述或示出为单个的模块或元件可被拆分为多个模块或元件。
71.在本说明书中,除非另外限定,“近乎”、“几乎”、“大致”(如被使用)是指偏差不大于10%;优选地,偏差不大于5%;更优选地,偏差不大于1%。
72.还应理解,本文采用的术语和表述方式只是用于描述,本说明书的一个或多个实施例并不应局限于这些术语和表述。使用这些术语和表述并不意味着排除任何示意和描述(或其中部分)的等效特征,应认识到可能存在的各种修改也应包含在权利要求范围内。其他修改、变化和替换也可能存在。相应的,权利要求应视为覆盖所有这些等效物。
73.同样,需要指出的是,虽然已参考当前的具体实施例来描述,但是本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本说明书的一个或多个实施例,在没有脱离本发明精神的情况下还可做出各种等效的变化或替换,因此,只要在本发明的实质精神范围内对上述实施例的变化、变型都将落在本技术的权利要求书的范围内。

技术特征:
1.一种基于自合成的图像生成方法,包括:对原始图像进行目标检测以确定感兴趣目标的边界框;确定所述边界框内的ocr内容;计算出能够包含所述ocr内容的最小边界框;选择掩模区域,所述掩模区域在所述感兴趣目标的边界框之内并且包含所述最小边界框;对所述掩模区域进行图像增强;以及将经图像增强的所述掩模区域混合到所述原始图像中,以得到自合成的图像。2.根据权利要求1所述的方法,所述图像增强包括空间域图像增强和/或频域图像增强。3.根据权利要求1所述的方法,所述掩模区域是随机地选择的。4.根据权利要求1所述的方法,所述原始图像是商户的门头图像。5.根据权利要求4所述的方法,所述感兴趣目标是图像中的门头。6.根据权利要求1所述的方法,所述原始图像是商户的营业执照的图像。7.根据权利要求6所述的方法,所述感兴趣目标是所述商户的名称、类型、法定代表人、经营范围中的至少一者。8.根据权利要求1所述的方法,还包括使用所述自合成的图像来训练图像检测模型,其中所述图像检测模型用于检测图像的真实性。9.一种基于自合成的图像生成系统,包括:目标检测模块,所述目标检测模块被配置成对原始图像进行目标检测以确定感兴趣目标的边界框;ocr模块,所述ocr模块被配置成确定所述边界框内的ocr内容,其中所述目标检测模块还被配置成计算出能够包含所述ocr内容的最小边界框;图像增强模块,所述图像增强模块被配置成选择掩模区域并对所述掩模区域进行图像增强,其中所述掩模区域在所述感兴趣目标的边界框之内并且包含所述最小边界框;以及图像合成模块,所述图像合成模块被配置成将经图像增强的所述掩模区域混合到所述原始图像中,以得到自合成的图像。10.根据权利要求9所述的系统,所述图像增强包括空间域图像增强和/或频域图像增强。11.根据权利要求9所述的系统,所述掩模区域是随机地选择的。12.根据权利要求9所述的系统,所述原始图像是商户的门头图像。13.根据权利要求12所述的系统,所述感兴趣目标是图像中的门头。14.根据权利要求9所述的系统,所述原始图像是商户的营业执照的图像。15.根据权利要求14所述的系统,所述感兴趣目标是所述商户的名称、类型、法定代表人、经营范围中的至少一者。16.根据权利要求9所述的系统,所述自合成的图像被使用来训练图像检测模型,其中所述图像检测模型用于检测图像的真实性。17.一种基于自合成的图像生成装置,包括:处理器;以及
与所述处理器耦合的存储器,所述存储器存储有处理器可执行指令,所述指令在被所述处理器执行时使所述处理器执行如权利要求1-8中任一项所述的方法。18.一种非瞬态处理器可读存储介质,包括处理器可执行指令,所述指令在被所述处理器执行时使所述处理器执行如权利要求1-8中任一项所述的方法。

技术总结
本公开涉及基于自合成的图像生成方法和系统。该方法包括:对原始图像进行目标检测以确定感兴趣目标的边界框;确定所述边界框内的OCR内容;计算出能够包含所述OCR内容的最小边界框;选择掩模区域,所述掩模区域在所述感兴趣目标的边界框之内并且包含所述最小边界框;对所述掩模区域进行图像增强;以及将经图像增强的所述掩模区域混合到所述原始图像中,以得到自合成的图像。本公开还涉及一种用于交互式限流的系统和装置以及一种非瞬态处理器可读存储介质。存储介质。存储介质。


技术研发人员:兰钧 崔世文 孟昌华 王维强 李志峰
受保护的技术使用者:支付宝(杭州)信息技术有限公司
技术研发日:2023.05.26
技术公布日:2023/8/21
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐