图像处理模型的处理方法、装置、设备和存储介质与流程
未命名
07-22
阅读:115
评论:0
1.本技术涉及计算机处理技术领域,特别是涉及一种图像处理模型的处理方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术:
2.图像检索是输入图像语义及图像内容进行查找,从图像数据库中检出与该输入图像在语义和内容上具有相似特性的图像的过程。通常的处理流程为:对输入图像进行量化,得到输入图像的量化特征,将该量化特征与图像数据库中各个图像的量化特征进行比对,以获得召回图像。
3.由此可知,为准确召回与输入图像的图像语义与图像内容相似的图像,需要让图像处理模型具备准确提取衡量图像语义和图像内容的量化特征的能力。
4.然而,学习图像语义需要对样本图像进行多标签标注,标注大规模图像的语义标签,耗时耗人力,虽然利用已有的或预训练的多标签标注模型对样本图像进行多标签标注,可以降低标签标注成本,但通常这种模型标注的结果不够准确,导致图像处理模型基于大量噪声的样本图像,难以准确学习图像的量化特征。
技术实现要素:
5.基于此,有必要针对上述技术问题,提供一种可以基于大量的噪声样本图像中提升图像处理模型的准确性的图像处理模型的处理方法、装置、计算机设备、存储介质和计算机程序产品。
6.一种图像处理模型的处理方法,所述方法包括:
7.获取当次迭代的样本图像集;
8.通过前次迭代更新的图像处理模型提取所述样本图像集中样本图像的图像特征,对所述图像特征进行量化处理得到量化特征,依据所述量化特征进行多标签预测获得所述样本图像的多标签预测概率;
9.基于前次迭代更新的对应各个标签的正负样本阈值与所述样本图像的多标签预测概率,从所述样本图像集中确定对应各个标签的无噪样本图像并修正所述无噪样本图像的标注信息,根据所述无噪样本图像的标注信息与多标签预测概率,确定当次迭代的多标签预测损失;
10.根据所述无噪样本图像的多标签预测概率,对前次迭代更新的对应各个标签的正负样本阈值更新,得到当次迭代更新的对应各个标签的正负样本阈值;
11.从所述样本图像集中确定所述样本图像的相似样本图像与非相似样本图像,基于所述样本图像、所述相似样本图像与所述非相似样本图像的量化特征,以及所述样本图像的量化特征与相应的量化目标,确定当次迭代的量化损失;
12.基于所述多标签预测损失与所述量化损失,对前次迭代更新的图像处理模型更新得到当次迭代更新的图像处理模型。
13.一种图像处理模型的处理装置,所述装置包括:
14.样本图像集获取模块,用于获取当次迭代的样本图像集;
15.当次迭代的前向处理模块,用于通过前次迭代更新的图像处理模型提取所述样本图像集中样本图像的图像特征,对所述图像特征进行量化处理得到量化特征,依据所述量化特征进行多标签预测获得所述样本图像的多标签预测概率;
16.多标签预测损失确定模块,用于基于前次迭代更新的对应各个标签的正负样本阈值与所述样本图像的多标签预测概率,从所述样本图像集中确定对应各个标签的无噪样本图像并修正所述无噪样本图像的标注信息,根据所述无噪样本图像的标注信息与多标签预测概率,确定当次迭代的多标签预测损失;
17.正负样本阈值更新模块,用于根据所述无噪样本图像的多标签预测概率,对前次迭代更新的对应各个标签的正负样本阈值更新,得到当次迭代更新的对应各个标签的正负样本阈值;
18.量化损失确定模块,用于从所述样本图像集中确定所述样本图像的相似样本图像与非相似样本图像,基于所述样本图像、所述相似样本图像与所述非相似样本图像的量化特征,以及所述样本图像的量化特征与相应的量化目标,确定当次迭代的量化损失;
19.当次迭代的后向处理模块,用于基于所述多标签预测损失与所述量化损失,对前次迭代更新的图像处理模型更新得到当次迭代更新的图像处理模型。
20.在一个实施例中,所述多标签预测损失确定模块,还用于依次将所述多标签中的每个标签作为目标标签;获取前次迭代更新的对应所述目标标签的正样本阈值与负样本阈值;当所述样本图像的多标签预测概率中,对应所述目标标签的预测概率大于等于所述目标标签的正样本阈值时,则确定所述样本图像为所述当次迭代中的对应所述目标标签的无噪正样本图像,修正所述样本图像对应所述目标标签的标注信息为第一值;当所述样本图像的多标签预测概率中,对应所述目标标签的预测概率小于等于所述目标标签的负样本阈值时,则确定所述样本图像为所述当次迭代中的对应所述目标标签的无噪负样本图像,修正所述样本图像对应所述目标标签的标注信息为第二值。
21.在一个实施例中,所述正负样本阈值更新模块,还用于依次将所述多标签中的每个标签作为目标标签;根据所述当次迭代中的所述目标标签的无噪正样本图像,对应所述目标标签的预测概率的均值,对前次迭代更新的对应所述目标标签的正样本阈值进行更新,得到当次迭代更新的对应所述目标标签的正样本阈值;根据所述当次迭代中的所述目标标签的无噪负样本图像,对应所述目标标签的预测概率的均值,对前次迭代更新的对应所述目标标签的负样本阈值进行更新,得到当次迭代更新的对应所述目标标签的负样本阈值。
22.在一个实施例中,所述正负样本阈值更新模块,还用于将前次迭代更新的对应所述目标标签的正样本阈值,与所述当次迭代中的所述目标标签的无噪正样本图像对应所述目标标签的预测概率的均值进行加权求和,得到当次迭代更新的对应所述目标标签的正样本阈值;其中,所述前次迭代更新的对应所述目标标签的正样本阈值的权重系数大于所述均值的权重系数。
23.在一个实施例中,所述正负样本阈值更新模块,还用于将前次迭代更新的对应所述目标标签的负样本阈值,与所述当次迭代中的所述目标标签的无噪负样本图像对应所述
目标标签的预测概率的均值进行加权求和,得到当次迭代更新的对应所述目标标签的负样本阈值;其中,所述前次迭代更新的对应所述目标标签的负样本阈值权重系数大于所述均值的权重系数。
24.在一个实施例中,所述多标签预测损失确定模块,还用于依次将所述多标签中的每个标签作为目标标签;对于对应所述目标标签的每个无噪样本图像,根据修正后的所述无噪样本图像的标注信息与所述无噪样本图像的多标签预测概率中对应所述目标标签的预测概率,计算所述目标标签的预测损失;将对应每个标签的预测损失求和,得到当次迭代的多标签预测损失。
25.在一个实施例中,所述样本图像集包括相似样本图像对,所述相似样本图像对包括的两个样本图像相似;
26.所述量化损失确定模块,还用于对于所述样本图像集的每个相似样本图像对,生成与所述相似样本图像对相应的三元组;所述三元组包括目标样本图像、所述目标样本图像的相似样本图像与所述目标样本图像的非相似样本图像;对于每个三元组,根据所述目标样本图像与所述相似样本图像的量化特征的差异,所述目标样本图像与所述非相似样本图像的量化特征之间的差异,计算三元组量化损失;根据所述样本图像集的每个样本图像的量化特征与相应的量化目标之间的差异,计算图像量化损失;将三元组量化损失与所述图像量化损失进行加权求和,得到当次迭代的量化损失。
27.在一个实施例中,所述量化损失确定模块,还用于将所述相似样本图像对中的两个样本图像,作为目标样本图像与所述目标样本图像的相似样本图像;基于当次提取的图像特征,从所述样本图像集中确定至少一个与所述目标样本图像不相似的样本图像,作为所述目标样本图像的非相似样本图像;将所述目标样本图像、所述目标样本图像的相似样本图像与所述目标样本图像的非相似样本图像构成至少一个三元组。
28.在一个实施例中,所述装置还包括:相似样本图像对获取模块,用于获取视频的分镜;将同一分镜的图像作为相似样本图像,得到对应于同一分镜的多个相似样本图像对;
29.所述量化损失确定模块,还用于获取所述目标样本图像的当次提取的图像特征和各候选样本图像的当次提取的图像特征;所述候选样本图像是所述样本图像集中除所述目标样本图像所属的相似样本图像对外,其他相似样本图像对的样本图像;基于所述目标样本图像的当次提取的图像特征分别与各候选样本图像的当次提取的图像特征之间的距离,按照距离从小到大的顺序,对各候选样本图像进行排序;确定排在设定位数后的候选样本图像,并从排在设定位数后的候选样本图像中确定与所述目标样本图像不相似的样本图像,作为所述目标样本图像的非相似样本图像。
30.在一个实施例中,所述量化损失确定模块,还用于将所述样本图像的量化特征输入预设符号函数,得到所述样本图像的量化特征的符号,作为所述样本图像的量化目标;基于所述样本图像的量化特征与相应的符号之间的差异,计算所述样本图像的图像量化损失。
31.在一个实施例中,所述图像处理模型包括量化网络和多标签预测网络;
32.所述当次迭代的后向处理模块,用于将所述多标签预测损失与所述量化损失进行加权求和,得到当次迭代的总损失;依据当次迭代的总损失,依次对前次迭代更新得到的图像处理模型中所述多标签预测网络的参数与所述量化网络的参数进行更新,得到当次迭代
更新的图像处理模型。
33.在一个实施例中,每次迭代为全量训练轮中的任一次迭代,每次迭代使用的样本图像集为全量样本图像集的子集;
34.所述装置还包括正负样本阈值确定模块,用于在所述当次迭代为首个基于各标签的正负样本阈值确定无噪样本图像的全量训练轮中的首次迭代时,获取全量样本图像集中各个样本图像的原始标注信息,以及完成前一全量训练轮后各个样本图像的多标签预测概率;依次将所述多标签中的各个标签作为目标标签;对于每个目标标签,根据所述原始标注信息确定所述目标标签的正样本图像与负样本图像;根据完成前一全量训练轮后所述目标标签的正样本图像的多标签预测概率中,对应所述目标标签的预测概率的均值,初始化所述当次迭代所需的所述目标标签的正样本阈值;根据完成前一全量训练轮后所述目标标签的负样本图像的多标签预测概率中,对应所述目标标签的预测概率的均值,初始化所述当次迭代所需的所述目标标签的负样本阈值。
35.在一个实施例中,所述装置还包括图像检索模块,用于在满足训练停止条件时,得到预训练的图像处理模型;获取用于图像检索的输入图像;通过所述预训练的图像处理模型,提取所述输入图像的图像特征,对所述输入图像的图像特征进行量化处理得到所述输入图像的量化特征;将所述输入图像的量化特征与图像库中各个库存图像的量化特征进行比对;根据比对结果确定与所述输入图像匹配的检索图像。
36.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行上述图像处理模型的处理方法。
37.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行上述图像处理模型的处理方法。
38.一种计算机程序产品,其上存储有计算机程序,所述计算机程序被处理器执行上述图像处理模型的处理方法。
39.上述图像处理模型的处理方法、装置、计算机设备、存储介质和计算机程序产品,通过前次迭代更新的对应于各标签的正负样本阈值,以及基于前次迭代更新的图像处理模型得到的样本图像的多标签预测概率,从样本图像集中确定各标签的无噪样本图像,实现当次迭代的对应于各标签的无噪样本图像的判决,以便在当次迭代的多标签预测损失的计算中去除噪声样本图像,以避免图像处理模型中用于图像量化处理的参数对噪声样本图像过拟合,在大量的噪声样本图像中实现图像处理模型的有效训练;并且,通过当次迭代的无噪样本图像的多标签预测概率,对前次迭代更新的对应各个标签的正负样本阈值更新,所得到的当次迭代更新的对应各个标签的正负样本阈值作为下次迭代的对应于各标签的无噪样本图像判决所用的阈值,实现不同次迭代所用的各标签的正负样本阈值的动态更新,进一步提升在大量噪声样本图像中进行图像处理模型的训练的有效性;另外,根据样本图像、相似样本图像和非相似样本图像的量化特征,以及样本图像的量化特征与对应的量化目标,得到当次迭代的量化损失,通过多标签预测损失和量化损失,对前次迭代更新的图像处理模型进行更新,以在当次迭代中,图像处理模型中的参数朝多标签损失和量化损失最小化方向调整,以基于训练完成后的图像处理模型得到的图像的量化特征能够准确表达图像的图像语义与图像内容。
附图说明
40.图1为一个实施例中图像处理模型的处理方法的应用环境图;
41.图2为一个实施例中图像处理模型的处理方法的流程示意图;
42.图3为一个实施例中第一分镜示意图;
43.图4为一个实施例中第二分镜示意图;
44.图5为一个实施例中确定当次迭代所用的正负样本阈值的流程示意图;
45.图6为另一个实施中图像处理模型的处理方法的流程示意图;
46.图7为一个实施中图像处理模型的训练过程示意图;
47.图8为一个实施例中图像处理模型的处理方法的架构示意图;
48.图9为一个实施例中图像处理模型的处理装置的结构框图;
49.图10为一个实施例中计算机设备的内部结构图。
具体实施方式
50.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
51.在本技术中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本技术所描述的实施例可以与其它实施例相结合。需要说明的是,本技术介绍涉及的“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
52.本技术提供的图像处理模型的处理方法,属于人工智能技术领域,以下对本技术涉及的术语进行介绍:
53.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
54.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
55.计算机视觉技术(computer vision,cv)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、
虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
56.图像识别技术是指在类别级别上的识别,在图像识别过程中,可以不用考虑对象的特定实例,而是考虑对象的类别(如人、狗、猫、鸟等)进行的识别并给出对象所属的类别。例如,基于通用物体识别开源数据集imagenet进行的图像识别任务中,从通用物体识别开源数据集imagenet包括的类别中,识别出待预测图像中的目标物体所属类别。
57.图像检索包括的图像语义检索,是指从图像库中找到与输入图像语义相关的图像的检索过程。语义相关可以是类别(如同属狗类别)相同或者属性(属性可以有多种,如黄色、快乐的、自然环境的等)相同的一类图像。
58.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
59.图像处理模型的训练可以是利用全量样本图像集,对图像处理模型的参数进行迭代更新,以使损失最小化的过程。利用一次全量样本图像集对模型参数进行迭代更新,可以视为一个全量训练轮,也即一个epoch。每个epoch中,将全量样本图像集分为多个批次,依次将各批次样本图像输入图像处理模型中。各批次样本图像被输入图像处理模型后,图像处理模型对该批次样本图像进行预测,基于该批次样本图像的预测值和该批次样本图像的真实值(真实值可以是样本图像的标注信息),得到该批次样本图像对应的损失,以对图像处理模型的参数进行更新;其中,图像处理模型对该批次样本图像进行预测的过程称为前向处理过程,基于该批次样本图像的损失对图像处理模型的参数进行更新的过程称为后向处理过程。一次前向处理过程和该次前向处理过程对应的后向处理过程,视为一次迭代。一个epoch对应的批次与该epoch所包括的迭代次数一致,例如,全量样本图像集被划分为100个批次,该epoch对应100个批次,该epoch包括的迭代次数也为100次。
60.随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
61.图1为本技术提供的图像处理模型的处理方法的应用环境图。其中,终端102可以通过通信网络与服务器104进行交互;终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群或云服务器来实现。
62.在一个实施例中,在满足训练停止条件时,服务器104可以得到预训练的图像处理模型;获取用于图像检索的输入图像;通过预训练的图像处理模型,提取输入图像的图像特征,对输入图像的图像特征进行量化处理得到输入图像的量化特征;将输入图像的量化特
征与图像库中各个库存图像的量化特征进行比对;根据比对结果确定与输入图像匹配的检索图像。
63.其中,训练停止条件是针对图像处理模型设置的,可以为:当某个全量训练轮的损失,相较于上个全量训练轮的损失而言,不再下降,确定达到训练停止条件;其中,各全量训练轮的损失是基于该全量训练轮的各次迭代的损失的均值确定的。
64.预训练的图像处理模型包括特征提取网络和量化网络;服务器104可以经由特征提取网络得到图像特征,并将图像特征输入量化网络,得到图像的量化特征。该特征提取网络可以是卷积神经网络(convolutional neural networks,cnn);当特征提取网络为卷积神经网络时,该卷积神经网络可以采用resnet101、resnet18cnn等结构;对应地,经由卷积神经网络得到的图像特征可以称为图像的深度特征。量化网络可以采用多个全连接层(fully connected layers,fc)进行级联。
65.输入图像是待检索的图像,可以由终端102发送至服务器104;由服务器104从库存图像中检索出与输入图像匹配的图像,服务器104将与输入图像匹配的图像作为检索图像反馈给终端102。
66.图像库是基于库存图像和库存图像自身的量化特征形成的。具体地,服务器104可以利用预训练的图像处理模型提取各库存图像的图像特征,并利用预训练的图像处理模型的库存图像的图像特征进行量化,得到各库存图像的量化特征,将各库存图像的量化特征作为各库存图像的查询索引,并将各库存图像与自身的量化特征共同存储在数据存储系统中,形成图像库。其中,数据存储系统可以集成在服务器104中,也可以与服务器104分开设置。
67.服务器104还可以按照簇的设定数量,基于各库存图像的量化特征,对各库存图像进行聚类,得到多个簇,将位于簇中心的库存图像的量化特征作为该簇的查询索引,建立位于簇中心的库存图像的量化特征与该簇的关联关系。其中,聚类方式可以是kmeans聚类。
68.终端102可以将输入图像发给服务器104,服务器104可以利用预训练的图像处理模型提取到输入图像的图像特征,并利用预训练的图像处理模型对输入图像的图像特征进行量化处理,得到该输入图像的量化特征。
69.服务器104在确定与输入图像匹配的检索图像时,可以将输入图像的量化特征与图像库的库存图像的量化特征一一比对,得到的比对结果包括输入图像的量化特征与各库存图像的量化特征间的距离,服务器104可以将距离小于等于预设距离的库存图像作为与输入图像匹配的检索图像;服务器104可以按照距离从小到大的排序,依次将各检索图像反馈给终端102。
70.服务器104在确定与输入图像匹配的检索图像时,还可以将该输入图像的量化特征与作为各簇的查询索引的量化特征进行比对,得到的比对结果包括输入图像的量化特征与作为各簇的查询索引的量化特征之间的距离;服务器104在作为各簇的查询索引的量化特征中,确定与输入图像的量化特征间的距离最近,或者与输入图像的量化特征间的距离小于等于预设距离的量化特征,并将该量化特征所关联的簇作为目标簇;将该目标簇的库存图像作为与输入图像匹配的检索图像;服务器104获取该输入图像分别与各检索图像的量化特征间的距离,并按照距离从小到大的排序,确定排在预设位数之前的检索图像,并按距离从小到大的排序,依次反馈排在预设位数之前的检索图像。
71.上述实施例中,通过预训练的图像处理模型得到输入图像的量化特征,并将输入图像的量化特征与库存图像的量化特征进行比对,确定与输入图像匹配的检索图像,可以提升图像检索效率;并且,由于预训练的图像处理模型得到的量化特征具备图像语义衡量能力和图像相似衡量能力,因此可以保证输入图像与检索图像在图像语义上较为一致且图像较为相似。
72.另外,在经用户授权的情况下,服务器104还可以基于预训练的图像处理模型得到的图像的量化特征,向用户推荐感兴趣的多个图像,这些图像语义上较为一致且图像表现较为相似。
73.在一个实施例中,提供了一种图像处理模型的处理方法,实现图像处理模型的训练;该方法可以由终端102或服务器104执行,也可以由终端102和服务器104协同执行,在本技术实施例中,以该方法由服务器104执行为例进行说明。图2为图像处理模型的处理方法的流程示意图,该方法包括如下步骤:
74.步骤s202,获取当次迭代的样本图像集。
75.在进行图像处理模型的训练时,可以将多个相似样本图像对作为全量样本图像集;在利用全量样本图像集进行一个全量训练轮的时候,服务器104可以将多个相似样本图像对划分为多个批次,每一批次的相似样本图像对用于该全量训练轮中的一次迭代,每一批次包括bs个相似样本图像对。
76.当次迭代是基于各标签的正负样本阈值确定各标签的无噪样本图像的迭代;当次迭代可以属于设定全量训练轮中的某次迭代;每个设定全量训练轮的每次迭代的多标签预测损失所用的样本图像是该次迭代的各标签的无噪样本图像。其中,可以将轮次大于设定轮次的全量训练轮作为设定全量训练轮,例如设定轮次为5,那么第5个全量训练轮之后的全量训练轮为设定全量训练轮,且第5个全量训练轮之后的全量训练轮的每次迭代中,基于每次迭代的各标签的无噪样本图像确定该次迭代所用的多标签预测损失;并且在第5个全量训练轮之后的全量训练轮中,首个设定全量训练轮为第6个epoch,非首个设定全量训练轮为第7个epoch和第7个epoch之后的全量训练轮。
77.其中,非设定全量训练轮的每次迭代的多标签预测损失所用的样本图像是:基于已有的或预训练的多标签标注模型确定的各标签的正负样本图像。非设定全量训练轮在设定全量训练轮之前进行。
78.服务器104可以将设定全量训练轮的多个批次的相似样本图像对的其中一个批次的相似样本图像对,作为当次迭代的样本图像集。
79.步骤s204,通过前次迭代更新的图像处理模型提取样本图像集中样本图像的图像特征,对图像特征进行量化处理得到量化特征,依据量化特征进行多标签预测获得样本图像的多标签预测概率。
80.在进行图像处理模型训练时,图像处理模型可以包括特征提取网络、量化网络和多标签预测网络;多标签预测网络是根据量化网络输出的图像的量化特征,得到该图像在各标签下的预测概率。
81.特征提取网络为卷积神经网络时,图像特征可以称为图像的深度特征。该图像特征可以是d维的特征向量。量化特征可以是对图像特征进行向量归一化后的特征,向量归一化后的特征的取值范围可以是-1到1之间的浮点数。
82.样本图像的多标签预测概率是该样本图像在各标签下的预测概率,样本图像的多标签预测概率例如是p[image]={p1[image],p2[image],
…
,pm[image],
…
},其中,p1[image]表示该图像对应于标签label_1的预测概率,pm[image]表示该图像对应于标签label_m的预测概率。样本图像在各次迭代的多标签预测概率是该次迭代的前向处理过程得到的,也即,基于图像处理模型的多标签预测网络在前次迭代更新得到的参数输出的。
[0083]
前次迭代完成后,图像处理模型的特征提取网络、量化网络和多标签预测网络中,各个网络的参数被更新,因此,前次迭代完成后,图像处理模型可以称为前次迭代更新的图像处理模型。
[0084]
在进行当次迭代的时候,针对当次迭代的每一样本图像,服务器104利用前次迭代更新的特征提取网络得到每一样本图像的图像特征,将每一样本图像的图像特征进行量化,得到每一图像的量化特征,依据每一样本图像的量化特征,利用多标签预测网络得到每一样本图像的多标签预测概率。
[0085]
步骤s206,基于前次迭代更新的对应各个标签的正负样本阈值与样本图像的多标签预测概率,从样本图像集中确定对应各个标签的无噪样本图像并修正无噪样本图像的标注信息,根据无噪样本图像的标注信息与多标签预测概率,确定当次迭代的多标签预测损失。
[0086]
在当次迭代为首个设定全量训练轮的非首次迭代或者非首个设定全量训练轮的任一次迭代时,当次迭代的前次迭代具有对应的更新后的各标签的正负样本阈值。
[0087]
前次迭代更新的各标签的正负样本阈值用于当次迭代中的无噪正负样本的判决,以确定当次迭代中的各标签的无噪样本图像,并基于当次迭代中的各标签的无噪样本图像得到当次迭代的各标签的预测损失。多标签预测损失包括各标签的预测损失。
[0088]
样本图像的标注信息包括该样本图像对应于各标签的标注信息;对应于某个标签的标注信息表征该样本图像是该标签的正样本图像,还是该标签的负样本图像。当次迭代中,修正前的样本图像的标注信息是前个全量训练轮确定的;修正后的样本图像的标注信息视为本全量训练轮确定的。
[0089]
某一标签的无噪样本图像是指该样本图像为该标签的正负样本图像的置信度较高;例如,若该样本图像为该标签的正样本图像,那么该样本图像为该标签的正样本图像的置信度较高;若该样本图像为该标签的负样本图像,那么该样本图像为该标签的负样本图像的置信度较高。
[0090]
若当次迭代所用的样本图像image_11,在当次迭代的前向处理过程中,经过前次迭代更新的图像处理模型可以得到该样本图像image_11的多标签预测概率为{p1[image_11],p2[image_11],p3[image_11],
…
,pm[image_11],
…
};其中,p1[image_11]、p2[image_11]、p3[image_11]、pm[image_11]为样本图像image_11分别对应于标签label_1、标签label_2、标签label_3、标签label_m的预测概率。针对标签label_1,前次迭代更新的该标签label_1的正样本阈值为thr_11-,前次迭代更新的该标签label_1的负样本阈值为thr_10-。
[0091]
服务器104可以将p1[image_11]分别与thr_11-和thr_10-进行比较,如果p1[image_11]大于等于thr_11-,或者p1[image_11]小于等于thr_10-,则确定在当次迭代中,样本图像p1[image_11]为标签label_1的无噪样本图像。
[0092]
具体地,如果p1[image_11]大于等于thr_11-,则确定在当次迭代中,该样本图像image_11为标签label_1的无噪正样本图像。如果该样本图像image_11的标注信息中,对应该标签label_1的标注值表征该样本图像image_11为该标签label_1的负样本图像,则对该样本图像image_11对应于该标签label_1的标注信息进行修正,以使修正后的标注信息表征该样本图像image_11为该标签label_1的正样本图像;由于当次迭代中,该样本图像image_11为该标签label_1的正样本图像,是经由前次迭代更新的正样本阈值thr_11-判决得到的,置信度较高,因此,该样本图像image_11可以称为该标签label_1的无噪正样本图像。
[0093]
若该样本图像image_11实质属于该标签label_1的正样本图像,但该样本图像image_11对应该标签label_1的标注信息在修正前,未能表征该样本图像image_11是该标签label_1的正样本图像,那么该样本图像image_11可以称为无标记正样本(positive unlabel data,pu data);该样本图像image_11对应该标签label_1的标注信息在修正后,可以表征该样本图像image_11是该标签label_1的正样本图像,那么该样本图像image_11可以称为已标记正样本(labeled positive data)。
[0094]
如果该样本图像image_11对应该标签label_1的标注信息表征该样本图像image_11为该标签label_1的正样本图像,则不用对该标注信息进行修正。
[0095]
如果p1[image_11]小于等于thr_10-,则确定在当次迭代中,该样本图像image_11为标签label_1的无噪负样本图像。如果该样本图像image_11的标注信息中,对应该标签label_1的标注值表征该样本图像image_11为该标签label_1的正样本图像,则对该样本图像对应于该标签label_1的标注信息进行修正,以使修正后的标注信息表征该样本图像image_11为该标签label_1的负样本图像;由于当次迭代中,该样本图像image_11为该标签label_1的负样本图像,是经由前次迭代更新的正样本阈值thr_10-判决得到的,置信度较高,因此,该样本图像image_11可以称为该标签label_1的无噪负样本图像。
[0096]
若该样本图像image_11实质属于该标签label_1的负样本图像,但该样本图像image_11对应该标签label_1的标注信息在修正前,未能表征该样本图像image_11是该标签label_1的负样本图像,那么该样本图像image_11可以称为无标记负样本(negative unlabel data);该样本图像image_11对应该标签label_1的标注信息在修正后,可以表征该样本图像image_11是该标签label_1的负正样本图像,那么该样本图像image_11可以称为已标记负样本(labeled negative data)。
[0097]
如果该样本图像image_11对应该标签label_1的标注信息表征该样本图像image_11为该标签label_1的负样本图像,则不用对该标注信息进行修正。
[0098]
如果p1[image_11]大于thr_10-且小于thr_11-,则难以确定该样本图像image_11为该标签label_1的正样本图像还是该标签label_1的负样本图像,该样本图像image_11属于该标签label_1的不确定样本图像,因此,该样本图像image_11视为该标签label_1的噪声样本图像;对应地,可以对该样本图像对应于该标签label_1的标注信息进行修正,以使修正后的标注信息表征该样本图像image_11为该标签label_1的噪声样本图像,且不参与当次迭代中该标签label_1的损失计算。
[0099]
同样地,针对当次迭代所用的其他样本图像,服务器104可以确定在当次迭代中其他样本图像是否为标签label_1的无噪样本图像;另外,针对其他标签,可以确定在当次迭
代中,其他标签的无噪样本图像。
[0100]
若当次迭代所用的样本图像包括image_11、image_12、image_21、image_22、
…
、image_n1、image_n2,各标签分别为label_1、label_2、label_3、
…
、label_m。其中,image_11和image_12构成相似样本图像对,image_21和image_22构成相似样本图像对,image_n1和image_n2构成相似样本图像对。
[0101]
服务器104利用前次迭代更新的图像处理模型得到各样本图像在当次迭代的多标签概率后,基于前次迭代更新的各标签的正负样本阈值与各样本图像在当次迭代的多标签预测概率,确定各标签的无噪样本图像,并修正无噪样本图像的标注信息,得到的修正后的各标签的无噪样本图像的标注信息如表1所示。
[0102] image_11image_12image_21image_22
……
image_n1image_n2label_1110-1
……
01label_20011
……
11label_3-111-1
……‑
10
…………………………………………
label_m1-111
……‑
10
…………………………………………
[0103]
表1
[0104]
其中,标注信息为“1”表示对应的样本图像为当次迭代中对应标签的无噪正样本图像,例如,样本图像image_11为当次迭代中标签label_1的无噪正样本图像;标注信息为“0”表示对应的样本图像为当次迭代中对应标签的无噪负样本图像,例如,样本图像image_21为当次迭代中标签label_1的无噪负样本图像;标注信息为
“‑
1”表示对应的样本图像为当次迭代中对应标签的噪声样本图像,例如,样本图像image_11为当次迭代中标签label_1的噪声样本图像。
[0105]
从表1可以看出,当次迭代中标签label_1的无噪正样本图像包括样本图像image_11、样本图像image_12、
…
、样本图像image_n2,当次迭代中标签label_1的无噪负样本图像包括样本图像image_21、样本图像imagen1,其中,当次迭代中标签label_1的无噪正样本图像和当次迭代中标签label_1的无噪负样本图像可以称为当次迭代中标签label_1的无噪样本图像。
[0106]
服务器104基于当次迭代中标签label_1的无噪样本图像的修正后的标注信息,以及利用前次迭代更新的图像处理模型得到的当次迭代中的标签label_1的各无噪样本图像的多标签预测概率,得到当次迭代的标签label_1的预测损失;同样地,服务器104可以获取当次迭代的其他标签的预测损失,并根据当次迭代的各标签的预测损失,得到多标签预测损失。
[0107]
步骤s208,根据无噪样本图像的多标签预测概率,对前次迭代更新的对应各个标签的正负样本阈值更新,得到当次迭代更新的对应各个标签的正负样本阈值。
[0108]
当次迭代更新的各标签的正负样本阈值用于下次迭代中的各标签的无噪正负样本图像的判决,以确定下次迭代中的各标签的无噪样本图像,并基于下次迭代中的各标签的无噪样本图像得到下次迭代的各标签的预测损失。
[0109]
对前次迭代更新的各标签的正负样本阈值进行更新所用的无噪样本图像是当次
迭代中各标签的无噪样本图像,所用的无噪样本图像的多标签预测概率是利用前次迭代更新的图像处理模型得到的。结合表1介绍:
[0110]
当次迭代的各标签的无噪样本图像中,标签label_1的无噪样本图像为样本图像image_11、样本图像image_12、样本图像image_21、
…
、样本图像imagen2,服务器104可以利用前次迭代更新的图像处理模型得到的样本图像image_11、样本图像image_12、样本图像image_21、
…
、样本图像imagen2各自对应于标签label_1的预测概率,对前次迭代更新的标签label_1的正负样本阈值进行更新,得到当次迭代更新的标签label_1的正负样本阈值。
[0111]
步骤s210,从样本图像集中确定样本图像的相似样本图像与非相似样本图像,基于样本图像、相似样本图像与非相似样本图像的量化特征,以及样本图像的量化特征与相应的量化目标,确定当次迭代的量化损失。
[0112]
当次迭代的样本图像集包括多个相似样本图像对,如样本图像image_11和样本图像image_12,又如image_21和image_22,再如image_n1和image_n2。其中,同一相似样本图像对的两个样本图像相似,如样本图像image_11和样本图像image_12之间相似。
[0113]
服务器104可以依次将当次迭代所用的各相似样本图像对作为目标相似样本图像对,并从当次迭代所用的多个相似样本图像对中除目标相似样本图像对外的其他相似样本图像对中,确定一个样本图像,作为与目标相似样本图像对的两个样本图像不相似的样本图像;示例性地,若当次迭代所用的样本图像image_11和样本图像image_12为目标相似样本图像对,那么服务器104可以从其他相似样本图像对(如image_21和image_22、image_n1和image_n2)中,确定一个样本图像,并将该样本图像作为与样本图像image_11和样本图像image_12不相似的样本图像;若样本图像image_22被作为与样本图像image_11和样本图像image_12不相似的样本图像,那么可以将样本图像image_11和样本图像image_12的其中一个样本图像作为锚点样本图像(anchor,简写为a)、另一个样本图像为相似样本图像(positive,简写为p),将样本图像image_22作为非相似样本图像(negative,简写为n),形成样本图像image_11和样本图像image_12对应的三元组a-p-n。
[0114]
其中,在样本图像、样本图像的相似样本图像、样本图像的非相似样本图像中,样本图像可以视为锚点样本图像、样本图像的相似样本图像可以视为相似正样本图像、样本图像的非相似样本图像可以视为非相似样本图像;锚点样本图像、相似正样本图像与非相似样本图像的量化特征是利用前次迭代更新的图像处理模型得到的。
[0115]
基于样本图像、相似样本图像与非相似样本图像的量化特征所确定的量化损失可以称为三元组量化损失,该三元组量化损失包括图像处理模型进行度量学习时所用的损失,以使基于锚点样本图像的量化特征与相似正样本图像的量化特征所刻画的相似样本图像之间的距离尽可能大,基于锚点样本图像的量化特征与非相似样本图像的量化特征所刻画的非相似样本图像之间的距离尽可能小。
[0116]
其中,样本图像的量化特征相应的量化目标是将样本图像的量化特征输入预设符号函数,得到的样本图像的量化特征的符号;例如,将样本图像的量化特征q的每一位量化特征值输入预设符号函数,得到对应于不同位量化特征值的量化目标值,对应于不同位量化特征值的量化目标值形成该量化特征的量化目标。也即,将样本图像的量化特征q的第i位量化特征值qi输入预设符号函数,得到对应于qi的量化目标值bi;预设符号函数可以是
sign函数,对应的公式为
[0117]
基于样本图像的量化特征与相应的量化目标所确定的量化损失可以称为图像量化损失,该图像量化损失属于图像处理模型进行量化学习时所用的损失,以使量化特征的每一位足够接近预设符号函数的1或-1。
[0118]
若样本图像的量化特征为256维的特征向量,该量化特征包括256位量化特征值,那么该样本图像的图像量化损失其中,该图像量化损失是采用回归损失函数计算得到的,通过该图像量化损失约束图像量化模型的参数调整的方向,以使样本图像的量化特征与量化目标之间的距离逐渐变小。
[0119]
服务器104为当次迭代所用的每一相似样本图像对确定至少一个对应的三元组后,确定各三元组量化损失,如果同一相似样本图像对所对应的三元组的数量大于等于2,则基于该同一相似样本图像对所对应的多个三元组量化损失的均值,得到该同一相似样本图像对的三元组量化损失;另外,服务器104获取当次迭代所用的各样本图像的量化特征与相应的量化目标之间的图像量化损失,对各相似样本图像对的三元组量化损失和图像量化损失求和,得到当次迭代所用的量化损失。
[0120]
步骤s212,基于多标签预测损失与量化损失,对前次迭代更新的图像处理模型更新得到当次迭代更新的图像处理模型。
[0121]
对图像处理模型进行更新是对图像处理模型各网络的参数进行更新;在一次迭代中,基于该次迭代的前向处理过程所确定的损失,对图像处理模型各网络的参数进行更新,以使各网络的参数朝损失最小的方向调整。其中,在一次迭代的前向处理过程如步骤s204描述的过程;基于该次迭代的前向处理过程所确定的损失,对图像处理模型各网络的参数进行更新的过程,可以称为该次迭代的后向处理过程。
[0122]
上述多标签预测损失和量化损失是基于当次迭代的前向过程所确定的损失,服务器104利用该损失,对前次迭代更新的图像处理模型中的各网络的参数进行更新,将包括更新后的各网络的参数的图像处理模型作为当次迭代更新的图像处理模型。
[0123]
具体地,在当次迭代所用的样本图像集为bs个相似样本图像对且各相似样本图像对相应有10个三元组(triplet)的情况下,可以获取各相似样本图像对的多标签预测损失和各相似样本图像对的量化损失和各相似样本图像对的量化损失得到各相似样本图像对的损失相似样本图像对的损失该公式中,j表示构成该相似样本图像对的两个样本图像,th表示与该相似样本图像对相应的三元组,w1可以设为0.5,w2可以设为1-w1。接着,将各相似样本图像对的损失的均值作为当次迭代所用的总损失。
[0124]
其中,每一相似样本图像对的多标签预测损失是根据构成该相似样本图像对的两个样本图像的多标签预测损失的均值以及对应的权重系数w1得到的。每个样本图像的多标签预测损失是每个样本图像的对应于各标签的预测损失的和值。
[0125]
每个样本图像对应于各标签的预测损失是根据该样本图像修正后的对应于该标签的标注信息以及该样本图像在当次迭代得到的对应于该标签的预测概率得到的。以样本
图像image_11对应于标签label_m的预测损失为例,设样本图像image_11对应于标签label_m的修正后的标注信息为tm[image_11],样本图像image_11对应于标签label_m的预测概率为pm[image_11],那么该样本图像image_11对应于标签label_m的预测损失为
[0126]
l
label_m
=tm[image
11
]
×
log(pm[image
11
])+(1-tm[image
11
])
×
log(1-pm[image
11
])),if tm[image_11]≠-1。
[0127]
其中,每一相似样本图像对的量化损失是根据该相似样本图像对相应的三元组的损失的均值以及对应的权重系数w2得到的;每一三元组的损失l2是该三元组量化损失l
triplet
以及构成该三元组的各样本图像的图像量化损失l
coding
,也即l2=w
21
l
triplet
+w
22
l
coding
;w
21
为赋给三元组量化损失的权重系数,可以设为1;w
22
为赋给图像量化损失的权重系数,可以设为0.5;且w
21
大于w
22
可以保证在回归损失的学习收敛快于三元组的度量学习的情况下,保证三元组的度量学习在整体学习中处于主导地位,从而保证卷积神经网络输出的深度特征始终具有相似度的度量能力。三元组量化损失l
triplet
以及构成该三元组的各样本图像的图像量化损失l
coding
在下文介绍。
[0128]
若当次迭代为图像处理模型的训练过程的最后一次迭代,那么当次迭代结束后,可以不再进行迭代,完成图像处理模型的训练。
[0129]
若当次迭代不是图像处理模型训练过程的最后一次迭代,那么可以获取下次迭代的样本图像集,按照步骤s204至步骤s212的方式,对当次迭代更新的图像处理模型进行迭代更新,得到下次迭代更新的图像处理模型,直至完成训练过程的最后一次迭代。
[0130]
其中,在当次迭代不是图像处理模型训练过程的最后一次迭代的情况下,如果下次迭代与当次迭代属于同一全量训练轮,也即下次迭代与当次迭代属于同一个epoch;对应地,下次迭代所用的样本图像集的获取方式可以是:将属于本个全量训练轮且在当次迭代之前的各次迭代所用的对应批次的相似样本图像对,以及当次迭代所用的相似样本图像对,作为本个全量训练轮的已用批次的相似样本图像对:在本个全量训练轮的多个批次的相似样本图像对中,剔除本个全量训练轮的已用批次的相似样本图像对,得到本个全量训练轮的未用批次的相似样本图像对,并从本个全量训练轮的未用批次的相似样本图像对选择其中一个未用批次的相似样本图像对作为下次迭代所用的样本图像集。
[0131]
如果下次迭代与当次迭代不属于同一全量训练轮,也即下次迭代属于下个epoch的迭代,那么,从全量样本图像集划分得到的各批次的相似样本图像对在下个全量训练轮中还未被使用,此时,可以从全量样本图像集划分得到的各批次的相似样本图像对中,选择其中一个批次的相似样本图像对作为下次迭代所用的样本图像集。
[0132]
可以理解的是,以上介绍的下次迭代所用的样本图像集的获取方式适用于获取图像处理模型的训练过程各次迭代所用的样本图像集。
[0133]
上述图像处理模型的处理方法中,通过前次迭代更新的对应于各标签的正负样本阈值,以及基于前次迭代更新的图像处理模型得到的样本图像的多标签预测概率,从样本图像集中确定各标签的无噪样本图像,实现当次迭代的对应于各标签的无噪样本图像的判决,以便在当次迭代的多标签预测损失的计算中去除噪声样本图像,以避免图像处理模型中用于图像量化处理的参数对噪声样本图像过拟合,在大量的噪声样本图像中实现图像处理模型的有效训练;并且,通过当次迭代的无噪样本图像的多标签预测概率,对前次迭代更新的对应各个标签的正负样本阈值更新,所得到的当次迭代更新的对应各个标签的正负样
本阈值作为下次迭代的对应于各标签的无噪样本图像判决所用的阈值,实现不同次迭代所用的各标签的正负样本阈值的动态更新,进一步提升在大量噪声样本图像中进行图像处理模型的训练的有效性;另外,根据样本图像、相似样本图像和非相似样本图像的量化特征,以及样本图像的量化特征与对应的量化目标,得到当次迭代的量化损失,通过多标签预测损失和量化损失,对前次迭代更新的图像处理模型进行更新,以在当次迭代中,图像处理模型中的参数朝多标签损失和量化损失最小化方向调整,以基于训练完成后的图像处理模型得到的图像的量化特征具备语义相关性的衡量能力和相似度高低的衡量能力。
[0134]
在一个实施例中,服务器104还可以依次将多标签中的每个标签作为目标标签;根据当次迭代中的目标标签的无噪正样本图像,对应目标标签的预测概率的均值,对前次迭代更新的对应目标标签的正样本阈值进行更新,得到当次迭代更新的对应目标标签的正样本阈值;根据当次迭代中的目标标签的无噪负样本图像,对应目标标签的预测概率的均值,对前次迭代更新的对应目标标签的负样本阈值进行更新,得到当次迭代更新的对应目标标签的负样本阈值。
[0135]
以目标标签为标签label_m为例,并结合表1介绍:
[0136]
当次迭代中,标签label_m的无噪正样本图像包括样本图像image_11、样本图像image_12、
…
、样本图像image_n2,服务器104可以获取样本图像image_11、样本图像image_12、
…
、样本图像image_n2对应于标签label_m的预测概率的均值,并利用该均值对前次迭代更新得到的标签label_m的正样本阈值thr_m1-进行修正,将修正结果作为当次迭代更新的标签label_m的正样本阈值thr_m1
+
;其中,各样本图像在当次迭代的对应于标签label_m的预测概率是当次迭代的前向处理过程得到的,由于当次迭代的前向处理过程是基于前次迭代更新的图像处理模型进行的,因此,各样本图像在当次迭代的对应于标签label_m的预测概率也可以视为通过前次迭代更新的图像处理模型得到的。
[0137]
当次迭代中,标签label_1的无噪负样本图像包括样本图像image_21和样本图像image_n1,服务器104可以获取样本图像image_21和样本图像image_n1各自对应于标签label_1的预测概率的均值,并利用该均值对前次迭代更新得到的标签label_1的负样本阈值thr_10-进行修正,将修正结果作为当次迭代更新的标签label_1的负样本阈值thr_10
+
;其中,各样本图像在当次迭代的对应于标签label_1的预测概率是通过前次迭代更新的图像处理模型得到的。
[0138]
上述实施例中,根据当次迭代的各标签的无噪样本图像的对应于该标签的预测概率的均值,对前次迭代更新的各标签的正负样本阈值进行更新,实现各标签的正负样本阈值的动态更新,在每次迭代中逐渐加入置信度更高的无噪正负样本图像进行多标签预测损失计算,使得图像处理模型可以基于更加有效的多标签预测损失,进行更加有效的学习。并且,利用当次迭代的各标签的无噪正样本图像的对应于该标签的预测概率的均值和当次迭代的各标签的无噪负样本图像的对应于该标签的预测概率的均值,分别对前次迭代更新的各标签的正样本阈值、负样本阈值进行更新,提升各标签的正负样本阈值在确定无噪样本图像上的有效性。
[0139]
在一个实施例中,服务器104还可以将前次迭代更新的对应目标标签的正样本阈值,与当次迭代中的目标标签的无噪正样本图像对应目标标签的预测概率的均值进行加权求和,得到当次迭代更新的对应目标标签的正样本阈值。
[0140]
其中,前次迭代更新的对应目标标签的正样本阈值的权重系数大于当次迭代中的目标标签的无噪正样本图像对应目标标签的预测概率的均值的权重系数。前次迭代更新的对应目标标签的正样本阈值的权重系数可以为0.9,当次迭代中的目标标签的无噪正样本图像对应目标标签的预测概率的均值可以为0.1。
[0141]
以目标标签为标签label_m,前次迭代更新的标签label_m的正样本阈值记为thr_m1-进行介绍:当次迭代中的标签label_m的无噪正样本图像中,各无噪正样本图像对应标签label_m的预测概率均大于等于thr_m1-,服务器104可以获取当次迭代中,标签label_m的无噪正样本图像对应该标签label_m的预测概率(该预测概率为当次迭代的前向处理过程得到的)的均值程得到的)的均值其中,j为当次迭代中标签label_m的无噪正样本图像,pm[j]为当次迭代中标签label_m的无噪正样本图像对应于标签label_m的预测概率。服务器104按照上述的权重系数0.9和0.1,对thr_m1-和average进行加权求和,得到当次迭代更新的标签label_m的正样本阈值thr_m1
+
=0.9
×
thr_m1-+0.1
×
average_1。
[0142]
上述实施例中,前次迭代更新的对应目标标签的正样本阈值的权重系数大于当次迭代中的目标标签的无噪正样本图像对应目标标签的预测概率的均值的权重系数,在加权求和时,对前次迭代更新的目标标签的正样本阈值为主,以时,以当次迭代中的目标标签的无噪正样本图像对应目标标签的预测概率的均值为辅,进行正样本阈值的更新,以使下次迭代进行各标签的正样本图像判决时得到置信度更高的各标签的正样本图像。
[0143]
在一个实施例中,服务器104还可以将前次迭代更新的对应目标标签的负样本阈值,与当次迭代中的目标标签的无噪负样本图像对应目标标签的预测概率的均值进行加权求和,得到当次迭代更新的对应目标标签的负样本阈值。
[0144]
其中,前次迭代更新的对应目标标签的负样本阈值的权重系数大于当次迭代中的目标标签的无噪负样本图像对应目标标签的预测概率的均值的权重系数。前次迭代更新的对应目标标签的负样本阈值的权重系数可以为0.9,当次迭代中的目标标签的无噪负样本图像对应目标标签的预测概率的均值可以为0.1。
[0145]
以目标标签为标签label_m,前次迭代更新的标签label_m的负样本阈值记为thr_m0-进行介绍:当次迭代中的标签label_m的无噪负样本图像中,各无噪负样本图像对应标签label_m的预测概率均小于等于thr_m0-,服务器104可以获取当次迭代中,标签label_m的无噪负样本图像对应该标签label_m的预测概率(该预测概率为当次迭代的前向处理过程得到的)的均值程得到的)的均值其中,j为当次迭代中标签label_m的无噪负样本图像,pm[j]为当次迭代中标签label_m的无噪负样本图像对应于标签label_m的预测概率。服务器104按照上述的权重系数0.9和0.1,对thr_m0-和average进行加权求和,得到当次迭代更新的标签label_m的负样本阈值thr_m0
+
=0.9
×
thr_m0-+0.1
×
average_0。
[0146]
上述实施例中,前次迭代更新的对应目标标签的负样本阈值的权重系数大于当次迭代中的目标标签的无噪负样本图像对应目标标签的预测概率的均值的权重系数,在加权求和时,对前次迭代更新的目标标签的负样本阈值为主,以时,以当次迭代中的目标标签的
无噪负样本图像对应目标标签的预测概率的均值为辅,进行负样本阈值的更新,以使下次迭代进行各标签的负样本图像判决时得到置信度更高的各标签的负样本图像。
[0147]
在一个实施例中,服务器104还可以依次将多标签中的每个标签作为目标标签;获取前次迭代更新的对应目标标签的正样本阈值与负样本阈值;当样本图像的多标签预测概率中,对应目标标签的预测概率大于等于目标标签的正样本阈值时,则确定样本图像为当次迭代中的对应目标标签的无噪正样本图像,修正样本图像对应目标标签的标注信息为第一值;当样本图像的多标签预测概率中,对应目标标签的预测概率小于等于目标标签的负样本阈值时,则确定样本图像为当次迭代中的对应目标标签的无噪负样本图像,修正样本图像对应目标标签的标注信息为第二值。
[0148]
其中,当样本图像为当次迭代的目标标签的无噪正样本图像时,修正该样本图像对应该目标标签的标注信息为第一值,表征该样本图像可以参与该目标标签的损失计算,且该样本图像对应于该目标标签的损失为当次迭代的前向处理过程所确定的样本图像的预测概率与该第一值之间的损失;第一值可以是1。
[0149]
其中,当样本图像为当次迭代的目标标签的无噪负样本图像时,修正该样本图像对应该目标标签的标注信息为第二值,表征该样本图像可以参与该目标标签的损失计算,且该样本图像对应于该目标标签的损失为当次迭代的前向处理过程所确定的样本图像的预测概率与该第二值之间的损失;第二值可以是0。
[0150]
以目标标签为标签label_1且样本图像为样本图像image_11进行介绍:
[0151]
当次迭代的前向处理过程中,得到样本图像image_11对应标签label_1的预测概率为p1[image_11],若该p1[image_11]大于等于前次迭代更新的标签label_1的正样本阈值thr_11-,则将样本图像image_11在当次迭代中对应于标签label_1的标注信息修正为第一值,如1;该p1[image_11]小于等于前次迭代更新的标签label_1的负样本阈值thr_10-,则将样本图像image_11在当次迭代中对应于标签label_1的标注信息修正为第二值,如0。
[0152]
同样地,针对其他标签和当次迭代所用的其他样本图像,也进行标注信息的修正。
[0153]
上述实施例中,基于前次迭代更新的目标标签的正样本阈值和负样本阈值,以及样本图像的多标签预测概率,修正样本图像对应目标标签的标注信息,避免噪声样本图像参与后续目标标签的损失计算,提升图像处理模型的训练有效性。
[0154]
在一个实施例中,服务器104还可以依次将多标签中的每个标签作为目标标签;对于对应目标标签的每个无噪样本图像,根据修正后的无噪样本图像的标注信息与无噪样本图像的多标签预测概率中对应目标标签的预测概率,计算目标标签的预测损失;将对应每个标签的预测损失求和,得到当次迭代的多标签预测损失。
[0155]
以目标标签为标签label_m,将当次迭代的标签label_m的无噪样本图像j对应于标签label_m的修正后的标注信息记为tm[j],将当次迭代的前向处理过程得到的标签label_m的无噪样本图像j对应于标签label_m的预测概率记为pm[j],进行介绍:
[0156]
在当次迭代的前向处理过程中,服务器104获取到当次迭代所用的bs个相似样本图像对的每一样本图像在标签label_m下的预测概率后,将每一样本图像在标签label_m下的预测概率pm[j]与前次迭代更新的标签label_m的正样本阈值thr_m1-和负样本阈值thr_m0-进行比较。若样本图像j在标签label_m下的预测概率pm[j]大于等于thr_m1-,则确定该样本图像为当次迭代中标签label_m的无噪正样本图像,并将该样本图像对应标签label_m
的标注信息tm[j]修正为1;若样本图像j在标签label_m下的预测概率pm[j]小于等于thr_m0-,则确定该样本图像为当次迭代中标签label_m的无噪负样本图像,并将该样本图像对应标签label_m的标注信息修正tm[j]为0;若样本图像j在标签label_m下的预测概率pm[j]大于thr_m0-且小于thr_m1-,则确定该样本图像为当次迭代中标签label_m的噪声样本图像,并将该样本图像对应标签label_m的标注信息tm[j]修正为-1,不参与当次迭代中标签label_m的预测损失的计算。当次迭代中,标签label_m的预测损失计算公式为:
[0157]
该公式中,样本图像j为:当次迭代所用的2
×
bs个样本图像中,标签label_m的无噪样本图像;n2表示当次迭代所用的2
×
bs个样本图像中,标签label_m在当次迭代的无噪样本图像的数量。
[0158]
服务器104按照上述方式,计算各标签在当次迭代中的预测损失,对各标签在当次迭代中的预测损失进行求和,得到当次迭代的多标签预测损失。
[0159]
上述实施例中,对于当次迭代中目标标签的每个无噪样本图像,根据修正后的无噪样本图像的标注信息和无噪样本图像对应目标标签的预测概率,得到目标标签的预测损失,噪声样本图像不参与当次迭代的目标标签的预测损失的计算,避免当次迭代中图像处理模型对噪声样本图像过拟合,实现大量噪声样本图像中模型训练的有效性。
[0160]
在一个实施例中,样本图像集包括相似样本图像对,相似样本图像对包括的两个样本图像相似。对于样本图像集的每个相似样本图像对,服务器104还可以生成与相似样本图像对相应的三元组;三元组包括目标样本图像、目标样本图像的相似样本图像与目标样本图像的非相似样本图像;对于每个三元组,根据目标样本图像与相似样本图像的量化特征的差异,目标样本图像与非相似样本图像的量化特征之间的差异,计算三元组量化损失;根据样本图像集的每个样本图像的量化特征与相应的量化目标之间的差异,计算图像量化损失;将三元组量化损失与图像量化损失进行加权求和,得到当次迭代的量化损失。
[0161]
其中,三元组包括的目标样本图像可以称为锚点样本图像,并记为a,目标样本图像的相似样本图像可以称为相似正样本图像,并记为p,目标样本图像的非相似样本图像可以称为非相似样本图像,并记为n。
[0162]
目标样本图像的量化特征与相似样本图像的量化特征间的差异、以及目标样本图像的量化特征与非相似样本图像的量化特征间的差异可以用距离表征。
[0163]
服务器104对当次迭代所用的bs个相似样本图像对的每一相似样本图像对,生成每一相似样本图像对相应的三元组;对于同个三元组的a、p和n,服务器104根据a的量化特征、p的量化特征和n的量化特征,可以确定a和p在量化空间中的距离,确定a和n在量化空间中的距离,得到该三元组量化损失为l
triplet
=max(‖q
a-q
p
‖-‖q
a-qn‖+α,0);该公式中,α为距离间的差值(margin),α可以设为160。该三元组量化损失的目的是使得a和n在量化空间的距离比a和p在量化空间的距离大α。
[0164]
针对当次迭代所用的bs个相似样本图像对,若每一相似样本图像对各自对应的三元组为至少两个,服务器104可以基于对应于同一相似样本图像对的三元组量化损失的均值,得到该相似样本图像对的三元组量化损失,并得到各相似样本图像对的三元组量化损
失。针对当次迭代所用的2
×
bs个样本图像,服务器104可以获取各样本图像的量化特征与相应的量化目标之间的差异,得到各样本图像的图像量化损失;并各相似样本图像对的三元组量化损失和各样本图像的图像量化损失,作为当次迭代所用的量化损失。
[0165]
上述实施例中,基于当次迭代所用的各相似样本图像对的三元组量化损失和当次迭代所用的各样本图像的图像量化损失,得到当次迭代的量化损失,以使图像处理模型进行度量学习的同时进行量化学习。
[0166]
在一个实施例中,服务器104还可以将相似样本图像对中的两个样本图像,作为目标样本图像与目标样本图像的相似样本图像;基于当次提取的图像特征,从样本图像集中确定至少一个与目标样本图像不相似的样本图像,作为目标样本图像的非相似样本图像;将目标样本图像、目标样本图像的相似样本图像与目标样本图像的非相似样本图像构成至少一个三元组。
[0167]
其中,当次提取的图像特征是当次迭代的前向处理过程中图像处理模型的特征提取网络提取到的特征,可以是图像的深度特征。
[0168]
服务器104得到当次迭代所用的bs个相似样本图像对后,获取当次迭代的前向处理过程中形成的各样本图像的图像特征;将在目标样本图像所属的相似样本图像对外的其他样本图像对包括的样本图像作为候选样本图像,获取候选样本图像的图像特征,并得到目标样本图像的图像特征与候选样本图像的图像特征之间的距离,按照距离的大小,确定候选样本图像中作为目标样本图像的非相似样本图像,将目标样本图像、目标样本图像的相似样本图像与目标样本图像的非相似样本图像构成至少一个三元组,得到如表2示出的三元组。
[0169]
apnimage_11image_12image_21image_11image_12image_32image_11image_12
……
image_11image_12image_n1image_21image_22image_12image_21image_22image_31image_21image_22
……
image_21image_22image_n2
………………
[0170]
表2
[0171]
上述实施例中,从当次迭代所用的相似样本图像对中挖掘各相似样本图像对的三元组,无需另找三元组的非相似样本图像,提升三元组的挖掘效率。
[0172]
在一个实施例中,服务器104还可以获取视频的分镜;将同一分镜的图像作为相似样本图像,得到对应于同一分镜的多个相似样本图像对。
[0173]
图3为第一分镜示意图,图4为第二分镜示意图。其中,同一分镜可以包括多个图像,例如图3的第一分镜包括4个图像、图4的第二分镜包括3个图像。同一分镜的图像可以作为相似样本图像,可以从同一分镜得到多个相似样本图像对。
[0174]
当从同一分镜得到多个相似样本图像对时,服务器104还可以获取目标样本图像
的当次提取的图像特征和各候选样本图像的当次提取的图像特征;基于目标样本图像的当次提取的图像特征分别与各候选样本图像的当次提取的图像特征之间的距离,按照距离从小到大的顺序,对各候选样本图像进行排序;确定排在设定位数后的候选样本图像,并从排在设定位数后的候选样本图像中确定与目标样本图像不相似的样本图像,作为目标样本图像的非相似样本图像。
[0175]
其中,候选样本图像是样本图像集中除目标样本图像所属的相似样本图像对外,其他相似样本图像对的样本图像。目标样本图像的当次提取的图像特征分别与各候选样本图像的当次提取的图像特征之间的距离可以是欧式距离。设定位数可以根据当次迭代所用的相似样本图像对的数量和排位百分数k%确定,具体地,设定位数根据(2
×
bs-2)
×
k/100确定,例如bs为64,k为3,那么设定位数为4。
[0176]
以目标样本图像为样本图像image_11为例介绍:
[0177]
当目标样本图像为样本图像image_11时,候选样本图像为当次迭代所用的样本图像中除样本图像image_11和样本图像image_12外的其他样本图像,如样本图像image_21、样本图像image_22和样本图像image_n1等。服务器104可以获取样本图像image_11的当次提取的图像特征和各候选样本图像的当次提取的图像特征,并根据样本图像image_11的当次提取的图像特征分别和各候选样本图像的当次提取的图像特征之间的距离,按照距离从小到大的顺序,对各候选样本图像进行排序,去除排在设定位数之前的候选样本图像,从排在设定位数后的候选样本图像中确定与样本图像image_11不相似的样本图像,作为样本图像image_11的非相似样本图像。
[0178]
上述实施例中,当从同一分镜得到多个相似样本图像对时,按照距离从小到大的顺序,从排在设定位数后的候选样本图像中确定与目标样本图像不相似的样本图像,避免当次迭代所用的相似样本图像对同时包括同一分镜的至少两个相似样本图像对时,选到与目标样本图像为同一分镜的样本图像,降低三元组量化损失的噪声。
[0179]
在一个实施例中,服务器104还可以将样本图像的量化特征输入预设符号函数,得到样本图像的量化特征的符号,作为样本图像的量化目标;基于样本图像的量化特征与相应的符号之间的差异,计算样本图像的图像量化损失。
[0180]
其中,预设符号函数可以是sign函数。样本图像的量化特征相应的量化目标是将样本图像的量化特征输入预设符号函数,得到的样本图像的量化特征的符号。
[0181]
服务器104可以将样本图像的量化特征q的每一位量化特征值输入预设符号函数,得到对应于不同位量化特征值的量化目标值,对应于不同位量化特征值的量化目标值形成该量化特征的量化目标。也即,将样本图像的量化特征q的第i位量化特征值qi输入sign函数,得到对应于qi的量化目标值bi;sign函数对应的公式为
[0182]
基于样本图像的量化特征与相应的量化目标所确定的量化损失可以称为图像量化损失,该图像量化损失属于图像处理模型进行量化学习时所用的损失,以使量化特征的每一位足够接近预设符号函数的1或-1。
[0183]
若样本图像的量化特征为256维的特征向量,该量化特征包括256位量化特征值,那么该样本图像的图像量化损失其中,该图像量化损失是
采用回归损失函数计算得到的,通过该图像量化损失约束图像量化模型的参数调整的方向,以使样本图像的量化特征与量化目标之间的距离逐渐变小。
[0184]
上述实施例中,将样本图像的量化特征输入预设符号函数,得到样本图像的量化特征的符号,作为样本图像的量化目标,并得到样本图像的图像量化损失,以实现图像处理模型的量化学习。
[0185]
在一个实施例中,图像处理模型包括量化网络和多标签预测网络;服务器104还可以将多标签预测损失与量化损失进行加权求和,得到当次迭代的总损失;依据当次迭代的总损失,依次对前次迭代更新得到的图像处理模型中多标签预测网络的参数与量化网络的参数进行更新,得到当次迭代更新的图像处理模型。
[0186]
其中,针对当次迭代的总损失的梯度方向为从多标签预测网络至量化网络。
[0187]
在当次迭代所用的样本图像集为bs个相似样本图像对的情况下,服务器104可以获取bs个相似样本图像对的多标签预测损失的均值,均值结果记为loss
多标签
;服务器104获取bs个相似样本图像对的量化损失的均值,均值结果记为loss
量化
,得到当次迭代的总损失=loss
多标签
+loss
量化
;在利用当次迭代的总损失进行梯度后向时,当次迭代的总损失中的loss
多标签
经过多标签预测网络回传至量化网络,当次迭代的总损失中的loss
量化
直接回传至量化网络。服务器104根据回传至多标签预测网络的损失,更新多标签预测网络的参数,根据回传至量化网络的损失,更新量化网络的参数,得到当次迭代更新的图像处理模型。
[0188]
上述实施例中,根据对多标签预测损失和量化损失进行加权求和得到的当次迭代的总损失,依次对前次迭代更新得到的图像处理模型中多标签预测网络的参数与量化网络的参数进行更新,实现图像处理模型的度量学习和语义学习;并且,由于度量学习收敛慢(在2个图像上找相似部位与不相似部位的难度高于在同一个分类的多个图像下找相同类别共性),因此,加入多标签预测损失进行语义学习,可以加速度量学习的收敛,避免度量学习因局部表征不当造成语义相关的图像漏召回。
[0189]
在一个实施例中,针对量化网络的学习率小于针对多标签预测网络的学习率,可以避免多标签预测损失完全传递到量化网络,导致语义学习过度影响量化网络的度量效果,避免图像检索时相似度的排序不当。
[0190]
具体地,针对量化网络的学习率可以为针对多标签预测网络的学习率的0.1倍,以避免语义学习收敛过快导致量化特征过拟合。
[0191]
在一个实施例中,每次迭代为全量训练轮中的任一次迭代,具体地,每次迭代为各设定全量训练轮次中的任一次迭代;每次迭代使用的样本图像集为全量样本图像集的子集。
[0192]
其中,每个设定全量训练轮的每次迭代的多标签预测损失所用的样本图像是:该次迭代的各标签的无噪样本图像。其中,可以将轮次大于设定轮次的全量训练轮作为设定全量训练轮,例如设定轮次为5,那么第5个全量训练轮之后的全量训练轮为设定全量训练轮,且第5个全量训练轮之后的全量训练轮的每次迭代中,基于每次迭代的各标签的无噪样本图像确定该次迭代所用的多标签预测损失。非设定全量训练轮的每次迭代的多标签预测损失所用的样本图像是:基于已有的或预训练的多标签标注模型确定的各标签的正负样本图像。
[0193]
在多个设定全量训练轮的首个设定全量训练轮中,若当次迭代为首个设定全量训
练轮的首次迭代,那么,当次迭代为首次基于各标签的正负样本阈值确定无噪样本图像的迭代,此时,当次迭代所用的正负样本阈值的确定方式如图5所示。将当次迭代所属的全量训练轮称为本个全量训练轮,针对本个全量训练轮的前一全量训练轮,服务器104可以执行如下步骤:步骤s502,在当次迭代为首个基于各标签的正负样本阈值确定无噪样本图像的全量训练轮中的首次迭代时,获取全量样本图像集中各个样本图像的原始标注信息,以及完成前一全量训练轮后各个样本图像的多标签预测概率;步骤s504,依次将多标签中的各个标签作为目标标签;步骤s506,对于每个目标标签,根据原始标注信息确定目标标签的正样本图像与负样本图像;步骤s508,根据完成前一全量训练轮后目标标签的正样本图像的多标签预测概率中,对应目标标签的预测概率的均值,初始化当次迭代所需的目标标签的正样本阈值;步骤s510,根据完成前一全量训练轮后目标标签的负样本图像的多标签预测概率中,对应目标标签的预测概率的均值,初始化当次迭代所需的目标标签的负样本阈值。
[0194]
首个基于各标签的正负样本阈值确定无噪样本图像的全量训练轮,可以称为首个设定全量训练轮,该首个设定全量训练轮的各次迭代中,均基于各标签的正负样本阈值确定无噪样本图像;首个设定全量训练轮的前一全量训练轮为非设定全量训练轮,该非设定全量训练轮的每次迭代的多标签预测损失所用的样本图像是基于已有或预训练的多标签标注模型确定的各标签的正负样本图像。
[0195]
其中,全量样本图像集中各个样本图像的原始标注信息可以是基于已有或预训练的多标签标注模型确定的或者人工标注的;各个样本图像的原始标注信息包括各样本图像对应于每一标签的原始标注信息,用于表征该样本图像是对应标签的正样本图像还是负样本图像。非设定全量训练轮进行多标签损失计算时,是基于样本图像的原始标注信息与该非设定全量训练轮得到的样本图像的多标签预测概率确定的。
[0196]
示例性地,若设定轮次为5,那么首个设定全量训练轮为第6个epoch,该首个设定全量训练轮的首次迭代为首次基于各标签的正负样本阈值确定无噪样本图像的迭代;对应地,该首个设定全量训练轮的前一全量训练轮为第5个epoch。
[0197]
服务器104可以获取第5个epoch完成后,得到的各样本图像的多标签预测概率;服务器104依次将多标签的各标签作为目标标签,按照预训练的多标签标注模型确定的目标标签的正样本图像和负样本图像,获取该目标标签的各正样本图像在第5个epoch得到的预测概率的均值,并作为第6个epoch的首次迭代过程所用的正样本阈值thr_11,以进行目标标签的无噪正样本图像的判决;服务器104还可以获取该目标标签的各负样本图像在第5个epoch得到的预测概率的均值,并作为第6个epoch的首次迭代过程所用的负样本阈值thr_10,以进行目标标签的无噪负样本图像的判决。
[0198]
上述实施例中,在当次迭代为首次基于各标签的正负样本阈值确定无噪样本图像的迭代的情况下,针对多标签中的目标标签,利用前一全量训练轮的目标标签在前一全量训练轮得到的对应于目标标签的预测概率,得到当次迭代所用的正负样本阈值,实现当次迭代的无噪样本图像的判决。
[0199]
图6为一个实施中图像处理模型的处理方法的流程示意图,其中,当次迭代为首个设定全量训练轮的非首次迭代或非首个设定全量训练轮的任一次迭代;该图像处理模型的处理方法可以由终端102或服务器104执行,也可以由终端102和服务器104协同执行,在本技术实施例中,以该方法由服务器104执行为例进行说明。在进行当次迭代时,服务器104所
执行的步骤具体包括:
[0200]
步骤s602,获取当次迭代所用的多个相似样本图像对;
[0201]
步骤s604,通过前次迭代更新的图像处理模型提取当次迭代所用的多个相似样本图像对的各样本图像的图像特征,对图像特征进行量化处理得到量化特征,依据量化特征进行多标签预测获得样本图像的多标签预测概率;
[0202]
步骤s606,依次将多标签中的每个标签作为目标标签;
[0203]
步骤s608,获取前次迭代更新的对应目标标签的正样本阈值与负样本阈值;
[0204]
步骤s610,当样本图像的多标签预测概率中,对应目标标签的预测概率大于等于目标标签的正样本阈值时,则确定样本图像为当次迭代中的对应目标标签的无噪正样本图像,修正样本图像对应目标标签的标注信息为第一值;
[0205]
步骤s612,当样本图像的多标签预测概率中,对应目标标签的预测概率小于等于目标标签的负样本阈值时,则确定样本图像为当次迭代中的对应目标标签的无噪负样本图像,修正样本图像对应目标标签的标注信息为第二值;
[0206]
步骤s614,对于对应目标标签的每个无噪样本图像,根据修正后的无噪样本图像的标注信息与无噪样本图像的多标签预测概率中对应目标标签的预测概率,计算目标标签的预测损失;
[0207]
步骤s616,将对应每个标签的预测损失求和,得到当次迭代的多标签预测损失;
[0208]
步骤s618,对于各相似样本图像对相应的三元组,根据目标样本图像与相似样本图像的量化特征的差异,目标样本图像与非相似样本图像的量化特征之间的差异,计算三元组量化损失;
[0209]
步骤s620,将样本图像的量化特征输入预设符号函数,得到样本图像的量化特征的符号,作为样本图像的量化目标;
[0210]
步骤s622,基于样本图像的量化特征与相应的符号之间的差异,计算样本图像的图像量化损失;
[0211]
步骤s624,将三元组量化损失与图像量化损失进行加权求和,得到当次迭代的量化损失;
[0212]
步骤s626,将多标签预测损失与量化损失进行加权求和,得到当次迭代的总损失;
[0213]
步骤s628,按当次迭代的总损失,依次对前次迭代更新得到的图像处理模型中多标签预测网络的参数与量化网络的参数进行更新,得到当次迭代更新的图像处理模型。
[0214]
上述实施例中,通过前次迭代更新的对应于各标签的正负样本阈值,以及基于前次迭代更新的图像处理模型得到的样本图像的多标签预测概率,从样本图像集中确定各标签的无噪样本图像,实现当次迭代的对应于各标签的无噪样本图像的判决,以便在当次迭代的多标签预测损失的计算中去除噪声样本图像,以避免图像处理模型中用于图像量化处理的参数对噪声样本图像过拟合,在大量的噪声样本图像中实现图像处理模型的有效训练;并且,通过当次迭代的无噪样本图像的多标签预测概率,对前次迭代更新的对应各个标签的正负样本阈值更新,所得到的当次迭代更新的对应各个标签的正负样本阈值作为下次迭代的对应于各标签的无噪样本图像判决所用的阈值,实现不同次迭代所用的各标签的正负样本阈值的动态更新,进一步提升在大量噪声样本图像中进行图像处理模型的训练的有效性;另外,根据样本图像、相似样本图像和非相似样本图像的量化特征,以及样本图像的
量化特征与对应的量化目标,得到当次迭代的量化损失,通过多标签预测损失和量化损失,对前次迭代更新的图像处理模型进行更新,以在当次迭代中,图像处理模型中的参数朝多标签损失和量化损失最小化方向调整,以基于训练完成后的图像处理模型得到的图像的量化特征具备语义相关性的衡量能力和相似度高低的衡量能力。
[0215]
为了更好地理解上述方法,以下结合图7和图8详细阐述一个本技术图像处理模型的处理方法的实施例。
[0216]
图7示出图像处理模型的训练过程;在训练图像处理模型时,训练时的图像处理模型可以包括依次连接的卷积神经网络、量化网络和多标签预测网络;在训练完成后,可以去除多标签预测网络,保留卷积神经网络和量化网络,得到预训练的图像处理网络,也即,预训练的图像处理模型包括依次连接的卷积神经网络和量化网络。
[0217]
图像处理模型的训练过程包括:(1)数据准备:全量样本图像集的形成、三元组的形成、以及非设定全量训练轮的各样本图像对应于多标签的标注信息的形成;(2)训练过程。
[0218]
(1)数据准备涉及全量样本图像集的形成、三元组的形成、以及各样本图像对应于多标签的标注信息的形成:
[0219]
1)获取相似样本图像对,基于多个相似样本图像对,得到全量样本图像集:
[0220]
相似样本图像对包括两个样本图像以及表征这两个样本图像相似的标注信息。服务器104可以从预存储的视频中抽取各帧图像,从各帧图像中随机选取两帧图像,并将人工确定的相似的两帧图像作为相似样本图像对。由于同一分镜的图像相似度较高,同一分镜的任两个图像属于相似的图像,因此,为提高相似样本图像对的获取效率,服务器104还可以对视频进行分镜,将同一分镜的任两个图像作为相似的样本图像,并得到相似样本图像对。
[0221]
其中,当同一分镜包括的图像为3个或3个以上,那么可以从同一分镜中得到至少两个相似样本图像对。示例性地,当同一分镜包括的4帧图像,按帧的先后,依次为image_11、image_12、image_13和image_14,那么服务器104可以将该分镜的第一帧图像image_11分别与该分镜的其他各帧图像组成相似样本图像对,得到的相似样本图像对分别为image_11和image_12、image_11和image_13、image_11和image_14。
[0222]
通过将该分镜的第一帧图像分别与该分镜的其他各帧图像组成相似样本图像对的方式,可以让图像处理模型适应第一帧图像image_11相对于图像image_13和图像image_14之间的微弱变化,使图像处理模型将image_11和image_13识别为相似的图像,将image_11和image_14识别为相似的图像,提升图像处理模型的泛化效果。
[0223]
服务器104将得到的多个相似样本图像对,组成全量样本图像集。
[0224]
其中,也可以通过人工方式获取相似样本图像对,得到全量样本图像集。
[0225]
2)模型训练时的三元组挖掘,形成三元组:
[0226]
若图像处理模型训练包括多个epoch,各epoch包括多次迭代,每次迭代包括一次前向处理过程和一次后向处理过程,每次迭代所用的相似样本图像对为bs个,也即一个批次的相似样本图像对为bs个。
[0227]
每次迭代时进行该次迭代的三元组挖掘,形成该次迭代所用的三元组。具体地,针对任一次迭代,服务器104可以从该次迭代所用bs个相似样本图像对的其中一个相似样本
图像对包括的两个样本图像中选取一个样本图像;设其中一个相似样本图像对包括的两个样本图像为image_11和image_12,且选取的样本图像为image_11;接着,针对剩余的bs-1个相似样本图像对,服务器104可以从每个相似样本图像对包括的样本图像中随机选择一个样本图像,作为候选样本图像,并利用该次迭代的前次迭代更新得到的卷积神经网络得到的各候选样本图像的深度特征;服务器104还可以利用该次迭代的前次迭代更新得到的卷积神经网络得到的image_11的深度特征,并计算image_11的深度特征分别与各候选样本图像的深度特征之间的距离,按照距离从小到大的排序,去除前k%的候选样本图像,并将去除前k%的候选样本图像的剩余候选样本图像中的排在前10个的候选样本图像作为image_11的非相似样本图像,并将image_11的各非相似样本图像,分别与image_11和image_12组成三元组,该三元组中,image_11为锚点样本图像、image_12为相似样本图像、另一个图像为非相似样本图像;因此,各相似样本图像对相应有10个三元组,该次迭代的三元组的数量为10
×
bs个。
[0228]
去除前k%的候选样本图像,是为了降低度量学习的噪声:在度量学习中,对于相似的样本图像间的度量距离尽量小,不相似的样本图像间的度量距离尽量大(同时也需要满足保序效果,也即样本图像越不相似,距离越远)。除了视频的同一分镜的前后帧图像相似,或者,在图像上添加色调变换等攻击手段得到的图像相似外,大部分图像间互为相似的概率较低,而本实施例中,若同次迭代所用的bs个相似样本图像对包括从同一分镜得到的两个相似样本图像对,如image_11和image_12、image_11和image_13,那么在该次迭代的三元组挖掘时,会形成三元组image_11、image_12和image_13,该三元组的样本图像互为相似,属于度量学习的噪声;此时,可以去除前k%的候选样本图像(可以认为前k%的候选样本图像可能存在相似样本图像,不应形成对应的三元组),从剩下的候选样本图像中选取非相似样本图像,降低度量学习的噪声。其中,k是可控值,全量样本图像集中噪声越大,k越大。
[0229]
3)针对设定全量训练轮前的各非设定全量训练轮,各非设定全量训练轮所用的各样本图像对应于多标签的标注信息可以是基于已有的或预训练的多标签标注模型得到的:
[0230]
服务器104可以利用通用物体识别开源数据集imagenet或open image,得到预训练的多标签标注模型,且该多标签标注模型可以采用swin-transformer结构。另外,也可以采用其他已有的多标签标注模型,对非设定全量训练轮的样本图像进行多标签标注,得到各样本图像对应于多标签的标注信息。
[0231]
服务器104将非设定全量训练轮的各样本图像依次输入多标签标注模型,得到多标签标注模型输出的各样本图像对应于多标签的预测概率,当样本图像对应于某一标签的预测概率大于等于设定阈值时,可以认为该样本图像为该标签的正样本图像,否则认为该样本图像为该标签的负样本图像。其中,设定阈值可以比通常用的阈值大,例如,通常用的阈值为0.5,那么设定阈值可以为0.7,以尽可能减少各标签的噪声样本图像。
[0232]
不过,由于训练多标签标注模型时所用的训练样本图像与训练图像处理模型时所用的全量样本图像集不一定同源(例如,训练多标签标注模型所用的训练样本图像为动物类的图像,训练图像处理模型所用的全量样本图像集为植物类的图像),或者,多标签标注模型的标注准确性不高,那么利用多标签标注模型所确定的各标签的正样本图像,不一定是该标签的正样本图像;或者,利用多标签标注模型所确定的各标签的负样本图像,不一定
是该标签的负样本图像;又或者,某些实际属于标签label_1的正样本图像的样本图像,多标签标注模型未检测出来,且多标签标注模型认为该样本图像为该标签label_1的负样本图像。因此,由多标签标注模型给出的各样本图像对应于多标签的标注信息可以称为弱监督多标签。
[0233]
如图7所示,训练时的图像处理模型可以包括依次连接的卷积神经网络、量化网络和多标签预测网络;利用卷积神经网络得到的样本图像的深度特征被输入量化网络中,得到样本图像的量化特征(该量化特征可以是量化的浮点特征,该量化的浮点特征中的每个特征值经过sign函数,以映射到-1和1,量化的浮点特征的每个值对应的映射结果组成的向量可以称为哈希量化特征或二值量化特征);多标签预测网络可以预测n个类别的标签,输出的某个样本图像的多标签预测概率的维度为1
×
n;另外,由于设定全量训练轮涉及各样本图像的标注信息的修正以及各次迭代的各标签的无噪样本判决,因此引入样本图像的标注信息维护单元,借助样本图像的标注信息维护单元,基于前次迭代更新得到的正负样本阈值,对设定全量训练轮的每次迭代的样本图像进行各标签的无噪样本图像的判决,得到各标签的置信度较高的无噪样本图像以参与各标签的预测损失计算,并借助样本图像的标注信息维护单元,维护各次迭代中对样本图像的修正后的标注信息,以动态更新各次迭代所用的正负样本阈值,实现弱监督多标签的优化学习。
[0234]
(2)训练过程:
[0235]
1)图像处理模型的参数初始化:
[0236]
其中,卷积神经网络可以包括conv1、conv2_x、conv3_x、conv4_x和conv5_x的参数可以采用基于通用物体识别开源数据集imagenet得到的多标签标注模型resnet101相应的参数,卷积神经网络包括的其他层,如特征层,可以采用方差为0.01和均值为0的高斯分布进行参数初始化。量化网络和多标签预测网络可以采用方差为0.01和均值为0的随机正态分布进行参数初始化。
[0237]
2)设置需迭代更新的参数:表3至表5的所有参数。
[0238]
其中,表3为卷积神经网络的结构表,表4为量化网络的结构表,表5为多标签预测网络的结构表。量化网络的输入为卷积神经网络的池化层的输出,量化网络的输出量化的1x256的浮点特征,该量化的浮点特征经过sign符号函数映射到二值(-1或1),得到二值量化特征。多标签预测网络的输入为量化网络的量化层的输出,多标签预测网络的输出为各样本图像对应于各标签的预测概率。
[0239][0240]
表3
[0241][0242]
表4
[0243][0244]
表5
[0245]
3)设置学习率:
[0246]
卷积神经网络和量化网络的学习率可以为lr=0.0005,多标签预测网络的学习率可以为lr=0.005。其中,每经过10次迭代后,各网络的学习率变为原来的0.1倍。其中,多标签预测损失回传至多标签预测网络以更新多标签预测网络的参数,并且该多标签预测损失还经由多标签预测网络回传至量化网络和卷积神经网络,以对量化网络和卷积神经网络的参数进行更新。其中,量化网络的学习率小于多标签预测网络的学习率,可以避免多标签预测损失完全传递到量化网络,导致多标签的语义学习过度影响量化网络的度量效果,从而避免导致最终检索时相似度的排序不当。
[0247]
4)学习过程:对全量样本图像集进行多个epoch的全量训练;每个epoch处理一次全量样本图像集,直到某个epoch的损失,相较于上一epoch的损失而言,不再下降,完成模型训练;其中,各epoch的损失是基于该epoch的各次迭代的损失的均值确定的。
[0248]
5)各全量训练轮的每次迭代时,从对全量样本图像集划分得到的多个批次的相似样本图像对中,确定当次迭代所用的相似样本图像对,并根据当次迭代的前向处理过程得到的深度特征,进行三元组挖掘,得到当次迭代所用的各相似样本图像对相应的10个三元组;
[0249]
5.1)若设定轮次为5,当第6个epoch到来时,可以确定首个设定全量训练轮到来时,此时,基于第5个epoch得到的各样本图像的多标签预测概率,以及基于多标签标注模型确定的各样本图像的对应于多标签的标注信息,初始化第6个epoch的首次迭代所用的各标签的正样本阈值和负样本阈值;以初始化第6个epoch的首次迭代所用的标签label_1的正样本阈值和负样本阈值为例:服务器104可以获取在第5个epoch得到的各样本图像对应于标签label_1的预测概率,并根据多标签标注模型确定的各样本图像对应于标签label_1的标注信息,在各样本图像中,确定标签label_1的正样本图像和标签label_1的负样本图像;接着,获取属于标签label_1的正样本图像的样本图像对应于标签label_1的预测概率的均值,并作为第6个epoch的首次迭代所用的标签label_1的正样本阈值;获取属于标签label_1的负样本图像的样本图像对应于标签label_1的预测概率的均值,并作为第6个epoch的首次迭代所用的标签label_1的负样本阈值。
[0250]
在第6个epoch的首次迭代之后的每次迭代所用的各标签的正负样本阈值为该次迭代的前次迭代更新的各标签的正负样本阈值。
[0251]
5.2)每次迭代的前向处理过程:把图像处理模型的所有参数都设为需要学习状态,训练时图像处理模型对输入的一个样本图像进行前向计算得到量化网络的量化层输出的该样本图像的量化特征,以及多标签预测网络的分类层输出的该样本图像的多标签预测
概率;其中,量化特征可以用q表示,可以为1x256的哈希量化特征;多标签预测概率可以用于p[image]={p1[image],p2[image],
…
,pm[image],
…
}表示;当多标签预测网络的输出尺寸为1
×
n时,p[image]的维度为1
×
n,pm[image]表示该图像对应于标签label_m的预测概率。
[0252]
5.3)针对各设定全量训练轮的每次迭代,基于该次迭代所用的各标签正负样本阈值,进行该次迭代的各标签的无噪样本图像的判决,并根据判决结果修正无噪样本图像对应于各标签的标注信息:
[0253]
基于当次迭代的前向处理过程,得到各样本图像在当次迭代的多标签预测概率,依次将多标签作为目标标签,将每一样本图像在当次迭代的对应于目标标签的预测概率与当次迭代所用的目标标签的正负样本阈值进行比较;若该样本图像在当次迭代的对应于目标标签的预测概率大于等于当次迭代所用的目标标签的正样本阈值,则确定该样本图像为当次迭代中的目标标签的无噪正样本图像,并将该样本图像对应于目标标签的标注信息修正为1;若样本图像在当次迭代的对应于目标标签的预测概率小于等于当次迭代所用的目标标签的负样本阈值,则确定该样本图像为当次迭代中的目标标签的无噪负样本图像,并将该样本图像对应于目标标签的标注信息修正为0;若样本图像在当次迭代的对应于目标标签的预测概率大于当次迭代所用的目标标签的负样本阈值且小于当次迭代所用的目标标签的正样本阈值,则确定该样本图像为当次迭代中的目标标签的噪声样本图像,并将该样本图像对应于目标标签的标注信息修正为-1,表征难以确定该样本图像是目标标签的正样本图像还是负样本图像,属于该目标标签的不确定样本图像,不参与该目标标签的预测损失计算,当次迭代中该样本图像在目标标签的预测损失不会被回传至多标签预测网络、量化网络和卷积神经网络,避免影响各网络的学习。
[0254]
5.4)在计算各设定全量训练轮的每次迭代所用的损失时,采用的样本图像的标注信息为对应迭代中修正后的标注信息;具体计算过程后续描述。
[0255]
非设定全量训练轮的每次迭代所用的损失计算时,采用的样本图像的标注信息为多标签标注模型确定的标注信息。
[0256]
5.5)对各设定全量训练轮的每次迭代所用的各标签的正负样本阈值进行更新,以作为下次迭代所用的各标签的正负样本阈值;以更新当次迭代所用的标签label_m的正负样本阈值为例介绍:将当次迭代所用的标签label_m的正样本阈值记为thr_m1-,当次迭代所用的标签label_m的正样本阈值进行更新得到的标签label_m的正样本阈值记为thr_m1
+
,当次迭代所用的标签label_m的负样本阈值记为thr_m0-,当次迭代所用的标签label_m的正样本阈值进行更新得到的标签label_m的正样本阈值记为thr_m0
+
。更新更新当次迭代所用的标签label_m的正负样本阈值所用的公式为:
[0257][0258][0259]
公式
①
中,j为当次迭代中标签label_m的无噪正样本图像,pm[j]为标签label_m的无噪正样本图像在当次迭代中的对应于标签label_m的预测概率;n1为当次迭代中标签label_m的无噪正样本图像的数量。
[0260]
公式
②
中,j为当次迭代中标签label_m的无噪负样本图像,pm[j]为标签label_m
的无噪负样本图像在当次迭代中对应于标签label_m的预测概率;n0为当次迭代中标签label_m的无噪负样本图像的数量。
[0261]
5.6)各次迭代中,对图像处理模型的各网络的参数进行更新:采用sgd随机梯度下降法,对该次迭代确定的总损失进行梯度后向,相应回传至图像处理模型的多标签预测网络、量化网络和卷积神经网络,得到各网络的参数的更新值,更新各网路的参数。
[0262]
具体地,各次迭代确定的总损失包括loss
多标签
和loss
量化
,各部分损失的回传过程为:
[0263]
loss
多标签
直接回传至多标签预测网络;根据回传给多标签预测网络的损失确定多标签预测网络的参数的更新值,并更新多标签预测网络的参数。
[0264]
loss
多标签
还经由多标签预测网络依次回传至量化网络和卷积神经网络,以及loss
量化
不经由多标签预测网络,而是直接依次回传给量化网络和卷积神经网络;根据回传给量化网络的损失确定量化网络的参数的更新值,并更新量化网络的参数;根据回传给卷积神经网络的损失确定卷积神经网络的参数的更新值,并更新卷积神经网络的参数。
[0265]
(6)设定全量训练轮的各次迭代中的损失计算:
[0266]
针对当次迭代所用的bs个相似样本图像对,获取各相似样本图像对的多标签预测损失和量化损失得到各相似样本图像对的损失
[0267][0268]
该公式中,j表示构成该相似样本图像对的两个样本图像,th表示与该相似样本图像对相应的三元组,w1可以设为0.5,w2可以设为1-w1。
[0269]
其中,各相似样本图像对的多标签预测损失是根据构成该相似样本图像对的两个样本图像的多标签预测损失的均值以及对应的权重系数w1得到的;各相似样本图像对的量化损失是根据该相似样本图像对相应的三元组的损失的均值以及对应的权重系数w2得到的。
[0270]
接着,计算当次迭代所用的bs个相似样本图像对的多标签预测损失的均值,得到的损失结果记为loss
多标签
;计算当次迭代所用的bs个相似样本图像对的量化损失的均值,得到的损失结果记为loss
量化
,得到当次迭代的总损失=loss
多标签
+loss
量化
。
[0271]
其中,由于量化网络的度量学习收敛慢(也即在2个样本图像上找相似部分与不相似部位的难度高于在同一个分类的多个图像下找相同类别共性的难度),因此,回传给量化网络的损失不仅包括loss
量化
还包括loss
多标签
,可以加速收敛,避免度量学习因局部表征不当造成语义相关的图像漏召回。
[0272]
其中,量化网络的学习率可以为多标签预测网络的学习率的0.1倍,以避免语义学习收敛过快给量化特征带来过拟合。
[0273]
6.1)三元组的损失l2包括三元组量化损失l
triplet
以及构成该三元组的各样本图像的图像量化损失l
coding
,也即l2=w
21
l
triplet
+w
22
l
coding
;其中,三元组量化损失l
triplet
以及构成该三元组的各样本图像的图像量化损失l
coding
的输入均是量化网络的量化层输出的量化特征。w
21
为赋给三元组量化损失的权重系数,可以设为1;w
22
为赋给图像量化损失的权重系数,可以设为0.5;且w
21
大于w
22
可以保证在回归损失的学习收敛快于三元组的度量学习的
情况下,保证三元组的度量学习在整体学习中处于主导地位,从而保证卷积神经网络输出的深度特征始终具有相似度的度量能力。
[0274]
三元组量化损失l
triplet
:由于量化网络的量化层输出的量化特征是256维,每位需要学习到-1或1的值,三元组中的锚点样本图像的量化特征和非相似样本图像的量化特征之间的距离需要足够大才能保证三元组在量化空间可区分,故margin需要设置较大,例如可以设为margin=160。三元组量化损失l
triplet
的公式如下,其中α为margin,设为160,‖q
a-q
p
‖表示三元组中锚点样本图像的量化特征和相似样本图像的量化特征之间的距离,‖q
a-qn‖表示三元组中锚点样本图像的量化特征和非相似样本图像的量化特征之间的距离。三元组量化损失l
triplet
的目的是使得锚点样本图像与非相似样本图间的距离比锚点样本图像与相似样本图像间的距离大于margin。
[0275]
l
triplet
=max(‖q
a-q
p
‖-‖q
a-qn‖+α,0)
[0276]
构成该三元组的各样本图像的图像量化损失l
coding
:基于量化网络输出的量化特征,计算量化网络的量化效果(量化特征的每一位量化特征值是否足够接近-1或1)的损失;由于量化网络输出量化特征后,应用中需要将每位量化特征值需要映射到-1/1二值,若每位量化特征值都足够接近1或-1,可以确定三元组量化损失l
triplet
损失可以描述量化特征的应用情况,否则三元组量化损失l
triplet
损失对应的度量效果再好也不代表应用中量化的表征足够好,故希望每位量化特征值都足够接近1或-1。
[0277]
构成该三元组的各样本图像的图像量化损失l
coding
,所用的损失函数为:
[0278][0279]
其中,qi为样本图像的量化特征q的第i位量化特征值qi,bi为对应于qi的量化目标值,bi由qi经过sign函数产生——采用sign函数产生量化学习任务的目标编码;对样本图像的每位量化特征值,经过sign函数,得到对应的量化目标值,进而得到量化目标。其中,sign函数为:
[0280]
采用回归损失函数得到样本图像的图像量化损失,以使量化网络输出的样本图像的量化特征q与量化目标b的距离变小。
[0281]
在应用中直接采用sign函数对量化网络输出的量化特征产生量化的二值向量,该量化的二值向量可以用于图像检索。
[0282]
6.2)多标签预测损失计算:相似样本图像对的多标签预测损失是根据构成该相似样本图像对的两个样本图像的多标签预测损失的均值得到的;样本图像的多标签预测损失包括该样本图像在各标签的预测损失;以计算样本图像image_11对应于标签label_m的预测损失为例,介绍样本图像在每一标签的预测损失的计算:
[0283]
在设定全量训练轮的某次迭代中,设样本图像image_11对应于标签label_m的修正后的标注信息为tm[image_11],样本图像image_11对应于标签label_m的预测概率为pm[image_11],那么该样本图像image_11对应于标签label_m的预测损失为[image_11],那么该样本图像image_11对应于标签label_m的预测损失为
[0284]
其中,样本图像image_11对应于标签label_m的修正后的标注信息为tm[image_11]是该次迭代中修正的;样本图像image_11对应于标签label_m的预测概率为pm[image_11]是该次迭代中多标签预测网络输出的。
[0285]
当修正后的标注信息tm[image_11]为1时,上述公式的加号左侧部分生效,得到该样本图像image_11对应于标签label_m的预测损失;当修正后的标注信息tm[image_11]为0时,上述公式的加号右侧部分生效,得到该样本图像image_11对应于标签label_m的预测损失;当当修正后的标注信息tm[image_11]为-1时,不计算该样本图像image_11对应于标签label_m的预测损失。
[0286]
同样地,若样本图像image_11对应其他标签的标注信息为1或0时,可以获取到该样本图像在该标签下的预测损失;服务器104可以得到样本图像在相应标签下的预测损失的和值,得到该样本图像image_11在当次迭代的多标签预测损失。其中,若样本图像image_11对应某一标签的标注信息为-1,那么该样本图像image_11在当次迭代的多标签预测损失不包括样本图像image_11对应该标签的预测损失。
[0287]
在训练完成后,去除多标签预测网络,保留卷积神经网络和量化网络,得到预训练的图像处理模型。服务器104可以将预训练的图像处理模型用于图像检索。
[0288]
具体地,服务器104利用预训练的图像处理模型得到各库存图像的量化特征,并将各库存图像的量化特征经过sign函数进行二值化激活,得到各库存图像的二值量化特征,将各库存图像的二值量化特征作为库存图像自身的索引,并存入数据存储系统中。另外,服务器104还可以按照簇的设定数量,基于库存图像的量化特征或二值量化特征,对各库存图像进行kmeans聚类,得到多个簇,将位于簇中心的库存图像的二值量化特征作为该簇的查询索引,建立位于簇中心的库存图像的二值量化特征与该簇的关联关系。
[0289]
当服务器104接收到终端102发送的输入图像时,利用预训练的图像处理模型得到输入图像的量化特征,并经过sign函数进行二值化激活,得到输入图像的二值量化特征。服务器104获取该输入图像的二值量化特征分别与作为各簇的查询索引的二值量化特征之间的距离;服务器104在作为各簇的查询索引的二值量化特征中,确定与输入图像的二值量化特征间的距离最近,或者与输入图像的二值量化特征间的距离小于预设距离的二值量化特征,并将该二值量化特征所关联的簇作为目标簇;将该目标簇的库存图像作为与输入图像匹配的检索图像;服务器104获取该输入图像的二值量化特征分别与各检索图像的二值量化特征间的距离,并按照距离从小到大的排序,确定排在预设位数之前的检索图像,并按距离从小到大的排序,依次反馈排在预设位数之前的检索图像。
[0290]
图8为图像处理模型的处理方法的架构示意图。其中,利用多标签标注模型得到各图像的多标签标注信息。在得到多标签预测网络输出的样本图像在各标签的预测概率后,若直接基于多标签标注模型得到各图像的多标签标注信息,确定损失,该损失噪声较大,可以称为带噪损失。在图像处理模型训练时若直接基于带噪损失进行迭代更新,会导致图像处理模型对各标签的噪声样本图像过拟合。
[0291]
图8的右上方示意图表现了某标签下正负样本的预测概率的分布情况,包括多标签标注模型确定的无标记正样本的预测概率的分布情况,以及经过无噪样本图像判决后的已标签正样本的预测概率的分布情况。本实施例基于该标签的负样本阈值和正样本阈值实现该标签的无噪样本图像的判决(其中,负样本的曲线波峰对应的横坐标为该标签的负样
本阈值、已标记正样本的曲线波峰的横坐标为该标签的正样本阈值),提升多标签分类效果。
[0292]
其中,上述处理过程中,涉及不同图像的量化特征间的距离,或者,不同图像的深度特征间的距离,可以用欧式距离表征。
[0293]
在图像处理模型训练过程中,经由sign函数进行映射的结果可以设为-1和1,得到由-1和1组成的二值量化特征;在图像检索的应用场景中,经由sign函数进行映射的结果可以设为0和1,得到由0和1组成的二值量化特征。
[0294]
不同图像的二值量化特征间的距离,是通过统计二值量化特征间对应位置的数值不同的数量得到的,例如二值量化特征1000和二值量化特征0011中,有3个位置的数值不同,这两个二值量化特征间的距离为3。图像的二值量化特征间的距离可以称为位数可以称为汉明距离(hamming distance)。
[0295]
本实施例中,通过获取大规模弱监督多标签标注信息、在量化学习中通过动态标签预测方式来挖掘出各标签的无标记正样本图像和无标签负样本图像,并修正样本图像对应标签的标注信息,使得图像处理模型在对多标签的语义学习提升的过程中根据学习到的信息对样本图像的弱监督多标签的标注信息进行反馈并修正、在修正的样本图像的多标签的标注信息与度量学习迭代中逐步收敛。将各标签的正负样本阈值与各样本图像的弱监督多标签标注信息进行比对,可以获取到各标签的准确率较高的正负样本图像,并修正样本图像对应标签的标注信息,通过动态维护各标签的正负样本阈值,以基于主动学习机制在每次迭代中逐渐加入置信度性更高的正负样本图像进行学习,最终使得图像处理模型可以学习到更多有效的标签数据获得最终的量化特征。
[0296]
本实施例中,融合多标签预测损失和三元组的损失进行参数迭代更新,实现多标签的语义学习和度量学习,可避免仅度量学习的语义漏召回以及仅语义学习的排序不当等问题;并且,借助已有的或预训练的多标签标注模型,对全量样本图像集进行多标签标注,通过基于先验知识等的弱监督的方式获取到图像处理模型学习需要的大规模弱监督多标签标注信息,节省标注成本;借助先验方法从视频中获取到度量学习需要的相似样本图像对,可以快速获取大规模全量样本图像集;借助各标签的无噪正负样本图像的跟踪与样本图像的多标签的标注信息的修正,挖掘到更多干净样本图像,避免弱监督多标签标注信息中的噪声信息影响整体模型学习效果,从而提升多标签准确率。
[0297]
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0298]
在一个实施例中,如图9所示,提供了一种图像处理模型的处理装置,包括:
[0299]
样本图像集获取模块902,用于获取当次迭代的样本图像集;
[0300]
当次迭代的前向处理模块904,用于通过前次迭代更新的图像处理模型提取所述样本图像集中样本图像的图像特征,对所述图像特征进行量化处理得到量化特征,依据所
述量化特征进行多标签预测获得所述样本图像的多标签预测概率;
[0301]
多标签预测损失确定模块906,用于基于前次迭代更新的对应各个标签的正负样本阈值与所述样本图像的多标签预测概率,从所述样本图像集中确定对应各个标签的无噪样本图像并修正所述无噪样本图像的标注信息,根据所述无噪样本图像的标注信息与多标签预测概率,确定当次迭代的多标签预测损失;
[0302]
正负样本阈值更新模块908,用于根据所述无噪样本图像的多标签预测概率,对前次迭代更新的对应各个标签的正负样本阈值更新,得到当次迭代更新的对应各个标签的正负样本阈值;
[0303]
量化损失确定模块910,用于从所述样本图像集中确定所述样本图像的相似样本图像与非相似样本图像,基于所述样本图像、所述相似样本图像与所述非相似样本图像的量化特征,以及所述样本图像的量化特征与相应的量化目标,确定当次迭代的量化损失;
[0304]
当次迭代的后向处理模块912,用于基于所述多标签预测损失与所述量化损失,对前次迭代更新的图像处理模型更新得到当次迭代更新的图像处理模型。
[0305]
在一个实施例中,所述多标签预测损失确定模块906,还用于依次将所述多标签中的每个标签作为目标标签;获取前次迭代更新的对应所述目标标签的正样本阈值与负样本阈值;当所述样本图像的多标签预测概率中,对应所述目标标签的预测概率大于等于所述目标标签的正样本阈值时,则确定所述样本图像为所述当次迭代中的对应所述目标标签的无噪正样本图像,修正所述样本图像对应所述目标标签的标注信息为第一值;当所述样本图像的多标签预测概率中,对应所述目标标签的预测概率小于等于所述目标标签的负样本阈值时,则确定所述样本图像为所述当次迭代中的对应所述目标标签的无噪负样本图像,修正所述样本图像对应所述目标标签的标注信息为第二值。
[0306]
在一个实施例中,所述正负样本阈值更新模块908,还用于依次将所述多标签中的每个标签作为目标标签;根据所述当次迭代中的所述目标标签的无噪正样本图像,对应所述目标标签的预测概率的均值,对前次迭代更新的对应所述目标标签的正样本阈值进行更新,得到当次迭代更新的对应所述目标标签的正样本阈值;根据所述当次迭代中的所述目标标签的无噪负样本图像,对应所述目标标签的预测概率的均值,对前次迭代更新的对应所述目标标签的负样本阈值进行更新,得到当次迭代更新的对应所述目标标签的负样本阈值。
[0307]
在一个实施例中,所述正负样本阈值更新模块908,还用于将前次迭代更新的对应所述目标标签的正样本阈值,与所述当次迭代中的所述目标标签的无噪正样本图像对应所述目标标签的预测概率的均值进行加权求和,得到当次迭代更新的对应所述目标标签的正样本阈值;其中,所述前次迭代更新的对应所述目标标签的正样本阈值的权重系数大于所述均值的权重系数。
[0308]
在一个实施例中,所述正负样本阈值更新模块908,还用于将前次迭代更新的对应所述目标标签的负样本阈值,与所述当次迭代中的所述目标标签的无噪负样本图像对应所述目标标签的预测概率的均值进行加权求和,得到当次迭代更新的对应所述目标标签的负样本阈值;其中,所述前次迭代更新的对应所述目标标签的负样本阈值权重系数大于所述均值的权重系数。
[0309]
在一个实施例中,所述多标签预测损失确定模块906,还用于依次将所述多标签中
的每个标签作为目标标签;对于对应所述目标标签的每个无噪样本图像,根据修正后的所述无噪样本图像的标注信息与所述无噪样本图像的多标签预测概率中对应所述目标标签的预测概率,计算所述目标标签的预测损失;将对应每个标签的预测损失求和,得到当次迭代的多标签预测损失。
[0310]
在一个实施例中,所述样本图像集包括相似样本图像对,所述相似样本图像对包括的两个样本图像相似;
[0311]
所述量化损失确定模块910,还用于对于所述样本图像集的每个相似样本图像对,生成与所述相似样本图像对相应的三元组;所述三元组包括目标样本图像、所述目标样本图像的相似样本图像与所述目标样本图像的非相似样本图像;对于每个三元组,根据所述目标样本图像与所述相似样本图像的量化特征的差异,所述目标样本图像与所述非相似样本图像的量化特征之间的差异,计算三元组量化损失;根据所述样本图像集的每个样本图像的量化特征与相应的量化目标之间的差异,计算图像量化损失;将三元组量化损失与所述图像量化损失进行加权求和,得到当次迭代的量化损失。
[0312]
在一个实施例中,所述量化损失确定模块910,还用于将所述相似样本图像对中的两个样本图像,作为目标样本图像与所述目标样本图像的相似样本图像;基于当次提取的图像特征,从所述样本图像集中确定至少一个与所述目标样本图像不相似的样本图像,作为所述目标样本图像的非相似样本图像;将所述目标样本图像、所述目标样本图像的相似样本图像与所述目标样本图像的非相似样本图像构成至少一个三元组。
[0313]
在一个实施例中,所述装置还包括:相似样本图像对获取模块,用于获取视频的分镜;将同一分镜的图像作为相似样本图像,得到对应于同一分镜的多个相似样本图像对;
[0314]
所述量化损失确定模块910,还用于获取所述目标样本图像的当次提取的图像特征和各候选样本图像的当次提取的图像特征;所述候选样本图像是所述样本图像集中除所述目标样本图像所属的相似样本图像对外,其他相似样本图像对的样本图像;基于所述目标样本图像的当次提取的图像特征分别与各候选样本图像的当次提取的图像特征之间的距离,按照距离从小到大的顺序,对各候选样本图像进行排序;确定排在设定位数后的候选样本图像,并从排在设定位数后的候选样本图像中确定与所述目标样本图像不相似的样本图像,作为所述目标样本图像的非相似样本图像。
[0315]
在一个实施例中,所述量化损失确定模块910,还用于将所述样本图像的量化特征输入预设符号函数,得到所述样本图像的量化特征的符号,作为所述样本图像的量化目标;基于所述样本图像的量化特征与相应的符号之间的差异,计算所述样本图像的图像量化损失。
[0316]
在一个实施例中,所述图像处理模型包括量化网络和多标签预测网络;
[0317]
所述当次迭代的后向处理模块912,用于将所述多标签预测损失与所述量化损失进行加权求和,得到当次迭代的总损失;依据当次迭代的总损失,依次对前次迭代更新得到的图像处理模型中所述多标签预测网络的参数与所述量化网络的参数进行更新,得到当次迭代更新的图像处理模型。
[0318]
在一个实施例中,每次迭代为全量训练轮中的任一次迭代,每次迭代使用的样本图像集为全量样本图像集的子集;
[0319]
所述装置还包括正负样本阈值确定模块,用于在所述当次迭代为首个基于各标签
的正负样本阈值确定无噪样本图像的全量训练轮中的首次迭代时,获取全量样本图像集中各个样本图像的原始标注信息,以及完成前一全量训练轮后各个样本图像的多标签预测概率;依次将所述多标签中的各个标签作为目标标签;对于每个目标标签,根据所述原始标注信息确定所述目标标签的正样本图像与负样本图像;根据完成前一全量训练轮后所述目标标签的正样本图像的多标签预测概率中,对应所述目标标签的预测概率的均值,初始化所述当次迭代所需的所述目标标签的正样本阈值;根据完成前一全量训练轮后所述目标标签的负样本图像的多标签预测概率中,对应所述目标标签的预测概率的均值,初始化所述当次迭代所需的所述目标标签的负样本阈值。
[0320]
在一个实施例中,所述装置还包括图像检索模块,用于在满足训练停止条件时,得到预训练的图像处理模型;获取用于图像检索的输入图像;通过所述预训练的图像处理模型,提取所述输入图像的图像特征,对所述输入图像的图像特征进行量化处理得到所述输入图像的量化特征;将所述输入图像的量化特征与图像库中各个库存图像的量化特征进行比对;根据比对结果确定与所述输入图像匹配的检索图像。
[0321]
关于图像处理模型的处理装置的具体限定和技术效果可以参见上文中对于图像处理模型的处理方法的限定和技术效果,在此不再赘述。上述图像处理模型的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0322]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端102或服务器104,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储图像处理模型的处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备还包括输入输出接口,输入输出接口是处理器与外部设备之间交换信息的连接电路,它们通过总线与处理器相连,简称i/o接口。该计算机程序被处理器执行时以实现一种图像处理模型的处理方法。
[0323]
本领域技术人员可以理解,图10中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0324]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述各个方法实施例中的步骤。
[0325]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各个方法实施例中的步骤。
[0326]
在一个实施例中,提供了一种计算机程序产品,其上存储有计算机程序,所述计算机程序被处理器执行上述各个方法实施例中的步骤。
[0327]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关
国家和地区的相关法律法规和标准。
[0328]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
[0329]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0330]
以上的实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
技术特征:
1.一种图像处理模型的处理方法,其特征在于,所述方法包括:获取当次迭代的样本图像集;通过前次迭代更新的图像处理模型提取所述样本图像集中样本图像的图像特征,对所述图像特征进行量化处理得到量化特征,依据所述量化特征进行多标签预测获得所述样本图像的多标签预测概率;基于前次迭代更新的对应各个标签的正负样本阈值与所述样本图像的多标签预测概率,从所述样本图像集中确定对应各个标签的无噪样本图像并修正所述无噪样本图像的标注信息,根据所述无噪样本图像的标注信息与多标签预测概率,确定当次迭代的多标签预测损失;根据所述无噪样本图像的多标签预测概率,对前次迭代更新的对应各个标签的正负样本阈值更新,得到当次迭代更新的对应各个标签的正负样本阈值;从所述样本图像集中确定所述样本图像的相似样本图像与非相似样本图像,基于所述样本图像、所述相似样本图像与所述非相似样本图像的量化特征,以及所述样本图像的量化特征与相应的量化目标,确定当次迭代的量化损失;基于所述多标签预测损失与所述量化损失,对前次迭代更新的图像处理模型更新得到当次迭代更新的图像处理模型。2.根据权利要求1所述的方法,其特征在于,所述基于前次迭代更新的对应各个标签的正负样本阈值与所述样本图像的多标签预测概率,从所述样本图像集中确定对应各个标签的无噪样本图像并修正所述无噪样本图像的标注信息,包括:依次将所述多标签中的每个标签作为目标标签;获取前次迭代更新的对应所述目标标签的正样本阈值与负样本阈值;当所述样本图像的多标签预测概率中,对应所述目标标签的预测概率大于等于所述目标标签的正样本阈值时,则确定所述样本图像为所述当次迭代中的对应所述目标标签的无噪正样本图像,修正所述样本图像对应所述目标标签的标注信息为第一值;当所述样本图像的多标签预测概率中,对应所述目标标签的预测概率小于等于所述目标标签的负样本阈值时,则确定所述样本图像为所述当次迭代中的对应所述目标标签的无噪负样本图像,修正所述样本图像对应所述目标标签的标注信息为第二值。3.根据权利要求2所述的方法,其特征在于,所述根据所述无噪样本图像的多标签预测概率,对前次迭代更新的对应各个标签的正负样本阈值更新,得到当次迭代更新的对应各个标签的正负样本阈值,包括:依次将所述多标签中的每个标签作为目标标签;根据所述当次迭代中的所述目标标签的无噪正样本图像,对应所述目标标签的预测概率的均值,对前次迭代更新的对应所述目标标签的正样本阈值进行更新,得到当次迭代更新的对应所述目标标签的正样本阈值;根据所述当次迭代中的所述目标标签的无噪负样本图像,对应所述目标标签的预测概率的均值,对前次迭代更新的对应所述目标标签的负样本阈值进行更新,得到当次迭代更新的对应所述目标标签的负样本阈值。4.根据权利要求3所述的方法,其特征在于,所述根据所述当次迭代中的所述目标标签的无噪正样本图像,对应所述目标标签的预测概率的均值,对前次迭代更新的对应所述目
标标签的正样本阈值进行更新,得到当次迭代更新的对应所述目标标签的正样本阈值,包括:将前次迭代更新的对应所述目标标签的正样本阈值,与所述当次迭代中的所述目标标签的无噪正样本图像对应所述目标标签的预测概率的均值进行加权求和,得到当次迭代更新的对应所述目标标签的正样本阈值;其中,所述前次迭代更新的对应所述目标标签的正样本阈值的权重系数大于所述均值的权重系数。5.根据权利要求3所述的方法,其特征在于,所述根据所述当次迭代中的所述目标标签的无噪负样本图像,对应所述目标标签的预测概率的均值,对前次迭代更新的对应所述目标标签的负样本阈值进行更新,得到当次迭代更新的对应所述目标标签的负样本阈值,包括:将前次迭代更新的对应所述目标标签的负样本阈值,与所述当次迭代中的所述目标标签的无噪负样本图像对应所述目标标签的预测概率的均值进行加权求和,得到当次迭代更新的对应所述目标标签的负样本阈值;其中,所述前次迭代更新的对应所述目标标签的负样本阈值权重系数大于所述均值的权重系数。6.根据权利要求1所述的方法,其特征在于,所述根据所述无噪样本图像的标注信息与多标签预测概率,确定当次迭代的多标签预测损失,包括:依次将所述多标签中的每个标签作为目标标签;对于对应所述目标标签的每个无噪样本图像,根据修正后的所述无噪样本图像的标注信息与所述无噪样本图像的多标签预测概率中对应所述目标标签的预测概率,计算所述目标标签的预测损失;将对应每个标签的预测损失求和,得到当次迭代的多标签预测损失。7.根据权利要求1所述的方法,其特征在于,所述样本图像集包括相似样本图像对,所述相似样本图像对包括的两个样本图像相似;所述从所述样本图像集中确定所述样本图像的相似样本图像与非相似样本图像,基于所述样本图像、所述相似样本图像与所述非相似样本图像的量化特征,以及所述样本图像的量化特征与相应的量化目标,确定当次迭代的量化损失,包括:对于所述样本图像集的每个相似样本图像对,生成与所述相似样本图像对相应的三元组;所述三元组包括目标样本图像、所述目标样本图像的相似样本图像与所述目标样本图像的非相似样本图像;对于每个三元组,根据所述目标样本图像与所述相似样本图像的量化特征的差异,所述目标样本图像与所述非相似样本图像的量化特征之间的差异,计算三元组量化损失;根据所述样本图像集的每个样本图像的量化特征与相应的量化目标之间的差异,计算图像量化损失;将三元组量化损失与所述图像量化损失进行加权求和,得到当次迭代的量化损失。8.根据权利要求7所述的方法,其特征在于,所述对于所述样本图像集的每个相似样本图像对,生成与所述相似样本图像对相应的三元组,包括:将所述相似样本图像对中的两个样本图像,作为目标样本图像与所述目标样本图像的相似样本图像;基于当次提取的图像特征,从所述样本图像集中确定至少一个与所述目标样本图像不
相似的样本图像,作为所述目标样本图像的非相似样本图像;将所述目标样本图像、所述目标样本图像的相似样本图像与所述目标样本图像的非相似样本图像构成至少一个三元组。9.根据权利要求8所述的方法,其特征在于,所述方法还包括:获取视频的分镜;将同一分镜的图像作为相似样本图像,得到对应于同一分镜的多个相似样本图像对;所述基于当次提取的图像特征,从所述样本图像集中确定至少一个与所述目标样本图像不相似的样本图像,作为所述目标样本图像的非相似样本图像,包括:获取所述目标样本图像的当次提取的图像特征和各候选样本图像的当次提取的图像特征;所述候选样本图像是所述样本图像集中除所述目标样本图像所属的相似样本图像对外,其他相似样本图像对的样本图像;基于所述目标样本图像的当次提取的图像特征分别与各候选样本图像的当次提取的图像特征之间的距离,按照距离从小到大的顺序,对各候选样本图像进行排序;确定排在设定位数后的候选样本图像,并从排在设定位数后的候选样本图像中确定与所述目标样本图像不相似的样本图像,作为所述目标样本图像的非相似样本图像。10.根据权利要求7所述的方法,其特征在于,所述根据所述样本图像集的每个样本图像的量化特征与相应的量化目标之间的差异,计算图像量化损失,包括:将所述样本图像的量化特征输入预设符号函数,得到所述样本图像的量化特征的符号,作为所述样本图像的量化目标;基于所述样本图像的量化特征与相应的符号之间的差异,计算所述样本图像的图像量化损失。11.根据权利要求1所述的方法,其特征在于,所述图像处理模型包括量化网络和多标签预测网络;基于所述多标签预测损失与所述量化损失,对前次迭代更新的图像处理模型更新得到当次迭代更新的图像处理模型,包括:将所述多标签预测损失与所述量化损失进行加权求和,得到当次迭代的总损失;依据当次迭代的总损失,依次对前次迭代更新得到的图像处理模型中所述多标签预测网络的参数与所述量化网络的参数进行更新,得到当次迭代更新的图像处理模型。12.根据权利要求1所述的方法,其特征在于,每次迭代为全量训练轮中的任一次迭代,每次迭代使用的样本图像集为全量样本图像集的子集;所述方法还包括:在所述当次迭代为首个基于各标签的正负样本阈值确定无噪样本图像的全量训练轮中的首次迭代时,获取全量样本图像集中各个样本图像的原始标注信息,以及完成前一全量训练轮后各个样本图像的多标签预测概率;依次将所述多标签中的各个标签作为目标标签;对于每个目标标签,根据所述原始标注信息确定所述目标标签的正样本图像与负样本图像;根据完成前一全量训练轮后所述目标标签的正样本图像的多标签预测概率中,对应所述目标标签的预测概率的均值,初始化所述当次迭代所需的所述目标标签的正样本阈值;根据完成前一全量训练轮后所述目标标签的负样本图像的多标签预测概率中,对应所
述目标标签的预测概率的均值,初始化所述当次迭代所需的所述目标标签的负样本阈值。13.根据权利要求1所述的方法,其特征在于,所述方法还包括:在满足训练停止条件时,得到预训练的图像处理模型;获取用于图像检索的输入图像;通过所述预训练的图像处理模型,提取所述输入图像的图像特征,对所述输入图像的图像特征进行量化处理得到所述输入图像的量化特征;将所述输入图像的量化特征与图像库中各个库存图像的量化特征进行比对;根据比对结果确定与所述输入图像匹配的检索图像。14.一种图像处理模型的处理装置,其特征在于,所述装置包括:样本图像集获取模块,用于获取当次迭代的样本图像集;当次迭代的前向处理模块,用于通过前次迭代更新的图像处理模型提取所述样本图像集中样本图像的图像特征,对所述图像特征进行量化处理得到量化特征,依据所述量化特征进行多标签预测获得所述样本图像的多标签预测概率;多标签预测损失确定模块,用于基于前次迭代更新的对应各个标签的正负样本阈值与所述样本图像的多标签预测概率,从所述样本图像集中确定对应各个标签的无噪样本图像并修正所述无噪样本图像的标注信息,根据所述无噪样本图像的标注信息与多标签预测概率,确定当次迭代的多标签预测损失;正负样本阈值更新模块,用于根据所述无噪样本图像的多标签预测概率,对前次迭代更新的对应各个标签的正负样本阈值更新,得到当次迭代更新的对应各个标签的正负样本阈值;量化损失确定模块,用于从所述样本图像集中确定所述样本图像的相似样本图像与非相似样本图像,基于所述样本图像、所述相似样本图像与所述非相似样本图像的量化特征,以及所述样本图像的量化特征与相应的量化目标,确定当次迭代的量化损失;当次迭代的后向处理模块,用于基于所述多标签预测损失与所述量化损失,对前次迭代更新的图像处理模型更新得到当次迭代更新的图像处理模型。15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至13中任一项所述的方法。16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至13中任一项所述的方法。17.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至13中任一项所述的方法。
技术总结
本申请提供一种图像处理模型的处理方法、装置、设备和存储介质,可以在大量噪声样本图像中实现模型的有效训练,包括:通过前次迭代更新的图像处理模型提取当次迭代的样本图像的量化特征,获得样本图像的多标签预测概率;基于前次迭代更新的各标签的正负样本阈值与样本图像的多标签预测概率,确定各标签的无噪样本图像,根据修正后的无噪样本图像的标注信息与多标签预测概率,确定当次迭代的多标签预测损失;基于样本图像、相似样本图像与非相似样本图像的量化特征,和样本图像的量化特征与相应的量化目标,确定当次迭代的量化损失;基于多标签预测损失与量化损失,对前次迭代更新的图像处理模型进行迭代更新。的图像处理模型进行迭代更新。的图像处理模型进行迭代更新。
技术研发人员:郭卉
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2022.01.07
技术公布日:2023/7/20
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
