一种开放环境的模型溯源方法及系统
未命名
10-19
阅读:149
评论:0
1.本发明属于数字图像取证领域,特别涉及一种基于渐进式开放空间扩展的开集模型溯源方法及系统。
背景技术:
2.现有的模型溯源工作在固定有限的已知模型集上取得了理想的溯源效果,然而,大部分工作没有考虑到现实世界中存在的大量未知模型,这些方法往往会以高置信度将未知模型识别为已知的某一个模型。
3.一个直接的解决开集模型溯源问题的方法是将现有的开集识别方法应用于模型溯源。现有的开集识别方法大致可分为基于判别或生成的方法,基于判别的开集识别方法的性能高度依赖于闭集分类器,简单地迁移这类方法并不能提升生成模型指纹的特征学习。基于生成的开集识别方法通过对开放空间的模拟,使得闭集类别的特征空间更加紧凑,从而提高未知样本的检测效果。然而,现有的基于生成的开集识别工作往往仅利用单一的生成器或机制来模拟开集样本或特征,导致合成的样本不具有多样性。单个生成器可以产生不同语义的开集样本,但其指纹是固定的,因此不适合模型溯源的开放空间的扩展。
4.为了解决上述问题,本项发明针对开集模型溯源任务提出基于渐进式开放空间扩展的开集模型溯源方法,通过逐步增加增强模型的方式渐进式模拟未知模型的潜在开放空间,在溯源已知模型的同时区分已知和未知模型。从而提高模型溯源算法在开集环境下的表现。
技术实现要素:
5.针对上述问题,本发明提出一种开放环境的模型溯源方法,包括:以已知图像和对应的已知图像生成模型类别构建为闭集样本;以卷积神经网络构建增强模型,基于该闭集样本以该增强模型生成对应未知图像生成模型类别的开集样本;以该闭集样本和该开集样本训练任务模型,通过完成训练的任务模型预测给定图像的图像生成模型。
6.本发明所述的开放环境的模型溯源方法,其中对于任一闭集样本,将该闭集样本输入该增强模型,通过n步训练得到n个增强模型及对应的n个开集样本。
7.本发明所述的开放环境的模型溯源方法,其中该增强模型的损失函数l
recons
是生成的开集样本和输入图像在像素域的重建损失,x为闭集样本,为当前增强模型生成的开集样本,为随机挑选的一个旧增强模型生成的开集样本,l
div
是多样性损失,是多样性损失,α、β为超参数,表示新开集样本的特征嵌入,表示旧开集样本的特征嵌入,z表示输入图像的特征嵌入,f
cos
为余弦相似度函数,d为避免开集样本特征和闭集样本特征完全重合的距离阈值。
8.本发明所述的开放环境的模型溯源方法,其中该增强模型具有两层卷积,每层卷
积的权重大小是3
×
32
×3×
3。
9.本发明所述的开放环境的模型溯源方法,其中该任务模型的损失函数l
cls
(x)为已知图像生成模型类别的交叉熵损失函数,l
metric
为区分各未知图像生成模型类别的度量损失,l
metric
采用triplet损失函数。
10.本发明所述的开放环境的模型溯源方法,其中该任务模型包括特征提取器和k路分类头,将该给定图像作为该任务模型的输入,得到该给定图像对应k种已知图像生成模型类型的置信度,若该置信度中的最大值大于阈值θ,则该给定图像分类为该最大值对应的已知图像生成模型类别,反之,则该给定图像分类为未知图像生成模型类别。
11.本发明还提出一种开放环境的模型溯源系统,包括:闭集样本获取模块,用于以已知图像和对应的已知图像生成模型类别构建为闭集样本;开机样本获取模块,用于以卷积神经网络构建增强模型,基于该闭集样本以该增强模型生成对应未知图像生成模型类别的开集样本;训练及预测模块,用于以该闭集样本和该开集样本训练任务模型,通过完成训练的任务模型预测给定图像的图像生成模型。
12.本发明所述的开放环境的模型溯源系统,其中该任务模型包括特征提取器和k路分类头,该训练及预测模块将该给定图像作为该任务模型的输入,得到该给定图像对应k种已知图像生成模型类型的置信度,若该置信度中的最大值大于阈值θ,则该给定图像分类为该最大值对应的已知图像生成模型类别,反之,则该给定图像分类为未知图像生成模型类别。
13.本发明还提出一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,当该计算机可执行指令被执行时,实现如前所述的开放环境的模型溯源方法。
14.本发明还提出一种数据处理装置,包括如前所述的计算机可读存储介质,当该数据处理装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指令时,实现开放环境的模型溯源。
附图说明
15.图1是本发明的模型溯源方法流程图。
16.图2是本发明的数据处理装置示意图。
具体实施方式
17.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进一步详细说明。应当理解,此处所描述的具体实施方法仅仅用以解释本发明,并不用于限定本发明。
18.本发明的主要解决的技术问题为如何进行有效的开集空间的模拟,提高模型溯源算法在开集环境的表现。
19.本发明的模型溯源方法采用基于卷积小模型的开放空间模拟方法。为了模拟未知模型的开放空间,一个直观的方法是训练大量接近真实模型的模型。然而,考虑所有类型的真实模型的训练代价太高。为了解决这个问题,本发明采用少量参数卷积小模型,小模型接收已知模型的生成图像作为输入,保持输入图像的语义但对图像的痕迹进行扰动。通过这
种方法,可以以少量参数的代价,模拟位于已知模型指纹边界的开集空间。
20.此外,还采用基于渐进式训练的开放空间扩展方法。为了丰富模拟的开集空间,需要采用对模拟的开集空间进行扩展。一个直观的方法是独立训练大量的小模型。然而,单纯地增加小模型数量可能会导致不同小模型扩展的开集空间存在交叉,开集空间扩展效率不高。为了解决这个问题,本发明提出基于渐进式训练的开放空间扩展方法,通过约束新扩展的开集空间和旧扩展空间的差异性,提高开放空间扩展的效率。
21.本发明的具体实施方法包括任务模型和n个增强模型。任务模型包括特征提取器和k-way分类头,k为已知类别数。每个epoch新训练一个增强模型。如图1所示,下面分别介绍任务模型和n个增强模型的训练过程:
22.步骤s1,以已知图像和对应的已知图像生成模型类别构建为闭集样本x;
23.步骤s2,增强模型训练:为当前增强模型生成的开集样本,为随机挑选的一个旧增强模型生成的开集样本。当前增强模型的训练损失为:
[0024][0025]
其中,l
recons
是生成的开集样本和输入图像在像素域的重建损失,l
div
是一个多样性损失,约束新增强模型生成的开集样本和旧增强模型生成的开集样本在特征空间的距离尽可能大,从而保证新增强模型能够在旧扩增的开集空间范围外进行有效的开集空间扩展。具体地,l
div
损失的计算方式如下:
[0026][0027]
其中,和是新开集样本和旧开集样本的特征嵌入,z是输入图像的特征嵌入,f
cos
是余弦相似度函数。l
div
的第一项约束旧开集样本和新开集样本的相似度越低越好。然而,单纯地约束新开集样本和旧开集样本不相似有可能会使增强模型生成同样远离已知模型边界的简单开集样本。为了避免这一情况,l
div
的第二项约束了新开集样本和已知样本的特征相似度尽可能高,同时采用距离阈值d避免开集样本特征和已知样本特征完全重合。
[0028]
步骤s3,训练任务模型:给定闭集样本x,新生成开集样本和旧生成开集样本任务模型的损失函数l
task
为:
[0029][0030]
其中,l
cls
(x)是已知类别分类的交叉熵损失,通过l
metric
约束任务模型区分已知样本和开集样本,同时区分不同的已知类别和开集样本类别。为了避免模型遗忘旧的开集样本,本发明同时在旧和新的开集样本上进行了l
metric
的计算。具体地,l
metric
采用triplet损失,不同于以往工作将所有开集样本都作为k+1类,本发明给不同类别的已知样本输入到增强模型后得到的开集样本赋予不同的开集类别,在包含已知样本和开集样本的图像池中随机挑选三元组进行triplet损失的计算。
[0031]
步骤s4,开放环境模型预测:给定给定图像,首先将给定图像输入特征抽取器和分类头,得到每类预测的置信度。若最大置信度大于阈值θ,则图像分类为最大置信度对应的模型,否则,识别为未知模型。
[0032]
图2是本发明的数据处理装置示意图。如图2所示,本发明实施例还提供一种计算机可读存储介质,以及一种数据处理装置。本发明的计算机可读存储介质存储有计算机可
执行指令,计算机可执行指令被数据处理装置的处理器执行时,实现开放环境的图像生成模型溯源。本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器、fpga、asic等)完成,所述程序可以存储于可读存储介质中,如只读存储器、磁盘或光盘等。上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块可以采用硬件的形式实现,例如通过集成电路来实现其相应功能,也可以采用软件功能模块的形式实现,例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明实施例不限制于任何特定形式的硬件和软件的结合。
[0033]
本发明提出的基于渐进式开放空间扩展的模型开集溯源方法,其核心思想是通过渐进式增加增强模型的方法来模拟未知模型的潜在开放空间。本发明考虑了三种包括未见随机种子、未见结构和未见数据集的开集场景,大量的实验结果表明本发明的方法优于现有的模型溯源方法和开集识别方法。
[0034]
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变形,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
技术特征:
1.一种开放环境的模型溯源方法,其特征在于,包括:以已知图像和对应的已知图像生成模型类别构建为闭集样本;以卷积神经网络构建增强模型,基于该闭集样本以该增强模型生成对应未知图像生成模型类别的开集样本;以该闭集样本和该开集样本训练任务模型,通过完成训练的任务模型预测给定图像的图像生成模型。2.如权利要求1所述的开放环境的模型溯源方法,其特征在于,对于任一闭集样本,将该闭集样本输入该增强模型,通过n步训练得到n个增强模型及对应的n个开集样本。3.如权利要求1所述的开放环境的模型溯源方法,其特征在于,该增强模型的损失函数l
recons
是生成的开集样本和输入图像在像素域的重建损失,x为闭集样本,为当前增强模型生成的开集样本,为随机挑选的一个旧增强模型生成的开集样本,l
div
是多样性损失,α、β为超参数,表示新开集样本的特征嵌入,表示旧开集样本的特征嵌入,z表示输入图像的特征嵌入,f
cos
为余弦相似度函数,d为避免开集样本特征和闭集样本特征完全重合的距离阈值。4.如权利要求3所述的开放环境的模型溯源方法,其特征在于,该增强模型具有两层卷积,每层卷积的权重大小是3
×
32
×3×
3。5.如权利要求3所述的开放环境的模型溯源方法,其特征在于,该任务模型的损失函数l
cls
(x)为已知图像生成模型类别的交叉熵损失函数,l
metric
为区分各未知图像生成模型类别的度量损失,l
metric
采用triplet损失函数。6.如权利要求1所述的开放环境的模型溯源方法,其特征在于,该任务模型包括特征提取器和k路分类头,将该给定图像作为该任务模型的输入,得到该给定图像对应k种已知图像生成模型类型的置信度,若该置信度中的最大值大于阈值θ,则该给定图像分类为该最大值对应的已知图像生成模型类别,反之,则该给定图像分类为未知图像生成模型类别。7.一种开放环境的模型溯源系统,其特征在于,包括:闭集样本获取模块,用于以已知图像和对应的已知图像生成模型类别构建为闭集样本;开集样本获取模块,用于以卷积神经网络构建增强模型,基于该闭集样本以该增强模型生成对应未知图像生成模型类别的开集样本;训练及预测模块,用于以该闭集样本和该开集样本训练任务模型,通过完成训练的任务模型预测给定图像的图像生成模型。8.如权利要求7所述的开放环境的模型溯源系统,其特征在于,该任务模型包括特征提取器和k路分类头,该训练及预测模块将该给定图像作为该任务模型的输入,得到该给定图像对应k种已知图像生成模型类型的置信度,若该置信度中的最大值大于阈值θ,则该给定图像分类为该最大值对应的已知图像生成模型类别,反之,则该给定图像分类为未知图像生成模型类别。
9.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,当该计算机可执行指令被执行时,实现如权利要求1~6任一项所述的开放环境的模型溯源方法。10.一种数据处理装置,包括如权利要求9所述的计算机可读存储介质,当该数据处理装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指令时,实现开放环境的模型溯源。
技术总结
本发明提出一种开放环境的模型溯源方法,包括:以已知图像和对应的已知图像生成模型类别构建为闭集样本;以卷积神经网络构建增强模型,基于该闭集样本以该增强模型生成对应未知图像生成模型类别的开集样本;以该闭集样本和该开集样本训练任务模型,通过完成训练的任务模型预测给定图像的图像生成模型。本发明还提出一种开放环境的模型溯源系统,以及一种用于开放环境下模型溯源的数据处理装置。开放环境下模型溯源的数据处理装置。开放环境下模型溯源的数据处理装置。
技术研发人员:曹娟 杨天韵 汪旦丁 唐胜
受保护的技术使用者:中国科学院计算技术研究所
技术研发日:2023.06.15
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
