一种针对异构特征空间学件的查搜与复用方法

未命名 08-25 阅读:204 评论:0


1.本发明涉及一种针对异构特征空间学件的查搜与复用方法,属于模型复用技术领域。


背景技术:

2.通常情况下,从头开始训练一个表现优异的机器学习模型需要诸多条件,比如大量的高质量标记数据,高算力的机器,丰富的调参技巧等。由于数据隐私与所有权的问题,高质量的数据无法被分享和公开,阻碍了机器学习模型的复用与分享。学件范式旨在保护隐私的前提下帮助用户复用已有的训练好的模型而不是从零开始构建模型,这使得用户能够用更少的资源得到性能更好的模型。学件由训练好的模型和描述其特性的规约构成,各式各样的学件由学件库统一管理。
3.当学件库内模型共享相同特征空间时,缩略核均值嵌入规约已经得到实验验证与实际应用。而在现实的应用场景中,即便是处理相同的任务,模型也经常有着不同的特征空间。比如,对于一个大型的医疗数据库,即便是处理相同的机器学习任务,不同的模型提供者会因为不同的先验知识而对不同的数据表进行合并及训练模型,从而这些处理相同任务的模型有着不同的特征空间。
4.因此需要一种在不额外收集跨不同特征空间的辅助数据和不接触提交模型的原始数据的情况下,通过构建不同特征空间的联系,使得学件库可以统筹管理开发者提供的异构模型,并帮助用户查搜和复用相关的模型,即使这些模型的特征空间可能和用户任务不一致。这方面的成果将会在很多实际任务中发挥作用。


技术实现要素:

5.发明目的:本发明所要解决的技术问题是针对现有技术的不足,在不额外收集跨不同特征空间的辅助数据和不接触提交模型的原始数据的情况下,使得学件库可以统筹管理开发者提供的来自异构特征空间的模型,并帮助用户查搜和复用相关的模型,即使这些模型的特征空间可能和用户任务不一致。
6.技术方案:学件范式希望构建一个学件库,称为“学件市场”,并通过推荐模型帮助用户更便捷的解决自己的任务。本发明公开了一种在不使用跨不同特征空间的辅助数据和不接触提交模型的原始数据的情况下对特征空间不同的学件进行组织和利用的实现方法。学件库中包含了大量的特征空间不同的学件,而挖掘不同模型的准规约在重叠特征子集上的关系,可以构建出不同特征空间之间的关系,进而学习一个共同的子空间及不同特征空间到共同子空间的相关转换的映射函数。
7.一种针对异构特征空间学件的查搜与复用方法,包含两个阶段——提交阶段和部署阶段。在提交阶段,开发者提交模型和准规约,学件库基于所有提交模型的准规约学习子空间和相关的映射函数,同时基于映射函数对上传模型的准规约进行调整。在部署阶段,学件库根据用户提交的准需求查找和推荐模型。
8.进一步地,用户可以在自己的任务上复用这些模型。
9.下面介绍异构学件库两阶段流程的具体步骤。
10.提交阶段的步骤如下:
11.步骤101:每个开发者在自己的数据集上训练模型并生成rkme规约,由于该规约后续会被学件库调整,因此该规约被称作为准规约。
12.步骤102:开发者上传模型及准规约给学件库。
13.步骤103:学件库通过所有上传模型的准规约学习不同特征空间到同一子空间的映射函数;具体而言,提交的模型的准规约是一组带权样本点,通过求解一个输入为所有模型准规约的子空间学习的优化目标,可以学习到不同特征空间到同一子空间的相互转化的映射函数。
14.步骤104:学件库通过学习到的映射函数将模型的准规约调整为规约;具体而言,模型的准规约包含两部分,一部分是样本点,一部分是样本点的系数。调整过程中,保持系数不变,通过映射函数将样本点从原始特征空间投影到子空间中完成对准规约的调整。调整后的准规约称之为规约。
15.步骤105:模型和规约作为异构学件库中容纳和统一管理的学件。
16.部署阶段的步骤如下:
17.步骤201:用户在自己的数据集上生成rkme需求,由于该rkme需求后续会被学件库调整,因此该需求被称之为准需求。
18.步骤202:用户上传任务的准需求给学件库。
19.步骤203:学件库利用映射函数将用户的准需求转换为需求;与步骤104类似,用户的准需求也是基于一组带权样本定义,在转换用户的准需求时,系数不变,将样本投影到子空间中。
20.步骤204:学件库根据用户的需求以及学件的规约计算每个学件的相似度得分,将高于阈值的学件对应的模型推荐给用户;这一步的基础是经过学件库的调整,模型的准规约和用户的准需求都被投影到了相同的子空间中。之后可以使用各种方法计算相似度得分,比如用模型的规约的加权线性求和近似用户的需求,并求解每个模型对应的系数作为相似度的得分。
21.步骤205:学件库将映射函数传递给用户,同时基于推荐学件的规约训练得到模型选择器并将其传递给用户;在训练模型选择器时,将推荐的模型的规约的样本点作为输入,相应学件的序号作为输出,可以使用各种机器学习模型进行训练。
22.步骤206:用户通过映射函数将任务数据投影到子空间以及填充在缺失数据的特征子集上。具体而言,用户利用映射函数先将任务数据从原始特征空间投影到子空间,然后再从子空间投影到缺失的特征子集上。
23.步骤207:用户利用模型选择器,返回的模型及映射函数在自己的任务上做预测。比如说,用户可利用模型选择器在投影到子空间上的样本做预测,判断使用哪一个模型进行预测,然后利用相应的模型在相应的样本上做预测。
24.一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的针对异构特征空间学件的查搜与复用方法。
25.一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述针对异构特征空间学件的查搜与复用方法的计算机程序。
26.本发明提供了一种在不使用额外辅助数据情况下构建和利用异构学件库的方法。学件库通过本发明所提供的异构学件库构建的实现方案可以统一管理开发者上传的来自于不同特征空间的模型,而通过本发明提供的异构学件库利用的实现方案,学件库可以根据用户需求挑选对其任务有帮助的学件,并且帮助用户复用模型,即使这些模型的特征空间可能与用户任务的特征空间并不一致。本发明较大的拓展了学件库的应用面,不再要求所有的模型及用户任务都有着完全一致的特征空间。本发明可以应用于机器学习的各种应用领域,可以在保护开发者和用户数据隐私的情况下充分发挥已有机器学习模型的潜藏价值。
附图说明
27.图1为本发明实施例中所述的提交阶段的开发者操作流程图;
28.图2为本发明实施例中所述的提交阶段的学件库操作流程图;
29.图3为本发明实施例中所述的部署阶段的学件库操作流程图;
30.图4为本发明实施例中所述的部署阶段的用户操作流程图;
31.图5为本发明实施例中所述的子空间学习的优化流程图。
具体实施方式
32.下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本技术所附权利要求所限定的范围。
33.一种针对异构特征空间学件的查搜与复用方法,包含两个阶段——提交阶段和部署阶段。
34.提交阶段的步骤如下:
35.步骤101:每个开发者在自己的数据集上训练模型并生成rkme规约,由于该规约后续会被学件库调整,因此该规约被称作为准规约。
36.步骤102:开发者上传模型及准规约给学件库。
37.步骤103:学件库通过所有上传模型的准规约学习不同特征空间到同一子空间的映射函数;具体而言,提交的模型的准规约是一组带权样本点,通过求解一个输入为所有模型准规约的子空间学习的优化目标,可以学习到不同特征空间到同一子空间的相互转化的映射函数。
38.步骤104:学件库通过学习到的映射函数将模型的准规约调整为规约;具体而言,模型的准规约包含两部分,一部分是样本点,一部分是样本点的系数。调整过程中,保持系数不变,通过映射函数将样本点从原始特征空间投影到子空间中完成对准规约的调整。调整后的准规约称之为规约。
39.步骤105:模型和规约作为异构学件库中容纳和统一管理的学件。
40.103中,给出一种基于矩阵分解的子空间学习的优化目标及相应的求解方法,其输入为所有提交模型的rkme准规约。
41.假设完整的特征空间一共包含m个特征子集,模型或者用户任务的特征空间由其中若干个特征子集组合在一起。
42.通过模型的准规约学习子空间的优化目标为:
[0043][0044]
s.t.w
(k)
≥0.
[0045]
该优化目标对每个特征子集上的损失进行求和。每一个特征子集上的损失由三项构成,第一项是子空间学习的重构误差,表示利用子空间上的投影结果重构原始特征空间样本的误差。第二项是流型正则项,确保在子空间学习的过程中能保持局部结构,即两个样本在某一特征子集上距离接近时,它们在子空间上的投影也比较接近。第三项是子空间学习的不相近损失,由于一个样本跨多个特征子集,这些基于不同特征子集得到的子空间上的投影需要保持相近。
[0046]
该优化目标一共有三类输入变量,其中z
(k)
为所有在第k个特征子集上有数据的准规约的样本在该特征子集的部分所拼接的矩阵,γ
(k)
为对应数据z
(k)
的权重构成的对角矩阵,l
(k)
为对应数据z
(k)
的拉普拉斯矩阵。{w
(k)
},{v
(k)
},{(v
*
)
(k)
}为待优化变量,其中{w
(k)
}是系数矩阵,和样本矩阵z
(k)
共同组成第k个特征子集上的基矩阵b
(k)
=z
(k)w(k)
,{v
(k)
}是样本矩阵z
(k)
在子空间的投影,{(v
*
)
(k)
}是样本矩阵z
(k)
在子空间的投影的目标结果,α,β为正则项系数。该优化目标通过如下步骤进行求解:
[0047]
步骤1031(参数初始化):参数通过聚类方法进行初始化,比如说,通过加权k均值聚类的方法进行初始化的流程为用矩阵c
(k)
表示样本矩阵z
(k)
的聚类结果,即z
(k)
中的第i个样本xi属于第j个簇,则而其余元素均置零。参数通过下式初始化w
(k)
=v
(k)
=(c
(k)
+0.1e
(k)
)(d
(k)
)-1
,其中,d
(k)
=diag(n1,

,nk),nk是第k个簇的样本个数,e
(k)
是一个所有元素均为1的矩阵。
[0048]
步骤1032(优化w
(k)
):w
(k)
的更新通过带非负约束条件的二次规划方法实现。比如可以通过乘法更新法则(multiplicative updated rule)进行更新。为了表述的简洁,我们将w
(k)
,v
(k)
,γ
(k)
,k
(k)
简记为w,v,γ,k。其中k
(k)
是由z
(k)
导出的核矩阵。同时记k
+
为矩阵k的非正元素置为0后的矩阵,k-为矩阵-k的非正元素置为0后的矩阵。变量w
(k)
的更新流程如下,计算然后w
(k)
通过下式进行更新:w

mur(w,kγv,pw,nw)。其中优化准则mur(x,b,p,n)表示
[0049]
步骤1033(优化v
(k)
):v
(k)
的更新通过梯度下降方法实现,比如可以通过随机梯度下降更新。为了表述的简洁,我们将w
(k)
,v
(k)
,γ
(k)
,k
(k)
,(v
*
)
(k)
简记为w,v,γ,k,v
*
。同时记k
+
为矩阵k的非正元素置为0后的矩阵,k-为矩阵-k的非正元素置为0后的矩阵。随机梯度下降更新的具体流程为计算梯度然后
通过下式进行参数更新:v

v-η*grad,其中η表示梯度下降算法的步长。
[0050]
步骤1034(联合放缩):计算放缩矩阵λ
(k)
=diag(||v1.||,

,||vk.||),其中||x||

=maxj|xj|表示无穷范数。然后通过w
(k)
=w
(k)
λ
(k)
和v
(k)
=v
(k)

(k)
)-1
进行放缩。如果所有的下标k都遍历完成,则进入下一步,否则将k加1并转至步骤1032。
[0051]
步骤1035(优化):基于求解每一个准规约的样本在子空间的投影,即不同特征子集上投影结果(包含在中)的均值,然后根据v
(k)
涉及的样本的投影结果重组出(v
*
)
(k)
。如果达到最大轮次,则退出优化过程,否则转至步骤1032。
[0052]
步骤1036(输出映射函数):第k个特征子集上的基矩阵为b
(k)
=z
(k)w(k)
,基于此可以得到从第k个特征子集到子空间的映射函数以及从子空间到第k个特征子集的映射函数gk(vu)=b
(k)vu

[0053]
部署阶段的步骤如下:
[0054]
步骤201:用户在自己的数据集上生成rkme需求,由于该基于rkme的需求后续会被学件库调整,因此该需求被称之为准需求。
[0055]
步骤202:用户上传任务的准需求给学件库。
[0056]
步骤203:学件库利用映射函数将用户的准需求转换为需求;与步骤104类似,用户的准需求也是基于一组带权样本定义,在转换用户的准需求时,系数不变,将样本投影到子空间中。
[0057]
步骤204:学件库根据用户的需求以及学件的规约计算每个学件的相似度得分,将高于阈值的学件对应的模型推荐给用户;经过学件库的调整,模型的准规约和用户的准需求都被投影到了相同的子空间中,从而可以使用各种方法计算相似度得分,比如用模型的规约的核均值嵌入的加权线性求和近似用户的需求的核均值嵌入,并通过二次规划求解每个模型对应的系数作为相似度的得分,近似过程中的损失计算函数可以考虑定义在再生核希尔伯特空间的范数。
[0058]
步骤205:学件库将映射函数传递给用户,同时基于推荐学件的规约训练得到模型选择器并将其传递给用户;在训练模型选择器时,将推荐的模型的规约的样本点作为输入,相应学件的序号作为输出,可以使用各种机器学习模型进行训练,比如支持向量机,梯度提升树等。
[0059]
步骤206:用户通过映射函数将任务数据投影到子空间以及填充在缺失数据的特征子集上。具体而言,用户利用映射函数先将任务数据从原始特征空间投影到子空间,然后再从子空间投影到缺失的特征子集上。
[0060]
步骤207:用户利用模型选择器,返回的模型及映射函数在自己的任务上做预测。比如说,用户可利用模型选择器对投影到子空间上的样本做预测,判断使用哪一个模型进行预测,然后利用相应的模型在样本上做预测。
[0061]
显然,本领域的技术人员应该明白,上述的本发明实施例的针对异构特征空间学件的查搜与复用方法各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况
下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。

技术特征:
1.一种针对异构特征空间学件的查搜与复用方法,其特征在于,包含两个阶段——提交阶段和部署阶段;在提交阶段,开发者提交模型和准规约,学件库基于所有提交模型的准规约学习子空间和相关的映射函数,同时基于映射函数对上传模型的准规约进行调整;在部署阶段,学件库根据用户提交的准需求查找和推荐模型给用户,然后用户复用模型。2.根据权利要求1所述的针对异构特征空间学件的查搜与复用方法,其特征在于,提交阶段的步骤如下:步骤101:每个开发者在自己的数据集上训练模型并生成rkme规约,由于该规约后续会被学件库调整,因此该规约被称作为准规约;步骤102:开发者上传模型及准规约给学件库;步骤103:学件库通过所有上传模型的准规约学习不同特征空间到同一子空间的映射函数;步骤104:学件库通过学习到的映射函数将模型的准规约调整为规约;步骤105:模型和规约作为异构学件库中容纳和统一管理的学件。3.根据权利要求2所述的针对异构特征空间学件的查搜与复用方法,其特征在于,步骤103中,学件库通过准规约学习不同特征空间到同一子空间的映射函数;具体而言,提交的模型的准规约是一组带权样本点,通过求解一个输入为所有模型准规约的子空间学习的优化目标,学习到不同特征空间到同一子空间的相互转化的映射函数。4.根据权利要求2所述的针对异构特征空间学件的查搜与复用方法,其特征在于,所述步骤104中,学件库通过学习到的映射函数将模型的准规约调整为规约;具体而言,模型的准规约包含两部分,一部分是样本点,一部分是样本点的系数;调整过程中,保持系数不变,通过映射函数将样本点从原始特征空间投影到子空间中完成对准规约的调整;调整后的准规约称之为规约。5.根据权利要求1所述的针对异构特征空间学件的查搜与复用方法,其特征在于,部署阶段的步骤如下:步骤201:用户在自己的数据集上生成rkme需求,由于该rkme需求后续会被学件库调整,因此该需求被称之为准需求;步骤202:用户上传任务的准需求给学件库;步骤203:学件库利用映射函数将用户的准需求转换为需求;步骤204:学件库根据用户的需求以及学件的规约计算每个学件的相似度得分,将高于阈值的学件对应的模型推荐给用户;这一步的基础是经过学件库的调整,模型的准规约和用户的准需求都被投影到了相同的子空间中;步骤205:学件库将映射函数传递给用户,同时基于推荐学件的规约训练得到模型选择器并将其传递给用户;在训练模型选择器时,将推荐的模型的规约的样本点作为输入,相应学件的序号作为输出;步骤206:用户通过映射函数将任务数据投影到子空间以及填充在缺失数据的特征子集上;具体而言,用户利用映射函数先将任务数据从原始特征空间投影到子空间,然后再从子空间投影到缺失的特征子集上;步骤207:用户利用模型选择器,返回的模型及映射函数在自己的任务上做预测。6.根据权利要求5所述的针对异构特征空间学件的查搜与复用方法,其特征在于,所述
步骤203中,学件库利用映射函数将用户的准需求转换为需求;用户的准需求也是基于一组带权样本定义,在转换用户的准需求时,系数不变,将样本投影到子空间中。7.一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1-6中任一项所述的针对异构特征空间学件的查搜与复用方法。8.一种计算机可读存储介质,其特征在于:该计算机可读存储介质存储有执行如权利要求1-6中任一项所述针对异构特征空间学件的查搜与复用方法的计算机程序。

技术总结
本发明公开一种针对异构特征空间学件的查搜与复用方法,包含两个阶段——提交阶段和部署阶段;在提交阶段,开发者提交模型和准规约,学件库基于所有提交模型的准规约学习子空间和相关的映射函数,同时基于映射函数对上传模型的准规约进行调整;在部署阶段,学件库根据用户提交的准需求查找和推荐模型,然后用户复用模型。本发明在不额外收集跨多个特征空间的辅助数据和不接触提交模型的原始数据的情况下,使得学件库可以统筹管理开发者提供的来自异构特征空间的模型,并通过学件查搜使用户更方便有效地复用学件库中的模型。更方便有效地复用学件库中的模型。更方便有效地复用学件库中的模型。


技术研发人员:周志华 谭鹏 詹德川
受保护的技术使用者:南京大学
技术研发日:2023.04.13
技术公布日:2023/8/22
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐