一种通用的学件查搜与复用的方法和装置

未命名 08-07 阅读:95 评论:0


1.本发明涉及计算机技术领域,尤其涉及一种通用的学件查搜与复用的方法和装置。


背景技术:

2.机器学习方法在大量领域得到了成功应用,包括自然语言处理、图像识别、视频语音识别等。然而,目前的机器学习仍面临不可避免的问题:想要从头开始构建一个优秀的机器学习模型仍然代价很高,往往需要大量有概念标记的历史数据(称为有标记数据)、算力资源、以及机器学习专业知识;已有的优质模型往往难以应对环境的变化,在旧环境中表现优异的模型面对新的环境可能失去原有的性能,不得不面临弃用;模型在适应新环境的过程中容易遗忘历史环境中学习到的知识;由于数据隐私与所有权的问题,高质量的数据无法被分享和公开,且新任务上数据标记的获取本就需要耗费大量的人力物力资源。如何利用大量已有任务上训练得到的优质模型来辅助解决新的任务,节省数据收集和模型训练的代价,已经成为机器学习研究中的一个重要课题。
3.此外,传统的迁移学习、领域自适应等方法虽然已经在很多场景中有广泛的应用;然而这些方法在实际中仍旧存在着许多局限性。首先,它们考虑的模型数量规模十分有限,且往往假定用于知识迁移的源域任务对用户的目标任务潜在有用,即用户只能得到少量与之紧密关联的源域模型的帮助;其次,它们通常假定可以访问源领域任务的原始数据,此假设严重影响了这两类方法在强调数据隐私保护的实际任务中的应用。


技术实现要素:

4.本发明的目的是提供一种通用的学件查搜与复用的方法和装置。
5.根据本技术的实施例,提供了一种基于学件范式进行模型查搜与复用的方法,其中,所述方法包括:
6.基于当前用户任务需求对应的查询信息,通过基于语义规约进行匹配,从学件库中筛选出多个候选学件;
7.通过基于统计规约进行匹配,从所述多个候选学件中选择一个或多个学件;
8.向所述用户返回所选择的一个或多个学件,以供用户对相应的模型进行复用。
9.根据本技术的实施例,提供了一种基于学件范式进行模型查搜与复用的装置,其中,所述装置包括:
10.用于基于当前用户任务需求对应的查询信息,通过基于语义规约进行匹配,从学件库中筛选出多个候选学件的装置;
11.用于通过基于统计规约进行匹配,从所述多个候选学件中选择一个或多个学件的装置;
12.用于向所述用户返回所选择的一个或多个学件,以供用户对相应的模型进行复用的装置。
13.根据本技术的实施例,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现本技术实施例的方法。
14.根据本技术的实施例,提供了一种计算机可读的存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本技术实施例的方法。
15.与现有技术相比,本技术实施例具有以下优点:通过收集开发者的模型,为其生成语义规约与统计规约并组合成学件来存储至学件库,并且,针对不同用户的机器学习任务需求,基于语义规约和统计规约来查搜匹配得到对用户有帮助的学件来进一步复用于用户任务,使得用户无需从头训练新的模型即可获得对其有帮助的优质模型来进行复用,提升了效率;本技术实施例在语义规约的基础上通过统计规约进一步查搜模型,从而能够更精准地识别对用户有帮助的模型;本技术实施例不接触用户以及所有模型开发者的原始数据,使得数据隐私得到了严格保护。
附图说明
16.通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
17.图1示出了根据本技术实施例的基于学件范式进行模型查搜与复用的方法流程图;
18.图2示出了根据本技术实施例的一个示例性的学件管理系统的示意图;
19.图3示出了根据本技术实施例的基于学件范式进行模型查搜与复用的装置的结构示意图。
20.附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
21.在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
22.在上下文中所称“计算机设备”,也称为“电脑”,是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备,其可以包括处理器与存储器,由处理器执行在存储器中预存的存续指令来执行预定处理过程,或是由asic、fpga、dsp等硬件执行预定处理过程,或是由上述二者组合来实现。计算机设备包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。
23.所述计算机设备包括用户设备与网络设备。其中,所述用户设备包括但不限于电脑、智能手机、pda等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(cloud computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述计算机设备可单独运行来实现本技术,也可接入网络并通过与网络中的其他计算
机设备的交互操作来实现本技术。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、vpn网络等。
24.需要说明的是,所述用户设备、网络设备和网络等仅为举例,其他现有的或今后可能出现的计算机设备或网络如可适用于本技术,也应包含在本技术保护范围以内,并以引用方式包含于此。
25.后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时,用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。
26.这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本技术的示例性实施例的目的。但是本技术可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。
27.应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
28.应当理解的是,当一个单元被称为“连接”或“耦合”到另一单元时,其可以直接连接或耦合到所述另一单元,或者可以存在中间单元。与此相对,当一个单元被称为“直接连接”或“直接耦合”到另一单元时,则不存在中间单元。应当按照类似的方式来解释被用于描述单元之间的关系的其他词语(例如“处于...之间”相比于“直接处于...之间”,“与...邻近”相比于“与...直接邻近”等等)。
29.这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。
30.还应当提到的是,在一些替换实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。
31.下面结合附图对本发明作进一步详细描述。
32.图1示出了根据本技术实施例的基于学件范式进行模型查搜与复用的方法流程图。所述方法包括步骤s1、步骤s2和步骤s3。
33.本技术实施例采用学件范式来存储和管理来自不同开发者的模型。其中,所述学件包括模型和描述该模型的规约。包含众多学件的学件库可被称作学件市场。
34.其中,本技术实施例的方法适用于各种类型的模型,例如线性模型、森林模型、支持向量机、神经网络模型等等。
35.本技术实施例的方法由学件库所在的设备执行。
36.在步骤s1之前,所述方法通过步骤s4和步骤s6来接收来自各个开发者的模型并构
建相应的学件。
37.在步骤s4中,基于开发者上传的模型,生成该模型对应的语义规约。
38.其中,所述语义规约包括用于描述模型的一个或多个标签信息。所述语义规约还可包括文字描述信息,例如,模型上传者输入的模型处理任务的文字描述信息。
39.根据一个实施例,所述语义规约包括基于预设的多级标签库的语义标签集合。所述多级标签库为描述学件属性的多级语义标签,例如任务类型、数据信息、模型类型与大小等。其中,所述语义标签可根据模型库自定义设计。
40.例如,在销量预测的应用场景中,该多级标签库包含有关业务类型的三级标签:批发零售业-零售-百货,批发零售业-批发-生鲜,制造业-机械-发动机;有关任务类型的二级标签:监督学习-回归,监督学习-分类,无监督学习-聚类;有关数据类型的一级标签:表格,文本,图像;有关模型类型的一级标签:线性模型,深度模型,集成模型。一个具体的语义规约是由标签库中的一些语义标签构成的集合,例如用户的语义规约可以是[

批发零售业-零售-百货’,

监督学习-回归’,

表格数据’]。其中,用户不一定需要填写所有的标签,标签填写的越详细,则可筛选到更小的规约岛,进而进行统计规约的匹配。
[0041]
根据一个实施例,对开发者上传的模型进行质量检测,并基于检测结果判断是否接收该模型并将其存储至学件库。若质量检测结果满足要求,则接收该模型并将其存储至学件库;若质量检测结果未满足要求,则向用户进行相应的提示。
[0042]
其中,本领域技术人员应熟悉,可通过多种方式来对开发者上传的模型进行质量检测,例如计算反映模型性能的指标,并检测指标数值是否优于预定阈值等,本领域技术人员可基于实际需求选择合适的方式来进行质量检测,此处不再赘述。
[0043]
接着,在步骤s5中,根据该模型对应的语义规约,获取该模型对应的统计规约。
[0044]
其中,所述统计规约包括用于描述数据集的统计分布的信息。优选地,统计规约的形式包括但不限于缩略核均值嵌入、统计缩略集、聚类中心点、分布略缩集。
[0045]
具体地,通过将与该模型对应的语义规约对应的统计规约构建接口及参数发送给开发者所在的设备,以供开发者根据所述统计规约构建接口和参数,以及模型所使用的原始数据集构建用于描述数据集统计信息的统计规约,并获取开发者上传的统计规约。
[0046]
根据一个实施例,基于模型对应的语义规约确定相应的规约岛,接着将所确定的规约岛对应的统计规约构建接口及参数发送给开发者所在的设备。其中,所述参数包括但不限于核函数。接着,开发者所在的设备根据所述统计规约构建接口和参数,以及模型所使用的原始数据集,构建用于描述数据集统计信息的统计规约,并上传至学件库。
[0047]
在步骤s6中,基于所述模型及其对应的语义规约和统计规约,得到该模型相应的学件。
[0048]
根据一个实施例,所述方法包括步骤s7和步骤s8。
[0049]
在步骤s7中,生成多个用于存储学件的规约岛。
[0050]
其中,同一个规约岛中的模型解决相同或相似的及其学习任务需求。
[0051]
在步骤s8中,对于从各个开发者接收的模型,基于模型对应的语义规约,将其放置于相应的规约岛中进行存储,使得每个规约岛包含的学件的模型具有相同或相似的语义规约。
[0052]
每接收一个新模型,基于该模型对应的语义规约和统计规约得到该模型对应的学
件后,对该模型对应的规约岛进行相应地更新,以完成新学件的添加。
[0053]
下面参照图1进行说明,在步骤s1中,基于当前用户任务需求对应的查询信息,通过基于语义规约进行匹配,从学件库中筛选出多个候选学件。
[0054]
其中,所述查询信息包括用于在学件库中查询模型的文字信息。
[0055]
其中,所述方法获取查询信息的方式包括但不限于:
[0056]
1)基于预设的标签信息,生成与当前用户任务需求对应的一个或多个关键词,作为相应的查询信息;例如,基于学件库预设的多级标签库,通过可视化界面获取用户选择或输入的与自身任务对应的多级标签,将相应的关键词集合作为查询信息;
[0057]
2)将用户输入的其他文字信息作为查询信息;例如,如果用户没有提供完成的多级标签,将该用户上传的对于任务的文字描述信息作为查询信息。
[0058]
根据一个实施例,所述方法将来自各个开发者的模型放置于多个规约岛中进行存储,每个规约岛包含的学件的模型具有相同或相似的语义规约,所述步骤s1包括步骤s101。
[0059]
在步骤s101中,基于所述查询信息,通过计算语义相似度,确定与所述查询信息语义相似度最高的规约岛,并将该规约岛中的学件作为候选学件。
[0060]
其中,计算语义相似度包括各种文本相似程度的计算方式,例如,计算两个标签的余弦相似度或最优运输距离等。
[0061]
例如,在销量预测的应用场景,基于学件库预设的多级标签库,通过可视化界面获取用户选择的与自身任务对应的多级标签,将所选标签对应的关键词集合“回归任务、销量预测”作为查询信息。接着,基于该查询信息,通过计算语义相似度计算,定位到“销量预测任务”对应的学件规约岛,并将该规约岛中的学件作为候选学件,从而将大量的解决销量预测任务的学习模型从学件库中筛选出来。
[0062]
继续参照图1进行说明,在步骤s2中,通过基于统计规约进行匹配,从所述多个候选学件中选择一个或多个学件。
[0063]
其中,所述方法将所选择的一个或多个学件作为最可能对用户任务有帮助的学件来提供给用户。
[0064]
其中,所述步骤s2包括步骤s201和步骤s202。
[0065]
在步骤s201中,将多个候选学件发送至用户,以获取相应的测试反馈信息。
[0066]
其中,所述反馈信息包括但不限于模型准确率、查准率、查全率等。
[0067]
在步骤s202中,根据所述测试反馈信息和用户任务的统计规约在多个候选学件中进行匹配,得到相匹配的一个或多个学件。
[0068]
其中,统计规约的匹配指结合代表性学件上的测量指标进行统计规约之间的度量计算,包括但不限于再生核希尔伯特空间中的距离计算等。
[0069]
根据一个实施例,所述方法对多个候选学件进行进一步筛选得到代表性学件,并将代表性学件送至用户,以获取相应的测试反馈信息,并根据所述测试反馈信息和用户任务的统计规约在多个代表性学件中进行匹配,得到相匹配的一个或多个学件。
[0070]
其中,根据本实施例的方法筛选代表性学件的方式包括但不限于计算规约岛中各个学件统计规约之间的距离矩阵,基于该矩阵使用聚类算法,并将簇中心对应的学件作为代表性学件等。
[0071]
根据一个实施例,所述方法在得到用户同意的情况下,通过预设的统计规约构建
接口和参数,以及用户任务所收集的原始数据集,构建用户任务的统计规约。
[0072]
如果用户不希望上传统计规约,则基于语义规约以及用户的测试反馈信息进行学件匹配。
[0073]
在步骤s3中,向所述用户返回所选择的一个或多个学件,以供用户对相应的模型进行复用。
[0074]
根据一个实施例,所述方法指导用户进行学件复用,该学件复用包括对各个学件在用户任务上的预测结果进行集成、使用用户任务数据对学件模型进行微调、将学件模型的预测结果作为额外特征扩充用户训练数据等。
[0075]
例如,在销量预测的场景为例,所述方法基于标签的语义相似度的计算完成语义规约的匹配。假设用户填写的多级标签[

批发零售业-零售-百货’,

监督学习-回归’],假设所述方法在学件库中查搜到了大量可能对用户任务有帮助的学件,它们的语义规约可能是[

批发零售业-零售-百货’,

监督学习-回归’,

表格数据’,

线性模型’]以及[

批发零售业-零售-百货’,

监督学习-回归’,

文本数据’,

集成模型’],也可能完全相同的标签下,仍有大量模型。接着,所述方法根据用户上传的统计规约,基于规约匹配函数对这些学件进行统计规约的查搜,例如采用缩略核均值嵌入时,将挑选出一个或多个与用户统计规约最接近的学件返回给用户,供用户用于解决自己的学习任务。
[0076]
下面结合一个示例对本技术实施例的方法进行说明。
[0077]
图2示出了根据本技术实施例的一个示例性的学件管理系统的示意图。
[0078]
参照图2,所述学件管理系统采用学件来存储和管理来自不同开发者的模型。本示例的流程主要包括上传阶段和部署阶段。在上传阶段,来自不同开发者(表示为开发者1至开发者n)的数以万计的模型(表示为模型y1至yn)被提交到一个学件库中,称为学件市场。在部署阶段,当用户面临新的机器学习任务时,学件管理系统根据该新任务对应的用户实际需求,通过语义规约匹配模块和统计规约匹配模块进行匹配,将对其任务最可能有帮助的学件返回给用户并引导用户在新任务上应用这些学件。
[0079]
具体地,所述上传阶段的流程主要包括:
[0080]
p1:开发者根据自身任务和待上传模型的特性,基于学件市场预设的多级标签库,为模型生成多级标签集合,作为语义规约;给定开发者拥有待上传的机器学习模型y0和原始数据集d0,根据学件市场预设的多级标签库m,为该模型y0生成语义规约,记为s0={s1,

,sn};
[0081]
p2:学件管理系统的服务器端对开发者上传的模型y0进行质量检测,判断是否接收该模型。若通过质量检测,则执行下一个步骤p3;若未通过质量检测,则提示出错,以供用户重新上传模型;
[0082]
p3:基于语义规约s0确定相应的规约岛该规约岛中放置了所有语义规约为s0的学件;
[0083]
p4将规约岛对应的统计规约构建接口及参数发送给开发者所在的设备;其中,所述参数包括核函数
[0084]
p5:开发者所在的设备通过所述统计规约构建接口和核函数以及模型所使用
的原始数据集d0,构建用于描述数据集统计信息的统计规约φ0,并上传至系统;
[0085]
p6:系统基于收到开发者的模型、该模型的语义规约与统计规约,构建该模型对应的学件l0=(y0,s0,φ0);
[0086]
p7:系统将学件l0放置在其模型所对应的规约岛中进行存储,并在规约岛中完成新学件的接收,从而将约岛相应地更新为
[0087]
上述部署阶段的流程主要包括:
[0088]
q1:基于学件库预设的多级标签库m,通过可视化界面获取用户选择或输入的与自身任务对应的多级标签,从而将用户需求转化成为便于后续匹配学件的关键词集合u={u1,

,un};
[0089]
q2:系统根据用户提供的关键词集合进行语义规约匹配,通过语义相似度计算,匹配至与用户需求最为相关的学件规约岛,完成对于学件市场中学件的预筛选;例如,对任意语义标签集合与与(假设|s1|=|s2|=n),定义语义相似度函数:
[0090][0091]
对于余弦相似度,语义相似度函数定义为:
[0092][0093]
接着,基于用户的关键词集合u,最小化语义相似度函数,得到优化结果为与用户需求最为相关的规约岛从而完成对市场中学件的预筛选,该求解过程表示如下:
[0094]
min sim(s

,u),
[0095]is

={(y,s,φ)|s=s

}
ꢀꢀꢀ
(3)
[0096]
q3:从规约岛中挑选出一个或多个具有代表性的学件,将规约岛对应的统计规约构建接口及参数传输给用户供其测试,并向用户指定一系列需要上传的信息,如模型表现指标等;例如,从规约岛中挑选出m个具有代表性的学件,表示为与该规约岛对应的统计规约构建接口和核函数k
s*
一并返回给用户;
[0097]
q4:用户在自身任务上测试代表性学件,将所需测试结果上传至服务器端。用户可自愿选择是否上传统计规约来帮助系统更好地识别出对该任务有帮助的学件。若同意,则用户通过接收的统计规约构建接口及参数以及自身任务所收集的原始数据集,构建描述用户任务分布的统计规约上传给系统;其中,用户在自身任务上测试代表性学件所对应的模型获得测试指标集合其中其中表示一个或多个评价指标,例如对于模型准确率,测试指标集合定义为用户若同意上传统计规约,则可以通过本地数据集du与系统提供的核函数k
s*
构建相应的统计规约φu;
[0098]
q5:系统根据代表性学件在用户任务上的测试指标,以及用户数据的统计规约,在
规约岛中进行统计规约的细致匹配,从数据分布的层面查搜对用户任务最可能有帮助的学件;具体地,系统对对于一系列测试指标t={t1,

,tm}以及任意统计规约φ1与φ2会定义规约匹配函数f(t,φ1,φ2),例如对于统计规约使用缩略核均值嵌入且不考虑测试指标的辅助,规约匹配函数定义为:
[0099][0100]
接着,系统根据用户的统计规约φu与用户返回的指标集合tu,在规约岛内最小化规约匹配函数min f(tu,φ,φu),得到相匹配结果学件,该求解过程表示如下:
[0101]
min f(tu,φ,φu)
[0102][0103]
q6:系统将相匹配的学件返回给用户,并指导用户在自身任务上对这些学件进行复用;具体地,基于最终的匹配结果,将得到的一个或多个学件l
*
=(y
*
,s
*

*
)作为模型语义和数据分布层面都和用户任务最为相近、对用户任务最可能有帮助的学件返回给用户,并指导用户在自身任务上复用学件l
*

[0104]
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于本技术实施例学件查搜与复用的实现方式,均应包含在本发明的范围内。
[0105]
根据本技术实施例的方法,通过收集开发者的模型,为其生成语义规约与统计规约并组合成学件来存储至学件库,并且,针对不同用户的机器学习任务需求,基于语义规约和统计规约来查搜匹配得到对用户有帮助的学件来进一步复用于用户任务,使得用户无需从头训练新的模型即可获得对其有帮助的优质模型来进行复用,提升了效率;本技术实施例的方法在语义规约的基础上通过统计规约进一步查搜模型,从而能够更精准地识别对用户有帮助的模型;本技术实施例不接触用户以及所有模型开发者的原始数据,使得数据隐私得到了严格保护。
[0106]
图3示出了根据本技术实施例的基于学件范式进行模型查搜与复用的装置的结构示意图。所述装置包括:用于基于当前用户任务需求对应的查询信息,通过基于语义规约进行匹配,从学件库中筛选出多个候选学件的装置(以下简称“语义规约匹配装置1”),用于通过基于统计规约进行匹配,从所述多个候选学件中选择一个或多个学件的装置(以下简称“统计规约匹配装置2”),和用于向所述用户返回所选择的一个或多个学件,以供用户对相应的模型进行复用的装置(以下简称“学件返回与复用装置3”)。
[0107]
本技术实施例采用学件范式来存储和管理来自不同开发者的模型。其中,所述学件包括模型和描述该模型的规约。包含众多学件的学件库可被称作学件市场。
[0108]
其中,本技术实施例的方法适用于各种类型的模型,例如线性模型、森林模型、支持向量机、神经网络模型等等。
[0109]
在图3所示的操作之前,所述装置接收来自各个开发者的模型并构建相应的学件。所述装置包括用于基于开发者上传的模型,生成该模型对应的语义规约的装置(以下简称“语义规约生成装置”),用于根据该模型对应的语义规约,获取该模型对应的统计规约的装置(以下简称“统计规约获取装置”),和用于基于所述模型及其对应的语义规约和统计规
约,得到该模型相应的学件的装置(以下简称“学件生成装置”)。
[0110]
语义规约生成装置基于开发者上传的模型,生成该模型对应的语义规约。
[0111]
其中,所述语义规约包括用于描述模型的一个或多个标签信息。所述语义规约还可包括文字描述信息,例如,模型上传者输入的模型处理任务的文字描述信息。
[0112]
根据一个实施例,所述语义规约包括基于预设的多级标签库的语义标签集合。所述多级标签库为描述学件属性的多级语义标签,例如任务类型、数据信息、模型类型与大小等。其中,所述语义标签可根据模型库自定义设计。
[0113]
根据一个实施例,所述装置对开发者上传的模型进行质量检测,并基于检测结果判断是否接收该模型并将其存储至学件库。若质量检测结果满足要求,则所述装置接收该模型并将其存储至学件库;若质量检测结果未满足要求,则所述装置向用户进行相应的提示。
[0114]
其中,本领域技术人员应熟悉,可通过多种方式来对开发者上传的模型进行质量检测,例如计算反映模型性能的指标,并检测指标数值是否优于预定阈值等,本领域技术人员可基于实际需求选择合适的方式来进行质量检测,此处不再赘述。
[0115]
接着,统计规约获取装置根据该模型对应的语义规约,获取该模型对应的统计规约。
[0116]
其中,所述统计规约包括用于描述数据集的统计分布的信息。优选地,统计规约的形式包括但不限于缩略核均值嵌入、统计缩略集、聚类中心点、分布略缩集。
[0117]
具体地,统计规约获取装置通过将与该模型对应的语义规约对应的统计规约构建接口及参数发送给开发者所在的设备,以供开发者根据所述统计规约构建接口和参数,以及模型所使用的原始数据集构建用于描述数据集统计信息的统计规约,并获取开发者上传的统计规约。
[0118]
根据一个实施例,统计规约获取装置基于模型对应的语义规约确定相应的规约岛,接着将所确定的规约岛对应的统计规约构建接口及参数发送给开发者所在的设备。其中,所述参数包括但不限于核函数。接着,开发者所在的设备根据所述统计规约构建接口和参数,以及模型所使用的原始数据集,构建用于描述数据集统计信息的统计规约,并上传至学件库。
[0119]
学件生成装置基于所述模型及其对应的语义规约和统计规约,得到该模型相应的学件。
[0120]
根据一个实施例,所述装置包括用于生成多个用于存储学件的规约岛的装置(以下简称“规约岛生成装置”),和用于对于从各个开发者接收的模型,基于模型对应的语义规约,将其放置于相应的规约岛中进行存储的装置(以下简称“学件存储装置”)。
[0121]
规约岛生成装置生成多个用于存储学件的规约岛。
[0122]
其中,同一个规约岛中的模型解决相同或相似的及其学习任务需求。
[0123]
学件存储装置对于从各个开发者接收的模型,基于模型对应的语义规约,将其放置于相应的规约岛中进行存储,使得每个规约岛包含的学件的模型具有相同或相似的语义规约。
[0124]
每接收一个新模型,学件存储装置基于该模型对应的语义规约和统计规约得到该模型对应的学件后,对该模型对应的规约岛进行相应地更新,以完成新学件的添加。
[0125]
下面参照图3进行说明,语义规约匹配装置1基于当前用户任务需求对应的查询信息,通过基于语义规约进行匹配,从学件库中筛选出多个候选学件。
[0126]
其中,所述查询信息包括用于在学件库中查询模型的文字信息。
[0127]
其中,所述装置获取查询信息的方式包括但不限于:
[0128]
1)基于预设的标签信息,生成与当前用户任务需求对应的一个或多个关键词,作为相应的查询信息;例如,基于学件库预设的多级标签库,通过可视化界面获取用户选择或输入的与自身任务对应的多级标签,将相应的关键词集合作为查询信息;
[0129]
2)将用户输入的其他文字信息作为查询信息;例如,如果用户没有提供完成的多级标签,将该用户上传的对于任务的文字描述信息作为查询信息。
[0130]
根据一个实施例,所述装置将来自各个开发者的模型放置于多个规约岛中进行存储,每个规约岛包含的学件的模型具有相同或相似的语义规约。语义规约匹配装置1基于所述查询信息,通过计算语义相似度,确定与所述查询信息语义相似度最高的规约岛,并将该规约岛中的学件作为候选学件。
[0131]
其中,计算语义相似度包括各种文本相似程度的计算方式,例如,计算两个标签的余弦相似度或最优运输距离等。
[0132]
例如,在销量预测的应用场景,基于学件库预设的多级标签库,通过可视化界面获取用户选择的与自身任务对应的多级标签,将所选标签对应的关键词集合“回归任务、销量预测”作为查询信息。接着,语义规约匹配装置1基于该查询信息,通过计算语义相似度计算,定位到“销量预测任务”对应的学件规约岛,并将该规约岛中的学件作为候选学件,从而将大量的解决销量预测任务的学习模型从学件库中筛选出来。
[0133]
继续参照图3进行说明,统计规约匹配装置2通过基于统计规约进行匹配,从所述多个候选学件中选择一个或多个学件。
[0134]
其中,所述装置将所选择的一个或多个学件作为最可能对用户任务有帮助的学件来提供给用户。
[0135]
其中,所述统计规约匹配装置2包括用于将多个候选学件发送至用户,以获取相应的测试反馈信息的装置(以下简称“候选学件发送装置”),和用于根据所述测试反馈信息和用户任务的统计规约在多个候选学件中进行匹配,得到相匹配的一个或多个学件的装置(以下简称“子统计规约匹配装置”)。
[0136]
候选学件发送装置将多个候选学件发送至用户,以获取相应的测试反馈信息。
[0137]
其中,所述反馈信息包括但不限于模型准确率、查准率、查全率等。
[0138]
子统计规约匹配装置根据所述测试反馈信息和用户任务的统计规约在多个候选学件中进行匹配,得到相匹配的一个或多个学件。
[0139]
其中,统计规约的匹配指结合代表性学件上的测量指标进行统计规约之间的度量计算,包括但不限于再生核希尔伯特空间中的距离计算等。
[0140]
根据一个实施例,所述装置对多个候选学件进行进一步筛选得到代表性学件,并将代表性学件送至用户,以获取相应的测试反馈信息,并根据所述测试反馈信息和用户任务的统计规约在多个代表性学件中进行匹配,得到相匹配的一个或多个学件。
[0141]
其中,所述装置筛选代表性学件的方式包括但不限于计算规约岛中各个学件统计规约之间的距离矩阵,基于该矩阵使用聚类算法,并将簇中心对应的学件作为代表性学件
等。
[0142]
根据一个实施例,所述装置在得到用户同意的情况下,通过预设的统计规约构建接口和参数,以及用户任务所收集的原始数据集,构建用户任务的统计规约。
[0143]
如果用户不希望上传统计规约,则所述装置基于语义规约以及用户的测试反馈信息进行学件匹配。
[0144]
学件返回与复用装置3向所述用户返回所选择的一个或多个学件,以供用户对相应的模型进行复用。
[0145]
根据一个实施例,学件返回与复用装置3指导用户进行学件复用,该学件复用包括对各个学件在用户任务上的预测结果进行集成、使用用户任务数据对学件模型进行微调、将学件模型的预测结果作为额外特征扩充用户训练数据等。
[0146]
例如,在销量预测的场景为例,语义规约匹配装置1基于标签的语义相似度的计算完成语义规约的匹配。假设用户填写的多级标签[

批发零售业-零售-百货’,

监督学习-回归’],假设所述方法在学件库中查搜到了大量可能对用户任务有帮助的学件,它们的语义规约可能是[

批发零售业-零售-百货’,

监督学习-回归’,

表格数据’,

线性模型’]以及[

批发零售业-零售-百货’,

监督学习-回归’,

文本数据’,

集成模型’],也可能完全相同的标签下,仍有大量模型。接着,统计规约匹配装置2根据用户上传的统计规约,基于规约匹配函数对这些学件进行统计规约的查搜,例如采用缩略核均值嵌入时,学件返回与复用装置3将挑选出一个或多个与用户统计规约最接近的学件返回给用户,供用户用于解决自己的学习任务。
[0147]
根据本技术实施例的装置,通过收集开发者的模型,为其生成语义规约与统计规约并组合成学件来存储至学件库,并且,针对不同用户的机器学习任务需求,基于语义规约和统计规约来查搜匹配得到对用户有帮助的学件来进一步复用于用户任务,使得用户无需从头训练新的模型即可获得对其有帮助的优质模型来进行复用,提升了效率;本技术实施例的装置在语义规约的基础上通过统计规约进一步查搜模型,从而能够更精准地识别对用户有帮助的模型;本技术实施例不接触用户以及所有模型开发者的原始数据,使得数据隐私得到了严格保护。
[0148]
本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,ram存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个功能或步骤的电路。
[0149]
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
[0150]
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在
不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

技术特征:
1.一种基于学件范式进行模型查搜与复用的方法,其中,所述方法包括:基于当前用户任务需求对应的查询信息,通过基于语义规约进行匹配,从学件库中筛选出多个候选学件;通过基于统计规约进行匹配,从所述多个候选学件中选择一个或多个学件;向所述用户返回所选择的一个或多个学件,以供用户对相应的模型进行复用。2.根据权利要求1所述的方法,其中,所述学件包括模型和描述该模型的规约,所述学件库包括来自各个开发者的学件。3.根据权利要求1或2所述的方法,其中,所述语义规约包括用于描述模型的一个或多个标签信息,所述方法包括:基于预设的标签信息,生成与当前用户任务需求对应的一个或多个关键词,作为相应的查询信息。4.根据权利要求1至3中任一项所述的方法,其中,所述方法将来自各个开发者的模型放置于多个规约岛中进行存储,每个规约岛包含的学件的模型具有相同或相似的语义规约;其中,所述基于当前用户任务需求对应的查询信息,通过基于语义规约进行匹配,从学件库中筛选出多个候选学件的步骤包括:基于所述查询信息,通过计算语义相似度,确定与所述查询信息语义相似度最高的规约岛,并将该规约岛中的学件作为候选学件。5.根据权利要求1或2所述的方法,其中,所述统计规约包括用于描述数据集的统计分布的信息,所述通过基于统计规约进行匹配,从所述多个候选学件中选择一个或多个学件的步骤包括:将多个候选学件发送至用户,以获取相应的测试反馈信息;根据所述测试反馈信息和用户任务的统计规约在多个候选学件中进行匹配,得到相匹配的一个或多个学件。6.根据权利要求5所述的方法,其中,所述方法包括:在得到用户同意的情况下,通过预设的统计规约构建接口和参数,以及用户任务所收集的原始数据集,构建用户任务的统计规约。7.根据权利要求1或2所述的方法,其中,所述方法包括:基于开发者上传的模型,生成该模型对应的语义规约;根据该模型对应的语义规约,获取该模型对应的统计规约;基于所述模型及其对应的语义规约和统计规约,得到该模型相应的学件。8.根据权利要求7所述的方法,其中,所述方法包括:生成多个用于存储学件的规约岛;对于从各个开发者接收的模型,基于模型对应的语义规约,将其放置于相应的规约岛中进行存储,使得每个规约岛包含的学件的模型具有相同或相似的语义规约。9.一种基于学件范式进行模型查搜与复用的装置,其中,所述装置包括:用于基于当前用户任务需求对应的查询信息,通过基于语义规约进行匹配,从学件库中筛选出多个候选学件的装置;用于通过基于统计规约进行匹配,从所述多个候选学件中选择一个或多个学件的装
置;用于向所述用户返回所选择的一个或多个学件,以供用户对相应的模型进行复用的装置。10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8中任一所述的方法。11.一种计算机可读的存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至8中任一所述的方法。

技术总结
本发明的目的是提供一种通用的学件查搜与复用的方法和装置。所述方法包括:基于当前用户任务需求对应的查询信息,通过基于语义规约进行匹配,从学件库中筛选出多个候选学件;通过基于统计规约进行匹配,从所述多个候选学件中选择一个或多个学件;向所述用户返回所选择的一个或多个学件,以供用户对相应的模型进行复用。本申请实施例具有以下优点:通过收集开发者的模型,为其生成语义规约与统计规约并组合成学件来存储至学件库,并且,针对不同用户的机器学习任务需求,基于语义规约和统计规约来查搜匹配得到对用户有帮助的学件来进一步复用于用户任务,使得用户无需从头训练新的模型即可获得对其有帮助的优质模型来进行复用,提升了效率。提升了效率。提升了效率。


技术研发人员:周志华 谭志豪 詹德川
受保护的技术使用者:南京大学
技术研发日:2023.04.13
技术公布日:2023/8/5
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐