更新算法模型的自学习方法、系统、设备及存储介质与流程

未命名 07-28 阅读：108 评论：0

1.本技术涉及人工智能技术领域，尤其涉及一种更新算法模型的自学习方法、系统、设备及存储介质。

背景技术：

2.云服务提供商通过算法模型来为客户提供智能化行业解决方案，算法模型例如包括但不限于：具有红绿灯调优功能的算法模型、具有实时出行数据预测功能的算法模型和具有智能推荐功能的算法模型。实际应用中，算法模型上线运行之前，会利用客户的应用数据在离线环境中进行微调训练(也可称作为离线微调)，以保证算法模型上线运行后具有较好的模型效果。算法模型上线运行后，仍然会不断迭代更新，以保证算法模型具有较好的模型效果。
3.目前，较为常规的针对算法模型上线运行后的更新方式是：手动收集算法模型的反馈数据，手动构建样本数据集，以及基于样本数据集对算法模型重新进行训练，得到更新后的算法模型，这种更新方式投入的人力成本较高，更新效率和智能化程度均较低。

技术实现要素：

4.本技术的多个方面提供一种更新算法模型的自学习方法、系统、设备及存储介质，用以提高算法模型的更新效率和智能化程度。
5.本技术实施例提供一种更新算法模型的自学习方法，包括：响应于模型更新事件被触发，获取自学习任务配置信息，自学习任务配置信息包括基础信息、样本构建配置信息和微调训练配置信息，基础信息包括用于获取埋点反馈数据的第一获取方式，埋点反馈数据是指对算法模型的上线运行效果进行反馈的相关信息；根据第一获取方式获取埋点反馈数据；根据埋点反馈数据和样本构建配置信息进行基于主动学习方式的样本构建，得到本次模型更新所需的本次训练样本数据集；根据微调训练配置信息和本次训练样本数据集对本次更新前的算法模型进行基于增量学习方式的微调训练，得到本次更新后的算法模型。
6.本技术实施例还提供一种更新算法模型的自学习系统，系统部署在云服务器中，系统包括：控制模块，以及分别与控制模块连接的人机交互模块、样本构建模块、模型训练模块和模型评测模块；人机交互模块，用于响应于用户输入的任务配置触发操作，显示自学习任务配置界面；响应于用户通过自学习任务配置界面触发的配置操作，配置自学习任务配置信息，并向控制模块发送自学习任务配置信息，自学习任务配置信息包括基础信息、样本构建配置信息、微调训练配置信息和模型评测配置信息，基础信息包括用于获取埋点反馈数据的第一获取方式和用于获取历史测试样本数据集的第二获取方式，模型评测配置信息包括目标性能测试指标和目标性能评测算法；样本构建模块，用于在控制模块的控制下，根据第一获取方式获取埋点反馈数据，根据埋点反馈数据和样本构建配置信息进行基于主动学习方式的样本构建，得到本次模型更新所需的本次训练样本数据集和本次测试样本数据集；模型训练模块，用于在控制模块的控制下，根据微调训练配置信息和本次训练样本数
据集对本次更新前的算法模型进行基于增量学习方式的微调训练，得到本次更新后的算法模型；模型评测模块，用于在控制模块的控制下，根据第二获取方式获取历史测试样本数据集；利用历史测试样本数据集和本次测试样本数据集分别对本次更新前的算法模型和本次更新后的算法模型进行针对目标性能测试指标的性能测试；利用目标性能评测算法基于本次更新前的算法模型和本次更新后的算法模型各自的性能测试结果进行对比评测，得到对比评测结果；根据对比测试结果确定本次更新后的算法模型是否满足上线运行条件。
7.本技术实施例还提供一种电子设备，包括：存储器和处理器；存储器，用于存储计算机程序；处理器耦合至存储器，用于执行计算机程序以用于执行更新算法模型的自学习方法中的步骤。
8.本技术实施例还提供一种存储有计算机程序的计算机可读存储介质，当计算机程序被处理器执行时，致使处理器能够实现更新算法模型的自学习方法中的步骤。
9.基于上述，本技术实施例提供一种更新算法模型的自学习方法、系统、设备及存储介质。在本技术实施例中，形成埋点反馈数据收集、基于主动学习方式的样本构建和基于增量学习方式的微调训练的自学习闭环链路，支持对各种模型范式的算法模型更新迭代自动化，降低了算法模型更新的人工运维成本，提高了算法模型的更新效率和智能化程度。进一步的，基于主动学习方式的样本构建，能够更好地挑选出具有代表性的高质量样本，有效降低了样本数据量，减少了对计算资源的要求，增强了算法模型在低资源环境落地的可行性。基于增量学习方式的微调训练，避免模型发生灾难性遗忘，保证了算法模型能持续不断地从新数据中学习知识，同时维持在历史数据上的效果不下降，增强算法模型对客户的应用数据变化的学习能力和泛化性能，减少了对计算资源的消耗。
附图说明
10.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
11.图1为本技术实施例提供的一种示例性的模型自学习的应用场景图；
12.图2为示例性的自学习任务配置界面；
13.图3为本技术实施例提供的一种更新算法模型的自学习方法的流程图；
14.图4为本技术实施例提供的另一种更新算法模型的自学习方法的流程图；
15.图5为本技术实施例提供的另一种更新算法模型的自学习方法的流程图；
16.图6为示例性的算法模型之间的关联关系；
17.图7为本技术实施例提供的一种更新算法模型的自学习系统的结构示意图；
18.图8为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
19.为使本技术的目的、技术方案和优点更加清楚，下面将结合本技术具体实施例及相应的附图对本技术技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
20.在本技术的实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以
上。“和/或”，描述关联对象的访问关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况，其中a，b可以是单数或者复数。在本技术的文字描述中，字符“/”一般表示前后关联对象是一种“或”的关系。此外，在本技术实施例中，“第一”、“第二”、“第三”、等只是为了区分不同对象的内容而已，并无其它特殊含义。
21.下面对本技术实施例涉及的一些词汇进行介绍：
22.主动学习(active learning)：一种通过主动选择最有价值的样本进行标注的机器学习或人工智能方法，其目的是使用尽可能少的、高质量的样本标注使模型达到较好的性能。主动学习的大致思路是通过机器学习的方法挑选出那些比较“难”分类、结果不确定性较高的样本数据，让人工再次确认和审核，然后将人工标注得到的数据再次使用有监督学习模型或者半监督学习模型进行训练，逐步提升模型的效果，将人工经验融入机器学习模型中。关于主动学习的更多介绍参见相关技术。
23.增量学习：能够保证算法模型在计算资源和存储资源有限的条件下持续学习新知识，泛化性能不下降。增量学习有如下几个特点：
①
学习新知识的同时能够保留以前学习到的大部分知识，也就是算法模型在旧任务和新任务上均能表现良好。
②
计算能力与内存应该随着类别数的增加固定或者缓慢增长，最理想的情况是一旦完成某一任务的学习，该任务的观测样本便被全部丢弃。
③
模型可以从新任务和新数据中持续学习新知识，当新任务在不同时间出现，它都是可训练的。目前，主流的增量学习方式例如包括但不限于：基于正则化的增量学习方式、基于回放的增量学习方式和基于参数隔离的增量学习方式。其中，基于正则化的增量学习方式通过引入额外损失的方式(比如蒸馏损失等)来修正梯度，保护模型学习到的旧知识。基于回放的增量学习方式在训练新任务时，会保留一部分具有代表性的旧数据来帮助模型复习曾经学到的旧知识。基于参数隔离的增量学习方式是在新任务上扩大旧的模型，对新模型、旧模型的参数进行不同程度的隔离，减少灾难性遗忘。关于增量学习的更多介绍参见相关技术。
24.微调(fine tuning)训练：是指利用新的训练样本数据集对已经训练好的算法模型进行少量的模型训练，以获得更好的模型性能。关于微调训练的更多介绍参见相关技术。
25.目前，较为常规的针对算法模型上线运行后的更新方式是：手动收集算法模型的反馈数据，手动构建样本数据集，以及基于样本数据集对算法模型重新进行训练，得到更新后的算法模型。这种更新方式投入的人力成本较高，更新效率和智能化程度均较低。
26.特别的，针对很多利用客户的计算资源基于样本数据集对算法模型重新进行训练的情况，整个算法模型更新过程会耗费客户较多的计算资源，更新效率和智能化程度均较低。另外，客户现场往往计算资源紧缺，出于成本的考虑，不仅缺少gpu(graphic processing unit，图形处理器)资源，甚至能用于训练模型的cpu(central processing unit，中央处理器)和内存资源也非常少，这会导致训练时间成倍增加，特别是，主流的算法模型为了追求更高的算法性能和泛化性能，参数量和训练数据需求量都不断增加，如何在低资源环境下进行模型训练是一个巨大的挑战。
27.基于上述，本技术实施例还提供一种更新算法模型的自学习方法、系统、设备及存储介质。在本技术实施例中，形成埋点反馈数据收集、基于主动学习方式的样本构建和基于增量学习方式的微调训练的自学习闭环链路，支持对各种模型范式的算法模型更新迭代自动化，降低了算法模型更新的人工运维成本，提高了算法模型的更新效率和智能化程度。进
一步的，基于主动学习方式的样本构建，能够更好地挑选出具有代表性的高质量样本，有效降低了样本数据量，减少了对计算资源的要求，增强了算法模型在低资源环境落地的可行性。基于增量学习方式的微调训练，避免模型发生灾难性遗忘，保证了算法模型能持续不断地从新数据中学习知识，同时维持在历史数据上的效果不下降，增强算法模型对客户的应用数据变化的学习能力和泛化性能。
28.图1为本技术实施例提供的一种示例性的模型自学习的应用场景图。参见图1，首先，收集客户的应用数据，并基于应用数据在离线环境中进行离线训练，得到具有特定功能的算法模型。在将算法模型上线发布之前，还可以利用客户的应用数据在离线环境中进行微调训练，并将微调训练后的算法模型进行上线发布。在此将上线后的算法模型称作为线上算法模型。
29.接着，算法模型上线运行后，可以采用埋点技术收集线上算法模型的反馈数据(可以称作为埋点反馈数据)。埋点反馈数据是指对线上算法模型的上线运行效果进行反馈的相关信息，例如包括但不限于：模型输入数据、模型输出结果和标注结果。其中，模型输出结果(也可以称作为模型预测结果)是指将模型输入数据输入至算法模型中进行处理，由算法模型实际输出的结果。标注结果是指对模型输入数据进行数据标注得到的结果；标注结果也可以称作为期望输出结果或真实处理结果，期望输出结果也即将模型输入数据输入至算法模型中进行处理，期望算法模型输出的结果。当然，可以根据算法模型的模型范式按需定义埋点反馈数据所需要收集的信息，对此不做限制。模型范式例如包括但不限于：文本匹配模型范式、分类模型范式、生成模型范式、实体抽取模型范式等等。
30.接着，进入样本构建环节。在该环节基于主动学习方式对埋点反馈数据进行筛选，以及利用筛选后的埋点反馈数据构建训练样本数据集和测试样本数据集；
31.接着，进入微调训练环节。在该环节利用训练样本数据集对当前的线上算法模型进行基于增量学习方式的微调训练，得到更新后的算法模型。
32.接着，进入模型评测环节。在该环节利用测试样本数据集分别对更新前和更新后的算法模型进行性能测试，并基于更新前和更新后的算法模型的性能测试结果进行对比评测，得到算法模型更新前后的对比评测结果。
33.接着，进入上线发布环节。在该环节，若对比评测结果指示更新后的算法模型的模型性能优于更新前的线上算法模型的模型性能，则确定更新后的算法模型可以上线发布，此时将更新后的算法模型发布到线上环境，以完成线上环境中的算法模型的模型更新任务。若对比评测结果指示更新后的算法模型的模型性能比更新前的线上算法模型的模型性能更差，则确定更新后的算法模型不可以上线发布，此时线上环境中的算法模型仍然为更新前的算法模型。
34.基于上述，在算法模型上线运行后，通过收集埋点反馈数据、基于主动学习进行高质量样本构建、基于增量学习方式进行微调训练、对更新前后的算法模型进行对比评测和自动决策是否发布升级，形成了模型更新的闭环链路，自动完成了更新算法模型的自学习任务。该自学习任务可以由提供云计算资源的云端执行，可以不用依赖客户的计算资源，提高了算法模型的更新效率和智能化程度，提高了用户对算法模型的使用体验。另外，即便是利用客户的计算资源进行模型更新，相比现有的利用客户的计算资源进行更新的方式，能够极大地减少对客户的计算资源的消耗，提高利用客户的计算资源进行模型更新的效率和
智能化程度。
35.当然，图1所示的应用场景仅仅为一种示例性的应用场景，本技术实施例并不限制应用场景。
36.以下结合附图，详细说明本技术各实施例提供的技术方案。
37.在本技术实施例中，可以通过创建自学习任务自动管理算法模型的迭代更新。实际应用中，用户按需灵活配置自学习任务。例如，配置的自学习任务可对算法模型进行迭代训练。又例如，配置的自学习任务可以对算法模型进行迭代训练和性能测试。又例如，配置的自学习任务可以对算法模型进行迭代训练、性能测试、对比评测和判断是否上线发布，对此不作限制。
38.实际应用中，用户为自学习任务所配置的自学习任务配置信息例如包括但不限于：基础信息、样本构建配置信息、模型训练所需的微调训练配置信息和模型评测配置信息等等。
39.在本实施例中，基础信息是指与模型更新相关的按需设置的信息，例如包括但不限于：模型名称、模型功能描述、任务触发机制和模型发布机制。
40.任务触发机制例如包括但不限于：触发条件信息、埋点反馈数据的获取方式和数据集需求信息。
41.触发条件信息是指触发自学习任务触发的条件信息，也即模型更新事件触发的条件信息，例如包括但不限于：触发周期信息、指定触发事件信息等等。触发周期信息用于指示模型更新事件触发的时间间隔，例如，每隔7天、15天、30天或90天触发一次模型更新事件。指定触发事件信息是指预先指定的与触发模型更新事件相关的关联事件的信息，例如包括但不限于：人工触发事件、指定的异常事件或关键事件等等。
42.埋点反馈数据的获取方式例如包括但不限于：埋点反馈数据的存储路径(也可称作为获取地址)、埋点反馈数据对应的时间范围。其中，埋点反馈数据对应的时间范围指示获取对应时间范围内的埋点反馈数据。
43.数据集需求信息用于指示模型更新所需的样本数据集的需求信息，例如包括但不限于：每次模型训练时所需的训练样本数据集的占比信息、每次模型训练时所需的训练样本数据的最大数据量信息、每次模型训练时所需的历史测试样本数据集的最大数据量信息和历史测试样本数据集对应的历史时间范围。历史测试样本数据集是指在历史时间范围内用于模型测试的测试样本数据集。历史时间范围内的历史测试样本数据集例如为30天、60天、90天或180天之前的历史测试样本数据集。在本实施例中，每次模型训练时所需的历史测试样本数据集的数据量大小信息和历史测试样本数据集对应的历史时间范围可以看作是一种历史测试样本数据集的获取方式。当然，历史测试样本数据集的获取方式也可以有其他获取方式，例如，历史测试样本数据集的存储路径等等。
44.模型发布机制例如包括但不限于：指示算法模型以人工方式发布的手动发布机制和指示算法模型以自动方式发布的自动发布机制。
45.在本实施例中，样本构建配置信息是指为样本构建所配置的信息，例如包括但不限于：主动学习方式采用的筛选策略。
46.在本实施例中，模型训练所需的微调训练配置信息是指为算法模型进行微调训练所配置的信息，例如包括但不限于：模型更新所需训练的模型结构、模型更新所需训练的损
失函数和模型更新所需调整的模型参数。模型更新所需训练的模型结构、模型更新所需训练的损失函数和模型更新所需调整的模型参数等可以理解为微调训练配置信息所配置的训练对象。在模型训练过程中，对微调训练配置信息所配置的训练对象进行微调训练。优选的，对微调训练配置信息所配置的训练对象进行基于增量学习方式的微调训练。增量学习方式例如包括但不限于：基于正则化的增量学习方式、基于回放的增量学习方式和基于参数隔离的增量学习方式。
47.在本实施例中，模型评测配置信息是指为模型评测所配置的信息，例如包括但不限于：模型评测所需的性能测试指标和性能评测算法。
48.性能测试指标例如包括但不限于：准确率(accuracy)、精确率(precision，也称作为查准率)、召回率(recall，也称作为查全率)、f1值(f1 score，调和平均值)、覆盖率、top-k acc。其中，top-k acc表示在多分类情况下取最高的k类得分的label(标签)，与真实值匹配，只要有一个标签与真实值匹配成功，结果就是真，反之，结果为假，k为正整数。
49.性能评测算法是指对比评测所采用的执行算法(也可以理解为具有实现对比评测功能的技术逻辑)，可以按需灵活定义。实际应用中，可以选择一种或多种性能测试指标参与对比评测。例如，参与对比评测的性能测试指标为召回率、f1值，性能测试指标之间的关系为“且”，性能评测算法为“新算法模型(也即更新后的算法模型)的召回率高于旧算法模型(也即更新前的算法模型)的召回率，且新算法模型的f1值高于旧算法模型的f1值，新算法模型满足上线发布条件；新算法模型的召回率低于旧算法模型的召回率，或者，新算法模型的f1值低于旧算法模型的f1值，新算法模型不满足上线发布条件。
50.又例如，参与对比评测的性能测试指标为召回率、f1值，性能测试指标之间的关系为“或”，性能评测算法为“新算法模型的召回率高于旧算法模型(的召回率，或者新算法模型的f1值高于旧算法模型的f1值，新算法模型满足上线发布条件；新算法模型的召回率低于旧算法模型的召回率，以及新算法模型的f1值低于旧算法模型的f1值，新算法模型不满足上线发布条件。又例如，参与对比评测的性能测试指标为准确率、精确率、召回率、f1值、覆盖率和top-k acc等6个性能测试指标，性能评测算法为“新算法模型(也即更新后的算法模型)有4个性能测试指标高于旧算法模型(也即更新前的算法模型)的性能测试指标，新算法模型满足上线发布条件，反之，新算法模型不满足上线发布条件”。
51.实际应用中，为了提高自学习任务配置的智能化程度，面向用户提供自学习任务配置界面，用户通过与自学习任务配置界面的交互，按需配置自学习任务。进一步可选的，为了提高交互友好性，参见图2，自学习任务配置界面可以包括基础信息配置项、样本构建配置项、模型训练配置项和模型评测配置项中一种或多种。基于此，为满足用户的自学习任务配置需求时，可以响应于用户输入的任务配置触发操作，显示自学习任务配置界面，自学习任务配置界面包括以下至少一种：基础信息配置项、样本构建配置项、模型训练配置项和模型评测配置项。
52.在本实施例中，用户对基础信息配置项进行操作，以配置模型更新所需的基础信息。参见图2，基于此，响应于通过基础信息配置项触发的配置操作，配置模型更新所需的基础信息。基础信息可以包括用于获取埋点反馈数据的第一获取方式和/或用于获取历史测试样本数据集的第二获取方式，但并不限于此。
53.在本实施例中，用户对样本构建配置项进行操作，配置样本构建配置信息。基于
此，响应于通过样本构建配置项触发的配置操作，配置样本构建配置信息。
54.进一步可选的，为了满足不同模型范式的算法模型的多样化样本构建需求，可以提供多种筛选策略供用户选择。基于此，参见图2，在配置样本构建配置信息的过程中，若需要为主动学习方式配置目标筛选策略，则响应于通过样本构建配置项触发的配置操作，配置样本构建配置信息的一种可选实现方式为：响应于通过样本构建配置项触发的配置操作，显示多个筛选策略；响应于筛选策略选择操作，将从多个筛选策略中选择的筛选策略配置为目标筛选策略。
55.其中，多个筛选策略例如包括但不限于：基于不确定性采样(uncertainty sampling)查询的筛选策略、基于委员会(query by committee)查询的筛选策略、基于模型变化期望(expected model change)查询的筛选策略、基于误差减少(expected error reduction)查询的筛选策略、基于方差减少(variance reduction)查询的筛选策略和基于密度权重(density weighted methods)查询的筛选策略。当然，可以按需灵活定义筛选策略。
56.在本实施例中，用户对模型训练配置项进行操作，以配置微调训练配置信息。基于此，响应于通过模型训练配置项触发的配置操作，配置微调训练配置信息。进一步可选的，参见图2，为了提高交互友好性，模型训练配置项可以包括以下至少一种：模型结构子配置项、损失函数子配置项、模型参数子配置项、训练方式配置项和学习模式子配置项。
57.在配置微调训练配置信息的过程中，若需要配置模型更新所需训练的目标模型结构，则响应于通过模型训练配置项触发的配置操作，配置样本构建配置信息的一种可选实现方式为：响应于通过模型结构子配置项触发的配置操作，配置模型更新所需训练的目标模型结构。
58.在配置微调训练配置信息的过程中，若需要配置模型更新所需训练的目标损失函数，则响应于通过模型训练配置项触发的配置操作，配置微调训练配置信息的一种可选实现方式为：响应于通过损失函数子配置项触发的配置操作，配置模型更新所需训练的目标损失函数。
59.在配置微调训练配置信息的过程中，若需要配置模型更新所需调整的目标模型参数，则响应于通过模型训练配置项触发的配置操作，配置微调训练配置信息的一种可选实现方式为：响应于通过模型参数子配置项触发的配置操作，配置模型更新所需调整的目标模型参数。
60.在配置微调训练配置信息的过程中，若需要配置模型更新的训练方式，则响应于通过模型训练配置项触发的配置操作，配置微调训练配置信息的一种可选实现方式为：响应于通过训练方式配置项触发的配置操作，配置模型更新的训练方式。训练方式例如包括但不限于：全参数训练和部分参数训练。全参数训练是指对算法模型的全部模型参数进行更新，部分参数训练是指对算法模型的全部模型参数中部分模型参数进行更新。
61.在配置微调训练配置信息的过程中，若需要配置增量学习方式的学习模式，则响应于通过模型训练配置项触发的配置操作，配置微调训练配置信息的一种可选实现方式为：响应于通过学习模式子配置项触发的配置操作，显示多个学习模式；响应于学习模式选择操作，将从多个学习模式中选择的学习模式配置为目标学习模式。
62.其中，多个学习模式例如包括但不限于：基于正则化的增量学习方式、基于回放的
增量学习方式和基于参数隔离的增量学习方式。
63.实际应用中，可以在配置模型更新所需训练模型结构、损失函数、模型参数或训练方式时，顺带配置学习模式。当然，也可以独立配置学习模式，也即无需在配置模型更新所需训练模型结构、损失函数、模型参数或训练方式时顺带配置学习模式，对此不做限制。
64.在本实施例中，用户对模型评测配置项进行操作，以配置模型评测配置信息。基于此，响应于通过模型评测配置项触发的配置操作，配置模型评测所需的模型评测配置信息。模型评测配置信息可以包括目标性能测试指标和/或目标性能评测算法，但并不限于此。
65.进一步可选的，为了提高交互友好性，模型评测配置项例如包括但不限于：包括性能测试指标子配置项和性能评测算法子配置项。
66.在配置模型评测配置信息的过程中，若需要配置目标性能测试指标，则响应于通过模型评测配置项触发的配置操作，配置模型评测所需的模型评测配置信息的一种可选实现方式为：响应于通过性能测试指标子配置项触发的配置操作，配置目标性能测试指标。
67.在配置模型评测配置信息的过程中，若需要配置目标性能评测算法，则响应于通过模型评测配置项触发的配置操作，配置模型评测所需的模型评测配置信息的一种可选实现方式为：响应于通过性能评测算法子配置项触发的配置操作，显示多个已有的性能评测算法；响应于针对已有的性能评测算法的选择操作，将从多个已有的性能评测算法中选择的已有的性能评测算法配置为目标性能评测算法。
68.进一步可选的，为了更好满足用户需求，还支持自定义目标性能评测算法。基于此，可以响应于多个已有的性能评测算法不满足用户评测需求，显示自定义性能评测算法配置页面；响应于通过自定义性能评测算法配置页面输入的配置操作，创建自定义性能评测算法，将自定义性能评测算法配置为目标性能评测算法。进一步可选的，为了丰富已有的性能评测算法，还可以将自定义性能评测算法作为一个新的已有的性能评测算法进行保存。实际应用中，可以按需灵活设置自定义性能评测算法，对此不做限制。
69.图3为本技术实施例提供的一种更新算法模型的自学习方法的流程图。该方法可以由电子设备执行，电子设备例如为云服务器，但并不限于此。
70.参见图3，该方法可以包括以下步骤：
71.301、响应于模型更新事件被触发，获取自学习任务配置信息，自学习任务配置信息包括基础信息、样本构建配置信息和微调训练配置信息，基础信息包括用于获取埋点反馈数据的第一获取方式。
72.302、根据第一获取方式获取埋点反馈数据。
73.303、根据埋点反馈数据和样本构建配置信息进行基于主动学习方式的样本构建，得到本次模型更新所需的本次训练样本数据集。
74.304、根据微调训练配置信息和本次训练样本数据集对本次更新前的算法模型进行基于增量学习方式的微调训练，得到本次更新后的算法模型。
75.在本实施例中，模型更新事件可以手动触发，也可以自动触发，对此不做限制。示例性的，若自学习任务配置信息中配置了模型更新事件触发的条件信息，可以自动监测模型更新事件触发的条件信息是否被满足，并在满足的情况下，自动触发模型更新事件。
76.在本实施例中，每当模型更新事件触发后，获取自学习任务配置信息。关于自学习任务配置信息的配置过程可以参见前述实施例的相关介绍。
77.首先，在模型更新事件触发后，从自学习任务配置信息包括的基础信息中获取用于获取埋点反馈数据的第一获取方式，并根据第一获取方式获取埋点反馈数据。第一获取方式例如包括但不限于：埋点反馈数据的存储路径和埋点反馈数据对应的时间范围等等。
78.接着，从自学习任务配置信息中获取样本构建配置信息，根据埋点反馈数据和样本构建配置信息进行基于主动学习方式的样本构建，得到本次模型更新所需的本次训练样本数据集。其中，本次训练样本数据集是指为本次模型更新所准备的训练样本数据集。埋点反馈数据是指对算法模型的上线运行效果进行反馈的相关信息。
79.进一步可选的，为了提高样本构建的灵活度，样本构建配置信息中用户按需为主动学习方式配置的筛选策略。为了便于理解和区分，将为主动学习方式数所配置的筛选策略称作为目标筛选策略。基于此，在进行主动学习方式的样本构建时，根据目标筛选策略对埋点反馈数据进行基于主动学习方式的筛选，得到筛选后的埋点反馈数据；根据筛选后的埋点反馈数据进行样本构建，得到本次训练样本数据集。
80.具体而言，在根据目标筛选策略对埋点反馈数据进行基于主动学习方式的筛选时，可以筛选出分类结果不满足分类准确条件的埋点反馈数据或预测结果不满足确定性条件的埋点反馈数据。
81.分类结果不满足分类准确条件也即分类结果的准确度较低，分类结果满足分类准确条件也即分类结果的准确度较高。实际应用中，可以按需灵活设置分类准确条件，例如，为界定分类结果是否准确设置一个概率阈值，若分类结果对应的概率大于或等于概率阈值，确定满足分类准确条件；若分类结果对应的概率小于概率阈值，确定不满足分类准确条件。具体举例来说，对图片中的动物进行分类时，若分类结果指示属于猫的概率为59％，也即属于猫的概率较低，这样的分类结果的准确度较低，不满足分类准确条件。若分类结果指示属于猫的概率为99％，也即属于猫的概率较高，这样的分类结果的准确度较高，满足分类准确条件。
82.预测结果满足确定性条件，也即预测结果的可信度较高；预测结果不满足确定性条件，也即预测结果的可信度较低。实际应用中，可以按需灵活设置确定性条件，例如，为界定预测结果是否可信设置一个概率阈值，若预测结果对应的概率大于或等于概率阈值，确定满足确定性条件；若预测结果对应的概率小于概率阈值，确定不满足确定性条件。例如，预测出现天气下雨的概率为59％，这样的预测结果不确定性较高，可信度低，不满足确定性条件；预测出现天气下雨的概率为99％，这样的预测结果不确定性较低，可信度较高，满足确定性条件。
83.在本实施例中，在基于筛选后的埋点反馈数据进行样本构建，得到本次训练样本数据集时，可以以自学习任务配置信息中基础信息包括的数据集需求信息为参考，基于筛选后的埋点反馈数据构建出满足数据集需求信息的本次训练样本数据集。以算法模型的训练样本数据包括埋点反馈数据中的模型输入数据、模型输出结果和标注结果为例，数据集需求信息指示每次模型训练时所需的训练样本数据的最大数据量信息为1万条，则从筛选后的埋点反馈数据最多选择1万条的埋点反馈数据，从每条埋点反馈数据中抽取模型输入数据、模型输出结果和标注结果，将抽取到的模型输入数据、模型输出结果和标注结果作为一条训练样本数据。
84.实际应用中，考虑到埋点反馈数据往往包含噪声或数据分布发生变化，在样本构
建环节，采用主动学习方式，能够更好地挑选出具有代表性的高质量样本，有效降低了样本数据量，增强了算法模型在低资源环境落地的可行性。
85.在本实施例中，在微调训练环节，从自学习任务配置信息中获取微调训练配置信息，根据微调训练配置信息和本次训练样本数据集对本次更新前的算法模型进行基于增量学习方式的微调训练，得到本次更新后的算法模型。
86.具体而言，微调训练配置信息可以指示微调训练所针对的训练对象，还可以指示增量学习方式的学习模式，为了便于理解和区分，将本次模型更新涉及的增量学习方式的学习模式称作为目标学习模式。
87.在本实施例中，按照目标学习模式以增量学习方式对微调训练配置信息所配置的训练对象进行微调训练，避免模型发生灾难性遗忘，保证了算法模型能持续不断地从新数据中学习知识，同时维持在历史数据上的效果不下降，增强算法模型对客户的应用数据变化的学习能力和泛化性能。
88.在一些可选的实施例中，支持用户改造算法模型的模型结构，并对改造的模型结构进行微调训练。用户在改造算法模型的模型结构时，可以对算法模型中已有的模型结构进行修改，也可以为算法模型新增一些诸如卷积(convolution)层、池化(pooling)层或全连接层等各种模型结构，对此不做限制。在此将本次模型更新所需训练的模型结构称作为目标模型结构。若微调训练配置信息指示模型更新所需训练的目标模型结构，则以更新目标模型结构的模型参数为目标，根据本次训练样本数据集对本次更新前的算法模型进行基于增量学习方式的微调训练，得到本次更新后的算法模型。这样，可以对整个算法模型中少量的模型结构进行训练，提高了训练效率，增强了算法模型在低资源环境落地的可行性。
89.在一些可选的实施例中，支持用户改造算法模型的损失函数，并对改造的损失函数进行微调训练。用户在改造算法模型的损失函数时，可以对算法模型中已有的损失函数进行修改，也可以为算法模型新增一些损失函数，对此不做限制。在此将本次模型更新所需训练的损失函数称作为目标损失函数。若微调训练配置信息指示模型更新所需训练的目标损失函数，则以目标损失函数调整模型参数为目标，根据本次训练样本数据集对本次更新前的算法模型进行基于增量学习方式的微调训练，得到本次更新后的算法模型。这样，可以对整个算法模型的少量的损失函数进行训练，提高了训练效率，增强了算法模型在低资源环境落地的可行性。
90.在一些可选的实施例中，支持用户调整算法模型的模型参数，并对所需调整的损失函数进行微调训练。例如，用户按需选择哪些模型参数需要调整，例如，选择全部或部分的模型参数进行调整。在此将模型更新所需调整的模型参数称作为目标模型参数。若微调训练配置信息指示模型更新所需调整的目标模型参数，则以调整目标模型参数为目标，根据本次训练样本数据集对本次更新前的算法模型进行基于增量学习方式的微调训练，得到本次更新后的算法模型。这样，可以对整个算法模型的按需选择的模型参数进行训练，提高了训练效率，增强了算法模型在低资源环境落地的可行性。
91.在一些可选的实施例中，支持用户按需配置增量学习方式的学习模式。若微调训练配置信息指示增量学习方式的目标学习模式，则按照目标学习模式根据本次训练样本数据集对本次更新前的算法模型进行基于增量学习方式的微调训练，得到本次更新后的算法模型。
92.例如，以更新目标模型结构的模型参数为目标，按照目标学习模式根据本次训练样本数据集对本次更新前的算法模型进行基于增量学习方式的微调训练，得到本次更新后的算法模型。又例如，以目标损失函数调整模型参数为目标，按照目标学习模式根据本次训练样本数据集对本次更新前的算法模型进行基于增量学习方式的微调训练，得到本次更新后的算法模型。又例如，以调整目标模型参数为目标，按照目标学习模式根据本次训练样本数据集对本次更新前的算法模型进行基于增量学习方式的微调训练，得到本次更新后的算法模型。
93.本技术实施例提供的技术方案，形成埋点反馈数据收集、基于主动学习方式的样本构建和基于增量学习方式的微调训练的自学习闭环链路，支持对各种模型范式的算法模型更新迭代自动化，降低了算法模型更新的人工运维成本，提高了算法模型的更新效率和智能化程度。进一步的，基于主动学习方式的样本构建，能够更好地挑选出具有代表性的高质量样本，有效降低了样本数据量，减少了对计算资源的要求，增强了算法模型在低资源环境落地的可行性。基于增量学习方式的微调训练，避免模型发生灾难性遗忘，保证了算法模型能持续不断地从新数据中学习知识，同时维持在历史数据上的效果不下降，增强算法模型对客户的应用数据变化的学习能力和泛化性能。
94.图4为本技术实施例提供的另一种更新算法模型的自学习方法的流程图。该方法可以由电子设备执行，电子设备例如为云服务器，但并不限于此。
95.参见图4，该方法可以包括以下步骤：
96.401、响应于模型更新事件被触发，获取自学习任务配置信息，自学习任务配置信息包括基础信息、样本构建配置信息、微调训练配置信息和模型评测配置信息，基础信息包括用于获取埋点反馈数据的第一获取方式和用于获取历史测试样本数据集的第二获取方式，模型评测配置信息包括目标性能测试指标。
97.402、根据第一获取方式获取埋点反馈数据和根据第二获取方式获取历史测试样本数据集。
98.403、根据埋点反馈数据和样本构建配置信息进行基于主动学习方式的样本构建，得到本次模型更新所需的本次训练样本数据集和本次测试样本数据集。
99.404、根据微调训练配置信息和本次训练样本数据集对本次更新前的算法模型进行基于增量学习方式的微调训练，得到本次更新后的算法模型。
100.值得注意的是，步骤404的实现方式可以参见前述实施例中的步骤304的实现方式，对此不做限制。
101.405、利用历史测试样本数据集和本次测试样本数据集对本次更新后的算法模型进行针对目标性能测试指标的性能测试，得到本次更新后的算法模型的性能测试结果。
102.值得注意的是，步骤403和步骤404的实现方式可以参见前述实施例中的步骤303和步骤304的实现方式，对此不做限制。
103.在本实施例中，还支持对更新后的算法模型进行性能测试的能力。为此，用户可以在配置自学习任务配置信息时，还可以配置用于获取历史测试样本数据集的第二获取方式。这样，在模型更新阶段，可以根据第二获取方式获取历史测试样本数据集。另外，在进行基于主动学习方式的样本构建时，除了构建本次模型更新所需的本次训练样本数据集，还构建本次模型更新所需的本次测试样本数据集。本次测试样本数据集也即是本次模型更新
所需的新增的测试样本数据集。
104.实际应用中，每次模型更新创建的本次测试样本数据集可以作为一个新的历史测试样本数据集进行保存。以自学习配置信息中数据集需求信息指示了历史测试样本数据集对应的历史时间范围为30天为例，则若当天触发了模型更新事件，则获取在当天之前的30天之内的历史测试样本数据集。
105.若数据集需求信息还包括每次模型训练时所需的训练样本数据集的占比信息、每次模型训练时所需的训练样本数据的最大数据量信息、每次模型训练时所需的历史测试样本数据集的最大数据量信息，则在样本构建时，本次训练样本数据集在全部的样本数据集中的占比信息满足数据集需求信息中的占比信息，全部的样本数据集包括本次训练样本数据集、本次测试样本数据集和历史测试样本数据集。另外，从筛选后的埋点反馈数据最多选择满足数据集需求信息中最大数据量信息的训练样本数据集和历史测试样本数据集。
106.在本实施例中，用户在配置自学习任务配置信息时，可以按需配置模型评测配置信息。在此将模型评测配置信息所配置的参与性能测试的性能测试指标称作为目标性能测试指标。
107.在本实施例中，可以利用历史测试样本数据集对本次更新后的算法模型进行针对目标性能测试指标的性能测试，得到本次更新后的算法模型的性能测试结果。也可以利用本次测试样本数据集对本次更新后的算法模型进行针对目标性能测试指标的性能测试，得到本次更新后的算法模型的性能测试结果。进一步可选的，为了更好地保证了算法模型能持续不断地从新数据中学习知识，同时维持在历史数据上的效果不下降，可以利用历史测试样本数据集和本次测试样本数据集对本次更新后的算法模型进行针对目标性能测试指标的性能测试，得到本次更新后的算法模型的性能测试结果。性能测试结果例如包括但不限于：准确率、精确率、召回率、f1值、覆盖率、top-k acc等等。
108.本次更新后的算法模型的性能测试结果可以辅助决策本次更新后的算法模型是否可以上线发布。若本次更新后的算法模型的性能测试结果指示本次更新后的算法模型通过性能测试，本次更新后的算法模型可以上线发布；若本次更新后的算法模型的性能测试结果指示本次更新后的算法模型未通过性能测试，本次更新后的算法模型不可以上线发布，此时，线上环境的算法模型仍然保持更新前的算法模型。实际应用中，可以按需设置通过性能测试的判断条件。例如，若本次更新后的算法模型的多个性能测试指标的性能测试结果大于预设的指标阈值，本次更新后的算法模型通过性能测试；反之，本次更新后的算法模型未通过性能测试。指标阈值例如包括但不限于：准确率阈值、精确率阈值、召回率阈值、f1值阈值、覆盖率阈值和top-k acc阈值等等。值得注意的是，利用测试样本数据集对算法模型进行性能测试的更多介绍可以参见相关技术，在此不再赘述。
109.本技术实施例提供的技术方案，形成埋点反馈数据收集、基于主动学习方式的样本构建、基于增量学习方式的微调训练和模型性能测试的自学习闭环链路，支持对各种模型范式的算法模型更新迭代自动化，降低了算法模型更新的人工运维成本，提高了算法模型的更新效率和智能化程度。进一步的，基于主动学习方式的样本构建，能够更好地挑选出具有代表性的高质量样本，有效降低了样本数据量，减少了对计算资源的要求，增强了算法模型在低资源环境落地的可行性。进一步的，基于增量学习方式的微调训练，避免模型发生灾难性遗忘，保证了算法模型能持续不断地从新数据中学习知识，同时维持在历史数据上
的效果不下降，增强算法模型对客户的应用数据变化的学习能力和泛化性能。进一步的，提供模型性能测试能力，为决策更新后的算法模型是否上线发布提供了良好的基础，提高了算法模型的智能化程度。
110.图5为本技术实施例提供的另一种更新算法模型的自学习方法的流程图。该方法可以由电子设备执行，电子设备例如为云服务器，但并不限于此。
111.参见图5，该方法可以包括以下步骤：
112.501、响应于模型更新事件被触发，获取自学习任务配置信息，自学习任务配置信息包括基础信息、样本构建配置信息、微调训练配置信息和模型评测配置信息，基础信息包括用于获取埋点反馈数据的第一获取方式和用于获取历史测试样本数据集的第二获取方式，模型评测配置信息包括目标性能测试指标和目标性能评测算法。
113.502、根据第一获取方式获取埋点反馈数据和根据第二获取方式获取历史测试样本数据集。
114.503、根据埋点反馈数据和样本构建配置信息进行基于主动学习方式的样本构建，得到本次模型更新所需的本次训练样本数据集和本次测试样本数据集。
115.504、根据微调训练配置信息和本次训练样本数据集对本次更新前的算法模型进行基于增量学习方式的微调训练，得到本次更新后的算法模型。
116.505、利用历史测试样本数据集和本次测试样本数据集对本次更新后的算法模型进行针对目标性能测试指标的性能测试，得到本次更新后的算法模型的性能测试结果。
117.506、利用历史测试样本数据集和本次测试样本数据集对本次更新前的算法模型进行针对目标性能测试指标的性能测试，得到本次更新前的算法模型的性能测试结果。
118.507、利用目标性能评测算法基于本次更新前的算法模型和本次更新后的算法模型各自的性能测试结果进行对比评测，得到对比评测结果。
119.508、根据对比测试结果确定本次更新后的算法模型是否满足上线运行条件。
120.在本实施例中，还支持对更新前后的算法模型进行对比评测的能力。为此，用户可以在配置模型评测配置信息时，除了配置目标性能测试指标，还为模型评测配置性能评测算法。在此将为模型评测所配置的性能评测算法称作为目标性能评测算法。关于步骤502、步骤503、步骤504和步骤505的实现方式可以参见前述实施例，在此不再赘述。
121.在本实施例中，除了对本次更新后的算法模型进行性能测试，还对本次更新前的算法模型进行性能测试。利用目标性能评测算法基于本次更新前的算法模型和本次更新后的算法模型各自的性能测试结果进行对比评测，得到对比评测结果。根据对比测试结果确定本次更新后的算法模型是否满足上线运行条件。关于对比评测的相关内容，可以参见前面有关对比评测的内容，在此不再赘述。
122.若对比评测结果指示更新后的线上算法模型的模型性能优于更新前的线上算法模型的模型性能，则确定更新后的线上算法模型可以上线发布，此时将更新后的线上算法模型发布到线上环境，以完成线上环境中的算法模型的模型更新任务。若对比评测结果指示更新后的线上算法模型的模型性能比更新前的线上算法模型的模型性能更差，则确定更新后的线上算法模型不可以上线发布，此时线上环境中的算法模型仍然为更新前的算法模型。
123.考虑到客户的服务链路中可能部署了多个算法模型，比起单个算法模型的性能指
标，客户更关注整个链路的处理效果。为此，还可以提供针对多个算法模型的综合评估能力，该能力可以称作为全链路评测能力，以更好地满足客户需求，提高算法模型的用户使用体验。
124.基于上述，进一步可选的，若算法模型的数量为多个，多个算法模型组成评测链路；利用目标性能评测算法基于本次更新前的算法模型和本次更新后的算法模型各自的性能测试结果进行对比评测，得到对比评测结果的一种可选实现方式为：根据算法模型之间的关联关系，利用目标性能评测算法基于多个本次更新前的算法模型各自的性能测试结果，确定评测链路更新前的综合性能测试结果；根据算法模型之间的关联关系，利用目标性能评测算法基于多个本次更新后的算法模型各自的性能测试结果，确定评测链路更新后的综合性能测试结果；对评测链路更新前和更新后的综合性能测试结果进行对比评测。
125.在本实施例中，将多个算法模型组成的链路称作为评测链路，评测链路上的算法模型之间的关联关系例如包括但不限于：串联关系、并联关系和竞争关系。若算法模型之间具有串联关系，具有串联关系的两个算法模型的性能测试结果都有参与到度量综合性能测试结果中。若算法模型之间具有并联关系，具有并联关系的两个算法模型的性能测试结果可以任选一个参与到度量综合性能测试结果中。若算法模型之间具有竞争关系，具有竞争关系的两个算法模型的性能测试结果只能选择有竞争优势的性能测试结果参与度量综合性能测试结果中。实际应用中，目标性能评测算法可以根据实际应用需求定义不同关联关系的算法模型的性能测试结果的处理算法，对此不做限制。以图6为例，评测链路包括模型a和模型b，若模型a和模型b之间的关系为串联关系，可以将模型a和模型b各自的性能测试结果进行相乘或相加，得到评测链路的综合性能测试结果。若模型a和模型b之间的关系为并联关系，可以任选模型a或模型b的性能测试结果作为评测链路的综合性能测试结果。若模型a和模型b之间的关系为竞争关系，可以选择具有竞争优势的模型b的性能测试结果作为评测链路的综合性能测试结果。
126.本技术实施例提供的技术方案，形成埋点反馈数据收集、基于主动学习方式的样本构建、基于增量学习方式的微调训练和更新前后的算法模型之间的对比评测的自学习闭环链路，支持对各种模型范式的算法模型更新迭代自动化，降低了算法模型更新的人工运维成本，提高了算法模型的更新效率和智能化程度。进一步的，基于主动学习方式的样本构建，能够更好地挑选出具有代表性的高质量样本，有效降低了样本数据量，减少了对计算资源的要求，增强了算法模型在低资源环境落地的可行性。进一步的，基于增量学习方式的微调训练，避免模型发生灾难性遗忘，保证了算法模型能持续不断地从新数据中学习知识，同时维持在历史数据上的效果不下降，增强算法模型对客户的应用数据变化的学习能力和泛化性能。进一步的，提供更新前后的算法模型之间的对比评测能力，为决策更新后的算法模型是否上线发布提供了良好的基础，提高了算法模型的智能化程度。
127.图7为本技术实施例提供的一种更新算法模型的自学习系统的结构示意图。该系统可以部署在云服务器中，参见图7，该系统可以包括控制模块20，以及分别与控制模块20连接的人机交互模块10、样本构建模块30、模型训练模块40和模型评测模块50；
128.人机交互模块10，用于响应于用户输入的任务配置触发操作，显示自学习任务配置界面；响应于用户通过自学习任务配置界面触发的配置操作，配置自学习任务配置信息，并向控制模块20发送自学习任务配置信息，自学习任务配置信息包括基础信息、样本构建
配置信息、微调训练配置信息和模型评测配置信息，基础信息包括用于获取埋点反馈数据的第一获取方式和用于获取历史测试样本数据集的第二获取方式，模型评测配置信息包括目标性能测试指标和目标性能评测算法；
129.样本构建模块30，用于在控制模块20的控制下，根据第一获取方式获取埋点反馈数据，根据埋点反馈数据和样本构建配置信息进行基于主动学习方式的样本构建，得到本次模型更新所需的本次训练样本数据集和本次测试样本数据集；
130.模型训练模块40，用于在控制模块20的控制下，根据微调训练配置信息和本次训练样本数据集对本次更新前的算法模型进行基于增量学习方式的微调训练，得到本次更新后的算法模型；
131.模型评测模块50，用于在控制模块20的控制下，根据第二获取方式获取历史测试样本数据集；利用历史测试样本数据集和本次测试样本数据集分别对本次更新前的算法模型和本次更新后的算法模型进行针对目标性能测试指标的性能测试；利用目标性能评测算法基于本次更新前的算法模型和本次更新后的算法模型各自的性能测试结果进行对比评测，得到对比评测结果；根据对比测试结果确定本次更新后的算法模型是否满足上线运行条件。
132.对于系统实施例中各个模块的实现方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
133.具体而言，参见图7中的
①
所示，用户可以按需发起任务配置触发操作，人机交互模块10响应用户输入的任务配置触发操作，显示自学习任务配置界面；响应于用户通过自学习任务配置界面触发的配置操作，配置自学习任务配置信息，参见图7中的而所示，人机交互模块10向控制模块20发送自学习任务配置信息。参见图7中的
③
所示，自学习任务配置信息包括基础信息、样本构建配置信息、微调训练配置信息和模型评测配置信息。控制模块20根据自学习任务配置信息控制样本构建模块30、模型训练模块40和模型评测模块50执行相应的操作。参见图7中的
④
所示，控制模块20按照自学习任务配置信息触发样本构建模块30进行基于主动学习方式的样本构建。参见图7中的
⑤
所示，控制模块20按照自学习任务配置信息触发模型训练模块40进行基于增量学习方式的微调训练。参见图7中的
⑥
所示，控制模块20按照自学习任务配置信息触发模型评测模块50执行对比评测。至此，形成了自学习闭环链路。
134.更新算法模型的自学习系统提供了模型更新的标准化框架，用户可以便捷快速地将算法模型接入更新算法模型的自学习系统，实现更新算法模型自动迭代更新，节约大量的人力资源。
135.本技术实施例提供的更新算法模型的自学习系统，形成埋点反馈数据收集、基于主动学习方式的样本构建、基于增量学习方式的微调训练和更新前后的算法模型之间的对比评测的自学习闭环链路，支持对各种模型范式的算法模型更新迭代自动化，降低了算法模型更新的人工运维成本，提高了算法模型的更新效率和智能化程度。进一步的，基于主动学习方式的样本构建，能够更好地挑选出具有代表性的高质量样本，有效降低了样本数据量，减少了对计算资源的要求，增强了算法模型在低资源环境落地的可行性。进一步的，基于增量学习方式的微调训练，避免模型发生灾难性遗忘，保证了算法模型能持续不断地从新数据中学习知识，同时维持在历史数据上的效果不下降，增强算法模型对客户的应用数
据变化的学习能力和泛化性能。进一步的，提供更新前后的算法模型之间的对比评测能力，为决策更新后的算法模型是否上线发布提供了良好的基础，提高了算法模型的智能化程度。
136.需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤301至步骤304的执行主体可以为设备a；又比如，步骤301和302的执行主体可以为设备a，步骤303和304的执行主体可以为设备b；等等。
137.另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如301、302等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。
138.需要说明的是，本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。
139.图8为本技术实施例提供的一种电子设备的结构示意图。如图8所示，该电子设备包括：存储器81和处理器82；
140.存储器81，用于存储计算机程序，并可被配置为存储其它各种数据以支持在计算平台上的操作。这些数据的示例包括用于在计算平台上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。
141.存储器81可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(static random-accessmemory，sram)，电可擦除可编程只读存储器(electrically erasable programmable read only memory，eeprom)，可擦除可编程只读存储器(erasable programmable read only memory，eprom)，可编程只读存储器(programmable read-only memory，prom)，只读存储器(read-only memory，rom)，磁存储器，快闪存储器，磁盘或光盘。
142.处理器82，与存储器81耦合，用于执行存储器81中的计算机程序，以用于执行更新算法模型的自学习方法中步骤。
143.进一步，如图8所示，该电子设备还包括：通信组件83、显示器84、电源组件85、音频组件86等其它组件。图8中仅示意性给出部分组件，并不意味着电子设备只包括图8所示组件。另外，图8中虚线框内的组件为可选组件，而非必选组件，具体可视电子设备的产品形态而定。本实施例的电子设备可以实现为台式电脑、笔记本电脑、智能手机或iot(物联网，internet of things)设备等终端设备，也可以是常规服务器、云服务器或服务器阵列等服务端设备。若本实施例的电子设备实现为台式电脑、笔记本电脑、智能手机等终端设备，可以包含图8中虚线框内的组件；若本实施例的电子设备实现为常规服务器、云服务器或服务器阵列等服务端设备，则可以不包含图8中虚线框内的组件。
144.关于处理器执行各动作的详细实施过程可参见前述方法实施例或设备实施例中的相关描述，在此不再赘述。
145.相应地，本技术实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述方法实施例中可由电子设备执行的各步骤。
146.相应地，本技术实施例还提供一种计算机程序产品，包括计算机程序/指令，当计算机程序/指令被处理器执行时，致使处理器能够实现上述方法实施例中可由电子设备执行的各步骤。
147.上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如wifi(wireless fidelity，无线保真)、2g(2generation，2代)、3g(3generation，3代)、4g(4generation，4代)/lte(long term evolution，长期演进)、5g(5generation，5代)等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件还包括近场通信(near field communication，nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(radio frequency identification，rfid)技术，红外数据协会(the infrared data association，irda)技术，超宽带(ultra wide band，uwb)技术，蓝牙(bluetooth，bt)技术和其他技术来实现。
148.上述显示器包括屏幕，其屏幕可以包括液晶显示器(liquid crystal display，lcd)和触摸面板(touch panel，tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。
149.上述电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
150.上述音频组件，可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(microphone，mic)，当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。
151.本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
152.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产
生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
153.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
154.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
155.在一个典型的配置中，计算设备包括一个或多个处理器(central processing unit，cpu)、输入/输出接口、网络接口和内存。
156.内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(random access memory，ram)和/或非易失性内存等形式，如只读存储器(read only memory，rom)或闪存(flash ram)。内存是计算机可读介质的示例。
157.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变化内存(phase change ram，pram)、静态随机存取存储器(static random-access memory，sram)、动态随机存取存储器(dynamic random access memory，dram)、其他类型的随机存取存储器(random access memory，ram)、只读存储器(read only memory，rom)、电可擦除可编程只读存储器(electrically-erasable programmable read-only memory，eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(digital versatile disc，dvd)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
158.还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
159.以上仅为本技术的实施例而已，并不用于限制本技术。对于本领域技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本技术的权利要求范围之内。

技术特征：
1.一种更新算法模型的自学习方法，其特征在于，包括：响应于模型更新事件被触发，获取自学习任务配置信息，所述自学习任务配置信息包括基础信息、样本构建配置信息和微调训练配置信息，所述基础信息包括用于获取埋点反馈数据的第一获取方式；根据所述第一获取方式获取所述埋点反馈数据，所述埋点反馈数据是指对算法模型的上线运行效果进行反馈的相关信息；根据所述埋点反馈数据和所述样本构建配置信息进行基于主动学习方式的样本构建，得到本次模型更新所需的本次训练样本数据集；根据所述微调训练配置信息和所述本次训练样本数据集对本次更新前的算法模型进行基于增量学习方式的微调训练，得到本次更新后的算法模型。2.根据权利要求1所述的方法，其特征在于，所述样本构建配置信息包括所述主动学习方式的目标筛选策略；根据所述埋点反馈数据和所述样本构建配置信息进行基于主动学习方式的样本构建，得到本次模型更新所需的本次训练样本数据集包括：根据所述目标筛选策略对所述埋点反馈数据进行基于主动学习方式的筛选，得到筛选后的所述埋点反馈数据；根据筛选后的所述埋点反馈数据进行样本构建，得到所述本次训练样本数据集。3.根据权利要求1或2所述的方法，其特征在于，根据所述微调训练配置信息和所述本次训练样本数据集对本次更新前的算法模型进行基于增量学习方式的微调训练，得到本次更新后的算法模型，包括：若所述微调训练配置信息指示模型更新所需训练的目标模型结构，则以更新所述目标模型结构的模型参数为目标，根据所述本次训练样本数据集对本次更新前的算法模型进行基于增量学习方式的微调训练，得到本次更新后的算法模型；和/或，若所述微调训练配置信息指示模型更新所需训练的目标损失函数，则以所述目标损失函数调整模型参数为目标，根据所述本次训练样本数据集对本次更新前的算法模型进行基于增量学习方式的微调训练，得到本次更新后的算法模型；和/或，若所述微调训练配置信息指示模型更新所需调整的目标模型参数，则以调整所述目标模型参数为目标，根据所述本次训练样本数据集对本次更新前的算法模型进行基于增量学习方式的微调训练，得到本次更新后的算法模型。4.根据权利要求1-3任一项所述的方法，其特征在于，所述基础信息还包括：用于获取历史测试样本数据集的第二获取方式，所述自学习任务配置信息还包括：模型评测配置信息，所述模型评测配置信息包括目标性能测试指标；所述方法还包括：根据所述第二获取方式获取所述历史测试样本数据集；基于所述埋点反馈数据和所述样本构建配置信息进行基于主动学习方式的样本构建，得到本次模型更新所需的本次测试样本数据集；利用所述历史测试样本数据集和所述本次测试样本数据集对所述本次更新后的算法模型进行针对所述目标性能测试指标的性能测试，得到所述本次更新后的算法模型的性能
测试结果。5.根据权利要求4所述的方法，其特征在于，所述模型评测配置信息还包括：目标性能评测算法；所述方法还包括：利用所述历史测试样本数据集和所述本次测试样本数据集对所述本次更新前的算法模型进行针对所述目标性能测试指标的性能测试，得到所述本次更新前的算法模型的性能测试结果；利用所述目标性能评测算法基于所述本次更新前的算法模型和所述本次更新后的算法模型各自的性能测试结果进行对比评测，得到对比评测结果；根据所述对比测试结果确定所述本次更新后的算法模型是否满足上线运行条件。6.根据权利要求5所述的方法，其特征在于，若算法模型的数量为多个，所述多个算法模型组成评测链路；利用所述目标性能评测算法基于所述本次更新前的算法模型和所述本次更新后的算法模型各自的性能测试结果进行对比评测，得到对比评测结果，包括：根据算法模型之间的关联关系，利用所述目标性能评测算法基于多个本次更新前的算法模型各自的性能测试结果，确定所述评测链路更新前的综合性能测试结果；根据算法模型之间的关联关系，利用所述目标性能评测算法基于多个本次更新后的算法模型各自的性能测试结果，确定所述评测链路更新后的综合性能测试结果；对所述评测链路更新前和更新后的综合性能测试结果进行对比评测。7.根据权利要求4至6任一项所述的方法，其特征在于，在获取自学习任务配置信息之前，还包括：响应于用户输入的任务配置触发操作，显示自学习任务配置界面，所述自学习任务配置界面包括基础信息配置项、样本构建配置项、模型训练配置项和模型评测配置项；响应于通过基础信息配置项触发的配置操作，配置模型更新所需的基础信息，所述基础信息包括所述第一获取方式和所述第二获取方式；响应于通过样本构建配置项触发的配置操作，配置所述样本构建配置信息；响应于通过所述模型训练配置项触发的配置操作，配置所述微调训练配置信息；响应于通过所述模型评测配置项触发的配置操作，配置模型评测所需的模型评测配置信息，所述模型评测配置信息包括目标性能测试指标和目标性能评测算法。8.根据权利要求7所述的方法，其特征在于，所述样本构建配置信息至少包括：为主动学习方式配置的目标筛选策略；响应于通过样本构建配置项触发的配置操作，配置所述样本构建配置信息，包括：响应于通过样本构建配置项触发的配置操作，显示多个筛选策略；响应于筛选策略选择操作，将从所述多个筛选策略中选择的筛选策略配置为所述目标筛选策略。9.根据权利要求7所述的方法，其特征在于，所述模型训练配置项包括：模型结构子配置项、损失函数子配置项、模型参数子配置项和学习模式子配置项；响应于通过所述模型训练配置项触发的配置操作，配置所述微调训练配置信息，包括：响应于通过模型结构子配置项触发的配置操作，配置模型更新所需训练的目标模型结构；
响应于通过损失函数子配置项触发的配置操作，配置模型更新所需训练的目标损失函数；响应于通过模型参数子配置项触发的配置操作，配置模型更新所需调整的目标模型参数；响应于通过学习模式子配置项触发的配置操作，显示多个学习模式；响应于学习模式选择操作，将从所述多个学习模式中选择的学习模式配置为所述目标学习模式。10.根据权利要求7所述的方法，其特征在于，所述模型评测配置项包括性能测试指标子配置项和性能评测算法子配置项；响应于通过所述模型评测配置项触发的配置操作，配置模型评测所需的目标性能测试指标和目标性能评测算法，包括：响应于通过所述性能测试指标子配置项触发的配置操作，配置所述目标性能测试指标；响应于通过所述性能评测算法子配置项触发的配置操作，显示多个已有的性能评测算法；响应于针对已有的性能评测算法的选择操作，将从多个已有的性能评测算法中选择的已有的性能评测算法配置为所述目标性能评测算法。11.根据权利要求10所述的方法，其特征在于，还包括：响应于多个已有的性能评测算法不满足用户评测需求，显示自定义性能评测算法配置页面；响应于通过自定义性能评测算法配置页面输入的配置操作，创建自定义性能评测算法，将所述自定义性能评测算法配置为目标性能评测算法；以及将所述自定义性能评测算法作为一个新的已有的性能评测算法进行保存。12.一种更新算法模型的自学习系统，其特征在于，所述系统部署在云服务器中，所述系统包括：控制模块，以及分别与所述控制模块连接的人机交互模块、样本构建模块、模型训练模块和模型评测模块；所述人机交互模块，用于响应于用户输入的任务配置触发操作，显示自学习任务配置界面；响应于所述用户通过所述自学习任务配置界面触发的配置操作，配置自学习任务配置信息，并向所述控制模块发送所述自学习任务配置信息，所述自学习任务配置信息包括基础信息、样本构建配置信息、微调训练配置信息和模型评测配置信息，所述基础信息包括用于获取埋点反馈数据的第一获取方式和用于获取历史测试样本数据集的第二获取方式，所述模型评测配置信息包括目标性能测试指标和目标性能评测算法；所述样本构建模块，用于在所述控制模块的控制下，根据所述第一获取方式获取所述埋点反馈数据，根据所述埋点反馈数据和所述样本构建配置信息进行基于主动学习方式的样本构建，得到本次模型更新所需的本次训练样本数据集和本次测试样本数据集；所述模型训练模块，用于在所述控制模块的控制下，根据所述微调训练配置信息和所述本次训练样本数据集对本次更新前的算法模型进行基于增量学习方式的微调训练，得到本次更新后的算法模型；所述模型评测模块，用于在所述控制模块的控制下，根据所述第二获取方式获取所述
历史测试样本数据集；利用所述历史测试样本数据集和所述本次测试样本数据集分别对所述本次更新前的算法模型和所述本次更新后的算法模型进行针对所述目标性能测试指标的性能测试；利用所述目标性能评测算法基于所述本次更新前的算法模型和所述本次更新后的算法模型各自的性能测试结果进行对比评测，得到对比评测结果；根据所述对比测试结果确定所述本次更新后的算法模型是否满足上线运行条件。13.一种电子设备，其特征在于，包括：存储器和处理器；所述存储器，用于存储计算机程序；所述处理器耦合至所述存储器，用于执行所述计算机程序以用于执行权利要求1-11任一项所述方法中的步骤。14.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被处理器执行时，致使所述处理器能够实现权利要求1-11任一项所述方法中的步骤。

技术总结
本申请实施例提供一种更新算法模型的自学习方法、系统、设备及存储介质。在本申请实施例中，形成埋点反馈数据收集、基于主动学习方式的样本构建和基于增量学习方式的微调训练的自学习闭环链路，支持对各种模型范式的算法模型更新迭代自动化，降低了算法模型更新的人工运维成本，提高了算法模型的更新效率和智能化程度。化程度。化程度。

技术研发人员：宋祎瑶
受保护的技术使用者：阿里云计算有限公司
技术研发日：2023.05.22
技术公布日：2023/7/27

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种从端力反馈检测装置的制作方法 下一篇：一种可调节式钢护筒导向架的制作方法

更新算法模型的自学习方法、系统、设备及存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

更新算法模型的自学习方法、系统、设备及存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表