基于强化学习的集成学习方法

未命名 09-16 阅读：106 评论：0

1.本发明涉及计算机人工智能技术领域，尤其涉及一种基于强化学习的集成学习方法、装置、电子设备及存储介质。

背景技术：

2.集成学习算法通常产生过大的集成，需要大量的内存。生成新数据点预测的过程中，当处理小数据集时，这些额外的开销可能不显著，但当在较大规模上使用集成方法时，这些开销可能会变得很大。
3.传统的基于强化学习的集成学习方法通常依赖于基本模型的静态组合，这在不同输入和上下文情况时存在准确率、系统资源消耗及稳定性达不到预期目标，这些方法应用在各行业中(数据挖掘和机器学习、自然语言处理、计算机视觉等)，其适应性、准确性和鲁棒性方面可能存在局限性，以语音识别为例，在对语音数据识别时其处理流程可能包括语音场景识别、语音风格识别、语音噪声识别、语音对象识别及语音文本识别等，上述这些识别过程的顺序、待识别数据源所对应的上下文及输入数据的动态变化导致目前的静态组合难以实现对应的识别准确率及识别精度，特别是在语音数据较为庞大实时识别时，且需要增加系统的额外消耗。

技术实现要素：

4.本发明实施例的主要目的在于提出一种基于强化学习的集成学习方法、装置、电子设备及存储介质，提高了基于集成学习的数据分析的效率及鲁棒性，降低了数据处理所需的开销。
5.本发明的一方面提供了一种基于强化学习的集成学习方法，包括：
6.获取目标数据的处理请求，创建集合，所述集合包括集成成员，所述集成成员用于表征学习模型，所述学习模型通过数据集学习得到，所述数据集包括训练集、验证集及测试集；
7.根据所述处理请求，将选择所述集成成员的问题描述为马尔可夫决策过程；
8.对所述马尔可夫决策过程执行基于强化学习方法的训练处理，得到第一选择策略；
9.根据所述处理请求的输入数据及上下文特征，采用所述第一选择策略对所述集成成员进行预测，得到预测结果；
10.从所述预测结果中选取性能最优的所述集成成员，以性能最优的所述集成成员作为所述目标数据的目标分析方法；
11.采用所述目标分析方法对所述目标数据执行分析，得到数据处理结果。
12.根据所述的基于强化学习的集成学习方法，其中创建集合包括：
13.调用接口以获取用于学习的所述数据集及所述学习模型；
14.通过所述学习模型以所述训练集作为输入执行训练，并对训练得到的所述学习模
型的性能进行评估，得到所述集成成员，所述学习模型的训练采用独立训练。
15.根据所述的基于强化学习的集成学习方法，其中马尔可夫决策过程包括状态空间、动作空间、奖励函数、转换函数及贴现因子，所述状态空间用于表征输入数据、上下文特征、所述集成成员的性能中的至少一种；所述动作空间用于表征所述处理请求的所有动作，以及，每个所述动作所选择的所述集成成员；所述奖励函数用于计算所述集成成员分析处理的预测性能；所述转换函数用于对所述集成成员执行分析处理后从一个状态变为另一个状态时进行预测；所述贴现因子为标量参数，用于表征所述集成成员未来预测性能相对于即时预测性能的比率。
16.根据所述的基于强化学习的集成学习方法，其中对所述马尔可夫决策过程执行基于强化学习的训练处理，得到第一选择策略，包括：
17.通过智能体对马尔可夫决策过程采用强化学习方法进行训练，每次训练时记录所述集成成员所处的所述状态空间及所述动作空间，以及，对所述集成成员进行训练后的所述奖励函数、所述转换函数及所述贴现因子进行采集；
18.通过所述奖励函数、所述转换函数及所述贴现因子对所述强化学习方法进行更新，执行强化学习方法训练的迭代，直至满足停止迭代的条件，输出所述第一选择策略；
19.对所述第一选择策略采用所述验证集进行修正。
20.根据所述的基于强化学习的集成学习方法，其中根据所述处理请求的输入数据及上下文特征，采用所述第一选择策略对所述集成成员进行预测，得到预测结果，包括：
21.确定所述集合中所有预期累积回报的所述动作；
22.对具有最大预期累积回报的所述动作的所述集成成员进行预测，得到所述预测结果；
23.所述预期累计回报通过所述强化学习方法在执行所述动作后，根据所述奖励函数、所述转换函数及所述贴现因子计算得到。
24.根据所述的基于强化学习的集成学习方法，其中从所述预测结果中选取性能最优的所述集成成员，以性能最优的所述集成成员作为所述目标数据的目标分析方法，还包括：
25.通过所述测试集对采用了所述第一选择策略的预测结果进行验证，得到所述强化学习方法的第一测试结果；
26.通过所述测试集对采用了所述第二选择策略的预测结果进行验证，得到所述强化学习方法的第二测试结果，所述第二选择策略包括投票法、平均法及加权平均法中的一种；
27.对所述第一测试结果及所述第二测试结果采用评估指标进行对比，将所述评估指标高于所述第二选择策略的所述第一选择策略作为所述目标方法；
28.所述评估指标包括准确率、召回率及f1分数中的至少一种；
29.所述对比方法包括交叉验证及留一法中的至少一种。
30.根据所述的基于强化学习的集成学习方法，该方法还包括：
31.对所述处理请求中待处理数据的数据类型及数据特征进行识别，根据识别结果从所述集合选取与所述数据类型及所述数据特征选取相匹配的所述集成成员作为所述处理请求的基于强化学习的集成学习方法。
32.本发明的第二方面公开了一种集成学习装置，包括：
33.集成成员模块，用于获取目标数据的处理请求，创建集合，所述集合包括集成成
员，所述集成成员用于表征学习模型，所述学习模型通过数据集学习得到，所述数据集包括训练集、验证集及测试集；
34.决策描述模块，用于根据所述处理请求，将选择所述集成成员的问题描述为马尔可夫决策过程；
35.决策训练模块，用于对所述马尔可夫决策过程执行基于强化学习方法的训练处理，得到第一选择策略；
36.决策预测模块，用于根据所述处理请求的输入数据及上下文特征，采用所述第一选择策略对所述集成成员进行预测，得到预测结果；
37.性能分析模块，用于从所述预测结果中选取性能最优的所述集成成员，以性能最优的所述集成成员作为所述目标数据的目标分析方法；
38.数据处理模块，用于采用所述目标分析方法对所述目标数据执行分析，得到数据处理结果。
39.本发明实施例的另一方面提供了一种电子设备，包括处理器以及存储器；
40.所述存储器用于存储程序；
41.所述处理器执行所述程序实现如前文所描述的方法。
42.本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前文所描述的方法。
43.本发明的有益效果为：通过动态地选择最佳集成成员来进行预测，从而在不同输入和上下文情况下实现较高的预测准确性，提了数据处理的准确性；通过结合强化学习算法学习选择策略，减小预测误差和泛化误差，在面对不同的数据集和问题时具有较强的鲁棒性；根据当前输入数据和上下文自适应地选择最佳集成成员，减少了手动调整模型的需求，降低了模型调优的复杂性，降低了数据处理的花销。
44.本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
附图说明
45.附图标记，客户端100、集成学习服务器200、接口服务器300。
46.本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：
47.图1是本发明实施例的集成学习系统示意图。
48.图2是本发明实施例的基于强化学习的集成学习方法的流程示意图。
49.图3是本发明实施例的集成成员训练流程示意图。
50.图4是本发明实施例的发选择决策训练流程示意图。
51.图5是本发明实施例的于强化学习的选择决策预期累计流程示意图。
52.图6是本发明实施例的发电机频率测量的分析方法选择流程示意图。
53.图7是本发明实施例的语音数据处理流程示意图。
54.图8是本发明实施例的数据集上的算法之间的比较的图形视图。
55.图9是本发明实施例的事后测试比较示意图。
56.图10是本发明实施例的集成学习分析装置图。
具体实施方式
57.下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特有的意义。因此，“模块”、“部件”或“单元”可以混合地使用。“第一”、“第二”等只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。在本后续的描述中，对方法步骤的连续标号是为了方便审查和理解，结合本发明的整体技术方案以及各个步骤之间的逻辑关系，调整步骤之间的实施顺序并不会影响本发明技术方案所达到的技术效果。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。
58.如图1所示，本发明实施例提供了集成学习系统示意图，其包括客户端100、集成学习服务器200、接口服务器300。其中客户端100、集成学习服务器200、接口服务器300依次连接，其中客户端为可以用于输入数据的设备如计算机(pc)、手机、平板电脑等智能设备，客户端100用于向集成学习服务器200发送处理请求及待处理的目标数据；集成学习服务器200用于取目标数据的处理请求，创建集合，集合包括集成成员，集成成员用于表征学习模型，学习模型通过数据集学习得到，数据集包括训练集、验证集及测试集，其中的数据集、训练方法及强化学习方法通过调用接口服务器300得到；集成学习服务器200将选择集成成员的问题描述为马尔可夫决策过程；对马尔可夫决策过程执行基于强化学习方法的训练处理，得到第一选择策略；根据处理请求的输入数据及上下文特征，采用第一选择策略对集成成员进行预测，得到预测结果；从预测结果选取性能最优的集成成员作为目标数据的目标分析方法；采用目标方法对目标数据执行分析，得到数据处理结果，将数据处理结果返回至客户端100。
59.在一些实施例中，其中客户端100的请求处理包括基于数据挖掘、机器学习、自然语言处理、计算机视觉、人工智能等数据处理方法，示例性地，其中数据挖掘及机器学习可以是分类、回归、聚类任务，其中自然语言处理包括情感分析、文本分类等，其中计算机视觉包括图像分类、目标检测等，其中人工智能包括应用于各种人工智能应用，如智能医疗、智能交通、智能家居等。
60.在一些实施例中，其中集成学习服务器200可以是计算机、工作站或服务器。具体需求可能因数据集大小、模型复杂度和训练时间要求等因素而异。对于大型数据集和复杂模型，可能需要使用具有高性能cpu、显卡(如nvidia gpu)和足够内存的设备。
61.在一些实施例中，其中接口服务器300包括机器学习和强化学习软件库，如python、tensorflow、pytorch、keras、openai gym等。服务器300通过库提供函数和接口，实现强化学习方法、基于强化学习的集成学习方法以及各种机器学习任务。
62.在一些实施例中，其中的上下文特征表示目标数据前后具有关联的数据特征，以文本识别为例，文本一“你今天吃饭了吗”，文本二“我今天吃饭了”，因此，文本一和文本二
的“今天”、“吃饭”构成关联数据特征，因此，文本一和文本二具有上下文关系，又如对于图像识别时，相邻的像素也是上下文关系，在实际应用中，上下文可以根据应用场景进行选择。
63.如图2所示，本发明实施例提供了一种基于强化学习的集成学习方法的流程，该方法具体包括但不限于步骤s100-s600：
64.s100，取目标数据的处理请求，创建集合，集合包括集成成员，集成成员用于表征学习模型，学习模型通过数据集学习得到，数据集包括训练集、验证集及测试集。
65.在一些实施例中，每个集合可以包括多个集成成员，以及，在对每个处理请求的处理过程中，其中的集合也可以是多个，例如，在一次图像数据的处理过程中，其包括图像分类及图像识别，对于图像分类选取具有分类学习模型的集合，例如vgg、resnet学习网络等，对于图像识别选取具有图像识别学习模型的集合，如cnn、deepcnn等。
66.在一些实施例中，其中的数据集作为学习模型的训练、验证及测试数据，数据集根据需求划分为一定比率的训练集、验证集及测试集；
67.在一些实施例中，参考图3所示的集成成员训练流程示意图，其包括但不限于步骤s110～s120：
68.s110，调用接口以获取用于学习的数据集及学习模型；
69.s120，通过学习模型以训练集作为输入执行训练，并对训练得到的学习模型的性能进行评估，得到集成成员，学习模型的训练采用独立训练。
70.在一些实施例中，训练四个说话人身份识别模型作为集成成员，分别采用不同类型的模型，如dnn、cnn、lstm和gmm-hmm，对每个模型进行单独的训练和评估。
71.s200，根据处理请求，将选择集成成员的问题描述为马尔可夫决策过程。
72.在一些实施例中，其中马尔可夫决策过程包括状态空间、动作空间、奖励函数、转换函数及贴现因子，状态空间用于表征输入数据、上下文特征、集成成员的性能中的至少一种；动作空间用于表征处理请求所有动作，以及，每个动作所选择的集成成员；奖励函数用于计算集成成员分析处理的预测性能；转换函数用于对集成成员执行分析处理后从一个状态变为另一个状态时进行预测；贴现因子为标量参数，用于表征集成成员未来预测性能相对于即时预测性能的比率。
73.在一些实施例中，
74.示例性地，考虑n个学习模型的集合，表示为m1，m2
……
，mn。对于任何给定的输入xt，根据环境的反馈选择最合适的学习模型mi，通过以下组件的马尔可夫决策过程(mdp)：
75.状态空间s，状态st表示环境的当前上下文，它可以从输入xt、集成成员过去的性能以及任何其他上下文信息中派生。
76.动作空间a，处的动作对应于为当前输入xt选择一个集成成员mi。因此，动作空间由n个动作组成，每个集成成员一个动作。
77.奖励函数r，奖励表示所选集成成员mi在输入xt上的性能。它可以根据各种标准来定义，例如准确性或最小化损失。
78.转换函数t，此函数模拟在处执行操作后从状态st到状态st+1的转换。在的示例中，它可以是确定性的，因为下一个状态完全取决于当前输入和所选集成成员的性能。
79.贴现因子γ，该标量参数决定未来奖励相对于即时奖励的重要性。接近1的值更强
调未来奖励，而接近0的值优先考虑立即奖励。
80.s300，对马尔可夫决策过程执行基于强化学习方法的训练处理，得到第一选择策略。
81.在一些实施例中，参考图4所示的选择决策训练流程示意图，其包括但不限于步骤s310～s330：
82.s310，通过智能体对马尔可夫决策过程采用强化学习方法进行训练，每次训练时记录集成成员所处的状态空间及动作空间，以及，对集成成员进行训练后的奖励函数、转换函数及贴现因子进行采集；
83.s320，通过奖励函数、转换函数及贴现因子对强化学习方法进行更新，执行强化学习方法训练的迭代，直至满足停止迭代的条件，输出第一选择策略；
84.s330，对第一选择策略采用验证集进行修正。
85.在一些实施例中，通过智能体使用强化学习方法，例如q学习或最近策略优化(ppo)，来学习基于上述mdp将状态映射到动作(即集成成员选择)的策略π(st)，通过迭代更新q函数(或等效函数)并基于学习的q函数(或等效函数)导出策略，使用强化学习算法训练策略，即可得到第一选择策略。
86.示例性的，其中的强化学习方法还可以是sarsa、deep q-network。
87.可以理解的是，停止迭代的条件包括训练收敛或者第一选择策略符合预设性能。
88.s400，根据处理请求的输入数据及上下文特征，采用第一选择策略对集成成员进行预测，得到预测结果。
89.在一些实施例中，参考图5所示的基于强化学习的选择决策预期累计流程示意图，其包括但不限于步骤：
90.s410，确定集合中所有预期累积回报的动作；
91.s420，对具有最大预期累积回报的动作的集成成员进行预测，得到预测结果；
92.s4230，预期累计回报通过强化学习方法在执行动作后，根据奖励函数、转换函数及贴现因子计算得到。
93.例如，在q-学习的情况下，可以定义一个q-函数q(st，at)，该q-函数表示在状态st中选择集成成员的预期累积回报。可以使用以下更新规则迭代地更新该q-函数，公式为
[0094][0095]
其中α是学习率。策略π(st)可以从q函数中导出，其公式为
[0096][0097]
s500，从预测结果选取性能最优的集成成员作为目标数据的目标分析方法。
[0098]
在一些实施例中，参考图6所示的性能评估流程示意图，其包括但不限于步骤s510～s530：
[0099]
s510，通过测试集对采用了第一选择策略的预测结果进行验证，得到强化学习方法的第一测试结果；
[0100]
s520，通过测试集对采用了第二选择策略的预测结果进行验证，得到强化学习方法的第二测试结果，第二选择策略包括投票法、平均法及加权平均法中的一种；
[0101]
s530，对第一测试结果及第二测试结果采用评估指标进行对比，将评估指标高于第二选择策略的第一选择策略作为目标方法；
[0102]
可以理解的是，本实施例的技术方案通过分别在测试集上评估静态集成方法和动态集成的强化学习方法的性能。通过性能指标进行评估，比较两种方法的性能，将符合性能预期的第一选择策略作为目标数据的处理方法。
[0103]
在一些实施例中，评估指标包括准确率、召回率及f1分数中的至少一种。
[0104]
在一些实施例中，其中对比方法包括交叉验证及留一法中的至少一种。
[0105]
s600，采用目标方法对目标数据执行分析，得到数据处理结果。
[0106]
在一些实施例中，对处理请求中待处理数据的数据类型及数据特征进行识别，根据识别结果从集合选取与数据类型及数据特征选取相匹配的集成成员作为处理请求的基于强化学习的集成学习方法，具体地，以语音识别为例，分析不同说话人、说话风格或噪声条件下的集成成员选择情况，可以更好地了解动态集成强化学习方法如何在不同场景下自适应地选择合适的集成成员。
[0107]
在一些实施例中，参考图7所示的所示的语音数据处理流程示意图，其包括但不限于步骤s710～s760：
[0108]
s710，使用timit数据集，它包含多个说话人的语音样本，每个说话人有多个不同的录音。将数据集划分为训练集(70％)、验证集(15％)和测试集(15％)。
[0109]
s720，集成成员训练，训练四个说话人身份识别模型作为集成成员。分别采用不同类型的模型，如dnn、cnn、lstm和gmm-hmm。对每个模型进行单独的训练和评估。
[0110]
s730，实施静态集成方法，对于静态集成方法，实施一种常用的集成策略，如投票法、平均法或加权平均法等。在验证集上评估不同的静态集成策略，选择表现最佳的策略应用于测试集。
[0111]
s740，实施动态集成的强化学习方法，将集成成员选择问题描述为马尔可夫决策过程，并使用q学习算法来训练一个选择策略。利用验证集对选择策略进行调优，并将训练好的选择策略应用于测试集。
[0112]
s750，评估和比较，分别在测试集上评估静态集成方法和动态集成的强化学习方法的性能。采用准确率、召回率、f1分数等指标进行评估。比较两种方法的性能，以展示基于动态集成的强化学习方法的优越性。
[0113]
通过本实施例的技术方案，可以展示基于动态集成的强化学习方法在说话人身份识别应用场景中相对于传统静态基于强化学习的集成学习方法的优越性。例如在准确率、召回率和f1分数等评价指标上与静态集成方法的对比，以反映动态集成的强化学习方法是否可以根据不同输入和上下文条件自适应地选择最合适的集成成员，从而提高整体性能。为了更深入地理解动态集成强化学习方法的优势，可以分析不同输入和上下文条件下选择策略的行为。例如，观察在不同说话人、说话风格或噪声条件下的集成成员选择情况。
[0114]
本发明的实施例还对所提出方法的有效性而进行的实验，为了进行比较，使用sklearn库在python中实现了基于kappa(kbp)、基于随机(rbp)和基于最小二乘(lsbp)的3种基本剪枝算法。通过对10个数据集的精度测量，对这些算法进行了比较。数据集包含不同数量的样本、特征和类。wine、digits和乳腺癌数据集取自sklearn library。其余的数据集从uci机器学习库中检索。表2给出了数据集信息，即特征数、类、总样本量以及用于训练和
测试集的数据百分比。在所有实验中，70％和30％的数据分别用于训练集和测试集。构建了一个由500个决策树分类器组成的集成池，并选择50个成员参与最终投票。对于决策树分类器，所有参数都设置为默认值，sklearn库如表1根据对每个数据集进行10次迭代的精度度量的平均值和标准偏差报告了算法的性能所示。
[0115]
数据集功能部件类别样品训练规模测试规模葡萄酒13317812553数字641017971258539乳腺癌302569398171种子7321014763产妇保健631014710304网络钓鱼1031352946406银行票据421372960412葡萄干72900630270wifi定位7420001400600spambase公司572460132211380
[0116]
表1
[0117]
参考表2，其示例了精度度量算法的性能比较。算法显示了不同数据集的不同性能。在wine数据集上，该算法的准确率达到了95％左右，而其他算法的准确率在92％左右。在数字数据集上，该算法优于其他算法，准确率为93.81％，而其他算法的准确率相对较低(《89％)。在乳腺癌数据集上，提出算法的正确率最高，为96.43％，kbp的正确率为94.68％，排在第二位。在种子和母体健康数据集上，kbp的正确率最高，分别为93.33％和83.42％。在这些数据集中，所提出的方法执行最低。在网络钓鱼和bnak notes数据集上，两种算法的性能差别不大，但该算法的正确率最高，分别为89.79％和98.62％。lsbp算法在葡萄干数据集上优于其他算法，其正确率为94.27％。在wifi定位方面，kbp算法和提出的方法的定位准确率最高，为97.87％；在spambase数据集上，该算法的定位准确率为93.51％，优于其他算法。结果表明，在2个数据集中，kbp优于其他3种方法，而在其他数据集中，kbp优于其他3种方法。rbp算法对所有数据集的性能都低于其他算法。lsbp算法仅在葡萄干数据集上优于其他算法。该方法在7个数据集上优于其他算法。该算法在种子数据集、孕产妇健康数据集和葡萄干数据集上的性能均低于其他算法。在这些数据集中，所提出的方法分别排在第4、第4和第2位。
[0118][0119]
表2
[0120]
参考图8给出了所有数据集上的算法之间的比较的图形视图，图8中从左至右的柱形图分别表示kappa(kbp)、随机(rbp)、最小二乘(lsbp)及推荐(建议)方法。采用非参数friedman检验方法对所有数据集的精度进行检验，显著性水平(α)为0.05。两种算法的性能没有差异的零假设被拒绝，p值为0.00，卡方统计值为9.582。然后进行一个事后测试(nemenyi)来执行两两比较，结果如图9所示，其中连接线显示具有类似性能的算法。
[0121]
图10是本发明实施例的集成学习分析装置图。该装置包括了集成成员模块1010、决策描述模块1020、决策训练模块1030、决策预测模块1040、性能分析模块1050及数据处理模块1060。
[0122]
其中，集成成员模块，用于获取目标数据的处理请求，创建集合，集合包括集成成员，集成成员用于表征学习模型，学习模型通过数据集学习得到，数据集包括训练集、验证集及测试集；决策描述模块，用于根据处理请求，将选择集成成员的问题描述为马尔可夫决策过程；决策训练模块，用于对马尔可夫决策过程执行基于强化学习方法的训练处理，得到第一选择策略；决策预测模块，用于根据处理请求的输入数据及上下文特征，采用第一选择策略对集成成员进行预测，得到预测结果；性能分析模块，用于从预测结果中选取性能最优的集成成员，以性能最优的集成成员作为目标数据的目标分析方法；数据处理模块，用于采用目标分析方法对目标数据执行分析，得到数据处理结果。
[0123]
示例性地，在装置中的集成成员模块、决策描述模块、决策训练模块、决策预测模块、性能分析模块及数据处理模块的合作下，实施例装置可以实现前述的任意一种基于强化学习的集成学习方法，即获取目标数据的处理请求，创建集合，集合包括集成成员，集成成员用于表征学习模型，学习模型通过数据集学习得到，数据集包括训练集、验证集及测试集；根据处理请求，将选择集成成员的问题描述为马尔可夫决策过程；对马尔可夫决策过程执行基于强化学习方法的训练处理，得到第一选择策略；根据处理请求的输入数据及上下文特征，采用第一选择策略对集成成员进行预测，得到预测结果；从预测结果中选取性能最优的集成成员，以性能最优的集成成员作为目标数据的目标分析方法；采用目标分析方法对目标数据执行分析，得到数据处理结果。本发明的有益效果为：通过动态地选择最佳集成成员来进行预测，从而在不同输入和上下文情况下实现较高的预测准确性，提了数据处理的准确性；通过结合强化学习算法学习选择策略，减小预测误差和泛化误差，在面对不同的数据集和问题时具有较强的鲁棒性；根据当前输入数据和上下文自适应地选择最佳集成成
员，减少了手动调整模型的需求，降低了模型调优的复杂性，降低了数据处理的花销。
[0124]
本发明实施例还提供了一种电子设备，该电子设备包括处理器以及存储器；
[0125]
存储器存储有程序；
[0126]
处理器执行程序以执行前述的基于强化学习的集成学习方法；该电子设备具有搭载并运行本发明实施例提供的界面切换的软件系统的功能，例如，个人计算机(personal computer，pc)、手机、智能手机、个人数字助手(personal digital assistant，pda)、可穿戴设备、掌上电脑ppc(pocket pc)、平板电脑等。
[0127]
本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的基于强化学习的集成学习方法。
[0128]
在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
[0129]
本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前述的基于强化学习的集成学习方法。
[0130]
此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
[0131]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0132]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设
备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
[0133]
计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式光盘只读存储器(cdrom)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。
[0134]
应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。
[0135]
在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0136]
尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。
[0137]
以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本技术权利要求所限定的范围内。

技术特征：
1.一种基于强化学习的集成学习方法，其特征在于，包括：获取目标数据的处理请求，创建集合，所述集合包括集成成员，所述集成成员用于表征学习模型，所述学习模型通过数据集学习得到，所述数据集包括训练集、验证集及测试集；根据所述处理请求，将选择所述集成成员的问题描述为马尔可夫决策过程；对所述马尔可夫决策过程执行基于强化学习方法的训练处理，得到第一选择策略；根据所述处理请求的输入数据及上下文特征，采用所述第一选择策略对所述集成成员进行预测，得到预测结果；从所述预测结果中选取性能最优的所述集成成员，以性能最优的所述集成成员作为所述目标数据的目标分析方法；采用所述目标分析方法对所述目标数据执行分析，得到数据处理结果。2.根据权利要求1所述的基于强化学习的集成学习方法，其特征在于，所述创建集合包括：调用接口以获取用于学习的所述数据集及所述学习模型；通过所述学习模型以所述训练集作为输入执行训练，并对训练得到的所述学习模型的性能进行评估，得到所述集成成员，所述学习模型的训练采用独立训练。3.根据权利要求1所述的基于强化学习的集成学习方法，其特征在于，所述马尔可夫决策过程包括状态空间、动作空间、奖励函数、转换函数及贴现因子，所述状态空间用于表征输入数据、上下文特征、所述集成成员的性能中的至少一种；所述动作空间用于表征所述处理请求的所有动作，以及，每个所述动作所选择的所述集成成员；所述奖励函数用于计算所述集成成员分析处理的预测性能；所述转换函数用于对所述集成成员执行分析处理后从一个状态变为另一个状态时进行预测；所述贴现因子为标量参数，用于表征所述集成成员未来预测性能相对于即时预测性能的比率。4.根据权利要求3所述的基于强化学习的集成学习方法，其特征在于，所述对所述马尔可夫决策过程执行基于强化学习的训练处理，得到第一选择策略，包括：通过智能体对马尔可夫决策过程采用强化学习方法进行训练，每次训练时记录所述集成成员所处的所述状态空间及所述动作空间，以及，对所述集成成员进行训练后的所述奖励函数、所述转换函数及所述贴现因子进行采集；通过所述奖励函数、所述转换函数及所述贴现因子对所述强化学习方法进行更新，执行强化学习方法训练的迭代，直至满足停止迭代的条件，输出所述第一选择策略；对所述第一选择策略采用所述验证集进行修正。5.根据权利要求3所述的基于强化学习的集成学习方法，其特征在于，所述根据所述处理请求的输入数据及上下文特征，采用所述第一选择策略对所述集成成员进行预测，得到预测结果，包括：确定所述集合中所有预期累积回报的所述动作；对具有最大预期累积回报的所述动作的所述集成成员进行预测，得到所述预测结果；所述预期累计回报通过所述强化学习方法在执行所述动作后，根据所述奖励函数、所述转换函数及所述贴现因子计算得到。6.根据权利要求5所述的基于强化学习的集成学习方法，其特征在于，所述从所述预测结果中选取性能最优的所述集成成员，以性能最优的所述集成成员作为所述目标数据的目
标分析方法，还包括：通过所述测试集对采用了所述第一选择策略的预测结果进行验证，得到所述强化学习方法的第一测试结果；通过所述测试集对采用了所述第二选择策略的预测结果进行验证，得到所述强化学习方法的第二测试结果，所述第二选择策略包括投票法、平均法及加权平均法中的一种；对所述第一测试结果及所述第二测试结果采用评估指标进行对比，将所述评估指标高于所述第二选择策略的所述第一选择策略作为所述目标方法；所述评估指标包括准确率、召回率及f1分数中的至少一种；所述对比方法包括交叉验证及留一法中的至少一种。7.根据权利要求1所述的基于强化学习的集成学习方法，其特征在于，所述方法还包括：对所述处理请求中待处理数据的数据类型及数据特征进行识别，根据识别结果从所述集合选取与所述数据类型及所述数据特征选取相匹配的所述集成成员作为所述处理请求的基于强化学习的集成学习方法。8.一种集成学习装置，其特征在于，包括：集成成员模块，用于获取目标数据的处理请求，创建集合，所述集合包括集成成员，所述集成成员用于表征学习模型，所述学习模型通过数据集学习得到，所述数据集包括训练集、验证集及测试集；决策描述模块，用于根据所述处理请求，将选择所述集成成员的问题描述为马尔可夫决策过程；决策训练模块，用于对所述马尔可夫决策过程执行基于强化学习方法的训练处理，得到第一选择策略；决策预测模块，用于根据所述处理请求的输入数据及上下文特征，采用所述第一选择策略对所述集成成员进行预测，得到预测结果；性能分析模块，用于从所述预测结果中选取性能最优的所述集成成员，以性能最优的所述集成成员作为所述目标数据的目标分析方法；数据处理模块，用于采用所述目标分析方法对所述目标数据执行分析，得到数据处理结果。9.一种电子设备，其特征在于，包括处理器以及存储器；所述存储器用于存储程序；所述处理器执行所述程序实现如权利要求1-7中任一项所述的基于强化学习的集成学习方法。10.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1-7中任一项所述的基于强化学习的集成学习方法。

技术总结
本发明提供一种基于强化学习的集成学习方法、装置、电子设备及存储介质，该基于强化学习的集成学习方法包括：获取目标数据的处理请求，创建集合，集合包括集成成员；将选择集成成员的问题描述为马尔可夫决策过程；对马尔可夫决策过程执行基于强化学习方法的训练处理，得到第一选择策略；输入数据及上下文特征，对集成成员进行预测，得到预测结果；以性能最优的集成成员作为目标数据的目标分析方法；采用目标方法对目标数据执行分析，得到数据处理结果。本发明的有益效果为：通过动态地选择最佳集成成员来进行预测，提了数据处理的准确性，在面对不同的数据集和问题时具有较强的鲁棒性，降低了数据处理的花销。降低了数据处理的花销。降低了数据处理的花销。

技术研发人员：刘丽华黄宏斌吴继冰李璇肖开明陈海文
受保护的技术使用者：中国人民解放军国防科技大学
技术研发日：2023.05.05
技术公布日：2023/9/14

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：车辆的休眠电流监控方法、装置、车辆及存储介质与流程 下一篇：一种高效辐射制冷纤维及其制备方法与流程

基于强化学习的集成学习方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

基于强化学习的集成学习方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表