一种模型训练方法、装置、设备及存储介质与流程

未命名 07-27 阅读：97 评论：0

1.本发明实施例涉及机器学习技术领域，尤其涉及一种模型训练方法、装置、设备及存储介质。

背景技术：

2.机器学习是一种专门研究计算机模拟或实现人类的学习行为的交叉学科。大数据时代使得各行业对数据分析需求的持续增加，如何基于机器学习对复杂多样的数据进行深层次的分析，更高效地利用数据成为当前大数据环境下机器学习研究的主要方向。
3.在实现本发明的过程中，发现现有技术中至少存在以下技术问题：
4.机器学习采用的训练数据的数据量较大，且数据结构复杂。用户收集到的训练数据中容易存在一些噪声数据，在一定程度上会影响到学习模型的训练精度，导致过拟合或模型偏差等问题，进而降低了学习模型预测结果的准确度。

技术实现要素：

5.本发明实施例提供了一种模型训练方法、装置、设备及存储介质，以提高训练数据的质量，进而提高学习模型的预测结果的准确性。
6.第一方面，本发明实施例提供了一种模型训练方法，该方法包括：
7.获取至少一组原始训练数据，并依次将各组原始训练数据分别作为待输入训练数据；
8.基于过滤器模型对各所述待输入训练数据分别进行过滤，得到至少一组过滤训练数据，并基于各组过滤训练数据，依次对初始应用网络模型进行训练；
9.基于每次训练完成的初始应用网络模型分别对应的奖励值，更新所述过滤器模型中的模型参数；
10.依次将各所述过滤训练数据分别作为待输入训练数据，并返回执行基于过滤器模型对各所述待输入训练数据分别进行过滤，得到至少一组过滤训练数据的操作，直到满足预设迭代条件时，得到目标应用网络模型。
11.第二方面，本发明实施例还提供了一种模型训练装置，该装置包括：
12.原始训练数据获取模块，用于获取至少一组原始训练数据，并依次将各组原始训练数据分别作为待输入训练数据；
13.初始应用网络模型训练模块，用于基于过滤器模型对各所述待输入训练数据分别进行过滤，得到至少一组过滤训练数据，并基于各组过滤训练数据，依次对初始应用网络模型进行训练；
14.过滤器模型更新模块，用于基于每次训练完成的初始应用网络模型分别对应的奖励值，更新所述过滤器模型中的模型参数；
15.目标应用网络模型确定模块，用于依次将各所述过滤训练数据分别作为待输入训练数据，并返回执行基于过滤器模型对各所述待输入训练数据分别进行过滤，得到至少一
组过滤训练数据的操作，直到满足预设迭代条件时，得到目标应用网络模型。
16.第三方面，本发明实施例还提供了一种电子设备，该电子设备包括：
17.一个或多个处理器；
18.存储器，用于存储一个或多个程序；
19.当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述所涉及的任一所述的模型训练方法。
20.第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行上述所涉及的任一所述的模型训练方法。
21.上述发明中的实施例具有如下优点或有益效果：
22.本发明实施例通过在初始应用网络模型训练中加入过滤器模型，使得过滤器模型基于强化学习机制对初始应用网络模型的原始训练数据进行过滤，得到过滤训练数据，并基于过滤训练数据对初始应用网络模型进行训练，解决了训练数据中存在的噪声数据导致学习模型存在过拟合或模型偏差的问题，提高了训练数据的质量，进而提高了目标应用网络模型预测结果的精确度。
附图说明
23.图1是本发明实施例一提供的一种模型训练方法的流程图；
24.图2是本发明实施例二提供的一种模型训练方法的流程图；
25.图3是本发明实施例二提供的一种模型训练方法的具体实例的流程图；
26.图4是本发明实施例三提供的一种模型训练装置的示意图；
27.图5是本发明实施例四提供的一种电子设备的结构示意图。
具体实施方式
28.下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。
29.实施例一
30.图1是本发明实施例一提供的一种模型训练方法的流程图，本实施例可适用于采用训练数据对学习模型进行模型训练的情况，该方法可以由模型训练装置来执行，该装置可采用软件和/或硬件的方式实现，该装置可以配置于终端设备中，示例性的，终端设备可以是移动终端、笔记本电脑、台式机、服务器和平板电脑等智能终端。具体包括如下步骤：
31.s110、获取至少一组原始训练数据，并依次将各组原始训练数据分别作为待输入训练数据。
32.其中，具体的，原始训练数据用于表征用户采集到的用于对初始应用网络模型进行训练的训练数据。其中，原始训练数据包括至少一组训练数据。
33.在一个实施例中，可选的，原始训练数据中的训练数据包括用户特征数据、物品特征数据和用户与物品的关联关系标签。其中，示例性的，用户特征数据包括但不限于用户姓名、性别和年龄等特征数据，物品特征数据包括但不限于物品价格、物品产地和物品颜色等
特征数据，用户与物品的关联关系标签可用于表征用户与物品之间的关联转化关系，示例性的，关联转化关系包括但不限于是否购买、是否收藏和是否加入购物车等等。
34.举例而言，将用户a的用户下单数据中收集m天的数据作为原始训练数据，其中，原始训练数据包括用户a特征数据、至少一种物品特征数据和用户a分别与至少一种物品之间的购买关系标签。
35.其中，示例性的，将依次将原始训练数据a、原始训练数据b和原始训练c分别作为待输入训练数据，执行后续步骤。
36.s120、基于过滤器模型对各待输入训练数据分别进行过滤，得到至少一组过滤训练数据，并基于各组过滤训练数据，依次对初始应用网络模型进行训练。
37.其中，具体的，过滤器模型用于对待输入训练数据进行过滤，滤除待输入训练数据中的噪声训练数据，得到用于对初始应用网络模型进行训练的过滤训练数据。
38.在一个实施例中，可选的，基于过滤器模型对各待输入训练数据分别进行过滤，确定至少一组过滤训练数据，包括：针对每组待输入训练数据，将待输入训练数据输入到过滤器模型中，得到输出的待输入训练数据中至少一个训练数据分别对应的过滤概率值；将待输入训练数据中过滤概率值满足预设概率范围的训练数据作为过滤训练数据。
39.其中，示例性的，过滤器模型包括基于多层感知机(multi-layer perceptron，mlp)的神经网络模型，过滤器模型包括三层神经网络，包括输入层。隐藏层和输出层，其中，隐藏层和输出层的激活函数分别是relu(修正线性单元，rectified linear unit，relu)函数和sigmoid(s形)函数，输出层输出二维的概率值，用于表征对某一训练数据执行过滤动作或者保留动作的概率。
40.需要注意的是，可根据训练数据的数据特征选择不同的神经网络结构，此处对过滤器模型采用的具体网络结构不作限定。
41.其中，示例性的，假设过滤概率值用于表征训练数据被过滤掉的概率，则预设概率范围可以是[0,0.7]，假设过滤概率值用于表征训练数据被保留的概率，则预设概率范围可以是[0.7,1]。此处对预设概率范围不作限定。
[0042]
其中，示例性的，全部原始训练数据b＝{b1,b2,
…
,bn}，其中，bn表示第n组原始训练数据。相应的，全部过滤训练数据c＝{c1,c2,
…
,cn}，其中，cn表示第n组过滤训练数据。基于各组过滤训练数据，依次对初始应用网络模型进行训练，包括：基于过滤训练数据c1对初始应用网络模型进行训练，得到第一个训练完成的初始应用网络模型m1，基于过滤训练数据c2对初始应用网络模型m1进行训练，得到第二个训练完成的初始应用网络模型m2……
基于过滤训练数据cn对初始应用网络模型m
n-1
进行训练，得到第n个训练完成的初始应用网络模型mn。其中，示例性的，训练完成的判断标准可以是初始应用网络模型的损失函数收敛。
[0043]
s130、基于每次训练完成的初始应用网络模型分别对应的奖励值，更新过滤器模型中的模型参数。
[0044]
其中，具体的，奖励值可以是基于训练完成的初始应用网络模型对应的模型效果表征值确定的，示例性的，奖励值等于模型效果表征值。模型效果表征值可以是采用预设验证数据对训练完成的初始应用网络模型进行验证计算得到的，该技术特征将在后续步骤中进行详细介绍。
[0045]
这样设置的好处在于，如果仅基于最后一次训练完成的初始应用网络模型对应的
奖励值更新过滤器模型中的模型参数，会使得奖励值稀疏，导致过滤器模型无法收敛。
[0046]
在一个实施例中，可选的，基于至少一个奖励值，采用批次梯度下降法更新过滤器模型中的模型参数。其中，具体的，过滤器模型基于待输入训练数据中的特征向量xi执行动作ai，决定哪些待输入训练数据是噪声训练数据。首先将得到一个迹表示为τ＝{(x1,a1,r1),......(xu,au,ru)}。其中，u表示待输入训练数据的组数，ru表示一次迭代中第u个训练完成的初始应用网络模型对应的奖励值。
[0047]
其中，具体的，过滤器模型中的目标函数j(θ)为：
[0048][0049]
其中，e表示求期望，ru表示一次迭代中第u个训练完成的初始应用网络模型对应的奖励值，π
θ
表示表示当前的策略，即过滤器模型所执行的动作ai的概率值，θ表示过滤器模型的权重参数，p
θ
表示过滤器模型执行所有动作的概率分布。
[0050]
其中，目标函数j(θ)的梯度表示为：
[0051][0052]
其中，表示过滤器模型更新的模型参数。
[0053]
在本算法中不考虑未来奖励值的折扣，上述目标函数的梯度可以近似为：
[0054][0055]
最终，过滤器模型中的权重系数θ可以利用该梯度进行更新，即
[0056][0057]
其中，具体的，过滤器模型在过滤完所有原始训练数据(u组)之后，通过反向传播算法，更新过滤器模型中每一层的权重参数，过滤器模型随着模型的更新，其识别原始训练数据中的噪声训练数据的能力越来越强。此处使用随机梯度下降法对权重参数进行更新训练，目标在于求解一个权重参数θ使得训练完成的初始应用网络模型的模型效果表征值最大。
[0058]
s140、判断是否满足预设迭代条件，如果是，则执行s160，如果否，则执行s150。
[0059]
其中，具体的，预设迭代条件包括但不限于训练完成的初始应用网络模型的模型效果表征值满足预设阈值范围和/或初始应用网络模型的训练次数达到预设次数阈值。示例性的，假设获取得到n组原始训练数据，则将初始应用网络模型训练n次视为一次迭代，预设次数阈值可以是m*n，其中，m表示初始应用网络模型的迭代次数。
[0060]
s150、依次将各过滤训练数据分别作为待输入训练数据，并执行s120。
[0061]
s160、确定目标应用网络模型。
[0062]
在一个实施例中，可选的，目标应用网络模型包括目标转化率预估模型，目标转化率预估模型用于基于输入的目标用户的用户特征数据和目标物品的物品特征数据，预测出目标用户与目标物品产生关联关系的概率值。在本实施例中，转化率(conversion rate，cvr)用于表征用户与物品存在关联转化关系的概率。在电子商务领域，转化率可作为用于
衡量广告投放效果的指标，也可用于对针对用户进行推荐的物品内容进行排序，将转化率高的物品内容展示给用户。
[0063]
本实施例的技术方案，通过在初始应用网络模型训练中加入过滤器模型，使得过滤器模型基于强化学习机制对初始应用网络模型的原始训练数据进行过滤，得到过滤训练数据，并基于过滤训练数据对初始应用网络模型进行训练，解决了训练数据中存在的噪声数据导致学习模型存在过拟合或模型偏差的问题，提高了训练数据的质量，进而提高了目标应用网络模型预测结果的精确度。
[0064]
实施例二
[0065]
图2是本发明实施例二提供的一种模型训练方法的流程图，本实施例的技术方案是上述实施例的基础上的进一步细化。可选的，所述基于每次训练完成的初始应用网络模型分别对应的奖励值，更新所述过滤器模型中的模型参数，包括：针对每次训练完成的初始应用网络模型，将预设验证数据输入到所述训练完成的初始应用网络模型中，得到输出结果；基于所述输出结果和与所述预设验证数据对应的预设标准结果，确定所述训练完成的初始应用网络模型对应的模型效果表征值；基于至少一个模型效果表征值，确定与各所述训练完成的初始应用网络模型分别对应的奖励值，并基于至少一个奖励值，更新所述过滤器模型中的模型参数。
[0066]
本实施例的具体实施步骤包括：
[0067]
s210、获取至少一组原始训练数据，并依次将各组原始训练数据分别作为待输入训练数据。
[0068]
s220、基于过滤器模型对各待输入训练数据分别进行过滤，得到至少一组过滤训练数据，并基于各组过滤训练数据，依次对初始应用网络模型进行训练。
[0069]
s230、针对每次训练完成的初始应用网络模型，将预设验证数据输入到训练完成的初始应用网络模型中，得到输出结果。
[0070]
在一个实施例中，可选的，在将预设验证数据输入到训练完成的初始应用网络模型中，得到输出结果之前，方法还包括：判断训练完成的初始应用网络模型是否为第m个训练完成的初始应用网络模型；其中，m用于表征原始训练数据的组数的整数倍；如果是，则将第一验证数据作为预设验证数据；如果否，则将第二验证数据作为预设验证数据；其中，第一验证数据包含的样本数据的数据量大于第二验证数据包含的样本数据的数据量。
[0071]
其中，示例性的，假设获取得到n组原始训练数据分别为b1,b2,
…
,bn，在第一次迭代过程中，过滤器模型依次对n组原始训练数据进行过滤，得到n组过滤训练数据c1,c2,
…
,cn。基于n组过滤训练数据(c1,c2,
…
,cn)依次对初始应用网络模型进行训练，得到n*1个训练完成的初始应用网络模型。在第二次迭代过程中，过滤器依次对n组待输入训练数据c1,c2,
…
,cn进行过滤，得到n组过滤训练数据c1’
,c2’
,
…
,c
n’。基于n组过滤训练数据(c1’
,c2’
,
…
,c
n’)依次对初始应用网络模型进行训练，得到n*2个训练完成的初始应用网络模型。
[0072]
这样设置的好处在于，由于本实施例需要多次基于预设验证数据确定训练完成的初始应用网络模型对应的奖励值，因此，在一次迭代完成之前，基于样本数据的数据量较小的第二验证数据确定奖励值，可以加快目标应用网络模型的训练速度，在一次迭代完成之后，基于样本数据的数据量较大的第一验证数据确定奖励值，可以提高奖励值的准确度，进而提高过滤器模型和目标应用网络模型各自的预测精度。
[0073]
s240、基于输出结果和与预设验证数据对应的预设标准结果，确定训练完成的初始应用网络模型对应的模型效果表征值。
[0074]
其中，示例性的，假设初始应用网络模型为初始转化率预估模型，且属于二分类模型，则输出结果为目标用户与目标物品是否关联。假设初始应用网络模型为初始转化率预估模型，且属于多分类模型，则输出结果为目标用户与目标物品产生关联关系的概率值。此处对初始应用网络模型的模型类型不作限定。
[0075]
其中，示例性的，模型效果表征值包括但不限于对数损失值(log-loss)，精确率、召回率和auc(area under the curve，曲线下面积)等等。
[0076]
s250、基于至少一个模型效果表征值，确定与各训练完成的初始应用网络模型分别对应的奖励值，并基于至少一个奖励值，更新过滤器模型中的模型参数。
[0077]
在一个实施例中，可选的，针对每次训练完成的初始应用网络模型，将与训练完成的初始应用网络模型对应的模型效果表征值作为训练完成的初始应用网络模型的奖励值。其中，示例性的，模型效果表征值为auc。
[0078]
在上述实施例的基础上，可选的，在基于过滤训练数据，对初始应用网络模型进行训练之前，方法还包括：基于至少一组原始训练数据，对初始应用网络模型进行预训练，得到预训练完成的初始应用网络模型。这样设置的好处在于，由于强化学习算法在训练中梯度方差较大，会存在不稳定性，基于原始训练数据对初始应用网络模型进行预训练，将预训练完成的初始应用网络模型作为初始模型，再采用强化学习的方法进行训练，可以使强化学习得到很好的初始化，提高强化学习的稳定性。
[0079]
在一个实施例中，可选的，基于至少一个模型效果表征值，确定与各训练完成的初始应用网络模型分别对应的奖励值，包括：针对每次训练完成的初始应用网络模型，基于与训练完成的初始应用网络模型对应的上一模型效果表征值和当前模型效果表征值，确定训练完成的初始应用网络模型对应的奖励值。
[0080]
在一个实施例中，可选的，当训练完成的初始应用网络模型为第一个训练完成的初始应用网络模型时，获取预设模型效果表征值，并将预设模型效果表征值作为上一模型效果表征值。此处对预设模型效果表征值的具体数值不作限定，
[0081]
在另一个实施例中，可选的，在基于过滤训练数据，对初始应用网络模型进行训练之前，方法还包括：基于至少一组原始训练数据，对初始应用网络模型进行预训练，并将预设验证数据输入到预训练完成的初始应用网络模型中，得到输出结果；基于输出结果和与预设验证数据对应的预设标准结果，确定预训练完成的初始应用网络模型对应的模型效果表征值；将模型效果表征值作为与第一个训练完成的初始应用网络模型对应的上一模型效果表征值。
[0082]
其中，具体的，预设验证数据可以是第一验证数据和/或第二验证数据。
[0083]
其中，示例性的，以模型效果表征值为auc为例，第i次训练完成的初始应用网络模型对应的奖励值ri满足公式：
[0084][0085]
其中，n表示待输入训练数据的组数，auci表示一次迭代中第i次训练完成的初始应用网络模型对应的auc，auc
pre
表示预设模型效果表征值或者预训练完成的初始应用网络
模型对应的模型效果表征值。
[0086]
这样设置的好处在于，当模型效果表征值均为非负值时，如模型效果表征值为auc，直接将模型效果表征值作为奖励值会导致过滤器模型的训练无法收敛。
[0087]
s260、判断是否满足预设迭代条件，如果是，则执行s280，如果否，则执行s270。
[0088]
s270、依次将各过滤训练数据分别作为待输入训练数据，并执行s220。
[0089]
s280、确定目标应用网络模型。
[0090]
图3是本发明实施例二提供的一种模型训练方法的具体实例的流程图。在本实施例中，强化学习中的智能体为过滤器模型，初始状态为训练数据集中的原始训练数据作为待输入训练数据，强化学习过程中的状态为过滤训练数据作为待输入训练数据，智能体的动作为过滤器模型输出的待输入数据对应的过滤概率值，环境为cvr预估模型和过滤后的训练数据集。其中，具体的，采用训练数据集对cvr预估模型进行预训练，过滤器模型输出待输入数据对应的过滤概率值用于环境，环境接受该动作后当前状态(待输入数据)发生变化，同时cvr预估模型产生一个奖励值反馈给过滤器模型，对过滤器模型进行更新，过滤器模型根据奖励值和当前状态再选择下一个动作。
[0091]
本实施例的技术方案，针对每次训练完成的初始应用网络模型，通过基于与训练完成的初始应用网络模型对应的上一模型效果表征值和当前模型效果表征值，确定训练完成的初始应用网络模型对应的奖励值，解决了非负的模型效果表征值导致过滤器模型无法收敛的问题，进一步的，本发明实施例通过对初始应用网络模型进行预训练，提高了强化学习过程的稳定性，进而保证了过滤器模型和目标应用网络模型的预测精度。
[0092]
实施例三
[0093]
图4是本发明实施例三提供的一种模型训练装置的示意图。本实施例可适用于采用训练数据对学习模型进行模型训练的情况，该装置可采用软件和/或硬件的方式实现，该装置可以配置于终端设备中。该模型训练装置包括：原始训练数据获取模块310、初始应用网络模型训练模块320、过滤器模型更新模块330和目标应用网络模型确定模块340。
[0094]
其中，原始训练数据获取模块310，用于获取至少一组原始训练数据，并依次将各组原始训练数据分别作为待输入训练数据；
[0095]
初始应用网络模型训练模块320，用于基于过滤器模型对各待输入训练数据分别进行过滤，得到至少一组过滤训练数据，并基于各组过滤训练数据，依次对初始应用网络模型进行训练；
[0096]
过滤器模型更新模块330，用于基于每次训练完成的初始应用网络模型分别对应的奖励值，更新过滤器模型中的模型参数；
[0097]
目标应用网络模型确定模块340，用于依次将各过滤训练数据分别作为待输入训练数据，并返回执行基于过滤器模型对各待输入训练数据分别进行过滤，得到至少一组过滤训练数据的操作，直到满足预设迭代条件时，得到目标应用网络模型。
[0098]
本实施例的技术方案，通过在初始应用网络模型训练中加入过滤器模型，使得过滤器模型基于强化学习机制对初始应用网络模型的原始训练数据进行过滤，得到过滤训练数据，并基于过滤训练数据对初始应用网络模型进行训练，解决了训练数据中存在的噪声数据导致学习模型存在过拟合或模型偏差的问题，提高了训练数据的质量，进而提高了目标应用网络模型预测结果的精确度。
[0099]
在上述技术方案的基础上，可选的，过滤器模型更新模块330包括：
[0100]
预设验证数据输入单元，用于针对每次训练完成的初始应用网络模型，将预设验证数据输入到训练完成的初始应用网络模型中，得到输出结果；
[0101]
模型效果表征值确定单元，用于基于输出结果和与预设验证数据对应的预设标准结果，确定训练完成的初始应用网络模型对应的模型效果表征值；
[0102]
奖励值确定单元，用于基于至少一个模型效果表征值，确定与各训练完成的初始应用网络模型分别对应的奖励值，并基于至少一个奖励值，更新过滤器模型中的模型参数。
[0103]
在上述技术方案的基础上，可选的，奖励值确定单元具体用于：
[0104]
针对每次训练完成的初始应用网络模型，基于与训练完成的初始应用网络模型对应的上一模型效果表征值和当前模型效果表征值，确定训练完成的初始应用网络模型对应的奖励值。
[0105]
在上述技术方案的基础上，可选的，该装置还包括：
[0106]
预训练模块，用于在基于过滤训练数据，对初始应用网络模型进行训练之前，基于至少一组原始训练数据，对初始应用网络模型进行预训练，并将预设验证数据输入到预训练完成的初始应用网络模型中，得到输出结果；基于输出结果和与预设验证数据对应的预设标准结果，确定预训练完成的初始应用网络模型对应的模型效果表征值；将模型效果表征值作为与第一个训练完成的初始应用网络模型对应的上一模型效果表征值。
[0107]
在上述技术方案的基础上，可选的，过滤器模型更新模块330还包括：
[0108]
预设验证数据确定单元，用于在将预设验证数据输入到训练完成的初始应用网络模型中，得到输出结果之前，判断训练完成的初始应用网络模型是否为第m个训练完成的初始应用网络模型；其中，m用于表征原始训练数据的组数的整数倍；如果是，则将第一验证数据作为预设验证数据；如果否，则将第二验证数据作为预设验证数据；其中，第一验证数据包含的样本数据的数据量大于第二验证数据包含的样本数据的数据量。
[0109]
在上述技术方案的基础上，可选的，初始应用网络模型训练模块320具体用于：
[0110]
针对每组待输入训练数据，将待输入训练数据输入到过滤器模型中，得到输出的待输入训练数据中至少一个训练数据分别对应的过滤概率值；
[0111]
将待输入训练数据中过滤概率值满足预设概率范围的训练数据作为过滤训练数据。
[0112]
在上述技术方案的基础上，可选的，原始训练数据中的训练数据包括用户特征数据、物品特征数据和用户与物品的关联关系标签，相应的，目标应用网络模型包括目标转化率预估模型，目标转化率预估模型用于基于输入的目标用户的用户特征数据和目标物品的物品特征数据，预测出目标用户与目标物品产生关联关系的概率值。
[0113]
本发明实施例所提供的模型训练装置可以用于执行本发明实施例所提供的模型训练方法，具备执行方法相应的功能和有益效果。
[0114]
值得注意的是，上述模型训练装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。
[0115]
实施例四
[0116]
图5是本发明实施例四提供的一种电子设备的结构示意图，本发明实施例为本发
明上述实施例的模型训练方法的实现提供服务，可配置上述实施例中的模型训练装置。图5示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图5显示的电子设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。
[0117]
如图5所示，电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
[0118]
总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(isa)总线、微通道体系结构(mac)总线、增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。
[0119]
电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。
[0120]
系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(ram)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如cd-rom，dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。
[0121]
具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
[0122]
电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该电子设备12交互的设备通信，和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口22进行。并且，电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图5所示，网络适配器20通过总线18与电子设备12的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0123]
处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的模型训练方法。
[0124]
通过上述电子设备，解决了训练数据中存在的噪声数据导致学习模型存在过拟合或模型偏差的问题，提高了训练数据的质量，进而提高了目标应用网络模型预测结果的精确度。
[0125]
实施例五
[0126]
本发明实施例五还提供了一种包含计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行一种模型训练方法，该方法包括：
[0127]
获取至少一组原始训练数据，并依次将各组原始训练数据分别作为待输入训练数据；
[0128]
基于过滤器模型对各所述待输入训练数据分别进行过滤，得到至少一组过滤训练数据，并基于各组过滤训练数据，依次对初始应用网络模型进行训练；
[0129]
基于每次训练完成的初始应用网络模型分别对应的奖励值，更新所述过滤器模型中的模型参数；
[0130]
依次将各所述过滤训练数据分别作为待输入训练数据，并返回执行基于过滤器模型对各所述待输入训练数据分别进行过滤，得到至少一组过滤训练数据的操作，直到满足预设迭代条件时，得到目标应用网络模型。
[0131]
本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0132]
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0133]
计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、rf等等，或者上述的任意合适的组合。
[0134]
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言，诸如java、smalltalk、c++，还包括常规的过程式程序设计语言，诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络包括局域网(lan)或广域网(wan)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0135]
当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的方法操作，还可以执行本发明任意实施例所提供的模型训练方法中的相关操作。
[0136]
注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

技术特征：
1.一种模型训练方法，其特征在于，包括：获取至少一组原始训练数据，并依次将各组原始训练数据分别作为待输入训练数据；基于过滤器模型对各所述待输入训练数据分别进行过滤，得到至少一组过滤训练数据，并基于各组过滤训练数据，依次对初始应用网络模型进行训练；基于每次训练完成的初始应用网络模型分别对应的奖励值，更新所述过滤器模型中的模型参数；依次将各所述过滤训练数据分别作为待输入训练数据，并返回执行基于过滤器模型对各所述待输入训练数据分别进行过滤，得到至少一组过滤训练数据的操作，直到满足预设迭代条件时，得到目标应用网络模型。2.根据权利要求1所述的方法，其特征在于，所述基于每次训练完成的初始应用网络模型分别对应的奖励值，更新所述过滤器模型中的模型参数，包括：针对每次训练完成的初始应用网络模型，将预设验证数据输入到所述训练完成的初始应用网络模型中，得到输出结果；基于所述输出结果和与所述预设验证数据对应的预设标准结果，确定所述训练完成的初始应用网络模型对应的模型效果表征值；基于至少一个模型效果表征值，确定与各所述训练完成的初始应用网络模型分别对应的奖励值，并基于至少一个奖励值，更新所述过滤器模型中的模型参数。3.根据权利要求2所述的方法，其特征在于，所述基于至少一个模型效果表征值，确定与各所述训练完成的初始应用网络模型分别对应的奖励值，包括：针对每次训练完成的初始应用网络模型，基于与所述训练完成的初始应用网络模型对应的上一模型效果表征值和当前模型效果表征值，确定所述训练完成的初始应用网络模型对应的奖励值。4.根据权利要求3所述的方法，其特征在于，在基于所述过滤训练数据，对初始应用网络模型进行训练之前，所述方法还包括：基于至少一组原始训练数据，对初始应用网络模型进行预训练，并将预设验证数据输入到预训练完成的初始应用网络模型中，得到输出结果；基于所述输出结果和与所述预设验证数据对应的预设标准结果，确定预训练完成的初始应用网络模型对应的模型效果表征值；将所述模型效果表征值作为与第一个训练完成的初始应用网络模型对应的上一模型效果表征值。5.根据权利要求2所述的方法，其特征在于，在将预设验证数据输入到所述训练完成的初始应用网络模型中，得到输出结果之前，所述方法还包括：判断所述训练完成的初始应用网络模型是否为第m个训练完成的初始应用网络模型；其中，m用于表征原始训练数据的组数的整数倍；如果是，则将第一验证数据作为预设验证数据；如果否，则将第二验证数据作为预设验证数据；其中，所述第一验证数据包含的样本数据的数据量大于所述第二验证数据包含的样本数据的数据量。6.根据权利要求1所述的方法，其特征在于，所述基于过滤器模型对各所述待输入训练数据分别进行过滤，确定至少一组过滤训练数据，包括：
针对每组待输入训练数据，将所述待输入训练数据输入到过滤器模型中，得到输出的待输入训练数据中至少一个训练数据分别对应的过滤概率值；将所述待输入训练数据中过滤概率值满足预设概率范围的训练数据作为过滤训练数据。7.根据权利要求1-6任一项所述的方法，其特征在于，所述原始训练数据中的训练数据包括用户特征数据、物品特征数据和用户与物品的关联关系标签，相应的，所述目标应用网络模型包括目标转化率预估模型，所述目标转化率预估模型用于基于输入的目标用户的用户特征数据和目标物品的物品特征数据，预测出所述目标用户与所述目标物品产生关联关系的概率值。8.一种模型训练装置，其特征在于，包括：原始训练数据获取模块，用于获取至少一组原始训练数据，并依次将各组原始训练数据分别作为待输入训练数据；初始应用网络模型训练模块，用于基于过滤器模型对各所述待输入训练数据分别进行过滤，得到至少一组过滤训练数据，并基于各组过滤训练数据，依次对初始应用网络模型进行训练；过滤器模型更新模块，用于基于每次训练完成的初始应用网络模型分别对应的奖励值，更新所述过滤器模型中的模型参数；目标应用网络模型确定模块，用于依次将各所述过滤训练数据分别作为待输入训练数据，并返回执行基于过滤器模型对各所述待输入训练数据分别进行过滤，得到至少一组过滤训练数据的操作，直到满足预设迭代条件时，得到目标应用网络模型。9.一种电子设备，其特征在于，所述电子设备包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的模型训练方法。10.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的模型训练方法。

技术总结
本发明实施例公开了一种模型训练方法、装置、设备及存储介质。该方法包括：获取至少一组原始训练数据，并依次将各组原始训练数据分别作为待输入训练数据；基于过滤器模型对各待输入训练数据分别进行过滤，得到至少一组过滤训练数据，并基于各组过滤训练数据，依次对初始应用网络模型进行训练；基于每次训练完成的初始应用网络模型分别对应的奖励值，更新过滤器模型中的模型参数；依次将各过滤训练数据分别作为待输入训练数据，并返回执行待输入训练数据的过滤操作，直到满足预设迭代条件时，得到目标应用网络模型。本发明实施例提高了训练数据的质量，保证了目标应用网络模型预测结果的精确度。精确度。精确度。

技术研发人员：程维范聪
受保护的技术使用者：北京京东世纪贸易有限公司
技术研发日：2022.01.12
技术公布日：2023/7/26

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：张量计算图的计算资源分配方法、装置和可读存储介质与流程 下一篇：啤酒风味饮料及啤酒风味饮料的制造方法与流程

一种模型训练方法、装置、设备及存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种模型训练方法、装置、设备及存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表