一种处理推送信息的方法和装置与流程

未命名 10-08 阅读：86 评论：0

1.本发明涉及人工智能技术领域，尤其涉及一种处理推送信息的方法和装置。

背景技术：

2.在互联网应用的多种场景中，需要为用户端发送针对推荐对象比如实体物品、虚拟物品、新闻、视频等的推送信息，以达到对推荐对象的推广或者传播的效果。
3.目前，往往通过模型比如文本处理模型构建针对推荐对象的推送信息，现有的模型通常是针对单一的推荐对象构建推送信息，无法挖掘多个推荐对象之间的关联性，因此也无法在推送信息中包含多个物品之间的关联信息，导致发送给用户端的推送信息的推荐信息量较低的问题。

技术实现要素：

4.有鉴于此，本发明实施例提供一种处理推送信息的方法和装置，能够基于待推荐对象的原始对象信息，利用预设的信息生成模型输出对应于多个待推荐对象的推送信息，推送信息包含了多个原始对象信息之间的关联信息，并将推送信息发送给用户端；本发明的实施例通过挖掘待推荐对象之间的关联性并生成包含关联信息的推送信息，提高了发送给用户端的推送信息的推荐信息量，提高了用户体验。
5.为实现上述目的，根据本发明实施例的一个方面，提供了一种处理推送信息的方法，其特征在于，包括：确定多个待推荐对象的原始对象信息；将多个所述原始对象信息，输入预设的信息生成模型；其中，所述预设的信息生成模型通过预设网络模型结合预设损失函数确定出，所述预设网络模型由多个对象样本信息之间的关联信息训练，所述预设损失函数用于评估训练的所述预设网络模型；利用多个所述原始对象信息和所述预设的信息生成模型，生成对应于多个所述原始对象信息的推送信息；其中，所述推送信息包含多个所述原始对象信息之间的关联信息，以将所述推送信息发送给用户端。
6.可选地，所述预设网络模型包括训练出的编码器和训练出的解码器；所述生成对应于多个所述原始对象信息的推送信息，包括：将所述多个原始对象信息输入所述训练出的编码器，生成第一隐层序列；利用所述训练出的解码器、所述第一隐层序列以及针对至少一种所述待推荐对象的预设参考推送信息，生成第二隐层序列；结合所述第一隐层序列以及所述第二隐层序列，计算推送信息的解码概率；基于计算出的所述解码概率，确定出对应于多个所述原始对象信息的推送信息。
7.可选地，所述训练出的解码器设置有预设初始向量；所述预设初始向量为结合所述原始对象信息包含的图像信息以及描述信息所构建出的；所述生成第二隐层序列，包括：利用所述训练出的解码器、所述训练出的解码器包含的所述预设初始向量，结合所述第一隐层序列以及针对至少一种所述待推荐对象的预设参考推送信息，生成第二隐层序列。
8.可选地，所述处理推送信息的方法，还包括：获取所述原始对象信息包含的描述信息以及图像信息；分别利用所述描述信息和所述图像信息为所述原始对象信息转换出文本
向量和图像向量；利用平均池化模型对所述图像向量执行降维操作；根据所述原始对象信息包含的描述信息以及图像信息，确定指示文本和图像的影响程度的权重值；利用所述权重值、所述文本向量以及降维后的图像向量，构建出设置于所述解码器内的预设初始向量。
9.可选地，所述处理推送信息的方法，进一步包括：所述预设损失函数通过强化学习损失函数和极大似然函数进行线性叠加得到；其中，所述强化学习损失函数包含针对每一个训练周期得到的训练结果包含的关联信息的关联奖励函数；在训练所述预设的推荐模型的过程中，利用所述强化学习损失函数包含的关联奖励函数以及所述极大似然函数，评估训练的所述预设网络模型针对多个所述对象样本信息输出每一个训练周期得到的训练结果。
10.可选地，所述处理推送信息的方法，进一步包括：所述强化学习损失函数包含所述关联奖励函数以及预设奖励损失函数；利用关联奖励函数确定每一个所述训练结果中包含的关联信息与初始关联信息构建出的奖励系数；其中，所述关联信息通过模型解码贪心搜索算法和/或模型后验概率采样算法从每一个所述训练周期的训练结果中确定出；所述评估训练的所述预设网络模型针对多个所述对象样本信息输出每一个训练周期得到的训练结果，包括：结合所述奖励系数以及所述预设奖励损失函数，评估训练的所述预设网络模型针对多个所述对象样本信息输出每一个训练周期得到的训练结果。
11.可选地，所述处理推送信息的方法，进一步包括：针对通过模型解码贪心搜索算法或模型后验概率采样算法确定出每一个所述训练周期的训练结果包含的关联信息的情况下，所述利用关联奖励函数确定每一个所述训练结果中包含的关联信息与初始关联信息构建出的奖励系数，包括：利用关联奖励函数确定每一个所述训练周期的训练结果包含的关联信息的数量与所述初始关联信息的数量之间的比值为每一个所述训练周期的奖励系数。
12.可选地，所述处理推送信息的方法，进一步包括：在通过模型解码贪心搜索算法和模型后验概率采样算法确定出每一个所述训练周期的训练结果包含的关联信息的情况下，所述利用关联奖励函数确定每一个所述训练结果中包含的关联信息与初始关联信息构建出的奖励系数，包括：利用关联奖励函数计算所述模型解码贪心搜索算法确定出每一个所述训练周期的关联信息与所述模型后验概率采样算法确定出每一个所述训练周期的关联信息之间的差别信息；确定每一个所述训练周期的差别信息的数量与所述初始关联信息的数量之间的比值为每一个所述训练周期的奖励系数。
13.为实现上述目的，根据本发明实施例的第二方面，提供了一种处理推送信息的装置，其特征在于，包括：确定信息模块、获取模型模块和推送信息模块；其中，
14.所述确定信息模块，用于确定多个待推荐对象的原始对象信息；
15.所述获取模型模块，用于将多个所述原始对象信息，输入预设的信息生成模型；其中，所述预设的信息生成模型通过预设网络模型结合预设损失函数确定出，所述预设网络模型由多个对象样本信息之间的关联信息训练，所述预设损失函数用于评估训练的所述预设网络模型；
16.所述推送信息模块，用于利用多个所述原始对象信息和所述预设的信息生成模型，生成对应于多个所述原始对象信息的推送信息；其中，所述推送信息包含多个所述原始对象信息之间的关联信息，以将所述推送信息发送给用户端。
17.可选地，所述处理推送信息的装置包含的所述预设网络模型包括训练出的编码器
和训练出的解码器；所述生成对应于多个所述原始对象信息的推送信息，包括：将所述多个原始对象信息输入所述训练出的编码器，生成第一隐层序列；利用所述训练出的解码器、所述第一隐层序列以及针对至少一种所述待推荐对象的预设参考推送信息，生成第二隐层序列；结合所述第一隐层序列以及所述第二隐层序列，计算推送信息的解码概率；基于计算出的所述解码概率，确定出对应于多个所述原始对象信息的推送信息。
18.可选地，所述处理推送信息的装置包含的所述训练出的解码器设置有预设初始向量；所述预设初始向量为结合所述原始对象信息包含的图像信息以及描述信息所构建出的；所述生成第二隐层序列，包括：利用所述训练出的解码器、所述训练出的解码器包含的所述预设初始向量，结合所述第一隐层序列以及针对至少一种所述待推荐对象的预设参考推送信息，生成第二隐层序列。
19.可选地，所述处理推送信息的装置，还用于获取所述原始对象信息包含的描述信息以及图像信息；分别利用所述描述信息和所述图像信息为所述原始对象信息转换出文本向量和图像向量；利用平均池化模型对所述图像向量执行降维操作；根据所述原始对象信息包含的描述信息以及图像信息，确定指示文本和图像的影响程度的权重值；利用所述权重值、所述文本向量以及降维后的图像向量，构建出设置于所述解码器内的预设初始向量。
20.可选地，所述处理推送信息的装置，进一步用于所述预设损失函数通过强化学习损失函数和极大似然函数进行线性叠加得到；其中，所述强化学习损失函数包含针对每一个训练周期得到的训练结果包含的关联信息的关联奖励函数；在训练所述预设的推荐模型的过程中，利用所述强化学习损失函数包含的关联奖励函数以及所述极大似然函数，评估训练的所述预设网络模型针对多个所述对象样本信息输出每一个训练周期得到的训练结果。
21.可选地，所述处理推送信息的装置，进一步包括所述强化学习损失函数包含所述关联奖励函数以及预设奖励损失函数；利用关联奖励函数确定每一个所述训练结果中包含的关联信息与初始关联信息构建出的奖励系数；其中，所述关联信息通过模型解码贪心搜索算法和/或模型后验概率采样算法从每一个所述训练周期的训练结果中确定出；所述评估训练的所述预设网络模型针对多个所述对象样本信息输出每一个训练周期得到的训练结果，包括：结合所述奖励系数以及所述预设奖励损失函数，评估训练的所述预设网络模型针对多个所述对象样本信息输出每一个训练周期得到的训练结果。
22.可选地，所述处理推送信息的装置，进一步用于针对通过模型解码贪心搜索算法或模型后验概率采样算法确定出每一个所述训练周期的训练结果包含的关联信息的情况下，所述利用关联奖励函数确定每一个所述训练结果中包含的关联信息与初始关联信息构建出的奖励系数，包括：利用关联奖励函数确定每一个所述训练周期的训练结果包含的关联信息的数量与所述初始关联信息的数量之间的比值为每一个所述训练周期的奖励系数。
23.可选地，所述处理推送信息的装置，进一步用于在通过模型解码贪心搜索算法和模型后验概率采样算法确定出每一个所述训练周期的训练结果包含的关联信息的情况下，所述利用关联奖励函数确定每一个所述训练结果中包含的关联信息与初始关联信息构建出的奖励系数，包括：利用关联奖励函数计算所述模型解码贪心搜索算法确定出每一个所述训练周期的关联信息与所述模型后验概率采样算法确定出每一个所述训练周期的关联信息之间的差别信息；确定每一个所述训练周期的差别信息的数量与所述初始关联信息的
数量之间的比值为每一个所述训练周期的奖励系数。
24.为实现上述目的，根据本发明实施例的第三方面，提供了一种处理推送信息的电子设备，其特征在于，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述处理推送信息的方法中任一所述的方法。
25.为实现上述目的，根据本发明实施例的第四方面，提供了一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如上述处理推送信息的方法中任一所述的方法。
26.上述发明中的一个实施例具有如下优点或有益效果：能够基于待推荐对象的原始对象信息，利用预设的信息生成模型输出对应于多个待推荐对象的推送信息，推送信息包含了多个原始对象信息之间的关联信息，并将推送信息发送给用户端；本发明的实施例通过挖掘待推荐对象之间的关联性并生成包含关联信息的推送信息，提高了发送给用户端的推送信息的推荐信息量，提高了用户体验。
27.上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
28.附图用于更好地理解本发明，不构成对本发明的不当限定。其中：
29.图1是本发明一个实施例提供的一种处理推送信息的方法的流程示意图；
30.图2是本发明一个实施例提供的一种确定推送信息的流程示意图；
31.图3是本发明一个实施例提供的一种评估模型训练结果的流程示意图；
32.图4是本发明一个实施例提供的一种处理推送信息的装置的结构示意图；
33.图5是本发明实施例可以应用于其中的示例性系统架构图；
34.图6是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
35.以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
36.需要说明的是，本公开的技术方案中，所涉及的用户个人信息的采集、收集、更新、分析、处理、使用、传输、存储等方面，均符合相关法律法规的规定，被用于合法的用途，且不违背公序良俗。对用户个人信息采取必要措施，防止对用户个人信息数据的非法访问，维护用户个人信息安全、网络安全和国家安全。
37.需要说明的是，本发明的技术方案中，所涉及的用户个人信息的收集、使用、保存、共享和转移等处理，均符合相关法律法规的规定，且需要告知用户并获得用户的同意或授权，当适用时，对用户个人信息进行了去标识化和/或匿名化和/或加密的技术处理。
38.在为推送信息而采集用户端信息后，我们将通过技术手段对数据进行去标识化处
理。
39.为统计我们的产品/服务使用情况，我们会对经过技术处理的用户数据进行汇总、分析和使用，并与第三方共享处理后的统计信息。我们会通过安全加密的技术处理方式以及其他方式保障信息接收方无法重新识别特定个人。
40.如图1所示，本发明实施例提供了一种处理推送信息的方法，该方法可以包括以下步骤：
41.步骤s101：确定多个待推荐对象的原始对象信息。
42.具体地，在多个类别的互联网应用中，通常包含需要为用户端发送针对推荐对象的推送信息的应用场景，以达到对推荐对象的推广或者传播的效果。推荐对象例如为实体物品、虚拟物品、新闻、视频等；以实体物品为例，现有的针对实体物品生成推送信息的方法通常是为某一个实体物品的文本描述信息生成其对应的推荐文本，即生成的推荐文本仅仅针对一个实体物品，不包含多个具有关联性的实体物品之间的关联信息。
43.在本发明的实施例中，根据多个待推荐对象的原始对象信息，确定多个待推荐对象具有关联性的关联信息；其中，确定多个待推荐对象的原始对象信息，包括获取多个所述待推荐对象的图像信息、描述信息等；其中，描述信息可以包含针对待推荐对象的详情描述文本、以及针对待推荐对象的属性描述；例如：针对实体物品，描述信息包含实体物品的物品详情、以及物品属性(包括物品类别、以及物品类别对应的尺寸、颜色、功率等信息)；针对虚拟物品、新闻、视频等待推荐对象，描述信息包含介绍虚拟物品、新闻、视频等的文本以及对应的属性信息(定价、时长等)。本发明对待推荐对象的具体形式和具体类别不做限定。
44.进一步地，本发明的实施例通过将待推荐对象的图像信息引入待推荐对象的原始对象信息，以结合文本信息和图像信息生成推送信息；通过将推送信息包含的针对待推荐对象的推荐信息推送给用户端，达到推荐效果；本发明的实施例通过引入图像信息，提高了针对待推荐对象的信息量，同时提高了获取关联信息的信息量。
45.步骤s102：将多个所述原始对象信息，输入预设的信息生成模型；其中，所述预设的信息生成模型通过预设网络模型结合预设损失函数确定出，所述预设网络模型由多个对象样本信息之间的关联信息训练，所述预设损失函数用于评估训练的所述预设网络模型。
46.具体地，本发明的实施例利用训练好的预设的信息生成模型，针对输入的多个所述原始对象信息，输出对应的推送信息。
47.在本发明的实施例中，预设的信息生成模型包含预设网络模型和预设损失函数，即所述预设的信息生成模型通过预设网络模型结合预设损失函数确定出。
48.进一步地，所述预设网络模型由多个对象样本信息之间的关联信息训练得到；并且利用预设损失函数评估训练的所述预设网络模型。
49.进一步地，本发明实施例中的预设网络模型包括训练出的编码器和训练出的解码器。下面举例说明将多个所述原始对象信息，输入预设的信息生成模型的步骤：
50.原始对象信息包含图像信息和文本描述信息；例如：多个针对待推荐对象x1，x2，...，xn；待推荐对象的图像信息用pi＝(p
i，1
，p
i，2
，...，p
i，m
)表示，其中p
i，j
为一张图像；待推荐对象的描述信息中的介绍文本用di＝(d
i，1
，d
i，2
，...，d
i，n
)表示，其中d
i，j
为一段文本；以及描述信息中的属性文本用si＝(s
i，1
，s
i，2
，...，s
i，l
)表示；其中s
i，j
为一个属性文本。
51.进一步地，将所述多个原始对象信息输入所述训练出的编码器，生成第一隐层序
列；其中，用h
enc
表示第一隐层序列；
52.h
enc
＝f(di，si，pi)
53.其中训练出的编码器例如为基于rnn(recurrent neural network，循环神经网络，简称rnn))或transformer模型改进并训练的编码器，可以理解的是，本发明的实施例将图像信息pi添加入第一隐层序列。
54.进一步地，利用所述训练出的解码器、所述第一隐层序列以及针对至少一种所述待推荐对象的预设参考推送信息，生成第二隐层序列；
[0055][0056]
其中，用h
dec
代表第二隐层序列；y
t-1
为针对至少一种所述待推荐对象的预设参考推送信息(例如为针对训练用推荐对象所设置的训练用推送信息，用于模型训练)；训练出的解码器例如为基于rnn(recurrent neural network，循环神经网络，简称rnn))或transformer模型改进后训练出的解码器。
[0057]
进一步地，结合所述第一隐层序列以及所述第二隐层序列，计算推送信息的解码概率；
[0058][0059]
其中，用p
vocab
(w)表示推送信息的解码概率；wb和vb为参数矩阵；结合所述第一隐层序列以及所述第二隐层序列计算推送信息的解码概率的公式如公式(1)所示，其中，c
t
通过公式(2)所得到
[0060][0061]
其中，α
t
＝softmax(e
t
)为t时刻的注意力向量，e
t
通过公式(3)所得到；
[0062][0063]
wa、va、wb和vb为参数矩阵；公式(1)～(3)中的e、u、c为中间变量；
[0064]
进一步地，基于计算出的所述解码概率，确定出对应于多个所述原始对象信息的推送信息；例如：推送信息中包含的某一个文本的计算结果为：p
vocab
(冰箱)＝0.99，代表推送信息中包含“冰箱”这个词的概率较大。
[0065]
即，所述生成对应于多个所述原始对象信息的推送信息，包括：将所述多个原始对象信息输入所述训练出的编码器，生成第一隐层序列；利用所述训练出的解码器、所述第一隐层序列以及针对至少一种所述待推荐对象的预设参考推送信息，生成第二隐层序列；结合所述第一隐层序列以及所述第二隐层序列，计算推送信息的解码概率；基于计算出的所述解码概率，确定出对应于多个所述原始对象信息的推送信息。
[0066]
进一步地，在针对预设的信息生成模型包含的预设网络模型的训练过程中，利用预设损失函数用于评估训练的所述预设网络模型；其中，本发明实施例的预设损失函数通过强化学习损失函数和极大似然函数进行线性叠加得到；可以理解的是，训练过程中包含多个训练周期，因此利用预设损失函数对每一个训练周期的徐念结果进行评估；具体地，强化学习损失函数包含针对每一个训练周期得到的训练结果包含的关联信息的关联奖励函数；在训练所述预设的推荐模型的过程中，利用所述强化学习损失函数包含的关联奖励函数以及所述极大似然函数，评估训练的所述预设网络模型针对多个所述对象样本信息输出
每一个训练周期得到的训练结果。
[0067]
进一步地，本发明实施例中，预设损失函数用l
final
表示，预设损失函数用公式(4)表示如下：
[0068]
l
final
＝λl
ml
+(1-λ)l
rl
ꢀꢀ
(4)
[0069]
其中，强化学习损失函数用l
rl
表示，极大似然函数用l
ml
表示；λ代表线性叠加权重系数，线性叠加权重系数的取值范围在(0-1)，例如可以取值为0.1，
[0070]
公式(4)描述了：预设损失函数通过强化学习损失函数和极大似然函数进行线性叠加得到。
[0071]
步骤s103：利用多个所述原始对象信息和所述预设的信息生成模型，生成对应于多个所述原始对象信息的推送信息；其中，所述推送信息包含多个所述原始对象信息之间的关联信息，以将所述推送信息发送给用户端。
[0072]
具体地，利用多个所述原始对象信息和所述预设的信息生成模型，生成对应于多个所述原始对象信息的推送信息，所述推送信息包含多个所述原始对象信息之间的关联信息；在本发明的实施例中，关联信息可以为相同信息(例如：多个对象具有一些相同的属性)、类似信息(例如：多个对象具有一些类似的属性)、绑定信息(例如：多个类别不同的对象通常可以绑定应用于设定场景)等中的一种或多种；例如：待推荐对象为实体物品，实体物品例如为衣服中的上衣和裤子，又例如上衣和裤子所具有的原始对象信息中都包含相同的属性：棉质、蓝色、通勤风，则生成对应于多个所述原始对象信息的推送信息的一种示例为：这两件服装都是棉质的，通勤风的格调。
[0073]
进一步地，将生成的推送信息发送给用户端，由此可见，通过生成包含关联信息的推送信息，用户端可以从推送信息中获取多个待推荐对象的推荐信息以及关联信息，通过提高推送信息的推荐信息量提高了推荐效果。
[0074]
如图2所示，本发明实施例提供了一种确定推送信息的方法，该方法可以包括以下步骤：
[0075]
步骤s201：将多个所述原始对象信息，输入预设的信息生成模型,预设的信息生成模型中的所述预设网络模型包括训练出的编码器和训练出的解码器。
[0076]
步骤s202：将所述多个原始对象信息输入所述训练出的编码器，生成第一隐层序列。
[0077]
步骤s203：利用所述训练出的解码器、所述第一隐层序列以及针对至少一种所述待推荐对象的预设参考推送信息，生成第二隐层序列。
[0078]
步骤s204：结合所述第一隐层序列以及所述第二隐层序列，计算推送信息的解码概率。
[0079]
步骤s205：基于计算出的所述解码概率，确定出对应于多个所述原始对象信息的推送信息。
[0080]
具体地，针对所述预设网络模型包括训练出的编码器和训练出的解码器；以及生成对应于多个所述原始对象信息的推送信息的描述与步骤s102的描述一致，在此不再赘述。
[0081]
进一步地，在本发明的实施例中，所述训练出的解码器设置有预设初始向量；所述预设初始向量为结合所述原始对象信息包含的图像信息以及描述信息所构建出的；
[0082]
例如：用e
′
bos
表示预设初始向量，构建预设初始向量的公式如公式(5)所示：
[0083]e′
bos
＝tanh(qwce
bos
+(1-q)wdpool(pi))
ꢀꢀ
(5)
[0084]
其中，q代表权重值，其计算方法可以通过公式(6)得到
[0085]
q＝sigmoid(uae
bos
+ubpool(pi))
ꢀꢀ
(6)
[0086]
在公式(5)～(6)中，wc、wd、ua、ub为参数矩阵，e
bos
代表解码器的原始初始向量，可以理解的是，e
′
bos
基于e
bos
改进并构建的，e
bos
包含文本向量，e
′
bos
包含文本向量以及图像向量，pi表示图像信息对应的图像向量；即，获取所述原始对象信息包含的描述信息以及图像信息；分别利用所述描述信息和所述图像信息为所述原始对象信息转换出文本向量和图像向量；其中描述信息包含待推荐对象的介绍文本、属性信息文本等；pool(pi)代表利用平均池化模型对所述图像向量执行降维操作；其中，pool()代表平均池化模型。
[0087]
进一步地，利用公式(6)确定出预设初始向量对应的权重值(例如为矢量)，公式(5)～(6)中e
bos
包含文本向量，pi表示图像信息对应的图像向量，即，根据所述原始对象信息包含的描述信息以及图像信息，确定指示文本和图像的影响程度的权重值；进一步地如公式(5)所示，利用权重值q、所述文本向量以及降维后的图像向量，构建出设置于所述解码器内的预设初始向量e
′
bos
。
[0088]
进一步地，在本发明的的实施例中，在生成第二隐层序列时，利用预设初始向量e
′
bos
作为解码器的初始向量，可以理解的是，第二隐层序列为基于第一隐层序列所生成的，因此预设初始向量与第一隐层序列包含的文本信息和图像信息具有关联关系；即，所述生成第二隐层序列，包括：利用所述训练出的解码器、所述训练出的解码器包含的所述预设初始向量，结合所述第一隐层序列以及针对至少一种所述待推荐对象的预设参考推送信息，生成第二隐层序列。
[0089]
本发明的实施例通过将待推荐对象的图像信息加入预设网络模型，提高了获取待推荐对象的关联信息的信息量和准确性。
[0090]
如图3所示，本发明实施例提供了一种评估模型训练结果的方法，该方法可以包括以下步骤；
[0091]
步骤s301：通过模型解码贪心搜索算法和\或模型后验概率采样算法确定每一个所述训练周期的训练结果包含的关联信息。
[0092]
步骤s302：基于所述关联信息与所述对象样本信息对应的初始关联信息构建奖励系数。
[0093]
步骤s303：结合所述关联信息与所述对象样本信息对应的初始关联信息构建出的奖励系数以及所述极大似然函数，评估训练的所述预设网络模型针对多个所述对象样本信息输出每一个训练周期得到的训练结果。
[0094]
具体地，本发明的实施例的预设损失函数通过强化学习损失函数和极大似然函数进行线性叠加得到，进一步地，在本发明的实施例中，强化学习损失函数例如用公式(7)表示：
[0095]
l
rl
＝r(y)∑
t
log(p
vocab
(y
t
))
ꢀꢀ
(7)
[0096]
其中，r(y)代表所述强化学习损失函数包含针对每一个训练周期得到的训练结果包含的关联信息的关联奖励函数；∑
t
log(p
vocab
(y
t
))代表预设奖励损失函数(预设奖励损失函数例如为极大似然损失函数等)，即所述强化学习损失函数包含所述关联奖励函数以
及预设奖励损失函数；所述评估训练的所述预设网络模型针对多个所述对象样本信息输出每一个训练周期得到的训练结果，包括：结合所述奖励系数以及所述预设奖励损失函数，评估训练的所述预设网络模型针对多个所述对象样本信息输出每一个训练周期得到的训练结果。
[0097]
进一步地，利用关联奖励函数确定每一个所述训练结果中包含的关联信息与初始关联信息构建出的奖励系数；其中，所述关联信息通过模型解码贪心搜索算法和/或模型后验概率采样算法从每一个所述训练周期的训练结果中确定出。在训练所述预设的推荐模型的过程中，利用所述强化学习损失函数包含的关联奖励函数以及预设奖励损失函数，评估训练的所述预设网络模型针对多个所述对象样本信息输出每一个训练周期得到的训练结果。
[0098]
进一步地，利用关联奖励函数确定每一个所述训练结果中包含的关联信息与初始关联信息构建出的奖励系数；例如：
[0099]
r(y)＝训练结果中包含的关联信息/初始关联信息
[0100]
其中，r(y)代表关联奖励函数，该关联奖励函数输出的结果为奖励系数。
[0101]
进一步地，通过模型解码贪心搜索算法和/或模型后验概率采样算法确定每一个所述训练周期的训练结果包含的关联信息；模型解码贪心搜索算法是指模型使用解码最大概率生成推送信息，模型后验概率采样算法是指模型基于解码概率进行采样生成推送信息；可以理解的是，通过模型解码贪心搜索(greedy search)或/和模型后验概率采样算法可以在模型训练过程中生成的中间推送信息，中间推送信息包含关联信息；例如基于包含关联信息的数量与初始关联信息的数量之间的比值构成奖励系数，以进一步评估模型训练针对关联信息的训练效果。其中，初始关联信息为多个原始对象信息之间的已知关联信息，例如待推荐对象为实体物品，又例如实体物品为服饰类别中的上衣和裤子，假设上衣和裤子所具有的原始对象信息中包含相同属性(即初始关联信息)的数量有3个：棉质、蓝色、通勤风等。即，利用关联奖励函数确定每一个所述训练结果中包含的关联信息与初始关联信息构建出的奖励系数；通过模型解码贪心搜索算法和/或模型后验概率采样算法确定每一个所述训练周期的训练结果包含的关联信息；通过所述关联信息与所述对象样本信息对应的初始关联信息构建出的奖励系数结合预设奖励损失函数，评估训练的所述预设网络模型针对多个所述对象样本信息输出每一个训练周期得到的训练结果。
[0102]
进一步地，确定奖励系数的方法有两种：
[0103]
第一种方法：通过模型解码贪心搜索算法或模型后验概率采样算法中的任意一种算法确定关联信息，即，针对通过模型解码贪心搜索算法或模型后验概率采样算法确定出每一个所述训练周期的训练结果包含的关联信息的情况下，所述利用关联奖励函数确定每一个所述训练结果中包含的关联信息与初始关联信息构建出的奖励系数，包括：确定每一个所述训练周期的训练结果包含的关联信息的数量与所述初始关联信息的数量之间的比值为每一个所述训练周期的奖励系数。
[0104]
例如yg表示通过模型解码贪心搜索算法确定出的关联信息，用ys表示通过模型后验概率采样算法确定出的关联信息；
[0105]
则利用每一个所述训练周期的训练结果包含的关联信息的数量与所述初始关联信息的数量之间的比值为每一个所述训练周期的奖励系数，例如：
[0106]
针对模型解码贪心搜索算法确定出的关联信息，针对公式(6)中，将r(y)对应地表示为r(yg)；其中，“/”代表比值；
[0107]
r(yg)＝模型解码贪心搜索算法确定的关联信息/初始关联信息
[0108]
针对模型后验概率采样算法确定的关联信息，针对公式(6)中，将r(y)对应地表示为r(ys)；其中，“/”代表比值；
[0109]
r(ys)＝模型后验概率采样算法确定的关联信息/初始关联信息
[0110]
则强化学习损失函数可以表示为：l
rl
＝r(yg)∑rlog(p
vocab
(y
t
))，或者l
rl
＝r(ys)∑
t
log(p
vocab
(y
t
))。
[0111]
进一步地，通过r(yg)或者r(ys)计算出对应的奖励系数。其中，奖励系数可以为关联信息的数量与所述初始关联信息的数量之间的比值，例如：待推荐对象为实体物品，实体物品例如为服饰类别中的上衣和裤子，又假设上衣和裤子所具有的原始对象信息中包含相同属性(即初始关联信息)的数量有3个：棉质、蓝色、通勤风，假设生成的推送信息中包含的关联信息为棉质、通勤风(即数量为2)，则计算r(y)对应的比值为2/3，因此，在关联信息是通过贪心搜索算法确定出来的情况下，r(yg)为2/3；或者，关联信息是通过后验概率采样算法确定出来的情况下r(ys)为2/3。
[0112]
优选地，第二种方法：结合模型解码贪心搜索算法和模型后验概率采样算法两种算法确定关联信息，即，在通过模型解码贪心搜索算法和模型后验概率采样算法确定出每一个所述训练周期的训练结果包含的关联信息的情况下，所述利用关联奖励函数确定每一个所述训练结果中包含的关联信息与初始关联信息构建出的奖励系数，包括：利用关联奖励函数计算所述模型解码贪心搜索算法确定出每一个所述训练周期的关联信息与所述模型后验概率采样算法确定出每一个所述训练周期的关联信息之间的差别信息；确定每一个所述训练周期的差别信息的数量与所述初始关联信息的数量之间的比值为每一个所述训练周期的奖励系数。
[0113]
具体地，针对模型解码贪心搜索算法确定出的关联信息，基于r(y)表示为r(yg)，针对模型后验概率采样算法确定的关联信息，基于r(y)表示为r(ys)，在本发明的一个实施例中，r(yg)、r(ys)包含数量比值计算关系，数量比值的分子为基于该算法确定出的关联信息的数量，分母均为初始关联信息的数量；进一步地r(yg)-r(ys)代表在每一个所述训练周期中模型解码贪心搜索算法确定出的关联信息与模型后验概率采样算法确定出的关联信息之间的差别信息数量、与初始关联信息数量之间的数量比值，通过该数量比值可以为每一个所述训练周期计算出奖励系数；使得包含强化学习损失函数如公式(8)所示，即关联信息与所述对象样本信息对应的初始关联信息构建出的奖励系数结合预设奖励损失函数得到强化学习损失函数l
rl
：
[0114]
l
rl
＝(r(yg)-r(ys))∑
t
log(p
vocab
(y
t
))
ꢀꢀ
(8)
[0115]
由此可见，在模型训练过程中，通过利用模型解码贪心搜索算法和/或模型后验概率采样算法确定出每一个所述训练周期的训练结果包含的关联信息，进一步地将关联信息的数量与初始关联信息的数量之间的比值作为奖励函数对应的奖励系数，使得强化学习损失函数通过奖励函数提高了针对训练出的推送信息中的关联信息的评估效果，从而提高了模型训练的效率和模型的训练效果。
[0116]
如图4所示，本发明实施例提供了一种处理推送信息的装置400，包括：确定信息模
块401、获取模型模块402和推送信息模块403；其中，
[0117]
所述确定信息模块401，用于确定多个待推荐对象的原始对象信息；
[0118]
所述获取模型模块402，用于将多个所述原始对象信息，输入预设的信息生成模型；其中，所述预设的信息生成模型通过预设网络模型结合预设损失函数确定出，所述预设网络模型由多个对象样本信息之间的关联信息训练，所述预设损失函数用于评估训练的所述预设网络模型；
[0119]
所述推送信息模块403，用于利用多个所述原始对象信息和所述预设的信息生成模型，生成对应于多个所述原始对象信息的推送信息；其中，所述推送信息包含多个所述原始对象信息之间的关联信息，以将所述推送信息发送给用户端。
[0120]
本发明实施例还提供了一种处理推送信息的电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一实施例提供的方法。
[0121]
本发明实施例还提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任一实施例提供的方法。
[0122]
图5示出了可以应用本发明实施例的处理推送信息的方法或处理推送信息的装置的示例性系统架构500。
[0123]
如图5所示，系统架构500可以包括终端设备501、502、503，网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
[0124]
用户可以使用终端设备501、502、503通过网络504与服务器505交互，以接收或发送消息等。终端设备501、502、503上可以安装有各种客户端应用，例如电子商城客户端应用、网页浏览器应用、搜索类应用、即时通信工具和邮箱客户端等。
[0125]
终端设备501、502、503可以是具有显示屏并且支持各种客户端应用的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
[0126]
服务器505可以是提供各种服务的服务器，例如对用户利用终端设备501、502、503所使用的客户端应用提供支持的后台管理服务器。后台管理服务器可以对接收到的待推荐对象的原始对象信息进行处理，并将推送信息发送给终端设备。
[0127]
需要说明的是，本发明实施例所提供的处理推送信息的方法一般由服务器505执行，相应地，处理推送信息的装置一般设置于服务器505中。
[0128]
应该理解，图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。
[0129]
下面参考图6，其示出了适于用来实现本发明实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。
[0130]
如图6所示，计算机系统600包括中央处理单元(cpu)601，其可以根据存储在只读存储器(rom)602中的程序或者从存储部分608加载到随机访问存储器(ram)603中的程序而执行各种适当的动作和处理。在ram 603中，还存储有系统600操作所需的各种程序和数据。cpu 601、rom 602以及ram 603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
[0131]
以下部件连接至i/o接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至i/o接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。
[0132]
特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(cpu)601执行时，执行本发明的系统中限定的上述功能。
[0133]
需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。
[0134]
附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0135]
描述于本发明实施例中所涉及到的模块和/或单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块和/或单元也可以设置在处理器中，例如，可以描述为：一种处理器包括确定信息模块、获取模型模块和推送信息模块。其中，这些模块的
名称在某种情况下并不构成对该模块本身的限定，例如，确定信息模块还可以被描述为“确定多个待推荐对象的原始对象信息的模块”。
[0136]
作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：确定多个待推荐对象的原始对象信息；将多个所述原始对象信息，输入预设的信息生成模型；其中，所述预设的信息生成模型通过预设网络模型结合预设损失函数确定出，所述预设网络模型由多个对象样本信息之间的关联信息训练，所述预设损失函数用于评估训练的所述预设网络模型；利用多个所述原始对象信息和所述预设的信息生成模型，生成对应于多个所述原始对象信息的推送信息；其中，所述推送信息包含多个所述原始对象信息之间的关联信息，以将所述推送信息发送给用户端。
[0137]
本发明的实施例，能够基于待推荐对象的原始对象信息，利用预设的信息生成模型输出对应于多个待推荐对象的推送信息，推送信息包含了多个原始对象信息之间的关联信息，并将推送信息发送给用户端；本发明的实施例通过挖掘待推荐对象之间的关联性并生成包含关联信息的推送信息，提高了发送给用户端的推送信息的推荐信息量，提高了用户体验。
[0138]
上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

技术特征：
1.一种处理推送信息的方法，其特征在于，包括：确定多个待推荐对象的原始对象信息；将多个所述原始对象信息，输入预设的信息生成模型；其中，所述预设的信息生成模型通过预设网络模型结合预设损失函数确定出，所述预设网络模型由多个对象样本信息之间的关联信息训练，所述预设损失函数用于评估训练的所述预设网络模型；利用多个所述原始对象信息和所述预设的信息生成模型，生成对应于多个所述原始对象信息的推送信息；其中，所述推送信息包含多个所述原始对象信息之间的关联信息，以将所述推送信息发送给用户端。2.根据权利要求1所述的方法，其特征在于，所述预设网络模型包括训练出的编码器和训练出的解码器；所述生成对应于多个所述原始对象信息的推送信息，包括：将所述多个原始对象信息输入所述训练出的编码器，生成第一隐层序列；利用所述训练出的解码器、所述第一隐层序列以及针对至少一种所述待推荐对象的预设参考推送信息，生成第二隐层序列；结合所述第一隐层序列以及所述第二隐层序列，计算推送信息的解码概率；基于计算出的所述解码概率，确定出对应于多个所述原始对象信息的推送信息。3.根据权利要求2所述的方法，其特征在于，所述训练出的解码器设置有预设初始向量；所述预设初始向量为结合所述原始对象信息包含的图像信息以及描述信息所构建出的；所述生成第二隐层序列，包括：利用所述训练出的解码器、所述训练出的解码器包含的所述预设初始向量，结合所述第一隐层序列以及针对至少一种所述待推荐对象的预设参考推送信息，生成第二隐层序列。4.根据权利要求3所述的方法，其特征在于，还包括：获取所述原始对象信息包含的描述信息以及图像信息；分别利用所述描述信息和所述图像信息为所述原始对象信息转换出文本向量和图像向量；利用平均池化模型对所述图像向量执行降维操作；根据所述原始对象信息包含的描述信息以及图像信息，确定指示文本和图像的影响程度的权重值；利用所述权重值、所述文本向量以及降维后的图像向量，构建出设置于所述解码器内的预设初始向量。5.根据权利要求1所述的方法，其特征在于，进一步包括：所述预设损失函数通过强化学习损失函数和所述极大似然函数进行线性叠加得到；其中，所述强化学习损失函数包含针对每一个训练周期得到的训练结果包含的关联信息的关联奖励函数；在训练所述预设的推荐模型的过程中，利用所述强化学习损失函数包含的关联奖励函数以及所述极大似然函数，评估训练的所述预设网络模型针对多个所述对象样本信息输出
每一个训练周期得到的训练结果。6.根据权利要求5所述的方法，其特征在于，进一步包括：所述强化学习损失函数包含所述关联奖励函数以及预设奖励损失函数；利用关联奖励函数确定每一个所述训练结果中包含的关联信息与初始关联信息构建出的奖励系数；其中，所述关联信息通过模型解码贪心搜索算法和/或模型后验概率采样算法从每一个所述训练周期的训练结果中确定出；所述评估训练的所述预设网络模型针对多个所述对象样本信息输出每一个训练周期得到的训练结果，包括：结合所述奖励系数以及所述预设奖励损失函数，评估训练的所述预设网络模型针对多个所述对象样本信息输出每一个训练周期得到的训练结果。7.根据权利要求6所述的方法，其特征在于，进一步包括：针对通过模型解码贪心搜索算法或模型后验概率采样算法确定出每一个所述训练周期的训练结果包含的关联信息的情况下，所述利用关联奖励函数确定每一个所述训练结果中包含的关联信息与初始关联信息构建出的奖励系数，包括：利用关联奖励函数确定每一个所述训练周期的训练结果包含的关联信息的数量与所述初始关联信息的数量之间的比值为每一个所述训练周期的奖励系数。8.根据权利要求6所述的方法，其特征在于，进一步包括：在通过模型解码贪心搜索算法和模型后验概率采样算法确定出每一个所述训练周期的训练结果包含的关联信息的情况下，所述利用关联奖励函数确定每一个所述训练结果中包含的关联信息与初始关联信息构建出的奖励系数，包括：利用关联奖励函数计算所述模型解码贪心搜索算法确定出每一个所述训练周期的关联信息与所述模型后验概率采样算法确定出每一个所述训练周期的关联信息之间的差别信息；确定每一个所述训练周期的差别信息的数量与所述初始关联信息的数量之间的比值为每一个所述训练周期的奖励系数。9.一种处理推送信息的装置，其特征在于，包括：确定信息模块、获取模型模块和推送信息模块；其中，所述确定信息模块，用于确定多个待推荐对象的原始对象信息；所述获取模型模块，用于将多个所述原始对象信息，输入预设的信息生成模型；其中，所述预设的信息生成模型通过预设网络模型结合预设损失函数确定出，所述预设网络模型由多个对象样本信息之间的关联信息训练，所述预设损失函数用于评估训练的所述预设网络模型；所述推送信息模块，用于利用多个所述原始对象信息和所述预设的信息生成模型，生成对应于多个所述原始对象信息的推送信息；其中，所述推送信息包含多个所述原始对象信息之间的关联信息，以将所述推送信息发送给用户端。10.一种电子设备，其特征在于，包括：一个或多个处理器；
存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。11.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。

技术总结
本发明公开了一种处理推送信息的方法和装置，涉及人工智能技术领域。该方法的一具体实施方式包括：基于待推荐对象的原始对象信息，利用预设的信息生成模型输出对应于多个待推荐对象的推送信息，推送信息包含了多个原始对象信息之间的关联信息，并将推送信息发送给用户端；本发明的实施例通过挖掘待推荐对象之间的关联性并生成包含关联信息的推送信息，提高了发送给用户端的推送信息的推荐信息量，提高了用户体验。高了用户体验。高了用户体验。

技术研发人员：李浩然吴友政
受保护的技术使用者：北京京东尚科信息技术有限公司
技术研发日：2023.05.12
技术公布日：2023/10/6

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

一种处理推送信息的方法和装置与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种处理推送信息的方法和装置与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表