资源推送方法、装置、设备、存储介质及计算机程序产品与流程

未命名 08-05 阅读：84 评论：0

1.本技术涉及人工智能领域，尤其涉及一种资源推送方法、装置、设备、存储介质及计算机程序产品。

背景技术：

2.在资源推送领域中，通常可以预测用户对待推送资源执行目标交互的概率，并基于预测得到的概率判断是否将该待推送资源推送至该用户；例如，可以预测用户对待推送资源进行点击的概率(即进行点击率预估)，并基于预测得到的概率(即预估点击率)判断是否将该待推送资源推送至该用户。因此，预测用户对待推送资源执行目标交互的概率时的预测准确性可直接影响资源推送的推送准确性，预测用户对待推送资源执行目标交互的概率时的预测速率可直接影响资源推送的推送时效性；但现有预测用户对待推送资源执行目标交互的概率的方法中，无法同时兼顾预测准确性和预测速率两方面的需求，进而使得在进行资源推送时，无法同时兼顾推送准确性和推送时效性。

技术实现要素：

3.本技术实施例提供一种资源推送方法、装置、设备、存储介质及计算机程序产品，可以同时兼顾资源推送时的推送准确性和推送时效性。
4.一方面，本技术实施例提供了一种资源推送方法，包括：
5.响应于为待推送对象推送资源的推送请求，调用第一交互预测网络预测所述待推送对象对待推送资源执行目标交互的交互概率；
6.基于所述交互概率确定所述待推送对象与所述待推送资源之间的匹配度；
7.若所述待推送对象与所述待推送资源之间的匹配度符合推送规则，则向所述待推送对象推送所述待推送资源；
8.其中，所述第一交互预测网络是基于第二交互预测网络、第一样本资源以及所述第一样本资源相关的历史短时交互序列进行训练的；所述第二交互预测网络是基于所述第一样本资源以及所述第一样本资源相关的历史长时交互序列进行训练的；所述历史长时交互序列包括所述历史短时交互序列，所述第一交互预测网络和所述第二交互预测网络均用于进行目标交互预测，且所述第一交互预测网络的网络规模小于所述第二交互预测网络的网络规模。
9.一方面，本技术实施例提供了一种资源推送装置，包括：
10.处理单元，用于响应于为待推送对象推送资源的推送请求，调用第一交互预测网络预测所述待推送对象对待推送资源执行目标交互的交互概率；
11.所述处理单元，还用于基于所述交互概率确定所述待推送对象与所述待推送资源之间的匹配度；
12.输出单元，用于若所述待推送对象与所述待推送资源之间的匹配度符合推送规则，则向所述待推送对象推送所述待推送资源；
13.其中，所述第一交互预测网络是基于第二交互预测网络、第一样本资源以及所述第一样本资源相关的历史短时交互序列进行训练的；所述第二交互预测网络是基于所述第一样本资源以及所述第一样本资源相关的历史长时交互序列进行训练的；所述历史长时交互序列包括所述历史短时交互序列，所述第一交互预测网络和所述第二交互预测网络均用于进行目标交互预测，且所述第一交互预测网络的网络规模小于所述第二交互预测网络的网络规模。
14.一方面，本技术实施例提供了一种资源推送设备，其特征在于，所述资源推送设备包括输入接口和输出接口，还包括：
15.处理器，适于实现一条或多条指令；以及，
16.计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行上述资源推送方法。
17.一方面，本技术实施例提供了一种计算机存储介质，其特征在于，所述计算机存储介质中存储有计算机程序指令，所述计算机程序指令被处理器执行时，用于执行上述资源推送方法。
18.一方面，本技术实施例提供了一种计算机程序产品或计算机程序，计算机程序产品包括计算机程序，该计算机程序存储在计算机存储介质中；资源推送设备的处理器从计算机存储介质中读取该计算机程序，处理器执行该计算机程序，使得资源推送设备执行上述资源推送方法。
19.本技术实施例中，可以响应于为待推送对象推送资源的推送请求，调用第一交互预测网络预测待推送对象对待推送资源执行目标交互的交互概率；并基于交互概率确定待推送对象与待推送资源之间的匹配度；若待推送对象与待推送资源之间的匹配度符合推送规则，则向待推送对象推送待推送资源；其中，第一交互预测网络是基于第二交互预测网络、第一样本资源以及第一样本资源相关的历史短时交互序列进行训练的；第二交互预测网络是基于第一样本资源以及第一样本资源相关的历史长时交互序列进行训练的；历史长时交互序列包括历史短时交互序列，第一交互预测网络和第二交互预测网络均用于进行目标交互预测，且第一交互预测网络的网络规模小于第二交互预测网络的网络规模。由于历史长时交互序列携带有相较于历史短时交互序列更丰富的历史交互特征，所以基于第一样本资源相关的历史长时交互序列训练得到的第二交互预测网络，能够基于丰富的历史交互特征预测对象对资源执行目标交互的概率，并且预测准确性高；但由于历史长时交互序列的数据量大，能够对数据量大的历史长时交互序列进行处理的第二交互预测网络的网络规模大，通常来说，当大规模模型对大量数据进行处理时的耗时长，不满足资源推送领域中对于时效性的要求；因此，可以采用比历史长时交互序列数据量更少的历史短时交互序列对规模更小的第一交互预测网络进行训练，以保证第一交互预测网络的轻量性，进而提高通过第一交互预测网络预测对象对资源执行目标交互的概率的预测速率，以保证资源推送时的推送时效性；并且，基于第二交互预测网络对第一交互预测网络进行训练，使得第一交互预测网络能够很好的学习第二交互预测网络的处理能力，因此，可以保证第一交互预测网络采用数据量少的历史短时交互序列进行训练时，第一交互预测网络预测对象对资源执行目标交互的概率的预测准确性；基于上述描述可知，当采用第一交互预测网络预测待推送对象对待推送资源执行目标交互的交互概率时，可以同时兼顾预测准确性和预测速率，进
而可以兼顾资源推送时的推送准确性和推送时效性。
附图说明
20.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
21.图1是本技术实施例提供的一种资源推送系统的结构示意图；
22.图2是本技术实施例提供的一种第二交互预测网络的训练方法的流程示意图；
23.图3是本技术实施例提供的一种第二交互预测网络示例性的结构示意图；
24.图4是本技术实施例提供的一种第一交互预测网络的训练方法的流程示意图；
25.图5是本技术实施例提供的一种基于第二预测结果、第三预测结果以及第二交互标签对第一交互预测模型进行训练的示意图；
26.图6是本技术实施例提供的一种资源推送方法的流程示意图；
27.图7是本技术实施例提供的一种资源推送装置的结构示意图；
28.图8是本技术实施例提供的一种资源推送设备的结构示意图。
具体实施方式
29.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
30.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
31.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术(computer vision，cv)、语音处理技术、自然语言处理技术以及机器学习(machine learning，ml)/深度学习(deep learning，dl)等几大方向。
32.本技术实施例基于人工智能领域中的机器学习技术提供了一种资源推送方案，可以响应于为待推送对象推送资源的推送请求，调用第一交互预测网络预测待推送对象对待推送资源执行目标交互的交互概率；并基于交互概率确定待推送对象与待推送资源之间的匹配度；若待推送对象与待推送资源之间的匹配度符合推送规则，则向待推送对象推送待推送资源；其中，第一交互预测网络是基于第二交互预测网络、第一样本资源以及第一样本资源相关的历史短时交互序列进行训练的；第二交互预测网络是基于第一样本资源以及第一样本资源相关的历史长时交互序列进行训练的；历史长时交互序列包括历史短时交互序
列，第一交互预测网络和第二交互预测网络均用于进行目标交互预测，且第一交互预测网络的网络规模小于第二交互预测网络的网络规模。进一步的，第一交互预测网络和第二交互预测网络均用于进行目标交互预测，可选的，第一交互预测网络和第二交互预测网络的网络结构可以相同，也可以不同，本技术实施例不对第一交互预测网络和第二交互预测网络具体的网络结构进行限定，只要是能实现目标交互预测的网络均在本技术实施例的保护范围内；为了便于阐述，本技术实施例后续以第一交互预测网络和第二交互预测网络的网络结构相同进行介绍。
33.上述资源推送方案可以通过资源推送设备执行，其中，该资源推送设备可以为终端设备，该终端设备可以包括但不限于智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、车载终端、智能可穿戴设备等；也可以为服务器，例如可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。上述资源推送方案可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。
34.基于上述资源推送方案，本技术实施例提供了一种资源推送系统，参见图1，为本技术实施例提供的一种资源推送系统的结构示意图。图1所示的资源推送系统可以包括资源推送设备101以及终端设备102。其中，资源推送设备101可以是服务器，例如可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器；终端设备102可以包括不限于智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、车载终端、智能可穿戴设备等中的任意一种或多种。资源推送设备101以及终端设备102之间可以通过有线或无线通信方式进行直接或间接地通信连接，本技术在此不做限制。
35.在一个实施例中，终端设备102中可运行有目标应用，该目标应用可以是任一可提供资源推送服务的合法应用，例如可以为社交应用、新闻应用等。目标应用可以向终端设备102所对应的待推送对象提供资源推送服务，该目标应用所推送的资源为与该目标应用所提供的业务相关的资源，例如，若目标应用为新闻应用，则目标应用可以向待推送对象推送时事新闻、时事评论文章等。资源推送设备101为与目标应用相对应的服务器，可以为目标应用提供服务支持，具体可以为目标应用提供资源推送服务支持。例如，若目标应用为新闻应用，则资源推送设备101可以是为该新闻应用提供服务支持的服务器。该待推送对象可以为使用目标应用所提供的服务的任意用户。
36.在一个实施例中，待推送对象可以通过其终端设备102使用目标应用所提供的服务，例如点击查看目标应用所推送的资源。资源推送设备101可以响应于为待推送对象推送资源的推送请求，调用第一交互预测网络预测待推送对象对待推送资源执行目标交互的交互概率；并基于交互概率确定待推送对象与待推送资源之间的匹配度；若待推送对象与待推送资源之间的匹配度符合推送规则，则向待推送对象推送待推送资源，以使待推送对象可以通过其终端设备102对待推送资源进行点击查看。可选的，该推送请求可以是基于待推
送对象触发的，例如，该待推送对象在其终端设备102的目标应用中执行了资源搜索操作，则可以基于该资源搜索操作生成推送请求，并基于该终端设备102将推送请求发送至资源推送设备101中，资源推送设备101接收到该推送请求后，可以响应于该推送请求，进而为待推送对象推送资源。该推送请求也可以是业务人员触发的，例如，若业务人员需要进行广告推广，则资源推送设备101可以响应于业务人员触发的为待推送对象推送广告资源的推送请求，基于调用第一交互预测网络预测得到的待推送对象对该广告资源执行目标交互的交互概率，确定是否将该广告资源推送给该待推送对象。举例来说，在智慧交通的场景中，终端设备102可以为车载终端，目标应用可以为用于推送交通资讯的应用；若待推送资源为待推送的交通资讯，则资源推送设备101可以根据预测得到的该车载终端对应的待推送对象对该交通资讯进行目标交互的交互概率，确定是否将该交通资讯推送至该车载终端中，进而使待推送对象可以了解交通资讯，提高驾驶体验等。可选的，由于第一交互预测网络的网络规模小，历史短时交互序列的数据量少，所以该资源推送方案也可以由计算力一般的终端设备102执行。
37.在一个实施例中，可以基于具体的需求对目标交互进行具体的设定，当目标交互设定不同时，第一交互预测网络用于预测对象对资源执行不同交互的交互概率，第二交互预测网络用于预测对象对资源执行不同交互的交互概率。例如，若目标交互被设定为点击交互，则第一交互预测网络和第二交互预测网络均为点击率预估网络，用于预测对象对资源执行点击交互的交互概率，即用于预测对象对资源进行点击的预估点击率；可以调用第一交互预测网络预测待推送对象对待推送资源进行点击的预估点击率；并基于预估点击率确定待推送对象与待推送资源之间的匹配度；若待推送对象与待推送资源之间的匹配度符合推送规则，则向待推送对象推送待推送资源。又如，若目标交互被设定为转化交互，则第一交互预测网络和第二交互预测网络均为转化率预估网络，用于预测对象对资源执行点击交互后执行转化交互的交互概率，即用于预测对象对资源进行点击后再执行转化操作的预估转化率；可以调用第一交互预测网络预测待推送对象对待推送资源进行转化操作的预估转化率；并基于预估转化率确定待推送对象与待推送资源之间的匹配度；若待推送对象与待推送资源之间的匹配度符合推送规则，则向待推送对象推送待推送资源；其中，该转化操作可以在不同的应用场景下进行具体的设定，例如可以包括对象点击资源后，进行的激活、注册、付费等操作。
38.在一个实施例中，目标交互为多种交互中的一种或多种，该多种交互可以根据具体的需求进行设定；举例来说，若该需求指示该第一交互预测网络以及第二交互预测网络为点击率预估网络，则可以将多种交互确定为“曝光交互”以及“点击交互”，则该目标交互为该“点击交互”，其中，该“曝光交互”指的是将某一资源推送给对象之后，对象并未对其进行点击；还可以将多种交互确定为“曝光交互”、“点击未转化”以及“点击已转化”，则该目标交互为该“点击未转化”或“点击已转化”。又如，若该需求指示该第一交互预测网络以及第二交互预测网络为转化率预估网络，则可以将多种交互确定为“曝光交互”、“点击未转化”以及“点击已转化”，此时，该目标交互为该“点击已转化”。
39.在一个实施例中，第一样本资源为用于对第一交互预测网络和第二交互预测网络进行训练的资源，第一样本资源是预设时间段内推送至目标对象的资源，该目标对象可以为使用目标应用所提供的服务的任意用户；其中，该预设时间段可以是根据具体需求进行
设定的，例如可以设定为2个月。举例来说，若预设时间段为t1至t2时间段，t1早于t2，t1至t2时间段内从早到晚推送至目标对象的资源包括：资源a、资源b、资源c以及资源d；则一个第一样本资源可以为上述资源a、资源b、资源c以及资源d中的任意一个资源，一个第一样本资源对应一个历史长时交互序列以及历史短时交互序列。
40.进一步的，第一样本资源相关的历史长时交互序列可以包括n个第二样本资源以及n个第一交互标签；n个第二样本资源是自目标对象与第一样本资源产生交互起的第一历史时间段内推送至目标对象的，n个第一交互标签与n个第二样本资源一一对应，n个第一交互标签用于指示目标对象与n个第二样本资源产生的交互，n为正整数。其中，可以根据具体的需求对第一预设时间段进行设定。例如，可以将第一预设时间段设定为1年，则n个第二样本资源是自目标对象与第一样本资源产生交互起的1年内推送至目标对象的。进一步的，若目标对象与第一样本资源产生的交互为“曝光交互”，则可以将自目标对象与第一样本资源产生交互起的第一历史时间段内确定为自第一样本资源被推送至目标对象起的第一历史时间段内。
41.举例来说，若第一交互预测网络和第二交互预测网络为点击率预估模型，多种交互为“曝光交互”、“点击未转化”以及“点击已转化”，目标交互为点击未转化”或“点击已转化”；若多种交互中“曝光交互”、“点击未转化”以及“点击已转化”分别用标签“0”、“1”以及“2”标识；若对象执行目标交互用标签“1”标识，对象未执行目标交互用标签“0”标识，即对象与某一资源产生的交互为目标交互时，可以用标签“1”标识，对象与某一资源产生的交互不为目标交互时，可以用标签“0”标识。若第一样本资源为上述t1至t2时间段内推送至目标对象的资源b，若目标对象对资源b执行交互的时间点为t3，则自目标对象与第一样本资源产生交互起的第一历史时间段内可以为自t3起的1年内，即t3之前的1年内；若t3之前的1年内从早到晚推送至目标对象的资源分别为：资源e、资源f、资源g、资源h、资源a，则第一样本资源(资源b)相关的历史长时交互序列中可以包括5个第二样本资源，分别为：资源e、资源f、资源g、资源h、资源a；若目标对象对资源e、资源f、资源g、资源h、资源a产生的交互分别为：“曝光交互”、“点击未转化”、“点击已转化”、“点击未转化”以及“曝光交互”，则该第一样本资源(资源b)相关的历史长时交互序列可以包括5个第二样本资源，分别为：资源e、资源f、资源g、资源h、资源a，以及5个第一交互标签，分别为：0、1、2、1、0。可选的，若第一交互预测网络和第二交互预测网络为转化率预估模型，则n个第二样本资源可以是自目标对象与第一样本资源产生交互起的第一历史时间段内推送至目标对象，且被目标对象进行点击交互的资源，也就是说，n个第二样本资源可以是自目标对象与第一样本资源产生交互起的第一历史时间段内推送至目标对象，且被目标对象执行“点击未转化”或“点击已转化”的资源。举例来说，此时该第一样本资源(资源b)相关的历史长时交互序列可以包括3个第二样本资源，分别为：资源f、资源g、资源h，以及3个第一交互标签，分别为：1、2、1。
42.在一个实施例中，第一样本资源相关的历史长时交互序列包括第一样本资源相关的历史短时交互序列；第一样本资源相关的历史短时交互序列可以包括m个第三样本资源以及m个第三交互标签；m个第三样本资源是自目标对象与第一样本资源产生交互起的第二历史时间段内推送至目标对象的，m个第三交互标签与m个第三样本资源一一对应，m为小于或等于n的正整数，第一历史时间段长于第二历史时间段，m个第三样本资源属于n个第二样本资源。其中，可以根据具体的需求对第二预设时间段进行设定。例如，可以将第二预设时
间段设定为1个月，则m个第三样本资源是自目标对象与第一样本资源产生交互起的1个月内推送至目标对象的。举例来说，若第一交互预测网络和第二交互预测网络为点击率预估网络，第一样本资源为资源b；第一样本资源(资源b)相关的历史长时交互序列可以包括5个第二样本资源，分别为：资源e、资源f、资源g、资源h、资源a，以及5个第一交互标签，分别为：0、1、2、1、0；若自目标对象与第一样本资源产生交互起的第二历史时间段内从早到晚推送至目标对象的资源分别为：资源g、资源h、资源a，则第一样本资源(资源b)相关的历史短时交互序列可以包括3个第三样本资源，分别为：资源g、资源h、资源a，以及3个第三交互标签，分别为：2、1、0。若第一交互预测网络和第二交互预测网络为转化率预估模型，则此时该第一样本资源(资源b)相关的历史短时交互序列可以包括2个第三样本资源，分别为：资源g、资源h，以及2个第三交互标签，分别为：2、1。
43.特别需要说明的是，在本技术的具体实施方式中，涉及到用户相关的数据，例如第一样本资源相关的历史长时交互序列、第一样本资源相关的历史短时交互序列等，当本技术实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守当地法律法规和标准。
44.基于上述资源推送方案以及资源推送系统，本技术实施例提供了一种第二交互预测网络的训练方法，对基于第一样本资源以及第一样本资源相关的历史长时交互序列对第二交互预测网络进行训练的相应过程进行介绍。参见图2，为本技术实施例提供的一种第二交互预测网络的训练方法的流程示意图。图2所示的第二交互预测网络的训练方法可由资源推送设备执行，也可以由能实现对第二交互预测网络进行训练的任意电子设备执行，本技术实施例以资源推送设备进行介绍。图2所示的第二交互预测网络的训练方法可包括如下步骤：
45.s201，获取第一样本资源对应的推送关联数据，第一样本资源相关的历史长时交互序以及目标对象对第一样本资源执行目标交互的第二交互标签。
46.在一个实施例中，第二交互标签用于指示目标对象对第一样本资源是否执行目标交互，即用于指示目标对象与第一样本资源产生的交互是否为目标交互；若目标对象对第一样本资源执行目标交互，则第二交互标签可以为“1”，若目标对象未对第一样本资源执行目标交互，则第二交互标签可以为“0”。
47.在一个实施例中，第一样本资源对应的推送关联数据可以包括以下数据中的任意一种或多种：第一样本资源的资源属性数据、目标对象的对象属性数据以及目标对象与第一样本资源产生交互时的环境数据。其中，第一样本资源的资源属性数据指的是用于描述该第一样本资源的数据，例如可以包括第一样本资源的资源标识、第一样本资源的名称、第一样本资源的资源类型等。目标对象的对象属性数据指的是用于描述该目标对象的数据，例如可以包括该目标对象的用户身份证明(user identification，uid)、目标对象的昵称、目标对象的年龄、目标对象的常驻城市等。目标对象与第一样本资源产生交互时的环境数据用于指示目标对象与第一样本资源产生交互时的环境，例如可以包括目标对象与第一样本资源产生交互时的时间、地点、终端设备类型、网络信息类型(例如，有线网络、无线网络等)等数据。进一步的，资源推送设备获取第一样本资源对应的推送关联数据，第一样本资源相关的历史长时交互序以及第二交互标签可以是从目标对象的终端设备中获取到的。
48.s202，调用第二交互预测网络，对历史长时交互序列进行特征转换处理，得到n个
第二样本资源中每个第二样本资源对应的交互特征表示，以及对第一样本资源对应的推送关联数据进行特征转换处理，得到推送关联数据对应的推送关联特征表示。
49.在一个实施例中，第二交互预测网络用于进行目标交互预测；进一步的，第二交互预测网络可以是能实现基于第一样本资源对应的推送关联数据以及第一样本资源相关的历史长时交互序列进行目标交互预测的任意网络，本技术实施例不对第二交互预测网络具体的网络结构进行限定，只要是能实现目标交互预测的网络均在本技术实施例的保护范围内。
50.在一个实施例中，资源推送设备调用第二交互预测网络，对历史长时交互序列进行特征转换处理，得到n个第二样本资源中每个第二样本资源对应的交互特征表示，可以包括：调用第二交互预测网络，对每个第二样本资源进行特征嵌入处理，得到每个第二样本资源对应的嵌入特征表示；以及对n个第一交互标签中每个第一交互标签进行特征嵌入处理，得到每个第一交互标签对应的标签特征表示；将每个第二样本资源对应的嵌入特征表示与相应的第一交互标签对应的标签特征表示进行拼接处理，得到每个第二样本资源对应的交互特征表示。其中，对每个第二样本资源进行特征嵌入处理，可以是对每个第二样本资源的资源属性数据进行的特征嵌入处理，也可以是对每个第二样本资源的资源标识进行的特征嵌入处理；对第二样本资源的资源属性数据等数据进行特征嵌入处理(即为进行embedding处理)，可以将向量化表示的数据从高维稀疏向量向稠密向量进行转换，可实现对向量化表示的数据的降维处理，可节约处理资源，减少第二交互预测网络在后续处理过程中的数据。
51.在一个实施例中，第一样本资源相关的历史长时交互序列中还可以包括n个第一时间标签，n个第一时间标签与n个第二样本资源一一对应，n个第一时间标签用于指示目标对象与n个第二样本资源产生的交互与目标对象与第一样本资源产生的交互之间的时间差。以n个第二样本资源中任一第二样本资源为例，若目标对象与该第二样本资源产生交互的时间点为t_history，目标对象与第一样本资源产生交互的时间点为t，则该第二样本资源相应的第一时间标签可以为t-t_history。进一步的，每个第二样本资源对应的交互特征表示可以是由：每个第二样本资源对应的嵌入特征表示、每个第一交互标签对应的标签特征表示，以及每个第一时间标签对应的时间特征表示进行拼接得到的；其中，每个第一时间标签对应的时间特征表示是通过对n个第一时间标签中每个第一时间标签进行特征嵌入处理得到的。
52.在一个实施例中，若第一样本资源对应的推送关联数据包括第一样本资源的资源属性数据，则推送关联数据对应的推送关联特征表示包括：对第一样本资源的资源属性数据进行特征嵌入处理得到的第一样本资源对应的资源特征表示；若第一样本资源对应的推送关联数据包括目标对象的对象属性数据，则推送关联数据对应的推送关联特征表示包括：对目标对象的对象属性数据进行特征嵌入处理得到的目标对象对应的对象特征表示；若第一样本资源对应的推送关联数据包括环境数据，则推送关联数据对应的推送关联特征表示包括：对环境数据进行特征嵌入处理得到的环境数据对应的环境特征表示。本技术实施例后续皆以第一样本资源对应的推送关联数据包括：第一样本资源的资源属性数据、目标对象的对象属性数据以及环境数据进行介绍。
53.s203，分别基于每个第二样本资源对应的交互特征表示以及推送关联数据对应的推送关联特征表示进行交互预测处理，得到目标对象对第一样本资源执行目标交互的第一
预测结果。
54.在一个实施例中，当第一样本资源对应的推送关联数据包括：第一样本资源的资源属性数据、目标对象的对象属性数据以及环境数据时，资源推送设备调用第二交互预测网络，分别基于每个第二样本资源对应的交互特征表示以及推送关联数据对应的推送关联特征表示进行交互预测处理，得到目标对象对第一样本资源执行目标交互的第一预测结果，可以包括：分别对每个第二样本资源对应的交互特征表示、第一样本资源对应的资源特征表示、目标对象对应的对象特征表示以及环境数据对应的环境特征表示进行特征提取处理，得到历史长时交互序列对应的序列特征提取向量、第一样本资源对应的资源特征提取向量、目标对象对应的对象特征提取向量以及环境数据对应的环境特征提取向量；对第一样本资源对应的资源特征提取向量以及目标对象对应的对象特征提取向量进行特征交互处理，得到特征交互子向量；将历史长时交互序列对应的序列特征提取向量、环境数据对应的环境特征提取向量以及特征交互子向量进行拼接处理，得到特征交互向量；对特征交互向量进行概率预测处理，得到第一预测结果。
55.具体实现中，资源推送设备调用第二交互预测网络，分别对每个第二样本资源对应的交互特征表示、第一样本资源对应的资源特征表示、目标对象对应的对象特征表示以及环境数据对应的环境特征表示进行特征提取处理时，可以是基于第二交互预测网络中能够实现特征提取功能的不同的特征提取网络实现的，本技术实施例不对每个特征提取网络的具体选择进行限定，比如，可以基于神经网络中transformer网络的编码器(encodr)部分对每个第二样本资源对应的交互特征表示进行特征提取处理，得到每个第二样本资源对应的交互特征提取向量；然后将每个第二样本资源对应的交互特征提取向量进行拼接处理，得到历史长时交互序列对应的序列特征提取向量。
56.进一步的，资源推送设备调用第二交互预测网络，对第一样本资源对应的资源特征提取向量以及目标对象对应的对象特征提取向量进行特征交互处理，得到特征交互子向量，可以包括：对第一样本资源对应的资源特征提取向量以及目标对象对应的对象特征提取向量进行向量融合处理，得到向量融合结果；基于向量融合结果，预测目标对象对第一样本资源，执行多种交互中每种交互时的交互概率分布；将交互概率分布与第一样本资源对应的资源特征提取向量进行融合处理，得到特征交互子向量。其中，可以采用向量点乘的运算法则，实现第一样本资源对应的资源特征提取向量与目标对象对应的对象特征提取向量的向量融合处理，得到向量融合结果。可以采用归一化函数，对向量融合结果进行归一化处理，预测得到目标对象对第一样本资源，执行多种交互中每种交互时的交互概率分布，其中，该归一化函数可以为指数归一化函数(即softmax函数)。举例来说，若多种交互分别为“曝光交互”、“点击未转化”以及“点击已转化”，则通过该softmax函数可以预测目标对象对第一样本资源执行“曝光交互”的概率，执行“点击未转化”的概率，以及执行“点击已转化”的概率。进一步的，资源推送设备调用第二交互预测网络，将交互概率分布与第一样本资源对应的资源特征提取向量进行融合处理，得到特征交互子向量时，可以是采用预设融合函数进行实现的，其中，该预设融合函数可以为matmul函数。
57.进一步的，资源推送设备调用第二交互预测网络，对特征交互向量进行概率预测处理，得到第一预测结果时，可以先对特征交互向量进行全连接处理，并将全连接处理之后的结果通过归一化函数，预测得到目标对象对第一样本资源执行目标交互的第一预测结
果，其中，该归一化函数可以为sigmoid函数。
58.参见图3，为本技术实施例提供的一种第二交互预测网络示例性的结构示意图，其中，该第二交互预测网络包括序列元素编码模块、资源特征嵌入层、对象特征嵌入层、环境特征嵌入层、序列特征提取网络(包括transformer网络的编码器部分以及拼接(concat)模块)、资源特征提取网络、对象特征提取网络、环境特征提取网络、向量融合层(点乘层)、函数层(包括：softmax函数层、sigmoid函数层、matmul函数层)、拼接(concat)模块以及全连接层(fully connected layer，fc layer)。
59.具体的，资源推送设备调用第二交互预测网络，通过序列元素编码模块对历史长时交互序列进行特征转换处理，得到n个第二样本资源中每个第二样本资源对应的交互特征表示，分别通过资源特征嵌入层、对象特征嵌入层、环境特征嵌入层对第一样本资源的资源属性数据、目标对象的对象属性数据以及环境数据进行特征嵌入处理，得到第一样本资源对应的资源特征表示、目标对象对应的对象特征表示以及环境数据对应的环境特征表示。分别通过序列特征提取网络、资源特征提取网络、对象特征提取网络以及环境特征提取网络，对每个第二样本资源对应的交互特征表示、第一样本资源对应的资源特征表示、目标对象对应的对象特征表示以及环境数据对应的环境特征表示进行特征提取处理，得到历史长时交互序列对应的序列特征提取向量、第一样本资源对应的资源特征提取向量、目标对象对应的对象特征提取向量以及环境数据对应的环境特征提取向量。
60.通过向量融合层(点乘层)对第一样本资源对应的资源特征提取向量以及目标对象对应的对象特征提取向量进行向量融合处理，得到向量融合结果；通过softmax层基于向量融合结果，预测目标对象对第一样本资源，执行多种交互中每种交互时的交互概率分布；通过matmul函数层将交互概率分布与第一样本资源对应的资源特征提取向量进行融合处理，得到特征交互子向量。
61.通过concat模块，将历史长时交互序列对应的序列特征提取向量、环境数据对应的环境特征提取向量以及特征交互子向量进行拼接处理，得到特征交互向量；然后通过全连接层，对特征交互向量进行全连接处理，将全连接处理之后的结果通过sigmoid函数层，预测得到目标对象对第一样本资源执行目标交互的第一预测结果。
62.s204，基于第二交互标签与第一预测结果之间的差异对第二交互预测网络进行训练。
63.在一个实施例中，资源推送设备基于第二交互标签与第一预测结果之间的差异对第二交互预测网络进行训练，可以包括：基于第二交互标签与第一预测结果之间的差异，确定第二交互预测网络对应的目标损失函数；根据第二交互预测网络对应的目标损失函数更新每个第二样本资源对应的交互特征表示，以及更新推送关联数据对应的推送关联特征表示。具体实现中，资源推送设备可以朝着第二交互预测网络对应的目标损失函数收敛的方向调整第二交互预测网络的模型参数，并根据调整的模型参数更新每个第二样本资源对应的交互特征表示，以及更新推送关联数据对应的推送关联特征表示。例如，可以基于反向传播算法调整第二交互预测网络的模型参数、更新每个第二样本资源对应的交互特征表示，以及更新推送关联数据对应的推送关联特征表示。进一步的，资源推送设备可以对第二交互预测网络进行离线训练。
64.在一个实施例中，当采用多个样本对第二交互预测网络进行训练时，第二交互预
测网络对应的目标损失函数可以为交叉熵损失函数；其中，一个样本包括一个第一样本资源对应的推送关联数据、该第一样本资源相关的历史长时交互序列，以及一个目标对象对该第一样本资源执行目标交互的第二交互标签；此时第二交互预测网络对应的目标损失函数具体可以由以下公式1给出：
[0065][0066]
其中，i为样本的个数，i为样本的自变量；yi为i个样本中第i个样本对应的第二交互标签，pi′
为基于该第i个样本得到的第一预测结果。
[0067]
在一个实施例中，为了增强第二交互预测网络的泛化性，防止第二交互预测网络过拟合，可以基于正则化策略，对第二交互预测网络对应的目标损失函数进行设计，此时第二交互预测网络对应的目标损失函数具体可以由以下公式2给出：
[0068][0069]
其中，θ为第二交互预测网络的模型参数。
[0070]
本技术实施例中，可以基于第一样本资源对应的推送关联数据以及第一样本资源相关的历史长时交互序列对第二交互预测网络进行训练，其中，第一样本资源相关的历史长时交互序列中携带有目标对象与第一样本资源产生交互之前的丰富的历史交互特征，可以使得第二交互预测网络充分学习目标对象的历史交互特征，使得训练后的第二交互预测网络能够基于对象丰富的历史交互特征预测对象对资源进行目标交互的概率，并提高预测对象对资源进行目标交互的概率的预测准确性。
[0071]
基于上述资源推送方案、资源推送系统以及第二交互预测网络的训练方法，本技术实施例提供了一种第一交互预测网络的训练方法，对基于第二交互预测网络、第一样本资源以及第一样本资源相关的历史短时交互序列对第一交互预测网络进行训练的相应过程进行介绍，本技术实施例以第一交互预测网络和第二交互预测网络具有相同的网络结构进行介绍。参见图4，为本技术实施例提供的一种第一交互预测网络的训练方法的流程示意图。图4所示的第一交互预测网络的训练方法可由资源推送设备执行，也可以由能实现对第一交互预测网络进行训练的任意电子设备执行，本技术实施例以资源推送设备进行介绍。图4所示的第一交互预测网络的训练方法可包括如下步骤：
[0072]
s401，获取m个第三样本资源中，每个第三样本资源对应的交互特征表示，以及获取推送关联数据对应的更新后的推送关联特征表示。
[0073]
其中，每个第三样本资源对应的交互特征表示是从每个第二样本资源对应的更新后的交互特征表示中确定出的。举例来说，若第一样本资源相关的历史长时交互序列中包括5个第二样本资源，分别为：资源e、资源f、资源g、资源h、资源a，第二样本资源对应的更新后的交互特征表示分别为：更新后的交互特征表示e、更新后的交互特征表示f、更新后的交互特征表示g、更新后的交互特征表示h、更新后的交互特征表示a；若第一样本资源相关的历史短时交互序列包括3个第三样本资源，分别为：资源g、资源h、资源a，则第三样本资源对应的交互特征表示分别为：更新后的交互特征表示g、更新后的交互特征表示h、更新后的交互特征表示a。
[0074]
进一步的，每个第二样本资源对应的更新后的交互特征表示以及更新后的推送关联特征表示，可以是经由训练过程中的第二交互预测网络或训练后的第二交互预测网络得
到的；若是经由训练后的第二交互预测网络得到的，在另一种实施方式中，也可以调用训练后的第二交互预测网络，对第一样本资源对应的推送关联数据以及第一样本资源相关的历史长时交互序列进行处理，预测目标对象对第一样本资源执行目标交互的第二预测结果，并将经由训练后的第二交互预测网络得到的推送关联数据对应的推送关联特征表示作为第一交互预测网络的输入，以及从经由训练后的第二交互预测网络得到的每个第二样本资源对应的交互特征表示中确定每个第三样本资源对应的交互特征表示，并将每个第三样本资源对应的交互特征表示作为第一交互预测网络的输入，以使第一交互预测网络预测目标对象对第一样本资源执行目标交互的第三预测结果。
[0075]
s402，分别调用训练后的第二交互预测网络以及第一交互预测网络，分别基于每个第三样本资源对应的交互特征表示以及推送关联数据对应的更新后的推送关联特征表示进行交互预测处理，得到目标对象对第一样本资源执行目标交互的第二预测结果以及第三预测结果。
[0076]
其中，资源推送设备分别调用训练后的第二交互预测网络以及第一交互预测网络，分别基于每个第三样本资源对应的交互特征表示以及推送关联数据对应的更新后的推送关联特征表示进行交互预测处理，得到目标对象对第一样本资源执行目标交互的第二预测结果以及第三预测结果的相关过程，与上述资源推送设备对第二交互预测网络进行训练时，调用第二交互预测网络分别基于每个第二样本资源对应的交互特征表示以及推送关联数据对应的推送关联特征表示进行交互预测处理，得到目标对象对第一样本资源执行目标交互的第一预测结果的相关过程类似，再此不再赘述。
[0077]
s403，基于第二预测结果与第三预测结果之间的差异，以及第二交互标签与第三预测结果之间的差异，对第一交互预测网络进行训练。
[0078]
在一个实施例中，参见图5，为本技术实施例提供的一种基于第二预测结果、第三预测结果以及第二交互标签对第一交互预测模型进行训练的示意图；资源推送设备基于第二预测结果与第三预测结果之间的差异，以及第二交互标签与第三预测结果之间的差异，对第一交互预测网络进行训练，可以包括：基于第二预测结果与第三预测结果之间的差异，确定第一交互预测网络对应的第一损失函数；基于第二交互标签与第三预测结果之间的差异，确定第一交互预测网络对应的第二损失函数；基于第一损失函数以及第二损失函数，确定第一交互预测网络对应的目标损失函数；并朝着第一交互预测网络对应的目标损失函数收敛的方向调整第一交互预测网络的模型参数。可选的，可以基于反向传播算法调整第一交互预测网络的模型参数。
[0079]
在一个实施例中，当采用多个样本对第一交互预测网络进行训练时，第一交互预测网络对应的第一损失函数可以为交叉熵损失函数或相对熵损失函数(kl散度)，用于确定第二预测结果与第三预测结果之间的差异；第一交互预测网络对应的第二损失函数可以为交叉熵损失函数；其中，一个样本包括一个第一样本资源对应的推送关联数据、该第一样本资源相关的历史短时交互序列，以及一个目标对象对该第一样本资源执行目标交互的第二交互标签。
[0080]
其中，第一交互预测网络对应的第一损失函数可以由以下公式3.1给出：
[0081][0082]
其中，i为样本的个数，i为样本的自变量；qi为i个样本中第i个样本对应的第二预
测结果，pi为基于该第i个样本得到的第三预测结果。
[0083]
第一交互预测网络对应的第二损失函数可以由以下公式3.2给出：
[0084][0085]
其中，yi为i个样本中第i个样本对应的第二交互标签。
[0086]
第一交互预测网络对应的目标损失函数可以由以下公式3.3给出：
[0087]
l＝αl1+l2ꢀꢀ
(3.3)
[0088]
其中α为超参数，指示第二预测结果对第一交互预测网络的影响权重；可以根据具体的训练需求对α进行设定，例如，可以将α设定为0.5。
[0089]
可选的，可以采用比第二交互预测网络训练时更少的样本对第一交互预测网络进行训练，以节省第一交互预测网络的训练时间。例如，可以从预设时间段内推送至目标对象的第一样本资源中，选取部分的第一样本资源，作为第一交互预测网络训练时的第一样本资源；又如，可以将预设时间段内的预设部分时间段内推送至目标对象的第一样本资源，确定为第一交互预测网络训练时的第一样本资源；其中，该预设部分时间段可以根据具体的需求进行设定，例如可以设定为1个周。
[0090]
本技术实施例中，可以基于第二交互预测网络、第一样本资源以及第一样本资源相关的历史短时交互序列对第一交互预测网络进行训练，具体可以基于经由训练过程中的第二交互预测网络或训练后的第二交互预测网络得到的，对第一样本资源相关的历史长时交互序列以及第一样本资源对应的推送关联数据进行处理后得到的，每个第二样本资源对应的更新后的交互特征表示以及推送关联数据对应的更新后的推送关联特征表示，对第一交互预测网络进行训练；可以提高第一交互预测网络的泛化性；进一步的，可以基于第二交互预测网络预测得到的目标对象对第一样本资源执行目标交互的第二预测结果，与第一交互预测网络预测得到的目标对象对第一样本资源执行目标交互的第三预测结果之间的差异，以及第三预测结果与用于指示目标对象是否对第一样本资源执行目标交互的第二交互标签之间的差异，对第一交互预测网络进行训练，可以在训练第一交互预测网络时充分参考第二交互预测网络的预测结果，很好的学习第二交互预测网络的处理能力，加快第一交互预测网络的训练速率，缩短第一交互预测网络的训练时长，并提高第一交互预测网络预测对象对资源执行目标交互的概率的预测准确性；进一步的，历史短时交互序列的数据量少于历史长时交互序列的数据量，且第一交互预测网络的网络规模小于第二交互预测网络的网络规模，使得第一交互预测网络能够提高预测对象对资源执行目标交互的概率的预测速率。
[0091]
基于上述实施例，本技术实施例提供了一种资源推送方法；参见图6，为本技术实施例提供的一种资源推送方法的流程示意图。图6所示的资源推送方法可由资源推送设备执行。图6所示的资源推送方法可包括如下步骤：
[0092]
s601，响应于为待推送对象推送资源的推送请求，调用第一交互预测网络预测待推送对象对待推送资源执行目标交互的交互概率。
[0093]
其中，第一交互预测网络是基于第二交互预测网络、第一样本资源以及第一样本资源相关的历史短时交互序列进行训练的；第二交互预测网络是基于第一样本资源以及第一样本资源相关的历史长时交互序列进行训练的；历史长时交互序列包括历史短时交互序列，第一交互预测网络和第二交互预测网络均用于进行目标交互预测，且第一交互预测网
络的网络规模小于第二交互预测网络的网络规模。
[0094]
在一个实施例中，资源推送设备响应于为待推送对象推送资源的推送请求，调用第一交互预测网络预测待推送对象对待推送资源执行目标交互的交互概率，可以包括：响应于为待推送对象推送资源的推送请求，获取待推送资源对应的推送关联数据以及待推送对象相关的历史短时交互序列；其中，待推送对象相关的历史短时交互序列是自当前时间点起的第二历史时间段内推送至待推送对象的；调用第一交互预测网络，基于待推送资源对应的推送关联数据以及待推送对象相关的历史短时交互序列，预测交互概率。其中，当前时间点为资源推送设备响应于为待推送对象推送资源的推送请求的时间点；待推送资源对应的推送关联数据可以包括以下数据中的任意一种或多种：待推送资源的资源属性数据、待推送对象的对象属性数据以及当前时间点的环境数据。资源推送设备调用第一交互预测网络，基于待推送资源对应的推送关联数据以及待推送对象相关的历史短时交互序列，预测交互概率的相关过程，与调用第二交互预测网络，基于第一样本资源对应的推送关联数据以及第一样本资源相关的历史长时交互序列，预测得到目标对象对第一样本资源执行目标交互的第一预测结果的相关过程类似，再此不再赘述。
[0095]
s602，基于交互概率确定待推送对象与待推送资源之间的匹配度。
[0096]
在一个实施例中，资源推送设备基于交互概率确定待推送对象与待推送资源之间的匹配度，可以包括：将交互概率确定为待推送对象与待推送资源之间的匹配度；或者，基于交互概率与匹配度之间的转换规则，将交互概率进行匹配度转换处理，得到待推送对象与待推送资源之间的匹配度。可选的，可以将待推送资源推送至待推送对象所产生的收益确定为待推送对象与待推送资源之间的匹配度，此时，待推送资源推送至待推送对象所产生的收益可以由以下公式4给出：
[0097]
ecpm＝bid
×
pctr
×
pcvr
ꢀꢀ
(4)
[0098]
其中，ecpm表示待推送资源推送至待推送对象所产生的收益，bid为针对该待推送资源的出价，pctr为待推送对象点击待推送资源的预估点击率，pcvr为待推送对象对待推送资源执行转化操作的预估转化率。
[0099]
s603，若待推送对象与待推送资源之间的匹配度符合推送规则，则向待推送对象推送待推送资源。
[0100]
在一个实施例中，该推送规则可以指示将待推送对象与待推送资源之间的匹配度大于匹配度阈值的待推送资源推送给该待推送对象；其中，可以根据具体的需求对匹配度阈值进行设定。例如，若待推送对象与待推送资源之间的匹配度被确定为待推送对象对待推送资源执行目标交互的交互概率，则可以在交互概率大于一定概率阈值时，将该待推送资源推送给该待推送对象，例如，在交互概率大于0.8时，将该待推送资源推送给该待推送对象。
[0101]
在一个实施例中，可以基于待推送对象与多个待推送资源中每个待推送资源之间的匹配度，从多个待推送资源中确定目标待推送资源，并将该目标待推送资源推送至待推送对象。可选的，可以按照待推送对象与多个待推送资源中每个待推送资源之间的匹配度从大到小依次确定出预设数量的目标待推送资源，例如，可以按照待推送对象与每个待推送资源之间的匹配度从大到小依次确定出3个目标待推送资源，即可以将基于匹配度从大到小排列时，排列前三的待推送资源确定为目标待推送资源。
[0102]
本技术实施例中，可以响应于为待推送对象推送资源的推送请求，调用第一交互预测网络预测待推送对象对待推送资源执行目标交互的交互概率；并基于交互概率确定待推送对象与待推送资源之间的匹配度；若待推送对象与待推送资源之间的匹配度符合推送规则，则向待推送对象推送待推送资源；其中，第一交互预测网络是基于第二交互预测网络、第一样本资源以及第一样本资源相关的历史短时交互序列进行训练的；第二交互预测网络是基于第一样本资源以及第一样本资源相关的历史长时交互序列进行训练的；历史长时交互序列包括历史短时交互序列，第一交互预测网络和第二交互预测网络均用于进行目标交互预测，且第一交互预测网络的网络规模小于第二交互预测网络的网络规模。由于历史长时交互序列携带有相较于历史短时交互序列更丰富的历史交互特征，所以基于第一样本资源相关的历史长时交互序列训练得到的第二交互预测网络，能够基于丰富的历史交互特征预测对象对资源执行目标交互的概率，并且预测准确性高；但由于历史长时交互序列的数据量大，能够对数据量大的历史长时交互序列进行处理的第二交互预测网络的网络规模大，通常来说，当大规模模型对大量数据进行处理时的耗时长，不满足资源推送领域中对于时效性的要求；因此，可以采用比历史长时交互序列数据量更少的历史短时交互序列对规模更小的第一交互预测网络进行训练，以保证第一交互预测网络的轻量性，进而提高通过第一交互预测网络预测对象对资源执行目标交互的概率的预测速率，以保证资源推送时的推送时效性；并且，基于第二交互预测网络对第一交互预测网络进行训练，使得第一交互预测网络能够很好的学习第二交互预测网络的处理能力，因此，可以保证第一交互预测网络采用数据量少的历史短时交互序列进行训练时，第一交互预测网络预测对象对资源执行目标交互的概率的预测准确性；基于上述描述可知，当采用第一交互预测网络预测待推送对象对待推送资源执行目标交互的交互概率时，可以同时兼顾预测准确性和预测速率，进而可以兼顾资源推送时的推送准确性和推送时效性。
[0103]
基于上述资源推送方法相关的实施例，本技术实施例提供了一种资源推送装置。参见图7，为本技术实施例提供的一种资源推送装置的结构示意图，该资源推送装置可包括获取单元701、处理单元702以及输出单元703。图7所示的资源推送装置可运行如下单元：
[0104]
处理单元702，用于响应于为待推送对象推送资源的推送请求，调用第一交互预测网络预测所述待推送对象对待推送资源执行目标交互的交互概率；
[0105]
所述处理单元702，还用于基于所述交互概率确定所述待推送对象与所述待推送资源之间的匹配度；
[0106]
输出单元703，用于若所述待推送对象与所述待推送资源之间的匹配度符合推送规则，则向所述待推送对象推送所述待推送资源；
[0107]
其中，所述第一交互预测网络是基于第二交互预测网络、第一样本资源以及所述第一样本资源相关的历史短时交互序列进行训练的；所述第二交互预测网络是基于所述第一样本资源以及所述第一样本资源相关的历史长时交互序列进行训练的；所述历史长时交互序列包括所述历史短时交互序列，所述第一交互预测网络和所述第二交互预测网络均用于进行目标交互预测，且所述第一交互预测网络的网络规模小于所述第二交互预测网络的网络规模。
[0108]
在一个实施例中，所述历史长时交互序列包括n个第二样本资源以及n个第一交互标签；所述n个第二样本资源是自目标对象与所述第一样本资源产生交互起的第一历史时
间段内推送至所述目标对象的，所述n个第一交互标签与所述n个第二样本资源一一对应，所述n个第一交互标签用于指示所述目标对象与所述n个第二样本资源产生的交互，n为正整数；
[0109]
所述获取单元701与所述处理单元702基于所述第一样本资源以及所述第一样本资源相关的历史长时交互序列对所述第二交互预测网络进行训练时，具体执行如下操作：
[0110]
所述获取单元701，用于获取所述第一样本资源对应的推送关联数据，所述第一样本资源相关的历史长时交互序以及所述目标对象对所述第一样本资源执行目标交互的第二交互标签；
[0111]
所述处理单元702，用于调用所述第二交互预测网络，对所述历史长时交互序列进行特征转换处理，得到所述n个第二样本资源中每个第二样本资源对应的交互特征表示，以及对所述第一样本资源对应的推送关联数据进行特征转换处理，得到所述推送关联数据对应的推送关联特征表示；
[0112]
所述处理单元702，还用于分别基于所述每个第二样本资源对应的交互特征表示以及所述推送关联数据对应的推送关联特征表示进行交互预测处理，得到所述目标对象对所述第一样本资源执行目标交互的第一预测结果；
[0113]
所述处理单元702，还用于基于所述第二交互标签与所述第一预测结果之间的差异对所述第二交互预测网络进行训练。
[0114]
在一个实施例中，所述处理单元702调用所述第二交互预测网络，对所述历史长时交互序列进行特征转换处理，得到所述n个第二样本资源中每个第二样本资源对应的交互特征表示时，具体执行如下操作：
[0115]
调用所述第二交互预测网络，对所述每个第二样本资源进行特征嵌入处理，得到所述每个第二样本资源对应的嵌入特征表示；以及对所述n个第一交互标签中每个第一交互标签进行特征嵌入处理，得到所述每个第一交互标签对应的标签特征表示；
[0116]
将所述每个第二样本资源对应的嵌入特征表示与相应的第一交互标签对应的标签特征表示进行拼接处理，得到所述每个第二样本资源对应的交互特征表示。
[0117]
在一个实施例中，所述第一样本资源对应的推送关联数据包括以下数据中的任意一种或多种：所述第一样本资源的资源属性数据、所述目标对象的对象属性数据以及所述目标对象与所述第一样本资源产生交互时的环境数据；
[0118]
若所述第一样本资源对应的推送关联数据包括所述第一样本资源的资源属性数据，则所述推送关联数据对应的推送关联特征表示包括：对所述第一样本资源的资源属性数据进行特征嵌入处理得到的所述第一样本资源对应的资源特征表示；
[0119]
若所述第一样本资源对应的推送关联数据包括所述目标对象的对象属性数据，则所述推送关联数据对应的推送关联特征表示包括：对所述目标对象的对象属性数据进行特征嵌入处理得到的所述目标对象对应的对象特征表示；
[0120]
若所述第一样本资源对应的推送关联数据包括所述环境数据，则所述推送关联数据对应的推送关联特征表示包括：对所述环境数据进行特征嵌入处理得到的所述环境数据对应的环境特征表示。
[0121]
在一个实施例中，所述第一样本资源对应的推送关联数据包括：所述第一样本资源的资源属性数据、所述目标对象的对象属性数据以及所述环境数据；
[0122]
所述处理单元702分别基于所述每个第二样本资源对应的交互特征表示以及所述推送关联数据对应的推送关联特征表示进行交互预测处理，得到所述目标对象对所述第一样本资源执行目标交互的第一预测结果时，具体执行如下操作：
[0123]
分别对所述每个第二样本资源对应的交互特征表示、所述第一样本资源对应的资源特征表示、所述目标对象对应的对象特征表示以及所述环境数据对应的环境特征表示进行特征提取处理，得到所述历史长时交互序列对应的序列特征提取向量、所述第一样本资源对应的资源特征提取向量、所述目标对象对应的对象特征提取向量以及所述环境数据对应的环境特征提取向量；
[0124]
对所述第一样本资源对应的资源特征提取向量以及所述目标对象对应的对象特征提取向量进行特征交互处理，得到特征交互子向量；
[0125]
将所述历史长时交互序列对应的序列特征提取向量、所述环境数据对应的环境特征提取向量以及所述特征交互子向量进行拼接处理，得到特征交互向量；
[0126]
对所述特征交互向量进行概率预测处理，得到所述第一预测结果。
[0127]
在一个实施例中，所述目标交互为多种交互中的一种或多种；
[0128]
所述处理单元702对所述第一样本资源对应的资源特征提取向量以及所述目标对象对应的对象特征提取向量进行特征交互处理，得到特征交互子向量时，具体执行如下操作：
[0129]
对所述第一样本资源对应的资源特征提取向量以及所述目标对象对应的对象特征提取向量进行向量融合处理，得到向量融合结果；
[0130]
基于所述向量融合结果，预测所述目标对象对所述第一样本资源，执行所述多种交互中每种交互时的交互概率分布；
[0131]
将所述交互概率分布与所述第一样本资源对应的资源特征提取向量进行融合处理，得到所述特征交互子向量。
[0132]
在一个实施例中，所述处理单元702基于所述第二交互标签与所述第一预测结果之间的差异对所述第二交互预测网络进行训练时，具体执行如下操作：
[0133]
基于所述第二交互标签与所述第一预测结果之间的差异，确定所述第二交互预测网络对应的目标损失函数；
[0134]
根据所述第二交互预测网络对应的目标损失函数更新所述每个第二样本资源对应的交互特征表示，以及更新所述推送关联数据对应的推送关联特征表示。
[0135]
在一个实施例中，所述历史短时交互序列包括m个第三样本资源以及m个第三交互标签；所述m个第三样本资源是自所述目标对象与所述第一样本资源产生交互起的第二历史时间段内推送至所述目标对象的，所述m个第三交互标签与所述m个第三样本资源一一对应，m为小于或等于n的正整数，所述第一历史时间段长于所述第二历史时间段，所述m个第三样本资源属于所述n个第二样本资源；
[0136]
所述获取单元701与处理单元702基于所述第二交互预测网络、所述第一样本资源以及所述第一样本资源相关的历史短时交互序列对所述第一交互预测网络进行训练时，具体执行如下操作：
[0137]
所述获取单元701，用于获取所述m个第三样本资源中，每个第三样本资源对应的交互特征表示，所述每个第三样本资源对应的交互特征表示是从所述每个第二样本资源对
应的更新后的交互特征表示中确定出的，以及获取所述推送关联数据对应的更新后的推送关联特征表示；
[0138]
所述处理单元702，用于分别调用训练后的第二交互预测网络以及所述第一交互预测网络，分别基于所述每个第三样本资源对应的交互特征表示以及所述推送关联数据对应的更新后的推送关联特征表示进行交互预测处理，得到所述目标对象对所述第一样本资源执行目标交互的第二预测结果以及第三预测结果；
[0139]
所述处理单元702，还用于基于所述第二预测结果与所述第三预测结果之间的差异，以及所述第二交互标签与所述第三预测结果之间的差异，对所述第一交互预测网络进行训练。
[0140]
在一个实施例中，所述处理单元702基于所述第二预测结果与所述第三预测结果之间的差异，以及所述第二交互标签与所述第三预测结果之间的差异，对所述第一交互预测网络进行训练时，具体执行如下操作：
[0141]
基于所述第二预测结果与所述第三预测结果之间的差异，确定所述第一交互预测网络对应的第一损失函数；
[0142]
基于所述第二交互标签与所述第三预测结果之间的差异，确定所述第一交互预测网络对应的第二损失函数；
[0143]
基于所述第一损失函数以及所述第二损失函数，确定所述第一交互预测网络对应的目标损失函数；并朝着所述第一交互预测网络对应的目标损失函数收敛的方向调整所述第一交互预测网络的模型参数。
[0144]
在一个实施例中，所述处理单元702响应于为待推送对象推送资源的推送请求，调用第一交互预测网络预测所述待推送对象对待推送资源执行目标交互的交互概率时，具体执行如下操作：
[0145]
响应于为所述待推送对象推送资源的推送请求，获取所述待推送资源对应的推送关联数据以及所述待推送对象相关的历史短时交互序列；所述待推送对象相关的历史短时交互序列是自当前时间点起的第二历史时间段内推送至所述待推送对象的；
[0146]
调用所述第一交互预测网络，基于所述待推送资源对应的推送关联数据以及所述待推送对象相关的历史短时交互序列，预测所述交互概率。
[0147]
在一个实施例中，所述处理单元702基于所述交互概率确定所述待推送对象与所述待推送资源之间的匹配度时，具体执行如下操作：
[0148]
将所述交互概率确定为所述待推送对象与所述待推送资源之间的匹配度；
[0149]
或者，
[0150]
基于交互概率与匹配度之间的转换规则，将所述交互概率进行匹配度转换处理，得到所述待推送对象与所述待推送资源之间的匹配度。
[0151]
根据本技术的一个实施例，图2、图4以及图6所示的资源推送方法所涉及各个步骤可以是由图7所示的资源推送装置中的各个单元来执行的。例如，图2所示的步骤s201可由图7所示的资源推送装置中的获取单元701来执行，图2所示的步骤s202至步骤s204可由图7所示的资源推送装置中的处理单元702来执行。又如，图4所示的步骤s401可由图7所示的资源推送装置中的获取单元701来执行，图4所示的步骤s402至步骤s403可由图7所示的资源推送装置中的处理单元702来执行。再如，图6所示的步骤s601至步骤s602可由图7所示的资
源推送装置中的处理单元702来执行，图6所示的步骤s603可由图7所示的资源推送装置中的输出单元703来执行。
[0152]
根据本技术的另一个实施例，图7所示的资源推送装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本技术的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本技术的其它实施例中，基于逻辑功能划分的资源推送装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。
[0153]
根据本技术的另一个实施例，可以通过在包括中央处理单元(cpu)、随机存取存储介质(ram)、只读存储介质(rom)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2、图4以及图6所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图7中所示的资源推送装置，以及来实现本技术实施例资源推送方法。所述计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于上述计算设备中，并在其中运行。
[0154]
本技术实施例中，可以响应于为待推送对象推送资源的推送请求，调用第一交互预测网络预测待推送对象对待推送资源执行目标交互的交互概率；并基于交互概率确定待推送对象与待推送资源之间的匹配度；若待推送对象与待推送资源之间的匹配度符合推送规则，则向待推送对象推送待推送资源；其中，第一交互预测网络是基于第二交互预测网络、第一样本资源以及第一样本资源相关的历史短时交互序列进行训练的；第二交互预测网络是基于第一样本资源以及第一样本资源相关的历史长时交互序列进行训练的；历史长时交互序列包括历史短时交互序列，第一交互预测网络和第二交互预测网络均用于进行目标交互预测，且第一交互预测网络的网络规模小于第二交互预测网络的网络规模。由于历史长时交互序列携带有相较于历史短时交互序列更丰富的历史交互特征，所以基于第一样本资源相关的历史长时交互序列训练得到的第二交互预测网络，能够基于丰富的历史交互特征预测对象对资源执行目标交互的概率，并且预测准确性高；但由于历史长时交互序列的数据量大，能够对数据量大的历史长时交互序列进行处理的第二交互预测网络的网络规模大，通常来说，当大规模模型对大量数据进行处理时的耗时长，不满足资源推送领域中对于时效性的要求；因此，可以采用比历史长时交互序列数据量更少的历史短时交互序列对规模更小的第一交互预测网络进行训练，以保证第一交互预测网络的轻量性，进而提高通过第一交互预测网络预测对象对资源执行目标交互的概率的预测速率，以保证资源推送时的推送时效性；并且，基于第二交互预测网络对第一交互预测网络进行训练，使得第一交互预测网络能够很好的学习第二交互预测网络的处理能力，因此，可以保证第一交互预测网络采用数据量少的历史短时交互序列进行训练时，第一交互预测网络预测对象对资源执行目标交互的概率的预测准确性；基于上述描述可知，当采用第一交互预测网络预测待推送对象对待推送资源执行目标交互的交互概率时，可以同时兼顾预测准确性和预测速率，进而可以兼顾资源推送时的推送准确性和推送时效性。
[0155]
基于上述资源推送方法的相关实施例以及资源推送装置实施例，本技术还提供了一种资源推送设备。参见图8，为本技术实施例提供的一种资源推送设备的结构示意图。图8
所示的资源推送设备可至少包括处理器801、输入接口802、输出接口803以及计算机存储介质804。其中，处理器801、输入接口802、输出接口803以及计算机存储介质804可通过总线或其他方式连接。
[0156]
计算机存储介质804可以存储在资源推送设备的存储器中，计算机存储介质804用于存储计算机程序，计算机程序包括程序指令，处理器801用于执行计算机存储介质804存储的程序指令。处理器801(或称cpu(central processing unit，中央处理器))是资源推送设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现上述资源推送方法流程或相应功能。
[0157]
本技术实施例还提供了一种计算机存储介质(memory)，计算机存储介质是资源推送设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括终端中的内置存储介质，当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器801加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速随机存取存储器(random access memory，ram)存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。
[0158]
在一个实施例中，可由处理器801、输入接口802以及输出接口803加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关图2、图4以及图6的资源推送方法实施例中的方法的相应步骤，具体实现中，计算机存储介质中的一条或多条指令由处理器801以及输出接口803加载并执行如下步骤：
[0159]
所述处理器801，用于响应于为待推送对象推送资源的推送请求，调用第一交互预测网络预测所述待推送对象对待推送资源执行目标交互的交互概率；
[0160]
所述处理器801，还用于基于所述交互概率确定所述待推送对象与所述待推送资源之间的匹配度；
[0161]
所述输出接口803，用于若所述待推送对象与所述待推送资源之间的匹配度符合推送规则，则向所述待推送对象推送所述待推送资源；
[0162]
其中，所述第一交互预测网络是基于第二交互预测网络、第一样本资源以及所述第一样本资源相关的历史短时交互序列进行训练的；所述第二交互预测网络是基于所述第一样本资源以及所述第一样本资源相关的历史长时交互序列进行训练的；所述历史长时交互序列包括所述历史短时交互序列，所述第一交互预测网络和所述第二交互预测网络均用于进行目标交互预测，且所述第一交互预测网络的网络规模小于所述第二交互预测网络的网络规模。
[0163]
在一个实施例中，所述历史长时交互序列包括n个第二样本资源以及n个第一交互标签；所述n个第二样本资源是自目标对象与所述第一样本资源产生交互起的第一历史时间段内推送至所述目标对象的，所述n个第一交互标签与所述n个第二样本资源一一对应，所述n个第一交互标签用于指示所述目标对象与所述n个第二样本资源产生的交互，n为正整数；
[0164]
所述处理器801与所述输入接口802基于所述第一样本资源以及所述第一样本资
源相关的历史长时交互序列对所述第二交互预测网络进行训练时，具体执行如下操作：
[0165]
所述输入接口802，用于获取所述第一样本资源对应的推送关联数据，所述第一样本资源相关的历史长时交互序以及所述目标对象对所述第一样本资源执行目标交互的第二交互标签；
[0166]
所述处理器801，用于调用所述第二交互预测网络，对所述历史长时交互序列进行特征转换处理，得到所述n个第二样本资源中每个第二样本资源对应的交互特征表示，以及对所述第一样本资源对应的推送关联数据进行特征转换处理，得到所述推送关联数据对应的推送关联特征表示；
[0167]
所述处理器801，还用于分别基于所述每个第二样本资源对应的交互特征表示以及所述推送关联数据对应的推送关联特征表示进行交互预测处理，得到所述目标对象对所述第一样本资源执行目标交互的第一预测结果；
[0168]
所述处理器801，还用于基于所述第二交互标签与所述第一预测结果之间的差异对所述第二交互预测网络进行训练。
[0169]
在一个实施例中，所述处理器801调用所述第二交互预测网络，对所述历史长时交互序列进行特征转换处理，得到所述n个第二样本资源中每个第二样本资源对应的交互特征表示时，具体执行如下操作：
[0170]
调用所述第二交互预测网络，对所述每个第二样本资源进行特征嵌入处理，得到所述每个第二样本资源对应的嵌入特征表示；以及对所述n个第一交互标签中每个第一交互标签进行特征嵌入处理，得到所述每个第一交互标签对应的标签特征表示；
[0171]
将所述每个第二样本资源对应的嵌入特征表示与相应的第一交互标签对应的标签特征表示进行拼接处理，得到所述每个第二样本资源对应的交互特征表示。
[0172]
在一个实施例中，所述第一样本资源对应的推送关联数据包括以下数据中的任意一种或多种：所述第一样本资源的资源属性数据、所述目标对象的对象属性数据以及所述目标对象与所述第一样本资源产生交互时的环境数据；
[0173]
若所述第一样本资源对应的推送关联数据包括所述第一样本资源的资源属性数据，则所述推送关联数据对应的推送关联特征表示包括：对所述第一样本资源的资源属性数据进行特征嵌入处理得到的所述第一样本资源对应的资源特征表示；
[0174]
若所述第一样本资源对应的推送关联数据包括所述目标对象的对象属性数据，则所述推送关联数据对应的推送关联特征表示包括：对所述目标对象的对象属性数据进行特征嵌入处理得到的所述目标对象对应的对象特征表示；
[0175]
若所述第一样本资源对应的推送关联数据包括所述环境数据，则所述推送关联数据对应的推送关联特征表示包括：对所述环境数据进行特征嵌入处理得到的所述环境数据对应的环境特征表示。
[0176]
在一个实施例中，所述第一样本资源对应的推送关联数据包括：所述第一样本资源的资源属性数据、所述目标对象的对象属性数据以及所述环境数据；
[0177]
所述处理器801分别基于所述每个第二样本资源对应的交互特征表示以及所述推送关联数据对应的推送关联特征表示进行交互预测处理，得到所述目标对象对所述第一样本资源执行目标交互的第一预测结果时，具体执行如下操作：
[0178]
分别对所述每个第二样本资源对应的交互特征表示、所述第一样本资源对应的资
源特征表示、所述目标对象对应的对象特征表示以及所述环境数据对应的环境特征表示进行特征提取处理，得到所述历史长时交互序列对应的序列特征提取向量、所述第一样本资源对应的资源特征提取向量、所述目标对象对应的对象特征提取向量以及所述环境数据对应的环境特征提取向量；
[0179]
对所述第一样本资源对应的资源特征提取向量以及所述目标对象对应的对象特征提取向量进行特征交互处理，得到特征交互子向量；
[0180]
将所述历史长时交互序列对应的序列特征提取向量、所述环境数据对应的环境特征提取向量以及所述特征交互子向量进行拼接处理，得到特征交互向量；
[0181]
对所述特征交互向量进行概率预测处理，得到所述第一预测结果。
[0182]
在一个实施例中，所述目标交互为多种交互中的一种或多种；
[0183]
所述处理器801对所述第一样本资源对应的资源特征提取向量以及所述目标对象对应的对象特征提取向量进行特征交互处理，得到特征交互子向量时，具体执行如下操作：
[0184]
对所述第一样本资源对应的资源特征提取向量以及所述目标对象对应的对象特征提取向量进行向量融合处理，得到向量融合结果；
[0185]
基于所述向量融合结果，预测所述目标对象对所述第一样本资源，执行所述多种交互中每种交互时的交互概率分布；
[0186]
将所述交互概率分布与所述第一样本资源对应的资源特征提取向量进行融合处理，得到所述特征交互子向量。
[0187]
在一个实施例中，所述处理器801基于所述第二交互标签与所述第一预测结果之间的差异对所述第二交互预测网络进行训练时，具体执行如下操作：
[0188]
基于所述第二交互标签与所述第一预测结果之间的差异，确定所述第二交互预测网络对应的目标损失函数；
[0189]
根据所述第二交互预测网络对应的目标损失函数更新所述每个第二样本资源对应的交互特征表示，以及更新所述推送关联数据对应的推送关联特征表示。
[0190]
在一个实施例中，所述历史短时交互序列包括m个第三样本资源以及m个第三交互标签；所述m个第三样本资源是自所述目标对象与所述第一样本资源产生交互起的第二历史时间段内推送至所述目标对象的，所述m个第三交互标签与所述m个第三样本资源一一对应，m为小于或等于n的正整数，所述第一历史时间段长于所述第二历史时间段，所述m个第三样本资源属于所述n个第二样本资源；
[0191]
所述处理器801与所述输入接口802基于所述第二交互预测网络、所述第一样本资源以及所述第一样本资源相关的历史短时交互序列对所述第一交互预测网络进行训练时，具体执行如下操作：
[0192]
所述输入接口802，用于获取所述m个第三样本资源中，每个第三样本资源对应的交互特征表示，所述每个第三样本资源对应的交互特征表示是从所述每个第二样本资源对应的更新后的交互特征表示中确定出的，以及获取所述推送关联数据对应的更新后的推送关联特征表示；
[0193]
所述处理器801，用于分别调用训练后的第二交互预测网络以及所述第一交互预测网络，分别基于所述每个第三样本资源对应的交互特征表示以及所述推送关联数据对应的更新后的推送关联特征表示进行交互预测处理，得到所述目标对象对所述第一样本资源
执行目标交互的第二预测结果以及第三预测结果；
[0194]
所述处理器801，还用于基于所述第二预测结果与所述第三预测结果之间的差异，以及所述第二交互标签与所述第三预测结果之间的差异，对所述第一交互预测网络进行训练。
[0195]
在一个实施例中，所述处理器801基于所述第二预测结果与所述第三预测结果之间的差异，以及所述第二交互标签与所述第三预测结果之间的差异，对所述第一交互预测网络进行训练时，具体执行如下操作：
[0196]
基于所述第二预测结果与所述第三预测结果之间的差异，确定所述第一交互预测网络对应的第一损失函数；
[0197]
基于所述第二交互标签与所述第三预测结果之间的差异，确定所述第一交互预测网络对应的第二损失函数；
[0198]
基于所述第一损失函数以及所述第二损失函数，确定所述第一交互预测网络对应的目标损失函数；并朝着所述第一交互预测网络对应的目标损失函数收敛的方向调整所述第一交互预测网络的模型参数。
[0199]
在一个实施例中，所述处理器801响应于为待推送对象推送资源的推送请求，调用第一交互预测网络预测所述待推送对象对待推送资源执行目标交互的交互概率时，具体执行如下操作：
[0200]
响应于为所述待推送对象推送资源的推送请求，获取所述待推送资源对应的推送关联数据以及所述待推送对象相关的历史短时交互序列；所述待推送对象相关的历史短时交互序列是自当前时间点起的第二历史时间段内推送至所述待推送对象的；
[0201]
调用所述第一交互预测网络，基于所述待推送资源对应的推送关联数据以及所述待推送对象相关的历史短时交互序列，预测所述交互概率。
[0202]
在一个实施例中，所述处理器801基于所述交互概率确定所述待推送对象与所述待推送资源之间的匹配度时，具体执行如下操作：
[0203]
将所述交互概率确定为所述待推送对象与所述待推送资源之间的匹配度；
[0204]
或者，
[0205]
基于交互概率与匹配度之间的转换规则，将所述交互概率进行匹配度转换处理，得到所述待推送对象与所述待推送资源之间的匹配度。
[0206]
本技术实施例提供了一种计算机程序产品或计算机程序，计算机程序产品包括计算机程序，该计算机程序存储在计算机存储介质中；资源推送设备的处理器从计算机存储介质中读取该计算机程序，处理器执行该计算机程序，使得资源推送设备执行上述如图2、图4以及图6所示的方法实施例。其中，计算机可读存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)或随机存储记忆体(random access memory，ram)等。
[0207]
以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以权利要求的保护范围为准。

技术特征：
1.一种资源推送方法，其特征在于，包括：响应于为待推送对象推送资源的推送请求，调用第一交互预测网络预测所述待推送对象对待推送资源执行目标交互的交互概率；基于所述交互概率确定所述待推送对象与所述待推送资源之间的匹配度；若所述待推送对象与所述待推送资源之间的匹配度符合推送规则，则向所述待推送对象推送所述待推送资源；其中，所述第一交互预测网络是基于第二交互预测网络、第一样本资源以及所述第一样本资源相关的历史短时交互序列进行训练的；所述第二交互预测网络是基于所述第一样本资源以及所述第一样本资源相关的历史长时交互序列进行训练的；所述历史长时交互序列包括所述历史短时交互序列，所述第一交互预测网络和所述第二交互预测网络均用于进行目标交互预测，且所述第一交互预测网络的网络规模小于所述第二交互预测网络的网络规模。2.如权利要求1所述的方法，其特征在于，所述历史长时交互序列包括n个第二样本资源以及n个第一交互标签；所述n个第二样本资源是自目标对象与所述第一样本资源产生交互起的第一历史时间段内推送至所述目标对象的，所述n个第一交互标签与所述n个第二样本资源一一对应，所述n个第一交互标签用于指示所述目标对象与所述n个第二样本资源产生的交互，n为正整数；基于所述第一样本资源以及所述第一样本资源相关的历史长时交互序列对所述第二交互预测网络进行训练，包括：获取所述第一样本资源对应的推送关联数据，所述第一样本资源相关的历史长时交互序以及所述目标对象对所述第一样本资源执行目标交互的第二交互标签；调用所述第二交互预测网络，对所述历史长时交互序列进行特征转换处理，得到所述n个第二样本资源中每个第二样本资源对应的交互特征表示，以及对所述第一样本资源对应的推送关联数据进行特征转换处理，得到所述推送关联数据对应的推送关联特征表示；分别基于所述每个第二样本资源对应的交互特征表示以及所述推送关联数据对应的推送关联特征表示进行交互预测处理，得到所述目标对象对所述第一样本资源执行目标交互的第一预测结果；基于所述第二交互标签与所述第一预测结果之间的差异对所述第二交互预测网络进行训练。3.如权利要求2所述的方法，其特征在于，所述调用所述第二交互预测网络，对所述历史长时交互序列进行特征转换处理，得到所述n个第二样本资源中每个第二样本资源对应的交互特征表示，包括：调用所述第二交互预测网络，对所述每个第二样本资源进行特征嵌入处理，得到所述每个第二样本资源对应的嵌入特征表示；以及对所述n个第一交互标签中每个第一交互标签进行特征嵌入处理，得到所述每个第一交互标签对应的标签特征表示；将所述每个第二样本资源对应的嵌入特征表示与相应的第一交互标签对应的标签特征表示进行拼接处理，得到所述每个第二样本资源对应的交互特征表示。4.如权利要求2所述的方法，其特征在于，所述第一样本资源对应的推送关联数据包括以下数据中的任意一种或多种：所述第一样本资源的资源属性数据、所述目标对象的对象
属性数据以及所述目标对象与所述第一样本资源产生交互时的环境数据；若所述第一样本资源对应的推送关联数据包括所述第一样本资源的资源属性数据，则所述推送关联数据对应的推送关联特征表示包括：对所述第一样本资源的资源属性数据进行特征嵌入处理得到的所述第一样本资源对应的资源特征表示；若所述第一样本资源对应的推送关联数据包括所述目标对象的对象属性数据，则所述推送关联数据对应的推送关联特征表示包括：对所述目标对象的对象属性数据进行特征嵌入处理得到的所述目标对象对应的对象特征表示；若所述第一样本资源对应的推送关联数据包括所述环境数据，则所述推送关联数据对应的推送关联特征表示包括：对所述环境数据进行特征嵌入处理得到的所述环境数据对应的环境特征表示。5.如权利要求4所述的方法，其特征在于，所述第一样本资源对应的推送关联数据包括：所述第一样本资源的资源属性数据、所述目标对象的对象属性数据以及所述环境数据；所述分别基于所述每个第二样本资源对应的交互特征表示以及所述推送关联数据对应的推送关联特征表示进行交互预测处理，得到所述目标对象对所述第一样本资源执行目标交互的第一预测结果，包括：分别对所述每个第二样本资源对应的交互特征表示、所述第一样本资源对应的资源特征表示、所述目标对象对应的对象特征表示以及所述环境数据对应的环境特征表示进行特征提取处理，得到所述历史长时交互序列对应的序列特征提取向量、所述第一样本资源对应的资源特征提取向量、所述目标对象对应的对象特征提取向量以及所述环境数据对应的环境特征提取向量；对所述第一样本资源对应的资源特征提取向量以及所述目标对象对应的对象特征提取向量进行特征交互处理，得到特征交互子向量；将所述历史长时交互序列对应的序列特征提取向量、所述环境数据对应的环境特征提取向量以及所述特征交互子向量进行拼接处理，得到特征交互向量；对所述特征交互向量进行概率预测处理，得到所述第一预测结果。6.如权利要求5所述的方法，其特征在于，所述目标交互为多种交互中的一种或多种；所述对所述第一样本资源对应的资源特征提取向量以及所述目标对象对应的对象特征提取向量进行特征交互处理，得到特征交互子向量，包括：对所述第一样本资源对应的资源特征提取向量以及所述目标对象对应的对象特征提取向量进行向量融合处理，得到向量融合结果；基于所述向量融合结果，预测所述目标对象对所述第一样本资源，执行所述多种交互中每种交互时的交互概率分布；将所述交互概率分布与所述第一样本资源对应的资源特征提取向量进行融合处理，得到所述特征交互子向量。7.如权利要求2所述的方法，其特征在于，所述基于所述第二交互标签与所述第一预测结果之间的差异对所述第二交互预测网络进行训练，包括：基于所述第二交互标签与所述第一预测结果之间的差异，确定所述第二交互预测网络对应的目标损失函数；根据所述第二交互预测网络对应的目标损失函数更新所述每个第二样本资源对应的
交互特征表示，以及更新所述推送关联数据对应的推送关联特征表示。8.如权利要求7所述的方法，其特征在于，所述历史短时交互序列包括m个第三样本资源以及m个第三交互标签；所述m个第三样本资源是自所述目标对象与所述第一样本资源产生交互起的第二历史时间段内推送至所述目标对象的，所述m个第三交互标签与所述m个第三样本资源一一对应，m为小于或等于n的正整数，所述第一历史时间段长于所述第二历史时间段，所述m个第三样本资源属于所述n个第二样本资源；基于所述第二交互预测网络、所述第一样本资源以及所述第一样本资源相关的历史短时交互序列对所述第一交互预测网络进行训练，包括：获取所述m个第三样本资源中，每个第三样本资源对应的交互特征表示，所述每个第三样本资源对应的交互特征表示是从所述每个第二样本资源对应的更新后的交互特征表示中确定出的，以及获取所述推送关联数据对应的更新后的推送关联特征表示；分别调用训练后的第二交互预测网络以及所述第一交互预测网络，分别基于所述每个第三样本资源对应的交互特征表示以及所述推送关联数据对应的更新后的推送关联特征表示进行交互预测处理，得到所述目标对象对所述第一样本资源执行目标交互的第二预测结果以及第三预测结果；基于所述第二预测结果与所述第三预测结果之间的差异，以及所述第二交互标签与所述第三预测结果之间的差异，对所述第一交互预测网络进行训练。9.如权利要求8所述的方法，其特征在于，所述基于所述第二预测结果与所述第三预测结果之间的差异，以及所述第二交互标签与所述第三预测结果之间的差异，对所述第一交互预测网络进行训练，包括：基于所述第二预测结果与所述第三预测结果之间的差异，确定所述第一交互预测网络对应的第一损失函数；基于所述第二交互标签与所述第三预测结果之间的差异，确定所述第一交互预测网络对应的第二损失函数；基于所述第一损失函数以及所述第二损失函数，确定所述第一交互预测网络对应的目标损失函数；并朝着所述第一交互预测网络对应的目标损失函数收敛的方向调整所述第一交互预测网络的模型参数。10.如权利要求1所述的方法，其特征在于，所述响应于为待推送对象推送资源的推送请求，调用第一交互预测网络预测所述待推送对象对待推送资源执行目标交互的交互概率，包括：响应于为所述待推送对象推送资源的推送请求，获取所述待推送资源对应的推送关联数据以及所述待推送对象相关的历史短时交互序列；所述待推送对象相关的历史短时交互序列是自当前时间点起的第二历史时间段内推送至所述待推送对象的；调用所述第一交互预测网络，基于所述待推送资源对应的推送关联数据以及所述待推送对象相关的历史短时交互序列，预测所述交互概率。11.如权利要求1所述的方法，其特征在于，所述基于所述交互概率确定所述待推送对象与所述待推送资源之间的匹配度，包括：将所述交互概率确定为所述待推送对象与所述待推送资源之间的匹配度；或者，
基于交互概率与匹配度之间的转换规则，将所述交互概率进行匹配度转换处理，得到所述待推送对象与所述待推送资源之间的匹配度。12.一种资源推送装置，其特征在于，包括：处理单元，用于响应于为待推送对象推送资源的推送请求，调用第一交互预测网络预测所述待推送对象对待推送资源执行目标交互的交互概率；所述处理单元，还用于基于所述交互概率确定所述待推送对象与所述待推送资源之间的匹配度；输出单元，用于若所述待推送对象与所述待推送资源之间的匹配度符合推送规则，则向所述待推送对象推送所述待推送资源；其中，所述第一交互预测网络是基于第二交互预测网络、第一样本资源以及所述第一样本资源相关的历史短时交互序列进行训练的；所述第二交互预测网络是基于所述第一样本资源以及所述第一样本资源相关的历史长时交互序列进行训练的；所述历史长时交互序列包括所述历史短时交互序列，所述第一交互预测网络和所述第二交互预测网络均用于进行目标交互预测，且所述第一交互预测网络的网络规模小于所述第二交互预测网络的网络规模。13.一种资源推送设备，其特征在于，所述资源推送设备包括输入接口和输出接口，还包括：处理器，适于实现一条或多条指令；以及，计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-11任一项所述的资源推送方法。14.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有计算机程序指令，所述计算机程序指令被处理器执行时，用于执行如权利要求1-11任一项所述的资源推送方法。15.一种计算机程序产品或计算机程序，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时，用于加载并执行如权利要求1-11任一项所述的资源推送方法。

技术总结
本申请公开一种资源推送方法、装置、设备、存储介质及计算机程序产品，该方法包括：调用第一交互预测网络预测待推送对象对待推送资源执行目标交互的交互概率；基于交互概率确定待推送对象与待推送资源之间的匹配度；若该匹配度符合推送规则，则向待推送对象推送待推送资源；第一交互预测网络是基于网络规模更大的第二交互预测网络、第一样本资源以及第一样本资源相关的历史短时交互序列进行训练的；第二交互预测网络是基于第一样本资源以及第一样本资源相关的历史长时交互序列进行训练的，历史长时交互序列包括历史短时交互序列；第一交互预测网络和第二交互预测网络均用于进行目标交互预测；可以同时兼顾资源推送时的推送准确性和推送时效性。确性和推送时效性。确性和推送时效性。

技术研发人员：徐华鹏
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：2022.01.25
技术公布日：2023/8/4

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：代码处理方法、装置、计算机设备及计算机可读存储介质与流程 下一篇：一种物联网设备数据共识方法及装置与流程

资源推送方法、装置、设备、存储介质及计算机程序产品与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

资源推送方法、装置、设备、存储介质及计算机程序产品与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表