基于多媒体资源的模型训练方法、装置、设备及存储介质与流程

未命名 07-14 阅读：98 评论：0

1.本技术涉及计算机技术领域，尤其涉及基于多媒体资源的模型训练方法、装置、设备及存储介质。

背景技术：

2.针对数据量小的推荐场景，由于数据量不足，会导致训练出的模型出现欠拟合问题，并且模型的泛化能力较低，容易陷入信息茧房。目前，为了解决数据量不足的难题，通常采用迁移学习(transfer learning)算法和元学习(meta learning)算法，利用其他数据量充足的大数据集来辅助当前小数据集的训练，同时要求两个数据集具有较高的相似性。
3.但是在真实业务中，数据量较大的业务与数据量不足的业务之间的表现具有很大区别，并且两类业务中有交集的用户比例也不大，因此使用迁移学习算法和元学习算法并没有很好的解决模型在数据量小的场景下的欠拟合问题。因此，如何解决模型在数据量小的场景下的欠拟合问题是亟待解决的问题。

技术实现要素：

4.本技术实施例提供了基于多媒体资源的模型训练方法、装置、设备及存储介质，可以解决模型在数据量小的场景下的欠拟合问题，提高模型的泛化能力。
5.一方面，本技术实施例提供了一种基于多媒体资源的模型训练方法，该方法包括：
6.在通过第一模型确定多个训练样本的第一表征向量后，基于该多个训练样本的第一表征向量对该第一模型进行模型优化；一个训练样本包括一个对象特征信息和一个样本多媒体资源，一个训练样本的第一表征向量包括：基于相应对象特征信息得到的对象表征向量，以及基于相应样本多媒体资源得到的资源表征向量；
7.从该多个训练样本中选取目标训练样本，并通过优化后的第一模型确定该目标训练样本的对象表征向量，以及数据库中的各个候选多媒体资源的资源表征向量；
8.基于该各个候选多媒体资源的资源表征向量和该目标训练样本的对象表征向量之间的匹配度，从该数据库中蒸馏出一个或多个候选多媒体资源；
9.分别采用该目标训练样本中的对象特征信息和各个蒸馏出的候选多媒体资源，构建一个或多个蒸馏样本，一个蒸馏样本包含一个蒸馏出的候选多媒体资源；
10.采用各个蒸馏样本和该多个训练样本，对第二模型进行模型训练；其中，该第二模型包括该第一模型或该优化后的第一模型。
11.一方面，本技术实施例提供一种基于多媒体资源的模型训练装置，该装置包括：
12.训练单元，用于在通过第一模型确定多个训练样本的第一表征向量后，基于该多个训练样本的第一表征向量对该第一模型进行模型优化；一个训练样本包括一个对象特征信息和一个样本多媒体资源，一个训练样本的第一表征向量包括：基于相应对象特征信息得到的对象表征向量，以及基于相应样本多媒体资源得到的资源表征向量；
13.该训练单元，还用于从该多个训练样本中选取目标训练样本，并通过优化后的第
一模型确定该目标训练样本的对象表征向量，以及数据库中的各个候选多媒体资源的资源表征向量；
14.蒸馏单元，用于基于该各个候选多媒体资源的资源表征向量和该目标训练样本的对象表征向量之间的匹配度，从该数据库中蒸馏出一个或多个候选多媒体资源；
15.该训练单元，还用于分别采用该目标训练样本中的对象特征信息和各个蒸馏出的候选多媒体资源，构建一个或多个蒸馏样本，一个蒸馏样本包含一个蒸馏出的候选多媒体资源；
16.该训练单元，还用于采用各个蒸馏样本和该多个训练样本，对第二模型进行模型训练；其中，该第二模型包括该第一模型或该优化后的第一模型。
17.一方面，本技术实施例提供一种计算机设备，该计算机设备包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述的基于多媒体资源的模型训练方法。
18.一方面，本技术实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被计算机设备的处理器读取并执行时，使得计算机设备执行上述的基于多媒体资源的模型训练方法。
19.一方面，本技术实施例提供了一种计算机程序产品，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的基于多媒体资源的模型训练方法。
20.本技术实施例在通过第一模型确定多个训练样本的第一表征向量后，可先基于该多个训练样本的第一表征向量对该第一模型进行模型优化，并通过优化后的第一模型确定多个训练样本中的目标训练样本的对象表征向量，以及数据库中的各个候选多媒体资源的资源表征向量。然后，可基于各个候选多媒体资源的资源表征向量和目标训练样本的对象表征向量之间的匹配度，从数据库中蒸馏出一个或多个候选多媒体资源，并采用目标训练样本中的对象特征信息和各个蒸馏出的候选多媒体资源进行样本构建，这样可实现不借助外部数据集，利用自身已有的训练样本构建出更多的蒸馏样本，扩充了原来的训练样本集；从而使得在采用各个蒸馏样本和多个训练样本共同对第二模型进行模型训练时，第二模型可以学习到更多的样本，避免第二模型在数据量较小的场景下的欠拟合问题。并且，通过对数据库进行蒸馏的方式来得到蒸馏样本，可有效提升第二模型的训练样本的多样性，使得用于对第二模型训练的样本不局限于一种类型的样本，这样可在模型训练过程中提高第二模型的泛化能力，使得训练后的第二模型在实际应用中可打破信息茧房效应。
附图说明
21.为了更清楚地说明本技术实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
22.图1a是本技术实施例提供的一种基于多媒体资源的模型训练系统的结构示意图；
23.图1b是本技术实施例提供的另一种基于多媒体资源的模型训练系统的结构示意图；
24.图2是本技术实施例提供的一种基于多媒体资源的模型训练方法的流程示意图；
25.图3是本技术实施例提供的另一种基于多媒体资源的模型训练方法的流程示意图；
26.图4是本技术实施例提供的一种自蒸馏训练的示意图；
27.图5是本技术实施例提供的一种信息推荐界面的示意图；
28.图6是本技术实施例提供的另一种信息推荐界面的示意图；
29.图7是本技术实施例提供的一种基于多媒体资源的模型训练装置的结构示意图；
30.图8是本技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
31.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
32.在本技术实施例中，涉及人工智能(artificial intelligence,ai)技术；所谓的ai是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。具体的，ai技术涉及领域广泛，既有硬件层面的技术也有软件层面的技术；在硬件层面，ai技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术；在软件层面，ai技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
33.其中，机器学习(machine learning,ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习/深度学习通常包括人工神经网络、监督学习、自蒸馏(self distillation)学习等技术。其中，自蒸馏学习是一种知识蒸馏(knowledge distillation)的方法，知识蒸馏指的是将预训练好的教师模型(teacher model)的知识通过蒸馏的方式迁移到学生模型(student model)。自蒸馏是采用有监督学习进行知识蒸馏，从而基于蒸馏出的知识指导自身模型的训练方式；也就是说，自蒸馏过程中所涉及的teacher模型和student模型是一个模型。
34.基于上述所提及的机器学习/深度学习中的自蒸馏技术，本技术实施例提出了一种基于多媒体资源的模型训练方法，以解决模型在数据量小的场景下的欠拟合问题，提高模型的泛化能力。具体的，该基于多媒体资源的模型训练方法的大致原理如下：首先，可通过第一模型确定多个训练样本的第一表征向量，并基于多个训练样本的第一表征向量对第一模型进行模型优化。在得到优化后的第一模型后，可通过优化后的第一模型确定多个训
练样本中的目标训练样本的对象表征向量，以及数据库中各个候选多媒体资源的资源表征向量。然后，可基于各个候选多媒体资源的资源表征向量和目标训练样本的对象表征向量之间的匹配度，从数据库中蒸馏出一个或多个候选多媒体资源；并分别用目标训练样本的对象特征信息和各个蒸馏出的候选多媒体资源，构建一个或多个蒸馏样本。最后，便可采用各个蒸馏样本和多个训练样本对第二模型进行模型训练，此处的第二模型可以是优化前的第一模型，也可以是优化后的第一模型，对此不作限定。
35.在具体实现中，上述所提及的基于多媒体资源的模型训练方法可以由计算机设备执行的，该计算机设备可以是终端设备或服务器。其中，终端设备可以例如是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能车载等，但并不局限于此；服务器可以例如是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发服务器(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
36.或者，上述所提及的基于多媒体资源的模型训练方法可以由终端和服务器共同执行。例如，参见图1a所示：可以先由终端设备通过第一模型确定多个训练样本的第一表征向量，将多个训练样本的第一表征向量发送给服务器。相应的，服务器在接收到多个训练样本的第一表征向量后，可基于多个训练样本的第一表征向量对第一模型进行模型优化，并基于优化后的第一模型执行候选多媒体资源的蒸馏处理，蒸馏样本的构建处理以及第二模型的模型训练等步骤。又如，参见图1b所示：也可以先由终端设备负责通过第一模型确定多个训练样本的第一表征向量，以及基于多个训练样本的第一表征向量对第一模型进行模型优化等处理。此情况下，终端设备可将优化后的第一模型发送至服务器，使得服务器基于优化后的第一模型执行候选多媒体资源的蒸馏处理，蒸馏样本的构建处理以及第二模型的模型训练等步骤。
37.通过本技术实施例，针对数据量不足的模型训练场景，不借助外部数据集，利用自身已有的训练样本构建出更多的蒸馏样本，扩充了原来的训练样本集，从而使得在采用各个蒸馏样本和多个训练样本共同对第二模型进行模型训练时，第二模型可以学习到更多的样本，避免第二模型在数据量较小的场景下的欠拟合问题。并且，通过对数据库进行蒸馏的方式来得到蒸馏样本，可有效提升第二模型的训练样本的多样性，使得用于对第二模型训练的样本不局限于一种类型的样本，这样可在模型训练过程中提高第二模型的泛化能力，使得训练后的第二模型在实际应用中可打破信息茧房效应。
38.可以理解的是，本技术实施例描述的系统架构示意图是为了更加清楚的说明本技术实施例的技术方案，并不构成对于本技术实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本技术实施例提供的技术方案对于类似的技术问题，同样适用。
39.基于上述阐述，下面结合图2所示的流程图，对本技术实施例所提出的基于多媒体资源的模型训练方法作进一步阐述。在本技术实施例中，主要以上述所提及的计算机设备执行该基于多媒体资源的模型训练方法为例进行说明。请参见图2，该基于多媒体资源的模型训练方法具体可以包括步骤s201～s205：
40.s201、在通过第一模型确定多个训练样本的第一表征向量后，基于多个训练样本
的第一表征向量对该第一模型进行模型优化。
41.其中，第一模型可以是指深度神经网络模型，例如深度语义匹配模型(deep structured semantic models，dssm)、深度相关性匹配模型(deep relevance matching model，drmm)等。用于对第一模型进行模型训练的任一训练样本可包括一个对象特征信息和一个样本多媒体资源。任一训练样本中的对象特征信息是指用于表征一个对象的对象特征的信息；此处所提及的对象可以是指用户或其他物体，对象特征可包括但不限于：行为特征、兴趣特征、社交特征等等。任一训练样本中的样本多媒体资源是指作为第一模型的训练样本的多媒体资源，本技术实施例所提及的多媒体资源可以是指文本、声音和图像等多种媒体形式的资源。
42.进一步的，针对任一训练样本而言，其所包括的样本多媒体资源可以是被任一训练样本所对应的对象执行过反馈行为的多媒体资源，也可以是未被任一训练样本所对应的对象执行过反馈行为的多媒体资源。当任一训练样本中的样本多媒体资源被相应的对象执行过反馈行为，则该任一训练样本可称为正训练样本；当任一训练样本中的样本多媒体资源未被相应的对象执行过反馈行为，则该任一训练样本可被称为负训练样本。其中，反馈行为可包括但不限于：点击行为、查看行为、评论行为、点赞行为等。
43.需要说明的是，当对象是用户时，本技术实施例所涉及到对象特征信息、样本多媒体资源等相关的数据，均是经过用户授权后所获取到的。并且，当本技术实施例运用到具体产品或技术中时，所涉及使用到的数据需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
44.在具体实现中，计算机设备可先获取多个训练样本；针对任一训练样本，可调用第一模型对该任一训练样本中的对象特征信息进行向量表示，得到该任一训练样本对应的对象表征向量；以及，调用第一模型对该任一训练样本中的样本多媒体资源进行向量表示，得到该任一训练样本对应的资源表征向量。然后，可采用该任一训练样本对应的对象表征向量和该任一训练样本对应的资源表征向量，构建得到该任一训练样本的第一表征向量。可见，一个训练样本的第一表征向量包括：基于相应对象特征信息得到的对象表征向量，以及基于相应样本多媒体资源得到的资源表征向量。需要说明的是：第一模型在用于对任一信息(如对象特征信息、样本多媒体资源等)进行向量表示时，可具体采用词袋模型(bag of words，bow)、词向量模型(word embedding)等方式实现。
45.进一步的，在得到多个训练样本的第一表征向量后，计算机设备可基于多个训练样本的第一表征向量对该第一模型进行模型优化；具体的，计算机设备可根据每个训练样本的第一表征向量中的对象表征向量和资源表征向量之间的匹配度，计算第一模型的模型损失值，从而根据该第一模型的模型损失值优化第一模型的模型参数。
46.s202、从多个训练样本中选取目标训练样本，并通过优化后的第一模型确定该目标训练样本的对象表征向量，以及数据库中的各个候选多媒体资源的资源表征向量。
47.在具体实现中，计算机设备在从多个训练样本中选取目标训练样本时，可以是随机地从多个训练样本中选取一个训练样本作为目标训练样本。例如，多个训练样本包括训练样本a、训练样本b、训练样本c，可以将训练样本a、训练样本b或训练样本c确定为目标训练样本。
48.由前述可知，多个训练样本中可包括一个或多个正训练样本和一个或多个负训练
样本；那么可选的，此情况下的计算机设备在从多个训练样本中选取目标训练样本时，也可以是从一个或多个正训练样本中，随机选取一个正训练样本作为目标训练样本。由于正训练样本中的样本多媒体资源被相应的对象执行过反馈行为，因此正训练样本中的样本多媒体资源与相应的对象具有关联性，选取正训练样本作为目标训练样本，更有利于提高模型的拟合程度，提高模型的精确性。
49.例如，多个训练样本包括训练样本a、训练样本b、训练样本c，其中，训练样本a和训练样本b为正训练样本，训练样本c为负训练样本，因此可以将训练样本a或训练样本b确定为目标训练样本。
50.在通过上述方式选取出目标训练样本后，计算机设备便可通过优化后的第一模型确定该目标训练样本的对象表征向量；具体的，计算机设备可以调用优化后的第一模型生成目标训练样本的对象表征向量。另外，计算机设备还可从数据库中获取多个候选多媒体资源，并调用优化后的第一模型生成各个候选多媒体资源的资源表征向量。其中，候选多媒体资源是指存储在数据库的多媒体资源。
51.s203、基于各个候选多媒体资源的资源表征向量和目标训练样本的对象表征向量之间的匹配度，从数据库中蒸馏出一个或多个候选多媒体资源。
52.在具体实现中，计算机设备可以采用通过计算各个候选多媒体资源的资源表征向量和目标训练样本的对象表征向量之间的夹角余弦值来评估两者之间的匹配度，也可以通过对各个候选多媒体资源的资源表征向量和目标训练样本的对象表征向量进行内积计算，从而评估出两者之间的匹配度，在此不作限定。
53.计算机设备在根据各个候选多媒体资源的资源表征向量和该目标训练样本的对象表征向量之间的匹配度，从该数据库中蒸馏出一个或多个候选多媒体资源时，可以先将各个候选多媒体资源的资源表征向量和该目标训练样本的对象表征向量之间的匹配度按照从高到低的顺序进行排列，选取前k个匹配度对应的候选多媒体资源作为从该数据库中蒸馏出的一个或多个候选多媒体资源，其中，k为正整数。应当理解的，各个候选多媒体资源的资源表征向量和该目标训练样本的对象表征向量之间的匹配度越高，表示该匹配度对应的候选多媒体资源越接近该目标训练样本的样本多媒体资源，因此通过这样的方式能够从该数据库中蒸馏出与该目标训练样本的样本多媒体资源相近的一个或多个候选多媒体资源，后续利用蒸馏出的候选多媒体资源对模型进行训练，能够提高训练样本的多样性，提高模型的拟合程度。
54.也可以是预先设置一个匹配度阈值，从各个候选多媒体资源的资源表征向量和该目标训练样本的对象表征向量之间的匹配度确定出达到匹配度阈值的匹配度，将达到匹配度阈值的匹配度对应的候选多媒体资源作为从该数据库中蒸馏出的一个或多个候选多媒体资源。
55.s204、分别采用目标训练样本中的对象特征信息和各个蒸馏出的候选多媒体资源，构建一个或多个蒸馏样本。
56.其中，一个蒸馏样本包含一个蒸馏出的候选多媒体资源。相应的，在具体实现中，计算机设备可针对任一蒸馏出的候选多媒体资源，可以采用目标训练样本中的对象特征信息和该任一蒸馏出的候选多媒体资源，构建出一个蒸馏样本。示例性的，训练样本a为目标训练样本，从该数据库中蒸馏出的候选多媒体资源包括候选多媒体资源m和候选多媒体资
源n，因此构建出两个蒸馏样本，分别是蒸馏样本x和蒸馏样本y，其中，蒸馏样本x包括训练样本a中的对象特征信息和候选多媒体资源m，蒸馏样本y包括训练样本a中的对象特征信息和候选多媒体资源n。
57.s205、采用各个蒸馏样本和多个训练样本，对第二模型进行模型训练；其中，该第二模型包括第一模型或优化后的第一模型。
58.在具体实现中，第二模型的训练方式与第一模型的训练方式(优化方式)类似。具体的，第二模型的模型训练原理大致如下：计算机设备针对任一训练样本，可调用第二模型对该任一训练样本中的对象特征信息进行向量表示，得到该任一训练样本对应的对象表征向量；以及，调用第二模型对该任一训练样本中的样本多媒体资源进行向量表示，得到该任一训练样本对应的资源表征向量，一个训练样本的第二表征向量包括：基于相应对象特征信息得到的对象表征向量，以及基于相应样本多媒体资源得到的资源表征向量。同理，计算机设备针对任一蒸馏样本，可调用第二模型对该任一蒸馏样本中的对象特征信息进行向量表示，得到该任一蒸馏样本对应的对象表征向量；以及，调用第二模型对该任一蒸馏样本中的候选多媒体资源进行向量表示，得到该任一训练样本对应的资源表征向量，一个蒸馏样本的第三表征向量包括：基于相应对象特征信息得到的对象表征向量，以及基于相应候选多媒体资源得到的资源表征向量。
59.进一步，在得到多个训练样本的第二表征向量以及各个蒸馏样本的第三表征向量后，计算机设备可基于多个训练样本的第二表征向量以及各个蒸馏样本的第三表征向量对该第二模型进行模型优化；具体的，计算机设备可根据每个训练样本的第二表征向量中的对象表征向量和资源表征向量之间的匹配度，以及每个蒸馏样本的第三表征向量中的对象表征向量和资源表征向量之间的匹配度，计算第二模型的模型损失值，从而根据该第二模型的模型损失值优化第二模型的模型参数。
60.综上所述，在本技术实施例中，在通过第一模型确定多个训练样本的第一表征向量后，基于该多个训练样本的第一表征向量对该第一模型进行模型优化，得到优化后的第一模型；然后从该多个训练样本中选取的目标训练样本，通过优化后的第一模型确定目标训练样本的对象表征向量，并且通过优化后的第一模型确定数据库中的各个候选多媒体资源的资源表征向量；接着基于各个候选多媒体资源的资源表征向量和目标训练样本的对象表征向量之间的匹配度，从数据库中蒸馏出一个或多个候选多媒体资源，并采用目标训练样本中的对象特征信息和各个蒸馏出的候选多媒体资源进行样本构建，这样可实现不借助外部数据集，利用自身已有的训练样本构建出更多的蒸馏样本，扩充了原来的训练样本集；从而使得在采用各个蒸馏样本和多个训练样本共同对第二模型进行模型训练时，第二模型可以学习到更多的样本，避免第二模型在数据量较小的场景下的欠拟合问题。并且，通过对数据库进行蒸馏的方式来得到蒸馏样本，可有效提升第二模型的训练样本的多样性，使得用于对第二模型训练的样本不局限于一种类型的样本，这样可在模型训练过程中提高第二模型的泛化能力，使得训练后的第二模型在实际应用中可打破信息茧房效应。
61.下面结合图3所示的流程图，对本技术实施例所提出的基于多媒体资源的模型训练方法作进一步阐述。在本技术实施例中，主要以上述所提及的计算机设备执行该基于多媒体资源的模型训练方法为例进行说明。请参见图3，该基于多媒体资源的模型训练方法具体可以包括步骤s301～s306，步骤s303和步骤s304是上述步骤s203的一种具体实现方式。
其中：
62.s301、在通过第一模型确定多个训练样本的第一表征向量后，基于多个训练样本的第一表征向量对该第一模型进行模型优化。
63.在本技术实施例中，多个训练样本中包括一个或多个正训练样本和一个或多个负训练样本；正训练样本中的多媒体资源被相应对象特征信息所指示的对象执行过反馈行为，负训练样本中的多媒体资源未被相应对象特征信息所指示的对象执行过反馈行为。示例性的，假设反馈行为包括点击查阅行为，则可以理解为：正训练样本中的多媒体资源被用户点击查阅过，负训练样本中的多媒体资源未被用户点击查阅。在具体实现中，步骤s301的具体实施方式可包括如下步骤s11-s14：
64.s11，计算每个正训练样本的第一表征向量中的对象表征向量，和对应的第一资源表征向量之间的第一匹配度；以及，计算每个负训练样本的第一表征向量中的对象表征向量，和对应的第一资源表征向量之间的第二匹配度。
65.其中，针对任一第一表征向量，计算机设备可采用计算任一第一表征向量中的对象表征向量和资源表征向量之间的夹角余弦值来评估这两个向量之间的匹配度，也可以采用向量内积的计算方式来评估这两个向量之间的匹配度，在此不作限定。
66.s12，遍历训练样本集中的各个正训练样本，并根据当前遍历的当前正训练样本对应的第一匹配度和各个负训练样本对应的第二匹配度，计算该第一模型通过该当前正训练样本产生的损失值。
67.通过归一化指数函数softmax函数可以把第一匹配度转化为后验概率，即正训练样本对应的后验概率。任一正训练样本对应的后验概率是指：基于该任一正训练样本中的对象特征信息，预测出的任一正训练样本中的样本多媒体资源被执行反馈行为的概率。任一正训练样本对应的后验概率可以采用公式(1)计算得到，公式(1)如下所示：
[0068][0069]
其中，q为训练样本的第一表征向量中的对象表征向量，d为训练样本集，d
+
为正训练样本的对象表征向量对应的第一资源表征向量，d-为负训练样本的对象表征向量对应的第一资源表征向量，r(q,d
+
)为正训练样本的第一表征向量中的对象表征向量和对应的第一资源表征向量之间的第一匹配度，r(q,d-)为负训练样本的第一表征向量中的对象表征向量和对应的第一资源表征向量之间的第二匹配度，γ为可训练参数，p(d
+
|q)为任一正训练样本对应的后验概率。
[0070]
进一步，遍历训练样本集中的各个正训练样本，通过极大似然估计来确定最小化损失函数，从而计算出该第一模型通过该当前正训练样本产生的损失值。具体可以采用公式(2)计算得到，公式(2)如下所示：
[0071][0072]
其中，q为训练样本的第一表征向量中的对象表征向量，d
+
为正训练样本的对象表征向量对应的第一资源表征向量，p(d
+
|q)为任一正训练样本对应的后验概率，λ为可训练参数，l(λ)为该第一模型通过该当前正训练样本产生的损失值。
[0073]
s13，在得到该第一模型通过该各个正训练样本产生的损失值后，整合得到的各个
损失值，以得到该第一模型通过该多个训练样本产生的模型损失值。
[0074]
其中，整合该第一模型通过该各个正训练样本产生的各个损失值的方式可以是对各个损失值求平均计算或求和运算，也可以是对各个损失值进行加权或加权求和运算，在此不作限定。
[0075]
需要说明的是，若是采用对各个损失值进行加权或加权求和运算的整合方式，各个损失值的权重可以是预先设定的，各个损失值的权重也可以是根据各个损失值相应的样本多媒体资源被执行反馈行为的时间来确定的，即样本多媒体资源被执行反馈行为的时间与损失值的权重值相对应。应当理解的，样本多媒体资源被执行反馈行为的时间越短，表示执行该反馈行为的对象对该样本多媒体资源的需求度越高，因此各个损失值的权重根据各个损失值相应的样本多媒体资源被执行反馈行为的时间来确定，有利于提高模型的精确度。
[0076]
示例性的，正训练样本a产生的损失值a为0.3，损失值a相应的多媒体资源被执行反馈行为的时间为40ms；正训练样本b产生的损失值b为0.6，损失值a相应的多媒体资源被执行反馈行为的时间为60ms，因此根据损失值a和损失值b相应的多媒体资源被执行反馈行为的时间可以将损失值a对应的权重确定为0.6，将损失值b对应的权重确定为0.4。所以对损失值a和损失值b进行整合后，得到该第一模型通过训练样本a和训练样本b产生的模型损失值为0.42。
[0077]
s14，按照减少该第一模型通过该多个训练样本产生的模型损失值的方向，更新该第一模型的模型参数。
[0078]
其中，更新该第一模型的模型参数的方式可以采用随机梯度下降方法、自适应梯度算法等，在此不作限定。
[0079]
s302、从多个训练样本中选取目标训练样本，并通过优化后的第一模型确定该目标训练样本的对象表征向量，以及数据库中的各个候选多媒体资源的资源表征向量。
[0080]
在本技术实施例中，计算机设备从多个训练样本中选取目标训练样本，具体的实现方式可以是：从该多个训练样本中，筛选出一个或多个正训练样本；从该一个或多个正训练样本中，随机选取一个正训练样本作为目标训练样本。应当理解的，多个训练样本中包括正训练样本和负训练样本，从该多个训练样本中，筛选出一个或多个正训练样本，然后随机选取一个正训练样本作为目标训练样本。示例性的，多个训练样本包括训练样本a、训练样本b、训练样本c和训练样本d，筛选出的正训练样本包括训练样本a和训练样本b。随机选取一个正训练样本作为目标训练样本，例如选取训练样本a作为目标训练样本，或者选取训练样本b作为目标训练样本。
[0081]
s303、按照匹配度从高到低的召回顺序，基于各个候选多媒体资源的资源表征向量和目标训练样本的对象表征向量之间的匹配度，从数据库中召回一个或多个候选多媒体资源。
[0082]
s304、从数据库中蒸馏出召回的各个候选多媒体资源。
[0083]
在本技术实施例中，将各个候选多媒体资源的资源表征向量和该目标训练样本的对象表征向量之间的匹配度按照从高到低的召回顺序进行排列，选取前k个匹配度对应的候选多媒体资源作为从该数据库中蒸馏出的一个或多个候选多媒体资源，然后从该数据库中蒸馏出召回的各个候选多媒体资源。其中，k为正整数。
[0084]
示例性的，k为2，候选多媒体资源1的资源表征向量和该目标训练样本的对象表征向量之间的匹配度为0.3，候选多媒体资源2的资源表征向量和该目标训练样本的对象表征向量之间的匹配度为0.62，候选多媒体资源2的资源表征向量和该目标训练样本的对象表征向量之间的匹配度为0.82。将这些匹配度按照从高到低的召回顺序进行排列，选取前2个匹配度对应的候选多媒体资源作为从该数据库中蒸馏出的一个或多个候选多媒体资源，即从该数据库中召回候选多媒体资源1和候选多媒体资源2，然后从该数据库中蒸馏出召回的候选多媒体资源1和候选多媒体资源2。
[0085]
s305、分别采用目标训练样本中的对象特征信息和各个蒸馏出的候选多媒体资源，构建一个或多个蒸馏样本。
[0086]
其中，步骤s305的具体实现方式与上述步骤s204的具体实现方式相同，在此不作赘述。
[0087]
s306、采用各个蒸馏样本和该多个训练样本，对第二模型进行模型训练；其中，该第二模型包括第一模型或优化后的第一模型。
[0088]
在具体实现中，步骤s306的具体实施方式可包括如下步骤s21-s24：
[0089]
s21，通过第二模型确定多个训练样本的第二表征向量，并根据每个训练样本的第二表征向量确定该第二模型通过该多个训练样本产生的模型损失值。
[0090]
参照上述通过第一模型确定多个训练样本的第一表征向量的实现方式，计算机设备通过第二模型确定多个训练样本的第二表征向量的实现方式可以是：计算机设备针对任一训练样本，可调用第二模型对该任一训练样本中的对象特征信息进行向量表示，得到该任一训练样本对应的对象表征向量；以及，调用第二模型对该任一训练样本中的样本多媒体资源进行向量表示，得到该任一训练样本对应的资源表征向量，一个训练样本的第二表征向量包括：基于相应对象特征信息得到的对象表征向量，以及基于相应样本多媒体资源得到的资源表征向量。
[0091]
参照上述根据每个训练样本的第一表征向量确定该第一模型通过多个训练样本产生的模型损失值的实现方式，计算机设备根据每个训练样本的第二表征向量确定该第二模型通过该多个训练样本产生的模型损失值的实现方式可以是：多个训练样本包括正训练样本和负训练样本，计算每个正训练样本的第二表征向量中的对象表征向量，和对应的第二资源表征向量之间的第三匹配度；以及，计算每个负训练样本的第二表征向量中的对象表征向量，和对应的第二资源表征向量之间的第四匹配度；遍历训练样本集中的各个正训练样本，并根据当前遍历的当前正训练样本对应的第三匹配度和各个负训练样本对应的第四匹配度，计算该第二模型通过该当前正训练样本产生的损失值；在得到该第二模型通过各个正训练样本产生的损失值后，整合得到的各个损失值，以得到该第二模型通过该多个训练样本产生的模型损失值。
[0092]
s22，通过该第二模型确定各个蒸馏样本的第三表征向量，并根据该各个蒸馏样本的第三表征向量计算该第二模型通过该各个蒸馏样本产生的损失值。
[0093]
参照上述通过第一模型确定多个训练样本的第一表征向量的实现方式，计算机设备通过该第二模型确定各个蒸馏样本的第三表征向量的实现方式可以是：计算机设备针对任一蒸馏样本，可调用第二模型对该任一蒸馏样本中的对象特征信息进行向量表示，得到该任一蒸馏样本对应的对象表征向量；以及，调用第二模型对该任一蒸馏样本中的候选多
媒体资源进行向量表示，得到该任一训练样本对应的资源表征向量，一个蒸馏样本的第三表征向量包括：基于相应对象特征信息得到的对象表征向量，以及基于相应候选多媒体资源得到的资源表征向量。
[0094]
参照上述根据每个训练样本的第一表征向量确定该第一模型通过多个训练样本产生的模型损失值的实现方式，计算机设备根据各个蒸馏样本的第三表征向量计算该第二模型通过各个蒸馏样本产生的损失值的实现方式可以是：多个训练样本包括蒸馏样本和负训练样本，计算每个蒸馏样本的第三表征向量中的对象表征向量，和对应的第三资源表征向量之间的第五匹配度；以及，计算每个负训练样本的第三表征向量中的对象表征向量，和对应的第三资源表征向量之间的第六匹配度；遍历训练样本集中的各个蒸馏样本，并根据当前遍历的当前蒸馏样本对应的第五匹配度和各个负训练样本对应的第六匹配度，计算该第二模型通过该当前蒸馏样本产生的损失值；在得到该第二模型通过该各个蒸馏样本产生的损失值后，整合得到的各个损失值，以得到该第二模型通过该各个蒸馏样本产生的模型损失值。
[0095]
s23，确定该各个蒸馏样本的损失权重，并采用该各个蒸馏样本的损失权重对该第二模型通过该各个蒸馏样本产生的损失值进行加权求和，得到该第二模型通过全部蒸馏样本产生的模型损失值。
[0096]
在具体实现中，通过对各个蒸馏样本产生的损失值给予相应的权重，能够减少模型的噪音，提高模型训练的精确度。示例性的，蒸馏样本x的损失权重为0.62，蒸馏样本y的损失权重为0.82，蒸馏样本x的损失值为0.6，蒸馏样本y的损失值为0.3，因此该第二模型通过全部蒸馏样本产生的模型损失值为0.618。
[0097]
在一种可能的实现方式中，计算机设备确定该各个蒸馏样本的损失权重，具体的实现方式可以是：针对任一蒸馏样本，确定该任一蒸馏样本中的候选多媒体资源对应的资源表征向量与该目标训练样本的对象表征向量之间的匹配度；基于确定的匹配度，计算该任一蒸馏样本的损失权重。应当理解的，可以采用第一模型确定出的任一蒸馏样本中的候选多媒体资源对应的资源表征向量与该目标训练样本的对象表征向量之间的匹配度作为任一蒸馏样本的损失权重。
[0098]
示例性的，采用第一模型确定出的蒸馏样本x中的候选多媒体资源对应的资源表征向量为q，该目标训练样本的对象表征向量为p，确定出的蒸馏样本x中的候选多媒体资源对应的资源表征向量与该目标训练样本的对象表征向量之间的匹配度为0.62，因此将蒸馏样本x的损失权重确定为0.62；采用第一模型确定出的蒸馏样本y中的候选多媒体资源对应的资源表征向量为r，该目标训练样本的对象表征向量为t，确定出的蒸馏样本y中的候选多媒体资源对应的资源表征向量与该目标训练样本的对象表征向量之间的匹配度为0.82，因此将蒸馏样本x的损失权重确定为0.82。
[0099]
当然也可以对各个蒸馏样本中的候选多媒体资源对应的资源表征向量与该目标训练样本的对象表征向量之间的匹配度进行归一化处理后，利用各个蒸馏样本的归一化处理后的匹配度作为任一蒸馏样本的损失权重。其中，归一化处理的方式可以采用线性函数转换、对数函数转换等方式，在此不作限定。
[0100]
示例性的，采用第一模型确定出的蒸馏样本x中的候选多媒体资源对应的资源表征向量为q，该目标训练样本的对象表征向量为p，确定出的蒸馏样本x中的候选多媒体资源
对应的资源表征向量与该目标训练样本的对象表征向量之间的匹配度为0.62，采用第一模型确定出的蒸馏样本y中的候选多媒体资源对应的资源表征向量为r，该目标训练样本的对象表征向量为t，确定出的蒸馏样本y中的候选多媒体资源对应的资源表征向量与该目标训练样本的对象表征向量之间的匹配度为0.82。采用线性函数转换的归一化方式对蒸馏样本x对应的匹配度和蒸馏样本y对应的匹配度进行处理，得到：蒸馏样本x对应的归一化后的匹配度为0，蒸馏样本x对应的归一化后的匹配度为1。将各个蒸馏样本的归一化处理后的匹配度作为任一蒸馏样本的损失权重，即蒸馏样本x的损失权重为0，蒸馏样本y的损失权重为1。
[0101]
在一种可能的实现方式中，计算机设备确定该各个蒸馏样本的损失权重，具体的实现方式还可以是：针对任一蒸馏样本，计算该任一蒸馏样本的第三表征向量中的对象表征向量和资源表征向量之间的匹配度；基于计算出的匹配度，计算该任一蒸馏样本的损失权重。
[0102]
示例性的，采用优化后的第一模型确定出的蒸馏样本x中的候选多媒体资源对应的资源表征向量为q’，该目标训练样本的对象表征向量为p’，确定出的蒸馏样本x中的候选多媒体资源对应的资源表征向量与该目标训练样本的对象表征向量之间的匹配度为0.65，因此将蒸馏样本x的损失权重确定为0.65；采用第一模型确定出的蒸馏样本y中的候选多媒体资源对应的资源表征向量为r’，该目标训练样本的对象表征向量为t’，确定出的蒸馏样本y中的候选多媒体资源对应的资源表征向量与该目标训练样本的对象表征向量之间的匹配度为0.85，因此将蒸馏样本x的损失权重确定为0.85。同样，也可以对采用优化后的第一模型确定出的各个蒸馏样本中的候选多媒体资源对应的资源表征向量与该目标训练样本的对象表征向量之间的匹配度进行归一化处理后，利用各个蒸馏样本的归一化处理后的匹配度作为任一蒸馏样本的损失权重，在此不作赘述。
[0103]
在一种可能的实现方式中，计算机设备确定该各个蒸馏样本的损失权重，具体的实现方式还可以是：针对任一蒸馏样本，确定该任一蒸馏样本中的候选多媒体资源与该目标训练样本的对象表征向量之间的第七匹配度；计算该任一蒸馏样本的第三表征向量中的对象表征向量和资源表征向量之间的第八匹配度；基于该第七匹配度的权重和该第八匹配度的权重对该第七匹配度和该第八匹配度进行加权求和，得到目标匹配度；基于该目标匹配度计算该任一蒸馏样本的损失权重。应当理解的，可以采用优化后的第一模型确定出的任一蒸馏样本中的候选多媒体资源对应的资源表征向量与该目标训练样本的对象表征向量之间的匹配度作为任一蒸馏样本的损失权重。应当理解的，对通过上述两种方式确定出的任一蒸馏样本的匹配度进行加权求和，得到目标匹配度，将该目标匹配度作为该任一蒸馏样本的损失权重。
[0104]
示例性的，采用第一模型确定出的蒸馏样本x中的候选多媒体资源对应的资源表征向量与该目标训练样本的对象表征向量之间的第七匹配度为0.62，采用优化后的第一模型确定出的蒸馏样本x中的候选多媒体资源对应的资源表征向量与该目标训练样本的对象表征向量之间的第八匹配度为0.65，第七匹配度对应的权重为0.4，第八匹配度对应的权重为0.6，基于该第七匹配度的权重和该第八匹配度的权重对该第七匹配度和该第八匹配度进行加权求和，得到蒸馏样本x的目标匹配度为0.638，因此将该目标匹配度作为蒸馏样本x的损失权重，即0.638。
[0105]
s24，对该第二模型通过该多个训练样本产生的模型损失值，以及该第二模型通过
全部蒸馏样本所产生的模型损失值进行求和运算，得到该第二模型的总模型损失值。
[0106]
示例性的，第二模型通过该多个训练样本产生的模型损失值为18，第二模型通过全部蒸馏样本所产生的模型损失值为10，第二模型的总模型损失值为第二模型通过该多个训练样本产生的模型损失值与第二模型通过全部蒸馏样本所产生的模型损失值之和，即28。
[0107]
s25，按照减少该总模型损失值的方向，更新该第二模型的模型参数。
[0108]
同样，更新该第二模型的模型参数的方式也可以采用随机梯度下降方法、自适应梯度算法等，在此不作限定。
[0109]
总的来说，通过本技术实施例提出的基于多媒体资源的模型训练方法对模型进行训练，训练后的模型可以用于信息推荐系统中。如图4所示，图4是本技术实施例提供的一种自蒸馏训练的示意图，先采用训练数据集对teacher模型(可以理解为上述的第一模型)进行训练，然后采用teacher模型蒸馏出top k个蒸馏样本，最后利用原先的训练数据集和蒸馏出的top k个蒸馏样本一起训练student模型(可以理解为上述的第二模型)。利用这种自蒸馏的训练方式，可以补充置信度高的蒸馏样本，解决数据量不足的问题，同时也缓解了模型发散性不强且容易陷入信息茧房的问题，也缓解了将用户感兴趣的多媒体资源采样成负样本的情况：首先，由于补充的蒸馏样本是并未真实对用户曝光过的数据，在第二模型训练时，扩展了用户的兴趣范围，缓解了“信息茧房”现象。其次，由于选取了匹配度较高的前k个的用户感兴趣的多媒体资源构建蒸馏样本，那么当随机负采样算法采到这些用户感兴趣的多媒体资源时，由于蒸馏样本都是正训练样本，因此能够起到一定的缓解作用。
[0110]
请参见表1，表1是本技术实施例提供的一种线上召回率指标统计表格，其中，hr@200指标表示在所有测试样本中的第一测试样本与所有测试样本之间的样本比例，第一测试样本的定义如下：在从数据库中召回与任一测试样本中的对象表征信息相匹配的前200个候选多媒体资源后，若该任一测试样本中的样本多媒体资源位于前200个候选多媒体资源中，则该任一测试样本被称为第一测试样本；hr@500指标表示在所有测试样本中的第二测试样本与所有测试样本之间的样本比例，第二测试样本的定义如下：在从数据库中召回与任一测试样本中的对象表征信息相匹配的前500个候选多媒体资源后，若该任一测试样本中的样本多媒体资源位于前500个候选多媒体资源中，则该任一测试样本被称为第二测试样本。由表1可见，只使用原始数据训练的模型，hr@200指标为26.00％，hr@500指标为38.23％；结合自蒸馏技术训练的模型，hr@200指标为27.39％，hr@500指标为40.16％。因此，采用本方案提出的基于多媒体资源的模型训练方法解决了模型在数据量小的场景下的欠拟合问题，提高了模型的拟合程度。
[0111]
表1
[0112]
方案/指标hr@200hr@500只使用原始数据26.00％38.23％结合自蒸馏技术27.39％40.16％
[0113]
请参见表2，表2是本技术实施例提供的一种线上召回种类统计表格，其中，top100召回中出现的种类数表示一个测试样本召回的100个候选多媒体资源的种类数；top3种类集中度表示在一次召回中出现频率最高的3个种类的候选多媒体资源在所有候选多媒体资源中的比例。这两个指标用于衡量模型召回出的候选多媒体资源的多样性。由表2可见，只
使用原始数据训练的模型，top100召回中出现的种类数为7.86，top3种类集中度为58.23％；结合自蒸馏技术训练的模型，top100召回中出现的种类数为10.71，top3种类集中度为43.87％。因此，采用本方案提出的基于多媒体资源的模型训练方法提高了模型的的泛化能力，对用户兴趣进行了拓展，打破信息茧房效应。
[0114]
表2
[0115]
模型/指标top100召回中出现的种类数top3种类集中度只使用原始数据训练的模型7.8658.23％结合自蒸馏技术训练的模型10.7143.87％
[0116]
请参见图5，图5是本技术实施例提供的一种信息推荐界面的示意图。如图4所示，该信息推荐界面包括搜索框、“听书馆”显示框、“大家都在看”显示框、“朋友的想法”按钮、“今日更新”按钮、“朋友赞过”按钮、“免费领取”按钮和“查看全部”按钮。其中，用户可以在搜索框中搜索自己想查看的信息，在“听书馆”显示框中可以看到推荐的作品，通过点击“免费领取”按钮就可查看到该作品的内容，也可以通过点击“查看全部”按钮查看到更多推荐的作品。在“大家都在看”显示框中可以看到推荐的新闻，用户可以通过点击相应的新闻查看到该新闻的具体内容。另外，“朋友的想法”按钮、“今日更新”按钮、“朋友赞过”按钮可以查看到更多推荐的内容。
[0117]
请参见图6，图6是本技术实施例提供的另一种信息推荐界面的示意图。如图5所示，该信息推荐界面包括“热点话题”显示框、“影视爱好者看过”显示框和“推荐”显示框。其中，“热点话题”显示框中显示了当前的热点话题，用户可以通过点击进行查看；“影视爱好者看过”显示框中显示了热门的影视作品，用户可以通过点击进行观看；“推荐”显示框中显示了推荐的新闻，用户可以通过点击进行查看。
[0118]
综上所述，在本技术实施例中，在通过第一模型确定多个训练样本的第一表征向量后，基于该多个训练样本的第一表征向量对该第一模型进行模型优化，得到优化后的第一模型；然后从该多个训练样本中选取的目标训练样本，通过优化后的第一模型确定目标训练样本的对象表征向量，并且通过优化后的第一模型确定数据库中的各个候选多媒体资源的资源表征向量；接着按照匹配度从高到低的召回顺序，根据各个候选多媒体资源的资源表征向量和该目标训练样本的对象表征向量之间的匹配度，从数据库中召回一个或多个候选多媒体资源，并且从该数据库中蒸馏出召回的各个候选多媒体资源；然后采用目标训练样本中的对象特征信息和各个蒸馏出的候选多媒体资源进行样本构建，这样可实现不借助外部数据集，利用自身已有的训练样本构建出更多的蒸馏样本，扩充了原来的训练样本集；从而使得在采用各个蒸馏样本和多个训练样本共同对第二模型进行模型训练时，第二模型可以学习到更多的样本，避免第二模型在数据量较小的场景下的欠拟合问题。并且，通过对数据库进行蒸馏的方式来得到蒸馏样本，可有效提升第二模型的训练样本的多样性，使得用于对第二模型训练的样本不局限于一种类型的样本，这样可在模型训练过程中提高第二模型的泛化能力，使得训练后的第二模型在实际应用中可打破信息茧房效应。
[0119]
基于上述的基于多媒体资源的模型训练方法，本技术实施例提供了一种基于多媒体资源的模型训练装置。请参见图7，是本技术实施例提供的一种基于多媒体资源的模型训练装置的结构示意图，该基于多媒体资源的模型训练装置700可以运行如下单元：
[0120]
训练单元701，用于在通过第一模型确定多个训练样本的第一表征向量后，基于该
多个训练样本的第一表征向量对该第一模型进行模型优化；一个训练样本包括一个对象特征信息和一个样本多媒体资源，一个训练样本的第一表征向量包括：基于相应对象特征信息得到的对象表征向量，以及基于相应样本多媒体资源得到的资源表征向量；
[0121]
该训练单元701，还用于从该多个训练样本中选取目标训练样本，并通过优化后的第一模型确定该目标训练样本的对象表征向量，以及数据库中的各个候选多媒体资源的资源表征向量；
[0122]
蒸馏单元702，用于基于该各个候选多媒体资源的资源表征向量和该目标训练样本的对象表征向量之间的匹配度，从该数据库中蒸馏出一个或多个候选多媒体资源；
[0123]
该训练单元701，还用于分别采用该目标训练样本中的对象特征信息和各个蒸馏出的候选多媒体资源，构建一个或多个蒸馏样本，一个蒸馏样本包含一个蒸馏出的候选多媒体资源；
[0124]
该训练单元701，还用于采用各个蒸馏样本和该多个训练样本，对第二模型进行模型训练；其中，该第二模型包括该第一模型或该优化后的第一模型。
[0125]
在一种实施方式中，蒸馏单元702，在基于该各个候选多媒体资源的资源表征向量和该目标训练样本的对象表征向量之间的匹配度，从该数据库中蒸馏出一个或多个候选多媒体资源时，可具体用于：
[0126]
按照匹配度从高到低的召回顺序，基于该各个候选多媒体资源的资源表征向量和该目标训练样本的对象表征向量之间的匹配度，从该数据库中召回一个或多个候选多媒体资源；
[0127]
从该数据库中蒸馏出召回的各个候选多媒体资源。
[0128]
另一种实施方式中，该多个训练样本包括一个或多个正训练样本和一个或多个负训练样本；正训练样本中的多媒体资源被相应对象特征信息所指示的对象执行过反馈行为，负训练样本中的多媒体资源未被相应对象特征信息所指示的对象执行过反馈行为；训练单元701，在基于该多个训练样本的第一表征向量对该第一模型进行模型优化时，还可具体用于：
[0129]
计算每个正训练样本的第一表征向量中的对象表征向量，和对应的第一资源表征向量之间的第一匹配度；以及，计算每个负训练样本的第一表征向量中的对象表征向量，和对应的第一资源表征向量之间的第二匹配度；
[0130]
遍历训练样本集中的各个正训练样本，并根据当前遍历的当前正训练样本对应的第一匹配度和各个负训练样本对应的第二匹配度，计算该第一模型通过该当前正训练样本产生的损失值；
[0131]
在得到该第一模型通过该各个正训练样本产生的损失值后，整合得到的各个损失值，以得到该第一模型通过该多个训练样本产生的模型损失值；
[0132]
按照减少该第一模型通过该多个训练样本产生的模型损失值的方向，更新该第一模型的模型参数。
[0133]
另一种实施方式中，训练单元701，在从该多个训练样本中选取目标训练样本时，还可具体用于：
[0134]
从该多个训练样本中，筛选出一个或多个正训练样本；
[0135]
从该一个或多个正训练样本中，随机选取一个正训练样本作为目标训练样本。
[0136]
另一种实施方式中，训练单元701，在采用各个蒸馏样本和该多个训练样本，对第二模型进行模型训练时，还可具体用于：
[0137]
通过第二模型确定该多个训练样本的第二表征向量，并根据每个训练样本的第二表征向量确定该第二模型通过该多个训练样本产生的模型损失值；
[0138]
通过该第二模型确定该各个蒸馏样本的第三表征向量，并根据该各个蒸馏样本的第三表征向量计算该第二模型通过该各个蒸馏样本产生的损失值；
[0139]
确定该各个蒸馏样本的损失权重，并采用该各个蒸馏样本的损失权重对该第二模型通过该各个蒸馏样本产生的损失值进行加权求和，得到该第二模型通过全部蒸馏样本产生的模型损失值；
[0140]
对该第二模型通过该多个训练样本产生的模型损失值，以及该第二模型通过全部蒸馏样本所产生的模型损失值进行求和运算，得到该第二模型的总模型损失值；
[0141]
按照减少该总模型损失值的方向，更新该第二模型的模型参数。
[0142]
另一种实施方式中，训练单元701，在确定该各个蒸馏样本的损失权重时，还可具体用于：
[0143]
针对任一蒸馏样本，确定该任一蒸馏样本中的候选多媒体资源对应的资源表征向量与该目标训练样本的对象表征向量之间的匹配度；
[0144]
基于确定的匹配度，计算该任一蒸馏样本的损失权重。
[0145]
另一种实施方式中，训练单元701，在确定该各个蒸馏样本的损失权重时，还可具体用于：
[0146]
针对任一蒸馏样本，计算该任一蒸馏样本的第三表征向量中的对象表征向量和资源表征向量之间的匹配度；
[0147]
基于计算出的匹配度，计算该任一蒸馏样本的损失权重。
[0148]
根据本技术的另一个实施例，图7所示的基于多媒体资源的模型训练装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本技术的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本技术的其它实施例中，基于多媒体资源的模型训练装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。
[0149]
根据本技术的另一个实施例，可以通过在包括中央处理单元(cpu)、随机存取存储介质(ram)、只读存储介质(rom)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2或图3中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图7中所示的基于多媒体资源的模型训练装置，以及来实现本技术实施例的基于多媒体资源的模型训练方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。
[0150]
本技术实施例在通过第一模型确定多个训练样本的第一表征向量后，基于该多个训练样本的第一表征向量对该第一模型进行模型优化；一个训练样本包括一个对象特征信息和一个样本多媒体资源，一个训练样本的第一表征向量包括：基于相应对象特征信息得到的对象表征向量，以及基于相应样本多媒体资源得到的资源表征向量；从该多个训练样
本中选取目标训练样本，并通过优化后的第一模型确定该目标训练样本的对象表征向量，以及数据库中的各个候选多媒体资源的资源表征向量；基于该各个候选多媒体资源的资源表征向量和该目标训练样本的对象表征向量之间的匹配度，从该数据库中蒸馏出一个或多个候选多媒体资源；并采用目标训练样本中的对象特征信息和各个蒸馏出的候选多媒体资源进行样本构建，这样可实现不借助外部数据集，利用自身已有的训练样本构建出更多的蒸馏样本，扩充了原来的训练样本集；从而使得在采用各个蒸馏样本和多个训练样本共同对第二模型进行模型训练时，第二模型可以学习到更多的样本，避免第二模型在数据量较小的场景下的欠拟合问题。并且，通过对数据库进行蒸馏的方式来得到蒸馏样本，可有效提升第二模型的训练样本的多样性，使得用于对第二模型训练的样本不局限于一种类型的样本，这样可在模型训练过程中提高第二模型的泛化能力，使得训练后的第二模型在实际应用中可打破信息茧房效应。
[0151]
基于上述方法实施例以及装置实施例的描述，本技术实施例还提供一种终端。请参见图8，该终端至少包括处理器801、输入接口802、输出接口803以及计算机存储介质804。其中，终端内的处理器801、输入接口802、输出接口803以及计算机存储介质804可通过总线或其他方式连接。计算机存储介质804可以存储在终端的存储器中，所述计算机存储介质804用于存储计算机程序，所述计算机程序包括程序指令，所述处理器801用于执行所述计算机存储介质804存储的程序指令。处理器801(或称cpu(central processing unit，中央处理器))是终端的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。
[0152]
在一个实施例中，本技术实施例所述的处理器801可以用于进行一系列的模型训练，具体包括：在通过第一模型确定多个训练样本的第一表征向量后，基于该多个训练样本的第一表征向量对该第一模型进行模型优化；一个训练样本包括一个对象特征信息和一个样本多媒体资源，一个训练样本的第一表征向量包括：基于相应对象特征信息得到的对象表征向量，以及基于相应样本多媒体资源得到的资源表征向量；从该多个训练样本中选取目标训练样本，并通过优化后的第一模型确定该目标训练样本的对象表征向量，以及数据库中的各个候选多媒体资源的资源表征向量；基于该各个候选多媒体资源的资源表征向量和该目标训练样本的对象表征向量之间的匹配度，从该数据库中蒸馏出一个或多个候选多媒体资源；分别采用该目标训练样本中的对象特征信息和各个蒸馏出的候选多媒体资源，构建一个或多个蒸馏样本，一个蒸馏样本包含一个蒸馏出的候选多媒体资源；采用各个蒸馏样本和该多个训练样本，对第二模型进行模型训练；其中，该第二模型包括该第一模型或该优化后的第一模型，等等。
[0153]
本技术实施例还提供了一种计算机存储介质(memory)，所述计算机存储介质是终端中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括终端中的内置存储介质，当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器801加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速ram存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器的计算机存储介质。
[0154]
在一个实施例中，可由处理器加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关图2或图3所示的基于多媒体资源的模型训练方法实施例中的方法的相应步骤；具体实现中，计算机存储介质中的一条或多条指令由处理器801加载并执行如下步骤：
[0155]
在通过第一模型确定多个训练样本的第一表征向量后，基于该多个训练样本的第一表征向量对该第一模型进行模型优化；一个训练样本包括一个对象特征信息和一个样本多媒体资源，一个训练样本的第一表征向量包括：基于相应对象特征信息得到的对象表征向量，以及基于相应样本多媒体资源得到的资源表征向量；
[0156]
从该多个训练样本中选取目标训练样本，并通过优化后的第一模型确定该目标训练样本的对象表征向量，以及数据库中的各个候选多媒体资源的资源表征向量；
[0157]
基于该各个候选多媒体资源的资源表征向量和该目标训练样本的对象表征向量之间的匹配度，从该数据库中蒸馏出一个或多个候选多媒体资源；
[0158]
分别采用该目标训练样本中的对象特征信息和各个蒸馏出的候选多媒体资源，构建一个或多个蒸馏样本，一个蒸馏样本包含一个蒸馏出的候选多媒体资源；
[0159]
采用各个蒸馏样本和该多个训练样本，对第二模型进行模型训练；其中，该第二模型包括该第一模型或该优化后的第一模型。
[0160]
在一种实施方式中，在基于该各个候选多媒体资源的资源表征向量和该目标训练样本的对象表征向量之间的匹配度，从该数据库中蒸馏出一个或多个候选多媒体资源时，所述一条或多条指令可由处理器加载并具体执行：
[0161]
按照匹配度从高到低的召回顺序，基于该各个候选多媒体资源的资源表征向量和该目标训练样本的对象表征向量之间的匹配度，从该数据库中召回一个或多个候选多媒体资源；从该数据库中蒸馏出召回的各个候选多媒体资源。
[0162]
另一种实施方式中，该多个训练样本包括一个或多个正训练样本和一个或多个负训练样本；正训练样本中的多媒体资源被相应对象特征信息所指示的对象执行过反馈行为，负训练样本中的多媒体资源未被相应对象特征信息所指示的对象执行过反馈行为；在基于该多个训练样本的第一表征向量对该第一模型进行模型优化时，所述一条或多条指令可由处理器加载并具体执行：
[0163]
计算每个正训练样本的第一表征向量中的对象表征向量，和对应的第一资源表征向量之间的第一匹配度；以及，计算每个负训练样本的第一表征向量中的对象表征向量，和对应的第一资源表征向量之间的第二匹配度；
[0164]
遍历训练样本集中的各个正训练样本，并根据当前遍历的当前正训练样本对应的第一匹配度和各个负训练样本对应的第二匹配度，计算该第一模型通过该当前正训练样本产生的损失值；
[0165]
在得到该第一模型通过该各个正训练样本产生的损失值后，整合得到的各个损失值，以得到该第一模型通过该多个训练样本产生的模型损失值；
[0166]
按照减少该第一模型通过该多个训练样本产生的模型损失值的方向，更新该第一模型的模型参数。
[0167]
另一种实施方式中，在从该多个训练样本中选取目标训练样本时，所述一条或多条指令可由处理器加载并具体执行：
[0168]
从该多个训练样本中，筛选出一个或多个正训练样本；从该一个或多个正训练样本中，随机选取一个正训练样本作为目标训练样本。
[0169]
另一种实施方式中，在采用各个蒸馏样本和该多个训练样本，对第二模型进行模型训练时，所述一条或多条指令可由处理器加载并具体执行：
[0170]
通过第二模型确定该多个训练样本的第二表征向量，并根据每个训练样本的第二表征向量确定该第二模型通过该多个训练样本产生的模型损失值；
[0171]
通过该第二模型确定各个蒸馏样本的第三表征向量，并根据该各个蒸馏样本的第三表征向量计算该第二模型通过该各个蒸馏样本产生的损失值；
[0172]
确定各个蒸馏样本的损失权重，并采用该各个蒸馏样本的损失权重对该第二模型通过该各个蒸馏样本产生的损失值进行加权求和，得到该第二模型通过全部蒸馏样本产生的模型损失值；
[0173]
对该第二模型通过该多个训练样本产生的模型损失值，以及该第二模型通过全部蒸馏样本所产生的模型损失值进行求和运算，得到该第二模型的总模型损失值；
[0174]
按照减少该总模型损失值的方向，更新该第二模型的模型参数。
[0175]
另一种实施方式中，在确定各个蒸馏样本的损失权重时，所述一条或多条指令可由处理器加载并具体执行：
[0176]
针对任一蒸馏样本，确定任一蒸馏样本中的候选多媒体资源对应的资源表征向量与该目标训练样本的对象表征向量之间的匹配度；
[0177]
基于确定的匹配度，计算任一蒸馏样本的损失权重。
[0178]
另一种实施方式中，在确定各个蒸馏样本的损失权重时，所述一条或多条指令可由处理器加载并具体执行：
[0179]
针对任一蒸馏样本，计算任一蒸馏样本的第三表征向量中的对象表征向量和资源表征向量之间的匹配度；
[0180]
基于计算出的匹配度，计算任一蒸馏样本的损失权重。
[0181]
本技术实施例在通过第一模型确定多个训练样本的第一表征向量后，基于该多个训练样本的第一表征向量对该第一模型进行模型优化，得到优化后的第一模型；然后从该多个训练样本中选取的目标训练样本，通过优化后的第一模型确定目标训练样本的对象表征向量，并且通过优化后的第一模型确定数据库中的各个候选多媒体资源的资源表征向量；接着按照匹配度从高到低的召回顺序，根据各个候选多媒体资源的资源表征向量和该目标训练样本的对象表征向量之间的匹配度，从数据库中召回一个或多个候选多媒体资源，并且从该数据库中蒸馏出召回的各个候选多媒体资源；然后采用目标训练样本中的对象特征信息和各个蒸馏出的候选多媒体资源进行样本构建，这样可实现不借助外部数据集，利用自身已有的训练样本构建出更多的蒸馏样本，扩充了原来的训练样本集；从而使得在采用各个蒸馏样本和多个训练样本共同对第二模型进行模型训练时，第二模型可以学习到更多的样本，避免第二模型在数据量较小的场景下的欠拟合问题。并且，通过对数据库进行蒸馏的方式来得到蒸馏样本，可有效提升第二模型的训练样本的多样性，使得用于对第二模型训练的样本不局限于一种类型的样本，这样可在模型训练过程中提高第二模型的泛化能力，使得训练后的第二模型在实际应用中可打破信息茧房效应。
[0182]
需要说明的是，根据本技术的一个方面，还提供了一种计算机程序产品或计算机
程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图2或图3所示的基于多媒体资源的模型训练方法实施例方面的各种可选方式中提供的方法。并且，应理解的是，以上所揭露的仅为本技术较佳实施例而已，当然不能以此来限定本技术之权利范围，因此依本技术权利要求所作的等同变化，仍属本技术所涵盖的范围。

技术特征：
1.一种基于多媒体资源的模型训练方法，其特征在于，包括：在通过第一模型确定多个训练样本的第一表征向量后，基于所述多个训练样本的第一表征向量对所述第一模型进行模型优化；一个训练样本包括一个对象特征信息和一个样本多媒体资源，一个训练样本的第一表征向量包括：基于相应对象特征信息得到的对象表征向量，以及基于相应样本多媒体资源得到的资源表征向量；从所述多个训练样本中选取目标训练样本，并通过优化后的第一模型确定所述目标训练样本的对象表征向量，以及数据库中的各个候选多媒体资源的资源表征向量；基于所述各个候选多媒体资源的资源表征向量和所述目标训练样本的对象表征向量之间的匹配度，从所述数据库中蒸馏出一个或多个候选多媒体资源；分别采用所述目标训练样本中的对象特征信息和各个蒸馏出的候选多媒体资源，构建一个或多个蒸馏样本，一个蒸馏样本包含一个蒸馏出的候选多媒体资源；采用各个蒸馏样本和所述多个训练样本，对第二模型进行模型训练；其中，所述第二模型包括所述第一模型或所述优化后的第一模型。2.如权利要求1所述的方法，其特征在于，所述基于所述各个候选多媒体资源的资源表征向量和所述目标训练样本的对象表征向量之间的匹配度，从所述数据库中蒸馏出一个或多个候选多媒体资源，包括：按照匹配度从高到低的召回顺序，基于所述各个候选多媒体资源的资源表征向量和所述目标训练样本的对象表征向量之间的匹配度，从所述数据库中召回一个或多个候选多媒体资源；从所述数据库中蒸馏出召回的各个候选多媒体资源。3.如权利要求1或2所述的方法，其特征在于，所述多个训练样本包括一个或多个正训练样本和一个或多个负训练样本；正训练样本中的多媒体资源被相应对象特征信息所指示的对象执行过反馈行为，负训练样本中的多媒体资源未被相应对象特征信息所指示的对象执行过反馈行为；所述基于所述多个训练样本的第一表征向量对所述第一模型进行模型优化，包括：计算每个正训练样本的第一表征向量中的对象表征向量，和对应的第一资源表征向量之间的第一匹配度；以及，计算每个负训练样本的第一表征向量中的对象表征向量，和对应的第一资源表征向量之间的第二匹配度；遍历训练样本集中的各个正训练样本，并根据当前遍历的当前正训练样本对应的第一匹配度和各个负训练样本对应的第二匹配度，计算所述第一模型通过所述当前正训练样本产生的损失值；在得到所述第一模型通过所述各个正训练样本产生的损失值后，整合得到的各个损失值，以得到所述第一模型通过所述多个训练样本产生的模型损失值；按照减少所述第一模型通过所述多个训练样本产生的模型损失值的方向，更新所述第一模型的模型参数。4.如权利要求3所述的方法，其特征在于，所述从所述多个训练样本中选取目标训练样本，包括：从所述多个训练样本中，筛选出一个或多个正训练样本；从所述一个或多个正训练样本中，随机选取一个正训练样本作为目标训练样本。
5.如权利要求1或2所述的方法，其特征在于，所述采用各个蒸馏样本和所述多个训练样本，对第二模型进行模型训练，包括：通过第二模型确定所述多个训练样本的第二表征向量，并根据每个训练样本的第二表征向量确定所述第二模型通过所述多个训练样本产生的模型损失值；通过所述第二模型确定所述各个蒸馏样本的第三表征向量，并根据所述各个蒸馏样本的第三表征向量计算所述第二模型通过所述各个蒸馏样本产生的损失值；确定所述各个蒸馏样本的损失权重，并采用所述各个蒸馏样本的损失权重对所述第二模型通过所述各个蒸馏样本产生的损失值进行加权求和，得到所述第二模型通过全部蒸馏样本产生的模型损失值；对所述第二模型通过所述多个训练样本产生的模型损失值，以及所述第二模型通过全部蒸馏样本所产生的模型损失值进行求和运算，得到所述第二模型的总模型损失值；按照减少所述总模型损失值的方向，更新所述第二模型的模型参数。6.如权利要求5所述的方法，其特征在于，所述确定所述各个蒸馏样本的损失权重，包括：针对任一蒸馏样本，确定所述任一蒸馏样本中的候选多媒体资源对应的资源表征向量与所述目标训练样本的对象表征向量之间的匹配度；基于确定的匹配度，计算所述任一蒸馏样本的损失权重。7.如权利要求5所述的方法，其特征在于，所述确定所述各个蒸馏样本的损失权重，包括：针对任一蒸馏样本，计算所述任一蒸馏样本的第三表征向量中的对象表征向量和资源表征向量之间的匹配度；基于计算出的匹配度，计算所述任一蒸馏样本的损失权重。8.一种基于多媒体资源的模型训练装置，其特征在于，所述装置包括：训练单元，用于在通过第一模型确定多个训练样本的第一表征向量后，基于所述多个训练样本的第一表征向量对所述第一模型进行模型优化；一个训练样本包括一个对象特征信息和一个样本多媒体资源，一个训练样本的第一表征向量包括：基于相应对象特征信息得到的对象表征向量，以及基于相应样本多媒体资源得到的资源表征向量；所述训练单元，还用于从所述多个训练样本中选取目标训练样本，并通过优化后的第一模型确定所述目标训练样本的对象表征向量，以及数据库中的各个候选多媒体资源的资源表征向量；蒸馏单元，用于基于所述各个候选多媒体资源的资源表征向量和所述目标训练样本的对象表征向量之间的匹配度，从所述数据库中蒸馏出一个或多个候选多媒体资源；所述训练单元，还用于分别采用所述目标训练样本中的对象特征信息和各个蒸馏出的候选多媒体资源，构建一个或多个蒸馏样本，一个蒸馏样本包含一个蒸馏出的候选多媒体资源；所述训练单元，还用于采用各个蒸馏样本和所述多个训练样本，对第二模型进行模型训练；其中，所述第二模型包括所述第一模型或所述优化后的第一模型。9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1
～7任一项所述的基于多媒体资源的模型训练方法。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由处理器加载并执行如权利要求1～7任一项所述的基于多媒体资源的模型训练方法。11.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序适于由处理器加载并执行如权利要求1～7任一项所述的基于多媒体资源的模型训练方法。

技术总结
本申请公开了基于多媒体资源的模型训练方法、装置、设备及存储介质，该方法包括：通过第一模型确定多个训练样本的第一表征向量后，基于多个训练样本的第一表征向量对第一模型进行模型优化；通过优化后的第一模型确定目标训练样本的对象表征向量和数据库中候选多媒体资源的资源表征向量；基于各个候选多媒体资源的资源表征向量和目标训练样本的对象表征向量之间的匹配度，从数据库中蒸馏出一个或多个候选多媒体资源；分别用目标训练样本的对象特征信息和蒸馏出的候选多媒体资源，构建一个或多个蒸馏样本；采用各个蒸馏样本和多个训练样本对第二模型进行模型训练。本申请可以解决模型在数据量小的场景下的欠拟合问题，提高模型的泛化能力。型的泛化能力。型的泛化能力。

技术研发人员：刘冲
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：2021.12.28
技术公布日：2023/7/13

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：手感调整键盘及复合操作钮的制作方法 下一篇：事理溯源图谱构建方法、装置、计算机设备及存储介质与流程

基于多媒体资源的模型训练方法、装置、设备及存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

基于多媒体资源的模型训练方法、装置、设备及存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表