基于偏序的内容检索模型训练方法、内容检索方法及装置与流程

未命名 10-19 阅读:97 评论:0


1.本说明书实施例通常涉及人工智能领域,尤其涉及基于偏序的内容检索模型训练方法、内容检索方法及装置。


背景技术:

2.随着人工智能技术的发展,内容检索模型被越来越多地应用来在互联网上进行内容检索。为了确保所检索出的内容的准确性,需要提升内容检索模型的模型训练精度。


技术实现要素:

3.本说明书的实施例提出一种基于偏序的内容检索模型训练方法、内容检索方法及装置。利用该内容检索模型训练方法,通过在训练过程中引入内容匹配的相关性的偏序关系来考虑内容的不同片段对语义匹配贡献度的差异性,可以提升内容检索模型的模型训练精度。
4.根据本说明书实施例的一个方面,提供一种基于偏序的内容检索模型训练方法,包括:提取第一内容和第二内容的全局特征表征和局部特征表征,所述局部特征表征包括对内容进行内容切分而得到的内容片段的内容片段特征表征,所述第一内容是检索基准内容,以及所述第二内容是检索候选内容;通过跨内容特征交互来根据所述第一内容和所述第二内容的局部特征表征生成所述第一内容和所述第二内容的语义偏序表征;以及使用所述第一内容和所述第二内容的全局特征表征和语义偏序表征来对内容检索模型进行基于偏序对比学习的模型训练。
5.可选地,在上述方面的一个示例中,通过跨内容特征交互来根据所述第一内容和所述第二内容的局部特征表征生成所述第一内容和所述第二内容的语义偏序表征可以包括:通过跨内容特征交互确定所述第一内容和所述第二内容的各个内容片段特征表征的片段权重;以及根据内容片段特征表征的片段权重,基于所述第一内容和所述第二内容的局部特征表征生成所述第一内容和所述第二内容的语义偏序表征。
6.可选地,在上述方面的一个示例中,根据内容片段特征表征的片段权重,基于所述第一内容和所述第二内容的局部特征表征生成所述第一内容和所述第二内容的语义偏序表征可以包括:根据内容片段特征表征的片段权重,对所述第一内容和所述第二内容的局部特征表征进行内容片段变换,生成所述第一内容和所述第二内容的语义偏序表征。
7.可选地,在上述方面的一个示例中,根据内容片段特征表征的片段权重,对所述第一内容和所述第二内容的局部特征表征进行内容片段变换,生成所述第一内容和所述第二内容的语义偏序表征包括:根据内容片段特征表征的片段权重,对所述第一内容和所述第二内容的局部特征表征进行内容片段掩盖,生成所述第一内容和所述第二内容的语义偏序表征。
8.可选地,在上述方面的一个示例中,根据内容片段特征表征的片段权重,对所述第一内容和所述第二内容的局部特征表征进行内容片段掩盖,生成所述第一内容和所述第二
内容的语义偏序表征可以包括:根据内容片段特征表征的片段权重,对所述第一内容和所述第二内容的局部特征表征进行基于权重累积占比的内容片段掩盖,生成所述第一内容和所述第二内容的语义偏序表征。
9.可选地,在上述方面的一个示例中,通过跨内容特征交互确定所述第一内容和所述第二内容的各个内容片段特征表征的片段权重可以包括:将所述第一内容和所述第二内容的全局特征表征分别与对方内容的局部特征表征进行特征长度对齐,得到经过特征长度对齐后的全局特征表征;将所述第一内容和所述第二内容的经过特征长度对齐后的全局特征表征分别与对方内容的局部特征表征进行特征拼接,得到经过特征拼接后的局部特征表征;以及根据所述第一内容和所述第二内容的经过特征拼接后的局部特征表征,确定所述第一内容和所述第二内容的各个内容片段特征表征的片段权重。
10.可选地,在上述方面的一个示例中,所述基于偏序对比学习的模型训练所使用的损失函数包括内容匹配损失项和偏序三元组对比损失项。
11.可选地,在上述方面的一个示例中,所述偏序三元组对比损失项包括基于所述第一内容的全局特征表征、所述第二内容的全局特征表征和语义偏序表征的偏序三元组对比损失项。
12.可选地,在上述方面的一个示例中,所述偏序三元组对比损失项包括基于所述第一内容的全局特征表征、所述第二内容的全局特征表征和语义偏序表征的偏序三元组对比损失项、基于所述第一内容的经过加权融合后的全局特征表征、所述第二内容的全局特征表征和语义偏序表征的偏序三元组对比损失项以及基于所述第一内容的经过加权融合后的全局特征表征和语义偏序表征、所述第二内容的全局特征表征的偏序三元组对比损失项。
13.可选地,在上述方面的一个示例中,所述第一内容和所述第二内容的全局特征表征包括原始全局特征表征和经过片段权重加权融合得到的全局特征表征,以及所述第一内容和所述第二内容的语义偏序表征包括经过片段权重加权融合后的语义偏序表征。
14.可选地,在上述方面的一个示例中,所述第二内容的全局特征表征包括与所述第二内容的局部特征表征进行时序聚合后的全局特征表征。
15.可选地,在上述方面的一个示例中,所述第一内容和所述第二内容包括下述内容中的一种:文本内容、图片内容、音频内容和视频内容。
16.根据本说明书的实施例的另一方面,提供一种内容检索方法,包括:经由内容检索模型的特征提取层,提取第一内容和第二内容的全局特征表征,所述第一内容是检索基准内容,以及所述第二内容是检索候选内容,所述内容检索模型按照如上所述的方法训练出;以及经由所述内容检索模型的内容相似匹配层,根据所述第一内容和所述第二内容的全局特征表征确定所述第一内容和所述第二内容的内容相似度来进行内容检索。
17.可选地,在上述方面的一个示例中,所述内容检索模型还包括偏序学习层。经由内容检索模型的特征提取层,提取所述第一内容和所述第二内容的全局特征表征可以包括:经由内容检索模型的特征提取层,提取所述第一内容和所述第二内容的全局特征表征和局部特征表征,所述局部特征表征包括对内容进行内容切分而得到的内容片段的内容片段特征表征。所述内容检索方法还可以包括:经由所述偏序学习层,通过跨内容特征交互来确定所述第一内容和所述第二内容的内容片段特征表征的片段权重,并使用所确定的片段权重
对所述第一内容和所述第二内容的局部特征表征进行加权融合,得到所述第一内容和所述第二内容的经过加权融合后的全局特征表征。经由所述内容检索模型的内容相似匹配层,根据所述第一内容和所述第二内容的全局特征表征确定所述第一内容和所述第二内容的内容相似度来进行内容检索可以包括:经由所述内容检索模型的内容相似匹配层,根据所述第一内容和所述第二内容的全局特征表征以及经过加权融合后的局部特征表征,确定所述第一内容和所述第二内容的内容相似度来进行内容检索。
18.可选地,在上述方面的一个示例中,所述第二内容的全局特征表征包括与所述第二内容的局部特征表征进行时序聚合后的全局特征表征。
19.根据本说明书的实施例的另一方面,提供一种基于偏序的内容检索模型训练装置,包括:特征提取单元,提取第一内容和第二内容的全局特征表征和局部特征表征,所述局部特征表征包括对内容进行内容切分而得到的内容片段的内容片段特征表征,所述第一内容是检索基准内容,以及所述第二内容是检索候选内容;偏序学习单元,通过跨内容特征交互来根据所述第一内容和所述第二内容的局部特征表征生成所述第一内容和所述第二内容的语义偏序表征;以及模型训练单元,使用所述第一内容和所述第二内容的全局特征表征和语义偏序表征来对内容检索模型进行基于偏序对比学习的模型训练。
20.可选地,在上述方面的一个示例中,所述偏序学习单元包括:片段权重确定模块,通过跨内容特征交互确定所述第一内容和所述第二内容的各个内容片段特征表征的片段权重;以及语义偏序表征生成模块,根据内容片段特征表征的片段权重,基于所述第一内容和所述第二内容的局部特征表征生成所述第一内容和所述第二内容的语义偏序表征。
21.可选地,在上述方面的一个示例中,所述语义偏序表征生成模块根据内容片段特征表征的片段权重,对所述第一内容和所述第二内容的局部特征表征进行内容片段变换,生成所述第一内容和所述第二内容的语义偏序表征。
22.可选地,在上述方面的一个示例中,所述片段权重确定模块包括:特征对齐子模块,将所述第一内容和所述第二内容的全局特征表征分别与对方内容的局部特征表征进行特征长度对齐,得到经过特征长度对齐后的全局特征表征;特征拼接子模块,将所述第一内容和所述第二内容的经过特征长度对齐后的全局特征表征分别与对方内容的局部特征表征进行特征拼接,得到经过特征拼接后的局部特征表征;以及片段权重确定子模块,根据所述第一内容和所述第二内容的经过特征拼接后的局部特征表征,确定所述第一内容和所述第二内容的各个内容片段特征表征的片段权重。
23.根据本说明书的实施例的另一方面,提供一种内容检索装置,包括:特征提取单元,经由内容检索模型的特征提取层,提取第一内容和第二内容的全局特征表征,所述第一内容是检索基准内容,以及所述第二内容是检索候选内容,所述内容检索模型按照如上所述的方法训练出;以及内容检索单元,经由所述内容检索模型的内容相似匹配层,根据所述第一内容和所述第二内容的全局特征表征确定所述第一内容和所述第二内容的内容相似度来进行内容检索。
24.可选地,在上述方面的一个示例中,所述内容检索模型还包括偏序学习层。所述特征提取单元经由内容检索模型的特征提取层,提取所述第一内容和所述第二内容的全局特征表征和局部特征表征,所述局部特征表征包括对内容进行内容切分而得到的内容片段的内容片段特征表征。所述内容检索装置还可以包括:加权融合单元,经由所述偏序学习层,
通过跨内容特征交互来确定所述第一内容和所述第二内容的内容片段特征表征的片段权重,并使用所确定的片段权重对所述第一内容和所述第二内容的局部特征表征进行加权融合,得到所述第一内容和所述第二内容的经过加权融合后的全局特征表征。所述内容检索单元经由所述内容检索模型的内容相似匹配层,根据所述第一内容和所述第二内容的全局特征表征以及经过加权融合后的全局特征表征,确定所述第一内容和所述第二内容的内容相似度来进行内容检索。
25.根据本说明书的实施例的另一方面,提供一种基于偏序的内容检索模型训练装置,包括:至少一个处理器;与所述至少一个处理器耦合的存储器;以及存储在所述存储器中的计算机程序,所述至少一个处理器执行所述计算机程序来实现如上所述的基于偏序的内容检索模型训练方法。
26.根据本说明书的实施例的另一方面,提供一种内容检索装置,包括:至少一个处理器;与所述至少一个处理器耦合的存储器;以及存储在所述存储器中的计算机程序,所述至少一个处理器执行所述计算机程序来实现如上所述的内容检索方法。
附图说明
27.通过参照下面的附图,可以实现对于本说明书内容的本质和优点的进一步理解。在附图中,类似组件或特征可以具有相同的附图标记。
28.图1示出了根据本说明书的实施例的内容检索系统的示例架构示意图。
29.图2示出了根据本说明书的实施例的内容检索模型的模型结构的示例示意图。
30.图3示出了根据本说明书的实施例的基于偏序的内容检索模型训练方法的示例流程图。
31.图4示出了根据本说明书的实施例的语义偏序表征生成过程的示例流程图。
32.图5示出了根据本说明书的实施例的片段权重确定过程的示例流程图。
33.图6示出了根据本说明书的实施例的基于累积权重占比的内容片段掩盖的示例示意图。
34.图7示出了根据本说明书的实施例的文本-视频检索模型的模型结构的示例示意图。
35.图8示出了根据本说明书的实施例的文本-视频检索模型的模型训练过程的示例示意图。
36.图9示出了根据本说明书的实施例的语义偏序特征生成过程的示例示意图。
37.图10示出了根据本说明书的实施例的内容检索方法的示例流程图。
38.图11示出了根据本说明书的实施例的内容检索过程的示例示意图。
39.图12示出了根据本说明书的实施例的内容检索模型训练装置的示例方框图。
40.图13示出了根据本说明书的实施例的偏序学习单元单元的示例方框图。
41.图14示出了根据本说明书的实施例的片段权重确定模块的示例方框图。
42.图15示出了根据本说明书的实施例的内容检索装置的示例方框图。
43.图16示出了根据本说明书的实施例的基于计算机系统实现的内容检索模型训练装置的示例示意图。
44.图17示出了根据本说明书的实施例的基于计算机系统实现的内容检索装置的示
例示意图。
具体实施方式
45.现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。例如,所描述的方法可以按照与所描述的顺序不同的顺序来执行,以及各个步骤可以被添加、省略或者组合。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
46.如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
47.随着互联网应用的流行,互联网上的内容数据的数量和类型呈现爆炸式增长。为了实现在海量内容数据中有效地检索出用户感兴趣的内容,提出了基于内容检索模型的内容检索方案。受益于大规模模型预训练技术的发展,现有内容检索模型训练方案主要基于预训练的骨干网络,比如,vit网络、blip网络、clip网络等,同时引入难样本挖掘的对比学习策略来学习基准内容和候选内容的内容特征表征,同时建立多粒度/层级的内容特征语义信息对齐机制。然而,这些内容检索模型训练方案在语义对齐阶段通常给基准内容片段序列/候选内容片段序列的片段分配相同的权重,从而忽略了不同片段对语义匹配任务的贡献度差异,容易引入噪声丢失重要线索。从模型建模上看,现有内容检索模型训练方案没有考虑内容匹配的相关性之间的偏序关系,从而导致缺乏细粒度的建模能力。
48.基于上述分析,提出了一种基于偏序的内容检索模型训练方案。利用该内容检索模型训练方案,通过在训练过程中引入内容匹配的相关性的偏序关系来考虑内容的不同片段对语义匹配贡献度的差异性,可以提升内容检索模型的模型训练精度。
49.下面将参照附图描述根据本说明书的实施例的基于偏序的内容检索模型训练方法及装置以及基于内容检索模型的内容检索方法及装置。
50.图1示出了根据本说明书的实施例的内容检索系统100的示例架构示意图。
51.如图1所示,内容检索系统100包括内容检索模型训练装置110、内容检索模型存储装置120和内容检索装置130。内容检索模型训练装置110、内容检索模型存储装置120和内容检索装置130可以通过网络140相互通信。在一些实施例中,网络140可以是有线网络或无线网络中的任意一种或多种。网络140的示例可以包括但不限于电缆网络、光纤网络、电信网络、企业内部网络、互联网、局域网络(lan)、广域网络(wan)、无线局域网络(wlan)、城域网(man)、公共交换电话网络(pstn)、蓝牙网络、紫蜂网络(zigbee)、近场通讯(nfc)、设备内总线、设备内线路等或其任意组合。在一些实施例中,内容检索模型训练装置110、内容检索模型存储装置120和内容检索装置130中的部分或全部装置可以直接通信,而无需网络140。
52.内容检索模型训练装置110可以基于历史训练样本数据训练出内容检索模型。内
容检索模型训练装置110的模型训练过程将在下面参照附图详细描述。内容检索装置130可以基于所训练出的内容检索模型来进行内容检索。在一些实施例中,内容检索模型训练装置110所训练出的内容检索模型可以存储在内容检索模型存储装置120中。在这种情况下,在内容检索装置130进行对象推荐时,可以从内容检索模型存储装置120获取内容检索模型来进行内容检索,或者与内容检索模型存储装置120进行通信,以将内容检索模型所需信息提供给内容检索模型存储装置120中的内容检索模型来进行内容检索并接收内容检索结果。在一些实施例中,内容检索模型训练装置110可以将所训练出的内容检索模型部署到内容检索装置130中。在内容检索模型训练装置110具有本地存储能力的情况下,也可以将所训练出的内容检索模型存储在本地,从而无需内容检索模型存储装置120。
53.在一些实施例中,内容检索模型可以被实现为具有各种模型结构的神经网络模型。神经网络模型的示例例如可以包括但不限于卷积神经网络(convolution neural network,cnn)、前馈神经网络(feed forward neural network,fnn)、循环神经网络(recurrentneural network)、transformer网络和生成对抗网络(generative adversarial network,gan)等。循环神经网络的示例例如可以包括长短期记忆网络(long short-term memory,lstm)、注意力网络(attention networks)等。
54.图2示出了根据本说明书的实施例的内容检索模型200的示例结构图。如图2所示,内容检索模型200可以包括内容输入层210、特征提取层220和内容相似匹配层230。
55.内容输入层210可以用于接收内容数据或内容特征数据,比如,基准内容和候选内容的内容数据或内容特征数据。内容特征数据可以是内容数据的原始特征数据,比如,属性数据等。这里,基准内容是内容检索时的参考内容,候选内容是供检索内容。例如,如果期望根据第一内容检索出匹配的第二内容,则第一内容为基准内容,以及第二内容是候选内容。在本说明书中,术语“内容”可以包括各种模态的内容,比如,文本内容、图片内容、音频内容、视频内容等。第一内容和第二内容可以具有相同的模态,也可以具有不同的模态。在具有不同的模态时,内容检索也可以称为跨模态内容检索。
56.特征提取层220也可以称为中间层或隐层,用于对输入的内容数据或内容特征数据进行处理,以获取内容数据(或内容特征数据)的特征向量表征(embedding)。特征提取层220可以包括多个中间层。在特征提取层220包括多个中间层的情况下,每个中间层对应一个特征向量表征,该特征向量表征可以称为该中间层的中间特征(intermediate feature)。在一些实施例中,特征提取层可以是深度神经网络,比如cnn、rnn等。特征提取层可以对内容数据或内容特征数据进行处理(如卷积、池化等),获得更加抽象的特征向量表征。所得到的特征向量表征通常具有规定维度。
57.内容相似匹配层230可以将计算基准内容和候选内容的特征向量表征的内容相似度,并基于所计算出的内容相似度来确定候选内容是否与基准内容匹配,由此进行内容检索。在一些实施例中,内容相似匹配层230可以采用多层感知器、全连接层等实现,本实施例对此不作限定。
58.图3示出了根据本说明书的实施例的基于偏序的内容检索模型训练方法300的示例流程图。
59.如图3所示,在310,提取第一内容和第二内容的全局特征表征和局部特征表征。这里,表征也可以称为嵌入(embedding)。局部特征表征可以包括对内容进行内容切分而得到
的内容片段的内容片段特征表征。这里,第一内容是检索基准内容,以及第二内容是检索候选内容。第一内容和第二内容中的每个可以包括多条内容,并且一条第一内容和一条第二内容可以组成一条模型训练样本。每条模型训练样本可以包括第一内容和第二内容的内容特征以及用于指示第二内容是否是第一内容的目标检索内容的标签数据。
60.在一些实施例中,可以将第一内容和第二内容提供给内容检测模型的特征提取层来提取出第一内容和第二内容的全局特征表征和局部特征表征。例如,特征提取层可以采用预训练的网络模型结构实现,比如,使用clip作为骨干网络实现。在第一内容和第二内容是相同模态内容的情况下,特征提取层可以使用相同的网络模型结构实现。在第一内容和第二内容是不同模态内容的情况下,特征提取层可以使用不同的网络模型结构实现。
61.例如,在第一内容为文本内容以及第二内容是视频内容的情况下,即,内容检索模型是文本-视频检索模型,特征抽取层可以包含文本编码器(text encoder,记为g)和视频编码器(video encoder,记为h)。文本编码器和视频编码器都采用预训练的clip网络实现。
62.文本编码器例如可以是transformer编码器,并且可以包括多头注意力网络(multi-head self-attention,mhsa)和前馈神经网络(feed-forwardnetwork,fnn)。例如,文本编码器可以是具有12层和8个注意力头的transformer编码器,并且基准内容和候选内容中的query、key和value的特征都为512维。视频编码器例如可以是具有12层的视频transformer(vit),其结构与自然语言处理中使用的transformer相同。
63.给定文本句子ti和视频vi组成的句子视频对(ti,vi),可以将文本句子ti提供给文本编码器来得到文本句子ti的句子粒度文本表征(全局特征表征)t
cls
∈r1×d和词级文本特征(局部特征表征)t
tokens
=[t1,t2,t3,...,tm]∈rm×d,其中,m是句子的长度(即,所包含的词数目),以及d是特征表征的向量维度。
[0064]
视频vi通过采样(例如每秒1帧的速度)得到帧序列。可以将帧序列提供给视频编码器得到帧级视频特征(全局特征表征)f
cls
=[f0,f1,f2,...,fn]∈rn×d,其中,n是帧数,d是特征表征的向量维度。同时,将每个视频帧i切分为k个视频块(patch),然后编码成细粒度的视频块特征p
tokens
=[p
cls
,p
i,0
,p
i,1
,...,p
i,k
]∈rk×d,其中,k是视频帧所分割出的视频块数量,d是特征表征的向量维度。将各个视频帧的视频块特征p
tokens
组合,得到视频vi的视频块特征表征(局部特征表征)v
tokens

[0065]
由于连续变化的视频帧中的冗余特性,在细粒度的视频块特征p
tokens
中存在许多同构视频块(token)。在一些实施例中,可以执行视频块选择处理(视频token选择处理)来对各个视频帧的视频块特征p
tokens
进行视频块选择,以便每帧选择前k个最有信息量的视频块,由此聚合基本视频块和减少邻居视频块,从而得到视频vi的视频块特征表征(局部特征表征)v
tokens

[0066]
在一些实施例中,视频token选择模块可以采用2层mlp结构其后紧随softmax层的架构实现,用于预测视频块的重要性得分,由此进行视频块选择。视频token选择模块的操作可以表示为:
[0067]vtokens
=tokenselection(p
tokens
)∈rn×k×dꢀꢀꢀ
(1)
[0068]
其中,n是帧数,k是最多信息视频块的数目,以及d是特征表征的向量维度。
[0069]
在一些实施例中,可以利用时序编码器来对每帧视频的帧级视频特征f
cls
和/或视频块特征表征v
tokens
按照时序信息进行时序聚合,由此得到经过时序聚合后的全局视频特
征vh。例如,可以将帧级视频特征f
cls
和/或视频块特征表征v
tokens
提供给时序编码器进行时序编码。时序编码器可以采用具有时序位置嵌入p的3层transformer实现。在将帧级视频特征f
cls
和/或视频块特征表征v
tokens
提供给时序编码器进行时序聚合后,可以得到聚合后的全局视频特征表征vh:
[0070]
vh=transenc(f
cls
+p)∈rn×dꢀꢀꢀ
(2)或
[0071]
vh=transenc(v
tokens
+p)∈rn×dꢀꢀꢀ
(3)
[0072]
其中,n是帧数,以及d是特征表征的向量维度。
[0073]
在一些实施例中,可以将视频token选择模块插入在时序编码器之前,以便在进行时序编码之前,每帧选择前k个最有信息量的视频块。
[0074]
在如上得到第一内容和第二内容的全局特征表征和局部特征表征后,在320,通过跨内容特征交互来根据第一内容和第二内容的局部特征表征生成第一内容和第二内容的语义偏序表征。在本说明书中,内容的语义偏序表征例如是通过对内容特征表征中的一些片段特征表征进行例如掩盖的内容片段变换操作后得到的偏序特征表征。
[0075]
在本说明书中,术语“跨内容特征交互”是指使用一个内容的特征信息作为监督信息来指导另一内容的语义偏序表征生成。例如,可以使用一个内容的特征信息作为监督信息来确定另一内容中的各个内容片段特征表征的片段权重,并基于片段权重来生成对应的语义偏序表征。
[0076]
图4示出了根据本说明书的实施例的语义偏序表征生成过程400的示例流程图。
[0077]
如图4所示,在410,通过跨内容特征交互确定第一内容和第二内容的各个内容片段特征表征的片段权重。
[0078]
图5示出了根据本说明书的实施例的片段权重确定过程500的示例流程图。
[0079]
如图5所示,在510,将第一内容和第二内容的全局特征表征分别与对方内容的局部特征表征进行特征长度对齐,得到经过特征长度对齐后的全局特征表征。
[0080]
在520,将第一内容和第二内容的经过特征长度对齐后的全局特征表征分别与对方内容的局部特征表征进行特征拼接,得到经过特征拼接后的局部特征表征。
[0081]
在530,根据第一内容和第二内容的经过特征拼接后的局部特征表征,确定第一内容和所述第二内容的各个内容片段特征表征的片段权重。
[0082]
下面以文本-视频检索为例,说明内容片段特征表征的片段权重确定过程。
[0083]
为了计算词级文本特征t
tokens
=[t1,t2,t3,...,tm]中的各个单词的片段权重,可以将帧级视频特征f
cls
=[f0,f1,f2,...,fn]经过全联接网络(full connected layers,fc,分类层)后与t
tokens
进行特征长度对齐,即,按照t
tokens
的长度m进行对齐,得f

cls
=[f
′0,f
′1,f
′2,...,f
′m]。然后,与t
tokens
逐词进行向量表征拼接,得到t

tokens
=[t
′0,t
′1,t
′2,...,t
′m],其中,t
′1=[ti,fi′
]。最后,将t

tokens
提供给由全联接层和softmax层组成的权重预测器,得到词级文本特征t
tokens
=[t1,t2,t3,...,tm]中的各个单词的片段权重:
[0084][0085]
同样,利用句子粒度文本表征t
cls
,可以确定视频内容的视频块特征表征中的各个视频块的片段权重;
[0086]
[0087]
其中,v

tokens
=[v
′1,v
′2,...,v

nk
]是视频侧的视频块特征表征按照逐元素拼接方式拼接经过特征长度对齐后的句子粒度文本表征t
cls
的各个对应元素向量而得到的经过特征拼接后的局部特征表征。视频块特征表征中的各个视频块的片段权重确定方式与词级文本特征t
tokens
=[t1,t2,t3,...,tm]中的各个单词的片段权重确定方式完全相同,在此不再描述。
[0088]
回到图4,在如上确定出内容片段特征表征的片段权重后,在420,根据内容片段特征表征的片段权重,基于第一内容和第二内容的局部特征表征生成第一内容和第二内容的语义偏序表征。
[0089]
在一些实施例中,可以根据内容片段特征表征的片段权重,对第一内容和第二内容的局部特征表征进行内容片段变换,生成第一内容和第二内容的语义偏序表征。例如,在一些实施例中,可以按照片段权重从大到小的顺序进行内容片段掩盖,即,先掩盖片段权重较大的内容片段所对应的局部特征表征,后掩盖片段权重较小的内容片段所对应的局部特征表征,直到满足预定条件,比如,达到预定掩盖内容片段数目。在本说明书中,术语“掩盖”是指利用无表征含义或其它表征含义的内容替换局部特征表征中的对应内容片段特征表征,从而使得经过替换后的局部特征表征与原始局部特征表征存在偏差,由此产生偏序性。被替换的内容片段的片段权重越大,则所产生的语义偏序特征与原始局部特征表征的偏差越大,偏序效果越好。
[0090]
在一些实施例中,可以根据内容片段特征表征的片段权重,对第一内容和第二内容的局部特征表征进行基于权重累积占比的内容片段掩盖,生成第一内容和第二内容的语义偏序表征。在基于权重累积占比的内容片段掩盖方式中,设定累积权重占比阈值,然后对内容片段按照片段权重降序排列进行内容掩盖,直到所掩盖的内容片段的片段权重之和达到或超过累积权重占比阈值。
[0091]
图6示出了根据本说明书的实施例的基于累积权重占比的内容片段掩盖的示例示意图。如图6所示,假设内容存在7个片段,并且片段1到片段7所确定出的片段权重分别为0.1,0.15,0.09,0.27,0.05,0.3和0.04,并且累积权重占比阈值为0.7,则需要掩盖片段6、片段4和片段2。
[0092]
在一些实施例中,可以利用自适应token选择器,根据所确定的片段权重对第一内容和第二内容的局部特征表征进行自适应的内容掩盖,进而产生第一内容和第二内容语义偏序表征。例如,在文本-视频检索模型的情况下,可以利用自适应token选择器,根据所确定的片段权重对文本内容和视频内容的局部特征表征进行自适应的单词/视频块掩盖,进而产生文本内容和视频内容的语义偏序表征。
[0093]
例如,在文本-视频检索的场景下,基于对于给定文本的词权重可以计算得到掩盖矩阵其中,给定掩盖阈值τ(默认为0.6),当且仅当按照词权重降序计算直到词ti的累计片段权重小于给定的阈值τ时,的取值为1,否则,的取值为0。
[0094]
利用掩盖矩阵b
t
,可以得到文本内容的语义偏序表征
[0095][0096]
类似地,可以得到视频内容的语义偏序特征
[0097][0098]
在一些实施例中,还可以使用各自的片段权重,对第一内容和第二内容的局部特征表征和语义偏序表征进行片段权重加权融合,由此得到加权融合后的全局特征表征和语义偏序表征。
[0099]
例如,可以利用对文本序列t
tokens
进行加权融合,得到经过跨内容特征交互的文本全局特征表征tg和经过掩盖操作得到的文本内容的语义偏序表征
[0100][0101][0102]
可以利用对视频序列v
tokens
进行加权融合,得到经过跨内容特征交互的视频全局特征表征vg和经过掩盖操作得到的视频内容的语义偏序表征
[0103][0104][0105]
回到图3,在如上得到第一内容和第二内容的全局特征表征和语义偏序表征后,在330,使用第一内容和第二内容的全局特征表征和语义偏序表征来对内容检索模型进行基于偏序对比学习的模型训练。
[0106]
在一些实施例中,基于偏序对比学习的模型训练所使用的损失函数可以包括内容匹配损失项和偏序三元组对比损失项。
[0107]
内容匹配损失项是内容相似度匹配任务所对应的损失项。内容相似度匹配任务是内容检索模型的主任务,即,用于内容检索的任务。
[0108]
在一些实施例中,内容相似度得分可以根据第一内容和第二内容的全局特征表征确定出。例如,针对文本-视频检索任务,给定句子-视频对(ti,vi),句子到视频的语义相似度分数sim(ti,vi)可以定义为:
[0109]
sim(ti,vi)=s(t
cls
,vh)
ꢀꢀꢀ
(12)
[0110]
其中,s(
·

·
)是相似度计算函数,例如,可以采token交互(ti)或加权token交互(wti)方法,也可以采用其他相似度计算函数。
[0111]
在一些实施例中,内容相似度得分可以根据第一内容和第二内容的全局特征表征以及经过加权融合后的全局特征表征确定出。例如,针对文本-视频检索任务,给定句子-视频对(ti,vi),句子到视频的语义相似度分数sim(ti,vi)可以定义为:
[0112]
sim(ti,vi)=s(t
cls
,vh)+s(tg,vg)
ꢀꢀꢀ
(13)。
[0113]
在一些实施例中,内容匹配损失项可以采用对称infonce损失l
negnce

[0114][0115][0116][0117]
在一些实施例中,偏序三元组对比损失项包括基于第一内容的全局特征表征、第
二内容的全局特征表征和语义偏序表征的偏序三元组对比损失项例如,在上述文本-视频检索场景下,
[0118]
在一些实施例中,偏序三元组对比损失项可以包括基于第一内容的全局特征表征、第二内容的全局特征表征和语义偏序表征的偏序三元组对比损失项基于第一内容的经过加权融合后的全局特征表征、第二内容的全局特征表征和语义偏序表征的偏序三元组对比损失项以及基于第一内容的经过加权融合后的全局特征表征和语义偏序表征、第二内容的全局特征表征的偏序三元组对比损失项
[0119]
基于第一内容的经过加权融合后的全局特征表征、第二内容的全局特征表征和语义偏序表征的偏序三元组对比损失项可以被表示为:
[0120][0121]
基于第一内容的经过加权融合后的全局特征表征和语义偏序表征、第二内容的全局特征表征的偏序三元组对比损失项可以被表示为:
[0122][0123]
下面结合文本-视频检索模型来简要说明根据本说明书的实施例的内容检索模型训练过程。
[0124]
图7示出了根据本说明书的实施例的文本-视频检索模型的模型结构的示例示意图。
[0125]
在图7示出的示例中,文本-视频检索模型包括输入层(内容输入层)、特征提取层和内容相似匹配层。特征提取层被实现为针对文本内容的第一内容特征提取层和针对视频内容的第二内容特征提取层。第一内容特征提取层包括文本编码器,以及第二内容特征提取层包括顺序连接的视频编码器、token选择器和时序编码器。内容相似匹配层被实现为相似度计算层。
[0126]
图8示出了根据本说明书的实施例的文本-视频检索模型的模型训练过程的示例示意图。
[0127]
如图8所示,文本ti提供给提供文本编码器,输出句子粒度文本表征(全局特征表征)t
cls
和词级文本特征(局部特征表征)t
tokens
。视频vi提供给提供视频编码器,输出帧级视频特征f
cls
以及细粒度的视频块特征p
tokens
。细粒度的视频块特征p
tokens
经过token选择器后得到局部视频块特征表征v
tokens
。帧级视频特征f
cls
和/或局部视频块特征表征v
tokens
经由时序编码器进行时序编码后,得到视频全局特征表征vh。
[0128]
句子粒度文本表征t
cls
和局部视频块特征表征v
tokens
提供给视频权重预测器,预测得到局部视频块特征表征v
tokens
的各个视频块的视频块权重,以及词级文本特征t
tokens
和帧级视频特征f
cls
提供给文本权重预测器,预测得到词级文本特征t
tokens
中的各个单词的单词权重。然后,将词级文本特征t
tokens
以及对应的单词权重提供给自适应token选择器,得到句子的语义偏序表征将局部视频块特征表征v
tokens
以及对应的视频块权重提供给自适应token选择器,得到视频的语义偏序表征视频的语义偏序表征经过时序编码器后,得到视频的语义偏序特征如图9所示。
[0129]
此外,局部视频块特征表征v
tokens
经过加权融合后得到加权融合后的视频全局特
征表征vg。词级文本特征t
tokens
经过加权融合后得到加权融合后的文本全局特征表征tg。所得到的句子粒度文本表征t
cls
、局部视频块特征表征v
tokens
、帧级视频特征f
cls
、加权融合后的文本全局特征表征tg、加权融合后的视频全局特征表征vg、句子的语义偏序表征和视频的语义偏序特征被提供给相似度计算层来进行相似度度,由此得到内容匹配损失项l
negnce
以及偏序三元组对比损失项和然后,根据内容匹配损失项l
negnce
以及偏序三元组对比损失项和确定总损失函数随后,基于总损失函数l
total
来进行模型参数调整。
[0130]
如上参照图1到图9描述了根据本说明书的实施例的内容检索模型训练过程。所训练出的内容检索模型可以被应用来进行内容检索。
[0131]
图10示出了根据本说明书的实施例的内容检索方法1000的示例流程图。
[0132]
如图10所示,在1010,经由内容检索模型的特征提取层,提取第一内容和第二内容的全局特征表征和局部特征表征。局部特征表征包括对内容进行内容切分而得到的内容片段的内容片段特征表征。
[0133]
在1020,经由内容检索模型的偏序学习层,通过跨内容特征交互来确定第一内容和第二内容的内容片段特征表征的片段权重,并使用所确定的片段权重对第一内容和第二内容的局部特征表征进行加权融合,得到第一内容和第二内容的经过加权融合后的全局特征表征。
[0134]
在1030,经由内容检索模型的内容相似匹配层,根据第一内容和第二内容的全局特征表征以及经过加权融合后的全局特征表征,确定第一内容和第二内容的内容相似度来进行内容检索。
[0135]
可选地,在其它实施例中,也可以不包括1020的操作,并且不提取第一内容和第二内容的局部特征表征。在这种情况下,经由内容检索模型的内容相似匹配层,根据第一内容和第二内容的全局特征表征,确定第一内容和第二内容的内容相似度来进行内容检索。
[0136]
图11示出了根据本说明书的实施例的内容检索过程的示例示意图。
[0137]
如图11所示,文本ti提供给提供文本编码器,输出句子粒度文本表征(全局特征表征)t
cls
和词级文本特征(局部特征表征)t
tokens
。视频vi提供给提供视频编码器,输出帧级视频特征f
cls
以及细粒度的视频块特征p
tokens
。细粒度的视频块特征p
tokens
经过token选择器后得到局部视频块特征表征v
tokens
。帧级视频特征f
cls
和/或局部视频块特征表征v
tokens
经由时序编码器进行时序编码后,得到视频全局特征表征vh。
[0138]
句子粒度文本表征t
cls
和局部视频块特征表征v
tokens
提供给视频权重预测器,预测得到局部视频块特征表征v
tokens
的各个视频块的视频块权重,以及词级文本特征t
tokens
和帧级视频特征f
cls
提供给文本权重预测器,预测得到词级文本特征t
tokens
中的各个单词的单词权重。局部视频块特征表征v
tokens
经过加权融合后得到加权融合后的视频全局特征表征vg。词级文本特征t
tokens
经过加权融合后得到加权融合后的文本全局特征表征tg。
[0139]
所得到的句子粒度文本表征t
cls
、视频的全局特征表征vh、加权融合后的文本全局特征表征tg以及加权融合后的视频全局特征表征vg提供给相似度计算层来进行相似度,并根据所计算出的相似度来进行内容检索决策。
[0140]
图12示出了根据本说明书的实施例的内容检索模型训练装置1200的示例方框图。如图12所示,内容检索模型训练装置1200包括特征提取单元1210、偏序学习单元1220和模型训练单元1230。
[0141]
特征提取单元1210被配置为提取第一内容和第二内容的全局特征表征和局部特征表征,所提取的局部特征表征包括对内容进行内容切分而得到的内容片段的内容片段特征表征。特征提取单元1210的操作可以参考上面参照图3的310描述的操作。
[0142]
偏序学习单元1220被配置为通过跨内容特征交互来根据第一内容和第二内容的局部特征表征生成第一内容和第二内容的语义偏序表征。偏序学习单元1220的操作可以参考上面参照图3的320描述的操作。
[0143]
模型训练单元1230被配置为使用第一内容和第二内容的全局特征表征和语义偏序表征来对内容检索模型进行基于偏序对比学习的模型训练。模型训练单元1330的操作可以参考上面参照图3的330描述的操作。
[0144]
图13示出了根据本说明书的实施例的偏序学习单元1300的示例方框图。如图13所示,偏序学习单元1300包括片段权重确定模块1310和语义偏序表征生成模块1320。
[0145]
片段权重确定模块1310被配置为通过跨内容特征交互确定第一内容和第二内容的各个内容片段特征表征的片段权重。
[0146]
语义偏序表征生成模块1320被配置为根据内容片段特征表征的片段权重,基于第一内容和第二内容的局部特征表征生成第一内容和第二内容的语义偏序表征。
[0147]
在一些实施例中,语义偏序表征生成模块1320可以根据内容片段特征表征的片段权重,对第一内容和第二内容的局部特征表征进行内容片段变换,生成第一内容和第二内容的语义偏序表征。例如,语义偏序表征生成模块1320可以根据内容片段特征表征的片段权重,对第一内容和第二内容的局部特征表征进行内容片段掩盖,生成第一内容和第二内容的语义偏序表征。
[0148]
在一些实施例中,语义偏序表征生成模块1320可以根据内容片段特征表征的片段权重,对第一内容和第二内容的局部特征表征进行基于权重累积占比的内容片段掩盖,生成第一内容和第二内容的语义偏序表征。
[0149]
图14示出了根据本说明书的实施例的片段权重确定模块1400的示例方框图。如图14所示,片段权重确定模块1400可以包括特征对齐子模块1410、特征拼接子模块1420和片段权重确定子模块1430。
[0150]
特征对齐子模块1410被配置为将第一内容和第二内容的全局特征表征分别与对方内容的局部特征表征进行特征长度对齐,得到经过特征长度对齐后的全局特征表征。特征对齐子模块1410的操作可以参考上面参照图5的510描述的操作。
[0151]
特征拼接子模块1420被配置为将第一内容和第二内容的经过特征长度对齐后的全局特征表征分别与对方内容的局部特征表征进行特征拼接,得到经过特征拼接后的局部特征表征。特征拼接子模块1420的操作可以参考上面参照图5的520描述的操作。
[0152]
片段权重确定子模块1430被配置为根据第一内容和第二内容的经过特征拼接后的局部特征表征,确定第一内容和第二内容的各个内容片段特征表征的片段权重。片段权重确定子模块1430的操作可以参考上面参照图5的530描述的操作。
[0153]
图15示出了根据本说明书的实施例的内容检索装置1500的示例方框图。如图15所
示,内容检索装置1500包括特征提取单元1510、加权融合单元1520和内容检索单元1530。
[0154]
特征提取单元1510被配置为经由内容检索模型的特征提取层,提取第一内容和第二内容的全局特征表征和局部特征表征。局部特征表征包括对内容进行内容切分而得到的内容片段的内容片段特征表征。
[0155]
加权融合单元1520被配置为经由内容检索模型的偏序学习层,通过跨内容特征交互来确定第一内容和第二内容的内容片段特征表征的片段权重,并使用所确定的片段权重对第一内容和第二内容的局部特征表征进行加权融合,得到第一内容和第二内容的经过加权融合后的全局特征表征。
[0156]
内容检索单元1530被配置为经由内容检索模型的内容相似匹配层,根据第一内容和第二内容的全局特征表征以及经过加权融合后的全局特征表征,确定第一内容和第二内容的内容相似度来进行内容检索。
[0157]
在一些实施例中,内容检索装置可以不包括加权融合单元。在这种情况下,特征提取单元经由内容检索模型的特征提取层,提取第一内容和第二内容的全局特征表征。然后,内容检索单元经由内容检索模型的内容相似匹配层,根据第一内容和第二内容的全局特征表征确定第一内容和第二内容的内容相似度来进行内容检索。
[0158]
如上参照图1到图15,对根据本说明书实施例的内容检索模型训练方法及内容检索模型训练装置以及内容检索方法及内容检索装置进行了描述。上面的内容检索模型训练装置和内容检索装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合实现。
[0159]
图16示出了根据本说明书的实施例的基于计算机系统实现的内容检索模型训练装置1600的示意图。如图16所示,内容检索模型训练装置1600可以包括至少一个处理器1610、存储器(例如,非易失性存储器)1620、内存1630和通信接口1640,并且至少一个处理器1610、存储器1620、内存1630和通信接口1640经由总线1660连接在一起。至少一个处理器1610执行在存储器中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
[0160]
在一个实施例中,在存储器中存储计算机可执行指令,其当执行时使得至少一个处理器1610:提取第一内容和第二内容的全局特征表征和局部特征表征,局部特征表征包括对内容进行内容切分而得到的内容片段的内容片段特征表征,第一内容是检索基准内容,以及第二内容是检索候选内容;通过跨内容特征交互来根据第一内容和第二内容的局部特征表征生成第一内容和第二内容的语义偏序表征;以及使用第一内容和第二内容的全局特征表征和语义偏序表征来对内容检索模型进行基于偏序对比学习的模型训练。
[0161]
应该理解,在存储器中存储的计算机可执行指令当执行时使得至少一个处理器1610进行本说明书的各个实施例中以上结合图1-图9以及图12-图14描述的各种操作和功能。
[0162]
图17示出了根据本说明书的实施例的基于计算机系统实现的内容检索装置1700的示意图。如图17所示,内容检索装置1700可以包括至少一个处理器1710、存储器(例如,非易失性存储器)1720、内存1730和通信接口1740,并且至少一个处理器1710、存储器1720、内存1730和通信接口1740经由总线1760连接在一起。至少一个处理器1710执行在存储器中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
[0163]
在一个实施例中,在存储器中存储计算机可执行指令,其当执行时使得至少一个
处理器1710:经由内容检索模型的特征提取层,提取第一内容和第二内容的全局特征表征,第一内容是检索基准内容,以及第二内容是检索候选内容,内容检索模型按照如上所述的方法训练出;以及经由内容检索模型的内容相似匹配层,根据第一内容和第二内容的全局特征表征确定第一内容和第二内容的内容相似度来进行内容检索。
[0164]
应该理解,在存储器中存储的计算机可执行指令当执行时使得至少一个处理器1710进行本说明书的各个实施例中以上结合图10-图11以及图15描述的各种操作和功能。
[0165]
根据一个实施例,提供了一种比如机器可读介质(例如,非暂时性机器可读介质)的程序产品。机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本说明书的各个实施例中以上结合图1-图15描述的各种操作和功能。具体地,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
[0166]
在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
[0167]
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如cd-rom、cd-r、cd-rw、dvd-rom、dvd-ram、dvd-rw、dvd-rw)、磁带、非易失性存储卡和rom。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
[0168]
根据一个实施例,提供一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序当被处理器执行时,使得处理器执行本说明书的各个实施例中以上结合图1-图15描述的各种操作和功能。
[0169]
本领域技术人员应当理解,上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此,本发明的保护范围应当由所附的权利要求书来限定。
[0170]
需要说明的是,上述各流程和各系统结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理实体实现,或者,有些单元可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
[0171]
以上各实施例中,硬件单元或模块可以通过机械方式或电气方式实现。例如,一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器,fpga或asic)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器),可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。
[0172]
上面结合附图阐述的具体实施方式描述了示例性实施例,但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
[0173]
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。

技术特征:
1.一种基于偏序的内容检索模型训练方法,包括:提取第一内容和第二内容的全局特征表征和局部特征表征,所述局部特征表征包括对内容进行内容切分而得到的内容片段的内容片段特征表征,所述第一内容是检索基准内容,以及所述第二内容是检索候选内容;通过跨内容特征交互来根据所述第一内容和所述第二内容的局部特征表征生成所述第一内容和所述第二内容的语义偏序表征;以及使用所述第一内容和所述第二内容的全局特征表征和语义偏序表征来对内容检索模型进行基于偏序对比学习的模型训练。2.如权利要求1所述的内容检索模型训练方法,其中,通过跨内容特征交互来根据所述第一内容和所述第二内容的局部特征表征生成所述第一内容和所述第二内容的语义偏序表征包括:通过跨内容特征交互确定所述第一内容和所述第二内容的各个内容片段特征表征的片段权重;以及根据内容片段特征表征的片段权重,基于所述第一内容和所述第二内容的局部特征表征生成所述第一内容和所述第二内容的语义偏序表征。3.如权利要求2所述的内容检索模型训练方法,其中,根据内容片段特征表征的片段权重,基于所述第一内容和所述第二内容的局部特征表征生成所述第一内容和所述第二内容的语义偏序表征包括:根据内容片段特征表征的片段权重,对所述第一内容和所述第二内容的局部特征表征进行内容片段变换,生成所述第一内容和所述第二内容的语义偏序表征。4.如权利要求3所述的内容检索模型训练方法,其中,根据内容片段特征表征的片段权重,对所述第一内容和所述第二内容的局部特征表征进行内容片段变换,生成所述第一内容和所述第二内容的语义偏序表征包括:根据内容片段特征表征的片段权重,对所述第一内容和所述第二内容的局部特征表征进行内容片段掩盖,生成所述第一内容和所述第二内容的语义偏序表征。5.如权利要求4所述的内容检索模型训练方法,其中,根据内容片段特征表征的片段权重,对所述第一内容和所述第二内容的局部特征表征进行内容片段掩盖,生成所述第一内容和所述第二内容的语义偏序表征包括:根据内容片段特征表征的片段权重,对所述第一内容和所述第二内容的局部特征表征进行基于权重累积占比的内容片段掩盖,生成所述第一内容和所述第二内容的语义偏序表征。6.如权利要求2所述的内容检索模型训练方法,其中,通过跨内容特征交互确定所述第一内容和所述第二内容的各个内容片段特征表征的片段权重包括:将所述第一内容和所述第二内容的全局特征表征分别与对方内容的局部特征表征进行特征长度对齐,得到经过特征长度对齐后的全局特征表征;将所述第一内容和所述第二内容的经过特征长度对齐后的全局特征表征分别与对方内容的局部特征表征进行特征拼接,得到经过特征拼接后的局部特征表征;以及根据所述第一内容和所述第二内容的经过特征拼接后的局部特征表征,确定所述第一内容和所述第二内容的各个内容片段特征表征的片段权重。
7.如权利要求1所述的内容检索模型训练方法,其中,所述基于偏序对比学习的模型训练所使用的损失函数包括内容匹配损失项和偏序三元组对比损失项。8.如权利要求1所述的内容检索模型训练方法,其中,所述偏序三元组对比损失项包括基于所述第一内容的全局特征表征、所述第二内容的全局特征表征和语义偏序表征的偏序三元组对比损失项。9.如权利要求8所述的内容检索模型训练方法,其中,所述偏序三元组对比损失项包括基于所述第一内容的全局特征表征、所述第二内容的全局特征表征和语义偏序表征的偏序三元组对比损失项、基于所述第一内容的经过加权融合后的全局特征表征、所述第二内容的全局特征表征和语义偏序表征的偏序三元组对比损失项以及基于所述第一内容的经过加权融合后的全局特征表征和语义偏序表征、所述第二内容的全局特征表征的偏序三元组对比损失项。10.如权利要求2所述内容检索模型训练方法,其中,所述第一内容和所述第二内容的全局特征表征包括原始全局特征表征和经过片段权重加权融合得到的全局特征表征,以及所述第一内容和所述第二内容的语义偏序表征包括经过片段权重加权融合后的语义偏序表征。11.如权利要求1所述的内容检索模型训练方法,其中,所述第二内容的全局特征表征包括与所述第二内容的局部特征表征进行时序聚合后的全局特征表征。12.如权利要求1所述的内容检索模型训练方法,其中,所述第一内容和所述第二内容包括下述内容中的一种:文本内容、图片内容、音频内容和视频内容。13.一种内容检索方法,包括:经由内容检索模型的特征提取层,提取第一内容和第二内容的全局特征表征,所述第一内容是检索基准内容,以及所述第二内容是检索候选内容,所述内容检索模型按照权利要求1到11中任一所述的方法训练出;以及经由所述内容检索模型的内容相似匹配层,根据所述第一内容和所述第二内容的全局特征表征确定所述第一内容和所述第二内容的内容相似度来进行内容检索。14.如权利要求13所述的内容检索方法,其中,所述内容检索模型还包括偏序学习层,经由内容检索模型的特征提取层,提取所述第一内容和所述第二内容的全局特征表征包括:经由内容检索模型的特征提取层,提取所述第一内容和所述第二内容的全局特征表征和局部特征表征,所述局部特征表征包括对内容进行内容切分而得到的内容片段的内容片段特征表征,所述内容检索方法还包括:经由所述偏序学习层,通过跨内容特征交互来确定所述第一内容和所述第二内容的内容片段特征表征的片段权重,并使用所确定的片段权重对所述第一内容和所述第二内容的局部特征表征进行加权融合,得到所述第一内容和所述第二内容的经过加权融合后的全局特征表征,经由所述内容检索模型的内容相似匹配层,根据所述第一内容和所述第二内容的全局特征表征确定所述第一内容和所述第二内容的内容相似度来进行内容检索包括:
经由所述内容检索模型的内容相似匹配层,根据所述第一内容和所述第二内容的全局特征表征以及经过加权融合后的全局特征表征,确定所述第一内容和所述第二内容的内容相似度来进行内容检索。15.如权利要求14所述的内容检索方法,其中,所述第二内容的全局特征表征包括与所述第二内容的局部特征表征进行时序聚合后的全局特征表征。16.一种基于偏序的内容检索模型训练装置,包括:特征提取单元,提取第一内容和第二内容的全局特征表征和局部特征表征,所述局部特征表征包括对内容进行内容切分而得到的内容片段的内容片段特征表征,所述第一内容是检索基准内容,以及所述第二内容是检索候选内容;偏序学习单元,通过跨内容特征交互来根据所述第一内容和所述第二内容的局部特征表征生成所述第一内容和所述第二内容的语义偏序表征;以及模型训练单元,使用所述第一内容和所述第二内容的全局特征表征和语义偏序表征来对内容检索模型进行基于偏序对比学习的模型训练。17.如权利要求16所述的内容检索模型训练装置,其中,所述偏序学习单元包括:片段权重确定模块,通过跨内容特征交互确定所述第一内容和所述第二内容的各个内容片段特征表征的片段权重;以及语义偏序表征生成模块,根据内容片段特征表征的片段权重,基于所述第一内容和所述第二内容的局部特征表征生成所述第一内容和所述第二内容的语义偏序表征。18.如权利要求16所述的内容检索模型训练装置,其中,所述语义偏序表征生成模块根据内容片段特征表征的片段权重,对所述第一内容和所述第二内容的局部特征表征进行内容片段变换,生成所述第一内容和所述第二内容的语义偏序表征。19.如权利要求16所述的内容检索模型训练装置,其中,所述片段权重确定模块包括:特征对齐子模块,将所述第一内容和所述第二内容的全局特征表征分别与对方内容的局部特征表征进行特征长度对齐,得到经过特征长度对齐后的全局特征表征;特征拼接子模块,将所述第一内容和所述第二内容的经过特征长度对齐后的全局特征表征分别与对方内容的局部特征表征进行特征拼接,得到经过特征拼接后的局部特征表征;以及片段权重确定子模块,根据所述第一内容和所述第二内容的经过特征拼接后的局部特征表征,确定所述第一内容和所述第二内容的各个内容片段特征表征的片段权重。20.一种内容检索装置,包括:特征提取单元,经由内容检索模型的特征提取层,提取第一内容和第二内容的全局特征表征,所述第一内容是检索基准内容,以及所述第二内容是检索候选内容,所述内容检索模型按照权利要求1到11中任一所述的方法训练出;以及内容检索单元,经由所述内容检索模型的内容相似匹配层,根据所述第一内容和所述第二内容的全局特征表征确定所述第一内容和所述第二内容的内容相似度来进行内容检索。21.如权利要求20所述的内容检索装置,其中,所述内容检索模型还包括偏序学习层,所述特征提取单元经由内容检索模型的特征提取层,提取所述第一内容和所述第二内容的全局特征表征和局部特征表征,所述局部特征表征包括对内容进行内容切分而得到的内容
片段的内容片段特征表征,所述内容检索装置还包括:加权融合单元,经由所述偏序学习层,通过跨内容特征交互来确定所述第一内容和所述第二内容的内容片段特征表征的片段权重,并使用所确定的片段权重对所述第一内容和所述第二内容的局部特征表征进行加权融合,得到所述第一内容和所述第二内容的经过加权融合后的全局特征表征,所述内容检索单元经由所述内容检索模型的内容相似匹配层,根据所述第一内容和所述第二内容的全局特征表征以及经过加权融合后的全局特征表征,确定所述第一内容和所述第二内容的内容相似度来进行内容检索。22.一种基于偏序的内容检索模型训练装置,包括:至少一个处理器;与所述至少一个处理器耦合的存储器;以及存储在所述存储器中的计算机程序,所述至少一个处理器执行所述计算机程序来实现如权利要求1到12中任一所述的基于偏序的内容检索模型训练方法。23.一种内容检索装置,包括:至少一个处理器;与所述至少一个处理器耦合的存储器;以及存储在所述存储器中的计算机程序,所述至少一个处理器执行所述计算机程序来实现如权利要求13-15中任一所述的内容检索方法。

技术总结
本说明书的实施例提供基于偏序的内容检索模型训练方法、内容检索方法及装置。在进行模型训练时,提取第一内容和第二内容的全局特征表征和局部特征表征,所提取的局部特征表征包括对内容进行内容切分而得到的内容片段的内容片段特征表征。通过跨内容特征交互来根据第一内容和第二内容的局部特征表征生成第一内容和第二内容的语义偏序表征;并且使用第一内容和第二内容的全局特征表征和语义偏序表征来对内容检索模型进行基于偏序对比学习的模型训练。模型训练。模型训练。


技术研发人员:刘洪 蒋晨 俞旭铮 徐家
受保护的技术使用者:支付宝(杭州)信息技术有限公司
技术研发日:2023.07.20
技术公布日:2023/10/15
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐