交互模型训练方法及语义检索方法、装置、介质及设备与流程
未命名
08-12
阅读:82
评论:0
1.本技术属于自然语言处理信息检索技术领域,具体而言涉及交互模型训练方法及语义检索方法、装置、介质及设备。
背景技术:
2.信息检索是自然语言处理(nlp)领域的重要任务,信息检索主要涉及对海量的非结构化和半结构化数据进行存储、索引和检索,其目的是帮助用户高效地从海量数据中获取想要的信息或结果,通常情况下从亿级的数据中筛选出一定量满足用户需求的候选,不仅对效果有要求,对效率的要求也十分高。
3.随着神经网络的发展,出现了很多语义检索模型,主要分为两大类:交互编码模型和双编码模型。双编码模型也即双塔模型是通过两个语义模型分别对搜素词条和候选数据进行编码,通过现有相似度算法计算两个向量的相似度,从而召回候选结果。优点是可以离线生成好目标文档库的向量表示,速度比较快,缺点是搜索词条与候选数据缺少交互。交互编码模型也即交互式模型对搜索词条和候选数据进行拼接,通过神经网络后可以学习到搜索词条与目标文档更深层次的相关性。优点是精度较高,但需要在线计算,速度比较慢,不能满足实时性需求。
技术实现要素:
4.鉴于上述的分析,本发明实施例旨在提供一种交互模型训练方法及语义检索方法、装置、介质及设备,用以解决现有语义检索模型存在的时效差和精准度低的问题。
5.本技术第一方面实施例提供一种交互模型的训练方法,包括以下步骤:
6.获取训练数据,所述训练数据包括检索词条和所述检索词条对应的文档检索结果,所述文档检索结果包括相对于所述检索词条的正样本文档和负样本文档;
7.通过检索词条表示模型将所述检索词条转换为词条语义向量表示,通过文档表示模型将所述文档检索结果中的文档转换为文档语义向量表示;
8.将所述词条语义向量表示和所述文档语义向量表示拼接后形成交互表示并输入交互模型以获得所述检索词条和所述文档的相关度分析结果;
9.基于所述相关度分析结果和所述文档所属的样本类别之间的差异确定损失值,基于所述损失值对所述交互模型进行训练,训练得到的所述交互模型用于分析所述文档表示和所述检索词条表示之间的相关度。
10.在一些实施例中,所述获取训练数据,包括:
11.基于文档检索系统日志,获取用户检索词表,所述用户检索词表包括若干所述检索词条;
12.基于bm25算法和所述检索词条对文档库进行采样,生成对应所述检索词条的所述正样本文档和所述负样本文档,其中所述正样本文档和所述负样本文档的比例介于2:3~4:1。
13.在一些实施例中,所述通过文档表示模型将所述文档检索结果中的文档转换为文档语义向量表示,包括:
14.对所述文档进行分块预处理,以获得若干分块文本信息[text];
[0015]
将定长l的[mask]序列与所述分块文本信息[text]拼接,以获得拼接信息[msak][mask]
…
[mask][text];
[0016]
将所述拼接信息输入预训练模型以使得所述[msak]序列学习到所述分块文本信息的语义信息;
[0017]
以所述预训练模型的输出s
mask
={[mask0,[mask1…
[mask
l
}作为所述文档语义向量表示,其中所述定长l根据所述交互模型的运算效果反馈优化确定。
[0018]
在一些实施例中,所述将所述词条语义向量表示和所述文档语义向量表示拼接后形成交互表示并输入交互模型以获得所述检索词条和所述文档的相关度分析结果,包括:
[0019]
将所述词条语义向量表示和所述文档语义向量表示进行拼接以获得交互序列;
[0020]
将所述交互序列输入多头注意力层以获得结果表示,所述结果表示;
[0021]
将所述结果表示通过平均池化以生成交互序列最终表示;
[0022]
将所述交互序列最终表示输入softmax层以获得所述检索词条和所述文档的相关度分析结果。
[0023]
本技术第二方面实施例提供一种语义检索方法,包括以下步骤:
[0024]
通过文档表示模型将若干文档转化为对应的文档语义向量表示;
[0025]
通过检索词条表示模型将检索词条转化为词条语义向量表示;
[0026]
通过交互模型将所述文档语义向量表示和所述词条语义向量表示进行交互计算以获得所述检索词条表示和至少部分所述文档表示之间的相关度。
[0027]
在一些实施例中,所述文档语义向量表示为通过所述文档表示模型预先离线状态下形成的,并且被存储于文档表示库中;
[0028]
所述交互模型调用所述文档表示库,以进行与所述词条语义向量表示的交互计算。
[0029]
在一些实施例中,还包括:根据所述相关度对所述文档语义向量表示对应的文档进行降序排序,依据文档排序输出检索结果列表。
[0030]
本技术第三方面实施例提供一种交互模型训练装置,包括:
[0031]
数据获取模块,用于获取训练数据,所述训练数据包括检索词条和所述检索词条对应的文档检索结果,所述文档检索结果包括相对于所述检索词条的正样本文档和负样本文档;
[0032]
表示转化模块,通过检索词条表示模型将所述检索词条转换为词条语义向量表示,通过文档表示模型将所述文档检索结果中的文档转换为文档语义向量表示;
[0033]
相关度交互分析模块,将所述词条语义向量表示和所述文档语义向量表示拼接后形成交互表示并输入交互模型以获得所述检索词条和所述文档的相关度分析结果;
[0034]
训练模块,基于所述相关度分析结果和所述文档所属的样本类别之间的差异确定损失值,基于所述损失值对所述交互模型进行训练,训练得到的所述交互模型用于分析所述文档表示和所述检索词条表示之间的相关度。
[0035]
本技术第四方面实施例提供一种语义检索装置,包括:
[0036]
文档表示模块,通过文档表示模型将若干文档转化为对应的文档语义向量表示;
[0037]
检索词条表示模块,通过检索词条表示模型将检索词条转化为词条语义向量表示;
[0038]
交互模块,通过交互模型将所述文档语义向量表示和所述词条语义向量表示进行交互计算以获得所述检索词条表示和至少部分所述文档表示之间的相关度。
[0039]
本技术第五方面实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现如上任一实施例所述的交互模型的训练方法或者如上任一实施例所述的语义检索方法。
[0040]
本技术第六方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一实施例所述的交互模型的训练方法或者如上任一实施例所述的语义检索方法。
[0041]
本技术实施例至少具有以下有益效果:
[0042]
1、本发明通过对文档表示和检索词条表示进行拼接后采用交互模型对二者进行相关度计算,然后通过与文档所属类别的损失比较对交互模型进行优化训练,使得模型学习到对文档和检索词条在语义层面进行交互相关度分析能力。
[0043]
2、在语义检索任务中,本发明可以分别对检索词条和文档转换成相应的语义向量表示,然后通过交互模型对二者进行相关度计算,从而使得本发明兼容双塔模型的效率的同时在精度上不逊于现有的交互编码模型。
[0044]
3、由于检索对象可能是篇幅较长的文档,本发明对文档进行分块,然后通过[mask]序列对文档分块进行语义向量表示,有利于根据文档上下文之间的关系提高对于文档表示的信息丰富度,进而提高检索精度。
附图说明
[0045]
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0046]
图1为本发明提供的一种交互模型的训练方法流程示意图;
[0047]
图2为本发明实施例相关度交互分析流程示意图;
[0048]
图3为本发明提供的一种语义检索方法流程示意图;
[0049]
图4为本发明提供的一种交互模型训练装置架构示意图;
[0050]
图5为本发明实施例训练系统架构示意图;
[0051]
图6为本发明实施例训练系统流程示意图;
[0052]
图7为本发明提供的语义检索装置架构示意图;
[0053]
图8为本发明提供的电子设备架构示意图。
具体实施方式
[0054]
为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是
本技术一部分实施例,而不是全部的实施例。需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合、分离、互换和/或重新布置。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0055]
这里使用的术语是为了描述具体实施例的目的,而不意图是限制性的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
[0056]
本技术实施例以学术文本(如论文、专利等)为检索系统为目标,提出以下具体实施例。
[0057]
本技术第一方面实施例提供一种交互模型的训练方法,如图1所示,包括以下步骤:
[0058]
获取训练数据,所述训练数据包括检索词条和所述检索词条对应的文档检索结果,所述文档检索结果包括相对于所述检索词条的正样本文档和负样本文档;
[0059]
通过检索词条表示模型将所述检索词条转换为词条语义向量表示,通过文档表示模型将所述文档检索结果中的文档转换为文档语义向量表示;
[0060]
将所述词条语义向量表示和所述文档语义向量表示拼接后形成交互表示并输入交互模型以获得所述检索词条和所述文档的相关度分析结果;
[0061]
基于所述相关度分析结果和所述文档所属的样本类别之间的差异确定损失值,基于所述损失值对所述交互模型进行训练,训练得到的所述交互模型用于分析所述文档表示和所述检索词条表示之间的相关度。
[0062]
应当理解的是,本实施例中所提到的转换为语义向量表示指的是将文本转化为适用于模型计算的语义向量表示,并非限定转换结果一定是单个向量,其有可能是若干向量的集合。
[0063]
在一些实施例中,所述获取训练数据,包括:
[0064]
基于文档检索系统日志,获取用户检索词表,所述用户检索词表包括若干所述检索词条;
[0065]
基于bm25算法和所述检索词条对文档库进行采样,生成对应所述检索词条的所述正样本文档和所述负样本文档,其中所述正样本文档和所述负样本文档的比例介于2:3~4:1。
[0066]
具体地,以下实例以神经网络常用的attention模型结构为例进行说明,但不局限于此模型。
[0067]
首先,基于学术文本检索系统日志,筛选获取一定数量的用户检索词表。用于排序学习的grand truth集合有多种方式获取,由于人工标注成本较高,在搜索领域常用方式之一为展示列表中用户点击结果为正样本集合,未点击数据为负样本集合。本实施例基于
bm25算法与检索词条对目标论文库进行采样,对应生成每个检索词条的正样本与负样本,正负样本比例优选为3:2,作为训练数据。
[0068]
优选地,通过检索词条表示模型将所述检索词条转换为词条语义向量表示包括:使用前文所得到的用户检索词条,考虑到检索词条长度一般较短,这里直接使用[cls]的表示作为搜索词条的向量表示,因此使用[cls]作为检索词条向量表示。通过输入bert系模型获得。bert底层为注意力模型,模型输入为句首标识[cls]+文本向量表示。[cls]与检索词条文本向量中每一个token进行注意力的计算,其隐藏层表示或者说bert的输出[cls]语义向量可作为词条语义向量表示。该实施例中的检索词条表示模型理解为bert模型,但应当理解的是本发明的构思并不局限于此模型。
[0069]
优选地,在一些实施例中,所述通过文档表示模型将所述文档检索结果中的文档转换为文档语义向量表示,包括:
[0070]
对所述文档进行分块预处理,以获得若干分块文本信息[text]。
[0071]
将定长l的[mask]序列与所述分块文本信息[text]拼接,以获得拼接信息[msak][mask]
…
[mask][text]。
[0072]
将所述拼接信息输入预训练模型以使得所述[msak]序列学习到所述分块文本信息的语义信息。
[0073]
以所述预训练模型的输出s
mask
={[mask0,[mask1…
[mask
l
}作为所述文档语义向量表示,其中所述定长l根据所述交互模型的运算效果反馈优化确定,具体为通过固定模型其他初始参数的情况下,使用不同取值的l进行模型训练,对比模型的结果指标,从而选取确定最优l值。
[0074]
具体地,考虑到文档可能是超长文本,本实施例首先对文档进行分块预处理形成若干分块文本信息[text],如标题信息、机构作者信息、摘要信息、其他信息等。然后可以分块文本信息[text]为单位进行文档语义向量表示的转换为目的构建文档表示模型。学术文本、如论文数据,可以整体转换为模型所需表示。本文根据文本结构特征及段落间的语义关联,对非结构话文本信息进行分块,并将每一个分块分别计算[mask]序列表示。但是本发明不限于此,在一些实施例中,文档表示模型的操作对象也可以是文档全文本身,换句话说,对一些篇幅较短的文档,只对其分了一个分块文本信息。
[0075]
文档表示模型基于预训练模型构建。首先需要对目标分块文本信息进行数据预处理,预处理包括进行数据清洗和文档文本分段。数据清洗指的是需要根据具体的文本格式采用不同的方法,例如处理非格式化数据时,需要统一字符编码、去除无意义的特殊符号等噪音数据。文档文本分段指的是如输入文本为非结构化数据或半结构化数据,则根据实际需要,对分块文本信息的段落根据语义单元进行分割,如标题、摘要、学者信息、简介、先行研究、实验步骤、结果论述等。
[0076]
由于学术文本各分块信息文本较长,使用传统的[cls]无法更好的表示丰富的上下文信息,因此本文对论文分块信息采用定长l个[mask]进行表示,为提高运算效率,定义2《=l《10,并作为模型参数通过学习获得最终结果。通过预训练模型获得文本分块信息向量表示,此处的向量表示的内容也即将前述进行文档文本分段后的结果采用向量表示,该向量表示的每一个元素可能代表一句话或者多句话的文本信息,也即:
[0077]
[text]={x
1,
x2…
xn}。然后将定长为l(l《10)的[mask]序列与文本分块信息向量
进行拼接,即:
[0078]
x={[mask0,[mask1…
pmask
l
,x0,x1…
xn},其中x表示拼接信息。
[0079]
经过预训练模型之后,[mask]可以学习到文本分块信息主要的语义信息,以[mask]序列的表示作为模块信息的表示:
[0080]smask
={[mask0,[mask1…
[mask
l
}。较佳地,本实施例中的预训练模型可以是bert也可以是t5,uie等模型。
[0081]
优选地,在一些实施例中,所述将所述词条语义向量表示和所述文档语义向量表示拼接后形成交互表示并输入交互模型以获得所述检索词条和所述文档的相关度分析结果,包括:
[0082]
将所述词条语义向量表示和所述文档语义向量表示进行拼接以获得交互序列;
[0083]
将所述交互序列输入多头注意力层以获得结果表示,所述结果表示;
[0084]
将所述结果表示通过平均池化以生成交互序列最终表示;
[0085]
将所述交互序列最终表示输入softmax层以获得所述检索词条和所述文档的相关度分析结果。
[0086]
具体地,如图2所示,将前述步骤得到的检索词条语义向量表示[cls]以及学术文本各模块的[mask]序列表示进行拼接后获取新的交互序列,然后输入到多头注意力层,获取输出表示e
mh
计算为:
[0087]emh
=concat(h
cls
,h
mask 1
,
…
,h
mask l
)wh,
[0088]
其中hi=attention(q,k,v)。
[0089]
接着,将多头注意力层的输出输入到平均池化层获取句子的最终表示hf,计算为:
[0090]
hf=avgpooling(e
mh
)。
[0091]
然后将句子的最终表示hf输入到前馈神经网络,获取相似度得分y
score
,
[0092]yscure
=wchf+bc。
[0093]
接着将相似度得分输入到softmax层,对搜索词条与目标学术文本的相关度得分进行归一化,以归一化结果y作为相关度分析结果。
[0094]
其中,y=softmax(y
score
)。
[0095]
获得相关度之后,将softmax的输出结果与目标所属样本类别(正样本相关得分为1,负样本不相关得分为0)进行对比,反向传播优化交互模型参数。
[0096]
本技术第二方面实施例提供一种语义检索方法,如图3所示,包括以下步骤:
[0097]
通过文档表示模型将若干文档转化为对应的文档语义向量表示;
[0098]
通过检索词条表示模型将检索词条转化为词条语义向量表示;
[0099]
通过交互模型将所述文档语义向量表示和所述词条语义向量表示进行交互计算以获得所述检索词条表示和至少部分所述文档表示之间的相关度。
[0100]
具体地,检索过程包括:基于检索词条表示模式获取检索词条的词条语义向量表示。
[0101]
然后将检索词条语义向量表示以及被检索学术文本各模块文档语义向量表示,即[mask]序列表示进行拼接后获取新的交互序列,然后输入到多头注意力层。
[0102]
通过平均池化操作并输入到softmax层,softmax层的输出及检索的得分。
[0103]
在一些实施例中,所述文档语义向量表示为通过所述文档表示模型预先离线状态
下形成的,并且被存储于文档表示库中;
[0104]
所述交互模型调用所述文档表示库,以进行与所述词条语义向量表示的交互计算。
[0105]
优选地,还包括:根据所述相关度对所述文档语义向量表示对应的文档进行降序排序,依据文档排序输出检索结果列表。
[0106]
具体地,在一些是实施例中,包含对于检索流程的加速方法:使用前述步骤得到的模型隐藏层状态,离线获得论文文本分块信息的文档语义向量表示,存储于向量库也即文档表示库,以提高实际应用时的运算效率。
[0107]
将用户输入转换为词条语义向量表示经过交互模型输出相关度得分。
[0108]
然后将所有候选结果按得分降序排序,输出为检索结果列表。
[0109]
本发明适用范围广,可应用于复杂场景文本相似度问题的任务,如文本分类、情感分类、搜索、推荐等自然语言处理人常见应用场景。
[0110]
本发明可应用于多语言场景,不受语言特性所束缚。
[0111]
本发明采用模型可更好的学习利用到文本上下文信息以得到更好的效果。
[0112]
本技术第三方面实施例提供一种交互模型训练装置,如图4所示,包括:
[0113]
数据获取模块,用于获取训练数据,所述训练数据包括检索词条和所述检索词条对应的文档检索结果,所述文档检索结果包括相对于所述检索词条的正样本文档和负样本文档;
[0114]
表示转化模块,通过检索词条表示模型将所述检索词条转换为词条语义向量表示,通过文档表示模型将所述文档检索结果中的文档转换为文档语义向量表示;
[0115]
相关度交互分析模块,将所述词条语义向量表示和所述文档语义向量表示拼接后形成交互表示并输入交互模型以获得所述检索词条和所述文档的相关度分析结果;
[0116]
训练模块,基于所述相关度分析结果和所述文档所属的样本类别之间的差异确定损失值,基于所述损失值对所述交互模型进行训练,训练得到的所述交互模型用于分析所述文档表示和所述检索词条表示之间的相关度。
[0117]
在一些实施例中,如图5所示,为本发明提供的训练系统的架构示意图。包括4个模块:
[0118]
数据预处理模块用来将非格式化或半格式化文本转换为格式化文本,并根据需要进行数据清洗;
[0119]
如图6所示,学术文本分块表示模型根据使用场景,选取所需要数据字段,通过一个深度学习模型转换为模型需要形式的文档语义向量表示;
[0120]
用户输入表示模型将用户输入通过一个深度学习模型,转换为词条语义向量表示;
[0121]
交互模型相似度训练模块通过将文档语义向量表示与词条语义向量表示输入交互模型并根据标注数据进行相似度训练,全局更新参数完成交互模型训练。
[0122]
本技术第四方面实施例提供一种语义检索装置,如图7所示,包括:
[0123]
文档表示模块,通过文档表示模型将若干文档转化为对应的文档语义向量表示;
[0124]
检索词条表示模块,通过检索词条表示模型将检索词条转化为词条语义向量表示;
[0125]
交互模块,通过交互模型将所述文档语义向量表示和所述词条语义向量表示进行交互计算以获得所述检索词条表示和至少部分所述文档表示之间的相关度。
[0126]
本技术第五方面实施例提供一种电子设备,如图8所示,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现如上任一实施例所述的交互模型的训练方法或者如上任一实施例所述的语义检索方法。
[0127]
本技术第六方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一实施例所述的交互模型的训练方法或者如上任一实施例所述的语义检索方法。
[0128]
计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0129]
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0130]
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
[0131]
以上所述的具体实施方式,对本技术的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本技术的具体实施方式而已,并不用于限定本技术的保护范围,凡在本技术的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
技术特征:
1.一种交互模型的训练方法,其特征在于,包括以下步骤:获取训练数据,所述训练数据包括检索词条和所述检索词条对应的文档检索结果,所述文档检索结果包括相对于所述检索词条的正样本文档和负样本文档;通过检索词条表示模型将所述检索词条转换为词条语义向量表示,通过文档表示模型将所述文档检索结果中的文档转换为文档语义向量表示;将所述词条语义向量表示和所述文档语义向量表示拼接后形成交互表示并输入交互模型以获得所述检索词条和所述文档的相关度分析结果;基于所述相关度分析结果和所述文档所属的样本类别之间的差异确定损失值,基于所述损失值对所述交互模型进行训练,训练得到的所述交互模型用于分析所述文档表示和所述检索词条表示之间的相关度。2.根据权利要求1所述的交互模型的训练方法,其特征在于:所述获取训练数据,包括:基于文档检索系统日志,获取用户检索词表,所述用户检索词表包括若干所述检索词条;基于bm25算法和所述检索词条对文档库进行采样,生成对应所述检索词条的所述正样本文档和所述负样本文档,其中所述正样本文档和所述负样本文档的比例介于2:3~4:1。3.根据权利要求1所述的交互模型的训练方法,其特征在于:所述通过文档表示模型将所述文档检索结果中的文档转换为文档语义向量表示,包括:对所述文档进行分块预处理,以获得若干分块文本信息[text];将定长l的[mask]序列与所述分块文本信息[text]拼接,以获得拼接信息[msak][mask]
…
[mask][text];将所述拼接信息输入预训练模型以使得所述[msak]序列学习到所述分块文本信息的语义信息;以所述预训练模型的输出s
mask
={[mask]0,[mask]1…
[mask]
l
}作为所述文档语义向量表示,其中所述定长l根据所述交互模型的运算效果反馈优化确定。4.根据权利要求1所述的交互模型的训练方法,其特征在于:所述将所述词条语义向量表示和所述文档语义向量表示拼接后形成交互表示并输入交互模型以获得所述检索词条和所述文档的相关度分析结果,包括:将所述词条语义向量表示和所述文档语义向量表示进行拼接以获得交互序列;将所述交互序列输入多头注意力层以获得结果表示,所述结果表示;将所述结果表示通过平均池化以生成交互序列最终表示;将所述交互序列最终表示输入softmax层以获得所述检索词条和所述文档的相关度分析结果。5.一种语义检索方法,其特征在于,包括以下步骤:通过文档表示模型将若干文档转化为对应的文档语义向量表示;通过检索词条表示模型将检索词条转化为词条语义向量表示;通过交互模型将所述文档语义向量表示和所述词条语义向量表示进行交互计算以获得所述检索词条表示和至少部分所述文档表示之间的相关度。6.根据权利要求5所述的语义检索方法,其特征在于:所述文档语义向量表示为通过所述文档表示模型预先离线状态下形成的,并且被存储于文档表示库中;
所述交互模型调用所述文档表示库,以进行与所述词条语义向量表示的交互计算。7.根据权利要求5所述的语义检索方法,其特征在于,还包括:根据所述相关度对所述文档语义向量表示对应的文档进行降序排序,依据文档排序输出检索结果列表。8.一种语义检索装置,其特征在于,包括:文档表示模块,通过文档表示模型将若干文档转化为对应的文档语义向量表示;检索词条表示模块,通过检索词条表示模型将检索词条转化为词条语义向量表示;交互模块,通过交互模型将所述文档语义向量表示和所述词条语义向量表示进行交互计算以获得所述检索词条表示和至少部分所述文档表示之间的相关度。9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-4任一项所述的交互模型的训练方法或者如权利要求5-7任一项所述的语义检索方法。10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-4任一项所述的交互模型的训练方法或者如权利要求5-7任一项所述的语义检索方法。
技术总结
本申请涉及一种交互模型训练方法及语义检索方法、装置、介质及设备,属于自然语言处理信息检索,解决了现有技术中语义检索模型存在的时效差和精准度低的问题。本申请技术方案主要包括:通过文档表示模型将若干文档转化为对应的文档语义向量表示;通过检索词条表示模型将检索词条转化为词条语义向量表示;通过交互模型将所述文档语义向量表示和所述词条语义向量表示进行交互计算以获得所述检索词条表示和至少部分所述文档表示之间的相关度。本申请可以分别对检索词条和文档转换成相应的语义向量表示,然后通过交互模型对二者进行相关度计算,从而使得本发明兼容双塔模型的效率的同时在精度上不逊于现有的交互编码模型。同时在精度上不逊于现有的交互编码模型。同时在精度上不逊于现有的交互编码模型。
技术研发人员:孟茜
受保护的技术使用者:北京智谱华章科技有限公司
技术研发日:2023.04.03
技术公布日:2023/8/9
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
