基于One2MultiSeq训练范式和预训练模型BART的关键词生成方法和系统
未命名
10-18
阅读:115
评论:0
基于one2multiseq训练范式和预训练模型bart的关键词生成方法和系统
技术领域
1.本发明涉及自然语言处理技术领域,具体涉及一种基于one2multiseq训练范式和预训练模型bart的关键词生成方法、系统、存储介质和电子设备。
背景技术:
2.关键词生成(kg),作为自然语言处理(nlp)的一项基本任务,旨在通过给定的源文本自动预测关键短语。关键短语是一组突出文件关键信息的短语,已被广泛用于下游的nlp任务中,如推荐系统、意见挖掘和文本总结。一般来说,一条文本会对应多个关键词。
3.现有的关键词生成模型包括copyrnn和catseq。其中,copyrnn采用基于rnn的编码器-解码器模型结构,为了让模型能够发现基于位置的重要信息,一种复制机制被应用在rnn中,组成copyrnn。copyrnn利用one2one训练范式进行训练,并通过束搜索来生成固定k个关键词。one2one范式是指如果一条文本有m个关键词,那么在训练中这条文本会被复制m次以保证每条文本只包含一个关键词。catseq也是一种基于rnn结构的模型,但它的训练范式换成了one2seq。one2seq范式是指如果一条文本对应m个关键词,那么one2seq范式会将这m个关键词用m-1个分隔符《sep》连接起来,形成一个包含m个关键词的句子。
4.然而,由于one2one范式不能动态决定生成关键词的数量,而且由于在生成的过程中只能用束搜索独立地生成关键词,因此各个关键词之间不能互相参照,造成关键词的多样性大大降低。为了解决这个问题,one2seq范式通过预先设定一个关键词顺序,并将不同的关键词通过《sep》字符进行连接,这样在生成关键词的过程中,后面的要关键词会参照之前生成的关键词,不仅能够动态生成不同数量的关键词,而且关键词的多样性也得到了提升。虽然关键词是无序的,但通过实验可以证明,如果将关键词顺序按照将存在的关键词放在缺失的关键词前面,模型效果最好。但这种关键词顺序也会使模型更加重视存在的关键词而弱化对缺失关键词的关注。
技术实现要素:
5.(一)解决的技术问题
6.针对现有技术的不足,本发明提供了一种基于one2multiseq训练范式和预训练模型bart的关键词生成方法、系统、存储介质和电子设备,解决了重视存在的关键词而弱化对缺失关键词的关注的技术问题。
7.(二)技术方案
8.为实现以上目的,本发明通过以下技术方案予以实现:
9.一种基于one2multiseq训练范式和预训练模型bart的关键词生成方法,所述预训练模型bart引入复制机制,组成copybart,该方法包括:
10.获取历史数据集,所述历史数据集中的任一历史数据包括源文本、以及对应的图像和关键词集;
11.根据所述关键词集与源文本的对照关系,将所有关键词划分为存在的关键词和缺失的关键词;并以存在的关键词在前,缺失的关键词在后的顺序,获取第一关键词序列;以及以缺失的关键词在前,存在的关键词在后的顺序,获取第二关键词序列;
12.预处理所述图像,获取图像属性文本和ocr文本,并将所述源文本、图像属性文本和ocr文本依次连接,获取联合文本;
13.将所述联合文本作为copybart的输入,结合所述第一关键词序列或第二关键词序列,分别预测所述源文本对应的第三关键词序列;
14.根据第一、二和三关键词序列,构建损失函数;基于所述损失函数对所述copybart进行训练直至模型收敛;
15.将待分析数据作为收敛后模型的输入,生成该待分析数据的关键词集。
16.优选的,所述第一关键词序列和第二关键词序列的获取过程分别如下:
17.定义所述历史数据集表示为其中xi,ii,yi分别表示第i条历史数据的源文本、以及对应的图像和关键词集,d为数据总数;关键词集yi都包含mi的关键词,每个关键词y
(i,j)
都包含个词,
18.将yi中的mi个关键词以存在的关键词在前,缺失的关键词在后的顺序将它们串联成一个带有分隔符《sep》的序列;
[0019][0020]
复制该序列并颠倒其关键词的顺序;
[0021][0022]
其中,yi_(1)、yi_(2)分别表示第一、二关键词序列。
[0023]
优选的,所述联合文本的获取过程包括:
[0024]
采用文字描述图像中的局部信息,获取所述图像属性文本
[0025]
采用光学字符识别方法,获取所述ocr文本
[0026]
将所述源文本xi、图像属性文本和ocr文本进行连接,获取联合文本xi;
[0027][0028]
其中,and表示分割符。
[0029]
优选的,任一所述第三关键词序列的获取过程包括:
[0030]
将所述联合文本xi输入copybart的编码器,获取高维向量hi;
[0031]hi
=copybartencoder(xi)
[0032]
其中,其中,为联合文本xi的长度,d为编码器隐藏状态的维度;
[0033]
将hi输入copybart的解码器,获取t时间解码器的隐藏状态
[0034][0035]
其中,表示t-1时间步长的真实目标值,由第一关键词序列yi_(1)或者第二关键词序列yi_(2)确定;
[0036]
根据得到每个关键词的初步概率分布p
vocab,t
;
[0037][0038]
其中,w
vocab
∈r
|v|
×d为一个可训练的参数,|v|为单词表v的词汇量;
[0039]
以及根据hi和将所述解码器最后一层中的编码器和解码器的交叉注意力作为拷贝分布,并获取整体的复制分布:
[0040][0041][0042]
其中,表示初步复制分布;表示源文本xi的长度;
[0043]ws
∈rd×d、wh∈rd×d分别表示可训练的参数;t表示矩阵转置;
[0044]
基于所述复制机制,利用源文本xi作为复制分布,获取调整后的复制分布
[0045][0046]
其中,为可训练参数,为偏置参数;
[0047]
根据p
vocab,t
和获取t时间单词表v中每个单词w
k,t
的最终概率分布p
final,t
(w
k,t
);
[0048][0049]
其中,k=1,2,...,|v|为单词索引;p
gen,t
表示权重;
[0050]
根据p
final,t
(w
k,t
),预测t时间的单词;
[0051][0052]
其中,argmax函数确定最大值的索引,用于确定下一时间所生成的单词的索引位置,直到生成所述第三关键词序列
[0053]
优选的,所述权重p
gen,t
的获取过程包括:
[0054]
采用pointer softmax机制,作为一个开关决定从词汇表v中生成单词或者从源文本中复制单词:
[0055][0056]
其中,sigmoid、tanh均为激活函数,其中,sigmoid、tanh均为激活函数,
[0057]
优选的,采用交叉熵作为所述损失函数loss:
[0058][0059]
其中,log为对数函数;分别表示与第一、二关键词序列对应的第三关键词序列。
[0060]
一种基于one2multiseq训练范式和预训练模型bart的关键词生成系统,所述预训练模型bart引入复制机制,组成copybart,该系统包括:
[0061]
获取模块,用于获取历史数据集,所述历史数据集中的任一历史数据包括源文本、以及对应的图像和关键词集;
[0062]
划分模块,用于根据所述关键词集与源文本的对照关系,将所有关键词划分为存在的关键词和缺失的关键词;并以存在的关键词在前,缺失的关键词在后的顺序,获取第一关键词序列;以及以缺失的关键词在前,存在的关键词在后的顺序,获取第二关键词序列;
[0063]
联合模块,用于预处理所述图像,获取图像属性文本和ocr文本,并将所述源文本、图像属性文本和ocr文本依次连接,获取联合文本;
[0064]
预测模块,用于将所述联合文本作为copybart的输入,结合所述第一关键词序列或第二关键词序列,分别预测所述源文本对应的第三关键词序列;
[0065]
构建模块,用于根据第一、二和三关键词序列,构建损失函数;基于所述损失函数对所述copybart进行训练直至模型收敛;
[0066]
生成模块,用于将待分析数据作为收敛后模型的输入,生成该待分析数据的关键词集。
[0067]
一种存储介质,其存储有用于基于one2multiseq训练范式和预训练模型bart的关键词生成的计算机程序,其中,所述计算机程序使得计算机执行如上所述的关键词生成方法。
[0068]
一种电子设备,包括:
[0069]
一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的关键词生成方法。
附图说明
[0070]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现
有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0071]
图1为本发明实施例提供的一种基于one2multiseq训练范式和预训练模型bart的关键词生成方法的方框图;
[0072]
图2为本发明实施例提供的一种基于one2multiseq训练范式和预训练模型bart的关键词生成方法的流程示意图。
具体实施方式
[0073]
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0074]
本技术实施例通过提供一种基于one2multiseq训练范式和预训练模型bart的关键词生成方法、系统、存储介质和电子设备,解决了重视存在的关键词而弱化对缺失关键词的关注的技术问题,实现模型效果的提升。
[0075]
本技术实施例中的技术方案为解决上述技术问题,总体思路如下:
[0076]
为了让模型同时重视存在的关键词和缺失的关键词,本发明实施例提出one2multiseq范式,将一条文本复制两次,并且为每个文本配对一个关键词句子,这两个关键词句子拥有完全相反的关键词顺序。比如第一个关键词句子的关键词顺序是存在的关键词在前,缺失的关键词在后,那么第二条关键词句子的关键词顺序就是缺失的关键词放在存在的关键词前面。
[0077]
此外,为了解决现有模型文本建模能力较差的问题,引入预训练模型bart来作为基础架构。另外为bart引入了复制机制,组成copybart。
[0078]
由于在社交媒体中,如推特,它的一条内容可能不仅包含文本还会包含图片,即多模态的。在本模型中,为了充分利用bart在文本建模方面的能力,本发明实施例采用了一种简单的模态对齐方式:通过图片转文本工具直接将图片转换成文本,然后将其拼接到原始文本后面,并用“and”字符将它们分割开来。
[0079]
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
[0080]
实施例:
[0081]
如图1所示,本发明实施例提供了一种基于one2multiseq训练范式和预训练模型bart的关键词生成方法,所述预训练模型bart引入复制机制,组成copybart,该方法包括:
[0082]
s1、获取历史数据集,所述历史数据集中的任一历史数据包括源文本、以及对应的图像和关键词集;
[0083]
s2、根据所述关键词集与源文本的对照关系,将所有关键词划分为存在的关键词和缺失的关键词;并以存在的关键词在前,缺失的关键词在后的顺序,获取第一关键词序列;以及以缺失的关键词在前,存在的关键词在后的顺序,获取第二关键词序列;
[0084]
s3、预处理所述图像,获取图像属性文本和ocr文本,并将所述源文本、图像属性文
本和ocr文本依次连接,获取联合文本;
[0085]
s4、将所述联合文本作为copybart的输入,结合所述第一关键词序列或第二关键词序列,分别预测所述源文本对应的第三关键词序列;
[0086]
s5、根据第一、二和三关键词序列,构建损失函数;基于所述损失函数对所述copybart进行训练直至模型收敛;
[0087]
s6、将待分析数据作为收敛后模型的输入,生成该待分析数据的关键词集。
[0088]
本发明实施例提出one2multiseq范式,兼顾存在的关键词和缺失的关键词,构建两条关键词顺序完全相反的关键词序列,并用于模型训练;能够减轻关键词顺序对模型的影响,提升模型对缺失关键词的关注度,从而提升模型效果。此外,为了解决现有模型文本建模能力较差的问题,以预训练模型bart来作为基础架构,并为bart引入了复制机制,组成copybart,进一步提升了模型效果。
[0089]
接下来将结合图2详细介绍上述方案的各个步骤:
[0090]
首先说明的是,本发明实施例采用预训练模型bart作为骨干模型。作为一个标准的seq2seq架构模型,bart已经被用于许多领域,包括对话生成、问题回答系统和摘要生成。以及本发明实施例提供的关键词生成方法的问题描述可以概括为:将源文本和其对应的图像,作为改进后的bart模型即copybart的输入,进而预测其关键短语集。
[0091]
在步骤s1中,获取历史数据集,所述历史数据集中的任一历史数据包括源文本、以及对应的图像和关键词集。
[0092]
定义所述历史数据集表示为其中xi,ii,yi分别表示第i条历史数据的源文本、以及对应的图像和关键词集,d为数据总数;关键词集yi都包含mi的关键词,每个关键词y
(i,j)
都包含个词,
[0093]
在步骤s2中,根据所述关键词集与源文本的对照关系,将所有关键词划分为存在的关键词和缺失的关键词;并以存在的关键词在前,缺失的关键词在后的顺序,获取第一关键词序列;以及以缺失的关键词在前,存在的关键词在后的顺序,获取第二关键词序列。
[0094]
实质上,本步骤对于上述描述的one2multiseq训练范式进行了展开描述,具体包括:
[0095]
根据所述关键词集与源文本的对照关系,将所有关键词划分为存在的关键词和缺失的关键词,具体是指若关键词集中关键词包含于源文本内,则划分为存在的关键词,否则划分为缺失的关键词。
[0096]
(1)将yi中的mi个关键词以存在的关键词在前,缺失的关键词在后的顺序将它们串联成一个带有分隔符《sep》的序列;
[0097][0098]
(2)复制该序列并颠倒其关键词的顺序;
[0099]
[0100]
其中,yi_(1)、yi_(2)分别表示第一、二关键词序列。
[0101]
在步骤s3中,预处理所述图像,获取图像属性文本和ocr文本,并将所述源文本、图像属性文本和ocr文本依次连接,获取联合文本。
[0102]
本发明实施例考虑到:由于基于transformer的预训练模型有很强的文本表征能力。因此,有必要将图像信息转换成文本空间,并执行图像-文本对齐。通过这种方式,bart可以专注于文本建模并利用其在表示文本方面的优势。
[0103]
相应的,所述s3具体包括:
[0104]
对于图像属性文本而言:其能够传达图像信息的一个重要而有用的方面是它的属性。图像属性包含了图像中的一些对象,如人物,建筑,风景等等,它是图像的组成部分,可以用文字描述图像中的局部信息,将其表示为将图像属性文本附加到源文本后,并用一个“and”字符将它们分割开。
[0105]
对应ocr文本而言:一些图像包含文字内容,这些文字往往是为了丰富图像,表达的语义信息。为了更好地理解这类图像,采用ocr技术识别出ocr文本,并将其表示为作为补充输入。
[0106]
具体来说,文本同样通过使用"and"字符将其添加到源文本后面。请注意,是一个可选字符,如果图像中没有文本,将是空的。
[0107]
其中,ocr技术是指光学字符识别技术,它可以通过机器学习算法识别,并将图像或扫描文件中的印刷或手写文本转换成可编辑和可搜索的数字文本。
[0108]
最终将所述源文本xi、图像属性文本和ocr文本进行连接,获取联合文本xi;
[0109][0110]
在步骤s4中,将所述联合文本作为copybart的输入,结合所述第一关键词序列或第二关键词序列,分别预测所述源文本对应的第三关键词序列。
[0111]
如图2所示,任一所述第三关键词序列的获取过程具体包括:
[0112]
s41、将所述联合文本xi输入copybart的编码器,获取高维向量hi;
[0113]hi
=copybartencoder(xi)
[0114]
其中,其中,为联合文本xi的长度,d为编码器隐藏状态的维度。
[0115]
s42、将hi输入copybart的解码器,获取t时间解码器的隐藏状态
[0116][0117]
其中,表示t-1时间步长的真实目标值,由第一关键词序列yi_(1)或者第二关键词序列yi_(2)确定,即或者
[0118]
[0119]
bart模型的解码器通过最大化概率bart模型的解码器通过最大化概率(在训练过程中会以相同的方式输入到模型中进行训练),并通过上述过程对所有训练数据进行微调。
[0120]
s43、根据得到每个关键词的初步概率分布p
vocab,t
;
[0121][0122]
其中,w
vocab
∈r
|v|
×d为一个可训练的参数,|v|为单词表v的词汇量。
[0123]
s44、以及根据hi和将所述解码器最后一层中的编码器和解码器的交叉注意力作为拷贝分布(transformer架构使用缩放点积作为其自我注意力的计算,即其中q、k、v分别代表query、key、value键),并获取整体的复制分布:
[0124][0125][0126]
其中,表示初步复制分布;表示源文本xi的长度;ws∈rd×d、wh∈rd×d分别表示可训练的参数;t表示矩阵装置。
[0127]
补充说明的是,与标准的transformer结构不同,bart解码器的最后一层不直接连接到输出的softmax函数。相反,它与一个线性层相连。
[0128]
s45、基于所述复制机制,利用源文本xi作为复制分布,获取调整后的复制分布
[0129][0130]
其中,为可训练参数,为偏置参数。
[0131]
由于引入的复制机制使解码器能够从源文本中复制重要的内容到关键词中,因此本发明实施例将复制机制用于bart,进一步提高其关键词生成能力。
[0132]
考虑到步骤s1中获取的为多模态数据集,因此设定只利用源文本xi作为复制分布,而不是联合文本xi。这是因为关键词往往表现出与源文本更加一致的语法结构和词汇规律性。故本发明实施例认为仅从源文本中复制有助于减少关键词生成过程中的偏差。因此采用上述方法对复制分布进行调整。
[0133]
s46、根据p
vocab,t
和获取t时间单词表v中每个单词w
k,t
的最终概率分布p
final,t
(w
k,t
);
[0134][0135]
其中,k=1,2,...,|v|为单词索引;p
gen,t
表示权重;代表如果文本中如果一个单词出现多次,那么它的概率会被多次增加。
[0136]
特别的,所述权重p
gen,t
的获取过程包括:
[0137]
采用pointer softmax机制,作为一个开关决定从词汇表v中生成单词或者从源文本中复制单词:
[0138][0139]
其中,sigmoid、tanh均为激活函数,其中,sigmoid、tanh均为激活函数,w
st
∈rd×d为可训练参数(与前述ws不同)。
[0140]
s47、根据p
final,t
(w
k,t
),预测t时间的单词;
[0141][0142]
其中,argmax函数确定最大值的索引,用于确定下一时间所生成的单词的索引位置,直到生成所述第三关键词序列
[0143]
在步骤s5中,根据第一、二和三关键词序列,构建损失函数;基于所述损失函数对所述copybart进行训练直至模型收敛。
[0144]
本发明实施例中采用交叉熵作为所述损失函数loss:
[0145][0146]
其中,log为对数函数;分别表示与第一、二关键词序列对应的第三关键词序列。
[0147]
在步骤s6中,将待分析数据作为收敛后模型的输入,生成该待分析数据的关键词集。
[0148]
为了验证本发明实施例提出方法的有效性,现提供如下示例:
[0149]
(1)、实验数据
[0150]
在三个数据集上进行测试,分别是单模态数据集twitter和stackexchange,以及一个多模态tweet数据集,具体参加表1。
[0151]
表1数据统计表
[0152][0153]
(2)、参数设置
[0154]
bart包括两个预训练通用模型,分别是bart
base
和bart
large
。分别采用它们作为骨干模型,采用bart的默认的bpe编码。bpe编码包括50265个token,将推特数据集中的数字、链接和用户名分别用三个特殊的token来表示:《number》、《url》、《mention》,此外分隔符《sep》也被添加到词汇表中。此时词汇表的数量由原来的50265增加到50269。具体的训练参数可见表2。
[0155]
表2参数设置表
[0156][0157][0158]
其中,mlp为maximum length of predictions的缩写。
[0159]
(3)、评价指标
[0160]
由于多模态tweet数据集的平均关键词数量为1.33,单模态twitter数据集为1.13,因此采用macrof1@1和macrof1@3作为其评估指标。stackexchange的平均关键词数量比twitter高得多,所以采用macrof1@3和macrof1@5作为其评价指标。此外,前五个预测的关键词的平均精度(mean average precision map)也被用于评价上述所有的数据集。
[0161]
对于macrof1@k,给定一个源文本或源文本及其图像文本,假设模型预测了一系列不同的关键词而目标关键词为y。当想计算macrof1@k(其中k=1,3,5)时,对关键词数量进行截取如果k《m,用kppad_1,kppad_2,
…
填充
的关键词数量,直到数量达到k。precision@k、recall@k以及macrof1@k的定义为:
[0162][0163][0164][0165][0166][0167]
其中,n代表测试集的数量。
[0168]
(4)、实验结果
[0169]
表3单模态数据集对比结果
[0170][0171]
注:加粗的数据表示效果最佳
[0172]
表4多模态数据集对比结果
[0173]
[0174][0175]
从表3和4中可以看到,相比于基线模型,本发明实施例在使用copybart作为骨干模型后,提升幅度非常可观。此外,one2multiseq范式相比于one2seq范式在相同的环境下,性能均有较大提升。例如,在stackexchange数据集上,基于copybart-base,在f1@5评价指标上,相比于one2seq提升了超过两个百分点。
[0176]
本发明实施例提供了一种基于one2multiseq训练范式和预训练模型bart的关键词生成系统,所述预训练模型bart引入复制机制,组成copybart,该系统包括:
[0177]
获取模块,用于获取历史数据集,所述历史数据集中的任一历史数据包括源文本、以及对应的图像和关键词集;
[0178]
划分模块,用于根据所述关键词集与源文本的对照关系,将所有关键词划分为存在的关键词和缺失的关键词;并以存在的关键词在前,缺失的关键词在后的顺序,获取第一关键词序列;以及以缺失的关键词在前,存在的关键词在后的顺序,获取第二关键词序列;
[0179]
联合模块,用于预处理所述图像,获取图像属性文本和ocr文本,并将所述源文本、图像属性文本和ocr文本依次连接,获取联合文本;
[0180]
预测模块,用于将所述联合文本作为copybart的输入,结合所述第一关键词序列或第二关键词序列,分别预测所述源文本对应的第三关键词序列;
[0181]
构建模块,用于根据第一、二和三关键词序列,构建损失函数;基于所述损失函数
对所述copybart进行训练直至模型收敛;
[0182]
生成模块,用于将待分析数据作为收敛后模型的输入,生成该待分析数据的关键词集。
[0183]
本发明实施例提供了一种存储介质,其存储有用于基于one2multiseq训练范式和预训练模型bart的关键词生成的计算机程序,其中,所述计算机程序使得计算机执行如上所述的关键词生成方法。
[0184]
本发明实施例提供了一种电子设备,包括:
[0185]
一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的关键词生成方法。
[0186]
可理解的是,本发明实施例提供的基于one2multiseq训练范式和预训练模型bart的关键词生成系统、存储介质和电子设备与本发明实施例提供的基于one2multiseq训练范式和预训练模型bart的关键词生成方法相对应,其有关内容的解释、举例和有益效果等部分可以参考关键词生成方法中的相应部分,此处不再赘述。
[0187]
综上所述,与现有技术相比,具备以下有益效果:
[0188]
1、本发明实施例提出one2multiseq范式,兼顾存在的关键词和缺失的关键词,构建两条关键词顺序完全相反的关键词序列,并用于模型训练;能够减轻关键词顺序对模型的影响,提升模型对缺失关键词的关注度,从而提升模型效果。此外,为了解决现有模型文本建模能力较差的问题,以预训练模型bart来作为基础架构,并为bart引入了复制机制,组成copybart,进一步提升了模型效果。
[0189]
2、由于引入的复制机制使解码器能够从源文本中复制重要的内容到关键词中,因此本发明实施例将复制机制用于bart,进一步提高其关键词生成能力。
[0190]
3、对于多模态的信息,本发明实施例采用了一种简单而有效的方法进行模态之间的对齐,实验证明所提出的模态对齐非常有效。
[0191]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0192]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
技术特征:
1.一种基于one2multiseq训练范式和预训练模型bart的关键词生成方法,其特征在于,所述预训练模型bart引入复制机制,组成copybart,该方法包括:获取历史数据集,所述历史数据集中的任一历史数据包括源文本、以及对应的图像和关键词集;根据所述关键词集与源文本的对照关系,将所有关键词划分为存在的关键词和缺失的关键词;并以存在的关键词在前,缺失的关键词在后的顺序,获取第一关键词序列;以及以缺失的关键词在前,存在的关键词在后的顺序,获取第二关键词序列;预处理所述图像,获取图像属性文本和ocr文本,并将所述源文本、图像属性文本和ocr文本依次连接,获取联合文本;将所述联合文本作为copybart的输入,结合所述第一关键词序列或第二关键词序列,分别预测所述源文本对应的第三关键词序列;根据第一、二和三关键词序列,构建损失函数;基于所述损失函数对所述copybart进行训练直至模型收敛;将待分析数据作为收敛后模型的输入,生成该待分析数据的关键词集。2.如权利要求1所述的关键词生成方法,其特征在于,所述第一关键词序列和第二关键词序列的获取过程分别如下:定义所述历史数据集表示为其中x
i
,i
i
,y
i
分别表示第i条历史数据的源文本、以及对应的图像和关键词集,d为数据总数;关键词集y
i
都包含m
i
的关键词,每个关键词y
(i,j)
都包含个词,将y
i
中的m
i
个关键词以存在的关键词在前,缺失的关键词在后的顺序将它们串联成一个带有分隔符<sep>的序列;复制该序列并颠倒其关键词的顺序;其中,y
i
_(1)、y
i
_(2)分别表示第一、二关键词序列。3.如权利要求2所述的关键词生成方法,其特征在于,所述联合文本的获取过程包括:采用文字描述图像中的局部信息,获取所述图像属性文本采用光学字符识别方法,获取所述ocr文本将所述源文本x
i
、图像属性文本和ocr文本进行连接,获取联合文本x
i
;其中,and表示分割符。4.如权利要求3所述的关键词生成方法,其特征在于,任一所述第三关键词序列的获取过程包括:将所述联合文本x
i
输入copybart的编码器,获取高维向量h
i
;i=copybartencoder(x
i
)
其中,其中,为联合文本x
i
的长度,d为编码器隐藏状态的维度;将h
i
输入copybart的解码器,获取t时间解码器的隐藏状态输入copybart的解码器,获取t时间解码器的隐藏状态其中,表示t-1时间步长的真实目标值,由第一关键词序列y
i
_(1)或者第二关键词序列y
i
_(2)确定;根据得到每个关键词的初步概率分布p
vocab,t
;其中,w
vocab
∈r
|v|
×
d
为一个可训练的参数,|v|为单词表v的词汇量;以及根据h
i
和将所述解码器最后一层中的编码器和解码器的交叉注意力作为拷贝分布,并获取整体的复制分布:分布,并获取整体的复制分布:其中,表示初步复制分布;表示源文本x
i
的长度;w
s
∈r
d
×
d
、w
h
∈r
d
×
d
分别表示可训练的参数;t表示矩阵转置;基于所述复制机制,利用源文本x
i
作为复制分布,获取调整后的复制分布作为复制分布,获取调整后的复制分布其中,为可训练参数,为偏置参数;根据p
vocab,t
和获取t时间单词表v中每个单词w
k,t
的最终概率分布p
final,t
(w
k,t
);其中,k=1,2,...,|v|为单词索引;p
gen,t
表示权重;根据p
final,t
(w
k,t
),预测t时间的单词;其中,argmax函数确定最大值的索引,用于确定下一时间所生成的单词的索引位置,直到生成所述第三关键词序列5.如权利要求4所述的关键词生成方法,其特征在于,所述权重p
gen,t
的获取过程包括:采用pointer softmax机制,作为一个开关决定从词汇表v中生成单词或者从源文本中复制单词:
其中,sigmoid、tanh均为激活函数,其中,sigmoid、tanh均为激活函数,6.如权利要求4所述的关键词生成方法,其特征在于,采用交叉熵作为所述损失函数loss:其中,log为对数函数;分别表示与第一、二关键词序列对应的第三关键词序列。7.一种基于one2multiseq训练范式和预训练模型bart的关键词生成系统,其特征在于,所述预训练模型bart引入复制机制,组成copybart,该系统包括:获取模块,用于获取历史数据集,所述历史数据集中的任一历史数据包括源文本、以及对应的图像和关键词集;划分模块,用于根据所述关键词集与源文本的对照关系,将所有关键词划分为存在的关键词和缺失的关键词;并以存在的关键词在前,缺失的关键词在后的顺序,获取第一关键词序列;以及以缺失的关键词在前,存在的关键词在后的顺序,获取第二关键词序列;联合模块,用于预处理所述图像,获取图像属性文本和ocr文本,并将所述源文本、图像属性文本和ocr文本依次连接,获取联合文本;预测模块,用于将所述联合文本作为copybart的输入,结合所述第一关键词序列或第二关键词序列,分别预测所述源文本对应的第三关键词序列;构建模块,用于根据第一、二和三关键词序列,构建损失函数;基于所述损失函数对所述copybart进行训练直至模型收敛;生成模块,用于将待分析数据作为收敛后模型的输入,生成该待分析数据的关键词集。8.一种存储介质,其特征在于,其存储有用于基于one2multiseq训练范式和预训练模型bart的关键词生成的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1~6任一项所述的关键词生成方法。9.一种电子设备,其特征在于,包括:一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如权利要求1~6任一项所述的关键词生成方法。
技术总结
本发明提供一种基于One2MultiSeq训练范式和预训练模型BART的关键词生成方法、系统、存储介质和电子设备,涉及自然语言处理技术领域。本发明提出One2MultiSeq范式,兼顾存在的关键词和缺失的关键词,构建两条关键词顺序完全相反的关键词序列,并用于模型训练;能够减轻关键词顺序对模型的影响,提升模型对缺失关键词的关注度,从而提升模型效果。此外,为了解决现有模型文本建模能力较差的问题,以预训练模型BART来作为基础架构,并为BART引入了复制机制,组成CopyBART,进一步提升了模型效果。对于多模态的信息,本发明实施例采用了一种简单而有效的方法进行模态之间的对齐,实验证明所提出的模态对齐非常有效。提出的模态对齐非常有效。提出的模态对齐非常有效。
技术研发人员:余本功 高春阳 张强 罗贺 杨颖 杨善林
受保护的技术使用者:合肥工业大学
技术研发日:2023.07.12
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
