一种基于强化学习的多粒度抽取-生成混合式文摘方法

未命名 07-19 阅读：140 评论：0

1.本发明属于自然语言处理技术领域，具体涉及一种基于强化学习的多粒度抽取-生成混合式文摘方法。

背景技术：

2.互联网快速发展，传播的信息越来越多元化，用户如何快速有效地从海量信息中提炼出所需的有用信息已经成为一个亟待解决的问题。利用自动文本摘要技术能为用户提供全面、简洁、流畅的摘要信息，同时保留原文中包含的所有关键信息。自动文本摘要是将原始文档凝练成一段简洁连贯的中心内容。在新闻阅读、科学研究、公共卫生等领域有广泛的应用价值。通常分为抽取式和生成式两种方法。抽取式自动文本摘要方法是直接抽取并输出原文中的关键语句组成摘要，但存在信息冗余的缺点。生成式方法可以从原文开头执行摘要推理过程，压缩重写生成更加简洁的摘要，不过输入序列过长时，会出现长时间依赖问题，无法正确分析提取输入序列的文本语义信息，同时生成过程难以人为控制，导致最终摘要并不理想。早期的学者们主要侧重于对抽取式方法的研究，随着计算机硬件性能和计算性能的提升，自动文本摘要的研究热点从早期的抽取式方法转变为现在的生成式方法逐渐转移。
3.尽管在深度学习技术的助力下，生成式自动文本摘要模型已经能较好地处理生成摘要的流畅性、可读性、简洁性和超纲词问题，但仍然存在着几个比较关键的问题待解决：1)摘要重要信息冗余问题；2)长文本长时间依赖问题；3)模型长文本推理缓慢。
4.借着深度学习的兴起发展，自然语言处理领域的研究也取得跨越式的进展，生成式自动文本摘要技术的诞生与深度学习是分不开的。
5.see等人提出seq2seq模型后，广泛应用应用于生成摘要的过程。liu和lapata首次通过将预训练的语言模型作为编码器，随后zhang等人利用大规模的无标签语料库对摘要生成过程进行预训练，取得了显著的改进。显式结构在基于深度学习的抽取式和生成式摘要方法中发挥了重要作用，不同的结构从不同方面提升摘要生成模型的性能。cao等人提出根据他们提出的成分句法分析树来提取关键语句。xu和durrett同时考虑到句法结构和句法规则，根据两者共同作用选择和压缩重写关键语句。li和zhuge提出一种基于语义链接网络，不过其中并没有包含图神经网络。通过用openie提取图元，fan等人压缩并减少了输入文档中的冗余度，提高了长序列处理的有效性，而huang等人利用基于openie的知识图谱来提高生成摘要的事实一致性。而先提取后重写这一范式，研究人员早期尝试使用了隐式马尔科夫模型和基于规则的系统，基于解析树的统计模型，以及基于整数线性编程的方法。近几年有人研究了话语结构、图切割和解析树结构。在深度神经网络领域，cheng和lapata使用第二个深度神经网络从抽取式模型的输出中选择单词。近几年强化学习已经被用来优化语言生成的非差异性指标，并减轻暴露偏差。hen等人使用基于q-learning的强化学习框架做抽取式摘要。paulus等人使用强化学习策略梯度方法执行生成式摘要过程，利用序列级度量奖励与课程学习提高训练过程的稳定性，或者利用加权机器学习+强化学习混合损失
提高生成摘要的流畅性。choi等人首先提取一个句子，再通过强化学习框架的桥接，从句子的向量表示中生成答案。narayan等人在抽取式摘要方法中使用强化学习对句子进行排名，elikyilmaz等人研究在模型中使用多个沟通编码器代理来增强复制效果的生成式摘要模型。swayamdipta等人在抽取式问答任务上尝试引入级联式非递归小网络，构建了一个可扩展的、可并行的模型。fan等人在此基础上增加了控制参数，提高模型的适应度，让生成的摘要能够满足长度、风格和实体的偏好。
6.以上现有技术对重要信息进行了隐式地建模，因为对句子摘要任务而言，重要的需求就是生成尽量短且体现重要信息的摘要。但以上现有技术缺乏对于输入句子中的单词重要性的建模。此外，现有技术产生的最终摘要虽然语法通顺，但却可能引入不重要的和冗余的信息。

技术实现要素：

7.为解决传统生成式模型在生成摘要的过程中的长文本推理缓慢、编码不准确和冗余问题，本发明使用一种抽取-生成混合架构，用多智能体强化学习驱动整个架构，在保留生成式摘要可读性和简洁性优势的基础上，也能利用抽取式模型获得原文的重要语义信息。利用基于a2c策略的强化学习模型学习词句的层次结构，能够更好的模拟语言结构，使并行化训练模型成为可能。本发明从原文的关键语义信息出发抽取原文中的关键语句融入到模型中，利用到抽取式模型的优势，再对关键语句解码重写，避免按原文顺序对长文本的每个词迭代处理发生的缓慢问题，也消除了冗余问题。
8.为了达到上述目的，本发明采用了下列技术方案：
9.一种基于强化学习的多粒度抽取-生成混合式文摘方法，包括以下步骤：
10.步骤1，使用抽取式模块选择关键语义信息；
11.步骤2，使用生成式模块压缩重写选择的关键语义信息；
12.步骤3，使用基于a2c策略梯度的多智能体强化学习框架连接并以端到端的方式训练抽取式模块和生成式模块。
13.进一步，所述步骤1中使用抽取式模块选择关键语义信息，具体步骤为：
14.步骤1.1，采用bert预训练模型对整篇文档的词和句子进行编码，得到词级特征编码ti和句子级特征编码hk；
15.步骤1.2，将得到词级特征编码ti和句子级特征编码hk输入词级解码器d
w2w
和句子级解码器d
s2s
中供后续解码使用。
16.更进一步，所述步骤1.1中采用bert预训练模型对整篇文档的词和句子进行编码，得到词级特征编码ti和句子级特征编码hk，具体步骤为：
17.对于词级特征编码，将原始文档每个句子的每个词构造为词元嵌入向量，串联对应的段嵌入向量和位置嵌入向量，输入到bert模型中，生成最终的词级特征编码t＝{t
11
，t
12
，...，t
[seq]
}；
[0018]
对于句子级特征编码，在每个句子开头插入[cls]标记，句子末尾插入[seq]标记，区分多个句子，然后使用整句话的所有词对应的词元嵌入向量、段嵌入向量和位置嵌入向量，将整个句子映射为句子特征表示向量，即h＝{h1，h2，
…
，hm}。
[0019]
更进一步，所述步骤1.2中将编码后的词和句子输入词级解码器和句子级解码器
进行解码，具体步骤为：
[0020]
词级解码器和句子级解码器的结构为词级指针式抽取网络d
w2w
和句子级网络d
s2s
，解码过程的每一步，两种网络各自独立确定一个原文单词索引和原文语句索引，给定解码的任意一步j，两种解码器互不干扰使用隐藏状态和计算输入项嵌入表示wi和sk的注意力得分，如公式(1)和(2)所示：
[0021][0022][0023]
其中，wd、wev、v表示可训练的参数，t表示矩阵的转置；
[0024]
然后通过将注意力得分与编码器向量表示计算得到词和句子的上下文向量，如公式(3)和(4)所示：
[0025][0026][0027]
其中，m表示全文中词的最大数量，n表示全文中句子的最大数量；
[0028]
之后以上下文向量为输入，计算切换概率值qj，最后根据概率值结果是否为0或1，确定解码过程的每一步输出空值或对应原文位置，计算如公式(5)所示：
[0029][0030]
其中，fnn是前馈神经网络，sigmoid表示激活函数。
[0031]
进一步，对所述步骤1中的抽取式模块使用最大似然估计损失函数进行端到端训练最小化损失如公式(6)所示：
[0032][0033]
其中，t表示训练的最大步骤数，分别表示第j步时计算得到的切换开关、词级和句子级被选中标签。
[0034]
进一步，所述步骤2中使用生成式模块压缩重写选择的关键语义信息，首先在输入序列上构建对应的图结构，然后经过图编码器用来对所有关键句执行全局编码过程，图结构中结点之间的边是注意力权重值，通过多层的图注意力机制，利用明确的图结构来帮助组织摘要的内容。借助于图形建模，生成式模型从输入序列中分析出关键信息，有效地生成连贯的摘要。具体步骤为：
[0035]
步骤2.1，基于transformer结构构建基础的transformer编码层，对输入序列的词
元上下文执行编码过程，转为向量表示；
[0036]
步骤2.2，在基础的transformer编码层上扩展图编码层，图编码层根据特征向量表示初始化图结构节点，构建图结构，图编码层中使用图通知的自注意力机制在自注意力机制的基础上进行扩展，增加额外的成对关系偏置r
ij
，用于关注图特征表示中的配对关系，r
ij
基于图特征表示矩阵g权重的高斯偏置计算，如公式(10)所示：
[0037][0038]
其中，σ为标准差，用来表示图结构的影响强度，g
[i][j]
表示表示图特征矩阵中第i个节点和第j个节点之间的权重值；成对关系偏置r
ij
∈(-inf，0]衡量句子pi和pj之间的联系程度。因为softmax函数中指数运算的影响，成对关系偏置可以用隐式注意力分布乘以权重∈(0，1]来计算。
[0039]
给定表示第i句pi的第l-1个图编码层，其中只是输入的句子表示向量，对每个句子pi，上下文特征表示ui计算过程如公式(7)、(8)、(9)所示：
[0040][0041]
α
ij
＝softmax(e
ij
+r
ij
)(8)
[0042][0043]
其中，wq、wk、wv均为待训练的权重参数，e
ij
表示句子pi和pj之间的隐式关系权重，l表示图编码器的最大层数，d
head
表示多头注意力的维度；
[0044]
步骤2.3，使用包含relu激活函数的前馈神经网络和两层残差连接归一化，得到每个句子的向量表示如公式(11)和(12)所示：
[0045][0046][0047]
其中，w
o2
、w
o1
均为待训练的参数；
[0048]
步骤2.4，图解码层中使用两层图注意力层，由全局图注意力和局部图注意力组成，首先使用全局图注意力向量，给定用表示针对摘要中第t个词元的第l-1层图解码层的输出，应用前馈神经网络将转化为位置隐藏状态，再使用sigmoid激活函数计算得到摘要中第t个词元映射的重点句位置s
t
，如公式(13)所示：
[0049][0050]
其中，u
p
、w
p
表示权重矩阵；
[0051]
通过对图结构的正则化得到所有句子的注意力分布β
tj
，如公式(14)所示：
[0052][0053]
其中，g[s
t
][j]表示图特征矩阵中第s
t
个节点和第j个节点之间的权重值；
[0054]
全局图注意力向量g
t
通过句子向量的加权求和计算得到，如公式(15)所示：
[0055][0056]
然后继续计算局部图注意力l
t
，给定γ
t，ji
表示第t个摘要词元在第j个输入句子的第i个词元上的局部注意力分布，局部归一化注意力的计算公式如公式(16)所示：
[0057][0058]
而局部图注意力l
t
通过所有句子中词元向量的加权和计算得到，如公式(17)所示：
[0059][0060]
步骤2.5，通过对全局图注意力和局部图注意力串联和线性转换，计算出层次化的图注意力表示，如公式(18)所示：
[0061][0062]
其中，ud表示权重矩阵；
[0063]
步骤2.6，层次化图注意力经过前馈神经网络和残差连接归一化计算过程，迭代输出生成的摘要概率分布。
[0064]
进一步，所述步骤3中使用基于a2c策略梯度的多智能体强化学习框架连接并以端到端的方式训练抽取式模块和生成式模块，步骤1中的单词和句子提取器d
w2w
和d
s2s
作为强化学习的代理aw和as操作。此外，框架中还包含一个通讯器m，传递信息来协调代理的动作，解决多个独立的代理角色可能出现的稳定问题。具体步骤为：
[0065]
步骤3.1，在解码过程的第j步，词级抽取式模块和句子级抽取式模块作为强化学习框架中的两种代理角色(agent)，即词级代理aw和句子级代理as，基于各自的策略网络和以及隐藏状态和一起考虑，选择要执行的动作和
[0066]
步骤3.2，若通讯器m(communicator)在基于执行的动作输出重点句集合，随后强化学习框架使用rouge-1指标计算评价得分，用r1表示，计算出生成摘要和真实摘要之间的句子奖励同时词级代理aw按照原文顺序匹配选中的关键词，如果单词在原文句子的关键词集合中，动作得到的单词奖励就为1，否则为0；
[0067]
步骤3.3，多个代理角色的联合动作最终会在多代理的合作环境中得到一个全局奖励，如公式(19)所示：
[0068][0069]
其中，t表示句子级代理as输出的最后一步，λ为调节全局词奖励贡献程度的超参数，表示真实摘要句子集合，w表示真实的关键词集合；
[0070]
步骤3.4，计算得到动作和对应的价值和如公式(20)～(23)所示：
[0071][0072][0073][0074][0075]
其中，为折扣回报，γ为超参数；
[0076]
步骤3.5，评论家(critic)结构双向lstm网络，在训练过程的每一步j，评论家根据代理作出的选择计算梯度值和如公式(24)和(25)所示：
[0077][0078][0079]
其中，表示参数化后的随机策略。
[0080]
与现有技术相比本发明具有以下优点：
[0081]
本发明提出了基于强化学习的多粒度抽取生成混合架构，按照架构执行的顺序，从两种层级的抽取式模块，到基于transformer的图神经网络结构，再到引导两者的多智能体强化学习框架，解决了传统摘要模型的冗余问题，让模型学习更深入的句子间关系，在自动文本摘要任务上具有更高的准确性和稳定性，同时因为模块彼此间独立的架构，可以方便的对各个模块更新迭代，提升模型整体性能。
附图说明
[0082]
图1为本发明整体模型架构示意图；
[0083]
图2为本发明抽取式模块架构示意图；
[0084]
图3为本发明生成式模块示意图。
具体实施方式
[0085]
实施例1
[0086]
本发明的一种基于强化学习的多粒度抽取-生成混合式文摘方法，包括以下步骤：
[0087]
步骤1，使用抽取式模块(如图2所示)选择关键语义信息，具体包括以下步骤：
[0088]
步骤1.1，采用bert预训练模型对整篇文档的词和句子进行编码，得到词级特征编码ti和句子级特征编码hk：
[0089]
对于词级特征编码，将原始文档每个句子的每个词构造为词元嵌入向量，串联对应的段嵌入向量和位置嵌入向量，输入到bert模型中，生成最终的词级特征编码t＝{t
11
，
t
12
，...，t
[seq]
}；
[0090]
对于句子级特征编码，在每个句子开头插入[cls]标记，句子末尾插入[seq]标记，区分多个句子，然后使用整句话的所有词对应的词元嵌入向量、段嵌入向量和位置嵌入向量，将整个句子映射为句子特征表示向量，即h＝{h1，h2，...，hm}。
[0091]
步骤1.2，将得到词级特征编码ti和句子级特征编码hk输入词级解码器d
w2w
和句子级解码器d
s2s
中供后续解码使用：
[0092]
词级解码器和句子级解码器的结构为词级指针式抽取网络d
w2w
和句子级网络d
s2s
，解码过程的每一步，两种网络各自独立确定一个原文单词索引和原文语句索引，给定解码的任意一步j，两种解码器互不干扰使用隐藏状态和计算输入项嵌入表示wi和sk的注意力得分，如公式(1)和(2)所示：
[0093][0094][0095]
其中，wd、wev、v表示可训练的参数，t表示矩阵的转置；
[0096]
然后通过将注意力得分与编码器向量表示计算得到词和句子的上下文向量，如公式(3)和(4)所示：
[0097][0098][0099]
其中，m表示全文中词的最大数量，n表示全文中句子的最大数量；
[0100]
之后以上下文向量为输入，计算切换概率值qj，最后根据概率值结果是否为0或1，确定解码过程的每一步输出空值或对应原文位置，计算如公式(5)所示：
[0101][0102]
其中，fnn是前馈神经网络，sigmoid表示激活函数。
[0103]
步骤2，使用生成式模块(如图3所示)压缩重写选择的关键语义信息，具体包括以下步骤：
[0104]
步骤2.1，基于transformer结构构建基础的transformer编码层，对输入序列的词元上下文执行编码过程，转为向量表示；
[0105]
步骤2.2，在基础的transformer编码层上扩展图编码层，图编码层根据特征向量表示初始化图结构节点，构建图结构，图编码层中使用图通知的自注意力机制在自注意力机制的基础上进行扩展，增加额外的成对关系偏置r
ij
，用于关注图特征表示中的配对关系，r
ij
基于图特征表示矩阵g权重的高斯偏置计算，如公式(10)所示：
[0106][0107]
其中，σ为标准差，用来表示图结构的影响强度，g
[i][j]
表示表示图特征矩阵中第i个节点和第j个节点之间的权重值；
[0108]
给定表示第i句pi的第l-1个图编码层，其中只是输入的句子表示向量，对每个句子pi，上下文特征表示ui计算过程如公式(7)、(8)、(9)所示：
[0109][0110]
α
ij
＝sofmax(e
ij
+r
ij
)(8)
[0111][0112]
其中，wq、wk、wv均为待训练的权重参数，e
ij
表示句子pi和pj之间的隐式关系权重，l表示图编码器的最大层数，d
head
表示多头注意力的维度；
[0113]
步骤2.3，使用包含relu激活函数的前馈神经网络和两层残差连接归一化，得到每个句子的向量表示如公式(11)和(12)所示：
[0114][0115][0116]
其中，w
o2
、w
o1
均为待训练的参数；
[0117]
步骤2.4，图解码层中使用两层图注意力层，由全局图注意力和局部图注意力组成，首先使用全局图注意力向量，给定用表示针对摘要中第t个词元的第l-1层图解码层的输出，应用前馈神经网络将转化为位置隐藏状态，再使用sigmoid激活函数计算得到摘要中第t个词元映射的重点句位置s
t
，如公式(13)所示：
[0118][0119]
其中，u
p
、w
p
表示权重矩阵；
[0120]
通过对图结构的正则化得到所有句子的注意力分布β
tj
，如公式(14)所示：
[0121][0122]
其中，g[s
t
][j]表示图特征矩阵中第s
t
个节点和第j个节点之间的权重值；
[0123]
全局图注意力向量g
t
通过句子向量的加权求和计算得到，如公式(15)所示：
[0124][0125]
然后继续计算局部图注意力l
t
，给定γ
t，ji
表示第t个摘要词元在第j个输入句子的第i个词元上的局部注意力分布，局部归一化注意力的计算公式如公式(16)所示：
[0126][0127]
而局部图注意力l
t
通过所有句子中词元向量的加权和计算得到，如公式(17)所示：
[0128][0129]
步骤2.5，通过对全局图注意力和局部图注意力串联和线性转换，计算出层次化的图注意力表示，如公式(18)所示：
[0130][0131]
其中，ud表示权重矩阵；
[0132]
步骤2.6，层次化图注意力经过前馈神经网络和残差连接归一化计算过程，迭代输出生成的摘要概率分布。
[0133]
步骤3，使用基于a2c策略梯度的多智能体强化学习框架连接并以端到端的方式训练抽取式模块和生成式模块(如图1所示)，具体包括以下步骤：
[0134]
步骤3.1，在解码过程的第j步，词级抽取式模块和句子级抽取式模块作为强化学习框架中的两种代理角色，即词级代理aw和句子级代理as，基于各自的策略网络和以及隐藏状态和一起考虑，选择要执行的动作和
[0135]
步骤3.2，若通讯器m在基于执行的动作输出重点句集合，随后强化学习框架使用rouge-1指标计算评价得分，用r1表示，计算出生成摘要和真实摘要之间的句子奖励同时词级代理aw按照原文顺序匹配选中的关键词，如果单词在原文句子的关键词集合中，动作得到的单词奖励就为1，否则为0；
[0136]
步骤3.3，多个代理角色的联合动作最终会在多代理的合作环境中得到一个全局奖励，如公式(19)所示：
[0137][0138]
其中，t表示句子级代理as输出的最后一步，λ为调节全局词奖励贡献程度的超参数，表示真实摘要句子集合，w表示真实的关键词集合；
[0139]
步骤3.4，计算得到动作和对应的价值和如公式(21)～(24)所示：
[0140][0141][0142]
[0143][0144]
其中，为折扣回报，γ为折扣系数；
[0145]
步骤3.5，评论家结构双向lstm网络，在训练过程的每一步j，评论家根据代理作出的选择计算梯度值和如公式(24)和(25)所示：
[0146][0147][0148]
其中，表示参数化后的随机策略。
[0149]
实施例2
[0150]
1、实验数据集和评价指标
[0151]
本发明在cnn/daily mail数据集和new york times数据集上评估了整个模型，这两个数据集的摘要都是由多个句子组成。cnn/daily mail数据集由30多万篇新闻文章组成，每篇文章都与几个重点配对在一起。对数据集使用标准划分法进行训练、验证和测试，不过没有对实体进行匿名处理，然后使用stanford corenlp分割处理句子后，再对数据集执行预处理方法，处理完成的数据中包含原始文档和真实摘要。new york times数据集也是由许多新闻文章组成，首先清洗数据，删除短于50字的摘要文件，然后执行数据集拆分，最终90％的数据用于训练，剩余10％用于测试实例。
[0152]
本发明使用rouge-1、rouge-2、rouge-l和meteor四个评价指标来全面衡量模型的性能，计算方式如公式(26)～(28)所示：
[0153][0154][0155]
meteor＝(1-pen)\timesf
means
(28)
[0156]
其中，rouge指标是在自动文本摘要、问答生成等自然语言处理领域常见的评估指标，通过将模型产生的摘要与真实摘要进行比较计算得到分数。rouge-n是将模型产生的摘要与真实摘要按n-gram拆分后，计算召回率。rouge-l的l表示最长公共子序列，最长公共子序列计算产生摘要与真实摘要的准确率和召回率，两者结合计算最终得分，可作为访问频率的手段。meteor为产生摘要和与真实摘要之间的准确率和召回率的调和平均，将词序纳入评估范畴。
[0157]
2、实验环境设置
[0158]
实验模型训练阶段将输入序列中词的最大限制设定为800，每句话中词的最大数量截断为60个。在训练集上使用word2vec生成128维的词嵌入向量。词汇表由训练集中最常
见的50000个词组成。使用的一维卷积滤波器具有3种不同窗口大小：3、4和5，每个中间句子表示的维度为300。框架中的所有lstm的维度设置为256，使用的adam优化器，预训练阶段的学习率为0.001，在强化学习训练阶段的学习率为0.0001。采用梯度裁剪法来缓解梯度爆炸。在验证集上使用前面描述的停止方法。强化学习框架设置中，折扣系数γ被设置为0.95。测试阶段，波束大小设置为5执行波束搜索。
[0159]
3、实验基线模型
[0160]
本发明选取以下抽取式模型和生成式模型作为实验的基线模型：
[0161]
1)ptgen+coverage模型：一种编码器-解码器模型，通过指向从原始文档中复制单词，同时保留了通过生成器产生新单词的能力，并引入了覆盖机制来解决重复冗余问题。
[0162]
2)transformer-lm模型：基于transformer的摘要模型，通过实例化输入序列嵌入式向量来增强摘要模型的输入序列特征表示，再通过对transformer微调帮助理解输入序列。
[0163]
3)bertsumextabs模型：一种采用bert作为编码器的编码器-解码器模型，第一阶段使用带有bert编码器的模型完成提取任务，然后再将训练好的bert编码器和6层transformer层结合起来，形成生成式摘要模型。
[0164]
4)bart模型：一种基于transformer的序列到序列模型，与bertsumextabs模型类似。但与bertsumextabs的编码器的微调和解码器的再次训练不同，对于bart，编码器和解码器都只进行了微调。
[0165]
4.实验结果
[0166]
将本发明的混合架构与其他基线模型在cnn/daily mail数据集和new york times数据集上进行对比，实验结果如表1所示：
[0167]
表1 cnn/daily mail数据集和new york times数据集实验结果
[0168][0169]
表1展示了各种模型在cnn/daily mail数据集和new york times数据集上训练和测试的实验结果。本发明的混合架构模型性能超过了单独抽取式和单独生成式的基线模型，也超过了混合架构的基线模型bertsumextabs。本发明的混合架构模型的性能改进主要体现在提取然后生成的摘要产生机制、包含词级解码器的抽取式模块和图注意力增强的生成式模块共同创造的。混合架构中的抽取式模块，能够利用到多粒度的原文信息，与基于演员-评论家的多智能体强化学习框架非常有效的结合，因此获得了更高的性能。从实验结果
中可以看到，抽取式模块的表现优于基线模型，证明抽取式模块能选择到更关键的句子。通过混合架构消融实验结果可以看到生成式模块在所有四个指标上都取得了明显的进步，证明了生成式模块的有效性。同时生成式模块的图模型能有效的与预训练语言模型结合，与其他预训练语言模型对比，也证明预训练语言模型对图模型的重要性。架构中使用到的重新排序策略也能帮助提高性能，有助于生成式模块压缩抽取到的关键语句，解决跨句子的冗余问题，获取到简洁的信息，改进后的实验结果也证明了成功消除了一些冗余表达，产生了更简洁的摘要。

技术特征：
1.一种基于强化学习的多粒度抽取-生成混合式文摘方法，其特征在于，包括以下步骤：步骤1，使用抽取式模块选择关键语义信息；步骤2，使用生成式模块压缩重写选择的关键语义信息；步骤3，使用基于a2c策略梯度的多智能体强化学习框架连接并以端到端的方式训练抽取式模块和生成式模块。2.根据权利要求1所述的一种基于强化学习的多粒度抽取-生成混合式文摘方法，其特征在于，所述步骤1中使用抽取式模块选择关键语义信息，具体步骤为：步骤1.1，采用bert预训练模型对整篇文档的词和句子进行编码，得到词级特征编码t
i
和句子级特征编码h
k
；步骤1.2，将得到词级特征编码t
i
和句子级特征编码h
k
输入词级解码器d
w2w
和句子级解码器d
s2s
中供后续解码使用。3.根据权利要求2所述的一种基于强化学习的多粒度抽取-生成混合式文摘方法，其特征在于，所述步骤1.1中采用bert预训练模型对整篇文档的词和句子进行编码，得到词级特征编码t
i
和句子级特征编码h
k
，具体步骤为：对于词级特征编码，将原始文档每个句子的每个词构造为词元嵌入向量，串联对应的段嵌入向量和位置嵌入向量，输入到bert模型中，生成最终的词级特征编码t＝{t
11
,t
12
,...,t
[seq]
}；对于句子级特征编码，在每个句子开头插入[cls]标记，句子末尾插入[seq]标记，区分多个句子，然后使用整句话的所有词对应的词元嵌入向量、段嵌入向量和位置嵌入向量，将整个句子映射为句子特征表示向量，即h＝{h1，h2，
…
，h
m
}。4.根据权利要求2所述的一种基于强化学习的多粒度抽取-生成混合式文摘方法，其特征在于，所述步骤1.2中将编码后的词和句子输入词级解码器和句子级解码器进行解码，具体步骤为：词级解码器和句子级解码器的结构为词级指针式抽取网络d
w2w
和句子级网络d
s2s
，解码过程的每一步，两种网络各自独立确定一个原文单词索引和原文语句索引，给定解码的任意一步j，两种解码器互不干扰使用隐藏状态和计算输入项嵌入表示w
i
和s
k
的注意力得分，如公式(1)和(2)所示：力得分，如公式(1)和(2)所示：其中，w
d
、w
e
v、v表示可训练的参数，t表示矩阵的转置；然后通过将注意力得分与编码器向量表示计算得到词和句子的上下文向量，如公式(3)和(4)所示：
其中，m表示全文中词的最大数量，n表示全文中句子的最大数量；之后以上下文向量为输入，计算切换概率值q
j
，最后根据概率值结果是否为0或1，确定解码过程的每一步输出空值或对应原文位置，计算如公式(5)所示：其中，fnn是前馈神经网络，sigmoid表示激活函数。5.根据权利要求1所述的一种基于强化学习的多粒度抽取-生成混合式文摘方法，其特征在于，对所述步骤1中的抽取式模块使用最大似然估计损失函数进行端到端训练最小化损失如公式(6)所示：其中，t表示训练的最大步骤数，分别表示第j步时计算得到的切换开关、词级和句子级被选中标签。6.根据权利要求1所述的一种基于强化学习的多粒度抽取-生成混合式文摘方法，其特征在于，所述步骤2中使用生成式模块压缩重写选择的关键语义信息，具体步骤为：步骤2.1，基于transformer结构构建基础的transformer编码层，对输入序列的词元上下文执行编码过程，转为向量表示；步骤2.2，在基础的transformer编码层上扩展图编码层，图编码层根据特征向量表示初始化图结构节点，构建图结构，图编码层中使用图通知的自注意力机制在自注意力机制的基础上进行扩展，增加额外的成对关系偏置r
ij
，用于关注图特征表示中的配对关系，r
ij
基于图特征表示矩阵g权重的高斯偏置计算，如公式(10)所示：其中，σ为标准差，用来表示图结构的影响强度，g
[i][j]
表示表示图特征矩阵中第i个节点和第j个节点之间的权重值；给定表示第i句p
i
的第l-1个图编码层，其中只是输入的句子表示向量，对每个句子p
i
，上下文特征表示u
i
计算过程如公式(7)、(8)、(9)所示：α
ij
＝softmax(e
ij
+r
ij
) (8)其中，w
q
、w
k
、wv均为待训练的权重参数，e
ij
表示句子p
i
和p
j
之间的隐式关系权重，l表示图编码器的最大层数，d
head
表示多头注意力的维度；
步骤2.3，使用包含relu激活函数的前馈神经网络和两层残差连接归一化，得到每个句子的向量表示如公式(11)和(12)所示：如公式(11)和(12)所示：其中，w
o2
、w
o1
均为待训练的参数；步骤2.4，图解码层中使用两层图注意力层，由全局图注意力和局部图注意力组成，首先使用全局图注意力向量，给定用表示针对摘要中第t个词元的第l-1层图解码层的输出，应用前馈神经网络将转化为位置隐藏状态，再使用sigmoid激活函数计算得到摘要中第t个词元映射的重点句位置s
t
，如公式(13)所示：其中，u
p
、w
p
表示权重矩阵；通过对图结构的正则化得到所有句子的注意力分布β
tj
，如公式(14)所示：其中，g[s
t
][j]表示图特征矩阵中第s
t
个节点和第j个节点之间的权重值；全局图注意力向量g
t
通过句子向量的加权求和计算得到，如公式(15)所示：然后继续计算局部图注意力l
t
，给定γ
t，ji
表示第t个摘要词元在第j个输入句子的第i个词元上的局部注意力分布，局部归一化注意力的计算公式如公式(16)所示：而局部图注意力l
t
通过所有句子中词元向量的加权和计算得到，如公式(17)所示：步骤2.5，通过对全局图注意力和局部图注意力串联和线性转换，计算出层次化的图注意力表示，如公式(18)所示：其中，u
d
表示权重矩阵；步骤2.6，层次化图注意力经过前馈神经网络和残差连接归一化计算过程，迭代输出生成的摘要概率分布。7.根据权利要求1所述的一种基于强化学习的多粒度抽取-生成混合式文摘方法，其特征在于，所述步骤3中使用基于a2c策略梯度的多智能体强化学习框架连接并以端到端的方式训练抽取式模块和生成式模块，具体步骤为：步骤3.1，在解码过程的第j步，词级抽取式模块和句子级抽取式模块作为强化学习框架中的两种代理角色，即词级代理a
w
和句子级代理a
s
，基于各自的策略网络和以及隐藏状态和一起考虑，选择要执行的动作和
步骤3.2，若通讯器m在基于执行的动作输出重点句集合，随后强化学习框架使用rouge-1指标计算评价得分，用r1表示，计算出生成摘要和真实摘要之间的句子奖励同时词级代理a
w
按照原文顺序匹配选中的关键词，如果单词在原文句子的关键词集合中，动作得到的单词奖励就为1，否则为0；步骤3.3，多个代理角色的联合动作最终会在多代理的合作环境中得到一个全局奖励，如公式(19)所示：其中，t表示句子级代理a
s
输出的最后一步，λ为调节全局词奖励贡献程度的超参数，表示真实摘要句子集合，w表示真实的关键词集合；步骤3.4，计算得到动作和对应的价值和如公式(20)～(23)所示：如公式(20)～(23)所示：如公式(20)～(23)所示：如公式(20)～(23)所示：其中，为折扣回报，γ为折扣参数；步骤3.5，评论家结构双向lstm网络，在训练过程的每一步j，评论家根据代理作出的选择计算梯度值和如公式(24)和(25)所示：如公式(24)和(25)所示：其中，表示参数化后的随机策略。

技术总结
本发明属于自然语言处理技术领域，具体涉及一种基于强化学习的多粒度抽取-生成混合式文摘方法。为解决传统生成式模型在生成摘要的过程中的长文本推理缓慢、编码不准确和冗余问题，本发明使用一种抽取-生成混合架构，用多智能体强化学习驱动整个架构，在保留生成式摘要可读性和简洁性优势的基础上，也能利用抽取式模型获得原文的重要语义信息。利用基于A2C策略的强化学习模型学习词句的层次结构，能够更好的模拟语言结构，使并行化训练模型成为可能。能。能。

技术研发人员：郭鑫任翔宇陈千王素格郑建兴廖健
受保护的技术使用者：山西大学
技术研发日：2023.04.06
技术公布日：2023/7/18

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种含埃洛石的导电浆料、涂碳箔及其制备方法和应用与流程 下一篇：一种光伏组件胶膜自动纠偏设备及纠偏方法与流程

一种基于强化学习的多粒度抽取-生成混合式文摘方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于强化学习的多粒度抽取-生成混合式文摘方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表