一种基于指针生成网络的工单摘要提取方法和系统与流程

未命名 07-13 阅读:102 评论:0


1.本发明涉及电数字数据处理技术领域,具体涉及一种基于指针生成网络的工单摘要提取方法和系统。


背景技术:

2.用户与坐席对话的形成工单数据,为快速掌握工单数据的信息及用户意图,通常采用自动文本提要生成的方法,提取工单摘要。其中,自动文本摘要生成方法一般分为两类:抽取式和生成式。抽取式文本摘要主要考虑单词词频,没有过多的语义信息,无法建立段落中的完整语义信息。而生成式文本摘要使用的网络模型结构通常采用sequence_to_sequence构架(简称seq2seq),主要由编码器和解码器组成。编码和解码阶段由神经网络实现,编码器负责将源文本编码成向量,解码器负责从向量中提取重要信息,生成文本摘要。seq2seq模型存在的问题是:无法处理未登录词(oov)问题;内容会出现重复。


技术实现要素:

3.针对现有技术中存在的上述技术问题,本发明提供一种基于指针生成网络的工单摘要提取方法和系统,通过基于指针生成网络的近端策略优化方法,提取句子的摘要,具有产生新单词的能力,可处理未登录词;避免重复内容的出现。
4.本发明公开了一种基于指针生成网络的工单摘要提取方法,所述方法包括:获得第二训练样本集;基于近端策略优化方法,对所述第二训练集进行训练,获得提取模型,其中,所述近端策略优化方法的演员部分采用指针生成网络;通过所述提取模型对工单数据进行分析,获得工单摘要。
5.优选的,本发明还包括对工单数据进行筛选的方法:
6.基于强化学习的方法,获得工单数据的句子的评分;
7.根据所述评分,对工单数据的句子进行筛选,获得重要句子;
8.通过所述提取模型对所述重要句子进行分析,获得工单摘要。
9.优选的,获得句子评分的方法包括:
10.获得第一训练样本集;
11.基于lstm加持的策略梯度方法,对所述第一训练样本集进行训练,获得筛选模型;
12.基于所述筛选模型,对工单数据的句子进行评分。
13.优选的,基于所述评分对工单数据的句子进行筛选的方法包括:
14.获得句子位置的权重;
15.基于所述权重和评分,获得综合得分;
16.按照综合得分的大小,筛选重要句子。
17.优选的,近端策略优化方法的演员部分用于生成摘要序列;
18.近端策略优化方法的评论家部分用于对演员部分进行评估,获得评估价值,并根据评估价值更新演员部分的参数。
19.优选的,评估价值的公式表示为:
20.rouge=(rouge1+rouge2+rouge
l
)/3
[0021][0022][0023]
其中,rouge表示为评估价值,rouge
l
表示为基于最长公共子序列的评估指标,o1表示为演员部分输出的序列与标准序列的一元词重叠数,o2表示为演员部分输出的序列与标准序列的二元词重叠数,count
true 1-gram
表示为标准序列的一元词数,count
true 2-gram
表示为标准序列的二元词数。
[0024]
优选的,将奖励或评估价值的均方误差作为评论家部分的损失函数,并通过反向传播更新评论家部分的网络参数;
[0025]
通过奖励或评估价值获得演员部分的损失函数,并通过反向传播更新演员部分的网络参数,演员部分的损失函数表示为:
[0026]
actor
loss
=∑min{ratio
×
reward,clip(ratio,1-ε,1+ε)
×
reward}
[0027]
其中,actor
loss
表示为演员部分的损失,min()表示为最小化函数,ratio表示为重要性权重,clip()表示为剪裁函数,ε为常数。
[0028]
优选的,所述指针生成网络中引用了生成概率和覆盖机制。
[0029]
本发明还提供一种用于实现上述方法的系统,包括预处理模块和摘要提取模块,
[0030]
所述预处理模块用于获得第二训练样本集;
[0031]
所述摘要提取模块用于通过所述提取模型对工单数据进行分析,获得工单摘要。
[0032]
优选的,所述系统还包括筛选模块,
[0033]
所述筛选模块用于基于强化学习的方法,获得工单数据的句子的评分;基于所述评分,对工单数据的句子进行筛选,获得重要句子;
[0034]
所述摘要提取模块用于通过所述提取模型对所述重要句子进行分析,获得工单摘要。
[0035]
与现有技术相比,本发明的有益效果为:指针生成网络用于对工单数据进行处理,生成摘要序列,有助于准确地复制信息,并保留产生新单词的能力,从而解决未登录词问题;解决重复生成文本的问题;评论家部分通过评估价值对演员部分进行评估并指导演员下一步的动作,提高工单摘要的准确性和流畅性。
附图说明
[0036]
图1是本发明的基于指针生成网络的工单摘要提取方法流程图;
[0037]
图2是实施例1的模型训练和工单摘要提取的方法流程图;
[0038]
图3是实施例2的系统逻辑框图。
具体实施方式
[0039]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例
中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0040]
下面结合附图对本发明做进一步的详细描述:
[0041]
一种基于指针生成网络的工单摘要提取方法,如图1所示,所述方法包括:
[0042]
步骤101:获得第二训练样本集。
[0043]
步骤102:基于近端策略优化(proximal policy optimization,ppo)方法,对所述第二训练集进行训练,获得提取模型,其中,所述近端策略优化方法的演员部分采用指针生成网络(pointer generator network)。
[0044]
近端策略优化包括两个网络:演员(actor)部分和评论家(critic)部分,演员部分用于生成摘要序列;评论家部分用于对演员部分进行评估,获得评估价值,并根据评估价值更新演员部分的参数。
[0045]
步骤103:通过所述提取模型对工单数据进行分析,获得工单摘要,即工单内容。
[0046]
指针生成网络用于对工单数据进行处理,生成摘要序列,其引入生成概率(pgen)以权衡一个词是生成的、还是复制的;p
gen
用于限制词的输出概率,使得解码器中词的输出概率由拷贝和生成的概率共同决定,有助于准确地复制信息,并保留产生新单词的能力,从而解决未登录词问题。指针生成网络还引入覆盖机制(coverage mechanism),来解决重复生成文本的问题,从而解决未登录词和重复内容的问题;评论家部分通过评估价值对演员部分进行评估并指导演员下一步的动作,提高工单摘要的准确性和流畅性。
[0047]
另外,ppo强化学习算法,减少了整个网络训练的时间,降低时间的开销;指针生成网络中的解码器内部添加覆盖机制和注意力机制,将前一时间步的注意力权重加到一起得到覆盖向量,用前一时间步的注意力权重决策影响当前注意力权重的决策,从而解决重复生成文本的问题,提升工单摘要提取的准确度。
[0048]
在提取工单摘要前,还可以对工单数据的句子进行筛选:
[0049]
步骤201:基于强化学习的方法,获得工单数据的句子评分。具体的,强化学习方法可以采用lstm加持的policy gradient算法。
[0050]
步骤202:基于所述评分对对工单数据的句子进行筛选,获得重要句子。
[0051]
步骤203:通过所述提取模型对所述重要句子进行分析,获得工单摘要。
[0052]
通过策略梯度强化学习结合语义信息对句子进行排序,并使用抽取式方法对工单数据进行过滤,去除相似句子和相对不重要的句子,可更好的保留重要信息。
[0053]
具体的,步骤201中获得工单数据的句子评分的方法包括:
[0054]
步骤211:获得第一训练样本集。
[0055]
步骤212:基于lstm加持的策略梯度(policy gradient,pg)方法,对所述第一训练样本集进行训练,获得筛选模型。
[0056]
步骤213:基于所述筛选模型,对工单数据的句子进行评分。
[0057]
但不限于此,还可以通过句子位置对工单数据进行筛选:
[0058]
步骤221:获得句子位置的权重;
[0059]
步骤222:基于步骤221的权重和步骤213的评分,获得综合得分;
[0060]
步骤224:按照综合得分的大小,筛选重要句子。可以采用权重与评分的积作为综
合得分,但不限于此。
[0061]
近端策略优化的演员(actor)部分的网络参数为ω和评论家(critic)部分的网络参数为θ,actor-critic之间的交互过程如下:
[0062]
将当前状态,预测的某个文本序列,则将当前时刻t的文本序列(y
t
)输入到actor-new网络中,该时刻t所有可能的文本序列集合(状态空间)s
t
=(s1,s2,...,si,....,sn),其中n为t时刻所有可能的文本序列个数,si=(y1,y2,...,y
t
,y
t+1
,...,ym),其中m为文本的长度。经过样本抽取(sample)从文本集合(状态空间)挑选句子,得到奖励(reward)和下一个状态y
t+1
,句子/序列si的奖励计算公式为:
[0063]
reward=rouge(y
true
,si)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0064]
其中y
true
为标准摘要,rouge(y
true
,si)简写为rouge,则步骤102中,评估价值的公式表示为:
[0065]
rouge=(rouge1+rouge2+rouge
l
)/3
ꢀꢀꢀꢀꢀꢀ
(2)
[0066][0067][0068][0069][0070]
其中,rouge表示为评估价值,rouge
l
表示为基于最长公共子序列的评估指标,o1表示为演员部分输出的序列si与标准序列y
true
的一元词(1-gram)重叠数,o2表示为演员部分输出的序列si与标准序列y
true
的二元词重叠数(2-gram),count
true 1-gram
表示为标准序列的一元词数,count
true 2-gram
表示为标准序列的二元词数。标准序列表示为y
true
=y1,y2,...,ym。rouge1表示为一元词重叠数与标准序列一元词数的比例;rouge2表示为二元词重叠数与标准序列二元词数的比例。lcs(si,y
true
)表示为演员部分输出的序列si与标准序列y
true
的最长公共子序列,len()表示为序列的长度,β为超参数,可以人为设置。
[0071]
通过评论家部分计算的评估价值(rouge),计算每一步的奖励(reward)。将奖励(reward)的均方误差作为critic部分的损失函数,通过反向传播更新网络参数w。critic网络的损失函数表示为:
[0072]
critic
loss
=mse(reward)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)。
[0073]
演员部分包括actor-new和actor-old两个网络,将文本序列集合分别输入到actor-new和actor-old网络中,得到每个文本序列的概率prob 1和prob 2,计算重要性权重(importance weight),即
[0074]
ratio=prob2/prob1
[0075]
其中,ratio表示为重要性权重,prob2为actor-old得到的每个文本序列的概率,prob1为actor-new得到的每个文本序列的概率。
[0076]
actor网络的目标函数为:
[0077]
actor
loss
=σmin{ratio
×
reward,clip(ratio,1-ε,1+ε)
×
reward}
ꢀꢀꢀꢀ
(7)
[0078]
其中ε为常数,clip()表示为剪裁函数,其含义是指:在括号里有三项,如果第一项小于第二项,则输出1-ε;如果第一项大于第三项的话,则输出1+ε。通过最小化目标函数,反向传播更新actor-new网络参数。
[0079]
可见,critic部分将奖励(reward)反馈给actor部分,参与actor部分的损失函数,critic会使用新的网络参数w来帮actor计算摘要序列对应的最优reward,从而指导actor下一步的动作。根据所述评估值更新演员部分参数的更新函数表示为:
[0080][0081]
更新评论家部分参数的更新函数表示为:
[0082][0083]
其中,ω为演员部分的网络参数,θ为评论家部分的网络参数,η为学习率,表示为偏微分,可以人为设定。
[0084]
提取模型的损失函数表示为:
[0085]
loss=actor
loss
+critic
loss
[0086]
其中,loss表示为提取模型的损失函数,actor
loss
表示为演员部分的损失,critic
loss
表示为评论家部分的损失函数。
[0087]
实施例1
[0088]
如图2所示,模型训练和工单摘要提取的方法包括:
[0089]
步骤301:获取原始工单数据。可以从用户与客服的对话中提取,具体的提取客服系统的问题工单数据。
[0090]
步骤302:数据预处理,获得训练样本集。
[0091]
所述预处理包括:数据清洗、分词和划分数据集。具体的,通过数据清洗进行文件合并、去重、删除空数据等;对原始数据进行分词、去停用词、划分训练集和测试集,对训练集和测试集进行文本向量化表示等处理等。所述训练样本集包括:第一训练样本集和第二训练样本集。
[0092]
步骤303:基于强化学习算法,构建筛选模型。
[0093]
导入预处理后的数据,使用lstm加持的policy gradient算法完成筛选模型的训练,并将模型文件保存以用于新输入的工单数据的筛选。
[0094]
筛选模型的训练采用lstm+pg(policy gradient)的算法。
[0095]
输入参数:num_episodes:训练episode数量;hidden_size:隐层神经元数量;num_inputs:输入节点维度;lr:学习率;batch_size:batch数量;gamma:折扣因子;输出参数:save_model:pkl格式模型文件。
[0096]
加载该模型文件对工单数据进行预测,计算出得分;还可设定不同位置的句子权重,计算出句子最终的综合得分,按照得分降序排列选择综合得分最高的n个句子作为重要句子。其中,n为自然数。
[0097]
步骤304:基于指针生成网络和ppo强化学习方法,构建提取模型。
[0098]
输入参数:ep_max:最大步数;ep_len:最大长度;gamma:折扣因子;a_lr:a网络的
学习率;c_lr:c网络的学习率;batch:缓冲池长度;a_update_steps:演员部分的更新步长;c_update_steps:评论家部分的更新步长;s_dim:状态维度;a_dim:动作维度;输出参数:save_model:pkl格式模型文件。
[0099]
步骤305:通过筛选模型从待提取工单数据中筛选重要句子;通过提取模型从重要句子中提取工单摘要,即工单内容。
[0100]
导入需要进行提取的工单数据、以及上述两个模型文件及各类词库文件,对工单数据进行筛选和提取生成摘要内容,以完成工单内容提取的全过程。其中,词库文件包括是自定义分词词库和停用词词库。自定义分词词库作用于分词过程中分出原始词库中没有的词,可以更好的处理新词汇和专有名词,从而使分词更准确,提升工单数据分析的质量。停用词库的作用是去除工单数据中没有意义的字、词、符号,从而提升数据的质量。
[0101]
实施例2
[0102]
本实施例提供一种用于实现上述工单摘要提取方法的系统,如图3,包括预处理模块2和摘要提取模块4,预处理模块2用于获得第二训练样本集;摘要提取模块4用于通过所述提取模型对工单数据进行分析,获得工单摘要。
[0103]
所述系统还包括采集模块1和筛选模块3,采集模块1用于获得工单数据;预处理模块2还用于对工单数据进行预处理,筛选模块4用于对预处理后的工单数据进行筛选。
[0104]
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种基于指针生成网络的工单摘要提取方法,其特征在于,所述方法包括:获得第二训练样本集;基于近端策略优化方法,对所述第二训练集进行训练,获得提取模型,其中,所述近端策略优化方法的演员部分采用指针生成网络;通过所述提取模型对工单数据进行分析,获得工单摘要。2.根据权利要求1所述的工单摘要提取方法,其特征在于,还包括对工单数据进行筛选的方法:基于强化学习的方法,获得工单数据的句子的评分;根据所述评分,对工单数据的句子进行筛选,获得重要句子;通过所述提取模型对所述重要句子进行分析,获得工单摘要。3.根据权利要求2所述的工单摘要提取方法,其特征在于,获得句子评分的方法包括:获得第一训练样本集;基于lstm加持的策略梯度方法,对所述第一训练样本集进行训练,获得筛选模型;基于所述筛选模型,对工单数据的句子进行评分。4.根据权利要求3所述的工单摘要提取方法,其特征在于,基于所述评分对工单数据的句子进行筛选的方法包括:获得句子位置的权重;基于所述权重和评分,获得综合得分;按照综合得分的大小,筛选重要句子。5.根据权利要求1所述的工单摘要提取方法,其特征在于,近端策略优化方法的演员部分用于生成摘要序列;近端策略优化方法的评论家部分用于对演员部分进行评估,获得评估价值/奖励,并根据评估价值/奖励更新演员部分的参数。6.根据权利要求5所述的工单摘要提取方法,其特征在于,评估价值的公式表示为:rouge=(rouge1+rouge2+rouge
l
)/3)/3其中,rouge表示为评估价值,rouge
l
表示为基于最长公共子序列的评估指标,o1表示为演员部分输出的序列与标准序列的一元词重叠数,o2表示为演员部分输出的序列与标准序列的二元词重叠数,count
true 1-gram
表示为标准序列的一元词数,count
true 2-gram
表示为标准序列的二元词数。7.根据权利要求6所述的工单摘要提取方法,其特征在于,将奖励或评估价值的均方误差作为评论家部分的损失函数,并通过反向传播更新评论家部分的网络参数;通过奖励或评估价值获得演员部分的损失函数,并通过反向传播更新演员部分的网络参数,演员部分的损失函数表示为:
actor
loss
=∑min{ratio
×
reward,clip(ratio,1-ε,1+ε)
×
reward}其中,actor
loss
表示为演员部分的损失,min()表示为最小化函数,ratio表示为重要性权重,clip()表示为剪裁函数,ε为常数,reward表示为奖励。8.根据权利要求1所述的工单摘要提取方法,其特征在于,所述指针生成网络中引用了生成概率和覆盖机制。9.一种工单摘要提取的系统,其特征在于,所述系统用于实现如权利要求书1-8任一项所述的工单摘要提取方法,所述系统包括预处理模块和摘要提取模块,所述预处理模块用于获得第二训练样本集;所述摘要提取模块用于通过所述提取模型对工单数据进行分析,获得工单摘要。10.根据权利要求9所述的系统,其特征在于,所述系统还包括筛选模块,所述筛选模块用于基于强化学习的方法,获得工单数据的句子的评分;基于所述评分,对工单数据的句子进行筛选,获得重要句子;所述摘要提取模块用于通过所述提取模型对所述重要句子进行分析,获得工单摘要。

技术总结
本发明公开了一种基于指针生成网络的工单摘要提取方法和系统,属于电数字数据处理技术领域,所述方法包括:获得第二训练样本集;基于近端策略优化方法,对所述第二训练集进行训练,获得提取模型,其中,所述近端策略优化方法的演员部分采用指针生成网络;通过所述提取模型对工单数据进行分析,获得工单摘要。指针生成网络用于对工单数据进行处理,生成摘要序列,有助于准确地复制信息,并保留产生新单词的能力,从而解决未登录词问题;解决重复生成文本的问题;评论家部分通过评估价值对演员部分进行评估并指导演员下一步的动作,提高工单摘要的准确性和流畅性。摘要的准确性和流畅性。摘要的准确性和流畅性。


技术研发人员:王怡
受保护的技术使用者:北京思特奇信息技术股份有限公司
技术研发日:2023.03.07
技术公布日:2023/7/12
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐