基于特点主题的文本摘要生成方法

未命名 10-09 阅读:149 评论:0


1.本发明涉及一种文本摘要生成方法,尤其涉及一种基于特点主题的文本摘要生成方法。


背景技术:

2.信息技术的发展,文本内容爆发式增长,从文本中提取关键信息变得至关重要。自动生成摘要技术是自然语言处理领域重要研究内容之一,自动文本摘要技术能够提升信息获取速度和效率,减少冗余信息,在信息检索领域有巨大价值,为用户能够快速了解文本提供极大的便捷。
3.现有技术中,对于文本的摘要提取主要有两类方法,一类是抽取式摘要生成方法和生成式摘要生成方法,抽取式摘要方法是将自动文摘简单的看成二元分类任务,判断文档中的句子是否属于摘要内容,这种方法存在冗余、语义不连贯的问题,导致生成的摘要内容不便于用户使用,理解困难;生成式摘要生成方法对训练数据的文本摘要对的学习,根据不同的算法生成摘要,这种方式则存在生成的摘要与文本的原文事实存在巨大的偏差,摘要所包含的事件事实错误,不能为用户提供准确的信息。
4.因此,为了解决上述技术问题,亟需提出一种新的技术手段。


技术实现要素:

5.有鉴于此,本发明的目的是提供一种基于特点主题的文本摘要生成方法,将抽取式和生成式两类摘要生成方法进行有机结合,从而能够从事件新闻的文本中提取出语义连贯、简略的摘要,而且摘要所包含的事件事实与原文本能够保持一致,方便用户使用。
6.本发明提供的一种基于特点主体的文本摘要生成方法,包括以下步骤:
7.s1.获取同一事件新闻,该新闻包括新闻标题和新闻内容;
8.s2.对事件新闻进行预处理;
9.s3.对预处理后的事件新闻中的语句进行权重计算,并将各语句的权重进行由大到小进行排序,选择权重最大的m个语句,并将筛选出的m个语句在事件新闻原文中的顺序进行组合形成摘要信息;
10.s4.采用bert模型对预处理后的新闻事件进行处理,得到文本x,并将文本输入至sru模型中进行训练,并将sru模型的输出输入至注意力模型中进行提取,得到注意力特征a,并基于注意力特征a得到事件新闻文本第i个语句的预测结果;
11.s5.构建摘要生成模型unilm,将第i个语句的预测结果和步骤s3中形成的摘要信息输入至摘要生成模型unilm中并对摘要生成模型unilm进行训练;
12.s6.获取目标事件新闻,将目标事件新闻通过步骤s2、s3和s4处理后,将步骤s3处理后得到的摘要信息和步骤s4中的sru模型输出的信息输入至步骤s5训练完成后的摘要生成模型unilm中处理,输出最终的文本摘要。
13.进一步,步骤s3中,根据如下方法得到语句的权重:
[0014][0015]
其中,scorei为事件新闻的第i个语句的权重,ω
ij
为事件新闻的第i个语句的第j个词的权重。
[0016]
进一步,通过如下方法确定第j个词的权重ω
ij

[0017][0018]
其中:nj为第j个词在事件新闻的文本中出现的次数,n表示文档中词的总数,tf
ij
为第j个词在事件新闻的文本中出现的频率。
[0019]
进一步,步骤s4中,sru模型中采用如下公式进行计算:
[0020]yt
=σ(wt
t
)
[0021]ft
=σ(wft
t
+bf)
[0022]rt
=σ(wrt
t
+br)
[0023]ct
=f
t
⊙ct-1
+(1-f
t
)
⊙yt
[0024]ht
=r
t

g(c
t
)+(1-r
t
)

t
t
[0025]
其中:c
t
表示时刻t的隐状态,c
t-1
表示t-1的隐状态,h
t
表示t时刻的输出,f
t
表示sru模型的遗忘门输出,r
t
表示sru模型的重置门输出,σ表示sigmoid函数,g表示sru模型的激活函数,wf,wr和w是参数矩阵,bf和br是偏置常数。
[0026]
进一步,sru模型输出的结构拼接到一起得到输出h
t
,然后将输出h
t
输入至注意力模块,提取注意力特征a;
[0027]
事件文本的文本每个语句的预测输出为yi:
[0028]
yi=σ(wsa+bs)。
[0029]
进一步,所述注意力模块的损失函数为:
[0030][0031][0032]
ln是第n个句子的标签,yn是第n个句子的预测结果;λ为权重参数,为第n个句子的句向量与摘要向量s的余弦相似度。
[0033]
进一步,步骤s2中,对事件新闻进行预处理包括对新闻文本进行分词、去除停用词处理。
[0034]
本发明的有益效果:通过本发明,将抽取式和生成式两类摘要生成方法进行有机结合,从而能够从事件新闻的文本中提取出语义连贯、简略的摘要,而且摘要所包含的事件事实与原文本能够保持一致,方便用户使用。
附图说明
[0035]
下面结合附图和实施例对本发明作进一步描述:
[0036]
图1为本发明的流程图。
具体实施方式
[0037]
以下进一步对本发明做出详细说明:
[0038]
本发明提供的一种基于特点主体的文本摘要生成方法,包括以下步骤:
[0039]
s1.获取同一事件新闻,该新闻包括新闻标题和新闻内容;
[0040]
s2.对事件新闻进行预处理;
[0041]
s3.对预处理后的事件新闻中的语句进行权重计算,并将各语句的权重进行由大到小进行排序,选择权重最大的m个语句,并将筛选出的m个语句在事件新闻原文中的顺序进行组合形成摘要信息;其中,m的取值一般为3个,当然,也可以为4个或者5个,根据实际情况设定,当然,m的个数是要小于文本中的语句个数的;
[0042]
s4.采用bert模型对预处理后的新闻事件进行处理,得到文本x,并将文本输入至sru模型中进行训练,并将sru模型的输出输入至注意力模型中进行提取,得到注意力特征a,并基于注意力特征a得到事件新闻文本第i个语句的预测结果;
[0043]
其中,bert模型用于对步骤s2处理后的事件新闻的文本进行处理:
[0044]
文本x,x=[x1,x2,

,x
p
,

,xn],x
p
为第p个词向量,然后在每个句向量的句首插入标签[cls],在句尾插入标签[sep],在步骤s3中提取的摘要句加入相应的标签以表示该句为摘要局;bert模型把加入标签的句向量和摘要据输入至sru模型中进行处理;其中,bert模型的具体结构及原理采用现有技术即可,在此不加以赘述;
[0045]
s5.构建摘要生成模型unilm,将第i个语句的预测结果和步骤s3中形成的摘要信息输入至摘要生成模型unilm中并对摘要生成模型unilm进行训练;
[0046]
对摘要生成模型unilm进行训练包括两部分:
[0047]
预训练部分:取出一部分语料对原文进行预处理,生成伪摘要。具体方法是从原文中选取不连续句子,作为伪摘要。部分直接取原文和摘要。预处理文本x=[x1,x2,...,xn],xi为词向量。每个句子句首插入[cls],句尾插入[sep]标签。
[0048]
训练部分,为序列预测生成任务。将原文与摘要进行拼接。如[cls]x1,x2,x3[sep]y1,y2[sep],输入[cls]x1,x2,x3[sep]逐步预测y1和y2直到出现[sep]停止。
[0049]
s6.获取目标事件新闻,将目标事件新闻通过步骤s2、s3和s4处理后,将步骤s3处理后得到的摘要信息和步骤s4中的sru模型输出的信息输入至步骤s5训练完成后的摘要生成模型unilm中处理,输出最终的文本摘要;上述方法中,将抽取式和生成式两类摘要生成方法进行有机结合,从而能够从事件新闻的文本中提取出语义连贯、简略的摘要,而且摘要所包含的事件事实与原文本能够保持一致,方便用户使用。
[0050]
本实施例中,步骤s3中,根据如下方法得到语句的权重:
[0051][0052]
其中,scorei为事件新闻的第i个语句的权重,ω
ij
为事件新闻的第i个语句的第j个词的权重。
[0053]
其中,通过如下方法确定第j个词的权重ω
ij

[0054][0055]
其中:nj为第j个词在事件新闻的文本中出现的次数,n表示文档中词的总数,tf
ij
为第j个词在事件新闻的文本中出现的频率,通过上述方法,能够有效地对文本中的各语句的权重进行确定,并确定出目标语句作为摘要信息,当然,该摘要信息并非是最终的摘要文本。
[0056]
本实施例中,步骤s4中,sru模型中采用如下公式进行计算:
[0057]yt
=σ(wt
t
)
[0058]ft
=σ(wft
t
+bf)
[0059]rt
=σ(wrt
t
+br)
[0060]ct
=f
t
⊙ct-1
+(1-f
t
)
⊙yt
[0061]ht
=r
t

g(c
t
)+(1-r
t
)

t
t
[0062]
其中:c
t
表示时刻t的隐状态,c
t-1
表示t-1的隐状态,h
t
表示t时刻的输出,f
t
表示sru模型的遗忘门输出,r
t
表示sru模型的重置门输出,σ表示sigmoid函数,g表示sru模型的激活函数,wf,wr和w是参数矩阵,bf和br是偏置常数。
[0063]
其中:sru模型输出的结构拼接到一起得到输出h
t
,然后将输出h
t
输入至注意力模块,提取注意力特征a;其中,注意力特征a为:
[0064]ut
=tanh(wgh
t
+bg)
[0065][0066][0067]
其中:wg和bg表示参数向量和偏置;u
t
是注意力模块的中间层的输出结果,α
t
表示权重,exp()为指数函数。
[0068]
事件文本的文本每个语句的预测输出为yi:
[0069]
yi=σ(wsa+bs)。
[0070]
所述注意力模块的损失函数为:
[0071][0072][0073]
ln是第n个句子的标签,yn是第n个句子的预测结果;λ为权重参数,为第n个句子的句向量与摘要向量s的余弦相似度(余弦相似度采用现有的计算方法实现,在此不加以赘述)。
[0074]
本实施例中,步骤s2中,对事件新闻进行预处理包括对新闻文本进行分词、去除停用词等处理,从而确保最终结果的准确性。
[0075]
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

技术特征:
1.一种基于特点主题的文本摘要生成方法,其特征在于:包括以下步骤:s1.获取同一事件新闻,该新闻包括新闻标题和新闻内容;s2.对事件新闻进行预处理;s3.对预处理后的事件新闻中的语句进行权重计算,并将各语句的权重进行由大到小进行排序,选择权重最大的m个语句,并将筛选出的m个语句在事件新闻原文中的顺序进行组合形成摘要信息;s4.采用bert模型对预处理后的新闻事件进行处理,得到文本x,并将文本输入至sru模型中进行训练,并将sru模型的输出输入至注意力模型中进行提取,得到注意力特征a,并基于注意力特征a得到事件新闻文本第i个语句的预测结果;s5.构建摘要生成模型unilm,将第i个语句的预测结果和步骤s3中形成的摘要信息输入至摘要生成模型unilm中并对摘要生成模型unilm进行训练;s6.获取目标事件新闻,将目标事件新闻通过步骤s2、s3和s4处理后,将步骤s3处理后得到的摘要信息和步骤s4中的sru模型输出的信息输入至步骤s5训练完成后的摘要生成模型unilm中处理,输出最终的文本摘要。2.根据权利要求1所述基于特点主题的文本摘要生成方法,其特征在于:步骤s3中,根据如下方法得到语句的权重:其中,score
i
为事件新闻的第i个语句的权重,ω
ij
为事件新闻的第i个语句的第j个词的权重。3.根据权利要求2所述基于特点主题的文本摘要生成方法,其特征在于:通过如下方法确定第j个词的权重ω
ij
:其中:n
j
为第j个词在事件新闻出现的文本次数,n表示事件新闻的文本总数,tf
ij
为第j个词在事件新闻的文本i中出现的频率。4.根据权利要求1所述基于特点主题的文本摘要生成方法,其特征在于:步骤s4中,sru模型中采用如下公式进行计算:y
t
=σ(wt
t
)f
t
=σ(w
f
t
t
+b
f
)r
t
=σ(w
r
t
t
+b
r
))其中:c
t
表示时刻t的隐状态,c
t-1
表示t-1的隐状态,h
t
表示t时刻的输出,f
t
表示sru模型的遗忘门输出,r
t
表示sru模型的重置门输出,σ表示sigmoid函数,g表示sru模型的激活函数,w
f
,w
r
和w是参数矩阵,b
f
和b
r
是偏置常数。5.根据权利要求4所述基于特点主题的文本摘要生成方法,其特征在于:sru模型输出
的结构拼接到一起得到输出h
t
,然后将输出h
t
输入至注意力模块,提取注意力特征a;事件文本的文本每个语句的预测输出为y
i
:y
i
=σ(w
s
a+b
s
)。6.根据权利要求5所述基于特点主题的文本摘要生成方法,其特征在于:所述注意力模块的损失函数为:块的损失函数为:l
n
是第n个句子的标签,y
n
是第n个句子的预测结果;λ为权重参数,为第n个句子的句向量与摘要向量s的余弦相似度。7.根据权利要求1所述基于特点主题的文本摘要生成方法,其特征在于:步骤s2中,对事件新闻进行预处理包括对新闻文本进行分词、去除停用词处理。

技术总结
本发明提供的一种基于特点主题的文本摘要生成方法,包括以下步骤:S2.对事件新闻进行预处理;S3.对预处理后的事件新闻中的语句进行权重计算,并将各语句的权重进行由大到小进行排序,选择权重最大的m个语句,并将筛选出的m个语句在事件新闻原文中的顺序进行组合形成摘要信息;S4.采用Bert模型对预处理后的新闻事件进行处理,得到文本X,并将文本输入至SRU模型中进行训练,并将SRU模型的输出输入至注意力模型中进行提取,得到注意力特征A,并基于注意力特征A得到事件新闻文本第i个语句的预测结果;S5.构建摘要生成模型UniLM,将第i个语句的预测结果和步骤S3中形成的摘要信息输入至摘要生成模型UniLM中并对摘要生成模型UniLM进行训练;S6.获取目标事件新闻,将目标事件新闻通过步骤S2、S3和S4处理后,将步骤S3处理后得到的摘要信息和步骤S4中的SRU模型输出的信息输入至步骤S5训练完成后的摘要生成模型UniLM中处理,输出最终的文本摘要。输出最终的文本摘要。输出最终的文本摘要。


技术研发人员:胡波 黄挺
受保护的技术使用者:北京大学重庆大数据研究院
技术研发日:2023.06.16
技术公布日:2023/10/7
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐