基于特点主题的文本摘要生成方法

未命名 10-09 阅读：149 评论：0

1.本发明涉及一种文本摘要生成方法，尤其涉及一种基于特点主题的文本摘要生成方法。

背景技术：

2.信息技术的发展，文本内容爆发式增长，从文本中提取关键信息变得至关重要。自动生成摘要技术是自然语言处理领域重要研究内容之一，自动文本摘要技术能够提升信息获取速度和效率，减少冗余信息，在信息检索领域有巨大价值，为用户能够快速了解文本提供极大的便捷。
3.现有技术中，对于文本的摘要提取主要有两类方法，一类是抽取式摘要生成方法和生成式摘要生成方法，抽取式摘要方法是将自动文摘简单的看成二元分类任务，判断文档中的句子是否属于摘要内容，这种方法存在冗余、语义不连贯的问题，导致生成的摘要内容不便于用户使用，理解困难；生成式摘要生成方法对训练数据的文本摘要对的学习，根据不同的算法生成摘要，这种方式则存在生成的摘要与文本的原文事实存在巨大的偏差，摘要所包含的事件事实错误，不能为用户提供准确的信息。
4.因此，为了解决上述技术问题，亟需提出一种新的技术手段。

技术实现要素：

5.有鉴于此，本发明的目的是提供一种基于特点主题的文本摘要生成方法，将抽取式和生成式两类摘要生成方法进行有机结合，从而能够从事件新闻的文本中提取出语义连贯、简略的摘要，而且摘要所包含的事件事实与原文本能够保持一致，方便用户使用。
6.本发明提供的一种基于特点主体的文本摘要生成方法，包括以下步骤：
7.s1.获取同一事件新闻，该新闻包括新闻标题和新闻内容；
8.s2.对事件新闻进行预处理；
9.s3.对预处理后的事件新闻中的语句进行权重计算，并将各语句的权重进行由大到小进行排序，选择权重最大的m个语句，并将筛选出的m个语句在事件新闻原文中的顺序进行组合形成摘要信息；
10.s4.采用bert模型对预处理后的新闻事件进行处理，得到文本x，并将文本输入至sru模型中进行训练，并将sru模型的输出输入至注意力模型中进行提取，得到注意力特征a，并基于注意力特征a得到事件新闻文本第i个语句的预测结果；
11.s5.构建摘要生成模型unilm,将第i个语句的预测结果和步骤s3中形成的摘要信息输入至摘要生成模型unilm中并对摘要生成模型unilm进行训练；
12.s6.获取目标事件新闻，将目标事件新闻通过步骤s2、s3和s4处理后，将步骤s3处理后得到的摘要信息和步骤s4中的sru模型输出的信息输入至步骤s5训练完成后的摘要生成模型unilm中处理，输出最终的文本摘要。
13.进一步，步骤s3中，根据如下方法得到语句的权重：
[0014][0015]
其中，scorei为事件新闻的第i个语句的权重，ω
ij
为事件新闻的第i个语句的第j个词的权重。
[0016]
进一步，通过如下方法确定第j个词的权重ω
ij
：
[0017][0018]
其中：nj为第j个词在事件新闻的文本中出现的次数，n表示文档中词的总数，tf
ij
为第j个词在事件新闻的文本中出现的频率。
[0019]
进一步，步骤s4中，sru模型中采用如下公式进行计算：
[0020]yt
＝σ(wt
t
)
[0021]ft
＝σ(wft
t
+bf)
[0022]rt
＝σ(wrt
t
+br)
[0023]ct
＝f
t
⊙ct-1
+(1-f
t
)
⊙yt
[0024]ht
＝r
t
⊙
g(c
t
)+(1-r
t
)
⊙
t
t
[0025]
其中：c
t
表示时刻t的隐状态，c
t-1
表示t-1的隐状态，h
t
表示t时刻的输出，f
t
表示sru模型的遗忘门输出，r
t
表示sru模型的重置门输出，σ表示sigmoid函数，g表示sru模型的激活函数，wf，wr和w是参数矩阵，bf和br是偏置常数。
[0026]
进一步，sru模型输出的结构拼接到一起得到输出h
t
，然后将输出h
t
输入至注意力模块，提取注意力特征a；
[0027]
事件文本的文本每个语句的预测输出为yi：
[0028]
yi＝σ(wsa+bs)。
[0029]
进一步，所述注意力模块的损失函数为：
[0030][0031][0032]
ln是第n个句子的标签，yn是第n个句子的预测结果；λ为权重参数，为第n个句子的句向量与摘要向量s的余弦相似度。
[0033]
进一步，步骤s2中，对事件新闻进行预处理包括对新闻文本进行分词、去除停用词处理。
[0034]
本发明的有益效果：通过本发明，将抽取式和生成式两类摘要生成方法进行有机结合，从而能够从事件新闻的文本中提取出语义连贯、简略的摘要，而且摘要所包含的事件事实与原文本能够保持一致，方便用户使用。
附图说明
[0035]
下面结合附图和实施例对本发明作进一步描述：
[0036]
图1为本发明的流程图。
具体实施方式
[0037]
以下进一步对本发明做出详细说明：
[0038]
本发明提供的一种基于特点主体的文本摘要生成方法，包括以下步骤：
[0039]
s1.获取同一事件新闻，该新闻包括新闻标题和新闻内容；
[0040]
s2.对事件新闻进行预处理；
[0041]
s3.对预处理后的事件新闻中的语句进行权重计算，并将各语句的权重进行由大到小进行排序，选择权重最大的m个语句，并将筛选出的m个语句在事件新闻原文中的顺序进行组合形成摘要信息；其中，m的取值一般为3个，当然，也可以为4个或者5个，根据实际情况设定，当然，m的个数是要小于文本中的语句个数的；
[0042]
s4.采用bert模型对预处理后的新闻事件进行处理，得到文本x，并将文本输入至sru模型中进行训练，并将sru模型的输出输入至注意力模型中进行提取，得到注意力特征a，并基于注意力特征a得到事件新闻文本第i个语句的预测结果；
[0043]
其中，bert模型用于对步骤s2处理后的事件新闻的文本进行处理：
[0044]
文本x，x＝[x1,x2,
…
,x
p
,
…
,xn]，x
p
为第p个词向量，然后在每个句向量的句首插入标签[cls]，在句尾插入标签[sep]，在步骤s3中提取的摘要句加入相应的标签以表示该句为摘要局；bert模型把加入标签的句向量和摘要据输入至sru模型中进行处理；其中，bert模型的具体结构及原理采用现有技术即可，在此不加以赘述；
[0045]
s5.构建摘要生成模型unilm,将第i个语句的预测结果和步骤s3中形成的摘要信息输入至摘要生成模型unilm中并对摘要生成模型unilm进行训练；
[0046]
对摘要生成模型unilm进行训练包括两部分：
[0047]
预训练部分：取出一部分语料对原文进行预处理，生成伪摘要。具体方法是从原文中选取不连续句子，作为伪摘要。部分直接取原文和摘要。预处理文本x＝[x1,x2,...,xn],xi为词向量。每个句子句首插入[cls]，句尾插入[sep]标签。
[0048]
训练部分，为序列预测生成任务。将原文与摘要进行拼接。如[cls]x1,x2,x3[sep]y1,y2[sep],输入[cls]x1,x2,x3[sep]逐步预测y1和y2直到出现[sep]停止。
[0049]
s6.获取目标事件新闻，将目标事件新闻通过步骤s2、s3和s4处理后，将步骤s3处理后得到的摘要信息和步骤s4中的sru模型输出的信息输入至步骤s5训练完成后的摘要生成模型unilm中处理，输出最终的文本摘要；上述方法中，将抽取式和生成式两类摘要生成方法进行有机结合，从而能够从事件新闻的文本中提取出语义连贯、简略的摘要，而且摘要所包含的事件事实与原文本能够保持一致，方便用户使用。
[0050]
本实施例中，步骤s3中，根据如下方法得到语句的权重：
[0051][0052]
其中，scorei为事件新闻的第i个语句的权重，ω
ij
为事件新闻的第i个语句的第j个词的权重。
[0053]
其中，通过如下方法确定第j个词的权重ω
ij
：
[0054][0055]
其中：nj为第j个词在事件新闻的文本中出现的次数，n表示文档中词的总数，tf
ij
为第j个词在事件新闻的文本中出现的频率，通过上述方法，能够有效地对文本中的各语句的权重进行确定，并确定出目标语句作为摘要信息，当然，该摘要信息并非是最终的摘要文本。
[0056]
本实施例中，步骤s4中，sru模型中采用如下公式进行计算：
[0057]yt
＝σ(wt
t
)
[0058]ft
＝σ(wft
t
+bf)
[0059]rt
＝σ(wrt
t
+br)
[0060]ct
＝f
t
⊙ct-1
+(1-f
t
)
⊙yt
[0061]ht
＝r
t
⊙
g(c
t
)+(1-r
t
)
⊙
t
t
[0062]
其中：c
t
表示时刻t的隐状态，c
t-1
表示t-1的隐状态，h
t
表示t时刻的输出，f
t
表示sru模型的遗忘门输出，r
t
表示sru模型的重置门输出，σ表示sigmoid函数，g表示sru模型的激活函数，wf，wr和w是参数矩阵，bf和br是偏置常数。
[0063]
其中：sru模型输出的结构拼接到一起得到输出h
t
，然后将输出h
t
输入至注意力模块，提取注意力特征a；其中，注意力特征a为：
[0064]ut
＝tanh(wgh
t
+bg)
[0065][0066][0067]
其中：wg和bg表示参数向量和偏置；u
t
是注意力模块的中间层的输出结果，α
t
表示权重，exp()为指数函数。
[0068]
事件文本的文本每个语句的预测输出为yi：
[0069]
yi＝σ(wsa+bs)。
[0070]
所述注意力模块的损失函数为：
[0071][0072][0073]
ln是第n个句子的标签，yn是第n个句子的预测结果；λ为权重参数，为第n个句子的句向量与摘要向量s的余弦相似度(余弦相似度采用现有的计算方法实现，在此不加以赘述)。
[0074]
本实施例中，步骤s2中，对事件新闻进行预处理包括对新闻文本进行分词、去除停用词等处理，从而确保最终结果的准确性。
[0075]
最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

技术特征：
1.一种基于特点主题的文本摘要生成方法，其特征在于：包括以下步骤：s1.获取同一事件新闻，该新闻包括新闻标题和新闻内容；s2.对事件新闻进行预处理；s3.对预处理后的事件新闻中的语句进行权重计算，并将各语句的权重进行由大到小进行排序，选择权重最大的m个语句，并将筛选出的m个语句在事件新闻原文中的顺序进行组合形成摘要信息；s4.采用bert模型对预处理后的新闻事件进行处理，得到文本x，并将文本输入至sru模型中进行训练，并将sru模型的输出输入至注意力模型中进行提取，得到注意力特征a，并基于注意力特征a得到事件新闻文本第i个语句的预测结果；s5.构建摘要生成模型unilm,将第i个语句的预测结果和步骤s3中形成的摘要信息输入至摘要生成模型unilm中并对摘要生成模型unilm进行训练；s6.获取目标事件新闻，将目标事件新闻通过步骤s2、s3和s4处理后，将步骤s3处理后得到的摘要信息和步骤s4中的sru模型输出的信息输入至步骤s5训练完成后的摘要生成模型unilm中处理，输出最终的文本摘要。2.根据权利要求1所述基于特点主题的文本摘要生成方法，其特征在于：步骤s3中，根据如下方法得到语句的权重：其中，score
i
为事件新闻的第i个语句的权重，ω
ij
为事件新闻的第i个语句的第j个词的权重。3.根据权利要求2所述基于特点主题的文本摘要生成方法，其特征在于：通过如下方法确定第j个词的权重ω
ij
：其中：n
j
为第j个词在事件新闻出现的文本次数，n表示事件新闻的文本总数，tf
ij
为第j个词在事件新闻的文本i中出现的频率。4.根据权利要求1所述基于特点主题的文本摘要生成方法，其特征在于：步骤s4中，sru模型中采用如下公式进行计算：y
t
＝σ(wt
t
)f
t
＝σ(w
f
t
t
+b
f
)r
t
＝σ(w
r
t
t
+b
r
))其中：c
t
表示时刻t的隐状态，c
t-1
表示t-1的隐状态，h
t
表示t时刻的输出，f
t
表示sru模型的遗忘门输出，r
t
表示sru模型的重置门输出，σ表示sigmoid函数，g表示sru模型的激活函数，w
f
，w
r
和w是参数矩阵，b
f
和b
r
是偏置常数。5.根据权利要求4所述基于特点主题的文本摘要生成方法，其特征在于：sru模型输出
的结构拼接到一起得到输出h
t
，然后将输出h
t
输入至注意力模块，提取注意力特征a；事件文本的文本每个语句的预测输出为y
i
：y
i
＝σ(w
s
a+b
s
)。6.根据权利要求5所述基于特点主题的文本摘要生成方法，其特征在于：所述注意力模块的损失函数为：块的损失函数为：l
n
是第n个句子的标签，y
n
是第n个句子的预测结果；λ为权重参数，为第n个句子的句向量与摘要向量s的余弦相似度。7.根据权利要求1所述基于特点主题的文本摘要生成方法，其特征在于：步骤s2中，对事件新闻进行预处理包括对新闻文本进行分词、去除停用词处理。

技术总结
本发明提供的一种基于特点主题的文本摘要生成方法，包括以下步骤：S2.对事件新闻进行预处理；S3.对预处理后的事件新闻中的语句进行权重计算，并将各语句的权重进行由大到小进行排序，选择权重最大的m个语句，并将筛选出的m个语句在事件新闻原文中的顺序进行组合形成摘要信息；S4.采用Bert模型对预处理后的新闻事件进行处理，得到文本X，并将文本输入至SRU模型中进行训练，并将SRU模型的输出输入至注意力模型中进行提取，得到注意力特征A，并基于注意力特征A得到事件新闻文本第i个语句的预测结果；S5.构建摘要生成模型UniLM,将第i个语句的预测结果和步骤S3中形成的摘要信息输入至摘要生成模型UniLM中并对摘要生成模型UniLM进行训练；S6.获取目标事件新闻，将目标事件新闻通过步骤S2、S3和S4处理后，将步骤S3处理后得到的摘要信息和步骤S4中的SRU模型输出的信息输入至步骤S5训练完成后的摘要生成模型UniLM中处理，输出最终的文本摘要。输出最终的文本摘要。输出最终的文本摘要。

技术研发人员：胡波黄挺
受保护的技术使用者：北京大学重庆大数据研究院
技术研发日：2023.06.16
技术公布日：2023/10/7

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种油气井环空有机酸盐保护液及其制备方法与流程 下一篇：一种球轴承环下与喷射润滑组合润滑试验装置的制作方法

基于特点主题的文本摘要生成方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

基于特点主题的文本摘要生成方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表