基于电力营销稽查信息的自动文本摘要生成方法与流程
未命名
08-07
阅读:125
评论:0
1.本发明涉及自动文本摘要生成技术领域,尤其涉及基于电力营销稽查信息的自动文本摘要生成方法。
背景技术:
2.目前自然语言处理表现最好的深度学习模型是transformer,但由于自然语言模型结构复杂,以及transformer模型自身的技术瓶颈,造成其处理自然语言时平均准确率约为80%,虽然相较于其他模型表现突出,但依旧无法取代人工模式,并且计算量大。电力营销稽查信息具有行业应用背景,但长期以来由于人工填报和表述的习惯,造成叙述信息冗长以及信息和标准叙述存在差异,工作质量受当事人文化水平和描述习惯影响,无法做出根据对相关文本中的摘取事件重要度进行摘要,而导致文本摘要出现语句主谓宾不分明、断句不清晰以及摘要充分的情况。为此,我们提出了基于电力营销稽查信息的自动文本摘要生成方法。
技术实现要素:
3.本发明的目的是为了解决现有技术中存在的缺点,而提出的基于电力营销稽查信息的自动文本摘要生成方法。
4.为了实现上述目的,本发明采用了如下技术方案:
5.基于电力营销稽查信息的自动文本摘要生成方法,预先在已标注的文本中摘取事件、事件本体、事件间的非分类关系以及事件相似度,根据构建的事件本体间的关系,得到文本d的事件集合e,包括如下步骤:
6.步骤一:初始化节点集合nd,有向边集合ed;
7.步骤二:依次将文本的事件集合e(d)中的单位事件映射至事件网络结构中的节点,得到节点集合nd;
8.步骤三:在节点集合nd中取节点作为事件网络的任意节点,并在节点集合nd中依次查找与ni相关联的节点nj,节点ni和nj间具有组成、因果及跟随关系的则添加一条有向关系边,对发生伴随关系的则添加一条有向关系边;
9.步骤四:在节点集合nd中任取节点ni,依次遍历集合nd中其它节点nj,计算它们对应的事件特征ei和ej的相似度,如果相似度大于等于阈值,则在ni和nj之间添加两条相向的有向边;
10.步骤五:根据步骤三和步骤四可以得到有向图集合e(d),进一步的得到文本的事件网络有向图;
11.步骤六:随即在对文本中事件的重要度进行排序后将文本串联起来,形成文本摘要。
12.优选的,在获取事件的重要度时,需先根据文本中事件的关系和事件的相似度构建事件网络有向图,再分别计算出事件网络有向图中各节点的重要程度进行排序,将重要
程度最高的时间称为主题事件。
13.优选的,所述主题事件排序应在事件的重要程度的基础上按照发展过程进行排序,对于无法比较时间,但属于同一文档且重要程度相同的主题事件按照其出现的先后顺序排序,最后逐步删除排序号的语句集合中对信息贡献最小的语句,直至剩余句子长度之和达到目标文摘长度。
14.优选的,所述事件由六元组e=(o,a,t,v,p,l)表示,其中事件六元组中的元素称为事件要素,分别表示对象、动作、时间、环境、断言、语言表现。
15.优选的,所述事件类指具有共同特征的事件的集合,用ec表示,
16.ec=(e,c1,c2,c3
…
c6),
17.其中e是是事件的集合,称为事件类的外延;o,a,t,v,p,l称为事件的内涵,分别是e中的每个事件在对应要素上具有的共同特性的集合。
18.优选的,所述事件本体eo,事件本体的逻辑结构可定义为一个三元结构eo=[esc,r,rules],其中esc是所有事件类的集合;r包括事件类之间的分类关系和非分类关系,分类关系可构成事件类的层次,非分类关系上标明关系种类名。
[0019]
优选的,所述事件间的非分类关系包括有组成关系、因果关系、跟随关系以及并发关系,
[0020]
所述组成关系,一个整体e可分解为若干子件ei,则称它们之间具有组成关系,即事件ei为事件e的组成部分,表示为ri(e1,e2);
[0021]
所述因果关系,事件e1的发生导致了事件e2的发生,则称两事件间具有因果关系,表示为rce(e1,e2);
[0022]
所述跟随关系,在一定时间段内,事件e2可能跟随事件e1之后发生,则称两事件间具有跟随关系,表示为rf(e1,e2);
[0023]
所述并发关系,在一定时间段内,事件e1和事件e2同时或先后发生,则称两事件间具有并发关系,表示为rc(e1,e2)。
[0024]
优选的,所述事件相似度,设事件集合存在任意两个事件e1和e2,根据事件要素对应的相似度计算事件的相似度,则有:
[0025]
sim(ei,ej)=σωk(ei,ej),k=(o,a,t,v,p,l);
[0026]
其中,sim(e1,e2)是指ei,ej之间的相似度,eik表示事件ei的第k个要素,ejk表示ej的第k个要素,ωk表示事件各要素在计算事件相似度时的权重。
[0027]
本发明提出的基于电力营销稽查信息的自动文本摘要生成方法,有益效果在于:
[0028]
做出根据对相关文本中的摘取事件重要度进行摘要,形成文本摘要避免出现语句主谓宾不分明、断句不清晰以及摘要充分的方式,完成自动文本摘要的生成,降低使用人员的操作繁琐度,提升工作效率。
附图说明
[0029]
图1为本发明提出的基于电力营销稽查信息的自动文本摘要生成方法的结构示意图。图2为本发明提出的基于电力营销稽查信息的自动文本摘要生成方法的选取现有的文档进行的实验对比表格。
具体实施方式
[0030]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
[0031]
参照图1,基于电力营销稽查信息的自动文本摘要生成方法,包括预先在已标注的文本中摘取事件、事件本体、事件间的非分类关系以及事件相似度,根据构建的事件本体间的关系,得到文本d的事件集合e,包括如下步骤:
[0032]
步骤一:初始化节点集合nd,有向边集合ed;
[0033]
步骤二:依次将文本的事件集合e(d)中的单位事件映射至事件网络结构中的节点,得到节点集合nd;
[0034]
步骤三:在节点集合nd中取节点作为事件网络的任意节点,并在节点集合nd中依次查找与ni相关联的节点nj,节点ni和nj间具有组成、因果及跟随关系的则添加一条有向关系边,对发生伴随关系的则添加一条有向关系边;
[0035]
步骤四:在节点集合nd中任取节点ni,依次遍历集合nd中其它节点nj,计算它们对应的事件特征ei和ej的相似度,如果相似度大于等于阈值,则在ni和nj之间添加两条相向的有向边;
[0036]
步骤五:根据步骤三和步骤四可以得到有向图集合e(d),进一步的得到文本的事件网络有向图;
[0037]
步骤六:随即在对文本中事件的重要度进行排序后将文本串联起来,形成文本摘要。
[0038]
使用时:针对含有大量事件的文本,能够形成根据事件的重要程度排序的方式,使得剩余的句子长度之和达到目标文摘长度,从而符合文本的摘要生成,避免主谓宾不分明、断句不清晰以及摘要不充分的现象。
[0039]
在获取事件的重要度时,需先根据文本中事件的关系和事件的相似度构建事件网络有向图,再分别计算出事件网络有向图中各节点的重要程度进行排序,将重要程度最高的时间称为主题事件。
[0040]
主题事件排序应在事件的重要程度的基础上按照发展过程进行排序,对于无法比较时间,但属于同一文档且重要程度相同的主题事件按照其出现的先后顺序排序,最后逐步删除排序号的语句集合中对信息贡献最小的语句,直至剩余句子长度之和达到目标文摘长度,。
[0041]
事件由六元组e=(o,a,t,v,p,l)表示,其中事件六元组中的元素称为事件要素,分别表示对象、动作、时间、环境、断言、语言表现,事件类指具有共同特征的事件的集合,用ec表示,
[0042]
ec=(e,c1,c2,c3
…
c6),
[0043]
其中e是是事件的集合,称为事件类的外延;o,a,t,v,p,l称为事件的内涵,分别是e中的每个事件在对应要素上具有的共同特性的集合。
[0044]
事件本体eo,事件本体的逻辑结构可定义为一个三元结构eo=[esc,r,rules],其中esc是所有事件类的集合;r包括事件类之间的分类关系和非分类关系,分类关系可构成事件类的层次,非分类关系上标明关系种类名。
[0045]
事件间的非分类关系包括有组成关系、因果关系、跟随关系以及并发关系,
[0046]
组成关系,一个整体e可分解为若干子件ei,则称它们之间具有组成关系,即事件ei为事件e的组成部分,表示为ri(e1,e2);
[0047]
因果关系,事件e1的发生导致了事件e2的发生,则称两事件间具有因果关系,表示为rce(e1,e2);
[0048]
跟随关系,在一定时间段内,事件e2可能跟随事件e1之后发生,则称两事件间具有跟随关系,表示为rf(e1,e2);
[0049]
并发关系,在一定时间段内,事件e1和事件e2同时或先后发生,则称两事件间具有并发关系,表示为rc(e1,e2)。
[0050]
事件相似度,设事件集合存在任意两个事件e1和e2,根据事件要素对应的相似度计算事件的相似度,则有:
[0051]
sim(ei,ej)=σωk(ei,ej),k=(o,a,t,v,p,l);
[0052]
其中,sim(e1,e2)是指ei,ej之间的相似度,eik表示事件ei的第k个要素,ejk表示ej的第k个要素,ωk表示事件各要素在计算事件相似度时的权重。
[0053]
本发明的使用原理及优点:
[0054]
为了验证自动文本摘要生成方法的有效性,选取现有的文档自动摘要研究方法进行实验对比:结果参照图2所示:
[0055]
方法一:首先,以单句为事件的基本抽取单位,通过二元分类器辨析出事件句和非事件句,并进行集合分类,完成事件抽取;
[0056]
方法二:提取单个句子局部属性和句子间的全局属性,句子局部可以被认为是在每个句子的意义的词群,而全局属性可以称为所有的文档中句子之间的联系,对两个属性组合并进行排名、提取句子。
[0057]
故本方法能够形成摘要的召回率、准确率高于其他两种方法,利于使用。
[0058]
综上所述:本方法针对含有大量事件的文本,能够形成根据事件的重要程度排序的方式,使得剩余的句子长度之和达到目标文摘长度,从而符合文本的摘要生成,避免主谓宾不分明、断句不清晰以及摘要不充分的现象。
[0059]
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
技术特征:
1.基于电力营销稽查信息的自动文本摘要生成方法,其特征在于,预先在已标注的文本中摘取事件、事件本体、事件间的非分类关系以及事件相似度,根据构建的事件本体间的关系,得到文本d的事件集合e,包括如下步骤:步骤一:初始化节点集合nd,有向边集合ed;步骤二:依次将文本的事件集合e(d)中的单位事件映射至事件网络结构中的节点,得到节点集合nd;步骤三:在节点集合nd中取节点作为事件网络的任意节点,并在节点集合nd中依次查找与ni相关联的节点nj,节点ni和nj间具有组成、因果及跟随关系的则添加一条有向关系边,对发生伴随关系的则添加一条有向关系边;步骤四:在节点集合nd中任取节点ni,依次遍历集合nd中其它节点nj,计算它们对应的事件特征ei和ej的相似度,如果相似度大于等于阈值,则在ni和nj之间添加两条相向的有向边;步骤五:根据步骤三和步骤四可以得到有向图集合e(d),进一步的得到文本的事件网络有向图;步骤六:随即在对文本中事件的重要度进行排序后将文本串联起来,形成文本摘要。2.根据权利要求1所述的基于电力营销稽查信息的自动文本摘要生成方法,其特征在于,在获取事件的重要度时,需先根据文本中事件的关系和事件的相似度构建事件网络有向图,再分别计算出事件网络有向图中各节点的重要程度进行排序,将重要程度最高的时间称为主题事件。3.根据权利要求2所述的基于电力营销稽查信息的自动文本摘要生成方法,其特征在于,所述主题事件排序应在事件的重要程度的基础上按照发展过程进行排序,对于无法比较时间,但属于同一文档且重要程度相同的主题事件按照其出现的先后顺序排序,最后逐步删除排序号的语句集合中对信息贡献最小的语句,直至剩余句子长度之和达到目标文摘长度。4.根据权利要求1所述的基于电力营销稽查信息的自动文本摘要生成方法,其特征在于,所述事件由六元组e=(o,a,t,v,p,l)表示,其中事件六元组中的元素称为事件要素,分别表示对象、动作、时间、环境、断言、语言表现。5.根据权利要求4所述的基于电力营销稽查信息的自动文本摘要生成方法,其特征在于,所述事件类指具有共同特征的事件的集合,用ec表示,ec=(e,c1,c2,c3
…
c6),其中e是是事件的集合,称为事件类的外延;o,a,t,v,p,l称为事件的内涵,分别是e中的每个事件在对应要素上具有的共同特性的集合。6.根据权利要求1所述的基于电力营销稽查信息的自动文本摘要生成方法,其特征在于,所述事件本体eo,事件本体的逻辑结构可定义为一个三元结构eo=[esc,r,rules],其中esc是所有事件类的集合;r包括事件类之间的分类关系和非分类关系,分类关系可构成事件类的层次,非分类关系上标明关系种类名。7.根据权利要求1所述的基于电力营销稽查信息的自动文本摘要生成方法,其特征在于,所述事件间的非分类关系包括有组成关系、因果关系、跟随关系以及并发关系,所述组成关系,一个整体e可分解为若干子件ei,则称它们之间具有组成关系,即事件
ei为事件e的组成部分,表示为ri(e1,e2);所述因果关系,事件e1的发生导致了事件e2的发生,则称两事件间具有因果关系,表示为rce(e1,e2);所述跟随关系,在一定时间段内,事件e2可能跟随事件e1之后发生,则称两事件间具有跟随关系,表示为rf(e1,e2);所述并发关系,在一定时间段内,事件e1和事件e2同时或先后发生,则称两事件间具有并发关系,表示为rc(e1,e2)。8.权利要求1所述的基于电力营销稽查信息的自动文本摘要生成方法,其特征在于,所述事件相似度,设事件集合存在任意两个事件e1和e2,根据事件要素对应的相似度计算事件的相似度,则有:sim(ei,ej)=σωk(ei,ej),k=(o,a,t,v,p,l);其中,sim(e1,e2)是指ei,ej之间的相似度,eik表示事件ei的第k个要素,ejk表示ej的第k个要素,ωk表示事件各要素在计算事件相似度时的权重。
技术总结
本发明公开了基于电力营销稽查信息的自动文本摘要生成方法,包括预先在已标注的文本中摘取事件、事件本体、事件间的非分类关系以及事件相似度,根据构建的事件本体间的关系,得到文本的事件集合,包括如下步骤:初始化节点集合,有向边集合;依次将文本的时间集合中的单位事件映射至事件网络结构中的节点,得到节点集合;在节点集合中取节点作为事件网络的任意节点。本发明在使用的过程中,针对含有大量事件的文本,能够形成根据事件的重要程度排序的方式,使得剩余的句子长度之和达到目标文摘长度,从而符合文本的摘要生成,避免主谓宾不分明、断句不清晰以及摘要不充分的现象。断句不清晰以及摘要不充分的现象。断句不清晰以及摘要不充分的现象。
技术研发人员:赵郭燚 张全 王海鸿 苏媛 赵骞 任海洋 夏泽举 顾理
受保护的技术使用者:国家电网有限公司客户服务中心
技术研发日:2022.12.29
技术公布日:2023/8/5
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
