一种中文事件抽取模型构建方法
未命名
08-12
阅读:169
评论:0
1.本发明属于自然语言处理领域,涉及一种基于abbsac模型的中文事件抽取方法。
背景技术:
2.随着科技发展和大数据时代的到来,各种传统媒体与新媒体每时每刻都在持续不断的产生着政治、经济、军事、社会等领域的文本数据,形成了天然的信息富矿。如何从海量非结构化信息中获得有价值的结构化信息,成为当下研究的热点,由此诞生了信息抽取(information extraction,ie)技术。信息抽取是指从自然语言文本中,抽取出特定的事件或事实信息,使其转化为特定的组织形式,主要包括命名实体识别(named entity recognition,ner)、关系抽取(relation extraction,re)和事件抽取(event extraction,ee)。事件抽取作为信息抽取任务中的重要一环,旨在从非结构化的文本中将用户所关心的事件信息通过某种方式以结构化的形式表现出来,用来支持信息检索、情报分析以及事理图谱等下游任务。
3.目前事件抽取任务的研究中,主要采用基于预训练模型的方法与基于深度学习的方法相结合,共同完成触发词抽取和论元角色抽取两个事件抽取子任务,但其具有如下明显的缺陷:
4.(1)预训练模型参数量大。当前多数研究为了提升抽取精度,使用的预训练模型的参量以及大小普遍偏大,训练时间长且模型精度较低,无法满足事件抽取任务的需求
5.(2)在预训练模型后使用的神经网络单元,如bi-lstm、bi-gru则均为rnn变种,同样存在训练时间长的问题且模型精度较低,无法满足事件抽取任务的需求
技术实现要素:
6.为了解决上述技术问题,本发明提出了一种中文事件抽取方法,用于解决传统事件抽取方法效率低下的问题。
7.一种中文事件抽取模型构建方法,所述方法包括:
8.获取输入文本,对所述输入文本进行数据预处理,得到中文事件数据集;
9.对所述中文对所述中文事件数据集中的目标数据按照预设规则进行三位标注,得到所述目标数据的训练集、目标数据的验证集以及目标数据的测试集;
10.通过目标数据的训练集、目标数据的验证集,设定中文事件抽取初始模型的模型参数,构建中文事件抽取初始模型;
11.将所述目标数据的测试集输入中文事件抽取初始模型中,评估所述中文事件抽取初始模型的性能,若所述中文事件抽取初始模型的性能满足输出条件,则将所述中文事件抽取初始模型作为中文事件抽取模型保存。
12.在一个实施例中,所述对所述输入文本进行数据预处理包括对所述输入文本进行分词、格式转换、长文本截断。
13.在一个实施例中,所述对所述中文对所述中文事件数据集中的目标数据按照预设
规则进行三位标注标注,得到所述目标数据的训练集、验证集以及测试集包括:
14.对所述中文事件数据集中的触发词按表达的事件类型进行三位标注标注,得到事件触发词训练集、验证集以及测试集。
15.在一个实施例中,所述对所述中文对所述中文事件数据集中的目标数据按照预设规则进行三位标注标注,得到所述目标数据的训练集、验证集以及测试集还包括:
16.对所述中文事件数据集中的触发词论元按表达的事件论元角色进行三位标注标注,得到论元角色训练集、验证集以及测试集。
17.在一个实施例中,所述通过目标数据的训练集和验证集,设定中文事件抽取初始模型的模型参数,构建中文事件抽取初始模型包括:
18.将所述事件触发词训练集和验证集和/或论元角色训练集、验证集输入中文事件抽取初始模型中,构建中文事件抽取初始模型。
19.在一个实施例中,所述模型参数包括:学习率、文本截断长度、双向内置注意力简单循环单元隐藏层层数
20.在一个实施例中,所述abbsac模型包括预训练语言模型,所述预训练语言模型将中文事件文本转化为768维的词向量后将词向量送入双向内置注意力简单循环单元,用于捕捉文本内部关联信息。
21.在一个实施例中,所述abbsac模型还包括注意力机制,所述注意力机制将每个位置的信息都进行保存下来,以条件随机场的预测输出作为目标数据的抽取结果,所述目标数据包括事件触发词和论元角色。
22.在一个实施例中,所述abbsac模型的抽取结果是所述目标数据的抽取结果的汇总。
23.一种中文事件抽取模型执行方法,所述方法用于执行所构建的中文事件抽取模型,所述方法包括:
24.获取中文事件抽取模型及待抽取的中文事件数据;
25.将所述待抽取的中文事件数据进行预处理,得到预处理数据;
26.将所述预处理数据输入所述中文事件抽取模型中进行事件抽取,得到抽取结果数据,所述抽取结果数据包括事件触发词和论元角色。
27.本发明的有益效果为:本发明在自建数据集上取得了良好的事件抽取效果,与其他模型相比速度更快,参数量更低。同时在不同的基准测评数据集上同样表现良好,可以有效的支撑医疗、金融、法律、军事等领域的事件抽取任务。
附图说明
28.图1为本发明的流程示意图。
29.图2为本发明的abbsac模型结构图。
30.图3为sru神经单元结构图。
31.图4为bisru++神经单元结构图。
32.图5为不同神经单元loss曲线图。
具体实施方式
33.以下结合具体实施例对本发明做进一步说明。
34.在一个实施例中,提供了一种中文事件抽取模型构建方法,其特征在于,所述方法包括:
35.获取输入文本,对所述输入文本进行数据预处理,得到中文事件数据集;
36.对所述中文对所述中文事件数据集中的目标数据按照预设规则进行三位标注bio(b-begin,i-inside,o-outside)标注,得到所述目标数据的训练集、目标数据的验证集以及目标数据的测试集;
37.通过目标数据的训练集、目标数据的验证集,设定中文事件抽取初始模型abbsac(albert bisru++attention crf)的模型参数,构建中文事件抽取初始模型;
38.将所述目标数据的测试集输入中文事件抽取初始模型中,评估所述中文事件抽取初始模型的性能,若所述中文事件抽取初始模型的性能满足输出条件,则将所述中文事件抽取初始模型作为中文事件抽取模型保存。
39.在一个实施例中,所述对所述输入文本进行数据预处理包括对所述输入文本进行分词、格式转换、长文本截断。
40.在一个实施例中,所述对所述中文对所述中文事件数据集中的目标数据按照预设规则进行三位标注标注,得到所述目标数据的训练集、验证集以及测试集包括:
41.对所述中文事件数据集中的触发词按表达的事件类型进行三位标注标注,得到事件触发词训练集、验证集以及测试集。
42.在一个实施例中,所述对所述中文对所述中文事件数据集中的目标数据按照预设规则进行三位标注标注,得到所述目标数据的训练集、验证集以及测试集还包括:
43.对所述中文事件数据集中的触发词论元按表达的事件论元角色进行三位标注标注,得到论元角色训练集、验证集以及测试集。
44.在一个实施例中,所述通过目标数据的训练集和验证集,设定中文事件抽取初始模型的模型参数,构建中文事件抽取初始模型包括:
45.将所述事件触发词训练集和验证集和/或论元角色训练集、验证集输入中文事件抽取初始模型中,构建中文事件抽取初始模型。
46.在一个实施例中,所述模型参数包括:学习率、文本截断长度、双向内置注意力简单循环单元bisru++(bidirectional build-in attention simple recurrent unit)隐藏层层数
47.在一个实施例中,所述abbsac模型包括albert(a lite bidirectional encoder representations from transformers)预训练语言模型,所述预训练语言模型将中文事件文本转化为768维的词向量后将词向量送入双向内置注意力简单循环单元bisru++,用于捕捉文本内部关联信息。
48.在一个实施例中,所述abbsac模型还包括注意力机制,所述注意力机制将每个位置的信息都进行保存下来,以条件随机场crf(conditional random field)的预测输出作为目标数据的抽取结果,所述目标数据包括事件触发词和论元角色。
49.在一个实施例中,所述abbsac模型的抽取结果是所述目标数据的抽取结果的汇总。
50.一种中文事件抽取模型执行方法,所述方法用于执行上述所构建的中文事件抽取模型,所述方法包括:
51.获取中文事件抽取模型及待抽取的中文事件数据;
52.将所述待抽取的中文事件数据进行预处理,得到预处理数据;
53.将所述预处理数据输入所述中文事件抽取模型中进行事件抽取,得到抽取结果数据,所述抽取结果数据包括事件触发词和论元角色。
54.在一个实施例中,针对预训练模型开销普遍偏大问题,选择albert作为预训练模型,最大限度缩减模型体量。采用bisru++对传统神经网络单元进行替换,高效快速地捕捉文本中长距离的时序语义特征,以及语句内部的语法结构信息。然后融合注意力机制以消除训练参数少、模型体量小对事件抽取精度的影响,最后以crf的输出作为预测结果。本发明的流程示意图如图1所示,包括以下步骤:
55.步骤1:对输入的文本进行数据预处理,包括分词,格式转换、长文本截断等;
56.步骤2:设定模型参数
57.设定abbsac模型的相关参数,具体包括:学习率、文本截断长度、bisru++隐藏层层数等。
58.步骤3:进行事件触发词抽取。
59.采用中文事件抽取数据集,针对不同的事件类型设计不同的标签,将数据集文本中的触发词按其表达的事件类型进行bio标注;
60.构建abbsac模型,abbsac模型结构图如图2所示。abbsac模型以albert预训练模型为基础,将中文事件文本转化为768维的词向量,之后将词向量送入bisru++捕捉文本内部关联信息,sru结构和bisru++结构分别由图3、图4所示;
61.再通过引入注意力机制,将每个位置的信息都保存下来。提升模型抽取精度,最后以crf的预测输出作为触发词抽取结果。
62.步骤4:进行事件论元角色抽取。
63.采用中文事件抽取数据集,设计事件时间、事件地点、事件主体、事件客体四种标签,将数据集文本中的论元按其表达的事件论元角色进行bio标注。构建abbsac模型与步骤3相同,最后输出论元角色抽取结果。
64.步骤5:将步骤3所获得的事件触发词和步骤4所获得的论元角色汇总作为事件抽取的结果。
65.本例数据来源于新浪军事新闻,新闻中包含大量的国内外军事事件和军事评论,可以作为中文事件文本。利用爬虫技术,从新浪军事新闻选取917条事件文本作为训练样本。标注软件使用brat标注工具,进行触发词和论元角色标注。选择文本数据中736条作为训练集,91条作为验证集,90条作为测试集,比例为8:1:1。自建数据集的事件类型与论元角色如表1所示。
66.表1自建数据集的事件类型与论元角色
[0067][0068]
根据步骤1,对已标注的中文事件抽取数据集,按照bio规则转化为bio标注。b-x代表该字符属于x类型且位于开头,i-x代表该字符属于x类型且位于中间,o代表该字符不属于任何类型。例如,文本“上海合作组织将于本月23日至24日在乌兹别克斯坦首都塔什干举行15周年峰会。”符合bio标注规则的对应表如表2所示。
[0069]
表2实验数据bio标注规则示例
[0070][0071][0072]
根据步骤2,对模型参数进行设置,其中albert模型参数设置:版本为albert-chi-nese-base,网络层数为12,隐藏层数为768,多头数为12,总参量12m。模型具体超参数配置如表3所示。
[0073]
表3超参数配置
[0074][0075]
本例实验环境为操作系统ubuntu 18.04,gpu nvidia tesla p4,ram 32gb,硬盘100gb,使用python 3.6,pytorch 1.7深度学习环境。
[0076]
为了评估模型精度,本例使用精确率p、召回率r和f1值对模型进行评价。f1值的计算公式如下:
[0077][0078]
其中,精确率p是提取出的正确信息条数与提取出的信息条数的比值,召回率r是提取出的正确信息条数与样本中的信息条数的比值。
[0079]
根据步骤3,进行事件触发词抽取,为了评估abbsac模型性能,本例实现了六个实验模型作为对比模型,进行实验。首先验证bi-lstm、bi-gru、bisru以及bisru++不同神经单元对抽取性能的影响,使用不同神经单元loss曲线图,如图5所示;其次对是否使用注意力机制对模型的影响进行了对比;最后对albert、roberta以及bert不同预训练模型的抽取效果进行对比,实验结果如表4所示。
[0080]
表4触发词抽取实验结果
[0081][0082][0083]
实验结果表明,sru++在实验中loss曲线收敛的最快,在保证模型精度的同时,有效压缩了模型大小并提升了训练速度。为了进一步提升模型精度,在albert+(bi-sru++)+crf模型的基础上,融合了注意力机制,将f1值提升了近2.6%,表明了注意力机制的有效性,计算bi-sru++每个时间步输出对抽取结果的影响,进而分配不同的权重。
[0084]
横向与roberta、bert预训练模型进行比较,abbsac模型在平均提升f1值约0.7%的同时,每10步的训练时间快了约10%,模型大小压缩了近82%。因为albert的模型参量仅有12m,是roberta和bert模型参数的1/9,有效缩短了训练时间、裁剪了模型参数量。
[0085]
根据步骤4,进行事件论元角色抽取,实验配置与步骤3相同,实验结果如表5所示。
[0086]
表5论元角色抽取实验结果
[0087]
[0088]
实验结果表明,在论元角色抽取实验中,abbsac模型表现依然出色。在融合注意力机制后,论元角色抽取f1值提升了近2.8%。与不同预训练模型横向对比,在保持小模型的情况下,训练速度提升约12%,f1值提升了近0.5%。证明本文所提模型的精度媲美大型预训练模型,能胜任论元角色抽取任务。
[0089]
本例为了检测abbsac的通用性,选取了ace05和duee基准中文测评数据集进行验证,触发词抽取和论元角色抽取实验结果如表6、表7所示。
[0090]
表6ace05数据集事件抽取实验结果
[0091][0092]
表7duee数据集事件抽取实验结果
[0093][0094]
实验结果表明,本文所提模型与前沿方法相比均展现良好的性能,其中在ace05数据集上,触发词提取任务f1值和论元角色提取任务f1值分别提高约1.7%、5.4%;在duee数据集上,触发词提取任务f1值和论元角色提取任务f1值分别提高约0.3%、0.1%,证明了模型的泛化性和可行性。
[0095]
本发明面向中文事件抽取,提出了abbsac模型。使用albert预训练模型,最大限度缩减模型体量,再使用bi-sru++进一步加快训练时间。同时融合注意力机制,提升模型精度,最后以crf的输出作为预测结果。实验结果表明,该模型在自建数据集、ace05和duee上的召回率、准确率以及f1值均可以满足事件抽取的大部分需求,有效缩短了训练速度,且实现了模型的小型化,可以应用到实际中。
[0096]
以上所述实施例仅表达本发明的实施方式,但并不能因此而理解为对本发明专利的范围的限制,应当指出,对于本领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些均属于本发明的保护范围。
技术特征:
1.一种中文事件抽取模型构建方法,其特征在于,所述方法包括:获取输入文本,对所述输入文本进行数据预处理,得到中文事件数据集;对所述中文对所述中文事件数据集中的目标数据按照预设规则进行三位标注,得到所述目标数据的训练集、目标数据的验证集以及目标数据的测试集;通过目标数据的训练集、目标数据的验证集,设定中文事件抽取初始模型的模型参数,构建中文事件抽取初始模型;将所述目标数据的测试集输入中文事件抽取初始模型中,评估所述中文事件抽取初始模型的性能,若所述中文事件抽取初始模型的性能满足输出条件,则将所述中文事件抽取初始模型作为中文事件抽取模型保存。2.根据权利要求1所述的方法,其特征在于,所述对所述输入文本进行数据预处理包括对所述输入文本进行分词、格式转换、长文本截断。3.根据权利要求2所述的方法,其特征在于,所述对所述中文对所述中文事件数据集中的目标数据按照预设规则进行三位标注标注,得到所述目标数据的训练集、验证集以及测试集包括:对所述中文事件数据集中的触发词按表达的事件类型进行三位标注标注,得到事件触发词训练集、验证集以及测试集。4.根据权利要求3所述的方法,其特征在于,所述对所述中文对所述中文事件数据集中的目标数据按照预设规则进行三位标注标注,得到所述目标数据的训练集、验证集以及测试集还包括:对所述中文事件数据集中的触发词论元按表达的事件论元角色进行三位标注标注,得到论元角色训练集、验证集以及测试集。5.根据权利要求4所述的方法,其特征在于,所述通过目标数据的训练集和验证集,设定中文事件抽取初始模型的模型参数,构建中文事件抽取初始模型包括:将所述事件触发词训练集和验证集和/或论元角色训练集、验证集输入中文事件抽取初始模型中,构建中文事件抽取初始模型。6.根据权利要求5所述的方法,其特征在于,所述模型参数包括:学习率、文本截断长度、双向内置注意力简单循环单元隐藏层层数。7.根据权利要求6所述的方法,其特征在于,所述abbsac模型包括预训练语言模型,所述预训练语言模型将中文事件文本转化为768维的词向量后将词向量送入双向内置注意力简单循环单元,用于捕捉文本内部关联信息。8.根据权利要求7所述的方法,其特征在于,所述abbsac模型还包括注意力机制,所述注意力机制将每个位置的信息都进行保存下来,以条件随机场的预测输出作为目标数据的抽取结果,所述目标数据包括事件触发词和论元角色。9.根据权利要求8所述的方法,其特征在于,所述abbsac模型的抽取结果是所述目标数据的抽取结果的汇总。10.一种中文事件抽取模型执行方法,所述方法用于执行如权利要求1所构建的中文事件抽取模型,其特征在于,所述方法包括:获取中文事件抽取模型及待抽取的中文事件数据;将所述待抽取的中文事件数据进行预处理,得到预处理数据;
将所述预处理数据输入所述中文事件抽取模型中进行事件抽取,得到抽取结果数据,所述抽取结果数据包括事件触发词和论元角色。
技术总结
本发明属于自然语言处理领域,涉及一种基于ABBSAC模型的中文事件抽取方法。本发明主要包括:对输入文本进行数据预处理,数据预处理包括分词,格式转换、长文本截断等。然后设定ABBSAC模型的相关参数,具体包括学习率、文本截断长度、BiSRU++隐藏层层数等。然后将处理好的数据集传入ABBSAC模型中,进行事件触发词抽取,事件触发词是指标志某一事件的关键词,一般是动词,其决定了事件类型,事件触发词的抽取也是事件抽取的关键步骤;此后再进行事件论元角色抽取,将识别出事件主体、客体、时间、地点;最后将事件触发词抽取和事件论元角色抽取的结果进行汇总,得到事件抽取的结果。相比传统方法,本发明的方法对事件抽取准确率得到提升的同时,有效缩短了训练速度,且实现了模型的小型化。的小型化。的小型化。
技术研发人员:贾珺 陈泉林 叶雄兵 董献洲 雷霆 刘洁 樊硕 邱凯 彭超 孙婷
受保护的技术使用者:中国人民解放军军事科学院战争研究院
技术研发日:2023.04.28
技术公布日:2023/8/9
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
