基于双特征联合提取的电力营销命名实体识别方法
未命名
08-15
阅读:103
评论:0
1.本发明涉及电力技术领域,特别是一种基于双特征联合提取的电力营销命名实体识别方法。
背景技术:
[0002][0003]
近年来,命名实体识别开始应用在nlp、智能问答和知识图谱等领域,其主要工作是从非结构化文本中识别出有意义的名词或短语,并加以分类。随着自然语言处理技术的发展,命名实体识别也越来越多地被应用到各个领域。就电力营销而言,命名实体识别主要是对电力营销文本进行实体识别。例如,通过提取投诉意见工单中的非结构化信息,可以迅速地了解到投诉的时间、投诉用户的信息、所处台区线路、线路所属的站点等,这将能够有效地提升营销人员的工作效率,而且构建基于电力营销领域中不同业务模块命名实体的识别模型,可以提取出关键业务信息,能够确定客户的本质诉求,准确定位管理缺陷,挖掘客户服务需求,为之后电力营销方面知识图谱的构建或电力客服智能问答系统的构建提供了基础。
[0004]
与传统的实体抽取不同,电力营销领域数据具有复杂性和特殊性,相关的实体信息还具有领域性强等特性,这会在一定程度上提升命名实体识别的难度。若命名实体识别准确率低,则会导致下游任务受到严重影响,因此如何提高电力营销领域命名实体识别的准确率是当前急需解决的问题。以此为出发点,需要对传统的bilstm-crf命名实体模型进行改进以提升命名实体识别的精度,从而减小命名实体识别结果对后续下游任务的影响,因此,改进传统的bilstm-crf命名实体模型十分重要。
技术实现要素:
[0005]
本发明的发明目的是,针对上述问题,提供一种基于双特征联合提取的电力营销命名实体识别方法,构建一套识别效率高并且可用的电力营销领域命名实体模型。
[0006]
为达到上述目的,本发明所采用的技术方案是:
[0007]
基于双特征联合提取的电力营销命名实体识别方法,包括以下内容:
[0008]
步骤s1、构建电力营销领域命名实体识别语料库;
[0009]
步骤s2、搭建基于整词遮蔽以及通过双特征提取神经网络(dual feature extraction neural network,dfenn)提取全局特征和局部特征双特征联合提取的电力营销领域命名实体识别模型,根据步骤s1的电力营销领域命名实体语料库进行模型训练,得到评价指标结果最优的命名实体识别模型;
[0010]
步骤s3、使用步骤s2训练得到的命名实体识别模型,在电力营销领域文本数据中识别出命名实体检测结果,并将该检测结果标记出来。
[0011]
其中,步骤s1包括以下内容:
[0012]
步骤s1-1、对电力营销系统筛选出来的非结构化数据进行去重及去噪;
[0013]
步骤s1-2、通过对电力营销领域数据集的分析,根据数据集中的实体信息按照知识图谱的应用需求划分实体类型;步骤s1-2将实体类型按照知识图谱的应用需求分为时间、电压等级、线路、厂站、组织、设备电器、人员人名、地址和其它的九个实体类型;
[0014]
步骤s1-3、根据步骤s1-2的实体类型对步骤s1-1处理过的非结构化数据进行标注,构建电力营销领域命名实体识别语料库;步骤s1-3中,采用bio标注法对非结构化数据进行标注;其中,“b-实体类型”表示实体的第一个字符,“i-实体类型”表示实体中除第一个字符外的其他字符,“o”则代表非实体。
[0015]
步骤s2包括以下内容:
[0016]
步骤s2-1、将步骤s1中构建好的电网营销领域命名实体识别语料库的数据集作为输入文本,采用roberta-wwm预训练模型进行训练,得到词向量;
[0017]
步骤s2-2、采用双特征提取神经网络对步骤s2-1输出的词向量的文本特征进行并行提取,获取文本序列的全局特征序列和局部特征序列;然后,将全局特征序列和局部特征序列进行拼接融合,得到双特征序列;双特征提取神经网络为并列配置的bilstm网络和idcnn网络,且bilstm网络和idcnn网络并行处理;
[0018]
步骤s2-3、将roberta-wwm预训练模型输出层作为辅助分类层,将双特征提取神经网络输出层作为主分类层,采用注意力机制对辅助分类层和主分类层进行权重的计算,然后对词向量和双特征序列进行加权融合,得到融合特征向量;步骤s2-3利用similarity函数计算获取辅助分类层和主分类层特征权重,然后通过这两个粒度的向量特征相乘得到融合特征向量;
[0019]
步骤s2-4、采用crf模型对步骤s2-3的融合特征向量进行处理,先统计所有可能标签识别出来的概率,再输出概率最高的标签序列;然后,进行迭代处理,根据准确率、召回率和f1值的评价指标结果训练得到指标结果最优的电力营销领域命名实体识别模型。
[0020]
由于采用上述技术方案,本发明具有以下有益效果:
[0021]
1.本发明在得到电力营销领域数据集之后,首先通过roberta-wwm预训练模型将电力文本数据进行词向量化;接下来以roberta-wwm输出的语义表征向量作为输入,输入到本发明构建的dfenn神经网络中并行获取文本局部特征和全局特征并进行融合;再引入注意力机制,将模型的roberta-wwm层输出用作辅助分类层,dfenn层输出作为主分类层,通过注意力机制计算两个层的权重,然后通过这两个粒度的向量特征相乘得到新的特征输入到条件随机场(crf)层中,得到最合理的标签序列,完成电力营销领域命名实体识别,实现基于整词遮蔽和双特征联合提取的电力营销命名实体识别模型,使模型在电力营销领域命名实体识别数据集中取得更好的评估指标,有助于提升电力营销行业中专业信息的提取,是电力营销领域中智能问答系统及知识图谱构建的重要基础。
[0022]
2.本发明构建了双特征提取神经网络(dfenn)来对文本特征进行提取,采用并行的方式分别对文本特征的全局语义信息和局部语义信息进行提取,其中bilstm负责提取的是文本序列的全局特征,idcnn负责提取的是文本序列的局部特征,由于这两个提取任务是并行的方式同时进行,所以这并不会导致模型训练时间的增加,可以在保证文本特征质量的同时兼顾到训练的效率。最后,将bilstm和idcnn提取到的特征进行拼接融合,融合后的特征不仅包含了全局的上下文语义和语法信息,还包含了局部语义信息,这就使得最后获得的特征更加的完整,从而能进一步提高电力营销命名实体识别的效率。
[0023]
3.本发明深刻考虑到电力营销领域数据的领域性、复杂性和电力相关实体数据区分度较大等问题,在传统的bilstm-crf模型上进行创新,设计了一种基于整词遮蔽和双特征联合提取的电力营销命名实体识别方法,可以有效的解决电力营销领域下传统模型不能解决的实体边界不明确、一词多义和专业术语识别度不高的问题,并且在命名实体识别准确率上得到了一定的提升。
附图说明
[0024]
图1是本发明的命名实体识别方法步骤流程图。
[0025]
图2是本发明的命名实体识别方法处理流程图。
[0026]
图3是本发明的命名实体识别模型结构图。
[0027]
图4是本发明的roberta-wwm模型结构图。
[0028]
图5是本发明的roberta-wwm与bert模型掩码方案的区别示意图。
[0029]
图6是本发明的lstm模型的结构图。
具体实施方式
[0030]
以下结合附图对发明的具体实施进一步说明。
[0031]
如图1-图3所示,本发明的基于双特征联合提取的电力营销命名实体识别方法,包括如下步骤:
[0032]
步骤1.获取电力营销领域数据集,通过获取大量的电力营销领域数据来支持后续的工作,并且按照8:1:1的比例将数据集划分训练集、验证集与测试集。具体包含以下三个步骤:
[0033]
步骤1-1.本发明实验采用的是某电网公司提供的近两年营销系统数据,对电力营销系统筛选出来的非结构化数据进行去重及去噪。
[0034]
步骤1-2.在得到所需的电力营销领域数据集后,根据数据集中的实体信息,通过对电力营销领域数据集的分析,将实体类型分为时间、电压等级、线路、厂站、组织、设备电器、人员人名、地址和其它九个实体类别;在之后的识别过程将实体区分到对应的类别中,并且为了方便标注,分别使用英文表示为time、level、line、station、org、equ、name、add和other。
[0035]
步骤1-3.数据集采用人工标注的方式进行标注,本发明在标记命名实体时以采用bio标注法为例说明。其中,b表示实体的起始,i表示实体的内部,o表示实体的外部,若数据集中某一个词被标注为b/i-xxx,则说明该词是命名实体的起始部分或内部部分,其中xxx表示命名实体的类型,对应步骤1-2中的英文表示,比如time、level等,当词被标注为o时表示该词不是一个命名实体。
[0036]
步骤2.搭建基于整词遮蔽和双特征联合提取的电力营销命名实体识别模型,如图3所示为该模型架构图,包括整词遮蔽层(选用roberta-wwm预训练模型)、双特征提取神经网络(选用bilstm网络和idcnn网络)提取融合层、attention加权融合分类层及crf层,采用该模型对训练集进行学习,在进行算法训练时,初始学习率为0.0001,利用adam梯度优化算法更新参数,同时采取dropout策略以防止过拟合,dropout值设为0.5,根据相关评价指标的值即准确率、召回率和f1值得到此模型训练好的算法模型。具体内容如下:
[0037]
2-1.roberta-wwm预训练模型整词遮蔽
[0038]
本发明采用的是哈工大与科大讯飞联合实验室推出的roberta-wwm预训练模型对词向量进行训练,本质上,roberta模型是从bert模型的基础上改进升级而来,首先采用动态masking机制,每次向模型输入一个序列时,都会生成一种新的遮盖方式,其次是删除了next sentence prediction(nsp)任务,最后增加了预训练过程的语料规模,扩大batch size的同时增加了训练的步长。但是由于roberta模型是在英文数据的基础上所被提出的,如果直接使用原版roberta模型应用到电力营销领域中文数据集,这将会直接影响到该模型最终的效果。因此,针对本发明所构建的电力营销领域中文数据集,采用的是哈工大与讯飞联合实验室提出的roberta-wwm模型,该模型是在中文数据的基础上提出的,并且结合了中文整词遮蔽(whole wordmasking)技术以及roberta模型的优势,它的模型结构包括12层transformer,见图4所示,其中t={t1,t2,t3,...,tn}作为模型输入的文本,经过由多个双向transformer模型的encoder部分堆叠组成网络框架后,能更彻底地捕捉文本中的双向关系,其中模型的输出h={h1,h2,h3,...,hn}就是目标单词的词向量,输出的词向量中含有预训练阶段roberta-wwm获取的先验语义知识,训练roberta-wwm模型时,它的参数会随训练集的变化而进行微调,它的数值会持续更新,以便更好的学习训练集中的语义知识。roberta-wwm模型与bert模型在掩码方案上的区别如图5所示。与bert模型相比,roberta
‑‑
wwm主要在以下三个方面对预训练方法进行了改进:
[0039]
1)掩码方案采用全词掩码代替单字符掩码。
[0040]
2)模型任务中采用动态遮蔽代替静态遮蔽。
[0041]
3)删除预训练阶段的下一句预测(nsp)任务。
[0042]
该模型在位置嵌入中融合了文本的相对位置信息,并将词嵌入、段嵌入及位置嵌入的总和作为模型的输入,以更好地对实体信息进行识别。位置嵌入的计算公式如下所示:
[0043]
pe(pos,2i)=sin(pos/10000
2i/d
model)
[0044]
pe(pos,2i+1)=cos(pos/10000
2i/d
inodel)
[0045]
上式中,pos代表的是句中当前词所在的位置,取值范围是[0,max sequence length),i指的是词向量的维度,取值范围是[0,embedding dimension),给定一个输入句子序列s={s1,s2,s3,...,sn},句子中的两个实体可以表示为e1(sm)和e1(sz)(m,z∈[1,n],m≠z)。经过roberta-wwm预训练模型在句子输入序列的上下文处理后,得出向量表示如下式:
[0046]
h={h1,h2,h3,...,hn}
[0047]
另外,位置向量的添加也在一定程度上提升了实体识别的效果。每个词的位置向量pi(i=1,2,3,...,n)都由两个向量拼接而成,其中第一个向量是由该词与实体e1的相对距离d
i1
(i=1,2,3,...,n)组成,另一个向量是该词与实体e2的相对距离d
i2
(i=1,2,3,...,n)构成。最后,对各个词进行词向量和位置向量的组合,行成词向量表示。
[0048]
预训练阶段结束后,可将roberta-wwm输出的词向量输入到下一层的双特征提取神经网络(dfenn)中进行全局信息和局部信息的同时提取。
[0049]
2-2.双特征提取神经网络
[0050]
在命名实体识别任务中,bilstm通常是更加倾向于捕捉文本序列的全局语义信息,但是这也会导致丢失了局部语义信息,文本序列的局部语义信息对于命名实体识别也
是起着关键的作用的,如果忽略了局部的语义信息可能会导致最终提取到的特征稀疏,语义信息不够完整,导致最终命名实体识别的准确率不够高。idcnn相比于传统的cnn具有更大的接受域,其更加倾向于捕捉文本序列中的局部信息,这点是跟bilstm正好相反的。所以为了能够更加全面的对文本特征进行提取,本发明构建了双特征提取神经网络(dfenn)来对文本特征进行提取,模型结构图如图3所示,将roberta-wwm输出的词向量分别输入到bilstm网络和idcnn网络中,采用并行的方式分别对文本特征的全局语义信息和局部语义信息进行提取,其中bilstm负责提取的是文本序列的全局特征,idcnn负责提取的是文本序列的局部特征,由于这两个提取任务是并行的方式同时进行,所以这并不会导致模型训练时间的增加,可以在保证文本特征质量的同时兼顾到训练的效率。最后,将bilstm和idcnn提取到的特征进行拼接融合,融合后的特征不仅包含了全局的上下文语义和语法信息,还包含了局部语义信息,这就使得最后获得的特征更加的完整,从而能进一步提高电力营销命名实体识别的效率。该层网络由bilstm、idcnn和双特征融合三个模块构成,下面分别对bilstm、idcnn和双特征融合进行详细的介绍,其中bilstm和idcnn是同时进行的。
[0051]
2-2.1)bilstm网络
[0052]
长短期记忆网络(long short-term memory,lstm)是一种特殊的循环神经网络(recurrent neural network,rnn)。与传统的rnn不同,lstm在处理序列数据时可以更好地解决梯度消失和梯度爆炸的问题。lstm包含一个称为“细胞状态”(cell state)的内部状态,可以控制信息的流动和遗忘,从而更好地处理长序列数据。lstm也包含三个门控单元:输入门、输出门和遗忘门,可以控制信息的输入、输出和遗忘。这些门控单元通过学习自适应权重,可以根据输入数据的不同情况来控制信息的流动。这样可以有效地避免了单个重复神经元中出现“过拟合”现象,从而提高模型的精度和性能。lstm单元结构如图6所示。
[0053]
lstm模型第一步是计算遗忘门并选择需要遗忘的信息。遗忘门的计算公式如下:
[0054]ft
=σ(wfx[h
t-1
,x
t
]+bf)
[0055]
公式中记x
t
为细胞的状态,h
t-1
为上一时间的隐藏层状态,这个隐藏层状态包含之前节点的相关信息,同样也会经过一个线性变换的过程,wf为神经元权重,bf为偏差参数,用于对变量和状态的线性变换,σ为sigmoid计算公式。
[0056]
lstm模型第二步是计算记忆门并选择需要记忆的信息。记忆门计算的公式如下所示:
[0057]it
=σ(w
i x[h
t-1
,x
t
]+bi)
[0058]
公式中记x
t
为细胞的状态,h
t-1
为上一时间的隐藏层状态,这个隐藏状态包含之前节点的相关信息,同样也会经过一个线性变换的过程,wi为神经元权重,bi为偏差参数,用于对变量和状态的线性变换,t为当前时间,σ为sigmoid计算公式,i
t
为输入门。
[0059]
候选记忆细胞的公式如下,其中tanh函数是对候选记忆细胞激活函数进行激活,其值将映射在[-1,1],计算公式如下:
[0060][0061]
公式中记x
t
为细胞的状态,h
t-1
为上一时间的隐藏层状态,这个隐藏状态包含之前节点的相关信息,同样也会经过一个线性变幻的过程,wc为神经元权重,bc为偏差参数,用于对变量和状态的线性变换,为当前时间的临时细胞状态。
[0062]
更新完旧细胞状态后,为限制候选记忆细胞进入记忆门的比例,其计算公式如下:
[0063][0064]
公式中当前的细胞状态将从c
t-1
更新到c
t
,需要完成丢弃旧数据添加新数据的操作,将遗忘门f
t
与c
t-1
进行加权操作,控制上一时刻的记忆细胞c
t-1
的数据通过遗忘门的比例,将输入门i
t
与进行加权,最后通过结合获得c
t
为细胞状态。
[0065]
lstm模型的第三步是计算输出门以及隐藏层在当前时刻的状态,更新完细胞状态后需要根据输入的h
t-1
和x
t
来判断输出细胞的哪些状态特征,这里需要将输入经过一个称为输出门的sigmoid层得到判断条件,然后将细胞状态经过tanh层得到一个-1~1之间值的向量,该向量与输出门得到的判断条件相乘就得到了最终该rnn单元的输出。其计算公式如下:
[0066]ot
=σ(w
o x[h
t-1
,x
t
]+bo)
[0067]ht
=o
t x tanh(c
t
)
[0068]
通过上面公式计算,最终可以得到与句子长度相似的隐藏层状态序列{h1,h2,h3,
…
,hn}。
[0069]
基于上面lstm模型的三个步骤,可以看出lstm模型选择性的丢弃了一些没有用的信息,增强了神经元的记忆力,可以更好地解决长时依赖问题。然而,lstm没有充分利用电力营销数据的上下文信息。为此,本发明采用bilstm模型对电力营销领域命名实体识别中的关键特征进行提取。所谓的bilstm,就是双向lstm.单向的lstm模型只能捕捉到从前向后传递的信息,而双向的网络可以同时捕捉正向信息和反向信息,使得对电力营销文本信息的利用更全面,效果也更好。其计算公式如下:
[0070][0071][0072][0073]
其中,和代表的是隐藏层状态,旨在通过前向lstm获取从前向后的电力营销文本信息,旨在通过后向lstm获取从后向前的电力营销文本信息;代表的是正向特征向量表示;代表的是反向的特征向量表示;最后的隐藏层状态h
t
就是作为电力营销数据的特征,最终bilstm的输出结果为(h1,h2,...,hn)。
[0074]
虽然bilstm能够捕捉文本序列中的长距离的语义信息,但是其主要倾向的是建模文本序列的全局长期依赖,忽略了局部语义的信息,所以为了能够同时获取到全局特征信息和局部特征信息,还需要并行的使用idcnn进行局部特征的提取。
[0075]
2-2.2)idcnn网络
[0076]
idcnn是由4个大小相同的膨胀卷积块堆叠在一起组成,其中每一个膨胀卷积块又由3个膨胀卷积层组成,每一个膨胀卷积块堆叠的层数也不能太多,堆叠层数太多也会导致参数量过大,最终导致模型的过拟合。本发明中,设置了3层卷积层和4次迭代,每一层膨胀卷积层在仿射变换后的输出作为下一层膨胀卷积的输入,并且给这三个膨胀卷积层设置相同的的卷积核大小和过滤器大小。在本发明中,三个膨胀卷积层的膨胀宽度分别设置为1、
2、4,这样的设置是该网络在提取文本特征的时候可以顾及到每个字符的信息,又可以使网络的感受域名随着膨胀宽度的增加而指数上升,最终也能提取到距离相对较远的语义信息。
[0077]
在双特征提取网络中,idcnn的第一层膨胀宽度是1,卷积核的大小设置为3x3,其计算公式如下:
[0078][0079]
式中,表示膨胀宽度设置为j的第i个膨胀卷积层,表示的是第一层,就是x
t
在经过第一次膨胀卷积之后的输出。
[0080]
然后使用relu激活函数对前一个膨胀卷积层的输出进行激活,就可以得到下一个膨胀卷积层的输出,其计算公式如下:
[0081][0082]
式中,代表的就是第n个膨胀卷积层的输出,ln代表的就是每一个膨胀卷积的层数。
[0083]
最后面一层膨胀卷积的输出的计算公式如下:
[0084][0085]
式中,代表的是权值矩阵,代表的是偏置项。
[0086]
由于一个膨胀卷积块由三个膨胀卷积层组成,所以在上述三层就就可以当做是一个膨胀卷积块,用b(i)表示,i代表的是第i个卷积块,上一个膨胀卷积快的输出作为下一个膨胀卷积块的输入,本发明中,膨胀卷积块之间是共享参数的,开始的时候:
[0087][0088]
第m个膨胀卷积块的输入就是第m-1个膨胀卷积块的输出,其计算公式如下:
[0089][0090]
完成迭代后,最终就会得到最终输出的局部特征序列为(b1,b2,...,bn)。
[0091]
2-2.3)双特征融合
[0092]
在经过并行的方式进行双特征提取后,将idcnn得到的局部特征序列(b1,b2,...,bn)和bilstm得到的全局特征序列(h1,h2,...,hn)进行拼接融合,就可以得到新的并且包含有局部特征和全局特征的特征序列,其计算公式如下:
[0093][0094]
式中,代表的是讲全局特征和局部特征拼接结合在一起。经过融合后的特征不仅包含了长距离的上下语义信息和语法信息,还把局部语义信息加入进行了补充,最终得到了更加全面的特征,从而进一步提升命名实体识别的效果。完成融合后,最终输出的融合后的新特征序列(双特征序列)为(f1,f2,...,fn)。
[0095]
2-3.attention模型加权融合分类层
[0096]
神经网络中的注意力机制是在计算能力有限的情况下,将计算资源分配给更重要的任务,同时解决信息超载问题的一种资源分配方案。在神经网络学习中,一般而言模型的
参数越多则模型的表达能力越强,模型所存储的信息量也越大,但这会带来信息过载的问题。那么通过引入注意力机制,在众多的输入信息中聚焦于对当前任务更为关键的信息,降低对其他信息的关注度,甚至过滤掉无关信息,就可以解决信息过载问题,并提高任务处理的效率和准确性。在命名实体识别任务中,模型的输入往往都是长序列,但是并非序列里全部的信息都对实体识别任务有用,我们只需要保存重要且有用的信息即可。所以我们将注意力机制引入到命名实体识别任务中,注意力机制可以帮助模型对输入的部分赋予不同的权重,抽取出更加关键及重要的信息,使模型做出更加准确的判断。
[0097]
本发明采用roberta-wwm的输出当做辅助分类器,dfenn输出层则作为主分类器。通过训练后,roberta-wwm层输出的词向量融合了丰富的上下文语义信息,再将其输入到dfenn模型后可以学习到长距离全局特征信息和局部特征信息,最后将两者输出的向量通过注意力机制函数计算权重,再经过加权融合后可以更好的进行电力营销数据的序列标注。采用similarity函数作为度量roberta-wwm层输出向量与bilstm层输出向量之间相关性系数大小的得分函数。本发明中,分别使用了如下三种得分函数,similarity函数的计算公式如下:
[0098]
(皮尔逊相关系数)
[0099]
similarity(h
t
,fs)=w(h
t-fs)
t
s-1
(h
t-fs)(马氏距离)
[0100]
similarity(ht,fs)=tanh(w[h
t
;fs])(感知机)
[0101]
其中h
t
代表的是roberta-wwm层的输出结果,即辅助分类器;fs代表的是dfenn层的输出结果,即主分类器;w代表权重矩阵;代表分类器平均值;s为协方差矩阵。三种注意力值函数的实验对比如表1所示,经过对比发现,对于本发明中的电力营销领域数据集,采用皮尔逊相关系数取得的效果最好,感知机的效果最差,马氏距离的效果略优于感知机。这是因为皮尔逊相关系数和马氏距离都是机器学习中用来衡量两个变量之间的相似度或相关度的方法,也是相对简单有效的方法,但是它们的计算方式有所不同,皮尔逊相关系数是通过计算两个变量之间的协方差来衡量它们的相关度,皮尔逊相关系数的取值范围在-1到1之间,取值越接近1或-1表示两个变量之间的相关度越强,取值越接近0表示两个变量之间的相关度越弱。马氏距离是通过计算两个变量之间的距离来衡量它们的相似度,马氏距离的取值范围在0到正无穷之间,取值越小表示两个变量之间的相似度越高。在应用场景的区别上,皮尔逊系数更加广泛应用在机器学习中的特征选择和特征提取等任务中,而马氏距离更多的是用于图像匹配、图像检索等任务。感知机的结构在这三个注意力值函数里面是最复杂的,也是最容易导致过拟合的,优化起来也更加的困难。因此,本发明最后选取了效果较优的皮尔逊相关系数为注意力值的计算函数。利用similarity函数获取两层特征权重,然后通过这两个粒度的向量特征相乘得到新的特征传入到crf层中。
[0102]
2-4.crf层输出
[0103]
在进行电力营销领域的命名实体识别任务时,dfenn模型虽然能够对提取文本序列的全局特征和局部特征,但是并不能处理好相邻标签间的依赖关系。条件随机场(crf)可以通过考虑相邻标签之间的关系得到全局最佳的标记序列。对于输入序列x=(x1,x2,
…
,xn),提取特征可以得到输出矩阵p=(p1,p2,
…
,pn),对于预测序列y=(y1,y2,
…
,yn),其分数函数计算公式如下:
[0104][0105]
公式中ayi,y
i+1
代表的是yi转移到y
i+1
的分数,pi,yi代表的是该字符被预测为第yi个标签的分数,首先利用softmax层统计所有可能标签识别出来的概率,最后输出概率最高的标签序列。
[0106]
2-5.获得最佳模型
[0107]
通过迭代多次上述建立的模型,根据相关评价指标结果(即准确率、召回率和f1值)训练得到此模型指标最优结果的算法模型,相关的评价指标对于本发明中的模型均有较大提升。
[0108]
步骤3.利用训练好的算法模型对划分的电力营销领域测试集数据进行命名实体识别并标注测试的结果,然后即可使用,在电力营销领域文本数据中识别出命名实体检测结果并将该检测结果标记出来。测试具体步骤如下:
[0109]
利用基于整词遮蔽和双特征联合提取的电力营销命名实体识别模型对测试集样本进行测试,直接将测试样本送入到模型进行测试,测试过程中可能会存在命名实体分类不准确等问题,后续可以对识别出错的样本进行进一步分析以继续提升模型的识别准确率。
[0110]
步骤4.实验结果对比
[0111]
下表1及表2给出了本发明的roberta-wwm+dfenn+att+crf模型的两组实验比对,具体如下:
[0112]
表1:不同算法的电力营销领域命名实体识别的结果
[0113]
算法p/%r/%f1/%bilstm+crf83.582.382.9bert+bilstm+crf84.483.283.8roberta-wwm+bilstm+crf85.585.285.3roberta-wwm+idcnn+crf85.384.885.0roberta-wwm+dfenn+crf88.286.587.3roberta-wwm+dfenn+att+crf88.787.287.9
[0114]
表1是电力营销领域命名实体识别的结果,从中可以看出本发明的模型相较于其他模型效果最优,f1值达到了87.9%,相对于没有使用预训练模型的bilstm-crf算法提升了5%。在使用了预训练模型后,使用roberta-wwm模型的效果也比bert模型的效果更优,f1值提升了1.5%,这是因为roberta-wwm预训练模型使用的是全词遮蔽方案,更加适用于中文的命名实体。在使用了本发明的dfenn模型后与roberta-wwm-bilstm-crf模型相比f1值也提升了2%,与roberta-wwm-idcnn-crf模型相比f1值提升了2.3%,这是因为本发明构建的双特征抽取神经网络可以并行的获取输入文本的全局特征信息和局部特征信息,这就弥补了bilstm只注重全文信息的提取而不重视局部信息的不足,同时也弥补了idcnn只能获取到局部特征而获取不到长距离的全局特征的不足,并且由于采用的是并行获取的方式,所以在时间上并没有多余的消耗。最终在电力营销领域的命名实体任务上取得了不错的效果。
[0115]
表2:本发明的roberta-wwm+dfenn+att+crf模型在不同注意力机制函数下命名实体识别的结果
[0116]
注意力值函数p/%r/%f1/%感知机88.186.287.1马氏距离88.386.887.5皮尔逊相关系数88.787.287.9
[0117]
表2是本发明使用的roberta-wwm+dfenn+att+crf模型在不同注意力机制函数下命名实体识别的结果,从中可以发现使用皮尔逊相关系数得到的结果最好,感知机得到的结果最差,马氏距离的效果略优于感知机。所以本发明最终使用的是更适合的皮尔逊相关系数。最终本发明的模型使用注意力层加权融合后模型效果相比没加注意力层又增加了0.6%,这是因为roberta-wwm层输出的词向量融合了丰富的上下文语义信息,再将其输入到dfenn神经网络模型后可以学习到文本的全局特征和文本的局部特征信息,最后将两者输出的向量通过注意力机制函数计算权重,再经过加权融合后可以更好的进行电力营销数据的序列标注,因此识别效果更加的理想。
[0118]
需要指出的是,上述实施例的实例可以根据实际需要优选一个或两个以上相互组合,而多个实例采用一套组合技术特征的附图说明,在此就不一一展开说明。
[0119]
上述说明是针对本发明较佳可行实施例的详细说明和例证,但这些描述并非用以限定本发明所要求保护范围,凡本发明所提示的技术教导下所完成的同等变化或修饰变更,均应属于本发明所涵盖专利保护范围。
技术特征:
1.一种基于双特征联合提取的电力营销命名实体识别方法,其特征在于,包括以下内容:步骤s1、构建电力营销领域命名实体识别语料库;步骤s2、搭建基于整词遮蔽以及通过双特征提取神经网络提取全局特征和局部特征双特征联合提取的电力营销领域命名实体识别模型,根据步骤s1的电力营销领域命名实体语料库进行模型训练,得到评价指标结果最优的命名实体识别模型;步骤s3、使用步骤s2训练得到的命名实体识别模型,在电力营销领域文本数据中识别出命名实体检测结果,并将该检测结果标记出来。2.根据权利要求1所述的基于双特征联合提取的电力营销命名实体识别方法,其特征在于:所述步骤s1包括以下内容:步骤s1-1、对电力营销系统筛选出来的非结构化数据进行去重及去噪;步骤s1-2、通过对电力营销领域数据集的分析,根据数据集中的实体信息按照知识图谱的应用需求划分实体类型;步骤s1-3、根据步骤s1-2的实体类型对步骤s1-1处理过的非结构化数据进行标注,构建电力营销领域命名实体识别语料库。3.根据权利要求2所述的基于双特征联合提取的电力营销命名实体识别方法,其特征在于:所述步骤s1-2将实体类型按照知识图谱的应用需求分为时间、电压等级、线路、厂站、组织、设备电器、人员人名、地址和其它的九个实体类型。4.根据权利要求2所述的基于双特征联合提取的电力营销命名实体识别方法,其特征在于:所述步骤s1-3中,采用bio标注法对非结构化数据进行标注;其中,“b-实体类型”表示实体的第一个字符,“i-实体类型”表示实体中除第一个字符外的其他字符,“o”则代表非实体。5.根据权利要求1所述的基于双特征联合提取的电力营销命名实体识别方法,其特征在于:所述步骤s2包括以下内容:步骤s2-1、将步骤s1中构建好的电网营销领域命名实体识别语料库的数据集作为输入文本,采用roberta-wwm预训练模型进行训练,得到词向量;步骤s2-2、采用双特征提取神经网络对步骤s2-1输出的词向量的文本特征进行并行提取,获取文本序列的全局特征序列和局部特征序列;然后,将全局特征序列和局部特征序列进行拼接融合,得到双特征序列;步骤s2-3、将roberta-wwm预训练模型输出层作为辅助分类层,将双特征提取神经网络输出层作为主分类层,采用注意力机制对辅助分类层和主分类层进行权重的计算,然后对词向量和双特征序列进行加权融合,得到融合特征向量;步骤s2-4、采用crf模型对步骤s2-3的融合特征向量进行处理,先统计所有可能标签识别出来的概率,再输出概率最高的标签序列;然后,进行迭代处理,根据准确率、召回率和f1值的评价指标结果训练得到指标结果最优的电力营销领域命名实体识别模型。6.根据权利要求1或5所述的基于双特征联合提取的电力营销命名实体识别方法,其特征在于:所述双特征提取神经网络为并列配置的bilstm网络和idcnn网络,且bilstm网络和idcnn网络并行处理。7.根据权利要求5所述的基于双特征联合提取的电力营销命名实体识别方法,其特征
在于:所述步骤s2-2中,将idcnn得到的局部特征序列(b1,b2,...,b
n
)和bilstm得到的全局特征序列(h1,h2,...,h
n
)进行拼接融合,计算公式如下:式中,代表的是讲全局特征和局部特征拼接结合在一起;完成融合后输出的融合后的双特征序列为(f1,f2,...,f
n
)。8.根据权利要求5所述的基于双特征联合提取的电力营销命名实体识别方法,其特征在于:所述步骤s2-3利用similarity函数计算获取辅助分类层和主分类层特征权重,然后通过这两个粒度的向量特征相乘得到融合特征向量;其中similarity函数使用皮尔逊相关系数函数。
技术总结
本发明公开了一种基于双特征联合提取的电力营销命名实体识别方法,属于电力技术领域;通过RoBERTa-wwm预训练模型将电力文本数据进行词向量化;以RoBERTa-wwm输出的语义表征向量作为输入,输入到本发明构建的DFENN神经网络中并行获取文本局部特征和全局特征并进行融合;再引入注意力机制,将模型的RoBERTa-wwm层输出用作辅助分类层,DFENN层输出作为主分类层,通过注意力机制计算两个层的权重,然后通过这两个粒度的向量特征相乘得到新的特征输入到CRF层中,得到最合理的标签序列,完成电力营销领域命名实体识别,实现基于整词遮蔽和双特征联合提取的电力营销命名实体识别模型,使模型在电力营销领域命名实体识别数据集中取得更好的评估指标。别数据集中取得更好的评估指标。别数据集中取得更好的评估指标。
技术研发人员:蒙琦 张希翔 艾徐华 董贇 黄汉华 周迪贵 古哲德 覃宁 陶思恒 谢菁 谭期文 韦宗慧 陈昭利 张丽媛 陈燕雁 陈燕 梁增福
受保护的技术使用者:广西大学
技术研发日:2023.05.15
技术公布日:2023/8/14
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
