一种基于多任务学习混合神经网络的中文投诉分类方法

未命名 07-27 阅读:92 评论:0


1.本发明涉及文本分类技术领域,尤其涉及一种基于多任务学习混合神经网络的中文投诉分类方法。


背景技术:

2.中国住宅环境投诉(crec)是早期发现和处理政府服务问题的关键。由于投诉报告的特殊性,数据的保密性,以及现有技术在中国投诉报告中的缺乏状况,投诉分类技术对投诉类型和相关部门的辨别起着关键作用。基于投诉报告的特性,投诉处理的过程被转化为一个多文本分类任务。
3.在投诉分类过程中,目前是仍以人工处理分类为主,即由相应部门的工作人员处理投诉文本中存在的问题,并将处理结果返回给投诉人。为了解决人工评估带来的挑战,目前已有众多文本分类模型致力于中文投诉报告的分类分析工作。然而,由于投诉报告的语言风格不同,直接应用文档模型对投诉报告进行分类具有一定挑战。因此,一个高效的神经语言分类框架对提高对投诉文本的理解至关重要,这也成为目前文本分类常用的解决方法。
4.现有的大多数文本分类方法都基于单一神经网络,并集中于卷积神经网络(cnn)、循环神经网络(rnn)、长短期记忆神经网络(lstm)或门控循环单元神经网络(gru)的构建和优化上。然而,单一的神经网络模型可能导致实验的运行时间延长,性能不佳,利用单神经网络模型的优势提出了混合神经网络,可以弥补单神经网络的缺点。例如,双向循环神经网络(brnn)结合cnn和双向rnn进行文本分类,可以达到减轻序列信息损失的效果,但是三者中任意单一神经网络则不能做到。
5.此外,目前大多数用于文本分类的深度学习模型仍为单任务学习模式,无法与类似任务共享学习信息,容易陷入局部最小值,作为基线学习模式性能较差。


技术实现要素:

6.本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于多任务学习混合神经网络的中文投诉分类方法,以便高效完成中文投诉分类工作。
7.为了实现本发明的上述目的,本发明所采取的技术方案是:
8.步骤1建立多任务学习混合神经网络,使用词嵌入捕获待分类投诉文本中的上下文信息和语义信息。选择知识集成增强表示模型ernie作为诉求文本的预训练模型。输入的待分类投诉文本表示为[cls]、w1、w2、

、wn、[sep],其中wi表示投诉文本中的一个单词作为一个词元token,[cls]和[sep]是在待分类投诉文本中每个句子的开始和末尾添加的特殊符号,最终隐藏向量的第i个token被记为ti,从[cls]中得到序列表示x
t

[0009]
步骤2采用卷积神经网络cnn和双向长短时记忆网络bilstm相结合的混合神经网络进一步获取多任务分类的显著信息和上下文信息。
[0010]
步骤具体包括:
[0011]
步骤2.1通过公式1和公式2得到诉求报告的深层特征。
[0012]cl
(x
t
)=lstm(w
(l)ck
(x
t-1
)+w
(sl)
x
t-1
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0013]cr
(x
t
)=lstm(w
(r)cr
(x
t+1
)+w
(sr)
x
t+1
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0014]
其中,c
l
(x
t
)和cr(x
t
)表示句子x
t
的前向传播和反向传播。w
(l)
和w
(r)
是将隐藏状态转换为下一层状态的参数度量。w
(sl)
和w
(sr)
是将当前句和下句的语义信息相结合的参数。
[0015]
步骤2.2使用双向语境信息表示句子,应用线性变换来确定对句子表示最有用的因子。
[0016][0017][0018]
其中,为文本中融合上下文信息的特征表示,为线性变换后的特征表示,w
(2) b
(2)
为可训练的参数。
[0019]
步骤2.3计算句子表示后,利用最大池化层获得显著信息:
[0020][0021]
其中,y
(3)
表示的第k个元素中的最大值。t是投诉文本中的句子数。
[0022]
步骤2.4将y
(3)
乘以可训练参数矩阵再加上偏置,并使用softmax函数进行归一化。
[0023]y(4)
=softmax(w
(4)y(3)
+b
(4)
)
ꢀꢀꢀꢀ
(6)
[0024]
其中,w
(4)
、b
(4)
为可训练参数。
[0025]
步骤3利用交叉熵函数作为损失函数,计算投诉类型和部门分类的损失函数,进行多任务学习,计算损失函数的组合,用以判断神经网络性能优劣,使用训练完成的神经网络模型实现中文投诉的分类。
[0026]
步骤具体包括:
[0027]
步骤3.1分别计算投诉类型和部门分类的损失函数:
[0028][0029][0030]
其中,y和y
(4)
表示文本原始标签和预测标签。lc(
·
)和ld(
·
)代表投诉类型和部门分类的损失函数,n为中文投诉文本的数量,m为部门类别数量。
[0031]
步骤3.2由于投诉类型和部门分类是相关的任务,因此,进行多任务分类处理,计算其损失函数的组合:
[0032]
l=alc(y,y
(4)
)+bld(y,y
(4)
)
ꢀꢀꢀꢀꢀ
(9)
[0033]
其中,a和b是介于0到1之间的常数值。
[0034]
本发明采用的技术方案与现有技术相比,具有以下的技术效果:
[0035]
考虑到crec的特点,本发明选择了具有相同bert参数的ernie作为适合于crec的预训练语言模型,并提出了一种混合神经网络来概括和掌握投诉文本的显著信息和上下文信息。利用混合神经网络代替单一神经网络,弥补单一神经网络的不足,实现更强的应用作用,增强模型竞争优势。
[0036]
该方法将投诉类型和部门分类结合为多任务处理,以利用相关信息,为中文投诉文本取得更好的整体性能。多任务学习方式与深度学习模型相结合,便于多个任务间共享学习信息,以便更迅速地到达优化目标,从而提高学习性能。
附图说明
[0037]
图1为本发明实施例中中文投诉分类的混合神经网络框架流程图;
[0038]
图2为本发明实施例中混合神经网络的结构图;
[0039]
图3为本发明实施例中投诉分类中词嵌入的比较图;
[0040]
图4为本发明实施例中部门分类中词嵌入的比较图;
[0041]
图5为本发明实施例中混合神经网络和单一神经网络的性能图。
具体实施方式
[0042]
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
[0043]
如图1所示,本实施例的方法如下所述:
[0044]
步骤1建立多任务学习混合神经网络,使用词嵌入捕获待分类投诉文本中的上下文信息和语义信息。选择知识集成增强表示模型ernie作为诉求文本的预训练模型,它结合了多阶段的知识策略(基础级、短语级和实体级策略)。ernie在模型预训练的时候考虑了entity masking(实体掩盖),有效地对实体级信息进行编码,以克服crec的特点。输入待分类投诉文本表示为[cls]、w1、w2、

、wn、[sep],其中wi表示投诉文本中的一个单词作为一个token,[cls]和[sep]是在文本中每个句子的开始和末尾添加的特殊符号,最终隐藏向量的第i个token被记为ti,从[cls]中得到序列表示x
t

[0045]
步骤2如图2所示,采用卷积神经网络cnn和双向长短时记忆网络bilstm相结合的混合神经网络进一步获取多任务分类的显著信息和上下文信息。该混合神经网络解决了cnn和bilstm单一模型的局限性。
[0046]
步骤具体包括:
[0047]
步骤2.1通过公式1和公式2得到诉求报告的深层特征。递归结构bilstm增强了上下文和语义特征。
[0048]cl
(x
t
)=lstm(w
(l)cl
(x
t1
)+w
(sl)
x
t-1
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0049]cr
(x
t
)=lstm(w
(r)cr
(x
t+1
)+w
(sr)
x
t+1
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0050]
其中,c
l
(x
t
)和cr(x
t
)表示句子x
t
的前向传播和反向传播。w
(l)
和w
(r)
是将隐藏状态转换为下一层状态的参数度量。w
(sl)
和w
(sr)
是将当前句和下句的语义信息相结合的参数。
[0051]
步骤2.2应用线性变换来确定对句子表示最有用的因子。句子用双向上下文信息表示,以强烈消除句子意义的歧义。
[0052][0053][0054]
其中,为文本中融合上下文信息的特征表示,为线性变换后的特征表示,w
(2) b
(2)
为可训练的参数。
[0055]
步骤2.3计算句子表示后,利用最大池化层获得显著信息:
[0056][0057]
其中,y
(3)
表示的第k个元素中的最大值。t是投诉文本中的句子数。与卷积神经网络的平均池化相比,最大池化层的目的是捕获分类任务的所有核心特征。
[0058]
步骤2.4与传统神经网络类似,将y
(3)
乘一个矩阵再加上偏置,并使用softmax函数进行归一化。
[0059]y(4)
=softmax(w
(4
)y
(3)
+b
(4)
)
ꢀꢀꢀꢀ
(6)
[0060]
其中,w
(4)
、b
(4)
为可训练参数。
[0061]
步骤3利用交叉熵函数作为损失函数,计算投诉类型和部门分类的损失函数,进行多任务学习,计算损失函数的组合,用以判断神经网络性能优劣。训练模型的目的是降低多任务学习中组合损失函数的值。
[0062]
步骤具体包括:
[0063]
步骤3.1分别计算投诉类型和部门分类的损失函数:
[0064][0065][0066]
其中,y和y
(4)
表示文本原始标签和预测标签。lc(
·
)和ld(
·
)代表投诉类型和部门分类的损失函数,n为中文投诉文本的数量,m为部门类别数量。
[0067]
步骤3.2由于投诉类型和部门分类是相关的任务,因此,进行多任务分类处理,计算其损失函数的组合:
[0068]
l=alc(y,y
(4)
)+bld(y,y
(4)
)
ꢀꢀꢀꢀꢀ
(9)
[0069]
其中,a和b是介于0到1之间的常数值。训练模型的目的是降低多任务学习中组合损失函数的值。
[0070]
我们进行了文本分类实验,在同一环境下对比多个最先进的模型,验证了所提出的混合神经网络模型的优越性。
[0071]
fasttext:是一个简单而有效的文本分类基线,在准确性方面通常与深度学习分类器相当。
[0072]
dpcnn:是一种低复杂度的词级深度卷积网络,能有效表示文本中的长距离关联。
[0073]
bilstm+att:通常能够通过注意力机制对上下文信息进行建模。
[0074]
c-bigru-att:结合cnn和bigru分别捕获字符级和词级特征,注意力机制为bigru隐藏层的输出分配权重。
[0075]
brcan:使用bilstm捕获文本上下文信息,cnn捕获文本关键字信息,注意力机制为关键字分配权重。
[0076]
acbilstm:采用注意力机制,分别对前向lstm和后向lstm的特征输出分配权重。
[0077]
表1给出了基线、单任务变量、深度学习模型和本发明提出的模型比较的结果。在投诉分类方面,本发明提出的模型在准确性方面均优于基线(fasttext和textcnn),在投诉分类方面分别提高了4.59百分点和4.81百分点。此外,可以看到,与表现最佳的深度学习模型(bilstm和bilstm+att)相比,该带有多任务学习模型的混合神经网络分别提高了6.21百
分点和6.24百分点。此外,该模型还优于单任务变量的分类模型(c-bigru-att、brcan和acbilstm)。在部门分类方面,所提出的模型的总体改进大约比单任务变量和基线好近8%。结果表明,由于上下文和语义特征的显著信息选择,所提出的有关投诉类型和部门的分类的模型在crec-tc上的分类结果提升。
[0078]
表1投诉报告的总体分类结果,包括基线、单任务变量和本发明提出的模型
[0079][0080]
下面对本发明提出的模型进行消融实验分析,以证明所提出的模型中的预训练语言模型、混合神经网络、多任务学习适用于中文诉求报告分类。
[0081]
关于词嵌入的研究,我们使用混合神经网络结合了以下预训练模型:word2vec,bert和ernie,以训练两种任务的深度学习分类。word2vec用于训练单词特征向量表示,有两种训练模式:cbow和skip-gram。在本文中,我们选择skip-gram作为训练模式。bert是一种顺序微调的方法。选择bert-base-uncase模型作为预训练模型。与bert的微调不同,ernie通过实体掩盖和短语掩盖隐式地学习知识和更长的语义依赖。
[0082]
投诉类型和部门分类的预训练模型对比如图3和图4所示。从图3可以看出,与其他预训练模型相比,预训练模型ernie更适合中文投诉分类。图4显示bert_cnn的准确率高于ernie_cnn。我们认为带有卷积核的cnn可以帮助bert识别显著信息,并获得更好的结果。总的来说,我们可以推断,虽然ernie的参数与bert相同,但由于多级掩盖,ernie具有更强的提取语义信息的能力。此外,对于crec-tc中不同长度文本和口头描述的问题,可以证明预训练模型ernie具有较好的投诉文本表示,并且与其他模型相比,可以更好地处理投诉报告。通过词嵌入实验,ernie可以使我们提出的混合神经网络模型具有更好的泛化和适应性。
[0083]
关于混合神经网络的研究,我们将混合神经网络的性能与具有多任务学习的单一神经网络进行了比较,如图5所示。单个神经网络的超参数与混合神经网络的超参数相同。该模型在多任务分类中表现较好,这可能是由于混合神经网络结合了特征提取能力。虽然混合神经网络比简单框架复杂,但结果显著提高了分类性能。为了获得更好的结果,我们选择了相对复杂的模型,而不是单一的神经网络。
[0084]
关于多任务学习和单任务学习的研究,最后,我们对提出模型的单任务学习和多任务学习进行比较,如表2所示,对于分类任务,将多任务学习与和ernie相关的单任务学习模型进行比较,多任务学习的模型性能得到了提高。结果表明,投诉类型与部门分类在联合学习时是相互辅助的。
[0085]
表2单任务学习和多任务学习的表现
[0086]

技术特征:
1.一种基于多任务学习混合神经网络的中文投诉分类方法,其特征在于,包括以下步骤:步骤1建立多任务学习混合神经网络,使用词嵌入捕获待分类投诉文本中的上下文信息和语义信息;步骤2采用卷积神经网络cnn和双向长短时记忆网络bilstm相结合的混合神经网络进一步获取多任务分类的显著信息和上下文信息;步骤3利用交叉熵函数作为损失函数,计算投诉类型和部门分类的损失函数,进行多任务学习,计算损失函数的组合,用以判断神经网络性能优劣,使用训练完成的神经网络模型实现中文投诉的分类。2.根据权利要求1所述的一种基于多任务学习混合神经网络的中文投诉分类方法,其特征在于,所述步骤1具体为:选择知识集成增强表示模型ernie作为诉求文本的预训练模型,输入的待分类投诉文本表示为[cls]、w1、w2、

、w
n
、[sep],其中w
i
表示投诉文本中的一个单词作为一个词元token,[cls]和[sep]是在待分类投诉文本中每个句子的开始和末尾添加的特殊符号,最终隐藏向量的第i个token被记为t
i
,从[cls]中得到序列表示x
t
。3.根据权利要求1所述的一种基于多任务学习混合神经网络的中文投诉分类方法,其特征在于,所述步骤2具体包括以下步骤:步骤2.1计算诉求报告的深层特征;步骤2.2使用双向语境信息表示句子,应用线性变换来确定对句子表示最有用的因子;步骤2.3计算句子表示后,利用最大池化层获得显著信息:其中,y
(3)
表示的第k个元素中的最大值,t是投诉文本中的句子数;步骤2.4将y
(3)
乘以可训练参数矩阵再加上偏置,并使用softmax函数进行归一化:y
(4)
=softmax(w
(4)
y
(3)
+b
(4)
)
ꢀꢀꢀꢀ
(6)其中,w
(4)
、b
(4)
为可训练参数。4.根据权利要求1所述的一种基于多任务学习混合神经网络的中文投诉分类方法,其特征在于,所述步骤3具体包括以下步骤:步骤3.1分别计算投诉类型和部门分类的损失函数;步骤3.2由于投诉类型和部门分类是相关的任务,因此,进行多任务分类处理,计算其损失函数的组合:l=al
c
(y,y
(4)
)+bl
d
(y,y
(4)
)
ꢀꢀꢀꢀ
(9)其中,a和b是介于0到1之间的常数值。5.根据权利要求3所述的一种基于多任务学习混合神经网络的中文投诉分类方法,其特征在于,步骤2.1中所述深层特征的公式如公式1及公式2所示:c
l
(x
t
)=lstm(w
(l)c
l(x
t-1
)+w(
sl)
x
t-1
)
ꢀꢀꢀꢀ
(1)c
r
(x
t
)=lstm(w
(r)
c
r
(x
t+1
)+w
(sr)
x
t+1
)
ꢀꢀꢀꢀ
(2)其中,c
l
(x
t
)和c
r
(x
t
)表示句子x
t
的前向传播和反向传播,w
(l)
和w
(r)
是将隐藏状态转换为下一层状态的参数度量,w
(sl)
和w
(sr)
是将当前句和下句的语义信息相结合的参数。6.根据权利要求3所述的一种基于多任务学习混合神经网络的中文投诉分类方法,其
特征在于,步骤2.2中应用线性变换来确定对句子表示最有用的因子的公式如公式3及公式4所示:4所示:其中,为文本中融合上下文信息的特征表示,为线性变换后的特征表示,w
(2) b
(2)
为可训练的参数。7.根据权利要求4所述的一种基于多任务学习混合神经网络的中文投诉分类方法,其特征在于,步骤3.1所述损失函数计算公式如公式7及公式8所示:特征在于,步骤3.1所述损失函数计算公式如公式7及公式8所示:其中,y和y
(4)
表示文本原始标签和预测标签,l
c
(
·
)和l
d
(
·
)代表投诉类型和部门分类的损失函数,n为中文投诉文本的数量,m为部门类别数量。

技术总结
本发明提供一种基于多任务学习混合神经网络的中文投诉分类方法,涉及文本分类技术领域。本发明首先使用知识集成增强表示模型(ERNIE)对诉求文本进行预训练,然后利用CNN和BiLSTM混合神经网络代替单一神经网络,弥补单一神经网络的不足,增强模型竞争优势,再将多任务学习方式与深度学习模型相结合,多个任务间共享学习信息,以便更迅速地到达优化目标,从而提高学习性能。从而提高学习性能。从而提高学习性能。


技术研发人员:任涛 刘玲君 陈爽 赵嘉欣
受保护的技术使用者:东北大学
技术研发日:2023.04.26
技术公布日:2023/7/25
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐