一种基于迁移学习和深度学习的多标签化工领域新闻分类方法
未命名
08-05
阅读:120
评论:0
1.本发明涉及自然语言处理技术领域,特别是涉及一种基于迁移学习和深度学习的多标签化工领域新闻分类方法。
背景技术:
2.新闻分类技术可以更好地自动整理、管理和分析大量的新闻文本,广泛应用于新闻推荐、情感分析、事件跟踪等方面。此外,新闻分类技术还可用于检测网络虚假信息、自动化智能问答等方面,有助于提高信息处理的效率和精确度。
3.现有技术中,新闻分类的方法主要包括text-cnn和lstm模型,但是这些方法都存在一些问题。text-cnn对长文本的语义信息捕捉不完整,且无法实现多标签的分类任务;而lstm模型需要大量文本数据来进行训练,也容易造成梯度爆炸的现象。
4.除了text-cnn和lstm模型以外,现有技术中还有一些其他的新闻分类方法,例如,基于词向量嵌入的分类方法可以将每个单词映射到低维向量空间中,并通过这些向量来表示整个文本的语义信息。然而,这种方法往往需要较大的存储空间来存储词向量,并且可能会受到不同语言、领域之间的差异影响。另外,基于机器学习的分类方法(如朴素贝叶斯、支持向量机等)也可以用于新闻分类任务,但是这些方法需要手动选择特征并进行特征工程,而且对于多标签分类任务表现不佳。
技术实现要素:
5.发明目的:本发明的目的是提供一种适用于小样本新闻数据且新闻分类准确率高的基于迁移学习和深度学习的多标签化工领域新闻分类方法。
6.技术方案:为实现上述目的,本发明所述的一种基于迁移学习和深度学习的多标签化工领域新闻分类方法,包括以下步骤:
7.步骤s1:获取新闻数据;
8.步骤s2:对新闻数据进行分段及添加标签,建立数据集序列m;
9.步骤s3:将数据集序列m中每段文本转化为向量序列,获得每段文本的组合向量;
10.步骤s4:选择预训练模型并利用组合向量进行训练,得到文本向量;
11.步骤s5:利用迁移学习构建多标签化工新闻分类模型,以捕捉文本向量中局部的特征和全局的语义信息;
12.步骤s6:对多标签化工新闻分类模型进行优化;
13.步骤s7:对多标签化工新闻分类模型进行性能分析。
14.其中,步骤s1所述的新闻数据是指已收集的国内外化工新闻。
15.其中,步骤s2所述的分段及添加标签包括以下子步骤:
16.步骤s201:将所有新闻数据按stop_word={'/n','。'}停用词进行分割,其中'/n'代表换行符,形成n段文本;
17.步骤s202:对每段文本添加标签label,即将每段文本逐一对比标签列表label中关键词,符合关键词记为1,不符合记为0,形成关于1或0的数据列表,作为这段文本的标签label;
18.步骤s203:得到的每段文本记为:para={id,content,label},其中id=1,2...n,content表示文本内容;
19.步骤s204:获得数据集序列m:m={para1,para2,para3,...,paran}。
20.其中,所述的标签列表label为:
21.label={'行业动态','政策解读','企业动态','市场分析','技术创新','无用信息'}。
22.其中,步骤s3所述的将数据集序列m中每段文本转化为向量序列,获得每段文本的组合向量,包括以下子步骤:
23.步骤s301:对数据集序列m中每段文本进行文本分类任务,即将每段文本前添加一个标志[cls]表示该文本是用于分类任务,结尾添加一个标志[sep]将每段文本隔开;
[0024]
步骤s302:将每段文本进行分词,得到每个单词的向量表示,即词语向量;将多组单词合并成一个整体的向量表示,得到片段向量;使用不同的正弦和余弦函数对每个分词分配一个向量,以表示其在序列中的相对位置,得到位置向量;
[0025]
步骤s303:计算每段文本的词语向量、片段向量和位置向量之和,获得每段文本的组合向量。
[0026]
其中对每个分词分配一个向量得到位置向量,具体为:
[0027]
设其中一段文本的长度为z,则这段文本中第i个单词的位置向量pe(i,j)为:
[0028][0029]
其中d是嵌入向量的维度,j是每个维度,j∈(1,d)。
[0030]
其中,步骤s4所述的选择预训练模型并利用组合向量对其进行训练,得到文本向量,包括以下子步骤:
[0031]
步骤s401:选用bert-base-chinese预训练模型;
[0032]
步骤s402:将数据集序列m中每段文本的组合向量输入预训练模型中,对模型进行训练;
[0033]
步骤s403:经过多轮训练,直到损失函数loss的值不再变化后,得到一系列具有丰富语义信息的文本向量,该向量是一个高维向量,其中每个维度代表了不同的语义信息。
[0034]
其中,步骤s5所述的构建多标签化工新闻分类模型,是指在cnn神经网络模型中添加卷积层和池化层,构建多标签化工新闻分类模型,以捕捉文本向量中局部的特征和全局的语义信息,包括以下子步骤:
[0035]
步骤s501:将文本向量作为输入特征向量,维度为[batch_size,sequence_length,hidden_size],其中batch_size为批量大小,sequence_length为序列长度,hidden_size为文本向量维度。
[0036]
步骤s502:在cnn神经网络模型中添加3个卷积层,分别是conv1,conv2,conv3,对
文本向量进行卷积操作,提取局部特征,卷积层的输出维度为[batch_size,sequence_length-filter_size+1,num_filters],其中filter_size为卷积核大小,num_filters为卷积核个数;
[0037]
步骤s503:在cnn神经网络模型中添加一个池化层,对每个卷积核的输出进行池化操作,提取卷积层输出的最大值,进一步压缩特征维度;
[0038]
步骤s504:重复上述步骤s501至s503的操作,直到提取出所有文本向量的特征信息和全局的语义信息。
[0039]
其中,s6所述的对多标签化工新闻分类模型进行优化,包括以下子步骤:
[0040]
步骤s601:将池化层输出的三维特征矩阵进行展平操作,转化为二维的特征向量,为后续的全连接层做准备;
[0041]
步骤s602:通过relu激活函数,使得神经网络能够更好地进行非线性拟合,拟合公式为:f(x)=max(0,x),即信号小于0时输出0,大于0时输出信号本身;同时通过dropout防止神经网络过拟合,提高模型泛化能力;
[0042]
步骤s603:使用adam算法使得学习率在每个参数的不同维度上自适应地调整,适应不同参数的特点,从而提高模型的训练效果;
[0043]
步骤s604:添加一个输出层,通常使用sigmoid函数作为激活函数,对每个label标签进行二分类,得到每个label标签的预测概率,sigmoid函数为:
[0044][0045]
其中,步骤s7所述的对多标签化工新闻分类模型进行性能分析,使用的评价指标为:
[0046]
精确率:
[0047]
表示多标签化工新闻分类模型预测为正例中真正为正例的样本占所有预测为正例的样本的比例;其中,tp表示被正确地划分为正例的个数,即实际为正例且被被多标签化工新闻分类模型划分为正例的实例数,fp表示被错误地划分为正例的个数,即实际为负例但被多标签化工新闻分类模型划分为正例的实例数;
[0048]
召回率:
[0049]
表示真正为正例的样本中被多标签化工新闻分类模型预测为正例的样本占所有真正为正例的样本的比例;其中,fn表示被错误地划分为负例的个数,即实际为正例但被多标签化工新闻分类模型划分为负例的实例数;
[0050]
精确率和召回率的调和平均数f1值:
[0051][0052]
表示多标签化工新闻分类模型基于精确率和召回率的综合性能。
[0053]
有益效果:本发明具有如下优点:1、本发明采用的分类方法是基于bert-base-chinese网络结构作为预训练模型,利用该网络结构在文本数据预训练的优势,即学习到的通用语言表示可以被用于各种特定的自然语言处理任务中,无需重复训练,将该网络结构
迁移到化工新闻领域分类中得到一系列的文本向量,以弥补化工领域中用来训练的文本数据不足的情况;
[0054]
2、本方法通过在cnn神经网络模型中添加卷积层和池化层,来构建多标签化工新闻分类模型,以捕捉文本向量中局部的特征和全局的语义信息,能够更好地提高文本分类的准确率;
[0055]
3、本方法通过对初始新闻文本数据进行分段,添加标签,来实现更合理的新闻分类,与其他文本分类模型如cnn、lstm、bert等相比,本发明构建的多标签化工新闻分类在准确率、召回率及f1值方面均有着明显的提升。
附图说明
[0056]
图1为本发明方法流程示意图;
[0057]
图2为本发明对新闻数据进行分段及添加标签流程示意图;
[0058]
图3为本发明将文本转化为向量序列示意图;
[0059]
图4为本发明标签分类标准。
具体实施方式
[0060]
下面结合实施例和附图对本发明的技术方案作详细说明。
[0061]
如图1所示,本发明所述的一种基于迁移学习和深度学习的多标签化工领域新闻分类方法,包括以下步骤:
[0062]
步骤s1:获取新闻数据:指收集的国内外化工新闻。
[0063]
步骤s2:如图2所示,对新闻数据进行分段及添加标签,建立数据集序列m,包括以下子步骤:
[0064]
步骤s201:将所有新闻数据按stop_word={'/n','。'}停用词进行分割,其中'/n'代表换行符,形成n段文本;
[0065]
步骤s202:对每段文本添加标签label,即将每段文本逐一对比标签列表label中关键词,符合关键词记为1,不符合记为0,形成关于1或0的数据列表,作为这段文本的标签label;
[0066]
步骤s203:得到的每段文本记为:para={id,content,label},其中id=1,2...n,content表示文本内容;
[0067]
步骤s204:获得数据集序列m:m={para1,para2,para3,...,paran}。
[0068]
其中,所述的标签列表label为:
[0069]
label={'行业动态','政策解读','企业动态','市场分析','技术创新','无用信息'}。
[0070]
步骤s3:如图3所示,将数据集序列m中每段文本转化为向量序列,获得每段文本的组合向量,包括以下子步骤:
[0071]
步骤s301:对数据集序列m中每段文本进行文本分类任务,即将每段文本前添加一个标志[cls]表示该文本是用于分类任务,结尾添加一个标志[sep]将每段文本隔开;
[0072]
步骤s302:将每段文本进行分词,得到每个单词的向量表示,即词语向量;将多组单词合并成一个整体的向量表示,得到片段向量;使用不同的正弦和余弦函数对每个分词
分配一个向量,以表示其在序列中的相对位置,得到位置向量;
[0073]
步骤s303:计算每段文本的词语向量、片段向量和位置向量之和,获得每段文本的组合向量。
[0074]
其中对每个分词分配一个向量得到位置向量,具体为:
[0075]
设其中一段文本的长度为z,则这段文本中第i个单词的位置向量pe(i,j)为:
[0076][0077]
其中d是嵌入向量的维度,j是每个维度,j∈(1,d)。
[0078]
步骤s4:选择预训练模型并利用组合向量进行训练,得到文本向量,包括以下子步骤:
[0079]
步骤s401:选用bert-base-chinese预训练模型;
[0080]
步骤s402:将数据集序列m中每段文本的组合向量输入预训练模型中,对模型进行训练;
[0081]
步骤s403:经过多轮训练,直到损失函数loss的值不再变化后,得到一系列具有丰富语义信息的文本向量,该向量是一个高维向量,其中每个维度代表了不同的语义信息。
[0082]
步骤s5:利用迁移学习构建多标签化工新闻分类模型,以捕捉文本向量中局部的特征和全局的语义信息,是指在cnn神经网络模型中添加卷积层和池化层,构建多标签化工新闻分类模型,以捕捉文本向量中局部的特征和全局的语义信息,包括以下子步骤:
[0083]
步骤s501:将文本向量作为输入特征向量,维度为[batch_size,sequence_length,hidden_size],其中batch_size为批量大小,sequence_length为序列长度,hidden_size为文本向量维度。
[0084]
步骤s502:在cnn神经网络模型中添加3个卷积层,分别是conv1,conv2,conv3,对文本向量进行卷积操作,提取局部特征,卷积层的输出维度为[batch_size,sequence_length-filter_size+1,num_filters],其中filter_size为卷积核大小,本实施例中filter_size分别为2、3、4,num_filters为卷积核个数,本实施例中num_filters为512;
[0085]
步骤s503:在cnn神经网络模型中添加一个池化层,对每个卷积核的输出进行池化操作,提取卷积层输出的最大值,进一步压缩特征维度;
[0086]
步骤s504:重复上述步骤s501至s503的操作,直到提取出所有文本向量的特征信息和全局的语义信息。
[0087]
步骤s6:对多标签化工新闻分类模型进行优化,包括以下子步骤:
[0088]
步骤s601:将池化层输出的三维特征矩阵进行展平操作,转化为二维的特征向量,为后续的全连接层做准备;
[0089]
步骤s602:通过relu激活函数,使得神经网络能够更好地进行非线性拟合,拟合公式为:f(x)=max(0,x),即信号小于0时输出0,大于0时输出信号本身;同时通过dropout防止神经网络过拟合,提高模型泛化能力;
[0090]
步骤s603:使用adam算法使得学习率在每个参数的不同维度上自适应地调整,适应不同参数的特点,从而提高模型的训练效果;
[0091]
步骤s604:添加一个输出层,通常使用sigmoid函数作为激活函数,对每个label标签进行二分类,如图4所示,为本发明标签分类标准,得到每个label标签的预测概率,sigmoid函数为:
[0092][0093]
步骤s7:对多标签化工新闻分类模型进行性能分析,使用的评价指标为:
[0094]
精确率:
[0095]
表示多标签化工新闻分类模型预测为正例中真正为正例的样本占所有预测为正例的样本的比例;其中,tp表示被正确地划分为正例的个数,即实际为正例且被被多标签化工新闻分类模型划分为正例的实例数,fp表示被错误地划分为正例的个数,即实际为负例但被多标签化工新闻分类模型划分为正例的实例数;
[0096]
召回率:
[0097]
表示真正为正例的样本中被多标签化工新闻分类模型预测为正例的样本占所有真正为正例的样本的比例;其中,fn表示被错误地划分为负例的个数,即实际为正例但被多标签化工新闻分类模型划分为负例的实例数;
[0098]
精确率和召回率的调和平均数f1值:
[0099][0100]
表示多标签化工新闻分类模型基于精确率和召回率的综合性能。
[0101]
本发明提供了一种基于迁移学习和深度学习的多标签化工领域新闻分类方法,该方法将bert-base-chinese网络结构作为预训练模型,利用该网络在然语言处理领域的优势,即该网络结构通过在大规模文本数据上进行预训练,学习到了通用的语言表示,这种通用表示可以被用于各种特定的自然语言处理任务中,而无需重复训练,将该网络结构迁移到化工新闻领域分类中,得到大量的文本向量,以弥补化工领域中用来训练的文本数据不足的情况。
[0102]
此外,相比于对bert-base-chinese网络结构微调,本方法通过在cnn神经网络模型中添加卷积层和池化层,来构建多标签化工新闻分类模型,以捕捉文本向量中局部的特征和全局的语义信息,能够更好地提高文本分类的准确率。
[0103]
同时,通过对初始新闻文本数据进行分段,添加标签,来实现更合理的新闻分类,与其他文本分类模型如cnn、lstm、bert等相比,本发明构建的多标签化工新闻分类在准确率、召回率及f1值方面均有着明显的提升,如表1所示,为cnn、lstm、bert网络模型与本发明构建的标签化工新闻分类模型的准确率、召回率及f1值。
[0104]
表1为cnn、lstm、bert网络模型与本发明构建的标签化工新闻分类模型的准确率、召回率及f1值
[0105]
模型精确率召回率f1值lstm0.850.860.8549
cnn0.880.890.8849bert0.94180.94170.9417本发明方法0.94670.94670.9467。
技术特征:
1.一种基于迁移学习和深度学习的多标签化工领域新闻分类方法,其特征在于,包括以下步骤:步骤s1:获取新闻数据;步骤s2:对新闻数据进行分段及添加标签,建立数据集序列m;步骤s3:将数据集序列m中每段文本转化为向量序列,获得每段文本的组合向量;步骤s4:选择预训练模型并利用组合向量进行训练,得到文本向量;步骤s5:利用迁移学习构建多标签化工新闻分类模型,以捕捉文本向量中局部的特征和全局的语义信息;步骤s6:对多标签化工新闻分类模型进行优化;步骤s7:对多标签化工新闻分类模型进行性能分析。2.根据权利要求1所述的基于迁移学习和深度学习的多标签化工领域新闻分类方法,其特征在于,步骤s1所述的新闻数据是指已收集的国内外化工新闻。3.根据权利要求1所述的基于迁移学习和深度学习的多标签化工领域新闻分类方法,其特征在于,步骤s2所述的分段及添加标签包括以下子步骤:步骤s201:将所有新闻数据按stop_word={'/n','。'}停用词进行分割,其中'/n'代表换行符,形成n段文本;步骤s202:对每段文本添加标签label,即将每段文本逐一对比标签列表label中关键词,符合关键词记为1,不符合记为0,形成关于1或0的数据列表,作为这段文本的标签label;步骤s203:得到的每段文本记为:para={id,content,label},其中id=1,2...n,content表示文本内容;步骤s204:获得数据集序列m:m={para1,para2,para3,...,para
n
}。4.根据权利要求3所述的基于迁移学习和深度学习的多标签化工领域新闻分类方法,其特征在于,所述的标签列表label为:label={'行业动态','政策解读','企业动态','市场分析','技术创新','无用信息'}。5.根据权利要求1所述的基于迁移学习和深度学习的多标签化工领域新闻分类方法,其特征在于,步骤s3所述的将数据集序列m中每段文本转化为向量序列,获得每段文本的组合向量,包括以下子步骤:步骤s301:对数据集序列m中每段文本进行文本分类任务,即将每段文本前添加一个标志[cls]表示该文本是用于分类任务,结尾添加一个标志[sep]将每段文本隔开;步骤s302:将每段文本进行分词,得到每个单词的向量表示,即词语向量;将多组单词合并成一个整体的向量表示,得到片段向量;使用不同的正弦和余弦函数对每个分词分配一个向量,以表示其在序列中的相对位置,得到位置向量;步骤s303:计算每段文本的词语向量、片段向量和位置向量之和,获得每段文本的组合向量。6.根据权利要求5所述的基于迁移学习和深度学习的多标签化工领域新闻分类方法,其特征在于,其中对每个分词分配一个向量得到位置向量,具体为:设其中一段文本的长度为z,则这段文本中第i个单词的位置向量pe(i,j)为:
其中d是嵌入向量的维度,j是每个维度,j∈(1,d)。7.根据权利要求1所述的基于迁移学习和深度学习的多标签化工领域新闻分类方法,其特征在于,步骤s4所述的选择预训练模型并利用组合向量对其进行训练,得到文本向量,包括以下子步骤:步骤s401:选用bert-base-chinese预训练模型;步骤s402:将数据集序列m中每段文本的组合向量输入预训练模型中,对模型进行训练;步骤s403:经过多轮训练,直到损失函数loss的值不再变化后,得到一系列具有丰富语义信息的文本向量,该向量是一个高维向量,其中每个维度代表了不同的语义信息。8.根据权利要求1所述的基于迁移学习和深度学习的多标签化工领域新闻分类方法,其特征在于,步骤s5所述的构建多标签化工新闻分类模型,是指在cnn神经网络模型中添加卷积层和池化层,构建多标签化工新闻分类模型,以捕捉文本向量中局部的特征和全局的语义信息,包括以下子步骤:步骤s501:将文本向量作为输入特征向量,维度为[batch_size,sequence_length,hidden_size],其中batch_size为批量大小,sequence_length为序列长度,hidden_size为文本向量维度。步骤s502:在cnn神经网络模型中添加3个卷积层,分别是conv1,conv2,conv3,对文本向量进行卷积操作,提取局部特征,卷积层的输出维度为[batch_size,sequence_length-filter_size+1,num_filters],其中filter_size为卷积核大小,num_filters为卷积核个数;步骤s503:在cnn神经网络模型中添加一个池化层,对每个卷积核的输出进行池化操作,提取卷积层输出的最大值,进一步压缩特征维度;步骤s504:重复上述步骤s501至s503的操作,直到提取出所有文本向量的特征信息和全局的语义信息。9.根据权利要求1所述的基于迁移学习和深度学习的多标签化工领域新闻分类方法,其特征在于,s6所述的对多标签化工新闻分类模型进行优化,包括以下子步骤:步骤s601:将池化层输出的三维特征矩阵进行展平操作,转化为二维的特征向量,为后续的全连接层做准备;步骤s602:通过relu激活函数,使得神经网络能够更好地进行非线性拟合,拟合公式为:f(x)=max(0,x),即信号小于0时输出0,大于0时输出信号本身;同时通过dropout防止神经网络过拟合,提高模型泛化能力;步骤s603:使用adam算法使得学习率在每个参数的不同维度上自适应地调整,适应不同参数的特点,从而提高模型的训练效果;步骤s604:添加一个输出层,通常使用sigmoid函数作为激活函数,对每个label标签进行二分类,得到每个label标签的预测概率,sigmoid函数为:
10.根据权利要求1所述的基于迁移学习和深度学习的多标签化工领域新闻分类方法,其特征在于,步骤s7所述的对多标签化工新闻分类模型进行性能分析,使用的评价指标为:精确率:表示多标签化工新闻分类模型预测为正例中真正为正例的样本占所有预测为正例的样本的比例;其中,tp表示被正确地划分为正例的个数,即实际为正例且被被多标签化工新闻分类模型划分为正例的实例数,fp表示被错误地划分为正例的个数,即实际为负例但被多标签化工新闻分类模型划分为正例的实例数;召回率:表示真正为正例的样本中被多标签化工新闻分类模型预测为正例的样本占所有真正为正例的样本的比例;其中,fn表示被错误地划分为负例的个数,即实际为正例但被多标签化工新闻分类模型划分为负例的实例数;精确率和召回率的调和平均数f1值:表示多标签化工新闻分类模型基于精确率和召回率的综合性能。
技术总结
本发明公开了一种基于迁移学习和深度学习的多标签化工领域新闻分类方法,包括获取新闻数据;对新闻数据进行分段及添加标签,建立数据集序列M;将数据集序列M中每段文本转化为向量序列,获得每段文本的组合向量;选择预训练模型并利用组合向量进行训练,得到文本向量;利用迁移学习构建多标签化工新闻分类模型,以捕捉文本向量中局部的特征和全局的语义信息;对多标签化工新闻分类模型进行优化;对多标签化工新闻分类模型进行性能分析。本发明解决了现有技术中新闻分类方法存在无法实现多标签的分类任务或对于多标签分类任务表现不佳、需要大量文本数据来进行训练、需要较大的存储空间来存储词向量的问题。的存储空间来存储词向量的问题。的存储空间来存储词向量的问题。
技术研发人员:陈剑洪 王建浩 刘津铭 陈天赐 徐豪 孙琦 唐宇诚 杨春莲 赵世伟 孙梦嘉
受保护的技术使用者:淮阴工学院
技术研发日:2023.05.09
技术公布日:2023/8/4
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
