一种基于主动特征选择的多标签文本分类数据增强方法

未命名 10-09 阅读：98 评论：0

1.本发明公开一种基于主动特征选择的多标签文本分类数据增强方法，涉及自然语言处理技术领域。

背景技术：

2.在自然语言处理中，文本分类是重要且经典的问题之一，即将文本按照一定的规则进行分类。多标签文本分类是指对文本进行分类时，一个文本可能会被分到多个类别中，因此需要考虑多个标签的情况。如今随着互联网的不断发展，微博，推特等平台累积了大量的带标签的文本数据，各个类别需要更细粒度的划分，因此多标签分类更适合人们的期望。例如社交媒体中一条有关灾难的文本通常会涉及到多个主题，包括灾难类型、受害者情况、救援行动和捐赠信息等，人们可以通过其信息采取及时的措施。
3.现如今，mixup特征混合的数据增强策略已经广泛应用于单标签、多标签文本分类问题中，对于单标签而言，每一个文本特征与一个标签相互关联，但是对于多标签文本分类来说，一个文本有多个标签，因此会在特征混合过程中导致文本特征与标签关系不明确的问题，因此提出在序列层对特征进行混合，在混合过程中通过每个词对于标签的得分来判断其特征的重要程度，生成新的混合特征向量。从而在特征空间中平滑不同样本之间的边界，进而提高模型对标签间相关性的理解和分类能力。

技术实现要素：

4.本发明提供一种基于主动特征选择的多标签文本分类数据增强方法，能对数据进行增强，进而提升分类效果。
5.本发明的技术方案是：一种基于主动特征选择的多标签文本分类数据增强方法，包括如下步骤：
6.s1、使用预训练语言模型的嵌入层对分词后的文本进行嵌入得到词嵌入向量，同时使用预训练语言模型对标签类别长度进行编码得到初始化的标签提示模版pl，并将pl进行嵌入得到标签向量，然后将标签向量和词嵌入向量拼接，得到带有文本信息的标签提示模板向量；
7.s2、利用预训练语言模型中的注意力结构对拼接之后的带有文本信息的标签提示模板向量进行编码，生成一个新的向量序列，然后将向量经过单层线性层进行降维；
8.s3、将降维后的标签向量和词嵌入向量使用内积相似度计算每个词对于每个模板的分数；
9.s4、在每一个批次的每一句话中取出每一个模板对应分数中较高的k个词，将这些词重新进行词嵌入，接着将分数较高的k个词随机打乱后再次进行词嵌入；接着将重新词嵌入后得到的特征和打乱之后的重新词嵌入得到的特征按照λ和1-λ混合，λ服从贝塔分布，混合后重新写入原始的词嵌入层得到数据增强的词嵌入向量，以此达到数据增强的效果；
10.s5、将数据增强的词嵌入向量再次与s1中的标签向量拼接，得到新的带有文本信
息的标签提示模板向量；重复s2-s3，得到数据增强后每个词对于每个模板的分数，当前句子中数据增强后每个词对于每个模板的分数最高的词代表此句子的类别，因此采用若干个模板中每个模板分数的最大值来进行分类。
11.作为本发明的进一步方案，所述s1的具体实现包括：
12.定义批次数为b，n为标签种类,m为向量维度，将长度为l的文本序列通过预训练语言模型的嵌入层得到词嵌入向量ew＝[w1,
…
,w
l
]；使用预训练语言模型对标签长度进行编码得到初始化的标签提示模版pl，且使用嵌入层对标签提示模板pl进行嵌入得到如下标签向量e
p
＝[p0,...,pn]，然后将标签向量和词嵌入向量拼接，得到带有文本信息的标签提示模板向量e＝[e
p
,ew]。
[0013]
作为本发明的进一步方案，所述s2的具体实现包括：
[0014]
将带有文本信息的标签提示模板向量e经过预训练语言模型编码后得到向量序列[e
p
,e1,...e
l
]，其中e
p
∈r
b*n*m
是又经过预训练语言模型编码后的标签向量，
[0015]
[e1,...,e
l
]∈r
b*l*m
是又经过预训练语言模型编码后的词嵌入向量，预训练语言模型里的双向transformer编码器和注意力交互操作使得标签提示模版会携带文本的语义信息；
[0016]
对向量序列进行降维采用单层线性层降维，降维得到u＝[u
p
,u1,...,u
l
]∈
[0017]rb*(l+n)*m
，m为降维后的维度，b为批次数，n为标签种类，m为向量维度，
[0018]
[u1,...,u
l
]为降维后的词嵌入向量，u
p
为降维后的标签向量。
[0019]
作为本发明的进一步方案，所述s4的具体实现包括：
[0020]
从每个词对于每个模板的分数中分数较高的选出k组token值及其索引val,根据index一共取出b*k个词重新进行词嵌入得到嵌入表示e
topk
＝[wk]∈r
b*k*m
，随后将取出来的词随机打乱顺序再重新嵌入得到打乱之后的嵌入表示e
shuffle
＝[w
shuff
]∈r
b*k*m
；接着根据beta分布取到λ值，将e
topk
与e
shuff
按照λ和1-λ混合，混合结果维e
new
＝λ*e
topk
+(1-λ)*e
shuffle
；再根据索引index将e
new
重新写回原始的词嵌入层ew中，得到达到数据增强效果之后的数据增强的词嵌入向量e
mixup
∈r
b*l*m
，b为批次数，l为文本序列长度，m为向量维度。
[0021]
作为本发明的进一步方案，所述s5的具体实现包括：
[0022]
将数据增强的词嵌入向量e
mixup
与s1中的标签向量e
p
再次拼接，重复s2-s3，得到数据增强后每个词对于每个模板的分数，当前句子中对于每个模板分数最高的词代表此句子的类别，因此采用若干个模板中数据增强后每个词对于每个模板的分数的最大值来进行分类，取出max值进行分类：logits
score
＝max(s
p
)，进而完成多标签文本分类。
[0023]
其中，s
p
为若干个模板中数据增强后每个词对于每个模板的分数，经过s2预训练语言模型编码后得到向量序列如下：[e
mix
,e
mix
,...,e
mix_l
]；其中e
mixup
∈r
b*n*m
是数据增强后标签向量，[e
mix
,...,e
mix_l
]∈r
b*l*m
是数据增强的词向量，b为批次数，n为标签种类，l为文本序列长度，m为向量维度。
[0024]
本发明有益效果：
[0025]
1、本发明通过标签提示模板得到其与文本中每个词的得分情况，在相同标签的每个批次的句子中取出分数靠前的k个词，然后将这些词的特征进行随机互换，将分数高的词
的特征的和随机互换的词的特征按照λ和1-λ混合之后重新写入句子，起到数据增强的效果；
[0026]
2、本发明在russia meteor,cyclone pam,philippines flood,mixed disasters以及公开的aapd五个数据集上进行测试，与传统的基线模型对比,实验组评测指标相较于所有的基线模型均有明显提高。
附图说明
[0027]
图1为本发明实施例提供的一种基于主动特征选择的多标签文本分类数据增强方法整体框架图。
具体实施方式
[0028]
下面结合附图，对本发明的实施例进行描述。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0029]
如图1所示，是本发明实施例提供的一种基于主动特征选择的多标签文本分类数据增强方法整体框架图，一种基于主动特征选择的多标签文本分类数据增强方法，包括如下步骤：
[0030]
s1、使用预训练语言模型的嵌入层对分词后的文本进行嵌入得到词嵌入向量，同时使用预训练语言模型对标签类别长度进行编码得到初始化的标签提示模版pl，并将pl进行嵌入得到标签向量，然后将标签向量和词嵌入向量拼接，得到带有文本信息的标签提示模板向量；在一些可行的实施方式中，所述s1的具体实现包括：
[0031]
定义批次数为b，n为标签种类,m为向量维度，将长度为l的文本序列通过预训练语言模型的嵌入层得到词嵌入向量ew＝[w1,
…
,w
l
]；使用预训练语言模型对标签长度进行编码得到初始化的标签提示模版pl，且使用嵌入层对标签提示模板pl进行嵌入得到如下标签向量e
p
＝[p0,...,pn]，然后将标签向量和词嵌入向量拼接，得到带有文本信息的标签提示模板向量e＝[e
p
,ew]。
[0032]
s2、利用预训练语言模型中的注意力结构对拼接之后的带有文本信息的标签提示模板向量进行编码，生成一个新的向量序列，然后将向量经过单层线性层进行降维；
[0033]
在一些可行的实施方式中，所述s2的具体实现包括：将带有文本信息的标签提示模板向量e经过预训练语言模型编码后得到向量序列[e
p
,e1,...e
l
]，其中e
p
∈
[0034]rb*n*m
是又经过预训练语言模型编码后的标签向量，[e1,...,e
l
]∈r
b*l*m
是又经过预训练语言模型编码后的词嵌入向量，预训练语言模型里的双向transformer编码器和注意力交互操作使得标签提示模版会携带文本的语义信息；
[0035]
对向量序列进行降维采用单层线性层降维，降维得到u＝[u
p
,u1,...,u
l
]∈
[0036]rb*(l+n)*m
，m为降维后的维度，b为批次数，n为标签种类，m为向量维度，
[0037]
[u1,...,u
l
]为降维后的词嵌入向量，u
p
为降维后的标签向量。
[0038]
s3、将降维后的标签向量和词嵌入向量使用内积相似度计算每个词对于每个模板的分数；
[0039]
s4、在每一个批次的每一句话中取出每一个模板对应分数中较高的k个词，将这些
词重新进行词嵌入，接着将分数较高的k个词随机打乱后再次进行词嵌入；接着将重新词嵌入后得到的特征和打乱之后的重新词嵌入得到的特征按照λ和1-λ混合，λ服从贝塔分布，混合后重新写入原始的词嵌入层得到数据增强的词嵌入向量，以此达到数据增强的效果；在一些可行的实施方式中，所述s4的具体实现包括：
[0040]
从每个词对于每个模板的分数中分数较高的选出k组token值及其索引val,根据index一共取出b*k个词重新进行词嵌入得到嵌入表示e
topk
＝[wk]∈r
b*k*m
，随后将取出来的词随机打乱顺序再重新嵌入得到打乱之后的嵌入表示e
shuffle
＝[w
shuffle
]∈r
b*k*m
；接着根据beta分布取到λ值，将e
topk
与e
shuffle
按照λ和1-λ混合，混合结果维e
new
＝λ*e
topk
+(1-λ)*e
shuff
；再根据索引index将e
new
重新写回原始的词嵌入层ew中，得到达到数据增强效果之后的数据增强的词嵌入向量e
mixup
∈r
b*l*m
，b为批次数，l为文本序列长度，m为向量维度。
[0041]
s5、将数据增强的词嵌入向量再次与s1中的标签向量拼接，得到新的带有文本信息的标签提示模板向量；重复s2-s3，得到数据增强后每个词对于每个模板的分数，当前句子中数据增强后每个词对于每个模板的分数最高的词代表此句子的类别，因此采用若干个模板中每个模板分数的最大值来进行分类。在一些可行的实施方式中，所述s5的具体实现包括：
[0042]
将数据增强的词嵌入向量e
mixup
与s1中的标签向量e
p
再次拼接，重复s2-s3，得到数据增强后每个词对于每个模板的分数，当前句子中对于每个模板分数最高的词代表此句子的类别，因此采用若干个模板中数据增强后每个词对于每个模板的分数的最大值来进行分类，取出max值进行分类：logits
score
＝max(s
p
)；
[0043]
其中，s
p
为若干个模板中数据增强后每个词对于每个模板的分数，经过s2预训练语言模型编码后得到向量序列如下：[e
mixup-p
,e
mix
,...,e
mix_l
]；其中e
mixup
∈r
b*n*m
是数据增强后标签向量，[e
mix
,...,e
mix_l
]∈r
b*l*m
是数据增强的词向量，b为批次数，n为标签种类，l为文本序列长度，m为向量维度。
[0044]
为了说明本发明的效果，本发明和已有的方法进行比较，使用来自crisisnlp和crisislex中的几个聚合资源，包含resource#1、#4、#5、#7以及crisislext6、t26。包含四种标签：casualties&damage、caution&advice、donation&volunteering、informative以及108973条英文数据。有98973条数据用于训练，10000条数据用于验证，使用四个数据集进行测试：xx流星(meteor)、xx气旋(cyclone)、xx洪水(flood)及混合灾害(mixed),分别包含802、2473、684、10000条英文数据。同时又使用公开的aapd数据集，其中包含55840条样本，54种标签，53840条样本用于训练，1000条样本用于验证，1000条样本用于测试。评价指标与对比方法一致，采用f1作为评价分类结果的指标。所用数据集的实验结果如表1所示：
[0045]
表1实验结果
[0046][0047]
由表1可知，实验组评测指标相较于所有的基线模型均有明显提高。认为通过主动特征选择并且将特征按照比例混合，达到数据增强效果，从而提高模型的分类效果。
[0048]
在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0049]
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

技术特征：
1.一种基于主动特征选择的多标签文本分类数据增强方法，其特征在于，包括如下步骤：s1、使用预训练语言模型的嵌入层对分词后的文本进行嵌入得到词嵌入向量，同时使用预训练语言模型对标签类别长度进行编码得到初始化的标签提示模版pl，并将pl进行嵌入得到标签向量，然后将标签向量和词嵌入向量拼接，得到带有文本信息的标签提示模板向量；s2、利用预训练语言模型中的注意力结构对拼接之后的带有文本信息的标签提示模板向量进行编码，生成一个新的向量序列，然后将向量经过单层线性层进行降维；s3、将降维后的标签向量和词嵌入向量使用内积相似度计算每个词对于每个模板的分数；s4、在每一个批次的每一句话中取出每一个模板对应分数中较高的k个词，将这些词重新进行词嵌入，接着将分数较高的k个词随机打乱后再次进行词嵌入；接着将重新词嵌入后得到的特征和打乱之后的重新词嵌入得到的特征按照λ和1-λ混合，λ服从贝塔分布，混合后重新写入原始的词嵌入层得到数据增强的词嵌入向量，以此达到数据增强的效果；s5、将数据增强的词嵌入向量再次与s1中的标签向量拼接，得到新的带有文本信息的标签提示模板向量；重复s2-s3，得到数据增强后每个词对于每个模板的分数，当前句子中数据增强后每个词对于每个模板的分数最高的词代表此句子的类别，因此采用若干个模板中每个模板分数的最大值来进行分类。2.根据权利要求1所述的基于主动特征选择的多标签文本分类数据增强方法，其特征在于，所述s1的具体实现包括：定义批次数为b，n为标签种类,m为向量维度，将长度为l的文本序列通过预训练语言模型的嵌入层得到词嵌入向量e
w
＝[w1,
…
,w
l
]；使用预训练语言模型对标签长度进行编码得到初始化的标签提示模版pl，且使用嵌入层对标签提示模板pl进行嵌入得到如下标签向量e
p
＝[p0,...,p
n
]，然后将标签向量和词嵌入向量拼接，得到带有文本信息的标签提示模板向量e＝[e
p
,e
w
]。3.根据权利要求1所述的基于主动特征选择的多标签文本分类数据增强方法，其特征在于，所述s2的具体实现包括：将带有文本信息的标签提示模板向量e经过预训练语言模型编码后得到向量序列[e
p
，e1，...e
l
]，其中e
p
∈r
b*n*m
是又经过预训练语言模型编码后的标签向量，[e1，...，e
l
]∈r
b*l*m
是又经过预训练语言模型编码后的词嵌入向量，预训练语言模型里的双向transformer编码器和注意力交互操作使得标签提示模版会携带文本的语义信息；对向量序列进行降维采用单层线性层降维，降维得到u＝[u
p
，u1，...，u
l
]∈r
b*(l+n)*m
，m为降维后的维度，b为批次数，n为标签种类，m为向量维度，[u1，...，u
l
]为降维后的词嵌入向量，u
p
为降维后的标签向量。4.根据权利要求1所述的基于主动特征选择的多标签文本分类数据增强方法，其特征在于，所述s4的具体实现包括：从每个词对于每个模板的分数中分数较高的选出k组token值及其索引根据index一共取出b*k个词重新进行词嵌入得到嵌入表示e
topk
＝
[w
k
]∈r
b*k*m
，随后将取出来的词随机打乱顺序再重新嵌入得到打乱之后的嵌入表示e
shuffle
＝[w
shuffle
]∈r
b*k*m
；接着根据beta分布取到λ值，将e
topk
与e
shuffle
按照λ和1-λ混合，混合结果维e
new
＝λ*e
topk
+(1-λ)*e
shuffle
；再根据索引index将e
new
重新写回原始的词嵌入层e
w
中，得到达到数据增强效果之后的数据增强的词嵌入向量e
mixup
∈r
b*l*m
，b为批次数，l为文本序列长度，m为向量维度。5.根据权利要求1所述的基于主动特征选择的多标签文本分类数据增强方法，其特征在于，所述s5的具体实现包括：将数据增强的词嵌入向量e
mixup
与s1中的标签向量e
p
再次拼接，重复s2-s3，得到数据增强后每个词对于每个模板的分数，当前句子中对于每个模板分数最高的词代表此句子的类别，因此采用若干个模板中数据增强后每个词对于每个模板的分数的最大值来进行分类，取出max值进行分类：logits
score
＝max(s
p
)；其中，s
p
为若干个模板中数据增强后每个词对于每个模板的分数，经过s2预训练语言模型编码后得到向量序列如下：[e
mixup-p
，e
mix
，...，e
mix_l
]；其中e
mixup-p
∈r
b*n*m
是数据增强后标签向量，[e
mix
，...，e
mix_l
]∈r
b*l*m
是数据增强的词向量，b为批次数，n为标签种类，l为文本序列长度，m为向量维度。

技术总结
本发明公开一种基于主动特征选择的多标签文本分类数据增强方法，涉及自然语言处理技术领域。本发明通过标签提示模板得到其与文本中每个词的得分情况，在相同标签的每个批次的句子中取出分数靠前的K个词，然后将这些词的特征进行随机互换，将分数高的词的特征的和随机互换的词的特征按照λ和1-λ混合之后重新写入句子，起到数据增强的效果。本发明与传统的基线模型对比,实验组评测指标相较于所有的基线模型均有明显提高。基线模型均有明显提高。基线模型均有明显提高。

技术研发人员：线岩团庞宇宏余正涛
受保护的技术使用者：昆明理工大学
技术研发日：2023.07.04
技术公布日：2023/10/7

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：倾角传感器的温度补偿方法及系统与流程 下一篇：一种下肢辅具翻滚形状仿生设计方法

一种基于主动特征选择的多标签文本分类数据增强方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于主动特征选择的多标签文本分类数据增强方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表