一种基于主动学习和条件对抗网络的中文分词方法与流程

未命名 10-08 阅读:100 评论:0


1.本发明涉及一种基于主动学习和条件对抗网络的中文分词方法,属于烟草技术领域。


背景技术:

2.中文分词是将一个汉字序列切分成一个个单独的词,与英文句子相比,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,所以中文分词是信息处理中的关键技术和难点,词是理解句子的最小单位,是中文信息处理的第一步,但是词在形式上没有分界符,不能通过明显的分界符进行简单划界。虽然英文也同样存在短语的划分问题,但在词这一层面上,中文分词比英文分词要复杂得多、困难得多。
3.传统的中文分词方法有基于字符串匹配的方法、基于统计以及机器学习的方法和通过计算机模拟人对句子的理解,达到识别词的方法;随着深度学习的兴起,使得自动学习文本特征成为一种可能,基于长短时记忆神经网络的方法、基于条件随机场模型的方法和基于bert的方法都得到了广泛应用,特别是bert方法,解决了大部分的文本信息处理问题。但由于不同领域句法知识不同,经过通用领域数据集预训练的bert对特定领域分词训练精度差,并且对于某个特定领域的分词,缺乏可用数据集,需要手动标注大量数据。


技术实现要素:

4.本发明的目的在于克服现有技术中的不足,提供一种基于主动学习和条件对抗网络的中文分词方法,解决了当前通用领域数据集预训练的bert模型对特定领域分词训练精度差的问题。
5.为达到上述目的/为解决上述技术问题,本发明是采用下述技术方案实现的:一种基于主动学习和条件对抗网络的中文分词方法,包括:
6.获取目标文本的语义特征;
7.根据所述目标文本的语义特征,利用预先训练好的bert模型对目标文本分词划分;
8.其中,所述bert模型的训练包括:
9.根据预设烟草领域数据集和通用领域数据集中获取的多个样本的语义特征预测领域;
10.根据预设烟草领域数据集和通用领域数据集中获取的多个样本的语义特征获取烟草领域和通用领域的共有特征;
11.获取预设烟草领域数据集中多个样本所对应的信息量值;
12.根据信息量值对bert模型进行迭代。
13.进一步地,所述根据预设烟草领域数据集和通用领域数据集中获取的多个样本的语义特征预测领域的方法包括:
14.获取预设烟草领域数据集中已标注样本的语义特征向量x和通用领域数据集中样本的语义特征向量
15.通过判别器获取语义特征向量x和语义特征向量的领域。
16.更进一步地,所述判别器的损失函数为:
[0017][0018]
其中,d
θ
(.)表示判别器;
[0019]
θ为判别器参数;
[0020]
y表示不同语义特征向量所对应的判别输出值;当判别为通用领域特征,则y=1;当判别为特定领域特征时,则y=0。
[0021]
进一步地,所述根据预设烟草领域数据集和通用领域数据集中获取的多个样本的语义特征获取烟草领域和通用领域的共有特征的方法包括:
[0022]
获取预设烟草领域数据集中已标注样本的语义特征向量x和通用领域数据集中样本的语义特征向量
[0023]
重构语义特征向量x和语义特征向量
[0024]
通过bert模型预测重构语义特征向量x和重构语义特征向量的领域。
[0025]
更进一步地,所述bert模型的损失函数为:
[0026][0027]
其中,d
θ
(.)表示判别器;
[0028]
θ为判别器参数;
[0029]
y表示不同语义特征向量所对应的判别输出值;当判别为通用领域特征,则y=1;当判别为特定领域特征时,则y=0。
[0030]
更进一步地,所述重构语义特征向量x和语义特征向量的重构损失函数为:
[0031][0032]
其中,n为字向量长度,z为字向量内的标量标号。
[0033]
进一步地,所述获取预设烟草领域数据集中多个样本所对应的信息量值的方法包括:
[0034]
获取预设烟草领域数据集中带标注样本的语义特征向量x
l
和剩余未标注样本的语义特征向量xu;
[0035]
获取语义特征向量x
l
和语义特征向量xu的字符关系度量值;
[0036]
将获取到的字符关系度量值作为信息量值。
[0037]
更进一步地,所述字符关系度量值的计算公式为:
[0038][0039]
其中,i表示样本下标;j表示字在样本中的位置下标;
[0040]
n表示字向量长度;z为字向量内的标量标号;
[0041]
x代表语义特征向量x
l
或语义特征向量xu。
[0042]
更进一步地,所述根据信息量值对bert模型进行迭代的方法包括:
[0043]
获取预设烟草领域数据集中n个信息量值最大的未标注样本;
[0044]
将n个信息量值最大的未标注样本标注后加入带标注的样本中,形成新的预设烟草领域数据;
[0045]
利用当前新形成的预设烟草领域数据集训练bert模型;
[0046]
若目标函数的损失值或迭代次数不满足预设值,则继续从当前新形成的预设烟草领域数据集中获取n个信息量值最大的未标注样本,经标注后加入到当前新形成的预设烟草领域数据集中再次形成新的预设烟草领域数据集,利用再次新形成的预设烟草领域数据集继续训练bert模型;
[0047]
直到目标函数的损失值或迭代次数满足预设值。
[0048]
更进一步地,所述目标函数为基于字符关系度量值的分词损失函数,分词损失函数为:
[0049][0050]
其中,将语义特征向量x
l
中的每个字分类为词首位置b、词中位置c、词尾位置e和单独一个词s,bc、cc、ce、be、eb、es、sb为字符的不同组合位置;
[0051]
m(.)为语义特征向量x
l
的字符关系度量值。
[0052]
与现有技术相比,本发明所达到的有益效果:
[0053]
1、本发明通过建立特定领域的烟草领域数据集,并对其中需要进行训练的中文文本进行标注,将通用领域数据集和特定领域数据集输入至bert模型中获取相关的语义特征向量,再将相关的语义特征向量输入至判别器中与bert模型形成对抗训练,使得模型捕获得到特定领域和通用领域的共有特征,解决了当前仅用通用领域数据集预训练的方式影响跨域分词模型精度的问题。
[0054]
2、本发明通过在特定领域数据集中选取若干句带标注的文本,获取带标注文本的标注语义特征向量和剩余未标注文本的未标注语义特征向量,通过计算每个语义特征向量的字符关系度量值来作为样本的信息量值,信息量值越大,则分词器对该文本的分词越困难,使用字符关系度量值作为采样策略,有效地选择出信息量最大的未标记文本,节省了注释成本。
附图说明
[0055]
图1是本发明实施例提供的一种基于主动学习和条件对抗网络的中文分词方法中的bert模型训练流程图;
[0056]
图2是本发明实施例提供的一种基于主动学习和条件对抗网络的中文分词方法中对bert模型的迭代流程图;
[0057]
图3是本发明实施例提供的一种基于主动学习和条件对抗网络的中文分词方法中bert模型的原理图。
具体实施方式
[0058]
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明
的技术方案,而不能以此来限制本发明的保护范围。
[0059]
实施例
[0060]
一种基于主动学习和条件对抗网络的中文分词方法,包括:
[0061]
获取目标文本的语义特征;
[0062]
根据目标文本的语义特征,利用预先训练好的bert模型对目标文本分词划分;
[0063]
如图1所示,bert模型的训练包括:
[0064]
构建通用领域数据集和烟草领域数据集,对烟草领域数据集中待训练的中文样本进行标注,得到预设烟草领域数据集和通用领域数据集;
[0065]
根据预设烟草领域数据集和通用领域数据集中获取的多个样本的语义特征预测领域;具体的:
[0066]
获取预设烟草领域数据集中已标注样本的语义特征向量x和通用领域数据集中样本的语义特征向量
[0067]
如图3所示,通过判别器获取语义特征向量x和语义特征向量的领域;
[0068]
其中,判别器由线性层组成,相邻每两个线性层之间设有relu激活函数;其中,判别器具体结构为三层全连接层,第一个全连接层fc1的长度为768,用于匹配bert模型输出的类别token长度,第二个全连接层fc2的长度为128,作为隐藏层降维,第三个全连接层fc3的长度为2,用于判别器分类,fc1和fc2、fc2和fc3之间各设有一个relu激活函数,用于增加网络模型的非线性;
[0069]
判别器的损失函数为:
[0070][0071]
其中,d
θ
(.)表示判别器;
[0072]
θ为判别器参数;
[0073]
y表示不同语义特征向量所对应的判别输出值;当判别为通用领域特征,则y=1;当判别为特定领域特征时,则y=0。
[0074]
根据预设烟草领域数据集和通用领域数据集中获取的多个样本的语义特征获取烟草领域和通用领域的共有特征;具体的:
[0075]
获取预设烟草领域数据集中已标注样本的语义特征向量x和通用领域数据集中样本的语义特征向量
[0076]
重构语义特征向量x和语义特征向量由于通用领域数据集中样本的数量远远大于烟草领域数据集带有标注样本的数量,为了使bert模型更好地学习语义特征向量的通用特性,通过对语义特征进行重构,使不同特定的烟草领域特征朝通用特征靠拢,并定义如下重构损失函数:
[0077][0078]
其中,n为字向量长度,z为字向量内的标量标号;
[0079]
由bert模型生成的通用领域数据集中样本的语义特征向量和预设烟草领域数据集中已标注样本的语义特征向量x需要阻止判别器准确预测样本的领域从而形成对抗训练,其损失函数如下:
[0080][0081]
其中,d
θ
(.)表示判别器;
[0082]
θ为判别器参数;
[0083]
y表示不同语义特征向量所对应的判别输出值;当判别为通用领域特征,则y=1;当判别为特定领域特征时,则y=0。
[0084]
获取预设烟草领域数据集中多个样本所对应的信息量值,具体的:
[0085]
从预设烟草领域数据集选取100条带标注的样本;
[0086]
获取预设烟草领域数据集中带标注样本的语义特征向量x
l
和剩余未标注样本的语义特征向量xu;
[0087]
获取语义特征向量x
l
和语义特征向量xu的字符关系度量值,具体的:
[0088]
bert模型提取了预设烟草领域数据集中带标注样本的语义特征向量x
l
和剩余未标注样本的语义特征向量xu,并将语义特征向量x
l
和xu投影到潜在空间中计算字符关系度量值;
[0089]
字符关系度量值的计算公式为:
[0090][0091]
其中,i表示样本下标;j表示字在样本中的位置下标;n表示字向量长度;z为字向量内的标量标号;x代表语义特征向量x
l
或语义特征向量xu;
[0092]
可通过字符关系度量值的计算公式分别计算语义特征向量x
l
或语义特征向量xu的字符关系度量值,将获取到的字符关系度量值作为信息量值。
[0093]
如图2所示,根据信息量值对bert模型进行迭代,具体的:
[0094]
获取预设烟草领域数据集中10个信息量值最大的未标注样本;
[0095]
将10个信息量值最大的未标注样本标注后加入带标注的样本中,形成新的预设烟草领域数据;
[0096]
利用当前新形成的预设烟草领域数据集训练bert模型;
[0097]
若目标函数的损失值或迭代次数不满足预设值,则继续从当前新形成的预设烟草领域数据集中获取10个信息量值最大的未标注样本,经标注后加入到当前新形成的预设烟草领域数据集中再次形成新的预设烟草领域数据集,利用再次新形成的预设烟草领域数据集继续训练bert模型;
[0098]
直到目标函数的损失值或迭代次数满足预设值;
[0099]
目标函数为基于字符关系度量值的分词损失函数,分词损失函数为:
[0100][0101]
其中,将语义特征向量x
l
中的每个字分类为词首位置b、词中位置c、词尾位置e和单独一个词s,bc、cc、ce、be、eb、es、sb为字符的不同组合位置;m(.)为语义特征向量x
l
的字符关系度量值。
[0102]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形
也应视为本发明的保护范围。

技术特征:
1.一种基于主动学习和条件对抗网络的中文分词方法,其特征在于,包括:获取目标文本的语义特征;根据所述目标文本的语义特征,利用预先训练好的bert模型对目标文本分词划分;其中,所述bert模型的训练包括:根据预设烟草领域数据集和通用领域数据集中获取的多个样本的语义特征预测领域;根据预设烟草领域数据集和通用领域数据集中获取的多个样本的语义特征获取烟草领域和通用领域的共有特征;获取预设烟草领域数据集中多个样本所对应的信息量值;根据信息量值对bert模型进行迭代。2.根据权利要求1所述的基于主动学习和条件对抗网络的中文分词方法,其特征在于,所述根据预设烟草领域数据集和通用领域数据集中获取的多个样本的语义特征预测领域的方法包括:获取预设烟草领域数据集中已标注样本的语义特征向量x和通用领域数据集中样本的语义特征向量通过判别器获取语义特征向量x和语义特征向量的领域。3.根据权利要求2所述的基于主动学习和条件对抗网络的中文分词方法,其特征在于,所述判别器的损失函数为:其中,d
θ
(.)表示判别器;θ为判别器参数;y表示不同语义特征向量所对应的判别输出值;当判别为通用领域特征,则y=1;当判别为特定领域特征时,则y=0。4.根据权利要求1所述的基于主动学习和条件对抗网络的中文分词方法,其特征在于,所述根据预设烟草领域数据集和通用领域数据集中获取的多个样本的语义特征获取烟草领域和通用领域的共有特征的方法包括:获取预设烟草领域数据集中已标注样本的语义特征向量x和通用领域数据集中样本的语义特征向量重构语义特征向量x和语义特征向量通过bert模型预测重构语义特征向量x和重构语义特征向量的领域。5.根据权利要求4所述的基于主动学习和条件对抗网络的中文分词方法,其特征在于,所述bert模型的损失函数为:其中,d
θ
(.)表示判别器;θ为判别器参数;y表示不同语义特征向量所对应的判别输出值;当判别为通用领域特征,则y=1;当判别为特定领域特征时,则y=0。6.根据权利要求4所述的基于主动学习和条件对抗网络的中文分词方法,其特征在于,
所述重构语义特征向量x和语义特征向量的重构损失函数为:其中,n为字向量长度;z为字向量内的标量标号。7.根据权利要求1所述的基于主动学习和条件对抗网络的中文分词方法,其特征在于,所述获取预设烟草领域数据集中多个样本所对应的信息量值的方法包括:获取预设烟草领域数据集中带标注样本的语义特征向量x
l
和剩余未标注样本的语义特征向量x
u
;获取语义特征向量x
l
和语义特征向量x
u
的字符关系度量值;将获取到的字符关系度量值作为信息量值。8.根据权利要求7所述的基于主动学习和条件对抗网络的中文分词方法,其特征在于,所述字符关系度量值的计算公式为:其中,i表示样本下标;j表示字在样本中的位置下标;n表示字向量长度;z为字向量内的标量标号;x代表语义特征向量x
l
或语义特征向量x
u
。9.根据权利要求7所述的基于主动学习和条件对抗网络的中文分词方法,其特征在于,所述根据信息量值对bert模型进行迭代的方法包括:获取预设烟草领域数据集中n个信息量值最大的未标注样本;将n个信息量值最大的未标注样本标注后加入带标注的样本中,形成新的预设烟草领域数据;利用当前新形成的预设烟草领域数据集训练bert模型;若目标函数的损失值或迭代次数不满足预设值,则继续从当前新形成的预设烟草领域数据集中获取n个信息量值最大的未标注样本,经标注后加入到当前新形成的预设烟草领域数据集中再次形成新的预设烟草领域数据集,利用再次新形成的预设烟草领域数据集继续训练bert模型;直到目标函数的损失值或迭代次数满足预设值。10.根据权利要求9所述的基于主动学习和条件对抗网络的中文分词方法,其特征在于,所述目标函数为基于字符关系度量值的分词损失函数,分词损失函数为:其中,将语义特征向量x
l
中的每个字分类为词首位置b、词中位置c、词尾位置e和单独一个词s,bc、cc、ce、be、eb、es、sb为字符的不同组合位置;m(.)为语义特征向量x
l
的字符关系度量值。

技术总结
本发明公开了一种基于主动学习和条件对抗网络的中文分词方法,属于烟草技术领域,获取目标文本的语义特征;根据所述目标文本的语义特征,利用预先训练好的BERT模型对目标文本分词划分;其中,所述BERT模型的训练包括:根据预设烟草领域数据集和通用领域数据集中获取的多个样本的语义特征预测领域;根据预设烟草领域数据集和通用领域数据集中获取的多个样本的语义特征获取烟草领域和通用领域的共有特征;本发明通过建立特定领域的烟草领域数据集,将通用领域数据集和特定领域数据集输入至BERT模型中获取相关的语义特征向量,再将相关的语义特征向量输入至判别器中与BERT模型形成对抗训练,使得模型捕获得到特定领域和通用领域的共有特征。领域的共有特征。领域的共有特征。


技术研发人员:金泳 楼卫东 高扬华
受保护的技术使用者:浙江中烟工业有限责任公司
技术研发日:2023.06.19
技术公布日:2023/10/6
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐