基于预训练和门控神经网络的语步识别方法、系统、设备及介质

未命名 08-13 阅读：110 评论：0

1.本发明属于文本处理技术领域，具体涉及基于预训练和门控神经网络的语步识别方法、系统、设备及介质。

背景技术：

2.学术论文所有的文段中的摘要语步识别中利用简洁明了语步词语概括摘要句，帮助读者快速定位论文的具体信息，语步分类还具有人工智能推荐、实现图书情报学科、信息挖掘以及知识发现与知识图谱的构建等方面的应用扩展，可见，语步识别可以作为文本处理相关研究的基础任务是一项有重要意义的研究，然而，已有的语步识别算法中，由于没有充分挖掘和利用词语之间的内在关系和特征，导致这类算法的性能还需改善和提高。
3.语步识别的一个难点是：自然语言存在表达多样性和复杂性的问题，中文表达多样、一词多义、句子结构嵌套形成的长难复杂句难以拆分等问题，对于机器来说难以理解；语步识别的另一难点在于，还没有完善的数学模型来准确描述自然语言所表述的内容，机器对于自然语言的语义理解存在挑战较大。
4.摘要语步识别主要为基于传统机器学习和深度学习的方法，近几年随着bert预训练模型在各项自然语言处理任务上的优良表现，研究者展开了对于预训练模型的调优和改造，基于传统机器学习、深度学习的方法对于摘要语步的识别大多基于结构化摘要或是针对英文数据集；但基于规则方法中规则制定对于识别效果至关重要，而规则无法涵盖所有语步情况，因此识别效果需要进一步提升；基于传统机器学习、深度学习的语步识别方法依赖于文本的词汇、词法等特征，但机器学习又无法深入学习其语义，因此效果未达最优。

技术实现要素：

5.针对现有技术中存在的问题，本发明提供基于预训练和门控神经网络的语步识别方法、系统、设备及介质，能够基于预训练模型学习文本深层语义结合带注意力机制的门控网络进行聚焦重点的特征识别，提高了语义识别准确性。
6.本发明是通过以下技术方案来实现：
7.基于预训练和门控神经网络的语步识别方法，包括以下步骤：
8.s1：采集目标文段中的数据进行预处理，并按照预设语步打标签；
9.s2：对目标文段中长难复杂句进行甄别与拆分；
10.s3：搭建基于ernie_at-gru语步自动识别模型；
11.s4：将拆分之后的数据输入ernie_at-gru模型训练，经过轮次训练对测试数据进行语步识别测试，得到语步识别结果。
12.优选的，所述步骤s1中对采集的目标文段进行统一化文本格式，并清洗文本中“\n”、“\t”、空格等格式符号，保留原数据的完整文字内容。
13.优选的，所述步骤s2中对目标文段的数据利用ltp工具进行依存句法分析，依据
coo辨别语句中是否存在复杂关系；依据获取的并列关系标记实现长难复杂句的甄别与拆分，得到单语义数据，并按照8:2比例分为训练数据和测试数据。
14.优选的，所述ltp工具进行依存句法分析以及依据coo辨别语句中是否存在复杂关系包括以下步骤：
15.a1：ltp工具对目标文段的数据进行分词、词性标记、依存句法分析；
16.a2：将得到的数据整合为方便处理的格式，s＝(分词、词性标记、(分词节点、父节点、依存关系标记))；
17.a3：遍历整合数据，获取分词父节点为根节点且依存关系标记为coo的句子，存储符合条件的语义复杂句；
18.a4：遍历语义复杂句，对于符合条件的复杂句在并列关系前的逗号处将句子分开，得到单语义分句。
19.优选的，所述步骤s3中搭建语步自动识别模型包括以下步骤：
20.b1：搭建ernie预训练模型，使用其transformer-xl特征处理器融合多头自注意力机制学习文本语义得到融合多头注意力机制的词向量特征矩阵；
21.b2：搭建带注意力机制的门控网络at-gru模块，将预训练模型所得词向量矩阵输入双向门控网络学习文本上下文特征，连接注意力机制聚焦用于文本分类的重要信息；
22.b3：将ernie预训练模型与at-gru模块组合，得到ernie_at-gru模型。
23.优选的，所述步骤b1搭建ernie预训练模型包括以下步骤：
24.c1：编写预训练模型调用接口，加载预训练模型所需要预训练参数等信息；ernie预训练模型利用三段单字掩码、短语和实体层次的掩码信息整合方式得到词、短语、实体的完整语义；
25.c2：经过三段掩码的词向量x:{w
i1
,w
i2
,...,w
in
}输入transformer-xl编码器，经过词嵌入embedding过程x
it
＝wew
it
,t∈[1,n]，we为embedding层权重参数，将高维稀疏词向量矩阵转换为低维稠密词向量矩阵，即为每个语句的词嵌入向量；
[0026]
c3：对于单个self-attention计算所得的三个权重矩阵wq、wk、wv将词嵌入向量与三者分别相乘所得矩阵q、k和v表示目前词与句中其他词之间的相关度，为了防止结果过大，除以他们维度的均方根dk表示一个q或k矩阵向量的维度，其中为可学习变量用于一段范围内相对距离计算，接着通过softmax函数归一化，得到归一化后各个词与其他词的相关度，再与v矩阵相乘，即加权求和，得到每个词新的向量编码，其公式如下：
[0027][0028]
c4：将每个单个self-attention计算所得q、k、v矩阵按照切分的head合并，点乘权重w0，将切分后的head线性转换为原维度的矩阵，得到multi-head矩阵，其过程可以表示为：
[0029]
headi＝attention(qi，ki，vi)，i＝1，
…
，h；
[0030]
multihead(q，k，v)＝concact(headi，...，headh)w0；
[0031]
c5：将multi-head计算所得q、k、v矩阵输入add&norm层进行自注意力输入输出相加和归一化处理，再经过全连接层的前馈神经网络与add&norm层处理，得到融合多头注意
力机制的词向量特征矩阵，矩阵中包含模型学习的文本特征以及文本所包含的上下文语义信息。
[0032]
优选的，所述步骤b2搭建带注意力机制的门控网络at-gru模块包括以下步骤：
[0033]
d1：根据单个self-attention注意力机制公式编写注意力层代码
[0034][0035]
d2：双向门控机制bigru包括重置门和更新门，重置门用于候选状态筛选出部分上一时刻的状态信息；更新门决定当前状态中确定保留历史状态的信息量，如公式所示：
[0036]rt
＝δ(wrx
t
+u
rht-1
)；
[0037]
δ为激活函数，x
t
为当前输入，h
t-1
为上一时刻隐藏层输出，即为历史状态，wr和ur为权重矩阵；
[0038]
d3：双向门控网络具有前向和后向分别训练gru用于得到文本上下文特征信息，其中前向运算为将第i个句子的前向隐藏状态和后向隐含状态为：
[0039][0040][0041]
通过前后隐含状态得到句子编码表示：
[0042][0043]
将前后向训练连接起来更新当前门状态是由tanh层创建的新候选值ui决定的：
[0044]
ui＝tanh(w
shi
+bs)；
[0045]
将注意力机制计算单词权重加入门控网络中，组成at-gru模块：
[0046][0047]
通过注意力机制获取对语义表示起作用的子句隐藏信息，将子句信息汇总得到全部句子的表示信息。
[0048]
优选的，所述步骤b3中将ernie预训练模型与at-gru模块组合，得到ernie_at-gru模型包括以下步骤：
[0049]
e1：预训练模型所得融合多头注意力机制的三维词向量特征矩阵输出维度转换为能输入门控网络的维度形状，将数据送入带注意力机制的门控网络；
[0050]
e2：在门控网络层之后加入dropout层，随机忽略预设数量的神经元，防止模型过拟合；
[0051]
e3：接入全连接层，使用softmax进行语步识别，输出分类标签。
[0052]
7.根据权利要求1所述基于预训练和门控神经网络的语步识别方法，其特征在于，所述步骤s4包括以下步骤：
[0053]
f1：将单语义数据输入模型，调用预训练模型接口实现文本分词，根据预训练模型词典映射将分词向量化；
[0054]
f2：依据批次值将训练数据与测试数据每句话处理的长度pad_size将文本进行0/
1掩码(mask)，将4a中的文本词向量内容，标签数字与掩码结果合并存储为.pkl文件便于程序读入，加载时使用表格型数据结构方式一并加载为dataframe表格型数据结构；
[0055]
f3：将向量化dataframe结构数据分批次输入ernie_at-gru模型训练，经过前向运算与反向传播每轮对测试数据进行标签预测，反向传播中交叉熵作为损失函数对模型优化：
[0056][0057]
其中，d为训练数据大小，c为类别数，为文段数据标签，为模型预测概率，使用多次调参确定最优预测结果的标签，得到语步识别效果及分类好的测试标签数据，即语步分类结果和模型运行过程中loss变化分析模型。
[0058]
基于预训练和门控神经网络的语步识别系统，包括：
[0059]
采集模块，用于采集目标文段中的数据进行预处理，并按照预设语步打标签；
[0060]
处理模块，用于对目标文段中长难复杂句进行甄别与拆分；
[0061]
模型搭建模块，用于搭建基于ernie_at-gru语步自动识别模型；
[0062]
输出模块，用于将拆分之后的数据输入ernie_at-gru模型训练，经过轮次训练对测试数据进行语步识别测试，得到语步识别结果。
[0063]
一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述基于预训练和门控神经网络的语步识别方法的步骤。
[0064]
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述基于预训练和门控神经网络的语步识别方法的步骤。
[0065]
与现有技术相比，本发明具有以下有益的技术效果：
[0066]
本发明提供基于预训练和门控神经网络的语步识别方法、系统、设备及介质，通过采集目标文段中的数据进行预处理，并按照预设语步打标签；对目标文段中长难复杂句进行甄别与拆分；搭建基于ernie_at-gru语步自动识别模型；将拆分之后的数据输入ernie_at-gru模型训练，经过轮次训练对测试数据进行语步识别测试，得到语步识别结果；基于预训练模型和门控神经网络的语步识别方法在具体操作时，利用结合大规模文本内容与知识图谱的ernie预训练模型学习文本深层语义，改善了传统机器学习未充分挖掘和利用词语之间的内在关系和特征的弊端，下游的带注意力机制的门控网络at-gru模型进行聚焦重点的特征学习，着重关注更有利于文本分类的词向量，弥补了由于长文本输入在机器学习中的遗忘问题带来的分类效果不佳问题，与现有技术相比，本发明有效提取文本中利于分类的重要部分，因而模型更加精简化，效率更高。另外，需要说明的是，本发明通过预训练模型的词典映射生成词向量矩阵，利用机器可读的数字矩阵代表文本，经过预训练模型深度语义学习，因此不需要大量测试数据样本就可以获得较好的效果，且预训练模型学习了大规模文本数据和知识图谱知识，具有较好的可迁移性，结合自己的训练数据进行语义学习训练，因此对于测试数据更具鲁棒性。
附图说明
[0067]
图1为本发明基于预训练和门控神经网络的语步识别方法的实现流程图；
[0068]
图2为本发明中文非结构化摘要语步自动识别模型图；
[0069]
图3为本发明ernie预训练模型示意图；
[0070]
图4为本发明ernie预训练模型的mask方式示例图；
[0071]
图5为本发明注意力神经网络层的计算流程；
[0072]
图6为本发明带注意力机制bigru神经网络结构图。
具体实施方式
[0073]
下面结合具体的实施例对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。
[0074]
为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
[0075]
需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0076]
本发明提供基于预训练和门控神经网络的语步识别方法，如图1所示，包括以下步骤：
[0077]
s1：采集目标文段中的数据进行预处理，并按照预设语步打标签；
[0078]
s2：对目标文段中长难复杂句进行甄别与拆分；
[0079]
s3：搭建基于ernie_at-gru语步自动识别模型；
[0080]
s4：将拆分之后的数据输入ernie_at-gru模型训练，经过轮次训练对测试数据进行语步识别测试，得到语步识别结果。
[0081]
优选的，所述步骤s1中对采集的目标文段进行统一化文本格式，并清洗文本中“\n”、“\t”、空格等格式符号，保留原数据的完整文字内容；进一步的，所述步骤s2中对目标文段的数据利用ltp工具进行依存句法分析，依据coo辨别语句中是否存在复杂关系；依据获取的并列关系标记实现长难复杂句的甄别与拆分，得到单语义数据，并按照8:2比例分为训练数据和测试数据。
[0082]
优选的，所述ltp工具进行依存句法分析以及依据coo辨别语句中是否存在复杂关系包括以下步骤：
[0083]
a1：ltp工具对目标文段的数据进行分词、词性标记、依存句法分析；
[0084]
a2：将得到的数据整合为方便处理的格式，s＝(分词、词性标记、(分词节点、父节点、依存关系标记))；
[0085]
a3：遍历整合数据，获取分词父节点为根节点且依存关系标记为coo的句子，存储
符合条件的语义复杂句；
[0086]
a4：遍历语义复杂句，对于符合条件的复杂句在并列关系前的逗号处将句子分开，得到单语义分句。
[0087]
优选的，所述步骤s3中搭建语步自动识别模型包括以下步骤：
[0088]
b1：搭建ernie预训练模型，如图3所示，使用其transformer-xl特征处理器融合多头自注意力机制学习文本语义得到融合多头注意力机制的词向量特征矩阵；
[0089]
b2：搭建带注意力机制的门控网络at-gru模块，将预训练模型所得词向量矩阵输入双向门控网络学习文本上下文特征，连接注意力机制聚焦用于文本分类的重要信息；
[0090]
b3：将ernie预训练模型与at-gru模块组合，得到ernie_at-gru模型，如图2所示。
[0091]
进一步的，所述步骤b1搭建ernie预训练模型包括以下步骤：
[0092]
c1：编写预训练模型调用接口，加载预训练模型所需要预训练参数等信息；ernie预训练模型利用三段单字掩码、短语和实体层次的掩码信息整合方式得到词、短语、实体的完整语义；
[0093]
c2：经过三段掩码的词向量x:{w
i1
,w
i2
,...,w
in
}输入transformer-xl编码器，经过词嵌入embedding过程x
it
＝wew
it
,t∈[1,n]，we为embedding层权重参数，将高维稀疏词向量矩阵转换为低维稠密词向量矩阵，即为每个语句的词嵌入向量，如图4所示，对于输入的文本句子，首先将句子中的单词、汉字等信息视为基本语言单元进行随机15％屏蔽，得到基本级别掩码mask获取句子的基本级别信息，接着进行第二阶段实体级别mask，将句中专有名词等实体进行屏蔽并预测实体中的空缺，最后进行短语别mask，对于句中短语掩码并预测同一短语中的所有基本单元，短语信息被编码到单词嵌入中，通过三段掩码获得不同语义单元的文本信息，得到句子语义信息的丰富表达；
[0094]
c3：对于单个self-attention计算所得的三个权重矩阵wq、wk、wv将词嵌入向量与三者分别相乘所得矩阵q、k和v表示目前词与句中其他词之间的相关度，为了防止结果过大，除以他们维度的均方根dk表示一个q或k矩阵向量的维度，其中为可学习变量用于一段范围内相对距离计算，接着通过softmax函数归一化，得到归一化后各个词与其他词的相关度，再与v矩阵相乘，即加权求和，得到每个词新的向量编码，其公式如下：
[0095][0096]
c4：将每个单个self-attention计算所得q、k、v矩阵按照切分的head合并，点乘权重w0，将切分后的head线性转换为原维度的矩阵，得到multi-head矩阵，其过程可以表示为：
[0097]
headi＝attention(qi，ki，vi)，i＝1，
…
，h；
[0098]
multihead(q，k，v)＝concact(headi，...，headh)w0；
[0099]
c5：将multi-head计算所得q、k、v矩阵输入add&norm层进行自注意力输入输出相加和归一化处理，再经过全连接层的前馈神经网络与add&norm层处理，得到融合多头注意力机制的词向量特征矩阵，矩阵中包含模型学习的文本特征以及文本所包含的上下文语义信息。
[0100]
优选的，所述步骤b2搭建带注意力机制的门控网络at-gru模块包括以下步骤：
[0101]
d1：根据单个self-attention注意力机制公式编写注意力层代码
[0102][0103]
d2：双向门控机制bigru包括重置门和更新门，重置门用于候选状态筛选出部分上一时刻的状态信息；更新门决定当前状态中确定保留历史状态的信息量，如公式所示：
[0104]rt
＝δ(wrx
t
+u
rht-1
)；
[0105]
δ为激活函数，x
t
为当前输入，h
t-1
为上一时刻隐藏层输出，即为历史状态，wr和ur为权重矩阵；
[0106]
d3：双向门控网络具有前向和后向分别训练gru用于得到文本上下文特征信息，其中前向运算为将第i个句子的前向隐藏状态和后向隐含状态为：
[0107][0108][0109]
通过前后隐含状态得到句子编码表示：
[0110][0111]
将前后向训练连接起来更新当前门状态是由tanh层创建的新候选值ui决定的：
[0112]
ui＝tanh(w
shi
+bs)；
[0113]
将注意力机制计算单词权重加入门控网络中，组成at-gru模块：
[0114][0115]
通过注意力机制获取对语义表示起作用的子句隐藏信息，将子句信息汇总得到全部句子的表示信；
[0116]
将注意力机制计算单词权重加入门控网络中如图5所示：组成at-gru模块，如图6所示：通过注意力机制获取对语义表示起作用的子句隐藏信息，将子句信息汇总得到全部句子的表示信息。
[0117]
优选的，所述步骤b3中将ernie预训练模型与at-gru模块组合，得到ernie_at-gru模型包括以下步骤：
[0118]
e1：预训练模型所得融合多头注意力机制的三维词向量特征矩阵输出维度转换为能输入门控网络的维度形状，将数据送入带注意力机制的门控网络；
[0119]
e2：在门控网络层之后加入dropout层，随机忽略预设数量的神经元，防止模型过拟合；
[0120]
e3：接入全连接层，使用softmax进行语步识别，输出分类标签。
[0121]
优选的，所述步骤s4包括以下步骤：
[0122]
f1：将单语义数据输入模型，调用预训练模型接口实现文本分词，根据预训练模型词典映射将分词向量化；
[0123]
f2：依据批次值将训练数据与测试数据每句话处理的长度pad_size将文本进行0/1掩码(mask)，将4a中的文本词向量内容，标签数字与掩码结果合并存储为.pkl文件便于程序读入，加载时使用表格型数据结构方式一并加载为dataframe表格型数据结构；
[0124]
f3：将向量化dataframe结构数据分批次输入ernie_at-gru模型训练，经过前向运算与反向传播每轮对测试数据进行标签预测，反向传播中交叉熵作为损失函数对模型优化：
[0125][0126]
其中，d为训练数据大小，c为类别数，为文段数据标签，为模型预测概率，使用多次调参确定最优预测结果的标签，得到语步识别效果及分类好的测试标签数据，即语步分类结果和模型运行过程中loss变化分析模型。
[0127]
本发明提供基于预训练和门控神经网络的语步识别系统，包括：
[0128]
采集模块，用于采集目标文段中的数据进行预处理，并按照预设语步打标签；
[0129]
处理模块，用于对目标文段中长难复杂句进行甄别与拆分；
[0130]
模型搭建模块，用于搭建基于ernie_at-gru语步自动识别模型；
[0131]
输出模块，用于将拆分之后的数据输入ernie_at-gru模型训练，经过轮次训练对测试数据进行语步识别测试，得到语步识别结果。
[0132]
本发明再一个实施例中，提供了一种计算机设备，该计算机设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor、dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field-programmable gatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于基于预训练和门控神经网络的语步识别方法的操作。
[0133]
本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(memory)，所述计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速ram存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关基于预训练和门控神经网络的语步识别方法的相应步骤。
[0134]
本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实
施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0135]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0136]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0137]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0138]
最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

技术特征：
1.基于预训练和门控神经网络的语步识别方法，其特征在于，包括以下步骤：s1：采集目标文段中的数据进行预处理，并按照预设语步打标签；s2：对目标文段中长难复杂句进行甄别与拆分；s3：搭建基于ernie_at-gru语步自动识别模型；s4：将拆分之后的数据输入ernie_at-gru模型训练，经过轮次训练对测试数据进行语步识别测试，得到语步识别结果。2.根据权利要求1所述基于预训练和门控神经网络的语步识别方法，其特征在于，所述步骤s1中对采集的目标文段进行统一化文本格式，并清洗文本中“\n”、“\t”、空格等格式符号，保留原数据的完整文字内容。3.根据权利要求1所述基于预训练和门控神经网络的语步识别方法，其特征在于，所述步骤s2中对目标文段的数据利用ltp工具进行依存句法分析，依据coo辨别语句中是否存在复杂关系；依据获取的并列关系标记实现长难复杂句的甄别与拆分，得到单语义数据，并按照8:2比例分为训练数据和测试数据。4.根据权利要求3所述基于预训练和门控神经网络的语步识别方法，其特征在于，所述ltp工具进行依存句法分析以及依据coo辨别语句中是否存在复杂关系包括以下步骤：a1：ltp工具对目标文段的数据进行分词、词性标记、依存句法分析；a2：将得到的数据整合为方便处理的格式，s＝(分词、词性标记、(分词节点、父节点、依存关系标记))；a3：遍历整合数据，获取分词父节点为根节点且依存关系标记为coo的句子，存储符合条件的语义复杂句；a4：遍历语义复杂句，对于符合条件的复杂句在并列关系前的逗号处将句子分开，得到单语义分句；所述步骤s3中搭建语步自动识别模型包括以下步骤：b1：搭建ernie预训练模型，使用其transformer-xl特征处理器融合多头自注意力机制学习文本语义得到融合多头注意力机制的词向量特征矩阵；b2：搭建带注意力机制的门控网络at-gru模块，将预训练模型所得词向量矩阵输入双向门控网络学习文本上下文特征，连接注意力机制聚焦用于文本分类的重要信息；b3：将ernie预训练模型与at-gru模块组合，得到ernie_at-gru模型；所述步骤b1搭建ernie预训练模型包括以下步骤：c1：编写预训练模型调用接口，加载预训练模型所需要预训练参数等信息；ernie预训练模型利用三段单字掩码、短语和实体层次的掩码信息整合方式得到词、短语、实体的完整语义；c2：经过三段掩码的词向量x:{w
i1
,w
i2
,...,w
in
}输入transformer-xl编码器，经过词嵌入embedding过程x
it
＝w
e
w
it
,t∈[1,n]，w
e
为embedding层权重参数，将高维稀疏词向量矩阵转换为低维稠密词向量矩阵，即为每个语句的词嵌入向量；c3：对于单个self-attention计算所得的三个权重矩阵w
q
、w
k
、w
v
将词嵌入向量与三者分别相乘所得矩阵q、k和v表示目前词与句中其他词之间的相关度，为了防止结果过大，除以他们维度的均方根d
k
表示一个q或k矩阵向量的维度，其中为可学习变量用于一
段范围内相对距离计算，接着通过softmax函数归一化，得到归一化后各个词与其他词的相关度，再与v矩阵相乘，即加权求和，得到每个词新的向量编码，其公式如下：c4：将每个单个self-attention计算所得q、k、v矩阵按照切分的head合并，点乘权重w0，将切分后的head线性转换为原维度的矩阵，得到multi-head矩阵，其过程可以表示为：head
i
＝attentiin(q
i
，k
i
，v
i
)，i＝1，...,h；multihead(q,k,v)＝concact(head
i
,...,head
h
)w0；c5：将multi-head计算所得q、k、v矩阵输入add&norm层进行自注意力输入输出相加和归一化处理，再经过全连接层的前馈神经网络与add&norm层处理，得到融合多头注意力机制的词向量特征矩阵，矩阵中包含模型学习的文本特征以及文本所包含的上下文语义信息。5.根据权利要求4所述基于预训练和门控神经网络的语步识别方法，其特征在于，所述步骤b2搭建带注意力机制的门控网络at-gru模块包括以下步骤：d1：根据单个self-attention注意力机制公式编写注意力层代码d2：双向门控机制bigru包括重置门和更新门，重置门用于候选状态筛选出部分上一时刻的状态信息；更新门决定当前状态中确定保留历史状态的信息量，如公式所示：r
t
＝δ(w
r
x
t
+u
r
h
t-1
)；δ为激活函数，x
t
为当前输入，h
t-1
为上一时刻隐藏层输出，即为历史状态，w
r
和u
r
为权重矩阵；d3：双向门控网络具有前向和后向分别训练gru用于得到文本上下文特征信息，其中前向运算为将第i个句子的前向隐藏状态和后向隐含状态为：为：通过前后隐含状态得到句子编码表示：将前后向训练连接起来更新当前门状态是由tanh层创建的新候选值u
i
决定的：u
i
＝anh(w
s
h
i
+
s
)；将注意力机制计算单词权重加入门控网络中，组成at-gru模块：通过注意力机制获取对语义表示起作用的子句隐藏信息，将子句信息汇总得到全部句子的表示信息。6.根据权利要求4所述基于预训练和门控神经网络的语步识别方法，其特征在于，所述
步骤b3中将ernie预训练模型与at-gru模块组合，得到ernie_at-gru模型包括以下步骤：e1：预训练模型所得融合多头注意力机制的三维词向量特征矩阵输出维度转换为能输入门控网络的维度形状，将数据送入带注意力机制的门控网络；e2：在门控网络层之后加入dropout层，随机忽略预设数量的神经元，防止模型过拟合；e3：接入全连接层，使用softmax进行语步识别，输出分类标签。7.根据权利要求1所述基于预训练和门控神经网络的语步识别方法，其特征在于，所述步骤s4包括以下步骤：f1：将单语义数据输入模型，调用预训练模型接口实现文本分词，根据预训练模型词典映射将分词向量化；f2：依据批次值将训练数据与测试数据每句话处理的长度pad_size将文本进行0/1掩码(mask)，将4a中的文本词向量内容，标签数字与掩码结果合并存储为.pkl文件便于程序读入，加载时使用表格型数据结构方式一并加载为dataframe表格型数据结构；f3：将向量化dataframe结构数据分批次输入ernie_at-gru模型训练，经过前向运算与反向传播每轮对测试数据进行标签预测，反向传播中交叉熵作为损失函数对模型优化：其中，d为训练数据大小，c为类别数，为文段数据标签，为模型预测概率，使用多次调参确定最优预测结果的标签，得到语步识别效果及分类好的测试标签数据，即语步分类结果和模型运行过程中loss变化分析模型。8.基于预训练和门控神经网络的语步识别系统，其特征在于，基于权利要求1-7所述任意项基于预训练和门控神经网络的语步识别方法，包括：采集模块，用于采集目标文段中的数据进行预处理，并按照预设语步打标签；处理模块，用于对目标文段中长难复杂句进行甄别与拆分；模型搭建模块，用于搭建基于ernie_at-gru语步自动识别模型；输出模块，用于将拆分之后的数据输入ernie_at-gru模型训练，经过轮次训练对测试数据进行语步识别测试，得到语步识别结果。9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述基于预训练和门控神经网络的语步识别方法的步骤。10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述基于预训练和门控神经网络的语步识别方法的步骤。

技术总结
本发明提供基于预训练和门控神经网络的语步识别方法、系统、设备及介质，通过采集目标文段中的数据进行预处理，并按照预设语步打标签；对目标文段中长难复杂句进行甄别与拆分；搭建基于ERNIE_AT-GRU语步自动识别模型；将拆分之后的数据输入ERNIE_AT-GRU模型训练，经过轮次训练对测试数据进行语步识别测试，得到语步识别结果；基于预训练模型和门控神经网络的语步识别方法在具体操作时，利用结合大规模文本内容与知识图谱的ERNIE预训练模型学习文本深层语义，改善了传统机器学习未充分挖掘和利用词语之间的内在关系和特征的弊端，与现有技术相比，本发明有效提取文本中利于分类的重要部分，因而模型更加精简化，效率更高。效率更高。效率更高。

技术研发人员：温浩王杰
受保护的技术使用者：西安建筑科技大学
技术研发日：2023.05.11
技术公布日：2023/8/9

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种建筑结构稳定性测试台的制作方法 下一篇：深水钻孔灌注桩施工方法与流程

基于预训练和门控神经网络的语步识别方法、系统、设备及介质

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

基于预训练和门控神经网络的语步识别方法、系统、设备及介质

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表