基于孪生胶囊网络结合交互式特征的文本相似检测方法

未命名 08-13 阅读:99 评论:0


1.本发明涉及自然语言处理技术领域,特别是涉及一种基于孪生胶囊网络结合交互式特征的文本相似检测方法。


背景技术:

2.文本相似度任务是自然语言处理(nlp)领域中的一项重要研究,在工业领域中有诸多应用,在机器翻译中,它可以用来判断机器翻译的准确度;在检索领域,它可以用来衡量检索的匹配程度,从而获得更为精确的检索结果;在自动问答系统中,通过匹配问题与答案的相似性,从而对问题进行更精确地解答;在文档查重中,它可以用来计算文档中句子之间的重复率,从而对文档整体的重复程度进行评估,因此文本相似检测在工业领域中显得至关重要。
3.文本相似检测的重点是判断给定的文本是否在语义上具有相同的意思。在传统工业领域中,文本相似检测仅仅从词语的数量和词语之间的位置关系考虑,忽略了文本内在的语义信息和语义联系。由于文本语义具有抽象性和多样性,深度学习成为解决这一问题的首选方法,同时,不同文本间特征交互成为文本相似检测的重要组成部分之一。
4.早期的n-gram模型将句子拆分为子字符串,通过统计子字符串的数量来判断两个文本是否形似,这种方法仅仅从词语的数量考虑,只从表面上处理了文本相似任务,忽略了文本的语义信息。基于向量的空间模型从更深层次处理文本相似问题,将每个单词映射为高维空间中的向量,通过计算向量之间的距离,来判断两个文本是否相似。这种方式充分考虑了词语的语义信息,但是忽略了文本的内在语义联系。
5.随着互联网中文本信息的激增,传统方法已经不能够有效的解决文本相似问题。深度学习的发展将文本相似检测任务推向了新的台阶。研究人员将长短期记忆网络、卷积神经网络以及胶囊网络运用于文本相似建模,取得了出色的效果。
6.siamese-lstm模型首次将孪生网络引入到文本相似任务中,将两个文本输入到两个子网络中,两个子网络采用共享权重的方式,不仅提高了模型检测的准确率,也提升了模型的效率。由于cnn模型在文本分类任务中取得了出色的效果,研究人员将cnn也运用于文本相似任务中,abcnn模型将卷积神经网络和注意力机制相结合,通过捕获两个句子之间相互关联信息来完成文本相似度任务。esim采用了全新的方式对文本相似度任务进行处理,通过对句子信息进行编码,采用交互式自注意力计算两个句子特征之间的联系,然后经过二次编码捕获两个句子的差异信息,从而较好的完成了文本相似任务。
7.单一的神经网络模型已经不能够满足研究人员的要求,bigru-capsule模型将循环神经网络和胶囊网络相结合,将全局特征信息和局部特征信息相结合,但这种方式忽略了句子之间的交互特征,但是该文本相似检测方法还存在以下问题:一、效率不高,在文本相似检测过程中,模型对同时输入的两个不同文本采用不同网络结构,会导致模型参数量扩增,进而导致算法的整体效率降低,孪生网络结构采用共享权重的策略提升了算法的效率;二、准确率不高,文本相似检测过程中只是考虑文本中词语的数量关系和位置关系,而
忽略了不同文本间内在的语义联系导致文本相似检测准确率较低。


技术实现要素:

8.为了解决以上技术问题,本发明提供一种基于孪生胶囊网络结合交互式特征的文本相似检测方法,包括以下步骤
9.s1、准备数据集:数据集中的数据以文本对和标签形式存在,将文本对和对应的标签进行随机打乱,在保持正负样本比例一致的情况下将打乱后的样本进行划分,按比例分别划分为训练集、验证集以及测试集;
10.s2、数据预处理;
11.s3、搭建基于孪生胶囊网络结合交互式特征的文本相似检测模型,模型包括两个相同的子网络,每个子网络均包括第一层bilstm、自注意力机制、第二层bilstm以及胶囊网络;将两段文本分别输入到不同的子网络后输出对应的特征矩阵,并将特征矩阵展开铺平形成一维特征输入到分类器中;
12.s4、对步骤s3中搭建的模型进行训练。
13.本发明进一步限定的技术方案是:
14.进一步的,步骤s1中,训练集、验证集以及测试集的划分比例为8:1:1。
15.前所述的一种基于孪生胶囊网络结合交互式特征的文本相似检测方法,步骤s2中,数据预处理包括以下分步骤
16.s2.1、对样本中的数据进行分词、去停用词以及去符号化处理;
17.s2.2、对所有词语进行编号,并将每个词语嵌入为词向量;
18.s2.3、对分词后的句子进行截取,预设一句子最大长度,采用补齐和截取的方法保持所有句子长度一致。
19.前所述的一种基于孪生胶囊网络结合交互式特征的文本相似检测方法,步骤s2.2中,将所有分词放到一个集合中,然后去重获得所有涉及词汇,将词汇中每个词语进行编号,并将每个词语嵌入为m维词向量,对于未登录词语,统一嵌入为0向量,获得词向量矩阵;
20.步骤s2.3中,将句子的统一长度设置为l,即句子最大长度为l;对分词后的句子进行处理,将长度超过l的句子进行截取,将长度不足l的句子进行补齐,使得所有句子长度保持一致为l。
21.前所述的一种基于孪生胶囊网络结合交互式特征的文本相似检测方法,步骤s2.2中,将每个词语嵌入为m维词向量,m取值为300;步骤s2.3中,句子的统一长度l设置为25。
22.前所述的一种基于孪生胶囊网络结合交互式特征的文本相似检测方法,步骤s3中,胶囊网络包括卷积层、初始胶囊层以及路由胶囊层;
23.卷积层采用一维卷积,卷积核大小为2
×
t,输出维度为t,;初始胶囊层中胶囊个数为c,输入维度为t,输出维度s,卷积核大小和步长均为l;路由胶囊层的输入维度为s,输入胶囊个数为l
×
c,输出胶囊个数为l,胶囊维度设置为d,动态路由次数为3,编码空间信息后最终输出维度为l
×
d。
24.前所述的一种基于孪生胶囊网络结合交互式特征的文本相似检测方法,胶囊网络的初始胶囊层中,胶囊个数c设置为64,输出维度s设置为8。
25.前所述的一种基于孪生胶囊网络结合交互式特征的文本相似检测方法,步骤s3具
体包括以下分步骤
26.s3.1、搭建基于孪生胶囊网络结合交互式特征的文本相似检测框架,将词向量矩阵用于词嵌入的初始化,随机初始化其他模型参数;
27.s3.2、将句子a和句子b同时输入到模型中,通过词嵌入方式将分词后数据嵌入为l
×
m矩阵;
28.s3.3、将词嵌入矩阵输入到第一层bilstm中,获得两个句子的全局特征信息和基于自注意力机制对全局特征信息和进行交互,得到最终的交互式特征,交互式方式如下:
[0029][0030][0031][0032][0033][0034]
其中,表示编码后第i个位置对应特征向量,表示编码后第j个位置对应的特征向量;e
ij
表示和对应的向量内积;表示经过软注意力机制对的加权和,表示经过软注意力机制对的加权和;表示全局特征信息交互后的全新特征,表示全局特征信息交互后的全新特征;
[0035]
s3.4、计算初始全局特征信息,然后和交互特征信息进行组合,接着输入到第二层bilstm中捕获差异信息,第二层bilstm的节点数设置为t,组合后特征表示如下:
[0036][0037][0038]
其中,pa表示与的组合特征,pb表示与的组合特征。
[0039]
s3.5、将步骤s3.4中捕获的差异推理信息输入到胶囊网络中,分别形成与句子a和句子b相对应的特征矩阵fa和fb;
[0040]
s3.6、将胶囊网络输出的特征矩阵展开铺平形成一维特征输入到分类器中;分类器包括2层全连接神经网络,同时设置dropout=0.3;
[0041]
o=sigmoid(w1(tanh(w0([fa;fs]))))
[0042]
其中,o表示模型最终输出,用于判断是否相似;sigmoid和tanh为激活函数,w0和w1表示权重参数,fa和fb为步骤s3.5中输出的特征矩阵。
[0043]
前所述的一种基于孪生胶囊网络结合交互式特征的文本相似检测方法,步骤s4具体包括以下分步骤
[0044]
s4.1、设置模型相关超参数;
[0045]
s4.2、将处理后的训练集中的文本对输入到基于孪生胶囊网络结合交互式特征的文本相似检测模型中进行多轮训练,通过观察验证集的结果判断模型是否出现过拟合或者欠拟合问题,不断调整模型的参数,重复训练对比以得到最优模型;
[0046]
s4.3、模型训练结束后,将测试集中的文本对输入到模型中进行测试,训练好的模型对输入的文本对是否相似进行判断。
[0047]
前所述的一种基于孪生胶囊网络结合交互式特征的文本相似检测方法,步骤s4.1中,将模型训练次数epoch设置为20,将模型训练批次batch_size设置为512,训练时使用的优化器为adam优化器,损失函数是二值交叉熵损失函数。
[0048]
本发明的有益效果是:
[0049]
本发明中,以孪生网络为基本网络结构,将胶囊网络作为孪生网络的子网络并结合交互式特征,建立一种新的文本相似深度学习检测模型,实现对工业文本智能检测的目的;
[0050]
与现有技术的文本相似检测算法相比,基于孪生胶囊网络结合交互式特征的文本相似检测方法采用孪生网络结构,减少了模型参数,使模型的训练更加容易也更加高效;通过长短期记忆网络提取全局特征后采用交互式特征捕获不同文本之间的关系,可以充分推理出两个文本间的差异性;将文本推理后的差异特征与孪生网络结合,不仅将全局特征信息和局部特征信息融合,同时也考虑了空间信息,最终得到文本相似检测结果;所以本发明可以提高文本相似检测的效果,减少文本相似检测耗费的时间。
附图说明
[0051]
图1为本发明中基于孪生胶囊网络结合交互式特征的文本相似检测模型的框架示意图;
[0052]
图2为本发明中软注意力的特征交互图。
具体实施方式
[0053]
本实施例提供的一种基于孪生胶囊网络结合交互式特征的文本相似检测方法,以孪生网络为基本模型结构,利用胶囊网络(capsule net)结合文本间交互式特征设计了一种高效的文本相似检测框架,该文本相似检测框架各部分设计体现在:一、以孪生网络为基础框架,输入的两个子网络采用共享权重策略;二、对不同的文本特征采用交互式处理并推理得到全新差异特征;三、以胶囊网络作为孪生网络的子网络对文本抽取,然后判断是否相似。
[0054]
基于孪生胶囊网络结合交互式特征的文本相似检测方法包括以下步骤
[0055]
s1、准备数据集:数据集中的数据以文本对和标签形式存在,为了保证实验的客观性和公平性,将文本对和对应的标签进行随机打乱,在保持正负样本比例一致的情况下将打乱后的样本进行划分,按8:1:1的比例分别划分为训练集、验证集以及测试集。
[0056]
s2、数据预处理;数据预处理包括以下分步骤
[0057]
s2.1、对样本中的数据进行分词、去停用词以及去符号化处理,降低无关信息对模型的影响;
[0058]
s2.2、对所有词语进行编号,并将每个词语嵌入为词向量;将所有分词放到一个集
合中,然后去重获得所有涉及词汇,将词汇中每个词语进行编号,并将每个词语嵌入为m(m取值为300)维词向量,对于未登录词语,统一嵌入为0向量,获得词向量矩阵;
[0059]
s2.3、对分词后的句子进行截取,预设一句子最大长度,采用补齐和截取的方法保持所有句子长度一致;将句子的统一长度设置为l(l设置为25),即句子最大长度为25;对分词后的句子进行处理,将长度超过25的句子进行截取,将长度不足25的句子进行补齐,使得所有句子长度保持一致为25,从而便于输入模型。
[0060]
s3、搭建基于孪生胶囊网络结合交互式特征的文本相似检测模型,如图1所示,模型两侧采用相同的子网络,每个子网络均包括第一层bilstm、自注意力机制、第二层bilstm以及胶囊网络;将两段文本分别输入到不同的子网络后输出对应的特征矩阵,并将特征矩阵展开铺平形成一维特征输入到分类器中。
[0061]
胶囊网络包括卷积层(conv)、初始胶囊层(primary caps)以及路由胶囊层(digit caps);
[0062]
卷积层采用一维卷积,卷积核大小为2
×
t,输出维度为t,从而进一步提取推理信息的底层特征;初始胶囊层中胶囊个数为c(c设置为64),输入维度为t,输出维度s(s设置为8),卷积核大小和步长均为l,通过第二次卷积初始化胶囊输入;路由胶囊层的输入维度为s,输入胶囊个数为l
×
c,输出胶囊个数为l,胶囊维度设置为d,动态路由次数为3,编码空间信息后最终输出维度为l
×
d。
[0063]
步骤s3具体包括以下分步骤
[0064]
s3.1、搭建基于孪生胶囊网络结合交互式特征的文本相似检测框架,将步骤s2.2中的词向量矩阵用于词嵌入的初始化,随机初始化其他模型参数;
[0065]
s3.2、将句子a和句子b同时输入到模型中,通过词嵌入方式将分词后数据嵌入为l
×
m矩阵;
[0066]
s3.3、将词嵌入矩阵输入到第一层bilstm中,获得两个句子的全局特征信息和如图2所示,基于自注意力机制对全局特征信息和进行交互,得到最终的交互式特征,交互式方式如下:
[0067][0068][0069][0070][0071][0072]
其中,表示编码后第i个位置对应特征向量,表示编码后第j个位置对应的特征向量;e
ij
表示和对应的向量内积;表示经过软注意力机制对的加权和,表示经过软注意力机制对的加权和;表示全局特征信息交互后的全新特征,表
示全局特征信息交互后的全新特征;
[0073]
s3.4、计算初始全局特征信息,然后和交互特征信息进行组合,接着输入到第二层bilstm中捕获差异信息,第二层bilstm的节点数设置为t,组合后特征表示如下:
[0074][0075][0076]
其中,pa表示与的组合特征,pb表示与的组合特征。
[0077]
s3.5、将步骤s3.4中捕获的差异推理信息输入到胶囊网络中,分别形成与句子a和句子b相对应的特征矩阵fa和fb;
[0078]
s3.6、将胶囊网络输出的特征矩阵展开铺平形成一维特征输入到分类器中;分类器包括2层全连接神经网络,同时设置dropout=0.3防止过拟合;
[0079]
o=sigmoid(w1(tanh(w0([fa;fb]))))
[0080]
其中,o表示模型最终输出,用于判断是否相似;sigmoid和tanh为激活函数,w0和w1表示权重参数,fa和fb为步骤s3.5中输出的特征矩阵。
[0081]
s4、对步骤s3中搭建的模型进行训练,具体包括以下分步骤
[0082]
s4.1、设置模型相关超参数,将模型训练次数epoch设置为20,将模型训练批次batch_size设置为512,训练时使用的优化器为adam优化器,损失函数是二值交叉熵损失函数(binary cross entropy loss);
[0083]
s4.2、将处理后的训练集中的文本对输入到步骤s3中搭建的基于孪生胶囊网络结合交互式特征的文本相似检测模型中进行多轮训练,通过观察验证集的结果判断模型是否出现过拟合或者欠拟合问题,不断调整模型的参数,重复训练对比以得到最优模型;
[0084]
s4.3、模型训练结束后,将测试集中的文本对输入到模型中进行测试,训练好的模型对输入的文本对是否相似进行判断。
[0085]
基于孪生胶囊网络结合交互式特征的文本相似检测方法以孪生网络为基础结构,通过自注意力对编码特征进行交互,然后再编码推理出句子间的差异信息,将句子与句子充分关联;胶囊网络不仅有效的提取特征潜在的语义信息也保留了句子的位置特征信息,从而能够有效地判别两个文本是否相似。
[0086]
除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。

技术特征:
1.一种基于孪生胶囊网络结合交互式特征的文本相似检测方法,其特征在于:包括以下步骤s1、准备数据集:数据集中的数据以文本对和标签形式存在,将文本对和对应的标签进行随机打乱,在保持正负样本比例一致的情况下将打乱后的样本进行划分,按比例分别划分为训练集、验证集以及测试集;s2、数据预处理;s3、搭建基于孪生胶囊网络结合交互式特征的文本相似检测模型,模型包括两个相同的子网络,每个子网络均包括第一层bilstm、自注意力机制、第二层bilstm以及胶囊网络;将两段文本分别输入到不同的子网络后输出对应的特征矩阵,并将特征矩阵展开铺平形成一维特征输入到分类器中;s4、对步骤s3中搭建的模型进行训练。2.根据权利要求1所述的基于孪生胶囊网络结合交互式特征的文本相似检测方法,其特征在于:所述步骤s1中,训练集、验证集以及测试集的划分比例为8:1:1。3.根据权利要求1所述的基于孪生胶囊网络结合交互式特征的文本相似检测方法,其特征在于:所述步骤s2中,数据预处理包括以下分步骤s2.1、对样本中的数据进行分词、去停用词以及去符号化处理;s2.2、对所有词语进行编号,并将每个词语嵌入为词向量;s2.3、对分词后的句子进行截取,预设一句子最大长度,采用补齐和截取的方法保持所有句子长度一致。4.根据权利要求3所述的基于孪生胶囊网络结合交互式特征的文本相似检测方法,其特征在于:所述步骤s2.2中,将所有分词放到一个集合中,然后去重获得所有涉及词汇,将词汇中每个词语进行编号,并将每个词语嵌入为m维词向量,对于未登录词语,统一嵌入为0向量,获得词向量矩阵;步骤s2.3中,将句子的统一长度设置为l,即句子最大长度为l;对分词后的句子进行处理,将长度超过l的句子进行截取,将长度不足l的句子进行补齐,使得所有句子长度保持一致为l。5.根据权利要求4所述的基于孪生胶囊网络结合交互式特征的文本相似检测方法,其特征在于:所述步骤s2.2中,将每个词语嵌入为m维词向量,m取值为300;步骤s2.3中,句子的统一长度l设置为25。6.根据权利要求1所述的基于孪生胶囊网络结合交互式特征的文本相似检测方法,其特征在于:所述步骤s3中,胶囊网络包括卷积层、初始胶囊层以及路由胶囊层;卷积层采用一维卷积,卷积核大小为2
×
t,输出维度为t,;初始胶囊层中胶囊个数为c,输入维度为t,输出维度s,卷积核大小和步长均为l;路由胶囊层的输入维度为s,输入胶囊个数为l
×
c,输出胶囊个数为l,胶囊维度设置为d,动态路由次数为3,编码空间信息后最终输出维度为l
×
d。7.根据权利要求6所述的基于孪生胶囊网络结合交互式特征的文本相似检测方法,其特征在于:所述胶囊网络的初始胶囊层中,胶囊个数c设置为64,输出维度s设置为8。8.根据权利要求1所述的基于孪生胶囊网络结合交互式特征的文本相似检测方法,其特征在于:所述步骤s3具体包括以下分步骤
s3.1、搭建基于孪生胶囊网络结合交互式特征的文本相似检测框架,将词向量矩阵用于词嵌入的初始化,随机初始化其他模型参数;s3.2、将句子a和句子b同时输入到模型中,通过词嵌入方式将分词后数据嵌入为l
×
m矩阵;s3.3、将词嵌入矩阵输入到第一层bilstm中,获得两个句子的全局特征信息和基于自注意力机制对全局特征信息和进行交互,得到最终的交互式特征,交互式方式如下:进行交互,得到最终的交互式特征,交互式方式如下:进行交互,得到最终的交互式特征,交互式方式如下:进行交互,得到最终的交互式特征,交互式方式如下:进行交互,得到最终的交互式特征,交互式方式如下:其中,表示编码后第i个位置对应特征向量,表示编码后第j个位置对应的特征向量;e
ij
表示和对应的向量内积;表示经过软注意力机制对的加权和,表示经过软注意力机制对的加权和;表示全局特征信息交互后的全新特征,表示全局特征信息交互后的全新特征;s3.4、计算初始全局特征信息,然后和交互特征信息进行组合,接着输入到第二层bilstm中捕获差异信息,第二层bilstm的节点数设置为t,组合后特征表示如下:bilstm中捕获差异信息,第二层bilstm的节点数设置为t,组合后特征表示如下:其中,p
a
表示与的组合特征,p
b
表示与的组合特征。s3.5、将步骤s3.4中捕获的差异推理信息输入到胶囊网络中,分别形成与句子a和句子b相对应的特征矩阵f
a
和f
b
;s3.6、将胶囊网络输出的特征矩阵展开铺平形成一维特征输入到分类器中;分类器包括2层全连接神经网络,同时设置dropout=0.3;o=sigmoid(w1(tanh(w0([f
a
;f
b
]))))其中,o表示模型最终输出,用于判断是否相似;sigmoid和tanh为激活函数,w0和w1表示权重参数,f
a
和f
b
为步骤s3.5中输出的特征矩阵。9.根据权利要求1所述的基于孪生胶囊网络结合交互式特征的文本相似检测方法,其特征在于:所述步骤s4具体包括以下分步骤s4.1、设置模型相关超参数;s4.2、将处理后的训练集中的文本对输入到基于孪生胶囊网络结合交互式特征的文本相似检测模型中进行多轮训练,通过观察验证集的结果判断模型是否出现过拟合或者欠拟
合问题,不断调整模型的参数,重复训练对比以得到最优模型;s4.3、模型训练结束后,将测试集中的文本对输入到模型中进行测试,训练好的模型对输入的文本对是否相似进行判断。10.根据权利要求9所述的基于孪生胶囊网络结合交互式特征的文本相似检测方法,其特征在于:所述步骤s4.1中,将模型训练次数epoch设置为20,将模型训练批次batch_size设置为512,训练时使用的优化器为adam优化器,损失函数是二值交叉熵损失函数。

技术总结
本发明公开了一种基于孪生胶囊网络结合交互式特征的文本相似检测方法,以孪生网络为基础结构,减少了模型参数,使模型的训练更加容易也更加高效;胶囊网络不仅有效的提取特征潜在的语义信息也保留了句子的位置特征信息,从而能够有效地判别两个文本是否相似;通过长短期记忆网络提取全局特征后采用交互式特征捕获不同文本之间的关系,可以充分推理出两个文本间的差异性;将文本推理后的差异特征与孪生网络结合,不仅将全局特征信息和局部特征信息融合,同时也考虑了空间信息,最终得到文本相似检测结果;所以本发明可以提高文本相似检测的效果,减少文本相似检测耗费的时间。减少文本相似检测耗费的时间。减少文本相似检测耗费的时间。


技术研发人员:尹春勇 沈子宁
受保护的技术使用者:南京信息工程大学
技术研发日:2023.05.09
技术公布日:2023/8/9
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐