用于生物制品生产术语的实体识别及分类方法与流程
未命名
07-13
阅读:98
评论:0
1.本发明涉及生物制药生产过程中生产术语的实体识别领域,特别涉及用于生物制品生产术语的实体识别及分类方法。
背景技术:
2.随着智能制造的不断深入发展,在生物制药工业生产中,需要对生产术语进行机器学习,计算机自动识别处理,实体识别及分类方法是实现智能生产及控制的重要基础,也是智能制造信息处理的底层技术。
技术实现要素:
3.本发明的目的在于提供用于生物制品生产术语的实体识别及分类方法,能够精准实现对生物制品生产术语的自动识别与分类。
4.本发明解决其技术问题,采用的技术方案是:用于生物制品生产术语的实体识别及分类方法,包括如下步骤:对生物制药生产中的无标注语料进行词向量训练,得到第一词向量模型;对生物制药生产中的无标注语料进行人工标注,构建数据集;在第一词向量模型的基础上,构建词向量+bilstm+crf神经网络模型,并将此模型在构建的数据集上进行训练,得到第二词向量模型;利用第二词向量模型,对需要识别的生物制品生产术语文本进行实体识别,得到识别结果;将数据集中的实体词向量通过改进的k-means聚类算法聚类成20-50个簇,通过比较每一个簇与已识别的数据集的实体词向量之间的余弦相似度,实现对生物制药生产术语文本的实体分类。
5.作为进一步说明,利用word2vec中的连续词袋模型对生物制药生产中的无标注语料进行词向量训练,语料选择生物制药生产中常用术语的字或词;所述连续词袋模型通过用某一个中心词的前后2c个词的信息预测该中心词,该模型表示为:其中,t表示当前时刻,t表示总时刻数,设是当前生产术语文本中的中心词,是该中心词前后的2c个词,此时的任务则是根据这已知的2c个词,连续词袋模型预测出中心词,并且中心词出现的概率与该词前后2c词均有关系。
6.作为进一步说明,所述连续词袋模型首先通过独热编码将中心词前后2c个词
形成对应的词向量,然后将这2c个词送入输入层,并在投影层通过乘以一个共享的权重矩阵进行计算后送入输出层,最后得到中心词关于前后2c个词的概率,通过极大似然函数估计法训练得到每个词的最终词向量,统一训练出的词向量为,其中n表示词向量的个数。
7.作为进一步说明,所述对生物制药生产中的无标注语料进行人工标注,构建数据集,具体包括:对原始语料进行数据预处理,包括删除无关内容、特殊符号及去掉停用词;根据实际生产线的不同,初步确定所识别的实体类别,实体类别包括预防类生物制品、治疗类生物制品和体内体外诊断类;在标注过程中,根据生产术语文本的特点,采用bio标注方法对这些实体进行标注,实体开始部分用b表示,实体非开始部分用i表示,非实体部分用o表示。
8.作为进一步说明,所述构建词向量+bilstm+crf神经网络模型,具体包括:将训练得到的词向量输入给bilstm神经网络模型,得到具有上下文信息的全局特征;将得到的具有上下文信息的特征向量输入到crf,提取标注之间的依赖特征,并计算损失函数;依据损失函数,采用sgd随机梯度下降法更新实体识别模型的参数,采用sgd随机梯度下降法更新实体识别模型的参数的具体方法是:通过随机地抽取一个训练样本,计算这个样本上的误差关于参数的梯度,然后不断向负梯度方向更新参数值,直到目标函数取得最小值停止迭代。
9.作为进一步说明,所述bilstm神经网络模型神经元的状态通过如下公式计算:其中,是sigmoid函数,是当前时刻的输入词向量,是上一时刻的隐藏层状态,是遗忘门,决定会被忘记的信息种类,是输入门,决定会被保留的信息种类,是当前时刻的输入词向量取得的中间状态,是记忆单元,控制单元状态的变化,是
上一时刻的状态值,是记忆单元中的输出值,是当前时刻的隐藏层状态,表示遗忘门的反馈连接矩阵,表示输入门的反馈矩阵,表示隐藏单元的反馈矩阵,表示输出门的反馈矩阵,表示遗忘门的阈值,表示输入门的阈值,表示隐藏层单元的阈值,表示输出门的阈值。
10.作为进一步说明,所述将得到的具有上下文信息的特征向量输入到crf,提取标注之间的依赖特征,并计算损失函数,具体包括:给定生产术语文本输入词的对应的词向量序列,以及每个输入词对应的预测序列,并定义y的预测得分:其中,是转移矩阵,由crf学习标注之间的顺序性得到的参数矩阵,表示所有的标注向下一个标注转移的概率,是概率得分矩阵,是由具有上下文信息地特征矩阵转化而来的,是第i个词被标记为标注j的概率,t是预测的标注数;根据softmax函数,利用定义的预测得分计算y的概率:该概率的对数似然函数为:其中代表真实的标注序列,代表所有可能的标注序列,表示其它路径得分;将loss损失函数定义为:最后,通过维特比算法对预测序列进行解码,从而求得概率最大时的预测标注序列,表达式如下:
。
11.作为进一步说明,所述利用第二词向量模型,对需要识别的生物制品生产术语文本进行实体识别,得到识别结果,具体包括:读取需要进行实体识别的生产术语文本,输入到已训练的词向量+bilstm+crf模型中;生产术语文本数据经过连续词袋模型后转化为词向量,词向量经过bilstm神经网络进行特征提取,获取到具有全局信息的特征向量,最后在crf中采用维特比算法求出文本中每句语言最大可能的标注序列,即为生产术语实体识别结果。
12.作为进一步说明,对k-means聚类算法进行改进,具体是指:将词向量标准化后,重新定义了余弦相似度的距离,改进原有的欧氏距离计算方法,从而改进k-means算法;改进的原理为:根据定义的生产术语实体,词向量化后对应的生产术语实体词向量为,任取词向量,将词向量标准化后,推导出:其中是和的欧式距离,是和的余弦相似度,从距离的均衡性出发,改进的余弦相似度距离,定义如下:由此得到:按照误差平方和准则函数变小的准则,沿初值词向量逐次迭代求出局部最优解,进而找出使得平方误差函数值最小的k个划分,其中,最小化平方误差的公式为:其中是簇的均值向量,刻画了簇内实体围绕簇均值向量的紧密程度,其值越小则簇内实体相似度越高。
13.作为进一步说明,通过比较每一个簇与已识别的数据集的实体词向量之间的余弦相似度,实现对生物制药生产术语文本的实体分类,具体包括:将数据集得到的20-50个簇中抽取一个与质心最近的5-10个生产术语实体,分别与测试集中待分类的生产术语实体,进行计算词向量余弦相似度,得到它们余弦相似度的平均值,以作为该簇与待分类实体之间的余弦相似度判定值,将所需要分类的生产术语实
体划分到余弦相似度最大的簇下面,则完成了分类任务;余弦相似度的计算方法如下:设训练集中的实体的词向量为,生产术语待分类实体的词向量为,则和的余弦相似度计算公式为:其中,,值越大,表示和关联度越高,即越接近1代表和越相似。
14.本发明的有益效果是:通过上述用于生物制品生产术语的实体识别及分类方法,可以基于深度学习的方法,将生物制药生产中常用的字或词,通过映射建立一种向量空间,输入到神经网络中进行特征提取,最后结合crf进行标注预测,输出较为精确的识别结果,并进行了合理的分类。
附图说明
15.图1是本发明实施例中用于生物制品生产术语的实体识别及分类方法的流程示意图;图2是本发明实施例的cbow模型的结构图;图3是本发明实施例的bilstm神经网络的结构图;图4是本发明实施例的crf的结构图;图5是本发明实施例的词向量+bilstm+crf神经网络模型的结构图。
具体实施方式
16.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
17.本实施例提供的是用于生物制品生产术语的实体识别及分类方法,其流程图见图1,其中,该方法包括如下步骤:s1.对生物制药生产中的无标注语料进行词向量训练,得到第一词向量模型;s2.对生物制药生产中的无标注语料进行人工标注,构建数据集;s3.在第一词向量模型的基础上,构建词向量+bilstm+crf神经网络模型,并将此模型在构建的数据集上进行训练,得到第二词向量模型;s4.利用第二词向量模型,对需要识别的生物制品生产术语文本进行实体识别,得到识别结果;s5.将数据集中的实体词向量通过改进的k-means聚类算法聚类成20-50个簇,通
过比较每一个簇与已识别的数据集的实体词向量之间的余弦相似度,实现对生物制药生产术语文本的实体分类。
18.本实施例中,参见图2,可以利用word2vec中的连续词袋模型(cbow)对生物制药生产中的无标注语料进行词向量训练,语料选择生物制药生产中常用术语的字或词;这里,所述连续词袋模型通过用某一个中心词的前后2c个词的信息预测该中心词,该模型可以表示为:其中,t表示当前时刻,t表示总时刻数,设是当前生产术语文本中的中心词,是该中心词前后的2c个词,此时的任务则是根据这已知的2c个词,连续词袋模型预测出中心词,并且中心词出现的概率与该词前后2c词均有关系。
19.需要说明的是,本实施例中,所述连续词袋模型首先通过独热编码将中心词前后2c个词形成对应的词向量,然后将这2c个词送入输入层,并在投影层通过乘以一个共享的权重矩阵进行计算后送入输出层,最后得到中心词关于前后2c个词的概率,通过极大似然函数估计法训练得到每个词的最终词向量,为了方便表示,这里统一训练出的词向量为,其中n表示词向量的个数。
20.本实施例中,所述对生物制药生产中的无标注语料进行人工标注,构建数据集,具体包括:对原始语料进行数据预处理,包括删除无关内容、特殊符号及去掉停用词等;根据实际生产线的不同,初步确定所识别的实体类别,实体类别包括预防类生物制品、治疗类生物制品和体内体外诊断类,其中,预防类生物制品,如各类疫苗、免疫球蛋白、干扰素、人凝血因子等,治疗类生物制品,如抗毒素、人血蛋白、人干扰素、人胰岛素、生长激素、人表皮生长因子等,体内体外诊断类,如蛋白衍生物、表面抗原检测试剂等;在标注过程中,根据生产术语文本的特点,采用bio标注方法对这些实体进行标注,实体开始部分用b(begin)表示,实体非开始部分用i(inside)表示,非实体部分用o(outside)表示。
21.需要指出的是,参见图3、图4和图5,所述构建词向量+bilstm+crf神经网络模型,具体可以包括:将训练得到的词向量输入给bilstm(bi-directional long short-term memory)神经网络模型,得到具有上下文信息的全局特征;将得到的具有上下文信息的特征向量输入到crf,提取标注之间的依赖特征,并计算损失函数;依据损失函数,采用sgd随机梯度下降法更新实体识别模型的参数,采用sgd随机
梯度下降法更新实体识别模型的参数的具体方法是:通过随机地抽取一个训练样本,计算这个样本上的误差关于参数的梯度,然后不断向负梯度方向更新参数值,直到目标函数取得最小值停止迭代。
22.lstm是一种特殊的循环神经网络,所述bilstm神经网络模型神经元的状态通过如下公式计算:其中,是sigmoid函数,是当前时刻的输入词向量,是上一时刻的隐藏层状态,是遗忘门,决定会被忘记的信息种类,是输入门,决定会被保留的信息种类,是当前时刻的输入词向量取得的中间状态,是记忆单元,控制单元状态的变化,是上一时刻的状态值,是记忆单元中的输出值,是当前时刻的隐藏层状态,表示遗忘门的反馈连接矩阵,表示输入门的反馈矩阵,表示隐藏单元的反馈矩阵,表示输出门的反馈矩阵,表示遗忘门的阈值,表示输入门的阈值,表示隐藏层单元的阈值,表示输出门的阈值。
23.实际应用过程中,将得到的具有上下文信息的特征向量输入到crf,提取标注之间的依赖特征,并计算损失函数,具体包括:给定生产术语文本输入词的对应的词向量序列,以及每个输入词对应的预测序列,并定义y的预测得分:其中,是转移矩阵,由crf学习标注之间的顺序性得到的参数矩阵,表示所有的标注向下一个标注转移的概率,是概率得分矩阵,是由具有上下文信息地特征矩阵转化而来的,是第i个词被标记为标注j的概率,t是预测的标注数;根据softmax函数,利用定义的预测得分计算y的概率:
该概率的对数似然函数为:其中代表真实的标注序列,代表所有可能的标注序列,表示其它路径得分;将loss损失函数定义为:最后,通过维特比算法对预测序列进行解码,从而求得概率最大时的预测标注序列,表达式如下:。
24.作为补充,所述利用第二词向量模型,对需要识别的生物制品生产术语文本进行实体识别,得到识别结果,具体包括:读取需要进行实体识别的生产术语文本,输入到已训练的词向量+bilstm+crf模型中;生产术语文本数据经过连续词袋模型后转化为词向量,词向量经过bilstm神经网络进行特征提取,获取到具有全局信息的特征向量,最后在crf中采用维特比算法求出每句话最大可能的标注序列,即为生产术语实体识别结果。
25.本实施例中,对k-means聚类算法进行改进,具体是指:将词向量标准化后,重新定义了余弦相似度的距离,改进原有的欧氏距离计算方法,从而改进k-means算法;改进的原理为:根据定义的生产术语实体,词向量化后对应的生产术语实体词向量为,任取词向量,将词向量标准化后,推出:其中是和的欧式距离,是和的余弦相似度,从距离
的均衡性出发,改进的余弦相似度距离,定义如下:由此得到:按照误差平方和准则函数变小的准则,沿初值词向量逐次迭代求出局部最优解,进而找出使得平方误差函数值最小的k个划分,其中,最小化平方误差的公式为:其中是簇的均值向量,描述了簇内实体围绕簇均值向量的紧密程度,其值越小则簇内实体相似度越高。
26.最后,通过比较每一个簇与已识别的数据集的实体词向量之间的余弦相似度,实现对生物制药生产术语文本的实体分类,具体包括:将数据集得到的20-50个簇中抽取与质心最近的5-10个生产术语实体,分别与测试集中待分类的生产术语实体,进行计算词向量余弦相似度,得到它们余弦相似度的平均值,以作为该簇与待分类实体之间的余弦相似度判定值,将所需要分类的生产术语实体划分到余弦相似度最大的簇下面,则完成了分类任务;余弦相似度的计算方法如下:设训练集中的实体的词向量为,生产术语待分类实体的词向量为,则和的余弦相似度计算公式为:其中,,值越大,表示和关联度越高,即越接近1代表和越相似。
27.为此,本发明所使用的cbow模型能够通过大规模无标注数据进行无监督训练,得到具有较强的语义表达能力的词向量作为后续模型的输入;并且,由于引入了bilstm神经网络,提取生产术语文本序列中具有上下文语义信息的全局特征;同时,在bilstm提取的全局特征的基础上,通过crf学习标注之间的依赖关系,以此提高生产术语文本中实体识别的准确率;最后,通过重新定义了余弦相似度的距离,改进k-means算法中原有的欧氏距离计算方法,适用于生物制药生产术语的实体分类,整个过程操作简单,可移植性强。
28.以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人
员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.用于生物制品生产术语的实体识别及分类方法,其特征在于,包括如下步骤:对生物制药生产中的无标注语料进行词向量训练,得到第一词向量模型;对生物制药生产中的无标注语料进行人工标注,构建数据集;在第一词向量模型的基础上,构建词向量+bilstm+crf神经网络模型,并将此模型在构建的数据集上进行训练,得到第二词向量模型;利用第二词向量模型,对需要识别的生物制品生产术语文本进行实体识别,得到识别结果;将数据集中的实体词向量通过改进的k-means聚类算法聚类成20-50个簇,通过比较每一个簇与已识别的数据集的实体词向量之间的余弦相似度,实现对生物制药生产术语文本的实体分类。2.根据权利要求1所述的用于生物制品生产术语的实体识别及分类方法,其特征在于,利用word2vec中的连续词袋模型对生物制药生产中的无标注语料进行词向量训练,语料选择生物制药生产中常用术语的字或词;所述连续词袋模型通过用某一个中心词的前后2c个词的信息预测该中心词,该模型表示为:其中,t表示当前时刻,t表示总时刻数,设是当前生产术语文本中的中心词,是该中心词前后的2c个词,此时的任务则是根据这已知的2c个词,连续词袋模型预测出中心词,并且中心词出现的概率与该词前后2c词均有关系。3.根据权利要求2所述的用于生物制品生产术语的实体识别及分类方法,其特征在于,所述连续词袋模型首先通过独热编码将中心词前后2c个词形成对应的词向量,然后将这2c个词送入输入层,并在投影层通过乘以一个共享的权重矩阵进行计算后送入输出层,最后得到中心词关于前后2c个词的概率,通过极大似然函数估计法训练得到每个词的最终词向量,统一训练出的词向量为,其中n表示词向量的个数。4.根据权利要求1所述的用于生物制品生产术语的实体识别及分类方法,其特征在于,所述对生物制药生产中的无标注语料进行人工标注,构建数据集,具体包括:对原始语料进行数据预处理,包括删除无关内容、特殊符号及去掉停用词;根据实际生产线的不同,初步确定所识别的实体类别,实体类别包括预防类生物制品、治疗类生物制品和体内体外诊断类;在标注过程中,根据生产术语文本的特点,采用bio标注方法对这些实体进行标注,实体开始部分用b表示,实体非开始部分用i表示,非实体部分用o表示。
5.根据权利要求1所述的用于生物制品生产术语的实体识别及分类方法,其特征在于,所述构建词向量+bilstm+crf神经网络模型,具体包括:将训练得到的词向量输入给bilstm神经网络模型,得到具有上下文信息的全局特征;将得到的具有上下文信息的特征向量输入到crf,提取标注之间的依赖特征,并计算损失函数;依据损失函数,采用sgd随机梯度下降法更新实体识别模型的参数,采用sgd随机梯度下降法更新实体识别模型的参数的具体方法是:通过随机地抽取一个训练样本,计算这个样本上的误差关于参数的梯度,然后不断向负梯度方向更新参数值,直到目标函数取得最小值停止迭代。6.根据权利要求5所述的用于生物制品生产术语的实体识别及分类方法,其特征在于,所述bilstm神经网络模型神经元的状态通过如下公式计算:其中,是sigmoid函数,是当前时刻的输入词向量,是上一时刻的隐藏层状态,是遗忘门,决定会被忘记的信息种类,是输入门,决定会被保留的信息种类,是当前时刻的输入词向量取得的中间状态,是记忆单元,控制单元状态的变化,是上一时刻的状态值,是记忆单元中的输出值,是当前时刻的隐藏层状态,表示遗忘门的反馈连接矩阵,表示输入门的反馈矩阵,表示隐藏单元的反馈矩阵,表示输出门的反馈矩阵,表示遗忘门的阈值,表示输入门的阈值,表示隐藏层单元的阈值,表示输出门的阈值。7.根据权利要求5所述的用于生物制品生产术语的实体识别及分类方法,其特征在于,所述将得到的具有上下文信息的特征向量输入到crf,提取标注之间的依赖特征,并计算损失函数,具体包括:给定生产术语文本输入词的对应的词向量序列,以及每个输入词对应的预测序列,并定义y的预测得分:
其中,是转移矩阵,由crf学习标注之间的顺序性得到的参数矩阵,表示所有的标注向下一个标注转移的概率,是概率得分矩阵,是由具有上下文信息地特征矩阵转化而来的,是第i个词被标记为标注j的概率,t是预测的标注数;根据softmax函数,利用定义的预测得分计算y的概率:该概率的对数似然函数为:其中代表真实的标注序列,代表所有可能的标注序列,表示其它路径得分;将loss损失函数定义为:最后,通过维特比算法对预测序列进行解码,从而求得概率最大时的预测标注序列,表达式如下:。8.根据权利要求1所述的用于生物制品生产术语的实体识别及分类方法,其特征在于,所述利用第二词向量模型,对需要识别的生物制品生产术语文本进行实体识别,得到识别结果,具体包括:读取需要进行实体识别的生产术语文本,输入到已训练的词向量+bilstm+crf模型中;生产术语文本数据经过连续词袋模型后转化为词向量,词向量经过bilstm神经网络进行特征提取,获取到具有全局信息的特征向量,最后在crf中采用维特比算法求出每句话最大可能的标注序列,即为生产术语实体识别结果。9.根据权利要求1所述的用于生物制品生产术语的实体识别及分类方法,其特征在于,对k-means聚类算法进行改进,具体是指:将词向量标准化后,重新定义了余弦相似度的距离,改进原有的欧氏距离计算方法,从而改进k-means算法;改进的原理为:根据定义的生产术语实体,词向量化后对应的生产术语实体词向量为
,任取词向量,将词向量标准化后,推出:其中是和的欧式距离,是和的余弦相似度,从距离的均衡性出发,改进的余弦相似度距离,定义如下:由此得到:按照误差平方和准则函数变小的准则,沿初值词向量逐次迭代求出局部最优解,进而找出使得平方误差函数值最小的k个划分,其中,最小化平方误差的公式为:其中是簇的均值向量,刻画了簇内实体围绕簇均值向量的紧密程度,其值越小则簇内实体相似度越高。10.根据权利要求1所述的用于生物制品生产术语的实体识别及分类方法,其特征在于,通过比较每一个簇与已识别的数据集的实体词向量之间的余弦相似度,实现对生物制药生产术语文本的实体分类,具体包括:将数据集得到的20-50个簇中抽取与质心最近的5-10个生产术语实体,分别与测试集中待分类的生产术语实体,进行计算词向量余弦相似度,得到它们余弦相似度的平均值,以作为该簇与待分类实体之间的余弦相似度判定值,将所需要分类的生产术语实体划分到余弦相似度最大的簇下面,则完成了分类任务;余弦相似度的计算方法如下:设训练集中的实体的词向量为,生产术语待分类实体的词向量为,则和的余弦相似度计算公式为:其中,,值越大,表示和关联度越高,即越接近1代表和越相似。
技术总结
本发明属于生物制药生产过程中生产术语的实体识别领域,提出了用于生物制品生产术语的实体识别及分类方法,包括:对生物制药生产中的无标注语料进行词向量训练,得到第一词向量模型;对生物制药生产中的无标注语料进行人工标注,构建数据集;基于第一词向量模型构建词向量+BiLSTM+CRF神经网络模型,并将此模型在构建的数据集上进行训练,得到第二词向量模型;利用第二词向量模型,对需要识别的生物制品生产术语文本进行实体识别,得到识别结果;将数据集中的实体词向量通过改进的k-means聚类算法聚类成20-50个簇,通过比较每一个簇与已识别的数据集的实体词向量之间的余弦相似度,实现对生物制药生产术语文本的实体分类。实现对生物制药生产术语文本的实体分类。实现对生物制药生产术语文本的实体分类。
技术研发人员:杨春 曾茂迪 李俊谚 陈跃辉
受保护的技术使用者:佰墨思(成都)数字技术有限公司
技术研发日:2023.06.07
技术公布日:2023/7/12
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种钢化玻璃生产用防脱式上料吸盘的制作方法 下一篇:一种内衬罐的制作方法
