一种基于生成扩散模型的跨域命名实体识别方法及装置与流程

未命名 07-28 阅读:144 评论:0


1.本文属于计算机技术领域,具体涉及一种基于生成扩散模型的跨域命名实体识别方法及装置。


背景技术:

2.命名实体识别(ner)是一种信息提取过程,通过该过程可以识别和分类在非结构化文本中提到的实体,比如在医疗领域的文本识别、新闻领域的多模态信息分析。机器学习模型通常用于执行命名实体识别。然而,为了执行精确的命名实体识别,需要大量注释数据(例如,包括预分类词的非结构化句子)来训练机器学习模型。此外,名字实体通常是域特定的,也就是说,许多名字实体通常是特定域特定的。因此,使用与特定域相关联的训练数据训练的机器学习模型通常可以仅针对该特定域而非任何其它域有效地执行命名实体识别。
3.由于构建大量注释数据所需的大量努力,计算资源和时间,通常只有与少量域相关联的训练数据是可用的,现存的标注数据集规模较小,不同数据集的实体类型存在差异,无法直接合并多个数据集。因此,如何快速高效的实现不同域之间的命名实体识别成为目前亟需解决的技术问题。


技术实现要素:

4.针对现有技术的上述问题,本文的目的在于,提供一种基于生成扩散模型的跨域命名实体识别方法及装置,可以快速高效的实现不同域之间命名实体识别。
5.为了解决上述技术问题,本文的具体技术方案如下:
6.一方面,本文提供一种基于生成扩散模型的跨域命名实体识别方法,所述方法包括:
7.通过第一生成扩散模型对源数据进行特征提取,得到原始生成集,所述源数据为标注完成的文本数据;
8.根据所述原始生成集和预设激励模型,对所述第一生成扩散模型进行微调,得到第一目标生成扩散模型;
9.通过第二生成扩散模型和所述第一目标生成扩散模型,对目标数据进行特征提取,得到目标生成集,所述第二生成扩散模型和所述第一目标生成扩散模型具有相同的网络构架,所述目标数据和所述源数据属于不同的领域;
10.将所述目标生成集输入到预先训练完成的命名实体识别模型中,得到针对所述目标数据的实体命名结果。
11.进一步地,所述第一生成扩散模型通过如下步骤获得:
12.获取训练集数据;
13.建立具有马尔可夫链结构的初始生成模型;
14.基于所述马尔科夫链结构,在变分自动编码器的潜在空间中对所述训练集数据进行基于常微分方程的扩散处理,获取多个连续扩散变量,其中扩散变量满足如下高斯分布:qt
为正向边缘分布;n()为高斯分布;x
t
为第t个扩散变量;γ
t
为..;为第t个实向量的平方;i为向量;
15.基于预设得分模型和所述扩散变量,对所述初始生成模型进行训练,直到得收敛后的第一生成扩散模型,其中预设得分模型中的得分函数为:其中,∈为噪声变量。
16.进一步地,所述第一生成扩散模型中常微分方程的表达形式为:
[0017][0018]
其中,β(t)为高斯分布参数。
[0019]
进一步地,所述预设激励模型通过如下步骤得到:
[0020]
根据所述原始生成集,确定多个生成语句;
[0021]
通过人工批注的方式,对多个生成语句的质量进行打分标注,得到基于打分标注的语句序列;
[0022]
通过预设激励损失函数和所述语句序列,对初始激励模型进行训练,直到获得训练完成的激励模型,所述预设激励损失函数表示为:练完成的激励模型,所述预设激励损失函数表示为:
[0023]
使用偏差对训练完成的激励模型进行标准化处理,得到所述预设激励模型。
[0024]
进一步地,所述根据所述原始生成集和预设激励模型,对所述第一生成扩散模型进行微调,得到第一目标生成扩散模型,包括:
[0025]
将所述原始生成集中生成语句输入到所述预设激励模型中,将得分大于零的语句选入优化生成集;
[0026]
根据所述优化生成集,通过近端策略优化算法对所述第一生成扩散模型进行微调,得到第一目标生成扩散模型。
[0027]
进一步地,所述近端策略优化算法对应的损失函数为:
[0028][0029]
其中,
[0030]
其中:其中:e
t
为期望;r
t
(θ)为新旧策略之间的比率;∈为超参;为优势函数的估计;π
θ
为策略;a
t
为动作向量,s
t
状态向量。
[0031]
进一步地,通过所述第二生成扩散模型和所述第一目标生成扩散模型,对目标数据进行特征提取,得到目标生成集,包括:
[0032]
基于所述第一目标生成扩散模型的网络结构,建立第二生成扩散模型,其中第二生成扩散模型中马尔科夫链具有基于噪声y的联合分布为:x0是扩散模型的最终输出,以噪声y为条件的因式分解变分分布为:
[0033]
将目标数据输入到第二生成扩散模型中,得到目标生成集,其中所述目标生成集包括带有标记的语句序列。
[0034]
进一步地,所述预先训练完成的命名实体识别模型包括输入序列编码器、标签编码器和标签预测器;
[0035]
所述输入序列编码器包括通过源域数据训练得到的bert模型,表示为:[h1,h2,

,hn]=f
in
(x1,x2,

,xn),hi是d1维的标记向量;
[0036]
所述标签编码器包括预训练的bi-lstm模型,表示为:[e1,e2,

,en]=f
in
(s1,s2,

,sn),sk是通过标签查找表g对标签序列进行标签嵌入得来的,ek是bi-lstm的输出,g∈rk×
d2
,k表示源域或目标域中唯一标签的数量,d2是标签嵌入的规格;
[0037]
所述标签预测器包括bi-attention模型,用于将所述输入序列编码器和所述标签预测器的输出结果进行知识融合,以获得所述目标数据的实体命名结果。
[0038]
进一步地,将所述目标生成集输入到预先训练完成的命名实体识别模型中,得到针对所述目标数据的实体命名结果,包括:
[0039]
根据目标生成集,确定带有标记的语句序列;
[0040]
将所述带有标记的语句序列作为输入序列通过训练完成的bert模型中进行编码,以获得带有标记的语句序列对应的标记表示向量;
[0041]
基于源域或目标域中之前标记的标签,随机初始化构建标签查找表;
[0042]
基于所述标签查找表和预先训练完成的bi-lstm对之前标记的标签进行特征提取,得到标签表示向量;
[0043]
通过全连接层神经网路将标签表示向量投影到与所述标记表示向量相同的维度;
[0044]
根据投影后的标签表示向量和预设注意力权值计算规则,得到输入序列的标签背景信息;
[0045]
根据所述标签背景信息和所述标记表示向量,结合预设注意力模块,计算得到标签上下文信息;
[0046]
将所述标签背景信息和所述标签上下文信息进行连接处理,得到标签感知信息;
[0047]
将所述标签感知信息和所述标记表示向量进行融合处理,得到针对所述目标数据的实体命名结果。
[0048]
另一方面,本文还提供一种基于生成扩散模型的跨域命名实体识别装置,所述装置包括:
[0049]
原始生成集获取模块,用于通过第一生成扩散模型对源数据进行特征提取,得到原始生成集,所述源数据为标注完成的文本数据;
[0050]
第一目标生成扩散模型确定模块,用于根据所述原始生成集和预设激励模型,对所述第一生成扩散模型进行微调,得到第一目标生成扩散模型;
[0051]
目标生成集获取模块,用于通过第二生成扩散模型和所述第一目标生成扩散模型,对目标数据进行特征提取,得到目标生成集,所述第二生成扩散模型和所述第一目标生成扩散模型具有相同的网络构架,所述目标数据和所述源数据属于不同的领域;
[0052]
实体命名结果获得模块,用于将所述目标生成集输入到预先训练完成的命名实体识别模型中,得到针对所述目标数据的实体命名结果。
[0053]
采用上述技术方案,本文所述一种基于生成扩散模型的跨域命名实体识别方法及装置,通过第一生成扩散模型对源数据进行特征提取,得到原始生成集,所述源数据为标注完成的文本数据;根据所述原始生成集和预设激励模型,对所述第一生成扩散模型进行微调,得到第一目标生成扩散模型;通过第二生成扩散模型和所述第一目标生成扩散模型,对目标数据进行特征提取,得到目标生成集,所述第二生成扩散模型和所述第一目标生成扩
散模型具有相同的网络构架,所述目标数据和所述源数据属于不同的领域;将所述目标生成集输入到预先训练完成的命名实体识别模型中,得到针对所述目标数据的实体命名结果,本文通过可以快速高效的实现不同域之间的命名实体识别。
[0054]
为让本文的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
[0055]
为了更清楚地说明本文实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本文的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0056]
图1示出了本文实施例提供的一种基于生成扩散模型的跨域命名实体识别方法的步骤流程图;
[0057]
图2示出了本文实施例中去噪生成扩散模型和去噪生成扩散修复模型的区别示意图;
[0058]
图3示出了本文实施例中激励模型训练过程示意图;
[0059]
图4示出了本文实施例中提供的方法的整体框架图;
[0060]
图5示出了本文实施例提供的一种基于生成扩散模型的跨域命名实体识别装置的结构示意图;
[0061]
图6示出了本文实施例提供的计算机设备的结构示意图。
[0062]
附图符号说明:
[0063]
501、原始生成集获取模块;
[0064]
502、第一目标生成扩散模型确定模块;
[0065]
503、目标生成集获取模块;
[0066]
504;实体命名结果获得模块。
具体实施方式
[0067]
下面将结合本文实施例中的附图,对本文实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本文一部分实施例,而不是全部的实施例。基于本文中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本文保护的范围。
[0068]
需要说明的是,本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0069]
命名实体识别可用于各种应用中。例如,命名实体识别可用于通过向单词提供上
下文和含义来增强对非结构化句子的理解和解释。然后可以使用句子的解释来创建用于存储,分析和/或自动响应的结构化数据。在一个示例中,命名实体识别可用于解释由第三方提供的描述(例如,来自商家的产品描述)。在另一个例子中,命名实体识别可用于基于用户的聊天发言来解释用户的意思和/或意图。然后可以使用用户的意思和/或意图来为用户生成自动响应。
[0070]
如上所述,名字实体通常是域特定的。也就是说,适用于一个域的名称实体通常不适用于另一个域。例如,名字实体,例如一个科学者,一个化合物等,仅对科学领域(而不是其它领域)是特定的,而名字实体,例如一个乐手,一个奖品,一首歌曲等,仅对音乐领域(而不是其它领域)是特定的。此外,当某些词被分类在不同的域下时,它们可以与不同的名字实体相关联。例如,词语“persia太子”可以被分类为历史域中的人,被分类为电影域中的电影标题,或者被分类为视频游戏域中的游戏标题。
[0071]
现有技术中,针对特定域的命名实体识别,通常需要大量注释数据来训练机器学习模型,这样会消耗大量的计算资源合时间,效果也很一般,如何通过其他已经完成训练的域的实体识别来学习其他域成为目前亟需解决的技术问题。
[0072]
为了解决上述问题,本说明书实施例提供一种基于生成扩散模型的跨域命名实体识别方法,能够快速高效的实现不同域之间的命名实体识别。图1是本文实施例提供的一种基于生成扩散模型的跨域命名实体识别方法的步骤示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或装置产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行。具体的如图1所示,所述方法可以包括:
[0073]
一种基于生成扩散模型的跨域命名实体识别方法,所述方法包括:
[0074]
s101:通过第一生成扩散模型对源数据进行特征提取,得到原始生成集,所述源数据为标注完成的文本数据;
[0075]
s102:根据所述原始生成集和预设激励模型,对所述第一生成扩散模型进行微调,得到第一目标生成扩散模型;
[0076]
s103:通过第二生成扩散模型和所述第一目标生成扩散模型,对目标数据进行特征提取,得到目标生成集,所述第二生成扩散模型和所述第一目标生成扩散模型具有相同的网络构架,所述目标数据和所述源数据属于不同的领域;
[0077]
s104:将所述目标生成集输入到预先训练完成的命名实体识别模型中,得到针对所述目标数据的实体命名结果。
[0078]
可以理解为,所述第一生成扩散模型可以为去噪扩散模型(denoising diffusion probabilistic model,ddpm),第二生成扩散模型可以为去噪扩散恢复模型(denoising diffusion probabilistic repair model,ddrm),其中源数据为源域的已经标注完成的数据,其中源域数据中的实体关系也已标注完成。目标数据对应的目标域与源域为相邻的关系,这样可以通过学习源域中数据的实体关系来学习目标域中的实体关系。
[0079]
具体地,去噪扩散概率模型(ddpm)是一种渐变式的生成模型,ddpm是先构建一个数据样本渐变到随机噪声,再进行从随机噪声到数据样本的逆变换,通过反复执行逆变换,最终生成所需要的数据样本。在训练过程中,生成模型学习了一个模型分布p
θ
(x),它近似
来自于样本的条件分布q(x),它们通过索引t在超参数t规定的总步骤数内建立马尔科夫链结构。我们可以训练反过程均值函数近似器μ
θ
,通过修改它的参数来预测∈,之后采取总量为t的梯度下降步骤,得到完整的随机噪声语句。
[0080]
去噪扩散修复模型(ddrm)利用预训练的生成扩散模型解决无监督学习问题,常用的方式通常是采用迭代的方式来解决,这对计算量的要求很高,而且对超参数的调整很敏感,而ddrm仅需要很少的nfe(神经功能评估)就能够实现非常好的效果。我们将ddrm定义为条件为y的马卡洛夫链,y是我们引入的条件,是ddpm的最优解,起到了预训练的作用,x0是最终的扩散输出。类似于ddpm,它也有条件分布q(x),和模型分布p
θ
(x)。经数学证明,ddpm的最优解也是ddrm的最优解。
[0081]
在本说明书实施例中,所述第一生成扩散模型通过如下步骤获得:
[0082]
获取训练集数据;
[0083]
建立具有马尔可夫链结构的初始生成模型;
[0084]
基于所述马尔科夫链结构,在变分自动编码器的潜在空间中对所述训练集数据进行基于常微分方程的扩散处理,获取多个连续扩散变量,其中扩散变量满足如下高斯分布:q
t
为正向边缘分布;n()为高斯分布;x
t
为第t个扩散变量;γ
t
为..;为第t个实向量的平方;i为向量;
[0085]
基于预设得分模型和所述扩散变量,对所述初始生成模型进行训练,直到得收敛后的第一生成扩散模型,其中预设得分模型中的得分函数为:其中,∈为噪声变量。
[0086]
可以理解为,本实施例中的第一生成扩散模型是通过去噪扩散模型改进而来,ddpm是很优秀的图像生成模型,但我们并不能将它直接应用到文本生成上,需要对它进行一些特定的改进。在扩散模型在文本生成领域有很多优秀的应用可以用来参考,比如diffusion-lm的做法是将前向传播时离散的字词通过词嵌入转化为一系列连续的潜在向量,之后对每个连续向量不断加高斯噪声进行前向扩散,后向时不断去噪并且最终将每个潜在向量量化到一个最近的词嵌入上。但是该模型有一个比较大的缺陷就是没有显示建模全句的生成质量,另一个缺陷生成需要预先固定长度再开始去噪生成极大的限制了使用场景。
[0087]
首先介绍下去噪扩散模块:扩散模型是具有马尔科夫链结构的生成模型,它的结构可以用如下式子表示,其中x∈rn:
[0088]
x
t

x
t-1
→…→
x1→
x0[0089]
它具有以下的联合分布:
[0090][0091]
在将所有x变量都推导出来后,只保留x0作为生成模型的样本,为了训练扩散模型,可以引入了一个固定的因子做变分推理分布:
[0092]
[0093]
这导致了最大似然目标的证据下界(elbo),这里的证据指数据或可观测变量的概率密度,证据下界指左边为证据的对数形式,右边为其下界。
[0094]
生成扩散模型的一个特殊属性是对于所有的t<t,和q
(t)
都被选为条件高斯分布,x
t
可以被看作是x0被高斯噪声破坏的结果,因此,elbo可以简化为以下的去噪自动编码器:
[0095][0096]
其中,是一个θ参数化的神经网络,它的功能是从有噪声的x
t
中恢复一个没有噪声干扰的观察结果。
[0097]
在改进时,可以使在变分自动编码器(vae)里的潜在空间上做扩散,与diffusion-lm不同,同样是在连续空间上做扩散,不需要训练词嵌入,以及一系列的优化技巧,使扩散过程仅仅在一个低维的连续空间上负责文本性质的控制,而使得潜在向量具有相应的性质后,再将潜在向量交由解码器去生成文本,这样做有三个好处,一方面这样能避免diffusion-lm的定长生成的限制,另一方面因为文本生成依然交由自回归解码器生成,文本通畅程度也得到了保证。
[0098]
建立一个score-model,使得ddpm的训练目标完全等价于score-model的训练目标,已知前向扩散的扩散核是高斯核,利用高斯分布的聚合性质后x
t
关于x0依然是一个高斯分布,其表达形式如下:
[0099][0100]
根据上面的高斯分布表达式,可以得到如下的score-function表达式,公式如下:
[0101][0102]
而ddpm的核心-随机微分方程(sde)是可以和常微分方程(ode)联系在一起的,扩散过程的sde有着确定的ode对应解,则代表着可以借助ode求解器,在几十步内快速求解从而避免扩散模型几千步的庞大计算量,同时,使扩散由离散向连续统一,使得条件控制生成特别自然;已知前向过程是一个sde,后向过程也是一个sde,因此可以得到一个ddpm对应的逆向sde对应的ode的具体形式如下:
[0103][0104]
在本说明书实施例中,针对去噪扩散修复模型,即第二生成扩散模型,其建立过程如下:
[0105]
1)ddrm的变分目标
[0106]
ddrm的关键思想是找到一个也适合有监督学习目标的无监督解决方案,对于任何线性逆问题,可以也将ddrm定义为一个马尔科夫链:
[0107]
x
t

x
t-1
→…→
x1→
x0[0108]
与之前不同的是,多了一个条件y:
[0109][0110]
x0是扩散模型的最终输出,考虑以下以y为条件的因式分解变分分布:
[0111][0112]
推导出了基于y的扩散模型的elbo目标,接下来我们要证明ddrm的分布与ddpm的分布的关系。
[0113]
2)数据恢复的扩散过程
[0114]
首先,考虑了h的奇异值分解,并在其张量空间中进行扩散,核心思想是将条件y中的噪声和x
1:t
中的扩散噪声联系起来,以确保扩散结果x0和预期结果一致。通过使用svd,我们识别了y中缺失的x数据,并使用扩散过程进行合成。同时,条件y也经历了一个去噪过程,例如,在使用噪声时,语句空间也是张量空间,模型应该在空间中补齐缺失的张量,也就是补齐语句缺失的结构,对于一般的h它的奇异值分解可表示为:
[0115]
h=u∑v
t
[0116]
其中u∈rm×m,v∈rn×n都是正交矩阵,∑∈rm×n是一个包含h的奇异值的矩形对角矩阵,向下有序,我们对向量空间的值进行简记,是向量的第i个索引,是向量的第i个索引,又因为v是一个正交矩阵,我们可以通过对左乘v的方式还原x
t
,对于中的每个索引i,我们可以将变分分布定义为:
[0117][0118][0119]
其中,τ是一个能控制转换方差的超参数,上式的构造考虑了张量空间的每个索引的不同情况,如果对应的奇异值为0,则y不直接向该索引提供任何信息,该更新更类似于常规的无条件生成,如果奇异值非0,则更新过程考虑y提供的信息,这取决于张量空间的噪声水平是否大于扩散模型中的噪声水平。
[0120]
既然我们将q
(t)
定义为一系列的高斯条件,我们也将模型分布p
θ
也定义为一系列分布条件,与ddpm类似,我们的目标是在每一步t上获取x0的预测,我们用符号x
θ,t
来表示由模型f
θ
(x
t+1
,t+1)所做的预测,我们还将定义为的第i个指数。
[0121]
我们可用训练参数θ定义ddrm如下:
[0122][0123][0124]
理论上,我们必须为每一个给定了不同h和σy的线性逆问题重新训练不同的模型,实际上情况并非如此。
[0125]
根据定理可知:假设模型和在t≠t

时没有权重共享,那么当τ=1且时没有权重共享,那么当τ=1且时,ddrm的elbo目标可以改写为ddpm目标的形式。ddrm的学习目标是张量空间中的加权平方误差,因此预先训练的ddpm模型很好的近似于最优解,因此我们可以针对有着不同超参数的线性逆问题使用近似的扩散模型,即我们可以根据不同的数据域使用ddpm最优解做ddrm的近似最优解,ddpm与ddrm的详细结构图如图2所示。
[0126]
因此,在提出的模型中,ddrm所对应的ode,也是ddrm所对应的ode,可以表示为如下公式:
[0127][0128]
在本说明书实施例中,步骤s101中,对第一生成扩散模型进行微调得到第一目标生成扩散模型的过程可以为强化学习的过程,具体地,生成扩散模型在生成文本时,经常会生成一些根本对用户没有帮助的数据,通常我们称之为模型与用户需求不一致,我们也可以说是生成数据与用户需求不一致,我们需要做的是通过人类反馈进行微调,在广泛的任务上调整语言模型,因为生成扩散模型拥有很强的随机性,避免产生这种有毒数据的出现对于一个在应用程序中部署和使用的语言模型来说格外重要。
[0129]
概括地说,我们通过使生成扩散模型按照用户的想法生成与目标域数据像同类别的数据,从而在优化基于生成对抗模型的命名实体识别任务上取得了进展,我们先采取人类反馈的强化学习,这种技术利用人类的偏好作为奖励信号来微调我们的模型,我们通过ddpm提取源域数据特征,由工作人员进行标注,构建训练数据集,然后,我们就在这个数据集上构建一个奖励模型(reward model,rm),即预设激励模型,来预测什么样的数据是我们所需要的,ddpm的最优解应该是什么样子,最后,我们使用这个rm作为奖励函数,使用ppo算法微调我们的监督学习基线,以最大化奖励。
[0130]
进一步地,所述预设激励模型通过如下步骤得到:
[0131]
根据所述原始生成集,确定多个生成语句;
[0132]
通过人工批注的方式,对多个生成语句的质量进行打分标注,得到基于打分标注的语句序列;
[0133]
通过预设激励损失函数和所述语句序列,对初始激励模型进行训练,直到获得训练完成的激励模型,所述预设激励损失函数表示为:练完成的激励模型,所述预设激励损失函数表示为:
[0134]
使用偏差对训练完成的激励模型进行标准化处理,得到所述预设激励模型。
[0135]
如图3所示,为激励模型(或奖励模型)训练过程的一个示意图。
[0136]
rlhf的基本思想是使用强化学习的方式直接优化带有人类反馈的语言模型,即用生成文本的人工反馈作为性能衡量标准,更进一步用该反馈作为损失来优化模型,rlhf是一项涉及多个模型和不同训练阶段的复杂概念,具体可以按照如下三个步骤分解:
[0137]
1.预训练一个语言模型(lm);
[0138]
2.聚合生成数据并获得一个奖励模型(rm);
[0139]
3.用强化学习方式微调lm。
[0140]
上文所提到的基于ddpm的生成模型,即是我们的预训练语言模型,模型生成的数据也就是我们训练奖励模型rm的数据,可以借鉴了chatgpt的思想,采取标注排序序列的方式来替代直接打分,让标注员只对不同的答案进行好坏排序,这种用相对任务替代绝对任务的思想能够方便标注员打出统一的标注结果。
[0141]
假设现在有一个排好的序列,为了训练一个打分模型,我们使用以下这个损失函数:
[0142][0143]
为了更好地归一化差值,我们对每两项差值都过一个sigmoid函数将值拉到0~1之间,由公式可看出,loss的值等于排序列表中所有“排在前面项的reward减去排在后面项的reward的和,我们希望模型能够最大化“好句子”和“坏句子”得分之间的差值,又因为梯度下降过程实际上相当于是在做最小化操作,所以,我们需要再对loss取负数:
[0144]
loss=-loss
[0145]
首先我们通过ddpm获取一个数据集,每一行都是一个排序序列,排在前面的偏向于正面,而排在后面的则偏向于负面,我们期望通过这个序列训练一个reward模型,当句子偏向于正面时,代表实用价值越大,在backbone上,我们选用ernie作为基准模型,将模型的pooler_output层接一层linear layer,得到一维的reward。
[0146]
我们发现,如果我们简单地将比较结果分发到一个数据集,就会导致训练出来的奖励模型过拟合。相反,我们将每个提示符中的所有比较作为一个批处理元素进行训练,这样大大提高了计算效率。因为不再过拟合,它提高了验证精度,减小了日志损失,具体来说,在强化学习过程开始之前,我们使用偏差对奖励模型进行标准化,便于标签演示在开始强化学习之前就获得平均分数0。
[0147]
进一步地,所述根据所述原始生成集和预设激励模型,对所述第一生成扩散模型进行微调,得到第一目标生成扩散模型,包括:
[0148]
将所述原始生成集中生成语句输入到所述预设激励模型中,将得分大于零的语句选入优化生成集;
[0149]
根据所述优化生成集,通过近端策略优化算法对所述第一生成扩散模型进行微
调,得到第一目标生成扩散模型。
[0150]
可以理解为,第一生成扩散模型的微调任务可以表示成增强学习(rl)任务,本说明书实施例可以采用近端策略优化算法(proximal policy optimization,ppo)来完成微调,策略(policy)是一个接受提示并返回一系列文本(或文本的概率分布)的语言模型,这个策略的行动空间是lm的词表对应的所有词元,观察空间是可能的输入词元序列,奖励函数就是偏好模型和策略转变约束的结合。行为策略用于产出数据,目标策略是指需要更新优化的策略,如果两个策略是一个策略,我们称为on policy,在线策略,否则称为off policy,离线策略。
[0151]
ppo算法的核心是使用如下策略损失函数:
[0152][0153]
其中:
[0154][0155]
用来表示新旧策略之间的比率,∈为一个超参数,用来确保当利用同一批数据进行多次策略更新时,新旧策略之间的差异不要太大,一般情况下我们设∈=0.2。策略损失函数中为优势函数的估计,我们一般使用gae来计算优势函数:
[0156][0157]
其中,为:
[0158][0159]
综上所述,ppo是一种新的策略梯度强化学习方法,它通过与环境的交互交替采样数据,并使用随机梯度上升策略替代目标函数,而标准策略梯度方法,需要对每个数据样本执行一次完整的梯度更新,ppo允许多个时间段内小批更新,相比较信任区域策略优化更容易实现,拥有更少的样本复杂度,具有更好的平衡性。具体微调的过程在本说明书实施例不做赘述。
[0160]
在本说明书实施例中,命名实体识别问题解构为标记序列问题,其中被命名的实体可以被视为标记的标签,给定一个带有n个标记的输入序列x,ner的目标是输出长度相同的相应标签序列y,即建模p(x|y)。我们的命名实体识别模块主要由三个部分组成,编码输入序列x的输入序列编码器,编码先前标记标签的标签编码器,以及预测标记的ner标签的标签预测器。
[0161]
在跨域ner任务中,从源域和目标域各得到一个数据集,分别记为ds和d
t
,其目的是从ds中学习有价值的信息,并将其转移到d
t
。常用的ner框架原理可用下式表示:
[0162][0163]
以往的方法很少关注标签信息和标签与标记之间的关系,为了能够更好利用标签与标记之间的关系,我们采用的框架可以表示为一个自回归模型,原理如下:
[0164]
[0165]
进一步地,所述输入序列编码器包括通过源域数据训练得到的bert模型,表示为:[h1,h2,

,hn]=f
in
(x1,x2,

,xn),hi是d1维的标记向量;
[0166]
所述标签编码器包括预训练的bi-lstm模型,表示为:[e1,e2,

,en]=f
in
(s1,s2,

,sn),sk是通过标签查找表g对标签序列进行标签嵌入得来的,ek是bi-lstm的输出,g∈rk×
d2
,k表示源域或目标域中唯一标签的数量,d2是标签嵌入的规格;
[0167]
所述标签预测器包括bi-attention模型,用于将所述输入序列编码器和所述标签预测器的输出结果进行知识融合,以获得所述目标数据的实体命名结果。
[0168]
在本说明书实施例中,将所述目标生成集输入到预先训练完成的命名实体识别模型中,得到针对所述目标数据的实体命名结果,包括:
[0169]
根据目标生成集,确定带有标记的语句序列;
[0170]
将所述带有标记的语句序列作为输入序列通过训练完成的bert模型中进行编码,以获得带有标记的语句序列对应的标记表示向量;
[0171]
基于源域或目标域中之前标记的标签,随机初始化构建标签查找表;
[0172]
基于所述标签查找表和预先训练完成的bi-lstm对之前标记的标签进行特征提取,得到标签表示向量;
[0173]
通过全连接层神经网路将标签表示向量投影到与所述标记表示向量相同的维度;
[0174]
根据投影后的标签表示向量和预设注意力权值计算规则,得到输入序列的标签背景信息;
[0175]
根据所述标签背景信息和所述标记表示向量,结合预设注意力模块,计算得到标签上下文信息;
[0176]
将所述标签背景信息和所述标签上下文信息进行连接处理,得到标签感知信息;
[0177]
将所述标签感知信息和所述标记表示向量进行融合处理,得到针对所述目标数据的实体命名结果。
[0178]
示例性地,如图4所示,为本说明书提供的方法的整体框架图,进一步地,所述命名实体识别模型可以有如下的组成结构:
[0179]
(1)输入序列编码器
[0180]
采用预训练的bert模型,表示为f
in
,对输入序列进行编码:
[0181]
[h1,h2,

,hn]=f
in
(x1,x2,

,xn)
[0182]
其中hi是d1维的向量,目的是获取对应标记的上下文信息。
[0183]
(2)标签编码器
[0184]
为了对标记序列和标签序列之间的关系进行建模,采用一种新的标签编码器来从标签序列中提取上下文信息,该方法同以往方法的区别在于基于常用的当前标记表示和之前的标签中提取的标签信息来预测命名实体标签,需要构建了一个随机初始化的标签查找表g∈rk×
d2
,k表示源域或目标域中唯一标签的数量,d2是标签嵌入的规格,我们采用bi-lstm编码标签序列,表示为:
[0185]
[e1,e2,

,en]=fin(s1,s2,

,sn)
[0186]
其中sk是通过标签查找表g通过对标签yk进行标签嵌入得来的,ek是bi-lstm的输出,它的目的是获取之前标签的上下文信息。
[0187]
(3)标签预测器
[0188]
标签预测器是利用输入序列和上一个标签序列的上下文信息来预测ner标签,为了合并这两种信息,我们引入了一个简单有效的bi-attention模块,具体来说,我们将bi-lstm的最后隐藏状态作为标签的表示序列,将表示序列作为查询向量,而所有输入序列编码器的标记表示则被视为关键因素。
[0189]
在执行矩阵乘积之前,可以个全连接层神经网络将e
i-1
投影到与hi相同的维度:
[0190]e′
i-1
=w2·ei-1
+b2[0191]e′
i-1
与hi一样,都是d1维度的向量,之后用softmax函数计算注意力权值:
[0192][0193]
可以被看作是一个概率分布,并用于计算输入标记表示的加权和:
[0194][0195]
由于标签背景信息是由e
i-1
推导的,它可以表示当前令牌的标签和整个输入序列之间的关系,除此之外,还需获取当前标记xi和先前预测的标签y
1:i-1
之间的关系,这是为了提高xi对先前命名实体标签的敏感性,我们首先将标记表示作为中间状态,并将其映射到一个二维向量中:
[0196][0197]
接下来仍采用一个注意力模块计算标签的上下文信息:
[0198][0199]
其中,表示标记i对e1,e2,

,e
i-1
的权重向量,最后将输入序列上的标签背景信息和通过g体标签获得的上下文信息连接起来,作为最终的标签感知信息zi:
[0200][0201]
为了进一步将与标签相关的知识融合到标签xi中,将hi与相关表述信息zi连接起来,g是最终的序列表示法。
[0202][0203]
实际上,命名实体识别模型还可以包括预训练和微调的过程,模型的预训练和微调可以分为两个阶段,在第一阶段,为了增强对目标域的文本特征提取能力,在域相关语料库上(即源域和目标域)训练输入序列编码器以缩小源域和目标域在背景和文本分布方面的差异,并进一步从目标域获取更有效的特征,学习文本知识和增强特征提取器的效果。更重要的是,对于共享的命名实体标签,可以在访问目标域之前学习有价值的标签嵌入。
[0204]
在第二阶段,对目标域上的模型进行微调,将其采用于dt。利用bi-lstm编码标签序列的预先训练的共享标签嵌入,模型可以进一步学习命名实体标签之间的关系和目标域特定命名实体标签(即,标签只存在于目标领域)以及内在标签依赖信息。这可以进一步帮助模型利用源域的知识来更好地理解目标域中的这些不可见的标签。
[0205]
本说明书实施例可以取得如下有益效果:
[0206]
1.ddpm与ddrm在ode版本上的联用。首先本发明将以随机微分方程(sde)所构建的
去噪扩散概率模型(ddpm)和去噪概率恢复模型(ddrm)分别改写为常微分方程(ode)所构建的模型,生成步骤由原来的几千步变为了几十步,大大提升了扩散模型的效率,解决了基于sde的生成扩散模型生成速度过慢的缺点。
[0207]
由于ddpm只能解决监督学习的问题,所以我们为了解决针对无监督目标域上的命名实体识别,引入了ddrm,ddrm可直接调用ddpm的最优解用来做无监督学习,并保证较高的准确率。
[0208]
2.引入基于人类反馈的强化学习
[0209]
chatgpt的诞生引起了全世界的广泛关注,它背后的原理也引起了业内人士的注意,本发明面向ddpm读取源域数据生成的数据集,使用标注排序序列的方式对数据通过人工标注的方式进行排序,替代了传统的直接给生成文本打分的模式,解决了传统方式中不同标注员打分较难统一的问题。
[0210]
3.利用标签和标记之间的关系
[0211]
传统的ner方法很少关注标签与标记之间的关系,我们采用的框架可表示为一个自回归模型,可以扩展到源域和目标域之间的标签,并且采用了一种新的标签编码器,可以利用标签和标记之间的关系来进行命名实体识别的工作。
[0212]
在上述提供的方法的基础上,本说明书实施例还提供一种基于生成扩散模型的跨域命名实体识别装置,如图5所示,所述装置包括:
[0213]
原始生成集获取模块501,用于通过第一生成扩散模型对源数据进行特征提取,得到原始生成集,所述源数据为标注完成的文本数据;
[0214]
第一目标生成扩散模型确定模块502,用于根据所述原始生成集和预设激励模型,对所述第一生成扩散模型进行微调,得到第一目标生成扩散模型;
[0215]
目标生成集获取模块503,用于通过第二生成扩散模型和所述第一目标生成扩散模型,对目标数据进行特征提取,得到目标生成集,所述第二生成扩散模型和所述第一目标生成扩散模型具有相同的网络构架,所述目标数据和所述源数据属于不同的领域;
[0216]
实体命名结果获得模块504,用于将所述目标生成集输入到预先训练完成的命名实体识别模型中,得到针对所述目标数据的实体命名结果。
[0217]
通过上述装置所取得的有益效果与上述方法所取得的有益效果一致,本说明书实施例不做赘述。
[0218]
本实施例提供一种计算机设备,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种计算机设备行驶面覆盖物识别方法。
[0219]
本领域技术人员可以理解,图6中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0220]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0221]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0222]
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0223]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0224]
还应理解,在本文实施例中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0225]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本文的范围。
[0226]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0227]
在本文所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
[0228]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的
目的。
[0229]
本文中应用了具体实施例对本文的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本文的方法及其核心思想;同时,对于本领域的一般技术人员,依据本文的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本文的限制。

技术特征:
1.一种基于生成扩散模型的跨域命名实体识别方法,其特征在于,所述方法包括:通过第一生成扩散模型对源数据进行特征提取,得到原始生成集,所述源数据为标注完成的文本数据;根据所述原始生成集和预设激励模型,对所述第一生成扩散模型进行微调,得到第一目标生成扩散模型;通过第二生成扩散模型和所述第一目标生成扩散模型,对目标数据进行特征提取,得到目标生成集,所述第二生成扩散模型和所述第一目标生成扩散模型具有相同的网络构架,所述目标数据和所述源数据属于不同的领域;将所述目标生成集输入到预先训练完成的命名实体识别模型中,得到针对所述目标数据的实体命名结果。2.根据权利要求1所述的方法,其特征在于,所述第一生成扩散模型通过如下步骤获得:获取训练集数据;建立具有马尔可夫链结构的初始生成模型;基于所述马尔科夫链结构,在变分自动编码器的潜在空间中对所述训练集数据进行基于常微分方程的扩散处理,获取多个连续扩散变量,其中扩散变量满足如下高斯分布:q
t
为正向边缘分布;n()为高斯分布;x
t
为第t个扩散变量;γ
t
为..;为第t个实向量的平方;i为向量;基于预设得分模型和所述扩散变量,对所述初始生成模型进行训练,直到得收敛后的第一生成扩散模型,其中预设得分模型中的得分函数为:其中,∈为噪声变量。3.根据权利要求2所述的方法,其特征在于,所述第一生成扩散模型中常微分方程的表达形式为:其中,β(t)为高斯分布参数。4.根据权利要求1所述的方法,其特征在于,所述预设激励模型通过如下步骤得到:根据所述原始生成集,确定多个生成语句;通过人工批注的方式,对多个生成语句的质量进行打分标注,得到基于打分标注的语句序列;通过预设激励损失函数和所述语句序列,对初始激励模型进行训练,直到获得训练完成的激励模型,所述预设激励损失函数表示为:成的激励模型,所述预设激励损失函数表示为:使用偏差对训练完成的激励模型进行标准化处理,得到所述预设激励模型。5.根据权利要求1所述的方法,其特征在于,所述根据所述原始生成集和预设激励模型,对所述第一生成扩散模型进行微调,得到第一目标生成扩散模型,包括:将所述原始生成集中生成语句输入到所述预设激励模型中,将得分大于零的语句选入优化生成集;
根据所述优化生成集,通过近端策略优化算法对所述第一生成扩散模型进行微调,得到第一目标生成扩散模型。6.根据权利要求5所述的方法,其特征在于,所述近端策略优化算法对应的损失函数为:其中,其中:e
t
为期望;r
t
(θ)为新旧策略之间的比率;∈为超参;为优势函数的估计;π
θ
为策略;a
t
为动作向量,s
t
状态向量。7.根据权利要求1所述的方法,其特征在于,通过所述第二生成扩散模型和所述第一目标生成扩散模型,对目标数据进行特征提取,得到目标生成集,包括:基于所述第一目标生成扩散模型的网络结构,建立第二生成扩散模型,其中第二生成扩散模型中马尔科夫链具有基于噪声y的联合分布为:x0是扩散模型的最终输出,以噪声y为条件的因式分解变分分布为:将目标数据输入到第二生成扩散模型中,得到目标生成集,其中所述目标生成集包括带有标记的语句序列。8.根据权利要求1所述的方法,其特征在于,所述预先训练完成的命名实体识别模型包括输入序列编码器、标签编码器和标签预测器;所述输入序列编码器包括通过源域数据训练得到的bert模型,表示为:[h1,h2,

,h
n
]=f
in
(x1,x2,

,x
n
),h
i
是d1维的标记向量;所述标签编码器包括预训练的bi-lstm模型,表示为:[e1,e2,

,e
n
]=f
in
(s1,s2,

,s
n
),s
k
是通过标签查找表g对标签序列进行标签嵌入得来的,e
k
是bi-lstm的输出,g∈r
k
×
d2
,k表示源域或目标域中唯一标签的数量,d2是标签嵌入的规格;所述标签预测器包括bi-attention模型,用于将所述输入序列编码器和所述标签预测器的输出结果进行知识融合,以获得所述目标数据的实体命名结果。9.根据权利要求8所述的方法,其特征在于,将所述目标生成集输入到预先训练完成的命名实体识别模型中,得到针对所述目标数据的实体命名结果,包括:根据目标生成集,确定带有标记的语句序列;将所述带有标记的语句序列作为输入序列通过训练完成的bert模型中进行编码,以获得带有标记的语句序列对应的标记表示向量;基于源域或目标域中之前标记的标签,随机初始化构建标签查找表;基于所述标签查找表和预先训练完成的bi-lstm对之前标记的标签进行特征提取,得到标签表示向量;通过全连接层神经网路将标签表示向量投影到与所述标记表示向量相同的维度;根据投影后的标签表示向量和预设注意力权值计算规则,得到输入序列的标签背景信息;根据所述标签背景信息和所述标记表示向量,结合预设注意力模块,计算得到标签上
下文信息;将所述标签背景信息和所述标签上下文信息进行连接处理,得到标签感知信息;将所述标签感知信息和所述标记表示向量进行融合处理,得到针对所述目标数据的实体命名结果。10.一种基于生成扩散模型的跨域命名实体识别装置,其特征在于,所述装置包括:原始生成集获取模块,用于通过第一生成扩散模型对源数据进行特征提取,得到原始生成集,所述源数据为标注完成的文本数据;第一目标生成扩散模型确定模块,用于根据所述原始生成集和预设激励模型,对所述第一生成扩散模型进行微调,得到第一目标生成扩散模型;目标生成集获取模块,用于通过第二生成扩散模型和所述第一目标生成扩散模型,对目标数据进行特征提取,得到目标生成集,所述第二生成扩散模型和所述第一目标生成扩散模型具有相同的网络构架,所述目标数据和所述源数据属于不同的领域;实体命名结果获得模块,用于将所述目标生成集输入到预先训练完成的命名实体识别模型中,得到针对所述目标数据的实体命名结果。

技术总结
本文提供了一种基于生成扩散模型的跨域命名实体识别方法及装置,通过第一生成扩散模型对源数据进行特征提取,得到原始生成集,所述源数据为标注完成的文本数据;根据所述原始生成集和预设激励模型,对所述第一生成扩散模型进行微调,得到第一目标生成扩散模型;通过第二生成扩散模型和所述第一目标生成扩散模型,对目标数据进行特征提取,得到目标生成集,所述第二生成扩散模型和所述第一目标生成扩散模型具有相同的网络构架,所述目标数据和所述源数据属于不同的领域;将所述目标生成集输入到预先训练完成的命名实体识别模型中,得到针对所述目标数据的实体命名结果,本文通过可以快速高效的实现不同域之间的命名实体识别。以快速高效的实现不同域之间的命名实体识别。以快速高效的实现不同域之间的命名实体识别。


技术研发人员:李雄 李刚 杨恩好 崔广 袁庆龙 李婵娟
受保护的技术使用者:中科紫东信息技术(北京)有限公司
技术研发日:2023.04.28
技术公布日:2023/7/27
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐