一种基于不确定度的集成自监督说话人识别方法

未命名 07-12 阅读：125 评论：0

1.本发明属于说话人识别技术领域，具体的说是涉及一种基于不确定度的集成自监督说话人识别方法，属于机器学习在说话人识别领域的应用。

背景技术：

2.说话人识别是根据语音信号中的说话人个性信息来识别说话人身份的一项生物特征识别技术。现有的主流技术往往使用有监督的说话人识别方法，但需要使用大量有标签的语音数据对模型进行训练。在实际应用中，对海量的说话人语音数据进行人工标注的代价是高昂的，常常造成训练数据不足的情况。
3.利用全局通用特征学习到局部特定任务迁移的学习机制，可以大大地降低模型对数据标注的依赖性并有利于提高语音数据的利用率，自监督学习方法可以直接从大规模的无标注数据中学习到数据的底层结构表示，从而有助于提高下游任务的性能和收敛速度，由于现有大多数的自监督模型往往关注学习结果的准确性，而在实际的训练过程中，算法的稳定性和可信度也至关重要。
4.因此，如何设计一个针对少量有标记语音数据的可信稳定自监督说话人识别方法，是当前具有重要价值的问题。

技术实现要素：

5.为了解决说话人识别中的海量无标签数据问题、稳定性问题、可信度问题，本发明提出了一种基于不确定度的集成自监督说话人识别方法，该方法大幅提高说话人识别的性能，提高了识别方法的稳定性和可信性。
6.为了达到上述目的，本发明是通过以下技术方案实现的：
7.本发明是一种基于不确定度的集成自监督说话人识别方法，包括如下步骤：
8.步骤1：采集说话人语音数据，并对所述语音数据进行标注；
9.步骤2：对原始语音数据进行预处理，提取梅尔语谱图，得到语音数据的特征向量，构造说话人识别数据集。具体包括：
10.步骤2-1：将预处理后的语音数据转换为频谱图，经过梅尔滤波器组，得到语音的梅尔语谱图特征；
11.步骤2-2：对于包含n个语音样本的梅尔语谱图集合x＝{x1,x2,...,xn}，根据标签信息，组成样本对(xn,zn)，其中，xn代表第n个语音样本的梅尔语谱图(n＝1,2,...,n)，zn为第n个样本的标签。
12.步骤3：将步骤2中得到的梅尔语谱图特征依次输入到预训练好的若干自监督模型中，本发明的自监督模型为掩蔽自监督模型、对比自监督模型以及自回归预测自监督模型，分别提取各模型最后一层的输出。具体包括：
13.步骤3-1：初始化掩蔽自监督模型、对比自监督模型以及自回归预测自监督模型的网络参数，采用大型无标签公开语音数据集上预训练好的模型参数作为初始化参数。其中，
掩蔽自监督和对比自监督模型都基于多层的transformer模型结构，自回归预测自监督模型结构则是3层的lstm网络结构。
14.步骤3-2：采用不同的损失函数计算模型预测结果和查询样本之间的损失值，其中，对比自监督模型采用infonce损失，如下所示：
[0015][0016]
其中，为了预测语音序列的未来值x
t+k
，与经过模型预测后的语音潜在表示w
t
一起构造概率密度函数fk(x
t+k
,w
t
)，用于保留x
t+k
和w
t
之间的互信息，n表示x＝{x1,x2,...,xn}中的样本个数，该样本集中有一个是来自分布p(x
t+k
|w
t
)的正样本，其余为来自分布p(x
t+k
)的负样本。
[0017]
掩蔽自监督模型和自回归预测自监督模型则采用l1损失函数，如下所示：
[0018][0019]
其中，x
t
(t＝1,2,...,n)为输入序列，y
t
(t＝1,2,...,n)为输出序列。
[0020]
步骤4：关于下游分类任务，将步骤3中各个自监督模型的最后一层输出作为全连接层的输入，并将全连接层的输出经过relu激活函数计算得到各模型下输入语音数据的证据。具体包括：
[0021]
步骤4-1：自监督模型包括l层的神经网络，l层网络的输出分别为[d1,d2,...,d
l
]，提取最后一层网络d
l
的输出。对于k分类问题，全连接层将d
l
的输出映射到k个维度。
[0022]
步骤4-2：将全连接层的输出通过relu激活函数计算后作为证据，relu激活函数如下所示：
[0023]
f(x)＝max(x，0)
[0024]
步骤5：在主观逻辑框架下计算狄利克雷分布参数，进而计算出各个自监督模型输出的置信质量和不确定度。具体包括：
[0025]
步骤5-1：对于k分类问题，主观逻辑根据证据为每个类别标签分配一个置信质量，并为整个框架分配一个不确定度。对于自监督模型q，k+1个质量值都非负且和为1：
[0026][0027]
其中，uq是不确定度，是第k类的置信质量，在自监督模型中，k分类任务下，将其模型输出作为证据，主观逻辑将证据与狄利克雷分布的参数联系起来。证据eq即为对比自监督模型的输出经relu激活函数计算后的决策结果，而狄利克雷分布的参数可由导出，即
[0028]
步骤5-2：计算置信质量和不确定度uq，具体表达如下：
[0029]
[0030]
其中，为狄利克雷强度。上述公式实际上描述了这样一种现象，即观察到的第k类证据越多，样本分类为第k类的概率就越大。相应地，观察到的总证据越少，不确定性就越大。置信分配可以看作是一种主观意见，而对应狄利克雷分布p
cpc
的类概率均值计算公式为
[0031]
步骤6：使用dempster规则将3个自监督模型的输出决策结果进行融合，从而得到每个类的最终概率和总体不确定度，输出最终分类结果。具体包括：
[0032]
步骤6-1：dempster-shafer证据理论允许将来自不同来源的证据组合在一起，得到模型整体的不确定度。这里，需要组合3个不同自监督模型的质量集其中，包含了各个自监督模型的置信质量和不确定度uq。将对比自监督模型，掩蔽自监督模型以及自回归预测自监督模型的证据进行组合，需要组合m
cpc
、m
mpc
以及m
apc
：
[0033][0034]
具体的计算规则为：
[0035][0036][0037]
其中，是三个质量集之间冲突量的度量，是归一化因子。经过上述计算，得到最终分类结果。
[0038]
本发明还提供了一种基于不确定度的集成自监督说话人识别系统，该系统包括：
[0039]
1)语音特征提取模块：对语音数据进行预处理，提取语音的梅尔频谱特征，并对数据集进行标注；
[0040]
2)自监督模型训练模块：采用大量无标签数据对掩蔽自监督模型、对比自监督模型以及自回归预测自监督模型进行预训练，并将语音数据的梅尔语谱图特征结果分别输入三个自监督模型中，提取模型最后一层的输出；
[0041]
3)分类决策模块：将各个自监督模型的最后一层输出作为全连接层的输入，并将全连接层的输出经过relu激活函数计算得到各模型下输入语音数据的证据；
[0042]
4)不确定度估计模块：通过得到的证据以及狄利克雷分布参数，计算出各个自监督模型输出的置信质量和不确定度；
[0043]
5)决策融合模块：使用dempster规则将三个自监督模型的输出决策进行融合，从而得到每个类的最终概率和总体不确定度，输出最终分类结果。
[0044]
本发明的有益效果是：
[0045]
本发明利用自监督模型，能在已经标注训练数据较少、训练数据无标注的情况下学习到与当前说话人识别分类任务相关的有用特征信息，大幅提高说话人识别的性能；同时使用不确定度估计将多个自监督模型的输出决策结果进行集成，提高了算法的稳定性和可信性。
附图说明
[0046]
图1是本发明流程示意图。
[0047]
图2是本发明以对比自监督和掩蔽自监督模型为例的基于不确定度的决策融合框架示意图。
具体实施方式
[0048]
以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。此外，为简化图式起见，一些习知惯用的结构与组件在图式中将以简单的示意的方式绘示之。
[0049]
如图1所示，本发明是一种基于不确定度的集成自监督的说话人识别方法，具体包括如下步骤：
[0050]
步骤1：采集说话人语音数据，并对所述语音数据进行标注；
[0051]
步骤2：对原始语音数据进行预处理，提取梅尔语谱图，得到语音数据的特征向量，构造说话人识别数据集。具体包括：
[0052]
步骤2-1：将预处理后的语音数据转换为频谱图，经过梅尔滤波器组，得到语音的梅尔语谱图特征；
[0053]
步骤2-2：对于包含n个语音样本的梅尔语谱图集合x＝{x1,x2,...,xn}，根据标签信息，组成样本对(xn,zn)，其中，xn代表第n个语音样本的梅尔语谱图(n＝1,2,...,n)，zn为第n个样本的标签。
[0054]
步骤3：将步骤2中得到的梅尔语谱图特征依次输入到预训练好的若干自监督模型中，本发明以掩蔽自监督模型、对比自监督模型以及自回归预测自监督模型为例，分别提取各模型最后一层的输出。具体包括：
[0055]
步骤3-1：初始化掩蔽自监督模型、对比自监督模型以及自回归预测自监督模型的网络参数：自监督模型在librispeech语料库train-clean-100子集上进行了预训练。对于预训练，模型在4个gpu上进行了训练，总批大小为256。本发明使用adam优化器改变学习率，其中学习率总训练步骤的前7％上升温至峰值4e-4，然后线性衰减。其中，掩蔽自监督和对比自监督模型都基于多层的transformer模型结构，自回归预测自监督模型结构则是3层的lstm网络结构。
[0056]
步骤3-2：采用不同的损失函数计算模型预测结果和查询样本之间的损失值，其中，对比自监督模型采用infonce损失，如下所示：
[0057][0058]
其中，为了预测语音序列的未来值x
t+k
，与经过模型预测后的语音潜在表示w
t
一起构造概率密度函数fk(x
t+k
,w
t
)，用于保留x
t+k
和w
t
之间的互信息，n表示x＝{x1,x2,...,xn}中的样本个数，该样本集中有一个是来自分布p(x
t+k
|w
t
)的正样本，其余为来自分布p(x
t+k
)的负样本。
[0059]
掩蔽自监督模型和自回归预测自监督模型则采用l1损失函数，如下所示：
[0060][0061]
其中，x
t
(t＝1,2,...,n)为输入序列，y
t
(t＝1,2,...,n)为输出序列。
[0062]
步骤4：关于下游分类任务，将步骤3中各个自监督模型的最后一层输出作为全连接层的输入，并将全连接层的输出经过relu激活函数计算得到各模型下输入语音数据的证据。具体包括：
[0063]
步骤4-1：自监督模型包括l层的神经网络，l层网络的输出分别为[d1,d2,...,d
l
]，提取最后一层网络d
l
的输出。对于k分类问题，全连接层将d
l
的输出映射到k个维度。
[0064]
步骤4-2：将全连接层的输出通过relu激活函数计算后作为证据，relu激活函数如下所示：
[0065]
f(x)＝max(x，0)
[0066]
步骤5：在主观逻辑框架下计算狄利克雷分布参数，进而计算出各个自监督模型输出的置信质量和不确定度。具体包括：
[0067]
步骤5-1：对于k分类问题，主观逻辑根据证据为每个类别标签分配一个置信质量，并为整个框架分配一个不确定度。例如，对于自监督模型q，k+1个质量值都非负且和为1：
[0068][0069]
其中，uq是不确定度，是第k类的置信质量，在自监督模型中，在k分类任务下，将其模型输出作为证据，主观逻辑将证据与狄利克雷分布的参数联系起来。证据eq即为对比自监督模型的输出经relu激活函数计算后的决策结果，而狄利克雷分布的参数可由导出，即
[0070]
步骤5-2：计算置信质量和不确定度uq，具体表达如下：
[0071][0072]
其中，为狄利克雷强度。上述公式实际上描述了这样一种现象，即观察到的第k类证据越多，样本分类为第k类的概率就越大。相应地，观察到的总证据越少，不确定性就越大。置信分配可以看作是一种主观意见，而对应狄利克雷分布p
cpc
的类概率均值计算公式为
[0073]
步骤6：使用dempster规则将3个自监督模型的输出决策结果进行融合，从而得到每个类的最终概率和总体不确定度，输出最终分类结果。具体包括：
[0074]
步骤6-1：dempster-shafer证据理论允许将来自不同来源的证据组合在一起，得到模型整体的不确定度。这里，需要组合3个不同自监督模型的质量集其中，包含了各个自监督模型的置信质量和不确定度uq。将对比自监督模型，掩蔽自
监督模型以及自回归预测自监督模型的证据进行组合，需要组合m
cpc
、m
mpc
以及m
apc
：
[0075][0076]
具体的计算规则为：
[0077][0078][0079]
其中，是三个质量集之间冲突量的度量，是归一化因子。经过上述计算，得到最终分类结果。
[0080]
以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

技术特征：
1.一种基于不确定度的集成自监督说话人识别方法，其特征在于：所述集成自监督说话人识别方法包括如下步骤：步骤1：采集说话人语音数据，并对所述语音数据进行标注；步骤2：对原始语音数据进行预处理，提取梅尔语谱图，得到语音数据的特征向量，构造说话人识别数据集；步骤3：将步骤2中得到的梅尔语谱图特征依次输入到预训练好的若干自监督模型中，分别提取自监督模型最后一层的输出；步骤4：关于下游分类任务，将步骤3中各个自监督模型的最后一层输出作为全连接层的输入，并将全连接层的输出经过relu激活函数计算得到各模型下输入语音数据分类决策的证据；步骤5：在主观逻辑框架下计算狄利克雷分布参数，进而计算出各个自监督模型输出的置信质量和不确定度；步骤6：用dempster规则将若干自监督模型的输出决策结果进行融合，从而得到每个类的最终概率和总体不确定度，输出最终分类结果。2.根据权利要求1所述的一种基于不确定度的集成自监督说话人识别方法，其特征在于：步骤3中的所述自监督模型为掩蔽自监督模型、对比自监督模型以及自回归预测自监督模型。3.根据权利要求2所述的一种基于不确定度的集成自监督说话人识别方法，其特征在于：所述步骤3具体包括如下步骤：步骤3-1：初始化掩蔽自监督模型、对比自监督模型以及自回归预测自监督模型的网络参数，采用大型无标签公开语音数据集上预训练好的模型参数作为初始化参数，其中，掩蔽自监督和对比自监督模型都是基于多层的transformer模型结构，自回归预测自监督模型结构是3层的lstm网络结构；步骤3-2：采用不同的损失函数计算掩蔽自监督模型、对比自监督模型以及自回归预测自监督模型的预测结果和查询样本之间的损失值，其中，对比自监督模型采用infonce损失，如下所示：其中，为了预测语音序列的未来值x
t+k
，与经过模型预测后的语音潜在表示w
t
一起构造概率密度函数f
k
(x
t+k
,w
t
)，用于保留x
t+k
和w
t
之间的互信息，n表示x＝{x1,x2,...,x
n
}中的样本个数，该样本集中有一个是来自分布p(x
t+k
|w
t
)的正样本，其余为来自分布p(x
t+k
)的负样本；掩蔽自监督模型和自回归预测自监督模型采用l1损失函数，如下所示：其中，x
t
(t＝1,2,...,n)为输入序列，y
t
(t＝1,2,...,n)为输出序列。4.根据权利要求3所述的一种基于不确定度的集成自监督说话人识别方法，其特征在
于：步骤5具体包括如下步骤：步骤5-1：对于k分类问题，主观逻辑根据证据为每个类别标签分配一个置信质量，并为整个框架分配一个不确定度，对于自监督模型q，k+1个质量值都非负且和为1：其中，u
q
是不确定度，是第k类的置信质量，在自监督模型中，在k分类任务下，将其模型输出作为证据，主观逻辑将证据与狄利克雷分布的参数联系起来，证据e
q
即为对比自监督模型的输出经relu激活函数计算后的决策结果，而狄利克雷分布的参数可由导出，即步骤5-2：计算置信质量和不确定度u
q
，表示为：其中，为狄利克雷强度，通过上述公式可知：观察到的第k类证据越多，样本分类为第k类的概率就越大，相应地，观察到的总证据越少，不确定性就越大，置信分配看作是一种主观意见，而对应狄利克雷分布p
cpc
的类概率均值计算公式为5.根据权利要求3所述的一种基于不确定度的集成自监督说话人识别方法，其特征在于：步骤6使用dempster规则将3个自监督模型的输出决策结果进行融合，从而得到每个类的最终概率和总体不确定度，输出最终分类结果，具体包括如下步骤：步骤6-1：dempster-shafer证据理论允许将来自不同来源的证据组合在一起，得到模型整体的不确定度，组合3个不同自监督模型的质量集其中，包含了各个自监督模型的置信质量和不确定度u
q
，在对比自监督模型和掩蔽自监督模型的语音数据中，组合m
cpc
和m
mpc
：具体公式为：具体公式为：其中，是两个质量集之间冲突量的度量，是归一化因子。经过上述计算，得到最终分类结果。6.根据权利要求1所述的一种基于不确定度的集成自监督说话人识别方法，其特征在于：步骤4具体包括如下步骤：步骤4-1：自监督模型包括l层的神经网络，l层网络的输出分别为[d1,d2,...,d
l
]，提取
最后一层网络d
l
的输出，对于k分类问题，全连接层将d
l
的输出映射到k个维度；步骤4-2：将全连接层的输出通过relu激活函数计算后作为证据，relu激活函数如下所示：f(x)＝max(x，0)。7.根据权利要求1所述的一种基于不确定度的集成自监督说话人识别方法，其特征在于：所述步骤2中对原始语音数据进行预处理，提取梅尔语谱图，得到语音数据的特征向量，构造说话人识别数据集，具体包括如下步骤：步骤2-1：将预处理后的语音数据转换为频谱图，经过梅尔滤波器组，得到语音的梅尔语谱图特征；步骤2-2：对于包含n个语音样本的梅尔语谱图集合x＝{x1,x2,...,x
n
}，根据标签信息，组成样本对(x
n
,z
n
)，其中，x
n
代表第n个语音样本的梅尔语谱图(n＝1,2,...,n)，z
n
为第n个样本的标签。8.根据权利要求1-7任一项所述的一种基于不确定度的集成自监督说话人识别方法，其特征在于：所述集成自监督说话人识别方法通过集成自监督说话人识别系统完成，该集成自监督说话人识别系统包括：语音特征提取模块：对语音数据进行预处理，提取语音的梅尔频谱特征，并对数据集进行标注；自监督模型训练模块：采用大量无标签数据对掩蔽自监督模型、对比自监督模型以及自回归预测自监督模型进行预训练，并将语音数据的梅尔语谱图特征结果分别输入三个自监督模型中，提取模型最后一层的输出；分类决策模块：将各个自监督模型的最后一层输出作为全连接层的输入，并将全连接层的输出经过relu激活函数计算得到各模型下输入语音数据的证据；不确定度估计模块：通过得到的证据以及狄利克雷分布参数，计算出各个自监督模型输出的置信质量和不确定度；决策融合模块：使用dempster规则将三个自监督模型的输出决策进行融合，从而得到每个类的最终概率和总体不确定度，输出最终分类结果。

技术总结
本发明属于说话人识别技术领域，公开了一种基于不确定度的集成自监督的语音学习方法，应用于说话人识别学习任务，本发明采用大量无标签数据对掩蔽自监督模型、对比自监督模型以及自回归预测自监督模型进行预训练，并将语音数据的梅尔语谱图特征结果分别输入三个自监督模型中，提取模型最后一层的输出，将其作为全连接层的输入，并将全连接层的输出经过ReLU激活函数计算得到各模型下输入语音数据的证据，通过得到的证据以及狄利克雷分布参数，计算出各个自监督模型输出的置信质量和不确定度，使用Dempster规则将三个自监督模型输出的分类决策质量集进行融合，从而得到每个类的最终概率和总体不确定度，输出最终分类结果。输出最终分类结果。输出最终分类结果。

技术研发人员：季薇杨茗淇李云
受保护的技术使用者：南京邮电大学
技术研发日：2023.04.28
技术公布日：2023/7/7

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：模切不良品剔除装置以及对应的剔除方法与流程 下一篇：记录宠物如厕的方法及如厕装置与流程

一种基于不确定度的集成自监督说话人识别方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于不确定度的集成自监督说话人识别方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表