说话对象的识别方法及装置、电子设备和存储介质与流程

未命名 07-12 阅读：187 评论：0

1.本公开涉及但不限于人工智能领域，尤其涉及一种说话对象的识别方法及装置、电子设备和存储介质。

背景技术：

2.说话对象识别(speaker recognition，sr)又称之为声纹识别，是生物识别技术的一种。sr就是将声信号转换为电信号，再用计算机进行识别，得到当前说话对象的身份。根据任务的不同，说话对象识别又可以分为说话对象辨认(speaker identification)、说话对象确认(speaker verification)、说话对象追踪等，被广泛应用于会议、智能家居、车载等应用领域中。
3.相关技术中，在对说话对象进行识别的过程中，通常都是需要说话对象先进行注册，然后再利用注册信息实现对说话对象进行识别，存在使用要求高、使用场景有限等问题，或者通过对说话对象转换点进行检测等方式对语音信号进行切分后再进行识别，存在识别效果不佳、识别效率不高等问题。

技术实现要素：

4.本公开实施例提供一种说话对象的识别方法及装置、电子设备、存储介质和计算机程序产品。
5.本公开实施例的技术方案是这样实现的：
6.本公开实施例提供一种说话对象的识别方法，该方法包括：
7.确定包含音频的第一多模态数据中每一模态信息对应的特征信息；其中，所述第一多模态数据中具有至少两种模态信息；
8.基于每一所述模态信息对应的特征信息，确定融合特征信息；
9.利用所述融合特征信息，对所述第一多模态数据中的说话对象进行识别，得到第一识别结果。
10.本公开实施例提供一种说话对象的识别装置，所述装置包括：
11.第一确定模块，用于确定包含音频的第一多模态数据中每一模态信息对应的特征信息；其中，所述第一多模态数据中具有至少两种模态信息；
12.第二确定模块，用于基于每一所述模态信息对应的特征信息，确定融合特征信息；
13.识别模块，用于利用所述融合特征信息，对所述第一多模态数据中的说话对象进行识别，得到第一识别结果。
14.本公开实施例提供一种电子设备，包括处理器和存储器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法。
15.本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法。
16.本公开实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机
程序的非瞬时性计算机可读存储介质，所述计算机程序被计算机读取并执行时，实现上述方法。
17.本公开实施例中，通过确定包含音频的第一多模态数据中每一模态信息对应的特征信息；其中，所述第一多模态数据中具有至少两种模态信息；基于每一所述模态信息对应的特征信息，确定融合特征信息；利用所述融合特征信息，对所述第一多模态数据中的说话对象进行识别，得到第一识别结果。这样，通过第一多模态数据中每一模态信息对应的特征向量，得到第一多模态数据的识别结果，一方面，不需要说话对象提前进行注册，便可以得到说话对象的识别结果，在降低使用要求的同时还拓宽了使用场景，从而可以提升用户的使用体验；另一方面，利用多种模态信息的特征信息来对说话对象进行识别，可以提高说话对象识别的准确率，尤其是与仅利用单一模态信息的特征信息来对说话对象进行识别相比，从而可以降低因单一切分方式等因素导致识别错误的可能性，进而可以提高识别的效率。
18.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。
附图说明
19.此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。
20.图1为本公开实施例提供的一种说话对象的识别方法的实现流程示意图；
21.图2为本公开实施例提供的一种说话对象的识别方法的实现流程示意图；
22.图3a为本公开实施例提供的一种说话对象的识别方法的实现流程示意图；
23.图3b为本公开实施例提供的一种单说话对象的ts-vad模型的结构示意图；
24.图3c为本公开实施例提供的一种多说话对象的ts-vad模型的组成结构示意图；
25.图4为本公开实施例提供的一种说话对象的识别方法的实现流程示意图；
26.图5为本公开实施例提供的一种说话对象的识别方法的实现流程示意图；
27.图6a为本公开实施例提供的一种对多模态数据进行预处理的方法的实现流程示意图；
28.图6b为本公开实施例提供的一种说话对象的识别方法的实现流程示意图；
29.图6c为本公开实施例提供的一种说话对象的识别方法的实现流程示意图；
30.图7为本公开实施例提供的一种说话对象的识别装置的组成结构示意图；
31.图8为本公开实施例中电子设备的一种硬件实体示意图。
具体实施方式
32.为了使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开作进一步地详细描述，所描述的实施例不应视为对本公开的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。
33.在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。
34.在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本公开实施例能够以除了在这里图示或描述的以外的顺序实施。
35.除非另有定义，本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本公开实施例的目的，不是旨在限制本公开。
36.本公开实施例提供一种说话对象的识别方法，通过第一多模态数据中每一模态信息对应的特征向量，得到第一多模态数据的识别结果，一方面，不需要说话对象提前进行注册，便可以得到说话对象的识别结果，在降低使用要求的同时还拓宽了使用场景，从而可以提升用户的使用体验；另一方面，利用多种模态信息的特征信息来对说话对象进行识别，可以提高说话对象识别的准确率，尤其是与仅利用单一模态信息的特征信息来对说话对象进行识别相比，从而可以降低因单一切分方式等因素导致识别错误的可能性，进而可以提高识别的效率。本公开实施例提供的说话对象的识别方法可以由电子设备执行，电子设备可以为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的终端，也可以实施为服务器。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
37.下面，将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。
38.图1为本公开实施例提供的一种说话对象的识别方法的实现流程示意图，如图1所示，所述方法包括步骤s11至步骤s13，其中：
39.步骤s11、确定包含音频的第一多模态数据中每一模态信息对应的特征信息。
40.这里，第一多模态数据可以是任意合适应用场景中的数据。例如，节目、短视频、会议、车载、智能家居等。在实施时，本领域技术人员可以根据实际需求自主选择第一多模态数据的场景，本公开实施例不作限定。
41.在一些实施方式中，第一多模态数据的获取方式可以根据实际应用场景确定。
42.例如，可以通过数据采集设备采集的第一多模态数据。其中，数据采集设备可以是任意合适的能够进行数据采集的设备，比如，摄像设备等。在实施时，该数据采集设备与电子设备可以是一体化的、也可以是可拆卸的。
43.又例如，可以接收其它电子设备发送的第一多模态数据。
44.还例如，对采集的多模态数据进行预处理，得到该第一多模态数据。其中，预处理可以包括但不限于去噪、尺寸调整、均衡化处理、颜色变换、音画同步、音频截取等。尺寸调整可以包括但不限于尺寸缩放、尺寸截取等。颜色转换可以包括但不限于颜色空间转换、灰度化等。音频截取用于从多模态数据中获取仅包括音频的多模态数据的部分。
45.再例如，第一多模态数据可以是用户通过电子设备的输入组件在操作界面上传的或设定的。其中，输入组件可以包括但不限于键盘、鼠标、触控屏、触控板、音频输入器等。该
操作界面包括用于对第一多模态数据进行配置操作及信息展示的交互界面。该操作界面可以显示在任意合适的具有界面交互功能的电子设备上。在实施时，显示操作界面的电子设备与执行该说话对象的识别方法的设备可以是相同的，也可以是不同的，这里并不限定。例如，执行该说话对象的识别方法的电子设备可以为笔记本电脑，显示操作界面的电子设备也可以为该笔记本电脑，操作界面可以为该笔记本电脑上运行的客户端的交互界面，也可以是该笔记本电脑上运行的浏览器中显示的网页。又如，执行该说话对象的识别方法的电子设备可以为服务器，显示操作界面的电子设备可以为笔记本电脑，操作界面可以为该笔记本电脑上运行的客户端的交互界面，也可以是该笔记本电脑上运行的浏览器中显示的网页，该笔记本电脑可以通过该客户端或者浏览器访问该服务器。
46.在实施时，本领域技术人员可以根据实际需求确定获取第一多模态数据的方式，本公开实施例并不限定。
47.第一多模态数据中的模态信息可以包括但不限于音频信息、视频信息、音频采集设备信息、文字信息等中的至少两个。其中，音频采集设备可以是任意合适的能够采集音频的设备。例如，麦克风等。在实施时，本领域技术人员可以根据实际需求自主确定音频采集设备的实现方式，本公开实施例不作限定。
48.在不同的模态信息下，该第一多模态数据对应的特征信息不同。其中，特征信息可以包括但不限于特征向量、相似度矩阵等。相似度矩阵中包括至少一个元素，每一元素表征两个多模态片段对应的特征向量之间的相似度，每一多模态片段均是从第一多模态数据中得到的。在实施时，不同的模态信息对应不同的相似度矩阵。
49.例如，在音频信息下，该第一多模态数据对应的特征信息可以为声纹特征向量、或声纹特征相似度矩阵，其中，声纹特征相似度矩阵中的每一元素表征两个多模态片段对应的声纹特征向量之间的相似度。又例如，在视频信息下，第一多模态数据对应的特征信息可以为人脸特征向量、或人脸特征相似度矩阵其中，人脸特征相似度矩阵中的每一元素表征两个多模态片段对应的人脸特征向量之间的相似度。还例如，在音频采集设备信息下，该第一多模态数据对应的特征信息可以为声波到达方向(direction of arrival，doa)特征向量、或声波到达方向特征相似度矩阵，其中，声波到达方向特征相似度矩阵中的每一元素表征两个多模态片段对应的声波到达方向特征向量之间的相似度。
50.确定特征向量的方式可以是任意合适的能够得到特征向量的方式。例如，特征提取器、神经网络模型等。比如，循环神经网络(recurrent neural network，rnn)、卷积神经网络(convolutional neural network，cnn)、基于转换器(transform)的特征提取网络等。在实施时，本领域技术人员可以根据实际情况选择确定特征向量的方式，本公开实施例不作限定。
51.相似度的计算方式可以是任意合适的计算方式。例如，余弦距离、内积、欧式距离、曼哈顿距离、皮尔逊相关系数等。在实施时，本领域技术人员可以根据实际需求自主选择相似度的计算方式，本公开实施例不作限定。
52.在一些实施方式中，不同的模态信息可以采用相同或不同的计算方式来计算相似度。例如，对于音频信息和视频信息，可以均采用余弦距离来计算两个声纹特征向量(对应于前述在音频信息下的特征向量)之间的相似度、两个人脸特征向量(对应于前述在视频信息下的特征向量)之间的相似度。又例如，对于音频信息，可以采用余弦距离来计算两个声
纹特征向量之间的相似度；对于音频采集设备信息，可以采用内积来计算两个声波到达方向特征向量(对应于前述在音频采集设备信息下的特征向量)之间的相似度。在实施时，本领域技术人员可以根据实际需求自主确定每一模态信息下计算相似度的方式，本公开实施例不作限定。
53.步骤s12、基于每一所述模态信息对应的特征信息，确定融合特征信息。
54.这里，可以按照预设的融合方式，将至少两个目标模态信息对应的特征信息进行融合，得到融合特征信息。其中，融合方式可以是任意合适的能够进行融合的方式，例如，拼接融合、叠加、加权融合等。
55.目标模态信息可以是基于预设规则，从音频信息、视频信息、音频采集设备信息、文本信息等中确定的。其中，预设规则可以包括但不限于自定义、随机、使用频率等。例如，在模态信息包括音频信息、视频信息和音频采集设备信息的情况下，将音频信息、视频信息和音频采集设备信息均作为目标模态信息。又例如，在模态信息包括音频信息、视频信息和文本信息的情况下，将使用频率较高的音频信息和视频信息分别作为一个目标模态信息。
56.在一些实施方式中，所述步骤s12包括步骤s121至步骤s122，其中：
57.步骤s121、基于场景信息，确定每一所述模态信息的第一权重值。
58.这里，场景信息表征当前应用场景。每一模态信息的第一权重值之和为1。
59.在一些实施方式中，该应用场景可以包括但不限于会议、车载、智能家居等。在实施时，对于同一模态信息，在不同的应用场景中，其对应的第一权重值可以相同，也可以不同。
60.在一些实施方式中，该应用场景可以按照模态信息的数量或模态信息的类型进行划分。例如，第一应用场景可以为音频信息和视频信息，第二应用场景可以为音频信息和音频采集设备信息，第三应用场景可以为音频信息、视频信息和音频采集设备信息。在实施时，本领域技术人员可以根据需求划分更多或更少的应用场景，本公开实施例不作限定。
61.步骤s122、将每一所述模态信息对应的特征信息及每一所述模态信息对应的第一权重值进行融合，得到所述融合特征信息。
62.这里，融合特征信息可以包括但不限于融合特征向量、多模态相似度矩阵等。确定融合特征信息的方式可以包括但不限于某一目标模态信息对应的特征向量与对应的第一权重值之间的乘积、多个目标模态信息对应的特征信息与对应的第一权重值之间的乘积的和、对多个目标模态信息对应的特征信息与对应的第一权重值之间的乘积的和进行加权等，其中，目标模态信息可以是上述任意一种模态信息。在实施时，本领域技术人员可以根据实际需求自主选择确定融合特征信息的方式，本公开实施例不作限定。
63.例如，在第一多模态数据中的模态信息包括音频信息和视频信息的情况下，将音频信息对应的相似度矩阵ma与对应的第一权重值αa的乘积、及视频信息对应的相似度矩阵mv与对应的第一权重值αv的乘积的和，作为该多模态相似度矩阵m，并将该多模态相似度矩阵m作为融合特征信息。
64.在一些实施方式中，可以通过下述公式(1-1)来确定多模态相似度矩阵m：
65.m＝αama+α
vmv
+αmmm+α
tmt
ꢀꢀꢀꢀꢀ
(1-1)；
66.其中，αa为音频信息的第一权重值，ma为音频信息对应的相似度矩阵，αv为视频信息的第一权重值，mv为视频信息对应的相似度矩阵，αm为音频采集设备信息的第一权重值，mm
为音频采集设备信息对应的相似度矩阵，α
t
为文本信息的第一权重值，m
t
为文本信息对应的相似度矩阵，αa、αv、αm及α
t
之和为1。
67.步骤s13、利用所述融合特征信息，对所述第一多模态数据中的说话对象进行识别，得到第一识别结果。
68.这里，第一识别结果表征第一多模态数据中是否存在说话对象。其中，说话对象可以是任意能够发出声音的对象。例如，人、机器、动物等。在实施时，在第一多模态数据中存在至少一个说话对象的情况下，该第一识别结果中包括属于每一说话对象的至少一个多模态片段。其中，每一多模态片段均是从第一多模态数据中确定的。
69.在一些实施方式中，所述融合特征信息中包括多模态相似度矩阵，所述步骤s13包括步骤s131至步骤s132，其中：
70.步骤s131、利用预设的聚类算法对所述多模态相似度矩阵进行聚类，得到聚类结果。
71.这里，聚类算法可以是任意合适的能够进行聚类的方法。例如，层次聚类(agglomerative hierarchical clustering)、谱聚类等。在实施时，本领域技术人员可以根据实际需求自主选择聚类算法，本公开实施例不作限定。
72.聚类结果中包括至少一个聚类簇，一个聚类簇中包括至少一个节点，该节点表征一个多模态片段。同一个聚类簇中的每一节点表征属于同一说话对象的一个多模态片段。
73.步骤s132、基于所述聚类结果，确定所述第一识别结果。
74.这里，将聚类结果作为该第一识别结果。例如，该聚类结果包括5个聚类簇，那么该第一识别结果表征第一多模态数据中存在5个说话对象。
75.在本公开实施例中，通过第一多模态数据中每一模态信息对应的特征向量，得到第一多模态数据的识别结果，一方面，不需要说话对象提前进行注册，便可以得到说话对象的识别结果，在降低使用要求的同时还拓宽了使用场景，从而可以提升用户的使用体验；另一方面，利用多种模态信息的特征信息来对说话对象进行识别，可以提高说话对象识别的准确率，尤其是与仅利用单一模态信息的特征信息来对说话对象进行识别相比，从而可以降低因单一切分方式等因素导致识别错误的可能性，进而可以提高识别的效率。
76.图2为本公开实施例提供的一种说话对象的识别方法的实现流程示意图，如图2所示，所述方法包括步骤s21至步骤s25，其中：
77.步骤s21、确定包含音频的第一多模态数据中所包括的至少两个多模态片段，其中，每一所述多模态片段中包含至少两种模态信息。
78.这里，每一多模态片段中的模态信息可以包括但不限于音频信息、视频信息、音频采集设备信息、文字信息等中的至少一个。在实施时，多模态片段中的模态信息与第一多模态数据中的模态信息相同。
79.在一些实施方式中，基于预设的切分规则，将第一多模态数据切分为至少两个多模态片段。其中，切分规则可以包括但不限于切分起点、切分步长、切分时长、切分方式等。切分方式可以包括但不限于随机切分、高斯分布切分、等间隔切分、等帧数切分、等时长切分等。在实施时，本领域技术人员可以根据实际需求确定切分规则，本公开实施例不作限定。例如，将第一多模态数据切分为长度为ts的至少两个多模态片段。又例如，将第一多模态数据按照每帧语音长度为25ms(millisecond，毫秒)、两帧之间的间隔为10ms进行切分，
得到至少两个多模态片段，即：第一个多模态片段为1～25ms，第二个多模态片段为10～35ms、第三个模态片段为20～45ms
……
。
80.在一些实施方式中，可以根据预设方式来设定切分规则。其中，预设方式可以包括但不限于电子设备的默认采样配置、用户自定义、用户喜好、使用频率、用户操作信息、应用场景等。在实施时，本领域技术人员可以根据实际需求自主设定预设方式，本公开不作限定。例如，电子设备提供配置选项，通过该配置选项，用户可以自定义设置切分规则。又例如，电子设备根据应用场景来设定切分规则，比如，会议场景中按照等时长切分、智能家居中按照等帧数进行切分。还例如，根据用户手势实时确定切分规则。比如，不同的手势对应不同的切分规则，即：在用户输入第一手势“o”的情况下，切分规则可以为按照等帧数切分；在用户输入第二手势“v”的情况下，切分规则可以为等间隔切分。又比如，不同的操作步长对应不同的切分规则，即：在用户输入的滑动操作的滑动距离属于第一长度范围的情况下，切分规则可以为按照等时长切分；在用户输入的滑动操作的滑动距离属于第二长度范围的情况下，切分规则可以为按照等帧数切分，其中，第一长度范围与第二长度范围不相同。在实施时，本领域技术人员可以根据实际需求自主设定操作手势和切分规则之间的对应关系，本公开实施例不作限定。
81.步骤s22、针对每一多模态片段，确定所述多模态片段中每一所述模态信息对应的第一特征向量。
82.这里，在不同的模态信息下，该多模态片段对应的第一特征向量不同。例如，在音频信息下，该多模态片段的第一特征向量可以为声纹特征向量。又例如，在视频信息下，该多模态片段的第一特征向量可以为人脸特征向量。还例如，在音频采集设备信息下，该多模态片段的第一特征向量可以为doa特征向量。
83.确定第一特征向量的方式可以是任意合适的能够得到特征向量的方式。例如，特征提取器、神经网络模型等。比如，rnn、cnn、基于transform的特征提取网络等。在实施时，本领域技术人员可以根据实际情况选择确定第一特征向量的方式，本公开实施例不作限定。
84.步骤s23、针对每一模态信息，基于所述至少两个多模态片段中所述模态信息对应的第一特征向量，确定所述模态信息对应的相似度矩阵，将所述相似度矩阵作为所述模态信息对应的特征信息。
85.这里，相似度矩阵中包括至少一个元素，每一元素表征两个多模态片段对应的第一特征向量之间的相似度。在一些实施方式中，相似度的计算方式可以是任意合适的计算方式。例如，余弦距离、内积、欧式距离、曼哈顿距离、皮尔逊相关系数等。
86.在一些实施方式中，不同的模态信息可以采用相同或不同的计算方式来计算相似度。例如，对于音频信息和视频信息，可以均采用余弦距离来计算两个声纹特征向量之间的相似度、两个人脸特征向量之间的相似度。又例如，对于音频信息，可以采用余弦距离来计算两个声纹特征向量之间的相似度；对于音频采集设备信息，可以采用内积来计算两个声波到达方向特征向量之间的相似度。在实施时，本领域技术人员可以根据实际需求自主确定每一模态信息下计算相似度的方式，本公开实施例不作限定。
87.在一些实施方式中，所述步骤s23中的“基于所述至少两个多模态片段中所述模态信息对应的第一特征向量，确定所述模态信息对应的相似度矩阵”，包括步骤s231至步骤
s232，其中：
88.步骤s231、分别确定第i个多模态片段中所述模态信息对应的第一特征向量与第j个多模态片段中所述模态信息对应的第一特征向量之间的第一相似度。
89.这里，i和j均为不大于m的正整数，m为多模态片段的数量。第一相似度的计算方式可以是任意合适的能够计算相似度的方式。例如，余弦距离、内积、欧式距离、曼哈顿距离、皮尔逊相关系数等。在实施时，本领域技术人员可以根据实际需求自主选择第一相似度的计算方式，本公开实施例不作限定。例如，通过余弦距离计算两个第一特征向量之间的第一相似度。又例如，通过内积计算两个第一特征向量之间的第一相似度。
90.在一些实施方式中，可以通过下述公式(2-1)来计算第一相似度si，其中：
[0091][0092]
其中，yi为第i个多模态片段中某一模态信息对应的第一特征向量，yj为第j个多模态片段中某一模态信息对应的第一特征向量，i与j均为不大于m的正整数。
[0093]
步骤s232、基于每一所述第一相似度，确定所述模态信息对应的相似度矩阵。
[0094]
这里，可以将每一第一相似度分别作为相似度矩阵的一个元素。在实施时，该相似度矩阵的大小为m*m，其中，m为多模态片段的数量。
[0095]
步骤s24、基于每一所述模态信息对应的特征信息，确定融合特征信息。
[0096]
步骤s25、利用所述融合特征信息，对所述第一多模态数据中的说话对象进行识别，得到第一识别结果。
[0097]
这里，上述步骤s24至步骤s25分别对应于前述步骤s12至步骤s13，在实施时可以参照前述步骤s12至步骤s13的实施方式。
[0098]
在本公开实施例中，通过每一多模态片段在每一模态信息下的特征向量，得到第一多模态数据的识别结果，一方面，不需要说话对象提前进行注册，便可以得到说话对象的识别结果，可以降低使用要求，从而可以提升用户的使用体验；另一方面，利用多种模态信息的特征信息来对说话对象进行识别，可以提高说话对象识别的准确率，尤其是与仅利用单一模态信息的特征信息来对说话对象进行识别相比，从而可以降低因单一切分方式等因素导致识别错误的可能性，进而可以提高识别的效率。
[0099]
在一些实施方式中，每一所述多模态片段中的模态信息包括以下至少之一：音频信息、视频信息、音频采集设备信息；所述步骤s22中的“确定所述多模态片段中每一所述模态信息对应的第一特征向量”，包括步骤s221至步骤s223中的至少之一，其中：
[0100]
步骤s221、在所述多模态片段中的模态信息包括所述音频信息的情况下，利用所述音频信息对应的特征提取器，对所述多模态片段进行特征提取，得到所述多模态片段中所述音频信息对应的第一特征向量。
[0101]
这里，该特征提取器可以任意合适的能够进行特征提取的特征提取器。例如，声纹特征提取器、声纹提取模型等。在实施时，本领域技术人员可以根据实际需求自主选择该特征提取器，本公开实施例不作限定。
[0102]
在一些实施方式中，可以收集大量说话对象的语音数据作为训练样本集，利用训练样本集对声纹特征提取器进行训练，得到训练后的声纹特征提取器。其中，声纹特征提取器可以是任意合适的神经网络结构。例如，resnet34等。在实施时，本领域技术人员可以根
据实际需求自主选择声纹特征提取器的网络结构，本公开实施例不作限定。
[0103]
在训练的过程中，通过声纹特征提取器中的分类层，将语音特征分类到正确的说话对象。在训练完成后，将去掉分类层后的声纹特征提取器作为该已训练的声纹特征提取器，即：利用该已训练的声纹特征提取器，对多模态片段进行特征提取，得到声纹特征向量。在实施时，该声纹特征向量可以是一个128、256、或512等维度的向量。对于同一个说话对象的不同语音提取的声纹特征向量之间的相似度较大，对于不同说话人的语音提取的声纹特征向量之间的相似度较小。
[0104]
第一特征向量可以包括但不限于声纹特征向量、对声纹特征向量进行加权等。
[0105]
步骤s222、在所述多模态片段中的模态信息包括所述视频信息的情况下，对所述多模态片段进行同步识别处理，从至少一个第一说话对象中确定目标第一说话对象；利用所述视频信息对应的特征提取器，对所述目标第一说话对象进行特征提取，得到所述多模态片段中所述视频信息对应的第一特征向量。
[0106]
这里，同步识别处理的方式可以是任意合适的能够进行同步识别处理的方式。例如，音画同步模型、同步识别算法等。其中，音画同步是指一段视频中人物正在说的内容，与音频能够完全对应，且在时间上没有偏移。在实施时，本领域技术人员可以根据实际需求自主选择同步识别处理的方式，本公开实施例不作限定。
[0107]
该特征提取器可以是任意合适的能够进行特征提取的特征提取器。例如，人脸特征提取器、人脸检测及识别模型等。在实施时，本领域技术人员可以根据实际需求自主选择该特征提取器，本公开实施例不作限定。
[0108]
在一些实施方式中，可以收集大量说话对象的人脸数据作为训练样本集，利用训练样本集对人脸特征提取器进行训练，得到训练后的人脸特征提取器。其中，人脸特征提取器可以是任意合适的神经网络结构。例如，resnet34等。在实施时，本领域技术人员可以根据实际需求自主选择人脸特征提取器的网络结构，本公开实施例不作限定。
[0109]
在训练的过程中，通过人脸特征提取器中的分类层，将人脸特征分类到正确的说话对象。在训练完成后，将去掉分类层后的人脸特征提取器作为该已训练的人脸特征提取器，即：利用该已训练的人脸特征提取器，对多模态片段进行特征提取，得到人脸特征向量。在实施时，该人脸特征向量可以是一个128、256、或512等维度的向量。
[0110]
第一特征向量可以包括但不限于人脸特征向量、对人脸特征向量进行加权等。
[0111]
在一些实施方式中，所述步骤s222中的“对所述多模态片段进行同步识别处理，从至少一个第一说话对象中确定目标第一说话对象”，包括步骤s2221至步骤s2222，其中：
[0112]
步骤s2221、利用音画同步模型，对所述多模态片段进行所述同步识别处理，得到每一所述第一说话对象的第一音画同步概率。
[0113]
这里，音画同步模型的输入为音视频片段，输出为该音视频片段同步的概率。通过对音视频片段中的音频片段对应的音频内容、及对音视频片段中经过人脸检测且保留人脸部分的视频片段对应的人脸、唇形动作进行分析，得到该音频片段和视频片段音画同步的概率。
[0114]
在一些实施方式中，可以收集大量说话对象的音视频数据作为训练样本集，利用训练样本集对音画同步模型进行训练，得到训练后的音画同步模型。在实施时，该音画同步模型可以是任意合适的神经网络结构。例如，syncnet等。在实施时，本领域技术人员可以根
据实际需求自主选择音画同步模型的网络结构，本公开实施例不作限定。在训练的过程中，输入同时长的音频片段和视频片段，得到该音频片段和视频片段同步的概率。
[0115]
步骤s2222、基于每一所述第一说话对象的第一音画同步概率，从每一所述第一说话对象中确定所述目标第一说话对象。
[0116]
这里，确定目标第一说话对象的方式可以包括但不限于第一音画同步概率最高、第一音画同步概率接近于预设值等。在实施时，本领域技术人员可以根据实际需求自主选择确定目标第一说话对象的方式，本公开实施例不作限定。
[0117]
步骤s223、在所述多模态片段中的模态信息包括所述音频采集设备信息的情况下，利用所述音频采集设备信息对应的特征提取器，对所述多模态片段进行特征提取，得到所述多模态片段中所述音频采集设备信息对应的第一特征向量。
[0118]
这里，该特征提取器可以任意合适的能够进行特征提取的特征提取器。例如，声波到达方向估计模型、声波特征提取模型等。在实施时，本领域技术人员可以根据实际需求自主选择该特征提取器，本公开实施例不作限定。
[0119]
在一些实施方式中，可以收集大量的语音采集设备的多通道数据作为训练样本集，利用训练样本集对声波到达方向估计模型进行训练，得到训练后的声波到达方向估计模型。其中，多通道数据是利用仿真工具对音频采集设备的相关参数进行仿真得到的，音频采集设备的相关参数可以包括但不限于多个音频采集设备的间距、排列方式等，在实施时，可以根据相关的硬件配置信息得到音频采集设备的相关参数。声波到达方向估计模型可以是任意合适的神经网络结构。在实施时，本领域技术人员可以根据实际需求自主选择声波到达方向估计模型的网络结构，本公开实施例不作限定。
[0120]
第一特征向量可以包括但不限于声波到达方向特征向量、对声波到达方向特征向量进行加权等。其中，声波到达方向特征向量可以是一个12、18、36等维度的向量，用于表征声源位置位于不同方向角的概率。
[0121]
在本公开实施方式中，通过不同的方式来获取多模态片段中不同模态信息对应的特征向量，可以提高每一模态信息对应的特征向量的准确度，从而可以提高说话对象识别的准确率，进而可以提升说话对象的识别效率。
[0122]
图3a为本公开实施例提供的一种说话对象的识别方法的实现流程示意图，如图3a所示，所述方法包括步骤s31至步骤s37，其中：
[0123]
步骤s31、确定包含音频的第一多模态数据中所包括的至少两个多模态片段；其中，每一所述多模态片段中包含至少两种模态信息。
[0124]
步骤s32、针对每一多模态片段，确定所述多模态片段中每一所述模态信息对应的第一特征向量。
[0125]
步骤s33、针对每一模态信息，基于所述至少两个多模态片段中所述模态信息对应的第一特征向量，确定所述模态信息对应的相似度矩阵，将所述相似度矩阵作为所述模态信息对应的特征信息。
[0126]
步骤s34、基于每一所述模态信息对应的特征信息，确定融合特征信息。
[0127]
步骤s35、利用所述融合特征信息，对所述第一多模态数据中的说话对象进行识别，得到第一识别结果。
[0128]
这里，上述步骤s31至步骤s35分别对应于前述步骤s21至步骤s25，在实施时可以
参照前述步骤s21至步骤s25的实施方式。
[0129]
步骤s36、针对每一说话对象，基于所述第一识别结果，从每一所述多模态片段中确定属于所述说话对象的至少一个第一多模态片段，并基于每一所述第一多模态片段，确定所述说话对象在每一所述模态信息下的第二特征向量。
[0130]
这里，第一多模态片段为每一多模态片段中的一个片段。第一识别结果中包括属于每一说话对象的至少一个多模态片段。不同的说话对象的第一多模态片段的数量可以相同，也可以不同。例如，说话对象a的第一多模态片段总数有3个，说话对象b的第一多模态片段总数有7个。
[0131]
第一多模态片段中的模态信息可以包括但不限于音频信息、视频信息、音频采集设备信息、文本信息等中的至少一个。在不同的模态信息下，该第二特征向量可以不同。例如，在音频信息下，该第二特征向量可以为声纹特征向量。又例如，在视频信息下，该第二特征向量可以为人脸特征向量。
[0132]
确定第二特征向量的方式可以是任意合适的能够得到特征向量的方式。例如，特征提取器、神经网络模型等。比如，rnn、cnn等。在实施时，本领域技术人员可以根据实际情况选择确定第二特征向量的方式，本公开实施例不作限定。
[0133]
步骤s37、针对所述第一多模态数据中的每一多模态帧，基于所述多模态帧中每一所述模态信息对应的第三特征向量及每一所述说话对象在每一所述模态信息下的第二特征向量，对所述多模态帧中的说话对象进行识别，得到第二识别结果。
[0134]
这里，每一第二识别结果表征对应的多模态帧中是否存在说话对象。第二识别结果中可以包括但不限于存在至少一个说话对象及每一说话对象的标识、不存在说话对象等。其中，说话对象的标识可以包括但不限于身份、编号等。
[0135]
多模态帧中的模态信息可以包括但不限于音频信息、视频信息、音频采集设备信息、文本信息等中的至少一个。在不同的模态信息下，该第三特征向量可以不同。例如，在音频信息下，该第三特征向量可以为声纹特征向量。又例如，在视频信息下，该第三特征向量可以为人脸特征向量。还例如，在音频采集设备信息下，该多模态帧的第三特征向量可以为doa特征向量。
[0136]
确定第三特征向量的方式可以是任意合适的能够得到特征向量的方式。例如，特征提取器、神经网络模型等。比如，例如，rnn、cnn、人脸特征提取器、声纹特征提取器、doa估计模型等。在实施时，本领域技术人员可以根据实际情况选择确定第三特征向量的方式，本公开实施例不作限定。
[0137]
在一些实施方式中，可以通过计算第二特征向量与第三特征向量之间的相似度，得到该第二识别结果。其中，相似度的计算方式可以是任意合适的能够计算相似度的方式。例如，余弦距离、内积、欧式距离、曼哈顿距离、皮尔逊相关系数、特定人的活动语音检测模型(target-speaker voice active detection，ts-vad)等。其中，ts-vad的输入为多模态数据的语音特征和说话对象的声纹特征向量，输出为说话对象在多模态数据中的每一帧对应的说话概率。在实施时，本领域技术人员可以根据实际需求自主选择相似度的计算方式，本公开实施例不作限定。
[0138]
在一些实施方式中，该ts-vad包括第一配置和第二配置。其中，第一配置的输入可以为多模态数据的语音特征和某一说话对象的声纹特征向量，其输出为该说话对象在多模
态数据中的每一帧对应的说话概率。第二配置的输入可以为多模态数据的语音特征和多个说话对象的声纹特征向量，其输出为多个说话对象在多模态数据中的每一帧对应的说话概率。在实施时，可以根据场景信息来配置。例如，在会议场景中，由于说话对象的数量变动较大，因此可以使用第二配置。又例如，在家庭中的智能家居场景中，由于说话对象的数量比较固定，因此可以使用第一配置。再例如，在说话对象的数量不确定的情况下，优先使用第一配置。
[0139]
在一些实施方式中，可以收集大量的多说话对象的语音数据或单说话对象的语音数据作为训练样本集，利用训练样本集对ts-vad进行训练，得到训练后的ts-vad，利用训练后的ts-vad，对多模态帧进行识别处理，得到在该多模态帧中至少一个说话对象的说话概率。其中，多说话对象的语音数据可以是实时采集的，也可以是对多个单说话对象的语音数据进行拼接而成的。
[0140]
图3b为本公开实施例提供的一种单说话对象的ts-vad模型的组成结构示意图，如图3b所示，该模型的输入为多模态数据中每一帧的语音特征f11至f1n、及目标说话对象的声纹特征向量f2，该模型的输出为该目标说话对象在多模态数据的每一帧中的说话概率p1至pn，其中，n为多模态数据中的总帧数。
[0141]
图3c为本公开实施例提供的一种多说话对象的ts-vad模型的组成结构示意图，如图3c所示，该模型的输入为多模态数据中每一帧的语音特征f11至f1n及z个说话对象的声纹特征向量f21至f2z，该模型的输出为这z个目标说话对象在多模态数据的每一帧中的说话概率p
11
至p
mn
，其中，z为正整数。
[0142]
在本公开实施例中，通过每一多模态片段中每一模态信息对应的特征向量及每一多模态帧中每一模态信息对应的特征向量，得到第二识别结果，一方面，利用多种模态信息的灵活组合，不仅可以提升说话对象的识别效果，而且可以拓宽了使用场景；另一方面，对多模态帧中的说话对象进行识别，不仅可以提高说话对象识别的准确率，而且还可以提高识别结果的精细度。
[0143]
在一些实施方式中，每一所述第一多模态片段中的模态信息包括以下至少之一：音频信息、视频信息、音频采集设备信息；所述步骤s36中的“基于每一所述第一多模态片段，确定所述说话对象在每一所述模态信息下的第二特征向量”，包括步骤s361至步骤s363中的至少之一，其中：
[0144]
步骤s361、在每一所述第一多模态片段中的模态信息包括所述音频信息的情况下，将每一所述第一多模态片段进行合并，生成第二多模态数据；利用所述音频想对应的特征提取器，对所述第二多模态数据进行特征提取，得到所述说话对象在所述音频信息下的第二特征向量。
[0145]
这里，按照每一第一多模态片段的起止时间，将每一第一多模态片段进行合并，得到该第二多模态数据。
[0146]
该特征提取器可以任意合适的能够进行特征提取的特征提取器。例如，声纹特征提取器、声纹提取模型等。在实施时，本领域技术人员可以根据实际需求自主选择该特征提取器，本公开实施例不作限定。
[0147]
在训练的过程中，通过声纹特征提取器中的分类层，将语音特征分类到正确的说话对象。在训练完成后，将去掉分类层后的声纹特征提取器作为该已训练的声纹特征提取
器，即：利用该已训练的声纹特征提取器，对第二多模态数据进行特征提取，得到声纹特征向量。在实施时，该声纹特征向量可以是一个128、256、或512等维度的向量。
[0148]
第二特征向量可以包括但不限于声纹特征向量、对声纹特征向量进行加权等。
[0149]
步骤s362、在每一所述第一多模态片段中的模态信息包括所述视频信息的情况下，针对每一第一多模态片段，从所述第一多模态片段中确定所述视频信息对应的第二多模态片段；基于每一所述第二多模态片段，确定所述说话对象在所述视频信息下的第二特征向量。
[0150]
这里，第二多模态片段可以包括但不限于第一多模态片段、第一多模态片段中的一部分等。其中，第二多模态片段中的音频与视频是同步的，能够完全对应。
[0151]
确定第二特征向量的方式可以包括但不限于某一第二多模态片段对应的特征向量、每一第二多模态片段对应的特征向量的均值/方差/均方差、分别对每一第二多模态片段对应的特征向量进行加权之后的均值/方差/均方差、每一第二多模态片段中的每一视频帧对应的特征向量的均值/方差/均方差、分别对每一第二多模态片段中的每一视频帧对应的特征向量进行加权之后的均值/方差/均方差等。在实施时，本领域技术人员可以根据实际需求自主选择确定第二特征向量的方式，本公开实施例不作限定。例如，将每一第二多模态片段中的每一视频帧对应的特征向量的均值作为该第二特征向量。
[0152]
在一些实施方式中，所述步骤s362中的“基于所述第二多模态片段，确定所述说话对象在所述视频信息下的第二特征向量”，包括步骤s3621至步骤s3622，其中：
[0153]
步骤s3621、利用人脸特征提取器，分别对每一所述第二多模态片段中的每一视频帧进行特征提取，得到每一所述视频帧对应的人脸特征向量。
[0154]
这里，该人脸特征提取器可以是任意合适的神经网络结构。例如，resnet34等。在实施时，本领域技术人员可以根据实际需求自主选择人脸特征提取器的网络结构，本公开实施例不作限定。
[0155]
在训练的过程中，通过人脸特征提取器中的分类层，将人脸特征分类到正确的说话对象。在训练完成后，将去掉分类层后的人脸特征提取器作为该已训练的人脸特征提取器，即：利用该已训练的人脸特征提取器，对视频帧进行特征提取，得到该人脸特征向量。
[0156]
该人脸特征向量可以是一个128、256、或512等维度的向量。
[0157]
步骤s3622、基于每一所述人脸特征向量，确定所述说话对象在所述视频信息下的第二特征向量。
[0158]
这里，确定第二特征向量的方式可以包括但不限于某一人脸特征向量、每一人脸特征向量的均值/方差/均方差、分别对每一人脸特征向量进行加权之后的均值/方差/均方差等。在实施时，本领域技术人员可以根据实际需求自主选择确定第二特征向量的方式，本公开实施例不作限定。例如，将每一人脸特征向量的均值作为该第二特征向量。
[0159]
步骤s363、在每一所述第一多模态片段中的模态信息包括所述音频采集设备信息的情况下，利用所述音频采集设备信息对应的特征提取器，分别对每一所述第一多模态片段中的每一音频帧进行特征提取，得到每一所述音频帧对应的声波到达方向特征向量；基于每一所述声波到达方向特征向量，确定所述说话对象在所述音频采集设备信息下的第二特征向量。
[0160]
这里，该特征提取器可以任意合适的能够进行特征提取的特征提取器。例如，声波
到达方向估计模型、声波特征提取模型等。在实施时，本领域技术人员可以根据实际需求自主选择该特征提取器，本公开实施例不作限定。
[0161]
在一些实施方式中，可以收集大量的语音采集设备的多通道数据作为训练样本集，利用训练样本集对声波到达方向估计模型进行训练，得到训练后的声波到达方向估计模型，利用训练后的声波到达方向估计模型，对音频帧进行特征提取，得到该声波到达方向特征向量。其中，声波到达方向估计模型可以是任意合适的神经网络结构。在实施时，本领域技术人员可以根据实际需求自主选择声波到达方向估计模型的网络结构，本公开实施例不作限定。声波到达方向特征向量可以是一个12、18、36等维度的向量，用于表征声源位置位于不同方向角的概率。
[0162]
确定第二特征向量的方式可以包括但不限于某一声波到达方向特征向量、每一声波到达方向特征向量的均值/方差/均方差、分别对每一声波到达方向特征向量进行加权之后的均值/方差/均方差等。在实施时，本领域技术人员可以根据实际需求自主选择确定第二特征向量的方式，本公开实施例不作限定。例如，将每一声波到达方向特征向量的均值作为该第二特征向量。
[0163]
在本公开实施方式中，通过不同的方式来获取说话对象在不同模态信息下的特征向量，可以提高每一模态信息的特征向量的准确度，从而可以提高说话对象识别的准确率，进而可以提升说话对象的识别效率。
[0164]
在一些实施方式中，所述步骤s37中的“基于所述多模态帧中每一所述模态信息对应的第三特征向量及每一所述说话对象在每一所述模态信息下的第二特征向量，对所述多模态帧中的说话对象进行识别，得到第二识别结果”，包括步骤s371至步骤s373，其中：
[0165]
步骤s371、针对每一模态信息，基于所述多模态帧中所述模态信息对应的第三特征向量与每一所述说话对象在所述模态信息下的第二特征向量，确定每一所述说话对象在所述模态信息下的说话概率。
[0166]
这里，多模态帧中的模态信息可以包括但不限于音频信息、视频信息、音频采集设备信息、文本信息等中的至少之一。
[0167]
确定该说话对象的说话概率的方式可以包括但不限于第二特征向量与第三特征向量之间的相似度、利用ts-vad模型等。在实施时，本领域技术人员可以根据实际需求自主选择确定该说话对象的说话概率的方式，本公开实施例不作限定。
[0168]
在一些实施方式中，所述多模态帧中的模态信息包括以下至少之一：音频信息、视频信息、音频采集设备信息；所述步骤s371中的“基于所述多模态帧中所述模态信息对应的第三特征向量与每一所述说话对象在所述模态信息下的第二特征向量，确定每一所述说话对象在所述模态信息下的说话概率”，包括步骤s3711至步骤s3713中的至少之一，其中：
[0169]
步骤s3711、在所述多模态帧中的模态信息包括所述音频信息的情况下，利用所述音频信息对应的特定人语音活动检测模型，基于所述多模态帧中所述音频信息对应的第三特征向量与每一所述说话对象在所述音频信息下的第二特征向量，确定每一所述说话对象在所述音频信息下的说话概率。
[0170]
这里，第二特征向量可以是声纹特征向量。在实施时，ts-vad可以采用第二配置，即：输入为多模态帧的第三特征向量及每一说话对象的声纹特征向量，输出为在该多模态帧中每一说话对象的说话概率。其中，每一说话概率为0～1之间。
[0171]
步骤s3712、在所述多模态帧中的模态信息包括所述视频信息的情况下，分别确定所述多模态帧中所述视频信息对应的第三特征向量与每一所述说话对象在所述视频信息下的第二特征向量之间的第二相似度，将每一所述第二相似度分别作为对应的说话对象在所述视频信息下的说话概率。
[0172]
这里，第二特征向量、第三特征向量均可以为人脸特征向量。第二相似度的计算方式可以是任意合适的计算方式。例如，余弦距离、内积、欧式距离、曼哈顿距离、皮尔逊相关系数等。在实施时，本领域技术人员可以根据实际需求自主选择第二相似度的计算方式，本公开实施例不作限定。
[0173]
步骤s3713、在所述多模态帧中的模态信息包括所述音频采集设备信息的情况下，分别确定所述多模态帧中所述音频采集设备信息对应的第三特征向量与每一所述说话对象在所述音频采集设备信息下的第二特征向量之间的第三相似度，将每一所述第三相似度分别作为对应的说话对象在所述音频采集设备信息下的说话概率。
[0174]
这里，第二特征向量、第三特征向量均可以为doa特征向量。第三相似度的计算方式可以是任意合适的计算方式。例如，余弦距离、内积、欧式距离、曼哈顿距离、皮尔逊相关系数等。在实施时，本领域技术人员可以根据实际需求自主选择第三相似度的计算方式，本公开实施例不作限定。
[0175]
步骤s372、针对每一说话对象，基于所述说话对象在每一所述模态信息下的说话概率，确定所述说话对象在所述多模态帧中的说话概率。
[0176]
这里，确定说话对象在多模态帧中的说话概率的方式可以包括但不限于某一模态信息下的说话概率、每一模态信息下的说话概率的和/均值/方差/均方差、分别对每一模态信息下的说话概率进行加权之后的和/均值/方差/均方差等。在实施时，本领域技术人员可以根据实际需求自主选择确定说话对象在多模态帧中的说话概率的方式，本公开实施例不作限定。例如，将分别对每一模态信息下的说话概率进行加权之后的和，作为该说话对象在多模态帧中的说话概率。
[0177]
在一些实施方式中，所述步骤s372中的“基于所述说话对象在每一所述模态信息下的说话概率，确定所述说话对象在所述多模态帧中的说话概率”，包括步骤s3721至步骤s3722，其中：
[0178]
步骤s3721、基于场景信息，确定每一所述模态信息的第二权重值。
[0179]
这里，每一模态信息的第二权重值之和为1。确定每一模态信息的第二权重值与前述步骤s121中确定每一模态信息的第一权重值类似，在实施时可以参照前述步骤s121的实施方式。
[0180]
步骤s3722、基于所述说话对象在每一所述模态信息下的说话概率及每一所述模态信息的第二权重值，确定所述说话对象在所述多模态帧中的说话概率。
[0181]
这里，确定说话对象在多模态帧中的说话概率的方式可以包括但不限于某一说话概率与对应的第二权重值之间的乘积、每一说话概率与对应的第二权重值之间的乘积的和、对每一说话概率与对应的第二权重值之间的乘积的和进行加权等。在实施时，本领域技术人员可以根据实际需求自主选择确定说话对象在多模态帧中的说话概率的方式，本公开实施例不作限定。例如，在多模态帧i中的模态信息包括音频信息和视频信息的情况下，将说话对象n在音频信息下的说话概率与对应的第二权重值βa的乘积、及在视频信息下对
应的说话概率与对应的第二权重值βv的乘积的和，作为该说话对象n在多模态帧中的说话概率p
n，i
。
[0182]
在一些实施方式中，可以通过下述公式(3-1)来确定说话对象n在多模态帧i中的说话概率p
n，i
：
[0183][0184]
其中，i为多模态帧的标识，i为不小于n的正整数，n为多模态帧的总数，βa为音频信息的第二权重值，为说话对象n在音频信息下的说话概率，βv为视频信息的第二权重值，为说话对象n在视频信息下的说话概率，βm为音频采集设备信息的第二权重值，为说话对象n在音频采集设备信息下的说话概率，β
t
为文本的第二权重值，为说话对象n在文本下的说话概率，βa、βv、βm及β
t
之和为1。
[0185]
步骤s373、基于预设的说话阈值和每一所述说话对象在所述多模态帧中的说话概率，确定所述第二识别结果。
[0186]
这里，说话阈值可以是根据多次试验值、经验值、自定义、多个说话阈值的均值等方式来进行设定。在实施时，将每一说话对象的说话概率分别与说话阈值进行比较，若说话对象a的说话概率不小于说话阈值，则将存在说话对象且说话对象为a作为该第二识别结果；若每一说话对象的说话概率均小于说话阈值，则将不存在说话对象作为该第二识别结果。
[0187]
在本公开实施方式中，一方面，通过不同的方式来获取多模态帧中不同模态信息对应的特征向量，可以提高每一模态信息的特征向量的准确度，从而可以提高说话对象识别的准确率，进而可以提升说话对象的识别效率；另一方面，通过将说话阈值与每一说话概率进行比对得到每一多模态帧的第二识别结果，不仅可以提高说话对象识别的准确率，而且还可以提高识别结果的精细度。
[0188]
图4为本公开实施例提供的一种说话对象的识别方法的实现流程示意图，如图4所示，所述方法包括步骤s41至步骤s44，其中：
[0189]
步骤s41、确定包含音频的第一多模态数据中每一模态信息对应的特征信息；其中，所述第一多模态数据中具有至少两种模态信息。
[0190]
步骤s42、基于每一所述模态信息对应的特征信息，确定融合特征信息。
[0191]
步骤s43、利用所述融合特征信息，对所述第一多模态数据中的说话对象进行识别，得到第一识别结果。
[0192]
这里，上述步骤s41至步骤s43分别对应于前述步骤s11至步骤s13，在实施时可以参照前述步骤s11至步骤s13的实施方式。
[0193]
步骤s44、针对每一说话对象，获取所述说话对象在每一所述模态信息下的第四特征向量，基于所述说话对象在每一所述模态信息下的第四特征向量，从至少一个第二说话对象中确定与所述说话对象匹配的目标第二说话对象，输出所述目标第二说话对象的标识。
[0194]
这里，不同模态信息下的第四特征向量不同。例如，在音频信息下，该第四特征向量可以为声纹特征向量。又例如，在视频信息下，该第四特征向量可以为人脸特征向量。
[0195]
获取第四特征向量的方式可以是任意合适的能够得到特征向量的方式。例如，特
征提取器、神经网络模型等。比如，例如，rnn、cnn、人脸特征提取器、声纹特征提取器等。在实施时，本领域技术人员可以根据实际情况选择确定第四特征向量的方式，本公开实施例不作限定。
[0196]
第二说话对象可以是预先存储在数据库的说话对象。在实施时，可以将注册的说话对象的信息存储至数据库中，其中，说话对象的信息可以包括但不限于标识、声纹特征向量、人脸特征向量等。标识可以包括但不限于身份、编号等。
[0197]
在实施时，将说话对象的每一第四特征向量分别与每一第二说话对象对应的特征向量进行比对，得到说话对象的标识(即：目标第二说话对象的标识)。例如，计算说话对象x的声纹特征向量分别与每一第二说话对象的声纹特征向量之间的相似度，将相似度最高的第二说话对象的标识作为该说话对象x的标识。
[0198]
在一些实施方式中，所述步骤s44中的“基于所述说话对象在每一所述模态信息下的第四特征向量，从至少一个第二说话对象中确定与所述说话对象匹配的目标第二说话对象”，包括步骤s441至步骤s443，其中：
[0199]
步骤s441、确定每一所述模态信息的第三权重值。
[0200]
这里，确定第三权重值的方式可以包括但不限于用户自定义、场景信息、随机、用户操作等。在实施时，本领域技术人员可以根据实际需求自主选择确定第三权重值的方式，本公开实施例不作限定。例如，根据场景信息确定每一模态信息的第三权重值，对于同一模态信息，不同的场景信息其对应的第三权重值可以相同，也可以不同。
[0201]
每一模态信息的第三权重值之和为1。在实施时，每一模态信息的第一权重值、第二权重值及第三权重值可以相同，也可以不同。
[0202]
步骤s442、针对每一模态信息，基于所述说话对象在所述模态信息下的第四特征向量与每一所述第二说话对象在所述模态信息下的第五特征向量，确定所述说话对象和每一所述第二说话对象之间的第四相似度。
[0203]
这里，第四特征向量及第五特征向量可以是声纹特征向量、人脸特征向量等。
[0204]
第四相似度的计算方式可以是任意合适的能够计算相似度的方式。例如，余弦距离、内积、欧式距离、曼哈顿距离、皮尔逊相关系数等。在实施时，本领域技术人员可以根据实际需求自主选择第四相似度的计算方式，本公开实施例不作限定。例如，通过余弦距离分别计算第四特征向量与每一第五特征向量之间的相似度，将该相似度作为第四相似度。
[0205]
步骤s443、基于每一所述第四相似度及每一所述第三权重值，从每一所述第二说话对象中确定与所述说话对象匹配的所述目标第二说话对象。
[0206]
这里，确定目标第二说话对象的方式可以包括但不限于某一多模态相似度不小于阈值、某一多模态相似度接近于预设值等，其中，多模态相似度是基于第二说话对象在每一模态信息下的第四相似度及对应的第三权重值确定的。在实施时，本领域技术人员可以根据实际需求自主选择确定目标第二说话对象的方式，本公开实施例不作限定。例如，在某一第二说话对象的多模态相似度不小于阈值的情况下，将该第二说话对象作为目标第二说话对象。
[0207]
在一些实施方式中，确定多模态相似度的方式可以包括但不限于某一模态信息的第四相似度及对应的第三权重值之间的乘积、每一模态信息的第四相似度及对应的第三权重值之间的乘积的和、对每一模态信息的第四相似度及对应的第三权重值之间的乘积的和
进行加权等。在实施时，本领域技术人员可以根据实际需求自主选择确定多模态相似度的方式，本公开实施例不作限定。例如，在说话对象的模态信息包括音频信息和视频信息的情况下，将在音频信息下的第四相似度sa及对应的第三权重值γa之间的乘积、与在视频信息下的第四相似度sv及对应的第三权重值γv之间的乘积的和作为该多模态相似度s。
[0208]
在一些实施方式中，可以通过下述公式(4-1)来确定第二说话对象的多模态相似度s：
[0209]
s＝γasa+γvsvꢀꢀꢀꢀꢀꢀ
(4-1)；
[0210]
其中，γa为在音频信息下的第三权重值，sa在音频信息下的第四相似度，γv为在视频信息下的第三权重值，sv为在视频信息下的第四相似度，γa及γv之和为1。
[0211]
在本公开实施例中，一方面，通过预先存储多个第二说话对象的多种特征向量，可以提高后续比对的效率和准确度；另一方面，通过将说话对象的多种特征向量与每一第二说话对象的多种特征向量进行比对，得到说话对象的标识，可以提高说话对象识别的准确率，尤其是与仅利用单一模态信息的特征信息来对说话对象进行识别相比，从而可以提高识别的效率。
[0212]
图5为本公开实施例提供的一种说话对象的识别方法的实现流程示意图，如图5所示，所述方法包括步骤s51至步骤s54，其中：
[0213]
步骤s51、对采集的第三多模态数据进行预处理，得到包含音频的第一多模态数据；其中，所述第一多模态数据中具有至少两种模态信息。
[0214]
这里，预处理可以包括但不限于去噪、尺寸调整、均衡化处理、颜色变换、音画同步、音频截取等。
[0215]
在一些实施方式中，所述步骤s51包括步骤s511至步骤s514，其中：
[0216]
步骤s511、利用预设的人脸检测追踪模型，对所述第三多模态数据进行人脸检测和追踪处理，得到第四多模态数据。
[0217]
这里，人脸检测追踪模型可以是任意能够实现人脸检测和追踪功能的模型。该人脸检测追踪模型可以是任意合适的神经网络结构。例如，yolov5等。在实施时，本领域技术人员可以根据实际需求自主选择人脸检测追踪模型的网络结构，本公开实施例不作限定。
[0218]
通过该人脸检测追踪模型，对第三多模态数据中的每一帧进行人脸检测及追踪处理，得到人脸视频片段，将该人脸视频片段作为该第四模态数据。
[0219]
步骤s512、针对所述第四多模态数据中的每一视频帧，利用音画同步模型，对所述视频帧进行同步识别处理，得到所述视频帧中至少一个第三说话对象的第二音画同步概率。
[0220]
这里，音画同步模型的输入为音视频片段，输出为该音视频片段同步的概率。在实施时，将第三多模态数据与第四多模态数据输入该音画同步模型中，输出该第四多模态数据中第i帧第n个说话对象的人脸对应的音画同步概率
[0221]
步骤s513、针对所述第三多模态数据中的每一音频帧，利用活动语音检测模型，对所述音频帧进行特征提取，得到所述音频帧中存在说话对象的概率，并基于所述音频帧中存在说话对象的概率和所述音频帧中每一所述第三说话对象的第二音画同步概率，确定所述音频帧中的第三识别结果。
[0222]
这里，每一第三识别结果表征对应的音频帧中是否存在说话对象。在实施时，该第
三识别结果可以包括但不限于语音(即：有说话对象)、静音(无说话对象)等。活动语音检测模型(voice active detection model，vadm)可以是任意能够实现检测语音帧中有人说话的概率的模型。vadm的输入是语音数据的每一帧对应的语音特征，输出是语音帧i中有人说话的概率其中，i为不大于语音数据的总帧数的正整数。该vadm可以是任意合适的神经网络结构。例如，卷积网络等。在实施时，本领域技术人员可以根据实际需求自主选择vadm的网络结构，本公开实施例不作限定。
[0223]
在一些实施方式中，可以收集大量说话对象的语音数据作为训练样本集，利用训练样本集对vadm进行训练，得到训练后的vadm。
[0224]
确定第三识别结果的方式可以包括但不限于音频帧中存在说话对象的概率、对音频帧中存在说话对象的概率进行加权、某一第二音画同步概率、每一第二音画同步概率的均值/方差/均方差、音频帧中存在说话对象的概率及某一第二音画同步概率的和/均值/方差/均方差、分别对音频帧中存在说话对象的概率及某一第二音画同步概率进行加权之后的和/均值/方差/均方差等。在实施时，本领域技术人员可以根据实际需求自主选择确定第三识别结果的方式，本公开实施例不作限定。
[0225]
例如，从每一第二音画同步概率中确定目标第二音画同步概率，分别对音频帧中存在说话对象的概率及某一第二音画同步概率进行加权之后的和，作为该第三识别结果。其中，确定加权的权重值的方式可以包括但不限于用户自定义、场景信息、随机、用户操作等。在实施时，本领域技术人员可以根据实际需求自主选择确定加权的权重值的方式，本公开实施例不作限定。例如，根据场景信息确定每一模态信息的权重值，对于同一模态信息，不同的场景信息其对应的权重值可以相同，也可以不同。每一模态信息的权重值之和为1。
[0226]
在一些实施方式中，可以通过下述公式(5-1)来确定音频帧i的第三识别结果ai：
[0227][0228]
其中，wa为在音频信息下的第三权重值，在音频信息下该音频帧中存在说话对象的概率，wv为在视频信息下的第三权重值，为在视频信息下所有说话对象的第二音画同步概率的最大值，为为表征在第j个视频帧中第n个说话对象的人脸对应的第二音画同步概率，wa及wv之和为1。
[0229]
步骤s514、基于每一所述第三识别结果，确定所述第一多模态数据。
[0230]
这里，在第三识别结果表征存在说话对象的情况下，将该第三识别结果对应的音频帧作为第一多模态数据的一帧。
[0231]
在一些实施方式中，由于存在噪声、混响等因素，可能会影响第三识别结果，那么可以多个相邻的第三识别结果进行修正，即：当某一静音段(包括若干静音帧)的长度小于第一阈值的情况下，将该静音段修正为语音段；当某一语音段(包括若干语音帧)的长度小于第二阈值的情况下，将该语音段修正为静音段，其中，第一阈值和第二阈值可以相同，也可以不同。
[0232]
例如，在30个相邻的第三识别结果中出现了5个0(表征为静音帧)，其余均与1(表征为语音帧)，此时可以将这5个0修正为5个1。又例如，在25个相邻的第三识别结果中出现了3个1，其余均为0，此时可以将这3个1修正为3个0。
[0233]
步骤s52、确定所述第一多模态数据中每一模态信息对应的特征信息。
[0234]
步骤s53、基于每一所述模态信息对应的特征信息，确定融合特征信息。步骤s54、利用所述融合特征信息，对所述第一多模态数据中的说话对象进行识别，得到第一识别结果。
[0235]
这里，上述步骤s52至步骤s54分别对应于前述步骤s11至步骤s13，在实施时可以参照前述步骤s11至步骤s13的实施方式。
[0236]
在本公开实施例中，通过对采集的多模态数据进行预处理后的数据作为第一多模态数据，一方面，降低了后续说话对象识别的计算量，从而可以降低说话对象的识别成本，进而可以提升识别的效率；另一方面，利用包含多种模态信息的数据来对说话对象进行识别，可以提高说话对象识别的准确率，尤其是与仅利用单一模态信息的数据来对说话对象进行识别相比，从而可以进一步提高识别的效率。
[0237]
下面说明本公开实施例提供的说话对象的识别方法在实际场景中的应用，以对智能视频会议中的说话人(即：说话对象)进行识别的场景为例进行说明。
[0238]
相关技术中，在对说话对象进行识别的过程中，有些仅利用语音信号对说话对象进行识别，而由于语音信号容易受到噪声、混响等因素影响，大大降低识别准确率；有些利用音频信号、视频信号、音频采集设备等多模态信息来对说话对象进行识别，可以提高识别准确率，但是通常都是需要说话对象先进行注册，然后再利用注册信息实现对说话对象进行识别，存在使用要求高、使用场景有限等问题；有些通过对说话对象转换点进行检测等方式对语音信号进行切分后再进行识别，不需要用户提前注册，但是受切分方式的影响，存在识别效果不佳、识别效率不高等问题。
[0239]
本公开实施例提供一种说话对象的识别方法，通过对采集的第三多模态数据进行预处理后，得到包含音频信息、视频信息和/或音频采集设备信息的第一多模态数据；基于第一多模态数据中的每一多模态片段中每一模态信息对应的第一特征向量，对第一多模态数据的说话对象进行识别，得到第一识别结果；利用第一识别结果及第一多模态数据的每一多模态帧中每一模态信息对应的第二特征向量，对每一多模态帧中的说话对象进行识别，得到第二识别结果，一方面，不需要说话对象提前进行注册，便可以得到说话对象的识别结果，可以降低使用要求；另一方面，不仅提高了说话对象识别的准确率，而且还提高了识别结果的精细度。
[0240]
下面从训练阶段、注册阶段、及使用阶段这三个阶段来阐述本公开实施例提供的说话对象的识别方法的实施过程，其中：
[0241]
(1)训练阶段
[0242]
主要是收集不同的训练样本集来对不同的待训练的模型进行训练，以生成训练后的模型。其中，待训练的模型可以包括但不限于声纹特征提取器、vadm、ts-vad、人脸特征提取器、doa估计模型、音画同步模型等，即：
[0243]
收集不同说话人的语音数据作为声纹特征提取器的训练样本集，利用该训练样本集对声纹特征提取器进行训练，得到训练后的声纹特征提取器。其中，声纹特征提取器可以是任意合适的神经网络结构。例如，resnet34网络、或其他神经网络结构。在训练过程中，利用声纹特征提取器的最后一层(即：分类层)，将样本中的每一语音特征分类到正确的说话对象。在训练完成后，将去掉分类层后的声纹特征提取器作为该已训练的声纹特征提取器。
[0244]
收集大量说话人的人脸数据作为训练样本集，利用训练样本集对人脸特征提取器
进行训练，得到训练后的人脸特征提取器。其中，人脸特征提取器可以是任意合适的神经网络结构。例如，resnet34、或其他神经网络结构。在训练的过程中，通过人脸特征提取器中的分类层，将样本中的每一人脸特征分类到正确的说话对象。在训练完成后，将去掉分类层后的人脸特征提取器作为该已训练的人脸特征提取器。
[0245]
收集大量说话人的语音数据作为训练样本集，利用训练样本集对vadm进行训练，得到训练后的vadm。该vadm可以是任意合适的神经网络结构。例如，卷积网络等。vadm的输入是语音数据的每一帧对应的语音特征，输出是语音帧i中有人说话的概率其中，i为不大于语音数据的总帧数的正整数。
[0246]
收集大量的多说话人的语音数据作为训练样本集，利用训练样本集对ts-vad进行训练，得到训练后的ts-vad。在一些实施方式中，通过仿真的方式来生成多说话人的训练样本集，利用该训练样本集对ts-vad进行预训练，得到预训练后的ts-vad，再使用真实采集的会议场景的多说话人的语音数据对预训练后的ts-vad进行微调，得到训练后的ts-vad。ts-vad的输入为一段包括至少一个说话人的音频中的每一帧对应的语音特征和每个说话人的声纹特征向量，输出为每个说话人在音频的每一帧中的说话概率。
[0247]
收集大量说话人的音视频数据作为训练样本集，利用训练样本集对音画同步模型进行训练，得到训练后的音画同步模型。在实施时，该音画同步模型可以是任意合适的神经网络结构。例如，syncnet等。在一些实施方式中，利用预设的人脸检测追踪模型对样本进行人脸检测和追踪处理，将得到的人脸视频片段、及该样本对应的音频片段作为音画同步模型的输入，输出为该音频片段和人脸视频片段同步的概率。
[0248]
收集大量的语音采集设备的多通道数据作为训练样本集，利用训练样本集对doa估计模型进行训练，得到训练后的doa估计模型。doa估计模型可以是任意合适的神经网络结构。doa估计模型的输入是麦克风阵列(即：音频采集设备)中多个麦克风的输入信号，输出是一个12维的doa向量{d1，...，d
12
}，表征声源位置位于不同方向角的概率。在实施时，将360
°
平均划分为12个区域，每个区域大小均为30
°
doa向量的每一维度分别表示一个区域，通过该12维的doa向量来表征声源位于这12个区域中每一区域内的概率。
[0249]
(2)注册阶段
[0250]
在智能会议应用中，用户可以选择是否提前注册。当用户注册时，根据提示面对摄像头朗读指定文本，用于收集用户的语音和人脸信息。利用声纹特征提取器提取该语音信息对应的声纹特征向量和利用人脸特征提取器提取该人脸信息对应的人脸特征向量，并将声纹特征向量、人脸特征向量、及身份保存到数据库中。在实施时，用户可以注册，也可以不注册。对于未注册的用户，可以使用预设的标识方式来对该用户进行标识。
[0251]
(3)使用阶段
[0252]
1、利用智能会议场景中的麦克风、摄像头等采集音视频信号(对应于前述第三多模态数据)；
[0253]
2、对音视频信号进行预处理，得到包含音频信息、视频信息及音频采集信号信息的第一多模态数据。图6a为本公开实施例提供的一种对多模态数据进行预处理的方法的实现流程示意图，如图6a所示，该方法包括步骤s611至步骤s616，其中：
[0254]
步骤s611、通过已训练的vad，计算音视频信号的每一音频帧中有人说话的第一概率
[0255]
这里，表示第t个音频帧中有人说话的第一概率。
[0256]
步骤s612、利用人脸检测追踪模型，对音视频信号进行人脸检测和追踪处理的，得到视频片段(对应于前述第四多模态数据)；
[0257]
步骤s613、按照预设的采样频率，对视频片段进行划分，得到至少一个视频帧；
[0258]
这里，采样频率可以为200ms。
[0259]
步骤s614、通过已训练的音画同步模型，对视频帧和音视频信号中的语音帧进行同步识别处理，得到每一视频帧中每一说话人的音画同步概率，将所有说话人中音画同步概率的最大值作为该视频帧中有人说话的第二概率
[0260]
这里，其中表示第t个视频帧中第n个说话人的音画同步概率。
[0261]
步骤s615、针对该音视频信号的每一帧，分别对对应的第一概率、及对应的第二概率进行加权，得到该帧中有人说话的第三概率，并在第三概率不小于阈值的情况下，则认为该帧为语音(对应于前述第三识别结果)，反之则认为是静音(对应于前述第三识别结果)；
[0262]
这里，第一概率和第二概率加权的权重值可以根据实际情况设定。在一些实施方式中，由于受到噪音、毛刺等因素的影响，使得部分帧的识别结果不准确，因此需要对第三识别结果进行修正，即：当静音长度小于第一阈值的情况下，则将该静音修正为语音；当语音长度小于第二阈值的情况下，则将该语音修正为静音。其中，第一阈值和第二阈值可以相同，也可以不同。
[0263]
步骤s616、将所有的语音帧进行合并，得到有效语音(对应于前述第一多模态数据)。
[0264]
这里，也可以通过隐马尔可夫模型，得到该有效语音。
[0265]
3、对有效语音进行第一阶段识别，得到说话人的初始识别结果(对应于前述第一识别结果)。图6b为本公开实施例提供的一种说话对象的识别方法的实现流程示意图，如图6b所示，该方法包括步骤s621至步骤s629，其中：
[0266]
步骤s621、根据有效语音的起止时间，将有效语音切分为至少两个多模态片段；
[0267]
这里，多模态片段的长度可以为1.5s(second，秒)、片段之间的间隔可以为0.75s。
[0268]
步骤s622、利用已训练的声纹特征提取器，提取每个多模态片段对应的声纹特征向量(对应于前述第一特征向量)；
[0269]
这里，声纹特征向量是一个256维的向量。
[0270]
步骤s623、计算第i个和第j个多模态片段之间声纹特征向量的第一相似度，基于每一第一相似度，确定音频信息对应的第一相似度矩阵ma；
[0271]
这里，第一相似度用余弦距离表示，并归一化到0到1之间，即其中，xi和xj分别表示第i个和第j个多模态片段对应的声纹特征向量。
[0272]
步骤s624、利用已训练的人脸特征提取器，提取每个多模态片段对应的人脸特征向量(对应于前述第一特征向量)；
[0273]
这里，人脸特征向量是一个256维的向量。在实施时，计算第n个说话人的人脸特征向量在第i个多模态片段对应的时间内，音画同步模型输出的每一音画同步概率的平均值，将该平均值作为在视频下该说话人在第i个多模态片段内为说话人的概率。找到第i个多模
态片段中说话概率最大的说话人对应的人脸特征向量，作为该多模态片段对应的人脸特征向量。
[0274]
步骤s625、计算第i个和第j个多模态片段之间人脸特征向量的第一相似度，基于每一第一相似度，确定视频信息对应的第二相似度矩阵mv；
[0275]
这里，第一相似度用余弦距离表示，并归一化到0到1之间，即其中，xi和xj分别表示第i个和第j个多模态片段对应的人脸特征向量。
[0276]
步骤s626、利用已训练的doa估计模型，提取每个多模态片段对应的doa特征向量(对应于前述第一特征向量)；
[0277]
步骤s627、计算第i个和第j个多模态片段之间doa特征向量的第一相似度，基于每一第一相似度，确定音频采集设备信息对应的第三相似度矩阵mm；
[0278]
步骤s628、分别对第一相似度矩阵、第二相似度矩阵、及第三相似度矩阵进行加权，得到多模态相似度矩阵m；
[0279]
这里，每一相似度矩阵的权重值可以根据实际情况设定。例如，根据应用场景来设定。
[0280]
步骤s629、利用谱聚类方法，对多模态相似度矩阵进行聚类，得到第一识别结果。
[0281]
这里，谱聚类能够自动找到合适的类数，并得到聚类结果。经过谱聚类后，被划分到同一类的多模态片段被认为属于同一个说话人。第一识别结果中包括属于每一说话人的至少一个多模态片段。
[0282]
4、由于第一阶段在识别时是按照语音片段划分的，因此有可能将不同的说话人划分到同一个片段内，影响识别效果。同时，通过聚类的方法，每个片段只能分配对一个说话人，无法处理不同说话人有重叠的情况。因此，需要对有效语音进行第二阶段识别，得到说话人的识别结果(对应于前述第二识别结果)。图6c为本公开实施例提供的一种说话对象的识别方法的实现流程示意图，如图6c所示，该方法包括步骤s631至步骤s638，其中：
[0283]
步骤s631、基于第一识别结果得到的说话人，确定每个说话人对应的多模态片段；
[0284]
步骤s632、针对每一说话人，将对应的每一多模态片段进行合并后，生成第二多模态数据，并利用声纹特征提取器，提取该第二多模态数据对应的声纹特征向量，并将该声纹特征向量作为该说话人的声纹特征向量；
[0285]
步骤s633、针对每一说话人，利用人脸特征提取器，提取对应的每一多模态片段中的每一视频帧对应的人脸特征向量，并将每一人脸特征向量的均值作为该说话人的人脸特征向量；
[0286]
步骤s634、针对每一说话人，利用doa估计模型，提取对应的每一多模态片段中的每一音频帧对应的doa特征向量，并将每一doa特征向量的均值作为该说话人的doa特征向量；
[0287]
步骤s635、利用已训练的ts-vad，基于有效语音中的音频帧t对应的语音特征以及说话人n的声纹特征向量，确定音频帧t中说话人n在说话的第四概率
[0288]
步骤s636、利用音画同步模型，基于有效语音中的视频帧t对应的人脸特征以及说话人n的人脸特征向量，确定视频帧t中说话人n在说话的第五概率
[0289]
步骤s637、通过doa估计模型，基于有效语音中的音频帧t对应的doa特征以及说话
人n的doa特征向量，确定音频帧t中说话人n在说话的第六概率
[0290]
步骤s638、分别对第四概率、第五概率及第六概率进行加权，得到说话人n在音频帧t中的说话概率，并在该说话概率不小于阈值的情况下，则认为该说话人n正在说话(对应于前述第二识别结果)，反之，则认为该说话人n未在说话(对应于前述第二识别结果)。
[0291]
这里，第四概率、第五概率、第六概率的权重值可以根据实际情况设定。例如，根据应用场景来设定。
[0292]
在一些实施方式中，若数据库中存在提前注册的说话人，在完成第二阶段的说话人识别后，将识别得到的不同说话人与数据库中的人进行比对，得到每一说话人的身份，即：
[0293]
将第二阶段中不同说话人对应的声纹特征向量、人脸特征向量，分别与数据库中注册的用户逐一计算声纹相似度sa和人脸相似度sv；对声纹相似度sa和人脸相似度sv分别进行加权，得到多模态相似度s。当s大于阈值时，认为识别出的说话人与数据库中的说话人是同一个人，输出该说话人的标识(例如，名字、身份、编号等)。其中，s＝γasa+γvsv，γa、γv分别标识声纹相似度和人脸相似度的权重值，这二者之和为1。在实施时，γa、γv可以根据实际情况设定。例如，根据应用场景来设定。
[0294]
本公开实施例提供的方法至少具有以下有益效果：
[0295]
1)不需要说话对象提前进行注册，便可以得到说话对象的识别结果，在降低使用要求的同时还拓宽了使用场景，从而可以提升用户的使用体验；
[0296]
2)利用多模态片段中的多种模态信息的特征信息来对说话对象进行初步识别，可以提高说话对象识别的准确率，尤其是与仅利用单一模态信息的特征信息来对说话对象进行识别相比，从而可以降低因单一切分方式等因素导致识别错误的可能性，进而可以提高识别的效率；
[0297]
3)在对说话对象进行识别的过程中，可以利用音频信息、视频信息、及音频采集设备信息进行自由组合得到多种模态信息，达到实现多模态融合提升识别效果的目的，在提升说话对象的识别效果的同时还进一步拓宽了使用场景；
[0298]
4)利用多模态帧中的多种模态信息的特征信息来对说话对象进行进一步识别，不仅可以进一步提高说话对象识别的准确率，而且还可以提高识别结果的精细度。
[0299]
基于上述实施例，本公开实施例提供一种说话对象的识别装置，图7为本公开实施例提供的一种说话对象的识别装置的组成结构示意图，如图7所示，所述说话对象的识别装置70包括第一确定模块71、第二确定模块72、以及识别模块73，其中：
[0300]
所述第一确定模块71，用于确定包含音频的第一多模态数据中每一模态信息对应的特征信息；其中，所述第一多模态数据中具有至少两种模态信息；
[0301]
所述第二确定模块72，用于基于每一所述模态信息对应的特征信息，确定融合特征信息；
[0302]
所述识别模块73，用于利用所述融合特征信息，对所述第一多模态数据中的说话对象进行识别，得到第一识别结果。
[0303]
在一些实施方式中，所述第一确定模块71，还用于：确定所述第一多模态数据中所包括的至少两个多模态片段；其中，每一所述多模态片段中包含至少两种模态信息；针对每一多模态片段，确定所述多模态片段中每一所述模态信息对应的第一特征向量；针对每一
模态信息，基于所述至少两个多模态片段中所述模态信息对应的第一特征向量，确定所述模态信息对应的相似度矩阵，将所述相似度矩阵作为所述模态信息对应的特征信息。
[0304]
在一些实施方式中，每一所述多模态片段中的模态信息包括以下至少之一：音频信息、视频信息、音频采集设备信息；所述第一确定模块71，还用于以下至少之一：在所述多模态片段中的模态信息包括所述音频信息的情况下，利用所述音频信息对应的特征提取器，对所述多模态片段进行特征提取，得到所述多模态片段中所述音频信息对应的第一特征向量；在所述多模态片段中的模态信息包括所述视频信息的情况下，对所述多模态片段进行同步识别处理，从至少一个第一说话对象中确定目标第一说话对象；利用所述视频信息对应的特征提取器，对所述目标第一说话对象进行特征提取，得到所述多模态片段中所述视频信息对应的第一特征向量；在所述多模态片段中的模态信息包括所述音频采集设备信息的情况下，利用所述音频采集设备信息对应的特征提取器，对所述多模态片段进行特征提取，得到所述多模态片段中所述音频采集设备信息对应的第一特征向量。
[0305]
在一些实施方式中，所述第一确定模块71，还用于：利用音画同步模型，对所述多模态片段进行所述同步识别处理，得到每一所述第一说话对象的第一音画同步概率；基于每一所述第一说话对象的第一音画同步概率，从每一所述第一说话对象中确定所述目标第一说话对象。
[0306]
在一些实施方式中，所述第一确定模块71，还用于：分别确定第i个多模态片段中所述模态信息对应的第一特征向量与第j个多模态片段中所述模态信息对应的第一特征向量之间的第一相似度；其中，i和j均为不大于m的正整数，m为多模态片段的数量；基于每一所述第一相似度，确定所述模态信息对应的相似度矩阵。
[0307]
在一些实施方式中，所述第二确定模块72，还用于：基于场景信息，确定每一所述模态信息的第一权重值；将每一所述模态信息对应的特征信息及每一所述模态信息对应的第一权重值进行融合，得到所述融合特征信息。
[0308]
在一些实施方式中，所述融合特征信息中包括多模态相似度矩阵；所述识别模块73，还用于：利用预设的聚类算法对所述多模态相似度矩阵进行聚类，得到聚类结果；基于所述聚类结果，确定所述第一识别结果。
[0309]
在一些实施方式中，所述装置还包括第一识别模块，所述第一识别模块，用于：针对每一说话对象，基于所述第一识别结果，从每一所述多模态片段中确定属于所述说话对象的至少一个第一多模态片段，并基于每一所述第一多模态片段，确定所述说话对象在每一所述模态信息下的第二特征向量；针对所述第一多模态数据中的每一多模态帧，基于所述多模态帧中每一所述模态信息对应的第三特征向量及每一所述说话对象在每一所述模态信息下的第二特征向量，对所述多模态帧中的说话对象进行识别，得到第二识别结果；其中，每一所述第二识别结果表征对应的多模态帧中是否存在说话对象。
[0310]
在一些实施方式中，每一所述第一多模态片段中的模态信息包括以下至少之一：音频信息、视频信息、音频采集设备信息；所述第一识别模块，还用于以下至少之一：在每一所述第一多模态片段中的模态信息包括所述音频信息的情况下，将每一所述第一多模态片段进行合并，生成第二多模态数据；利用所述音频信息对应的特征提取器，对所述第二多模态数据进行特征提取，得到所述说话对象在所述音频信息下的第二特征向量；在每一所述第一多模态片段中的模态信息包括所述视频信息的情况下，针对每一第一多模态片段，从
所述第一多模态片段中确定所述视频信息对应的第二多模态片段；基于每一所述第二多模态片段，确定所述说话对象在所述视频信息下的第二特征向量；在每一所述第一多模态片段中的模态信息包括所述音频采集设备信息的情况下，利用所述音频采集设备信息对应的特征提取器，分别对每一所述第一多模态片段中的每一音频帧进行特征提取，得到每一所述音频帧对应的声波到达方向特征向量；基于每一所述声波到达方向特征向量，确定所述说话对象在所述音频采集设备信息下的第二特征向量。
[0311]
在一些实施方式中，所述第一识别模块，还用于：利用人脸特征提取器，分别对每一所述第二多模态片段中的每一视频帧进行特征提取，得到每一所述视频帧对应的人脸特征向量；基于每一所述人脸特征向量，确定所述说话对象在所述视频信息下的第二特征向量。
[0312]
在一些实施方式中，所述第一识别模块，还用于：针对每一模态信息，基于所述多模态帧中所述模态信息对应的第三特征向量与每一所述说话对象在所述模态信息下的第二特征向量，确定每一所述说话对象在所述模态信息下的说话概率；针对每一说话对象，基于所述说话对象在每一所述模态信息下的说话概率，确定所述说话对象在所述多模态帧中的说话概率；基于预设的说话阈值和每一所述说话对象在所述多模态帧中的说话概率，确定所述第二识别结果。
[0313]
在一些实施方式中，所述多模态帧中的模态信息包括以下至少之一：音频信息、视频信息、音频采集设备信息；所述第一识别模块，还用于以下至少之一：在所述多模态帧中的模态信息包括所述音频信息的情况下，利用所述音频信息对应的特定人语音活动检测模型，基于所述多模态帧中所述音频信息对应的第三特征向量与每一所述说话对象在所述音频信息下的第二特征向量，确定每一所述说话对象在所述音频信息下的说话概率；在所述多模态帧中的模态信息包括所述视频信息的情况下，分别确定所述多模态帧中所述视频信息对应的第三特征向量与每一所述说话对象在所述视频信息下的第二特征向量之间的第二相似度，将每一所述第二相似度分别作为对应的说话对象在所述视频信息下的说话概率；在所述多模态帧中的模态信息包括所述音频采集设备信息的情况下，分别确定所述多模态帧中所述音频采集设备信息对应的第三特征向量与每一所述说话对象在所述音频采集设备信息下的第二特征向量之间的第三相似度，将每一所述第三相似度分别作为对应的说话对象在所述音频采集设备信息下的说话概率。
[0314]
在一些实施方式中，所述第一识别模块，还用于：基于场景信息，确定每一所述模态信息的第二权重值；基于所述说话对象在每一所述模态信息下的说话概率及每一所述模态信息的第二权重值，确定所述说话对象在所述多模态帧中的说话概率。
[0315]
在一些实施方式中，所述装置还包括第四确定模块，所述第四确定模块，用于：针对每一说话对象，获取所述说话对象在每一所述模态信息下的第四特征向量，基于所述说话对象在每一所述模态信息下的第四特征向量，从至少一个第二说话对象中确定与所述说话对象匹配的目标第二说话对象，输出所述目标第二说话对象的标识。
[0316]
在一些实施方式中，所述第四确定模块，还用于：确定每一所述模态信息的第三权重值；针对每一模态信息，基于所述说话对象在所述模态信息下的第四特征向量与每一所述第二说话对象在所述模态信息下的第五特征向量，确定所述说话对象和每一所述第二说话对象之间的第四相似度；基于每一所述第四相似度及每一所述第三权重值，从每一所述
第二说话对象中确定与所述说话对象匹配的所述目标第二说话对象。
[0317]
在一些实施方式中，所述装置还包括第五确定模块，所述第五确定模块，用于：对采集的第三多模态数据进行预处理，得到所述第一多模态数据。
[0318]
在一些实施方式中，所述第五确定模块，还用于：利用预设的人脸检测追踪模型，对所述第三多模态数据进行人脸检测和追踪处理，得到第四多模态数据；针对所述第四多模态数据中的每一视频帧，利用音画同步模型，对所述视频帧进行同步识别处理，得到所述视频帧中至少一个第三说话对象的第二音画同步概率；针对所述第三多模态数据中的每一音频帧，利用活动语音检测模型，对所述音频帧进行特征提取，得到所述音频帧中存在说话对象的概率，并基于所述音频帧中存在说话对象的概率和所述音频帧中每一所述第三说话对象的第二音画同步概率，确定所述音频帧中的第三识别结果；其中，每一所述第三识别结果表征对应的音频帧中是否存在说话对象；基于每一所述第三识别结果，确定所述第一多模态数据。
[0319]
以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本公开装置实施例中未披露的技术细节，请参照本公开方法实施例的描述而理解。
[0320]
需要说明的是，本公开实施例中，如果以软件功能模块的形式实现上述方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本公开各个实施例所述方法的全部或部分。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read only memory，rom)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本公开实施例不限制于任何特定的硬件和软件结合。
[0321]
本公开实施例提供一种电子设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法。
[0322]
本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法。所述计算机可读存储介质可以是瞬时性的，也可以是非瞬时性的。
[0323]
本公开实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序被计算机读取并执行时，实现上述方法中的部分或全部步骤。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(software development kit，sdk)等等。
[0324]
需要说明的是，图8为本公开实施例中电子设备的一种硬件实体示意图，如图8所示，该电子设备800的硬件实体包括：处理器801、通信接口802和存储器803，其中：
[0325]
处理器801通常控制电子设备800的总体操作。
[0326]
通信接口802可以使电子设备通过网络与其他终端或服务器通信。
[0327]
存储器803配置为存储由处理器801可执行的指令和应用，还可以缓存待处理器
801以及电子设备800中各模块待处理或已经处理的数据(例如，图像数据、音频数据、语音通信数据和视频通信数据)，可以通过闪存(flash)或随机访问存储器(random access memory，ram)实现。处理器801、通信接口802和存储器803之间可以通过总线804进行数据传输。
[0328]
这里需要指出的是：以上存储介质和设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本公开存储介质和设备实施例中未披露的技术细节，请参照本公开方法实施例的描述而理解。
[0329]
应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本公开的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本公开的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。上述本公开实施例序号仅仅为了描述，不代表实施例的优劣。
[0330]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0331]
在本公开所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。
[0332]
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
[0333]
另外，在本公开实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。
[0334]
本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(read only memory，rom)、磁碟或者光盘等各种可以存储程序代码的介质。
[0335]
或者，本公开上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计
算机、服务器、或者网络设备等)执行本公开各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、rom、磁碟或者光盘等各种可以存储程序代码的介质。
[0336]
以上所述，仅为本公开的实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。

技术特征：
1.一种说话对象的识别方法，其特征在于，所述方法包括：确定包含音频的第一多模态数据中每一模态信息对应的特征信息；其中，所述第一多模态数据中具有至少两种模态信息；基于每一所述模态信息对应的特征信息，确定融合特征信息；利用所述融合特征信息，对所述第一多模态数据中的说话对象进行识别，得到第一识别结果。2.根据权利要求1所述的方法，其特征在于，所述确定包含音频的第一多模态数据中每一模态信息对应的特征信息，包括：确定所述第一多模态数据中所包括的至少两个多模态片段；其中，每一所述多模态片段中包含至少两种模态信息；针对每一多模态片段，确定所述多模态片段中每一所述模态信息对应的第一特征向量；针对每一模态信息，基于所述至少两个多模态片段中所述模态信息对应的第一特征向量，确定所述模态信息对应的相似度矩阵，将所述相似度矩阵作为所述模态信息对应的特征信息。3.根据权利要求2所述的方法，其特征在于，每一所述多模态片段中的模态信息包括以下至少之一：音频信息、视频信息、音频采集设备信息；所述确定所述多模态片段中每一所述模态信息对应的第一特征向量，包括以下至少之一：在所述多模态片段中的模态信息包括所述音频信息的情况下，利用所述音频信息对应的特征提取器，对所述多模态片段进行特征提取，得到所述多模态片段中所述音频信息对应的第一特征向量；在所述多模态片段中的模态信息包括所述视频信息的情况下，对所述多模态片段进行同步识别处理，从至少一个第一说话对象中确定目标第一说话对象；利用所述视频信息对应的特征提取器，对所述目标第一说话对象进行特征提取，得到所述多模态片段中所述视频信息对应的第一特征向量；在所述多模态片段中的模态信息包括所述音频采集设备信息的情况下，利用所述音频采集设备信息对应的特征提取器，对所述多模态片段进行特征提取，得到所述多模态片段中所述音频采集设备对应的第一特征向量。4.根据权利要求3所述的方法，其特征在于，所述对所述多模态片段进行同步识别处理，从至少一个第一说话对象中确定目标第一说话对象，包括：利用音画同步模型，对所述多模态片段进行所述同步识别处理，得到每一所述第一说话对象的第一音画同步概率；基于每一所述第一说话对象的第一音画同步概率，从每一所述第一说话对象中确定所述目标第一说话对象。5.根据权利要求2至4中任一项所述的方法，其特征在于，所述基于所述至少两个多模态片段中所述模态信息对应的第一特征向量，确定所述模态信息对应的相似度矩阵，包括：分别确定第i个多模态片段中所述模态信息对应的第一特征向量与第j个多模态片段中所述模态信息对应的第一特征向量之间的第一相似度；其中，i和j均为不大于m的正整
数，m为多模态片段的数量；基于每一所述第一相似度，确定所述模态信息对应的相似度矩阵。6.根据权利要求1至5中任一项所述的方法，其特征在于，所述基于每一所述模态信息对应的特征信息，确定融合特征信息，包括：基于场景信息，确定每一所述模态信息的第一权重值；将每一所述模态信息对应的特征信息及每一所述模态信息对应的第一权重值进行融合，得到所述融合特征信息。7.根据权利要求6所述的方法，其特征在于，所述融合特征信息中包括多模态相似度矩阵；所述利用所述融合特征信息，对所述第一多模态数据中的说话对象进行识别，得到第一识别结果，包括：利用预设的聚类算法对所述多模态相似度矩阵进行聚类，得到聚类结果；基于所述聚类结果，确定所述第一识别结果。8.根据权利要求2至7中任一项所述的方法，其特征在于，所述方法还包括：针对每一说话对象，基于所述第一识别结果，从每一所述多模态片段中确定属于所述说话对象的至少一个第一多模态片段，并基于每一所述第一多模态片段，确定所述说话对象在每一所述模态信息下的第二特征向量；针对所述第一多模态数据中的每一多模态帧，基于所述多模态帧中每一所述模态信息对应的第三特征向量及每一所述说话对象在每一所述模态信息下的第二特征向量，对所述多模态帧中的说话对象进行识别，得到第二识别结果；其中，每一所述第二识别结果表征对应的多模态帧中是否存在说话对象。9.根据权利要求8所述的方法，其特征在于，每一所述第一多模态片段中的模态信息包括以下至少之一：音频信息、视频信息、音频采集设备信息；所述基于每一所述第一多模态片段，确定所述说话对象在每一所述模态信息下的第二特征向量，包括以下至少之一：在每一所述第一多模态片段中的模态信息包括所述音频信息的情况下，将每一所述第一多模态片段进行合并，生成第二多模态数据；利用所述音频信息对应的特征提取器，对所述第二多模态数据进行特征提取，得到所述说话对象在所述音频信息下的第二特征向量；在每一所述第一多模态片段中的模态信息包括所述视频信息的情况下，针对每一第一多模态片段，从所述第一多模态片段中确定所述视频信息对应的第二多模态片段；基于每一所述第二多模态片段，确定所述说话对象在所述视频信息下的第二特征向量；在每一所述第一多模态片段中的模态信息包括所述音频采集设备信息的情况下，利用所述音频采集设备信息对应的特征提取器，分别对每一所述第一多模态片段中的每一音频帧进行特征提取，得到每一所述音频帧对应的声波到达方向特征向量；基于每一所述声波到达方向特征向量，确定所述说话对象在所述音频采集设备信息下的第二特征向量。10.根据权利要求9所述的方法，其特征在于，所述基于每一所述第二多模态片段，确定所述说话对象在所述视频信息下的第二特征向量，包括：利用人脸特征提取器，分别对每一所述第二多模态片段中的每一视频帧进行特征提取，得到每一所述视频帧对应的人脸特征向量；
基于每一所述人脸特征向量，确定所述说话对象在所述视频信息下的第二特征向量。11.根据权利要求8至10中任一项所述的方法，其特征在于，所述基于所述多模态帧中每一所述模态信息对应的第三特征向量及每一所述说话对象在每一所述模态信息下的第二特征向量，对所述多模态帧中的说话对象进行识别，得到第二识别结果，包括：针对每一模态信息，基于所述多模态帧中所述模态信息对应的第三特征向量与每一所述说话对象在所述模态信息下的第二特征向量，确定每一所述说话对象在所述模态信息下的说话概率；针对每一说话对象，基于所述说话对象在每一所述模态信息下的说话概率，确定所述说话对象在所述多模态帧中的说话概率；基于预设的说话阈值和每一所述说话对象在所述多模态帧中的说话概率，确定所述第二识别结果。12.根据权利要求11所述的方法，其特征在于，所述多模态帧中的模态信息包括以下至少之一：音频信息、视频信息、音频采集设备信息；所述基于所述多模态帧中所述模态信息对应的第三特征向量与每一所述说话对象在所述模态信息下的第二特征向量，确定每一所述说话对象在所述模态信息下的说话概率，包括以下至少之一：在所述多模态帧中的模态信息包括所述音频信息的情况下，利用所述音频信息对应的特定人语音活动检测模型，基于所述多模态帧中所述音频信息对应的第三特征向量与每一所述说话对象在所述音频信息下的第二特征向量，确定每一所述说话对象在所述音频信息下的说话概率；在所述多模态帧中的模态信息包括所述视频信息的情况下，分别确定所述多模态帧中所述视频信息对应的第三特征向量与每一所述说话对象在所述视频信息下的第二特征向量之间的第二相似度，将每一所述第二相似度分别作为对应的说话对象在所述视频信息下的说话概率；在所述多模态帧中的模态信息包括所述音频采集设备信息的情况下，分别确定所述多模态帧中所述音频采集设备信息对应的第三特征向量与每一所述说话对象在所述音频采集设备信息下的第二特征向量之间的第三相似度，将每一所述第三相似度分别作为对应的说话对象在所述音频采集设备信息下的说话概率。13.根据权利要求11或12所述的方法，其特征在于，所述基于所述说话对象在每一所述模态信息下的说话概率，确定所述说话对象在所述多模态帧中的说话概率，包括：基于场景信息，确定每一所述模态信息的第二权重值；基于所述说话对象在每一所述模态信息下的说话概率及每一所述模态信息的第二权重值，确定所述说话对象在所述多模态帧中的说话概率。14.根据权利要求1至13中任一项所述的方法，其特征在于，所述方法还包括：针对每一说话对象，获取所述说话对象在每一所述模态信息下的第四特征向量，基于所述说话对象在每一所述模态信息下的第四特征向量，从至少一个第二说话对象中确定与所述说话对象匹配的目标第二说话对象，输出所述目标第二说话对象的标识。15.根据权利要求14所述的方法，其特征在于，所述基于所述说话对象在每一所述模态信息下的第四特征向量，从至少一个第二说话对象中确定与所述说话对象匹配的目标第二
说话对象，包括：确定每一所述模态信息的第三权重值；针对每一模态信息，基于所述说话对象在所述模态信息下的第四特征向量与每一所述第二说话对象在所述模态信息下的第五特征向量，确定所述说话对象和每一所述第二说话对象之间的第四相似度；基于每一所述第四相似度及每一所述第三权重值，从每一所述第二说话对象中确定与所述说话对象匹配的所述目标第二说话对象。16.根据权利要求1至15中任一项所述的方法，其特征在于，所述方法还包括：对采集的第三多模态数据进行预处理，得到所述第一多模态数据。17.根据权利要求16所述的方法，其特征在于，所述对采集的第三多模态数据进行预处理，得到所述第一多模态数据，包括：利用预设的人脸检测追踪模型，对所述第三多模态数据进行人脸检测和追踪处理，得到第四多模态数据；针对所述第四多模态数据中的每一视频帧，利用音画同步模型，对所述视频帧进行同步识别处理，得到所述视频帧中至少一个第三说话对象的第二音画同步概率；针对所述第三多模态数据中的每一音频帧，利用活动语音检测模型，对所述音频帧进行特征提取，得到所述音频帧中存在说话对象的概率，并基于所述音频帧中存在说话对象的概率和所述音频帧中每一所述第三说话对象的第二音画同步概率，确定所述音频帧中的第三识别结果；其中，每一所述第三识别结果表征对应的音频帧中是否存在说话对象；基于每一所述第三识别结果，确定所述第一多模态数据。18.一种说话对象的识别装置，其特征在于，所述装置包括：第一确定模块，用于确定包含音频的第一多模态数据中每一模态信息对应的特征信息；其中，所述第一多模态数据中具有至少两种模态信息；第二确定模块，用于基于每一所述模态信息对应的特征信息，确定融合特征信息；识别模块，用于利用所述融合特征信息，对所述第一多模态数据中的说话对象进行识别，得到第一识别结果。19.一种电子设备，包括处理器和存储器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至17任一项所述方法。20.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该计算机程序被处理器执行时实现权利要求1至17中任一项所述方法。

技术总结
本公开实施例公开了一种说话对象的识别方法及装置、电子设备和存储介质，该方法包括：确定包含音频的第一多模态数据中每一模态信息对应的特征信息；其中，所述第一多模态数据中具有至少两种模态信息；基于每一所述模态信息对应的特征信息，确定融合特征信息；利用所述融合特征信息，对所述第一多模态数据中的说话对象进行识别，得到第一识别结果。得到第一识别结果。得到第一识别结果。

技术研发人员：请求不公布姓名
受保护的技术使用者：摩尔线程智能科技（北京）有限责任公司
技术研发日：2023.03.07
技术公布日：2023/7/7

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种基于InSAR的公路穿越深厚松散土层采空区沉降预测方法与流程 下一篇：一种硫硒钼石墨烯及其制备方法和应用

说话对象的识别方法及装置、电子设备和存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

说话对象的识别方法及装置、电子设备和存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表