教学场景下的角色确定方法、角色确定装置和电子设备与流程

未命名 09-22 阅读：113 评论：0

1.本技术涉及语音识别领域，具体而言，涉及一种教学场景下的角色确定方法、角色确定装置、计算机可读存储介质和电子设备。

背景技术：

2.近年国家相关教育管理部门提出，通过综合运用云计算、人工智能、大数据以及物联网等先进技术，打通物理空间、信息空间和认知空间，力求以智能化教育环境建设，推动教育变革和创新，从而打造网络化、数字化、个性化、终身化的教育体系。
3.通常现代教室普遍配置有音频采集设备，例如，教师佩戴的领夹麦克风、用于监控的摄像机自带的麦克风或者教室内安装的全向麦克风等，故充分利用现有技术和已建设备进行智能化的教学分析，自动化得到一堂课对应的教学数据，是一个势在必行的刚需技术。
4.对教学过程中产生的音频数据进行语音识别以及角色分离，现有技术中通常采用vpr(声纹识别，voice print recognition，简称vpr)算法进行角色分析。但vpr算法往往需要预先构建用户数据模型，才可以进行角色分析。这样不仅因需要启动用户数据模型，导致系统启动较为繁琐以及维护成本较高，还存在着分离的准确率较且也没有充分利用当代教室现有的硬件设备。

技术实现要素：

5.本技术的主要目的在于提供一种教学场景下的角色确定方法、角色确定装置、计算机可读存储介质和电子设备，以至少解决现有技术中教学场景下的角色分离因需要启动预设的用户数据模型导致的成本较高以及计算量较大的问题。
6.为了实现上述目的，根据本技术的一个方面，提供了一种教学场景下的角色确定方法，包括：对第一音频数据进行语音活性检测，得到多个第一音频片段，以及对第二音频数据进行语音活性检测，得到多个第二音频片段，多个所述第一音频片段和多个所述第二音频片段均分别按照时间由小到大的顺序进行排列，且所述第一音频数据和所述第二音频数据的音频采集设备不同；基于第一个所述第一音频片段的声纹特征和角色信息，确定多个第一其他音频片段的角色信息以及第一个所述第二音频片段的角色信息，且基于第一个所述第二音频片段的声纹特征和角色信息，确定多个第二其他音频片段的角色信息，所述第一其他音频片段为除第一个所述第一音频片段之外的所述第一音频片段，所述第二其他音频片段为除第一个所述第二音频片段之外的所述第二音频片段，第一个所述第二音频片段的时间戳信息与第一个所述第一音频片段的时间戳信息至少部分重合；基于多个所述第一音频片段的角色信息以及多个所述第二音频片段的角色信息，确定目标音频数据的目标角色信息，所述目标音频数据为对多个所述第一音频片段和多个所述第二音频片段进行声音质量评估得到的；将所述目标音频数据转换为目标文字信息，并根据所述目标音频数据的所述目标角色信息，为对应的所述目标文字信息添加所述目标角色信息。
7.可选地，基于第一个所述第一音频片段的声纹特征和角色信息，确定多个第一其
他音频片段的角色信息，包括：提取第一个所述第一音频片段的声纹特征，得到第一个第一声纹特征，以及提取多个所述第一其他音频片段的声纹特征，得到多个第一其他声纹特征；确定第一个所述第一声纹特征分别与各所述第一其他声纹特征的相似度评分，得到多个第一评分值；将大于或者等于第一预定阈值的所述第一评分值对应的所述第一其他音频片段的角色信息，确定为第一角色信息，所述第一角色信息为第一个所述第一音频片段的角色信息。
8.可选地，基于第一个所述第一音频片段的声纹特征和角色信息，确定第一个所述第二音频片段的角色信息，包括：确定第一个所述第二音频片段中，与第一个所述第一音频片段的时间戳信息相同的第一子音频片段，并将所述第一子音频片段的角色信息，确定为第一角色信息，所述第一角色信息为第一个所述第一音频片段的角色信息；将第二子音频片段的角色信息确定为第二角色信息，所述第二子音频片段为第一个所述第二音频片段中，除了所述第一子音频片段之外的其他的音频片段，所述第二角色信息与所述第一角色信息不同。
9.可选地，基于第一个所述第二音频片段的声纹特征和角色信息，确定多个第二其他音频片段的角色信息，包括：提取所述第一子音频片段的声纹特征，得到第一子声纹特征，以及提取多个第二其他音频片段的声纹特征，得到多个第二其他声纹特征；确定所述第一子声纹特征分别与各所述第二其他声纹特征的相似度评分，得到多个第二评分值；将大于或者等于第一预定阈值的所述第二评分值对应的所述第二其他音频片段中音频片段，确定为第三子音频片段，并将所述第三子音频片段的角色信息确定为所述第一角色信息；将多个所述第二其他音频片段中不具有所述第一角色信息的音频片段，确定为第四子音频片段，并将所述第四子音频片段的角色信息确定为所述第二角色信息。
10.可选地，基于多个所述第一音频片段的角色信息以及多个所述第二音频片段的角色信息，确定目标音频数据的目标角色信息，包括：确定具有目标时间戳信息的第一目标音频片段和第二目标音频片段，所述第一目标音频片段为多个所述第一音频片段中的一个，所述第二目标音频片段为多个所述第二音频片段中的一个；在所述第一目标音频片段和所述第二目标音频片段的角色信息相同的情况下，将所述第一目标音频片段和所述第二目标音频片段的角色信息，确定为所述目标时间戳信息对应的所述目标音频数据中的音频片段的所述目标角色信息；在所述第一目标音频片段的所述第一评分值小于所述第一预定阈值且大于或者等于第二预定阈值，以及所述第二目标音频片段的角色信息为所述第一角色信息的情况下，将所述第一角色信息确定为所述目标时间戳信息对应的所述目标音频数据中的音频片段的所述目标角色信息。
11.可选地，对多个所述第一音频片段和多个所述第二音频片段进行声音质量评估，得到所述目标音频数据的过程包括：确定时间戳信息相同的第三目标音频片段和第四目标音频片段，所述第三目标音频片段为多个所述第一音频片段中的一个，所述第四目标音频片段为多个所述第二音频片段中的一个；确定所述第三目标音频片段的第一声音强度，以及确定所述第四目标音频片段的第二声音强度；在所述第一声音强度大于所述第二声音强度的情况下，将所述第三目标音频片段确定为目标音频片段，在所述第一声音强度小于所述第二声音强度的情况下，将所述第四目标音频片段确定为所述目标音频片段；由多个所述目标音频片段组合得到所述目标音频数据。
12.可选地，将所述目标音频数据转换为目标文字信息，并根据所述目标音频数据的所述目标角色信息，为对应的所述目标文字信息添加所述目标角色信息，包括：采用自动语音识别算法，对所述目标音频数据进行语音识别，得到所述目标文字信息；根据所述目标音频数据对应的所述目标角色信息，为对应的所述目标文字信息添加所述目标角色信息。
13.根据本技术的另一方面，提供了一种教学场景下的角色确定装置，包括：检测单元，用于对第一音频数据进行语音活性检测，得到多个第一音频片段，以及对第二音频数据进行语音活性检测，得到多个第二音频片段，多个所述第一音频片段和多个所述第二音频片段均分别按照时间由小到大的顺序进行排列，且所述第一音频数据和所述第二音频数据的音频采集设备不同；第一确定单元，用于基于第一个所述第一音频片段的声纹特征和角色信息，确定多个第一其他音频片段的角色信息以及第一个所述第二音频片段的角色信息，且基于第一个所述第二音频片段的声纹特征和角色信息，确定多个第二其他音频片段的角色信息，所述第一其他音频片段为除第一个所述第一音频片段之外的所述第一音频片段，所述第二其他音频片段为除第一个所述第二音频片段之外的所述第二音频片段，第一个所述第二音频片段的时间戳信息与第一个所述第一音频片段的时间戳信息至少部分重合；第二确定单元，用于基于多个所述第一音频片段的角色信息以及多个所述第二音频片段的角色信息，确定目标音频数据的目标角色信息，所述目标音频数据为对多个所述第一音频片段和多个所述第二音频片段进行声音质量评估得到的；执行单元，用于将所述目标音频数据转换为目标文字信息，并根据所述目标音频数据的所述目标角色信息，为对应的所述目标文字信息添加所述目标角色信息。
14.根据本技术的又一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行任意一种所述的教学场景下的角色确定方法。
15.根据本技术的再一方面，提供了一种电子设备，包括：一个或多个处理器，存储器，以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行任意一种所述的教学场景下的角色确定方法
16.应用本技术的技术方案，首先，分别对第一音频数据和第二音频数据进行语音活性检测，得到多个第一音频片段和多个第二音频片段；然后，基于第一个第一音频片段的声纹特征和角色信息，确定多个第一其他音频片段的角色信息以及第一个第二音频片段的角色信息，且基于第一个第二音频片段的声纹特征和角色信息，确定多个第二其他音频片段的角色信息；然后，基于多个第一音频片段的角色信息以及多个第二音频片段的角色信息，确定目标音频数据的目标角色信息；最后，将目标音频数据转换为目标文字信息，并根据目标音频数据的目标角色信息，为对应的目标文字信息添加目标角色信息。与现有技术中通过启动用户数据模型，确定目标音频数据中的目标角色信息相比，本方案无需启动用户数据模型，而是在知晓第一个第一音频片段的角色信息和声纹特征的情况下，基于第一个第一音频片段的声纹特征和角色信息，确定多个第一其他音频片段的角色信息以及第一个第二音频片段的角色信息，且基于第一个第二音频片段的声纹特征和角色信息，确定多个第二其他音频片段的角色信息，这样保证了对设备的要求较低，从而保证了整体的成本较低。且本方案基于多个第一音频片段的角色信息以及多个第二音频片段的角色信息，确定目标
音频数据的目标角色信息，这样保证了确定的目标角色信息较为准确，进而解决了现有技术中教学场景下的角色分离因需要启动预设的用户数据模型导致的成本较高以及计算量较大的问题。
附图说明
17.构成本技术的一部分的说明书附图用来提供对本技术的进一步理解，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
18.图1示出了根据本技术的实施例中提供的一种执行教学场景下的角色确定方法的移动终端的硬件结构框图；
19.图2示出了根据本技术的实施例提供的一种教学场景下的角色确定方法的流程示意图；
20.图3示出了根据本技术的实施例提供的另一种教学场景下的角色确定方法的流程示意图；
21.图4示出了根据本技术的实施例提供的一种教学场景下的角色确定装置的结构示意图。
22.其中，上述附图包括以下附图标记：
23.102、处理器；104、存储器；106、传输设备；108、输入输出设备。
具体实施方式
24.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
25.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
26.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
27.正如背景技术中所介绍的，现有技术中教学场景下的角色分离因需要启动预设的用户数据模型导致的成本较高以及计算量较大，为解决上述问题，本技术的实施例提供了一种教学场景下的角色确定方法、角色确定装置、计算机可读存储介质和电子设备。
28.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。
29.本技术实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种教学场景下的角色确
定方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)和用于存储数据的存储器104，其中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。
30.存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的教学场景下的角色确定方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(network interface controller，简称为nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(radio frequency，简称为rf)模块，其用于通过无线方式与互联网进行通讯。
31.在本实施例中提供了一种运行于移动终端、计算机终端或者类似的运算装置的教学场景下的角色确定方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
32.图2是根据本技术实施例的教学场景下的角色确定方法的流程图。如图2所示，该方法包括以下步骤：
33.步骤s201，对第一音频数据进行语音活性检测，得到多个第一音频片段，以及对第二音频数据进行语音活性检测，得到多个第二音频片段，多个上述第一音频片段和多个上述第二音频片段均分别按照时间由小到大的顺序进行排列，且上述第一音频数据和上述第二音频数据的音频采集设备不同；
34.在实际的应用过程中，通常音频采集设备采集的第一音频数据和第二音频数据中会有噪音，也就是说，第一音频数据和第二音频数据中并不全是有效的语音片段。因此，对第一音频数据和第二音频数据进行语音活性检测，这样可以过滤掉第一音频数据和第二音频数据中的噪音，这样保证了整体的系统的稳定性较高。具体地，可以采用语音活性检测算法(voice activity detection，简称vad)分别对第一音频数据和第二音频数据进行语音活性检测。当然，并不限于通过语音活性检测算法来对第一音频数据和第二音频数据进行语音活性检测，还可以采用其他的可行的噪音滤除算法，只需可以过滤出第一音频数据和第二音频数据的噪音即可。
35.在上述步骤s201中，第一音频数据和上述第二音频数据的音频采集设备不同。本技术的一种具体的实施例中，在教学场景下，第一音频数据可以为教师佩戴的领夹麦克风采集的音频数据。第二音频数据可以为安装在教室中的全向麦克风或者安装在教室中的监
控设备自带的麦克风。另外，上述第一音频数据和第二音频数据的整体时长可以相同。例如，第一音频数据的时长为40分钟，而第二音频数据的时长也可以为40分钟。
36.在上述步骤s201中，多个上述第一音频片段和多个上述第二音频片段均分别按照时间由小到大的顺序进行排列，即为多个上述第一音频片段按照时间由小到大的顺序进行排列，多个上述第二音频片段按照时间由小到大的顺序进行排列。为了较为简单地进行解释，本技术以多个上述第一音频片段按照时间由小到大的顺序进行排列为例进行解释说明。一种具体的实施例中，第一音频数据的时长为40分钟，那么多个第一音频片段分别的时间戳信息分别为0～5分钟，8～15分钟，10～20分钟等等，那么则按照0～5分钟，8～15分钟，10～20分钟等等的顺序，对多个第一音频片段进行排列。
37.步骤s202，基于第一个上述第一音频片段的声纹特征和角色信息，确定多个第一其他音频片段的角色信息以及第一个上述第二音频片段的角色信息，且基于第一个上述第二音频片段的声纹特征和角色信息，确定多个第二其他音频片段的角色信息，上述第一其他音频片段为除第一个上述第一音频片段之外的上述第一音频片段，上述第二其他音频片段为除第一个上述第二音频片段之外的上述第二音频片段，第一个上述第二音频片段的时间戳信息与第一个上述第一音频片段的时间戳信息至少部分重合；
38.在实际的应用过程中，在第一音频数据为教师佩戴的领夹麦克风采集的音频数据的情况下，则第一个第一音频片段的角色信息必然是教师，故在知晓第一个第一音频片段的声纹特征以及角色信息的情况下，可以基于第一个第一音频片段的声纹特征和角色信息，确定多个第一其他音频片段的角色信息以及第一个第二音频片段的角色信息。
39.在上述步骤s202中，多个第一其他音频片段中的任意一个第一其他音频片段的时间戳信息(即包括该第一其他音频片段的开始时间以及结束时间)是晚于第一个第一音频片段的时间戳信息。多个第二其他音频片段中的任意一个第二其他音频片段的时间戳信息(即包括该第二其他音频片段的开始时间以及结束时间)是晚于第一个第二音频片段的时间戳信息。
40.步骤s203，基于多个上述第一音频片段的角色信息以及多个上述第二音频片段的角色信息，确定目标音频数据的目标角色信息，上述目标音频数据为对多个上述第一音频片段和多个上述第二音频片段进行声音质量评估得到的；
41.具体地，在知晓多个第一音频片段的角色信息以及多个第二音频片段的角色信息的情况下，将多个第一音频片段的角色信息与多个第二音频片段的角色信息进行相互校验，这样保证了得到的目标音频数据的目标角色信息较为准确，从而提高了整体的准确率。
42.具体地，上述目标音频数据的时长与第一音频数据和第二音频数据的时长是相同的。
43.步骤s204，将上述目标音频数据转换为目标文字信息，并根据上述目标音频数据的上述目标角色信息，为对应的上述目标文字信息添加上述目标角色信息。
44.在实际的应用过程中，可以采用现有技术中任何可行的语音转换算法，以将目标音频数据转换为目标文字信息。
45.通过本实施例，首先，分别对第一音频数据和第二音频数据进行语音活性检测，得到多个第一音频片段和多个第二音频片段；然后，基于第一个第一音频片段的声纹特征和角色信息，确定多个第一其他音频片段的角色信息以及第一个第二音频片段的角色信息，
且基于第一个第二音频片段的声纹特征和角色信息，确定多个第二其他音频片段的角色信息；然后，基于多个第一音频片段的角色信息以及多个第二音频片段的角色信息，确定目标音频数据的目标角色信息；最后，将目标音频数据转换为目标文字信息，并根据目标音频数据的目标角色信息，为对应的目标文字信息添加目标角色信息。与现有技术中通过启动用户数据模型，确定目标音频数据中的目标角色信息相比，本方案无需启动用户数据模型，而是在知晓第一个第一音频片段的角色信息和声纹特征的情况下，基于第一个第一音频片段的声纹特征和角色信息，确定多个第一其他音频片段的角色信息以及第一个第二音频片段的角色信息，且基于第一个第二音频片段的声纹特征和角色信息，确定多个第二其他音频片段的角色信息，这样保证了对设备的要求较低，从而保证了整体的成本较低。且本方案基于多个第一音频片段的角色信息以及多个第二音频片段的角色信息，确定目标音频数据的目标角色信息，这样保证了确定的目标角色信息较为准确，进而解决了现有技术中教学场景下的角色分离因需要启动预设的用户数据模型导致的成本较高以及计算量较大的问题。
46.本技术的教学场景下的角色确定方法中，利用当前的教室已具备的领夹麦克风以及全向麦克风，分别采用第一音频数据和第二音频数据(由于第二音频数据是由全向麦克风或者监控识别自带的麦克风采集的音频数据，故第二音频数据中的角色信息包括教师和学生)。再分别对第一音频数据和第二音频数据进行语音活性检测，得到多个第一音频片段和多个第二音频片段；然后，基于第一个第一音频片段的声纹特征和角色信息，确定多个第一其他音频片段的角色信息以及第一个第二音频片段的角色信息，且基于第一个第二音频片段的声纹特征和角色信息，确定多个第二其他音频片段的角色信息；之后，基于多个第一音频片段的角色信息以及多个第二音频片段的角色信息，确定目标音频数据的目标角色信息，这样较为巧妙地在无需启动用户数据模型的情况下，实现了目标音频数据的角色确定，这样大大降低了维护的人力成本和时间成本。最后，将目标音频数据转换为目标文字信息，并根据目标音频数据的目标角色信息，为对应的目标文字信息添加目标角色信，这样自动化地实现了一堂教学活动结束自动化产出，教师和学生对应的结构化数据(教师/学生-讲话内容-时间戳)，为后续的归档、绩效抽查、教学质量评估等提供高质量的数据支撑。
47.需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
48.具体实现过程中，上述步骤s202可以通过以下步骤实现：基于第一个上述第一音频片段的声纹特征和角色信息，确定多个第一其他音频片段的角色信息，包括：提取第一个上述第一音频片段的声纹特征，得到第一个第一声纹特征，以及提取多个上述第一其他音频片段的声纹特征，得到多个第一其他声纹特征；确定第一个上述第一声纹特征分别与各上述第一其他声纹特征的相似度评分，得到多个第一评分值；将大于或者等于第一预定阈值的上述第一评分值对应的上述第一其他音频片段的角色信息，确定为第一角色信息，上述第一角色信息为第一个上述第一音频片段的角色信息。在该方案中，通过计算第一其他声纹特征与第一个声纹特征之间的相似度，得到多个第一评分值，再确定第一评分值高于第一预定阈值的第一其他音频片段且将其的角色信息确定为第一个第一音频片段的角色信息，即第一角色信息，这样进一步地实现了较为巧妙地确定出第一音频数据中的第一角色信息，即属于教师的音频。
49.在实际的应用过程中，第一预定阈值可以为90％。另外，可以采用现有技术中任何可行的声纹特征提取算法，来分别提取第一音频片段和多个第一其他音频片段的声纹特征，在本技术中，并不对声纹特征提取算法的具体算法进行限制。一种具体的实施例中，可以采用vpr(声纹识别，voice print recognition，简称vpr)算法，来提取第一音频片段和多个第一其他音频片段的声纹特征。
50.其次，考虑到在学生和教师之间的距离较小的情况下，教师的领夹麦克风也会存在采集到学生的音频的情况下，那么这种情况下，学生的音频的声纹特征与教师的音频的声纹特征之间的相似度较小，故还可以将小于第二预定阈值的第一评分值对应的第一其他音频片段，不添加角色信息。后续可以通过第二音频数据来得到上述情况下的学生角色。本技术的一种具体的实施例中，上述第二预定阈值可以为60％。
51.同时，对于第一评分值处于60％～90％的第一其他音频片段，则可以为这样的第一其他片段添加临时角色信息，后续再基于多个第二音频片段的角色信息进行反向验证，这样进一步地保证了后续得到的目标音频数据的目标角色信息较为准确。
52.为了较为简单地确定出第二音频数据中的角色信息，本技术的上述步骤s202可以通过以下步骤实现，基于第一个上述第一音频片段的声纹特征和角色信息，确定第一个上述第二音频片段的角色信息，包括：确定第一个上述第二音频片段中，与第一个上述第一音频片段的时间戳信息相同的第一子音频片段，并将上述第一子音频片段的角色信息，确定为第一角色信息，上述第一角色信息为第一个上述第一音频片段的角色信息；将第二子音频片段的角色信息确定为第二角色信息，上述第二子音频片段为第一个上述第二音频片段中，除了上述第一子音频片段之外的其他的音频片段，上述第二角色信息与上述第一角色信息不同。在实际的应用过程中，由于第二音频数据的音频采集设备可以为教室内的全向麦克风或者监控设备自带的麦克风，那么第二音频数据中必然包含第一音频数据，即第一个第二音频片段与第一个第一音频片段的时间戳信息至少部分重合，即第一个第二音频片段与第一个第一音频片段的时间戳相同，或者，第一个第一音频片段的时间戳处于第一个第二音频片段的时间戳的范围内，故可以基于第一个第一音频片段的声纹特征和角色信息，可以较为简单地确定第一个第二音频片段的角色信息。
53.另外，在第一个第一音频片段的时间戳处于第一个第二音频片段的时间戳的范围内的情况下，例如，第一个第一音频片段的时间戳为0～5分钟，第一个第二音频片段的时间戳为0～10分钟，其中，0～5分钟为教师讲课，5～10分钟为学生回答问题。则可以将第一个第一音频片段的角色信息，确定为第一个第二音频片段的0～5分钟(即第一子音频片段)对应的音频数据的角色信息，即第一角色信息(教师)，从而也可以确定出第一个第二音频片段的5～10分钟(即第二子音频片段)对应的音频数据的角色信息为第二角色信息(即学生)。
54.在第一个第二音频片段与第一个第一音频片段的时间戳相同的情况下，例如，第一个第一音频片段的时间戳为0～5分钟，第一个第二音频片段的时间戳为0～5分钟，则可以将第一个第一音频片段的角色信息，确定为第一个第二音频片段的角色信息。也就是说，在第一个第二音频片段与第一个第一音频片段的时间戳相同的情况下，第一子音频片段可以为整个第一个第二音频片段，以及第二子音频片段可以无。
55.上述步骤s202还可以通过以下方式来实现，基于第一个上述第二音频片段的声纹
特征和角色信息，确定多个第二其他音频片段的角色信息，包括：提取上述第一子音频片段的声纹特征，得到第一子声纹特征，以及提取多个第二其他音频片段的声纹特征，得到多个第二其他声纹特征；确定上述第一子声纹特征分别与各上述第二其他声纹特征的相似度评分，得到多个第二评分值；将大于或者等于第一预定阈值的上述第二评分值对应的上述第二其他音频片段中音频片段，确定为第三子音频片段，并将上述第三子音频片段的角色信息确定为上述第一角色信息；将多个上述第二其他音频片段中不具有上述第一角色信息的音频片段，确定为第四子音频片段，并将上述第四子音频片段的角色信息确定为上述第二角色信息。在本方案中，在知晓第一个第二音频片段的角色信息的情况下，则可以计算第二其他声纹特征与第一子声纹特征的相似度评分，得到多个第二评分值，且第二评分值大于或者等于第一预定阈值的音频片段，确定为第三子音频片段，并将第一子音频片段的角色信息，确定为第三子音频片段的角色信息，即第一角色信息，以及将第四子音频片段的角色信息确定为第二角色信息(即学生)。
56.下面以一个具体的实施例中，对上述的实施例进行解释说明。具体地，在第一个第二音频片段为0～5分钟的情况下，假设这种情况下，该0～5分钟的音频数据全部为教师的声音，即该0～5分钟的音频数据的角色信息全部为第一角色信息。这种情况下，第一个第二音频片段可以为上述所提及的第一子音频片段。对于一个第二其他音频片段如6～10分钟，将第二其他音频片段的第二其他声纹特征与第二音频片段(第一子音频片段)的声纹特征进行相似度评分。若存在6～8分钟这一时段内的声纹特征与第二音频片段(第一子音频片段)的声纹特征的第二评分值大于或者等于第一预定阈值，则将6～8分钟这一时段内的音频片段确定为第三子音频片段，并将第三子音频片段的角色信息确定为第一角色信息，同时将还未确定角色信息的第8～10分钟，确定为第二角色信息。若6～10分钟这一时段内的声纹特征与第二音频片段(第一子音频片段)的声纹特征的第二评分值大于或者等于第一预定阈值，则将6～10分钟这一时段内的音频片段确定为第三子音频片段，并将第三子音频片段的角色信息确定为第一角色信息，这种情况下，则无第四子音频片段。
57.在实际的应用过程中，第一预定阈值可以为90％。另外，可以采用现有技术中任何可行的声纹特征提取算法，来分别提取第二音频片段和多个第二其他音频片段的声纹特征，在本技术中，并不对声纹特征提取算法的具体算法进行限制。一种具体的实施例中，可以采用vpr(声纹识别，voice print recognition，简称vpr)算法，来提取第二音频片段和多个第二其他音频片段的声纹特征。
58.为了进一步地较为准确地确定出目标音频数据的目标角色信息，在一些实施例上，上述步骤s203具体可以通过步骤s2031、步骤s2032以及步骤s2033来实现。步骤s2031，确定具有目标时间戳信息的第一目标音频片段和第二目标音频片段，上述第一目标音频片段为多个上述第一音频片段中的一个，上述第二目标音频片段为多个上述第二音频片段中的一个；步骤s2032，在上述第一目标音频片段和上述第二目标音频片段的角色信息相同的情况下，将上述第一目标音频片段和上述第二目标音频片段的角色信息，确定为上述目标时间戳信息对应的上述目标音频数据中的音频片段的上述目标角色信息；步骤s2033，在上述第一目标音频片段的上述第一评分值小于上述第一预定阈值且大于或者等于第二预定阈值，以及上述第二目标音频片段的角色信息为上述第一角色信息的情况下，将上述第一角色信息确定为上述目标时间戳信息对应的上述目标音频数据中的音频片段的上述目标
角色信息。也就是说，在第一音频数据和第二音频数据中相同时间戳下的音频片段对应相同的角色信息的情况下，则将该相同的角色信息，确定为目标音频数据中相同时间戳下的角色信息。例如，在第一音频数据中的0～5分钟与第二音频数据的0～5分钟，它们的角色信息相同，均为第一角色信息，那么将目标音频数据的0～5分钟这一时间段的音频片段的角色信息确定为第一角色信息。若在第一音频数据和第二音频数据中相同时间戳下的音频片段对应不相同的角色信息的情况下，例如，在第一音频数据中的0～5分钟的音频片段的第一评分值处于第二预定阈值与第一预定阈值构成的区间中，则其他的角色信息可以为临时角色信息，而第二音频数据的0～5分钟的音频片段的角色信息为第一角色信息，则将目标音频数据的0～5分钟这一时间段的音频片段的角色信息确定为第一角色信息。
59.另外，在除了上述情况外，将目标音频数据中不具有第一角色信息或者不具有第二角色信息的音频片段的角色信息确定为第二角色信息。即对于目标音频数据中存在着两种角色信息，即第一角色信息和第二角色信息。
60.在一些具体的实现过程中，上述步骤s203还可以通过步骤s2031、步骤s2032、步骤s2033以及步骤s2034来实现。步骤s2031，确定时间戳信息相同的第三目标音频片段和第四目标音频片段，上述第三目标音频片段为多个上述第一音频片段中的一个，上述第四目标音频片段为多个上述第二音频片段中的一个；步骤s2032，确定上述第三目标音频片段的第一声音强度，以及确定上述第四目标音频片段的第二声音强度；步骤s2033，在上述第一声音强度大于上述第二声音强度的情况下，将上述第三目标音频片段确定为目标音频片段，在上述第一声音强度小于上述第二声音强度的情况下，将上述第四目标音频片段确定为上述目标音频片段；步骤s2034，由多个上述目标音频片段组合得到上述目标音频数据，这样较为简单地确定声音质量较好的目标音频数据，进一步地保证了后续采用目标音频数据进行语音转换，得到的目标文字信息较为准确。
61.当然，在实际的应用过程中，并不限于通过对多个第一音频片段和多个第二音频片段进行声音强度评估，来得到目标音频数据。还可以通过基于神经网络等建立声音质量评估模型，对多个第一音频片段和多个第二音频片段进行声音强度评估，来得到目标音频数据。
62.下面通过一个具体的实施例来对上述的实施例进行解释说明。例1，若存在一个第三目标音频片段为0～5分钟，一个第四目标音频片段为0～5分钟，若该第三目标音频片段的声音强度大于该第四目标音频片段的声音强度，则将第三目标音频片段确定为目标音频片段；若该第四目标音频片段的声音强度大于该第三目标音频片段的声音强度，则将第四目标音频片段确定为目标音频片段。例2，若存在一个第三目标音频片段为0～5分钟，一个第四目标音频片段为0～10分钟，对于时间戳相同的0～5分钟这一时间段内的音频片段则可以采用例1所提及的方法进行确定，由于第三目标音频片段在5～10这一时间段内不具有声音，而第四目标音频片段在5～10这一时间段内具有声音，第四目标音频片段在5～10这一时间段内的声音强度必然大于第三目标音频片段在5～10这一时间段内的声音强度，故可以将第四目标音频片段在5～10这一时间段内的音频片段确定为目标音频片段。
63.在一些实现过程中，上述步骤s204还可以通过步骤s2041以及步骤s2042来实现。步骤s2041，采用自动语音识别算法(automatic speech recognition，简称asr)，对上述目标音频数据进行语音识别，得到上述目标文字信息；步骤s2042，根据上述目标音频数据对
应的上述目标角色信息，为对应的上述目标文字信息添加上述目标角色信息。在该方案中，采用自动语音识别算法，对目标音频数据进行语音识别，这样保证了得到的目标文字信息较为准确，以及语音识别的效果较好，进一步地保证了为对应的目标文字信息添加目标角色信息较为准确。
64.为了使得本领域技术人员能够更加清楚地了解本技术的技术方案，以下将结合具体的实施例对本技术的教学场景下的角色确定方法的实现过程进行详细说明。
65.本实施例涉及一种具体的教学场景下的角色确定方法，该角色确定方法应用在服务器中，如图3所示，包括如下步骤：
66.步骤s1：通过教师佩戴的领夹麦克风采集第一音频数据，以及通过全向麦克风采集第二音频数据。
67.步骤s2：对于服务器来说，接收第一音频数据和第二音频数据。并采用vad算法分别对第一音频数据和第二音频数据进行语音活性检测，得到第一音频数据对应的多个第一音频片段，以及得到第二音频数据对应的多个第二音频片段。
68.步骤s3：由于多个第一音频片段和多个第二音频片段均为按照时间由小到大的顺序进行排列的。故自动的将第一个第一音频片段的角色信息自动注册为第一角色信息，第一个第二音频片段的角色信息自动注册为混合角色信息。
69.步骤s4：对第一个第一音频片段进行vpr声纹特征提取，得到第一声纹特征，并将第一声纹特征存入到数据库中(即第一声纹特征入库)。对多个第一其他音频片段进行vpr声纹特征提取，得到多个第一其他声纹特征。确定第一声纹特征分别与各第一其他声纹特征的相似度评分，得到多个第一评分值。在第一评分值大于或者等于第一预定阈值的情况下，将对应的第一其他音频片段的角色信息，确定为第一角色信息；将小于第二预定阈值的第一评分值对应的第一其他音频片段不添加角色信息；将小于第一预定阈值且大于或者等于第二预定阈值的第一评分值对应的第一其他音频片段确定为临时角色信息。
70.步骤s5：对于第一个第二音频片段存在与第一个第一音频片段相同，但是也存在着第一个第二音频片段包括第一个第一音频片段(第一个第二音频片段与第一个第一音频片段存在重叠)的情况，故可以采用第一个第一音频片段的第一角色信息，修改第一个第二音频片段的角色信息，使得第一个第二音频片段的角色信息可以仅为第一角色信息或者包括第一角色信息和第二角色信息的混合角色信息。具体的过程为：确定第一个第二音频片段中，与第一个第一音频片段的时间戳信息相同的第一子音频片段，并将第一子音频片段的角色信息，确定为第一角色信息，第一角色信息为第一个第一音频片段的角色信息；将第二子音频片段的角色信息确定为第二角色信息，第二子音频片段为第一个第二音频片段中，除了第一子音频片段之外的其他的音频片段，第二角色信息与第一角色信息不同。
71.步骤s6：对第一子音频片段以及多个第二其他音频片段进行vpr声纹特征提取，得到第一子音频片段对应的第一子声纹特征，以及多个第二其他音频片段对应的多个第二其他声纹特征；确定第一子声纹特征分别与多个第二其他声纹特征的相似度评分，得到多个第二评分值；在第二评分值大于或者等于第一预定阈值的情况下，将对应的第二其他音频片段中音频片段，确定为第三子音频片段，并将第三子音频片段的角色信息确定为第一角色信息；将多个第二其他音频片段中不具有第一角色信息的音频片段，确定为第四子音频片段，并将第四子音频片段的角色信息确定为第二角色信息。
72.步骤s7：对多个上述第一音频片段和多个上述第二音频片段进行声音质量评估，得到目标音频数据。
73.步骤s8：基于多个第一音频片段的角色信息以及多个第二音频片段的角色信息，确定目标音频数据的目标角色信息。
74.步骤s9：将目标音频数据转换为目标文字信息，并根据目标音频数据的目标角色信息，为对应的目标文字信息添加目标角色信息。
75.通过上述的角色确定方法，可以将第一音频数据和第二音频数据转换为可以目标角色、目标音频数据以及目标文字信息的组成形式，并进行存盘归档，从而可以通过自动化手段得到了一堂课的完整的教学数据。为后续对接其他文本或音频等综合教育智能化处理系统提供了有力的数据支撑。
76.本技术实施例还提供了一种教学场景下的角色确定装置，需要说明的是，本技术实施例的教学场景下的角色确定装置可以用于执行本技术实施例所提供的用于教学场景下的角色确定方法。该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。
77.以下对本技术实施例提供的教学场景下的角色确定装置进行介绍。
78.图4是根据本技术实施例的教学场景下的角色确定装置的结构示意图。如图4所示，该角色确定装置包括：
79.检测单元10，用于对第一音频数据进行语音活性检测，得到多个第一音频片段，以及对第二音频数据进行语音活性检测，得到多个第二音频片段，多个上述第一音频片段和多个上述第二音频片段均分别按照时间由小到大的顺序进行排列，且上述第一音频数据和上述第二音频数据的音频采集设备不同；
80.在实际的应用过程中，通常音频采集设备采集的第一音频数据和第二音频数据中会有噪音，也就是说，第一音频数据和第二音频数据中并不全是有效的语音片段。因此，对第一音频数据和第二音频数据进行语音活性检测，这样可以过滤掉第一音频数据和第二音频数据中的噪音，这样保证了整体的系统的稳定性较高。具体地，可以采用语音活性检测算法(voice activity detection，简称vad)分别对第一音频数据和第二音频数据进行语音活性检测。当然，并不限于通过语音活性检测算法来对第一音频数据和第二音频数据进行语音活性检测，还可以采用其他的可行的噪音滤除算法，只需可以过滤出第一音频数据和第二音频数据的噪音即可。
81.在上述检测单元中，第一音频数据和上述第二音频数据的音频采集设备不同。本技术的一种具体的实施例中，在教学场景下，第一音频数据可以为教师佩戴的领夹麦克风采集的音频数据。第二音频数据可以为安装在教室中的全向麦克风或者安装在教室中的监控设备自带的麦克风。另外，上述第一音频数据和第二音频数据的整体时长可以相同。例如，第一音频数据的时长为40分钟，而第二音频数据的时长也可以为40分钟。
82.在上述检测单元中，多个上述第一音频片段和多个上述第二音频片段均分别按照时间由小到大的顺序进行排列，即为多个上述第一音频片段按照时间由小到大的顺序进行排列，多个上述第二音频片段按照时间由小到大的顺序进行排列。为了较为简单地进行解
释，本技术以多个上述第一音频片段按照时间由小到大的顺序进行排列为例进行解释说明。一种具体的实施例中，第一音频数据的时长为40分钟，那么多个第一音频片段分别的时间戳信息分别为0～5分钟，8～15分钟，10～20分钟等等，那么则按照0～5分钟，8～15分钟，10～20分钟等等的顺序，对多个第一音频片段进行排列。
83.第一确定单元20，用于基于第一个上述第一音频片段的声纹特征和角色信息，确定多个第一其他音频片段的角色信息以及第一个上述第二音频片段的角色信息，且基于第一个上述第二音频片段的声纹特征和角色信息，确定多个第二其他音频片段的角色信息，上述第一其他音频片段为除第一个上述第一音频片段之外的上述第一音频片段，上述第二其他音频片段为除第一个上述第二音频片段之外的上述第二音频片段，第一个上述第二音频片段的时间戳信息与第一个上述第一音频片段的时间戳信息至少部分重合；
84.在实际的应用过程中，在第一音频数据为教师佩戴的领夹麦克风采集的音频数据的情况下，则第一个第一音频片段的角色信息必然是教师，故在知晓第一个第一音频片段的声纹特征以及角色信息的情况下，可以基于第一个第一音频片段的声纹特征和角色信息，确定多个第一其他音频片段的角色信息以及第一个第二音频片段的角色信息。
85.在上述第一确定单元中，多个第一其他音频片段中的任意一个第一其他音频片段的时间戳信息(即包括该第一其他音频片段的开始时间以及结束时间)是晚于第一个第一音频片段的时间戳信息。多个第二其他音频片段中的任意一个第二其他音频片段的时间戳信息(即包括该第二其他音频片段的开始时间以及结束时间)是晚于第一个第二音频片段的时间戳信息。
86.第二确定单元30，用于基于多个上述第一音频片段的角色信息以及多个上述第二音频片段的角色信息，确定目标音频数据的目标角色信息，上述目标音频数据为对多个上述第一音频片段和多个上述第二音频片段进行声音质量评估得到的；
87.具体地，在知晓多个第一音频片段的角色信息以及多个第二音频片段的角色信息的情况下，将多个第一音频片段的角色信息与多个第二音频片段的角色信息进行相互校验，这样保证了得到的目标音频数据的目标角色信息较为准确，从而提高了整体的准确率。
88.具体地，上述目标音频数据的时长与第一音频数据和第二音频数据的时长是相同的。
89.执行单元40，用于将上述目标音频数据转换为目标文字信息，并根据上述目标音频数据的上述目标角色信息，为对应的上述目标文字信息添加上述目标角色信息。
90.在实际的应用过程中，可以采用现有技术中任何可行的语音转换算法，以将目标音频数据转换为目标文字信息。
91.上述的角色确定装置中，检测单元用于分别对第一音频数据和第二音频数据进行语音活性检测，得到多个第一音频片段和多个第二音频片段；第一确定单元用于基于第一个第一音频片段的声纹特征和角色信息，确定多个第一其他音频片段的角色信息以及第一个第二音频片段的角色信息，且基于第一个第二音频片段的声纹特征和角色信息，确定多个第二其他音频片段的角色信息；第二确定单元用于基于多个第一音频片段的角色信息以及多个第二音频片段的角色信息，确定目标音频数据的目标角色信息；执行单元用于将目标音频数据转换为目标文字信息，并根据目标音频数据的目标角色信息，为对应的目标文字信息添加目标角色信息。与现有技术中通过启动用户数据模型，确定目标音频数据中的
目标角色信息相比，本方案无需启动用户数据模型，而是在知晓第一个第一音频片段的角色信息和声纹特征的情况下，基于第一个第一音频片段的声纹特征和角色信息，确定多个第一其他音频片段的角色信息以及第一个第二音频片段的角色信息，且基于第一个第二音频片段的声纹特征和角色信息，确定多个第二其他音频片段的角色信息，这样保证了对设备的要求较低，从而保证了整体的成本较低。且本方案基于多个第一音频片段的角色信息以及多个第二音频片段的角色信息，确定目标音频数据的目标角色信息，这样保证了确定的目标角色信息较为准确，进而解决了现有技术中教学场景下的角色分离因需要启动预设的用户数据模型导致的成本较高以及计算量较大的问题。
92.本技术的教学场景下的角色确定装置中，利用当前的教室已具备的领夹麦克风以及全向麦克风，分别采用第一音频数据和第二音频数据(由于第二音频数据是由全向麦克风或者监控识别自带的麦克风采集的音频数据，故第二音频数据中的角色信息包括教师和学生)。再分别对第一音频数据和第二音频数据进行语音活性检测，得到多个第一音频片段和多个第二音频片段；然后，基于第一个第一音频片段的声纹特征和角色信息，确定多个第一其他音频片段的角色信息以及第一个第二音频片段的角色信息，且基于第一个第二音频片段的声纹特征和角色信息，确定多个第二其他音频片段的角色信息；之后，基于多个第一音频片段的角色信息以及多个第二音频片段的角色信息，确定目标音频数据的目标角色信息，这样较为巧妙地在无需启动用户数据模型的情况下，实现了目标音频数据的角色确定，这样大大降低了维护的人力成本和时间成本。最后，将目标音频数据转换为目标文字信息，并根据目标音频数据的目标角色信息，为对应的目标文字信息添加目标角色信，这样自动化地实现了一堂教学活动结束自动化产出，教师和学生对应的结构化数据(教师/学生-讲话内容-时间戳)，为后续的归档、绩效抽查、教学质量评估等提供高质量的数据支撑。
93.具体实现过程中，上述第一确定单元包括第一提取模块、第一确定模块和第二确定模块，其中，上述第一提取模块用于提取第一个上述第一音频片段的声纹特征，得到第一个第一声纹特征，以及提取多个上述第一其他音频片段的声纹特征，得到多个第一其他声纹特征；上述第一确定模块用于确定第一个上述第一声纹特征分别与各上述第一其他声纹特征的相似度评分，得到多个第一评分值；上述第二确定模块用于将大于或者等于第一预定阈值的上述第一评分值对应的上述第一其他音频片段的角色信息，确定为第一角色信息，上述第一角色信息为第一个上述第一音频片段的角色信息。在该方案中，通过计算第一其他声纹特征与第一个声纹特征之间的相似度，得到多个第一评分值，再确定第一评分值高于第一预定阈值的第一其他音频片段且将其的角色信息确定为第一个第一音频片段的角色信息，即第一角色信息，这样进一步地实现了较为巧妙地确定出第一音频数据中的第一角色信息，即属于教师的音频。
94.在实际的应用过程中，第一预定阈值可以为90％。另外，可以采用现有技术中任何可行的声纹特征提取算法，来分别提取第一音频片段和多个第一其他音频片段的声纹特征，在本技术中，并不对声纹特征提取算法的具体算法进行限制。一种具体的实施例中，可以采用vpr(声纹识别，voice print recognition，简称vpr)算法，来提取第一音频片段和多个第一其他音频片段的声纹特征。
95.其次，考虑到在学生和教师之间的距离较小的情况下，教师的领夹麦克风也会存在采集到学生的音频的情况下，那么这种情况下，学生的音频的声纹特征与教师的音频的
声纹特征之间的相似度较小，故还可以将小于第二预定阈值的第一评分值对应的第一其他音频片段，不添加角色信息。后续可以通过第二音频数据来得到上述情况下的学生角色。本技术的一种具体的实施例中，上述第二预定阈值可以为60％。
96.同时，对于第一评分值处于60％～90％的第一其他音频片段，则可以为这样的第一其他片段添加临时角色信息，后续再基于多个第二音频片段的角色信息进行反向验证，这样进一步地保证了后续得到的目标音频数据的目标角色信息较为准确。
97.为了较为简单地确定出第二音频数据中的角色信息，本技术的上述第一确定单元包括第三确定模块和第四确定模块，其中，上述第三确定模块用于确定第一个上述第二音频片段中，与第一个上述第一音频片段的时间戳信息相同的第一子音频片段，并将上述第一子音频片段的角色信息，确定为第一角色信息，上述第一角色信息为第一个上述第一音频片段的角色信息；上述第四确定模块用于将第二子音频片段的角色信息确定为第二角色信息，上述第二子音频片段为第一个上述第二音频片段中，除了上述第一子音频片段之外的其他的音频片段，上述第二角色信息与上述第一角色信息不同。在实际的应用过程中，由于第二音频数据的音频采集设备可以为教室内的全向麦克风或者监控设备自带的麦克风，那么第二音频数据中必然包含第一音频数据，即第一个第二音频片段与第一个第一音频片段的时间戳信息至少部分重合，即第一个第二音频片段与第一个第一音频片段的时间戳相同，或者，第一个第一音频片段的时间戳处于第一个第二音频片段的时间戳的范围内，故可以基于第一个第一音频片段的声纹特征和角色信息，可以较为简单地确定第一个第二音频片段的角色信息。
98.另外，在第一个第一音频片段的时间戳处于第一个第二音频片段的时间戳的范围内的情况下，例如，第一个第一音频片段的时间戳为0～5分钟，第一个第二音频片段的时间戳为0～10分钟，其中，0～5分钟为教师讲课，5～10分钟为学生回答问题。则可以将第一个第一音频片段的角色信息，确定为第一个第二音频片段的0～5分钟(即第一子音频片段)对应的音频数据的角色信息，即第一角色信息(教师)，从而也可以确定出第一个第二音频片段的5～10分钟(即第二子音频片段)对应的音频数据的角色信息为第二角色信息(即学生)。
99.在第一个第二音频片段与第一个第一音频片段的时间戳相同的情况下，例如，第一个第一音频片段的时间戳为0～5分钟，第一个第二音频片段的时间戳为0～5分钟，则可以将第一个第一音频片段的角色信息，确定为第一个第二音频片段的角色信息。也就是说，在第一个第二音频片段与第一个第一音频片段的时间戳相同的情况下，第一子音频片段可以为整个第一个第二音频片段，以及第二子音频片段可以无。
100.上述第一确定单元包括第二提取模块、第五确定模块、第六确定模块和第七确定模块，其中，第二提取模块用于提取上述第一子音频片段的声纹特征，得到第一子声纹特征，以及提取多个第二其他音频片段的声纹特征，得到多个第二其他声纹特征；上述第五确定模块用于确定上述第一子声纹特征分别与各上述第二其他声纹特征的相似度评分，得到多个第二评分值；上述第六确定模块用于将大于或者等于第一预定阈值的上述第二评分值对应的上述第二其他音频片段中音频片段，确定为第三子音频片段，并将上述第三子音频片段的角色信息确定为上述第一角色信息；上述第七确定模块用于将多个上述第二其他音频片段中不具有上述第一角色信息的音频片段，确定为第四子音频片段，并将上述第四子
音频片段的角色信息确定为上述第二角色信息。在本方案中，在知晓第一个第二音频片段的角色信息的情况下，则可以计算第二其他声纹特征与第一子声纹特征的相似度评分，得到多个第二评分值，且第二评分值大于或者等于第一预定阈值的音频片段，确定为第三子音频片段，并将第一子音频片段的角色信息，确定为第三子音频片段的角色信息，即第一角色信息，以及将第四子音频片段的角色信息确定为第二角色信息(即学生)。
101.下面以一个具体的实施例中，对上述的实施例进行解释说明。具体地，在第一个第二音频片段为0～5分钟的情况下，假设这种情况下，该0～5分钟的音频数据全部为教师的声音，即该0～5分钟的音频数据的角色信息全部为第一角色信息。这种情况下，第一个第二音频片段可以为上述所提及的第一子音频片段。对于一个第二其他音频片段如6～10分钟，将第二其他音频片段的第二其他声纹特征与第二音频片段(第一子音频片段)的声纹特征进行相似度评分。若存在6～8分钟这一时段内的声纹特征与第二音频片段(第一子音频片段)的声纹特征的第二评分值大于或者等于第一预定阈值，则将6～8分钟这一时段内的音频片段确定为第三子音频片段，并将第三子音频片段的角色信息确定为第一角色信息，同时将还未确定角色信息的第8～10分钟，确定为第二角色信息。若6～10分钟这一时段内的声纹特征与第二音频片段(第一子音频片段)的声纹特征的第二评分值大于或者等于第一预定阈值，则将6～10分钟这一时段内的音频片段确定为第三子音频片段，并将第三子音频片段的角色信息确定为第一角色信息，这种情况下，则无第四子音频片段。
102.在实际的应用过程中，第一预定阈值可以为90％。另外，可以采用现有技术中任何可行的声纹特征提取算法，来分别提取第二音频片段和多个第二其他音频片段的声纹特征，在本技术中，并不对声纹特征提取算法的具体算法进行限制。一种具体的实施例中，可以采用vpr(声纹识别，voice print recognition，简称vpr)算法，来提取第二音频片段和多个第二其他音频片段的声纹特征。
103.为了进一步地较为准确地确定出目标音频数据的目标角色信息，在一些实施例上，上述第二确定单元包括第八确定模块、第九确定模块和第十确定模块，其中，上述第八确定模块用于确定具有目标时间戳信息的第一目标音频片段和第二目标音频片段，上述第一目标音频片段为多个上述第一音频片段中的一个，上述第二目标音频片段为多个上述第二音频片段中的一个；上述第九确定模块用于在上述第一目标音频片段和上述第二目标音频片段的角色信息相同的情况下，将上述第一目标音频片段和上述第二目标音频片段的角色信息，确定为上述目标时间戳信息对应的上述目标音频数据中的音频片段的上述目标角色信息；上述第十确定模块用于在上述第一目标音频片段的上述第一评分值小于上述第一预定阈值且大于或者等于第二预定阈值，以及上述第二目标音频片段的角色信息为上述第一角色信息的情况下，将上述第一角色信息确定为上述目标时间戳信息对应的上述目标音频数据中的音频片段的上述目标角色信息。也就是说，在第一音频数据和第二音频数据中相同时间戳下的音频片段对应相同的角色信息的情况下，则将该相同的角色信息，确定为目标音频数据中相同时间戳下的角色信息。例如，在第一音频数据中的0～5分钟与第二音频数据的0～5分钟，它们的角色信息相同，均为第一角色信息，那么将目标音频数据的0～5分钟这一时间段的音频片段的角色信息确定为第一角色信息。若在第一音频数据和第二音频数据中相同时间戳下的音频片段对应不相同的角色信息的情况下，例如，在第一音频数据中的0～5分钟的音频片段的第一评分值处于第二预定阈值与第一预定阈值构成的区间
中，则其他的角色信息可以为临时角色信息，而第二音频数据的0～5分钟的音频片段的角色信息为第一角色信息，则将目标音频数据的0～5分钟这一时间段的音频片段的角色信息确定为第一角色信息。
104.另外，在除了上述情况外，将目标音频数据中不具有第一角色信息或者不具有第二角色信息的音频片段的角色信息确定为第二角色信息。即对于目标音频数据中存在着两种角色信息，即第一角色信息和第二角色信息。
105.在一些具体的实现过程中，上述第二确定单元还包括第十一确定模块、第十二确定模块、第十三确定模块和组合模块，其中，上述第十一确定模块用于确定时间戳信息相同的第三目标音频片段和第四目标音频片段，上述第三目标音频片段为多个上述第一音频片段中的一个，上述第四目标音频片段为多个上述第二音频片段中的一个；上述第十二确定模块用于确定上述第三目标音频片段的第一声音强度，以及确定上述第四目标音频片段的第二声音强度；上述十三确定模块用于在上述第一声音强度大于上述第二声音强度的情况下，将上述第三目标音频片段确定为目标音频片段，在上述第一声音强度小于上述第二声音强度的情况下，将上述第四目标音频片段确定为上述目标音频片段；上述组合模块用于由多个上述目标音频片段组合得到上述目标音频数据，这样较为简单地确定声音质量较好的目标音频数据，进一步地保证了后续采用目标音频数据进行语音转换，得到的目标文字信息较为准确。
106.当然，在实际的应用过程中，并不限于通过对多个第一音频片段和多个第二音频片段进行声音强度评估，来得到目标音频数据。还可以通过基于神经网络等建立声音质量评估模型，对多个第一音频片段和多个第二音频片段进行声音强度评估，来得到目标音频数据。
107.下面通过一个具体的实施例来对上述的实施例进行解释说明。例1，若存在一个第三目标音频片段为0～5分钟，一个第四目标音频片段为0～5分钟，若该第三目标音频片段的声音强度大于该第四目标音频片段的声音强度，则将第三目标音频片段确定为目标音频片段；若该第四目标音频片段的声音强度大于该第三目标音频片段的声音强度，则将第四目标音频片段确定为目标音频片段。例2，若存在一个第三目标音频片段为0～5分钟，一个第四目标音频片段为0～10分钟，对于时间戳相同的0～5分钟这一时间段内的音频片段则可以采用例1所提及的方法进行确定，由于第三目标音频片段在5～10这一时间段内不具有声音，而第四目标音频片段在5～10这一时间段内具有声音，第四目标音频片段在5～10这一时间段内的声音强度必然大于第三目标音频片段在5～10这一时间段内的声音强度，故可以将第四目标音频片段在5～10这一时间段内的音频片段确定为目标音频片段。
108.在一些实现过程中，上述执行单元还包括识别模块和添加模块，其中，识别模块用于采用自动语音识别算法(automatic speech recognition，简称asr)，对上述目标音频数据进行语音识别，得到上述目标文字信息；上述添加模块用于根据上述目标音频数据对应的上述目标角色信息，为对应的上述目标文字信息添加上述目标角色信息。在该方案中，采用自动语音识别算法，对目标音频数据进行语音识别，这样保证了得到的目标文字信息较为准确，以及语音识别的效果较好，进一步地保证了为对应的目标文字信息添加目标角色信息较为准确。
109.上述教学场景下的角色确定装置包括处理器和存储器，上述检测单元、第一确定
单元、第二确定单元和执行单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。
110.处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决现有技术中教学场景下的角色分离因需要启动预设的用户数据模型导致的成本较高以及计算量较大的问题。
111.存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)，存储器包括至少一个存储芯片。
112.本发明实施例提供了一种计算机可读存储介质，上述计算机可读存储介质包括存储的程序，其中，在上述程序运行时控制上述计算机可读存储介质所在设备执行上述教学场景下的角色确定方法。
113.具体地，教学场景下的角色确定方法包括：
114.步骤s201，对第一音频数据进行语音活性检测，得到多个第一音频片段，以及对第二音频数据进行语音活性检测，得到多个第二音频片段，多个上述第一音频片段和多个上述第二音频片段均分别按照时间由小到大的顺序进行排列，且上述第一音频数据和上述第二音频数据的音频采集设备不同；
115.步骤s202，基于第一个上述第一音频片段的声纹特征和角色信息，确定多个第一其他音频片段的角色信息以及第一个上述第二音频片段的角色信息，且基于第一个上述第二音频片段的声纹特征和角色信息，确定多个第二其他音频片段的角色信息，上述第一其他音频片段为除第一个上述第一音频片段之外的上述第一音频片段，上述第二其他音频片段为除第一个上述第二音频片段之外的上述第二音频片段，第一个上述第二音频片段的时间戳信息与第一个上述第一音频片段的时间戳信息至少部分重合；
116.步骤s203，基于多个上述第一音频片段的角色信息以及多个上述第二音频片段的角色信息，确定目标音频数据的目标角色信息，上述目标音频数据为对多个上述第一音频片段和多个上述第二音频片段进行声音质量评估得到的；
117.步骤s204，将上述目标音频数据转换为目标文字信息，并根据上述目标音频数据的上述目标角色信息，为对应的上述目标文字信息添加上述目标角色信息。
118.本发明实施例提供了一种电子装置，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过上述计算机程序执行上述的教学场景下的角色确定方法。
119.具体地，教学场景下的角色确定方法包括：
120.步骤s201，对第一音频数据进行语音活性检测，得到多个第一音频片段，以及对第二音频数据进行语音活性检测，得到多个第二音频片段，多个上述第一音频片段和多个上述第二音频片段均分别按照时间由小到大的顺序进行排列，且上述第一音频数据和上述第二音频数据的音频采集设备不同；
121.步骤s202，基于第一个上述第一音频片段的声纹特征和角色信息，确定多个第一其他音频片段的角色信息以及第一个上述第二音频片段的角色信息，且基于第一个上述第二音频片段的声纹特征和角色信息，确定多个第二其他音频片段的角色信息，上述第一其
他音频片段为除第一个上述第一音频片段之外的上述第一音频片段，上述第二其他音频片段为除第一个上述第二音频片段之外的上述第二音频片段，第一个上述第二音频片段的时间戳信息与第一个上述第一音频片段的时间戳信息至少部分重合；
122.步骤s203，基于多个上述第一音频片段的角色信息以及多个上述第二音频片段的角色信息，确定目标音频数据的目标角色信息，上述目标音频数据为对多个上述第一音频片段和多个上述第二音频片段进行声音质量评估得到的；
123.步骤s204，将上述目标音频数据转换为目标文字信息，并根据上述目标音频数据的上述目标角色信息，为对应的上述目标文字信息添加上述目标角色信息。
124.本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现至少以下步骤：
125.步骤s201，对第一音频数据进行语音活性检测，得到多个第一音频片段，以及对第二音频数据进行语音活性检测，得到多个第二音频片段，多个上述第一音频片段和多个上述第二音频片段均分别按照时间由小到大的顺序进行排列，且上述第一音频数据和上述第二音频数据的音频采集设备不同；
126.步骤s202，基于第一个上述第一音频片段的声纹特征和角色信息，确定多个第一其他音频片段的角色信息以及第一个上述第二音频片段的角色信息，且基于第一个上述第二音频片段的声纹特征和角色信息，确定多个第二其他音频片段的角色信息，上述第一其他音频片段为除第一个上述第一音频片段之外的上述第一音频片段，上述第二其他音频片段为除第一个上述第二音频片段之外的上述第二音频片段，第一个上述第二音频片段的时间戳信息与第一个上述第一音频片段的时间戳信息至少部分重合；
127.步骤s203，基于多个上述第一音频片段的角色信息以及多个上述第二音频片段的角色信息，确定目标音频数据的目标角色信息，上述目标音频数据为对多个上述第一音频片段和多个上述第二音频片段进行声音质量评估得到的；
128.步骤s204，将上述目标音频数据转换为目标文字信息，并根据上述目标音频数据的上述目标角色信息，为对应的上述目标文字信息添加上述目标角色信息。
129.本文中的设备可以是服务器、pc、pad、手机等。
130.本技术还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有至少如下方法步骤的程序：
131.步骤s201，对第一音频数据进行语音活性检测，得到多个第一音频片段，以及对第二音频数据进行语音活性检测，得到多个第二音频片段，多个上述第一音频片段和多个上述第二音频片段均分别按照时间由小到大的顺序进行排列，且上述第一音频数据和上述第二音频数据的音频采集设备不同；
132.步骤s202，基于第一个上述第一音频片段的声纹特征和角色信息，确定多个第一其他音频片段的角色信息以及第一个上述第二音频片段的角色信息，且基于第一个上述第二音频片段的声纹特征和角色信息，确定多个第二其他音频片段的角色信息，上述第一其他音频片段为除第一个上述第一音频片段之外的上述第一音频片段，上述第二其他音频片段为除第一个上述第二音频片段之外的上述第二音频片段，第一个上述第二音频片段的时间戳信息与第一个上述第一音频片段的时间戳信息至少部分重合；
133.步骤s203，基于多个上述第一音频片段的角色信息以及多个上述第二音频片段的
角色信息，确定目标音频数据的目标角色信息，上述目标音频数据为对多个上述第一音频片段和多个上述第二音频片段进行声音质量评估得到的；
134.步骤s204，将上述目标音频数据转换为目标文字信息，并根据上述目标音频数据的上述目标角色信息，为对应的上述目标文字信息添加上述目标角色信息。
135.显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。
136.本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
137.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
138.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
139.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
140.在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
141.存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)。存储器是计算机可读介质的示例。
142.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、
数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
143.还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
144.从以上的描述中，可以看出，本技术上述的实施例实现了如下技术效果：
145.1)、本技术的角色确定方法与现有技术中通过启动用户数据模型，确定目标音频数据中的目标角色信息相比，本方案无需启动用户数据模型，而是在知晓第一个第一音频片段的角色信息和声纹特征的情况下，基于第一个第一音频片段的声纹特征和角色信息，确定多个第一其他音频片段的角色信息以及第一个第二音频片段的角色信息，且基于第一个第二音频片段的声纹特征和角色信息，确定多个第二其他音频片段的角色信息，这样保证了对设备的要求较低，从而保证了整体的成本较低。且本方案基于多个第一音频片段的角色信息以及多个第二音频片段的角色信息，确定目标音频数据的目标角色信息，这样保证了确定的目标角色信息较为准确，进而解决了现有技术中教学场景下的角色分离因需要启动预设的用户数据模型导致的成本较高以及计算量较大的问题。
146.2)、本技术的角色确定装置与现有技术中通过启动用户数据模型，确定目标音频数据中的目标角色信息相比，本方案无需启动用户数据模型，而是在知晓第一个第一音频片段的角色信息和声纹特征的情况下，基于第一个第一音频片段的声纹特征和角色信息，确定多个第一其他音频片段的角色信息以及第一个第二音频片段的角色信息，且基于第一个第二音频片段的声纹特征和角色信息，确定多个第二其他音频片段的角色信息，这样保证了对设备的要求较低，从而保证了整体的成本较低。且本方案基于多个第一音频片段的角色信息以及多个第二音频片段的角色信息，确定目标音频数据的目标角色信息，这样保证了确定的目标角色信息较为准确，进而解决了现有技术中教学场景下的角色分离因需要启动预设的用户数据模型导致的成本较高以及计算量较大的问题。
147.以上所述仅为本技术的优选实施例而已，并不用于限制本技术，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

技术特征：
1.一种教学场景下的角色确定方法，其特征在于，包括：对第一音频数据进行语音活性检测，得到多个第一音频片段，以及对第二音频数据进行语音活性检测，得到多个第二音频片段，多个所述第一音频片段和多个所述第二音频片段均分别按照时间由小到大的顺序进行排列，且所述第一音频数据和所述第二音频数据的音频采集设备不同；基于第一个所述第一音频片段的声纹特征和角色信息，确定多个第一其他音频片段的角色信息以及第一个所述第二音频片段的角色信息，且基于第一个所述第二音频片段的声纹特征和角色信息，确定多个第二其他音频片段的角色信息，所述第一其他音频片段为除第一个所述第一音频片段之外的所述第一音频片段，所述第二其他音频片段为除第一个所述第二音频片段之外的所述第二音频片段，第一个所述第二音频片段的时间戳信息与第一个所述第一音频片段的时间戳信息至少部分重合；基于多个所述第一音频片段的角色信息以及多个所述第二音频片段的角色信息，确定目标音频数据的目标角色信息，所述目标音频数据为对多个所述第一音频片段和多个所述第二音频片段进行声音质量评估得到的；将所述目标音频数据转换为目标文字信息，并根据所述目标音频数据的所述目标角色信息，为对应的所述目标文字信息添加所述目标角色信息。2.根据权利要求1所述的角色确定方法，其特征在于，基于第一个所述第一音频片段的声纹特征和角色信息，确定多个第一其他音频片段的角色信息，包括：提取第一个所述第一音频片段的声纹特征，得到第一个第一声纹特征，以及提取多个所述第一其他音频片段的声纹特征，得到多个第一其他声纹特征；确定第一个所述第一声纹特征分别与各所述第一其他声纹特征的相似度评分，得到多个第一评分值；将大于或者等于第一预定阈值的所述第一评分值对应的所述第一其他音频片段的角色信息，确定为第一角色信息，所述第一角色信息为第一个所述第一音频片段的角色信息。3.根据权利要求1所述的角色确定方法，其特征在于，基于第一个所述第一音频片段的声纹特征和角色信息，确定第一个所述第二音频片段的角色信息，包括：确定第一个所述第二音频片段中，与第一个所述第一音频片段的时间戳信息相同的第一子音频片段，并将所述第一子音频片段的角色信息，确定为第一角色信息，所述第一角色信息为第一个所述第一音频片段的角色信息；将第二子音频片段的角色信息确定为第二角色信息，所述第二子音频片段为第一个所述第二音频片段中，除了所述第一子音频片段之外的其他的音频片段，所述第二角色信息与所述第一角色信息不同。4.根据权利要求3所述的角色确定方法，其特征在于，基于第一个所述第二音频片段的声纹特征和角色信息，确定多个第二其他音频片段的角色信息，包括：提取所述第一子音频片段的声纹特征，得到第一子声纹特征，以及提取多个第二其他音频片段的声纹特征，得到多个第二其他声纹特征；确定所述第一子声纹特征分别与各所述第二其他声纹特征的相似度评分，得到多个第二评分值；将大于或者等于第一预定阈值的所述第二评分值对应的所述第二其他音频片段中音
频片段，确定为第三子音频片段，并将所述第三子音频片段的角色信息确定为所述第一角色信息；将多个所述第二其他音频片段中不具有所述第一角色信息的音频片段，确定为第四子音频片段，并将所述第四子音频片段的角色信息确定为所述第二角色信息。5.根据权利要求2所述的角色确定方法，其特征在于，基于多个所述第一音频片段的角色信息以及多个所述第二音频片段的角色信息，确定目标音频数据的目标角色信息，包括：确定具有目标时间戳信息的第一目标音频片段和第二目标音频片段，所述第一目标音频片段为多个所述第一音频片段中的一个，所述第二目标音频片段为多个所述第二音频片段中的一个；在所述第一目标音频片段和所述第二目标音频片段的角色信息相同的情况下，将所述第一目标音频片段和所述第二目标音频片段的角色信息，确定为所述目标时间戳信息对应的所述目标音频数据中的音频片段的所述目标角色信息；在所述第一目标音频片段的所述第一评分值小于所述第一预定阈值且大于或者等于第二预定阈值，以及所述第二目标音频片段的角色信息为所述第一角色信息的情况下，将所述第一角色信息确定为所述目标时间戳信息对应的所述目标音频数据中的音频片段的所述目标角色信息。6.根据权利要求1至5中任意一项所述的角色确定方法，其特征在于，对多个所述第一音频片段和多个所述第二音频片段进行声音质量评估，得到所述目标音频数据的过程包括：确定时间戳信息相同的第三目标音频片段和第四目标音频片段，所述第三目标音频片段为多个所述第一音频片段中的一个，所述第四目标音频片段为多个所述第二音频片段中的一个；确定所述第三目标音频片段的第一声音强度，以及确定所述第四目标音频片段的第二声音强度；在所述第一声音强度大于所述第二声音强度的情况下，将所述第三目标音频片段确定为目标音频片段，在所述第一声音强度小于所述第二声音强度的情况下，将所述第四目标音频片段确定为所述目标音频片段；由多个所述目标音频片段组合得到所述目标音频数据。7.根据权利要求1至5中任意一项所述的角色确定方法，其特征在于，将所述目标音频数据转换为目标文字信息，并根据所述目标音频数据的所述目标角色信息，为对应的所述目标文字信息添加所述目标角色信息，包括：采用自动语音识别算法，对所述目标音频数据进行语音识别，得到所述目标文字信息；根据所述目标音频数据对应的所述目标角色信息，为对应的所述目标文字信息添加所述目标角色信息。8.一种教学场景下的角色确定装置，其特征在于，包括：检测单元，用于对第一音频数据进行语音活性检测，得到多个第一音频片段，以及对第二音频数据进行语音活性检测，得到多个第二音频片段，多个所述第一音频片段和多个所述第二音频片段均分别按照时间由小到大的顺序进行排列，且所述第一音频数据和所述第二音频数据的音频采集设备不同；
第一确定单元，用于基于第一个所述第一音频片段的声纹特征和角色信息，确定多个第一其他音频片段的角色信息以及第一个所述第二音频片段的角色信息，且基于第一个所述第二音频片段的声纹特征和角色信息，确定多个第二其他音频片段的角色信息，所述第一其他音频片段为除第一个所述第一音频片段之外的所述第一音频片段，所述第二其他音频片段为除第一个所述第二音频片段之外的所述第二音频片段，第一个所述第二音频片段的时间戳信息与第一个所述第一音频片段的时间戳信息至少部分重合；第二确定单元，用于基于多个所述第一音频片段的角色信息以及多个所述第二音频片段的角色信息，确定目标音频数据的目标角色信息，所述目标音频数据为对多个所述第一音频片段和多个所述第二音频片段进行声音质量评估得到的；执行单元，用于将所述目标音频数据转换为目标文字信息，并根据所述目标音频数据的所述目标角色信息，为对应的所述目标文字信息添加所述目标角色信息。9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述的教学场景下的角色确定方法。10.一种电子设备，其特征在于，包括：一个或多个处理器，存储器，以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行权利要求1至7中任意一项所述的教学场景下的角色确定方法。

技术总结
本申请提供了一种教学场景下的角色确定方法、角色确定装置和电子设备。该方法包括：基于第一个第一音频片段的声纹特征和角色信息，确定多个第一其他音频片段的角色信息以及第一个第二音频片段的角色信息，且基于第一个第二音频片段的声纹特征和角色信息，确定多个第二其他音频片段的角色信息；基于多个第一音频片段的角色信息以及多个第二音频片段的角色信息，确定目标音频数据的目标角色信息；将目标音频数据转换为目标文字信息，并根据目标音频数据的目标角色信息，为对应的目标文字信息添加目标角色信息，解决了现有技术中教学场景下的角色分离因需要启动预设的用户数据模型导致的成本较高以及计算量较大的问题。导致的成本较高以及计算量较大的问题。导致的成本较高以及计算量较大的问题。

技术研发人员：王福强李健陈明武卫东
受保护的技术使用者：北京捷通华声科技股份有限公司
技术研发日：2023.06.21
技术公布日：2023/9/20

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

教学场景下的角色确定方法、角色确定装置和电子设备与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

教学场景下的角色确定方法、角色确定装置和电子设备与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表