一种测试方法、装置、设备以及存储介质与流程
未命名
09-17
阅读:86
评论:0
1.本公开涉及计算机技术领域,尤其涉及语音识别、音频会议和语音编码等技术领域,具体涉及一种测试方法、装置、设备以及存储介质。
背景技术:
2.vad(voice activity detection,语音活性检测)算法是语音信号处理中的一种关键技术,用于识别语音信号中的有效语音区域与非语音区域。
3.在vad算法的测试过程中,通常采用基于错误率的测试方法,即通过检测vad算法将非语音区域误判为语音区域的错误率,去评估vad算法的性能。
技术实现要素:
4.本公开提供了一种测试方法、装置、设备以及存储介质。
5.根据本公开的一方面,提供了一种测试方法,包括:
6.基于待进行测试的目标vad算法,对测试音频进行语音区域识别,得到识别结果;其中,所述识别结果表征识别得到的各语音区域的开始端点和结束端点;
7.利用所述识别结果以及所述测试音频的人工标注结果,计算所述目标vad算法对应的多个指定测试指标的指标值;其中,所述人工标注结果表征标注得到的各语音区域的开始端点和结束端点;
8.获得针对指定测试需求所确定的、所述多个指定测试指标的参考指标值;
9.基于所述目标vad算法对应的多个指定测试指标的指标值,以及所获得的参考指标值,确定所述目标vad算法在所述指定测试需求下的测试结果。
10.根据本公开的另一方面,提供了一种测试装置,包括:
11.识别模块,用于基于待进行测试的目标vad算法,对测试音频进行语音区域识别,得到识别结果;其中,所述识别结果表征识别得到的各语音区域的开始端点和结束端点;
12.计算模块,用于利用所述识别结果以及所述测试音频的人工标注结果,计算所述目标vad算法对应的多个指定测试指标的指标值;其中,所述人工标注结果表征标注得到的各语音区域的开始端点和结束端点;
13.获取模块,用于获得针对指定测试需求所确定的、所述多个指定测试指标的参考指标值;
14.确定模块,用于基于所述目标vad算法对应的多个指定测试指标的指标值,以及所获得的参考指标值,确定所述目标vad算法在所述指定测试需求下的测试结果。
15.根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述的测试方法。
16.根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储
介质,其中,所述计算机指令用于使所述计算机执行根据上述任一项所述的测试方法。
17.根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述任一项所述的测试方法。
18.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
19.附图用于更好地理解本方案,不构成对本公开的限定。其中:
20.图1a是测试音频经过vad算法识别后的一种示意图;
21.图1b是测试音频经过vad算法识别后的另一种示意图;
22.图1c是测试音频经过vad算法识别后的又一种示意图;
23.图2是根据本公开一种测试方法的流程图;
24.图3是实现本公开实施例中的步骤s204的流程图;
25.图4a是测试音频经过人工标注后的示意图;
26.图4b是经过人工标注的测试音频经过vad算法识别后的一种示意图;
27.图5是根据本公开一种测试装置的结构示意图;
28.图6是用来实现本公开实施例的电子设备的框图。
具体实施方式
29.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
30.对于一条测试音频,经过vad算法识别后可能存在以下3种情况:
31.第一种情况:vad算法所识别出的各语音区域的开始端点和结束端点,与人工标注得到的各语音区域的开始端点和结束端点一一对齐;
32.第二种情况:vad算法所识别出的各语音区域的开始端点和结束端点,与人工标注得到的各语音区域的开始端点和结束端点无法对齐,在不应该切分的地方进行了切分;
33.第三种情况:vad算法所识别出的各语音区域的开始端点和结束端点,与人工标注得到的各语音区域的开始端点和结束端点无法对齐,在应该切分的地方没有进行切分。
34.其中,图1a-图1c分别展示了上述3种情况的示意图。图中“s”为人工标注的开始端点的位置,“e”为人工标注的结束端点的位置;“s
’”
为vad算法所识别出的开始端点的位置,“e
’”
为vad算法所识别出的结束端点的位置。
35.相关技术中,针对vad算法进行测试通常采用基于错误率的测试方法,去评估vad算法的性能,即通过计算vad算法将非语音区域误判为语音区域的错误率来评估算法性能。由于基于错误率的测试方法只能反映vad算法的部分性能,即只能反映vad算法将非语音区域误判为语音区域的错误频次,使得该基于错误率的测试方法无法全面评估vad算法在不同测试需求下的性能表现。
36.基于上述内容,为了更加全面地评估vad算法在不同测试需求下的性能表现,本公
开实施例提供了一种测试方法、装置、设备以及存储介质。
37.下面,首先对本公开实施例所提供的一种测试方法进行介绍。
38.需要说明的,在具体应用中,本公开实施例所提供的测试方法可以应用于各类电子设备,例如,个人电脑、服务器、以及其他具有数据处理能力的设备。另外,可以理解的是,本公开实施例提供的测试方法可以通过软件、硬件或软硬件结合的方式实现。
39.其中,本公开实施例所提供的一种测试方法,可以包括如下步骤:
40.基于待进行测试的目标vad算法,对测试音频进行语音区域识别,得到识别结果;其中,所述识别结果表征识别得到的各语音区域的开始端点和结束端点;
41.利用所述识别结果以及所述测试音频的人工标注结果,计算所述目标vad算法对应的多个指定测试指标的指标值;其中,所述人工标注结果表征标注得到的各语音区域的开始端点和结束端点;
42.获得针对指定测试需求所确定的、所述多个指定测试指标的参考指标值;
43.基于所述目标vad算法对应的多个指定测试指标的指标值,以及所获得的参考指标值,确定所述目标vad算法在所述指定测试需求下的测试结果。
44.本公开提供的方案中,由于多个指定测试指标可以用于反映该识别结果和该人工标注结果之间的多个维度的差异,因此,可以计算目标vad算法的多个指定测试指标的指标值;并且,结合指定测试需求对该多个指定测试指标的指标值进行分析,即根据不同的测试需求,将该多个指定测试指标的指标值与该测试需求下的、多个指定测试指标的参考指标值进行比较,从而确定出目标vad算法在该测试需求下的测试结果,这样可以从多个维度上体现出该vad算法在该测试需求下的性能表现。可见,通过本方案,可以更加全面地评估目标vad算法在各个测试需求下的性能表现。
45.下面结合附图,对本公开实施例所提供的测试方法进行介绍。
46.如图2所示,本公开实施例所提供的测试方法,可以包括如下步骤:
47.s201,基于待进行测试的目标vad算法,对测试音频进行语音区域识别,得到识别结果;其中,该识别结果表征识别得到的各语音区域的开始端点和结束端点;
48.本实施例中,针对待进行测试的目标vad算法,利用该目标vad算法对测试音频进行语音区域识别,即识别测试音频中的各个语音区域的开始端点和结束端点,作为该vad算法的识别结果。需要说明的是,vad算法可以包括基于能量的vad算法、基于信噪比的vad算法等多种算法。
49.示例性的,该测试音频可以是预先采集的存储在电子设备中的音频,也可以是实时通讯过程中所采集的音频,这都是合理的,本公开实施例对该测试音频的来源并不限定。
50.s202,利用该识别结果以及该测试音频的人工标注结果,计算该目标vad算法对应的多个指定测试指标的指标值;其中,该人工标注结果表征标注得到的各语音区域的开始端点和结束端点;
51.本实施例中,该指定测试指标可以为用于反映该识别结果和该人工标注结果之间的差异的指标,多个指定测试指标可以用于反映该识别结果和该人工标注结果之间的多个维度的差异。
52.可选地,在一种实现方式中,多个指定测试指标包括截断率指标、匹配率指标、时间匹配指标以及正确率指标中的多个指标;
53.其中,该截断率指标用于表征:该目标vad算法进行语音区域识别的粒度;
54.该匹配率指标用于表征:该识别结果与该人工标注结果中的指定端点在数量上的匹配程度,该指定端点为开始端点或结束端点;
55.该时间匹配指标用于表征:该识别结果与该人工标注结果中的指定端点在时间上的差异;
56.该正确率指标用于表征:该目标vad算法进行语音区域识别的精确度。
57.可以理解的是,由于截断率指标、匹配率指标、时间匹配指标以及正确率指标可以表征该目标vad算法的识别结果,在不同维度上与人工标注结果之间的差异,通过计算该目标vad算法对应的截断率指标、匹配率指标、时间匹配指标以及正确率指标中的多个指标的指标值,即可以该测试音频的人工标注结果作为该识别结果的参考,更加全面地分析出该识别结果与该测试音频的人工标注结果之间的差异。
58.需要强调的是,上述的多个指定测试指标仅仅作为一种示例性的描述,并不应该构成对本公开实施例的限定。
59.s203,获得针对指定测试需求所确定的、该多个指定测试指标的参考指标值;
60.示例性的,该指定测试需求可以是与该目标vad算法的历史版本进行性能比较的测试需求、与其他竞品vad算法进行性能比较的测试需求,等等。可以理解的是,在对目标vad算法的性能进行分析时,可以根据目标vad算法的指定测试需求,获取该指定测试指标的参考指标值,从而后续可以通过比较各个指定测试指标的指标值与参考指标值,确定该目标vad算法在指定测试需求下的测试结果。
61.示例性的,若该指定测试需求为与该目标vad算法的历史版本进行性能比较的测试需求,则可以获取该目标vad算法的历史版本对应的多个指定测试指标的指标值,即利用该目标vad算法的历史版本对测试音频进行语音区域识别,并基于该历史版本对应的识别结果与人工标注结果计算该历史版本对应的多个指定测试指标的指标值,作为该多个参考指标值。
62.为了方案清楚以及布局清晰,关于指定测试需求的示例性内容,以及不同指定测试需求下的该多个指定测试指标的参考指标值的具体内容,结合另外的实施例进行说明。
63.s204,基于该目标vad算法对应的多个指定测试指标的指标值,以及所获得的参考指标值,确定该目标vad算法在该指定测试需求下的测试结果。
64.本实施例中,可以通过比较该目标vad算法对应的多个指定测试指标的指标值,与该多个指定测试指标的参考指标值的大小,从而根据所得到的对应于各个指定测试指标的比较结果,确定该目标vad算法在该指定测试需求下的测试结果。示例性的,若该多个指定测试指标为时间匹配指标和正确率指标,指定测试需求为与该目标vad算法的历史版本进行性能比较的测试需求,则可以通过比较时间匹配指标的指标值与该时间匹配指标的参考指标值的大小,得到对应于时间匹配指标的比较结果;通过比较正确率指标的指标值与该正确率指标的参考指标值的大小,得到对应于正确率指标的比较结果。然后,根据该时间匹配指标的比较结果和正确率指标的比较结果,去确定该目标vad算法在该测试需求下的测试结果。
65.示例性的,在实际应用中,根据各个指定测试指标的比较结果,确定该目标vad算法在指定测试需求下的测试结果的方式,可以是:根据各个指定测试指标的比较结果所表
征的结果内容,对该目标vad算法进行打分,例如,针对指标值越大性能越好的指标而言,若该指标对应的比较结果表征该目标vad算法的正确率指标值大于参考指标值,则可以为该目标vad算法赋予预设分值,否则,不赋予分值;针对指标值越小性能越好的指标而言,若该指标对应的比较结果表征该目标vad算法的正确率指标值小于参考指标值,则可以为该目标vad算法赋予预设分值,否则,不赋予分值;从而根据各个比较结果所确定的分值之和是否超过该指定测试需求下的预设分值阈值,确定在该指定测试需求下该目标vad算法的测试结果。
66.另外,针对不同的测试需求,测试结果的类型可以不同。可选地,若指定测试需求为与该目标vad算法的历史版本进行性能比较的测试需求,则该测试结果可以是表征该目标vad算法的性能优于,或者,劣于该目标vad算法的历史版本的结果;若该指定测试需求为对该目标vad算法测试是否达到性能标准的测试需求,则该测试结果可以是表征该目标vad算法达到性能标准,或者,未达到性能标准的测试结果。示例性的,若指定测试需求为与该目标vad算法的历史版本进行性能比较的测试需求,且根据各个指定测试指标的比较结果对目标vad算法进行打分的分值,高于该测试需求下的预设分值阈值,则可以得到该目标vad算法的性能优于该目标vad算法的历史版本的测试结果。
67.本公开提供的方案中,由于多个指定测试指标可以用于反映该识别结果和该人工标注结果之间的多个维度的差异,因此,可以计算目标vad算法的多个指定测试指标的指标值;并且,结合指定测试需求对该多个指定测试指标的指标值进行分析,即根据不同的测试需求,将该多个指定测试指标的指标值与该测试需求下的、多个指定测试指标的参考指标值进行比较,从而确定出目标vad算法在该测试需求下的测试结果,这样可以从多个维度上体现出该vad算法在该测试需求下的性能表现。可见,通过本方案,可以更加全面地评估目标vad算法在各个测试需求下的性能表现。
68.可选地,在本公开的另一实施例中,上述步骤s102中利用该识别结果以及该测试音频的人工标注结果,计算该目标vad算法对应的多个指定测试指标的指标值,可以包括:
69.利用该识别结果以及该测试音频的人工标注结果,按照与多个指定测试指标各自对应的指标值计算方式,计算该目标vad算法对应的多个指定测试指标的指标值;
70.本实施例中,根据每一指定测试指标对应的指标值计算方式,计算该目标vad算法对应的多个指定测试指标的指标值,该多个指定测试指标可以包括截断率指标、匹配率指标、时间匹配指标以及正确率指标中的多个指标。
71.其中,该截断率指标对应的指标值计算方式包括:
72.基于该识别结果与该人工标注结果中的该指定端点的数量的比值,计算该截断率指标的指标值;
73.其中,该指定端点可以是开始端点或者结束端点。示例性的,若识别结果中的开始端点的数量为19,人工标注结果中的开始端点的数量为17,则该截断率指标的指标值为19/17。可以理解的是,截断率指标的指标值越大,表征该目标vad算法进行语音区域识别的粒度越细,即该目标vad算法对测试音频中的语音区域的切分越细。
74.该匹配率指标对应的指标值计算方式包括:
75.基于该识别结果与该人工标注结果中的该指定端点的总数量的差值,与该人工标注结果中的该指定端点的总数量的比值,计算该匹配率指标的指标值;
76.可以理解的是,由于匹配率指标用于表征识别结果与人工标注结果中的指定端点在数量上的匹配程度,因此可以利用该识别结果与该人工标注结果中的该指定端点的总数量的差值,与该人工标注结果中的该指定端点的总数量的比值,计算该匹配率指标的指标值,其中,该差值可以为绝对差值。可选地,该匹配率指标的指标值的计算公式可以是:匹配率=1-|识别结果中的指定端点的总数量-人工标注结果中的指定端点的总数量|/人工标注结果中的指定端点的总数量。
77.示例性的,若识别结果中的开始端点的数量为19,人工标注结果中的开始端点的数量为17,则差值为2,该匹配率指标的指标值为15/17。
78.该时间匹配指标对应的指标值计算方式包括:
79.基于目标端点对中的指定端点之间的时间差,计算该时间匹配指标的指标值;其中,该目标端点对中包含有该人工标注结果中的一指定端点,以及该识别结果中的符合第一预设条件的一指定端点,该第一预设条件为表征与该人工标注结果中的一指定端点满足时间差最小的匹配条件;
80.可以理解的是,由于时间匹配指标用于表征识别结果与人工标注结果中的指定端点在时间上的差异,因此,可以通过计算针对各个语音区域所识别出的指定端点在时间上的差异之和,得到该时间匹配指标的指标值。可选地,在实际应用中,可以先对该识别结果与人工标注结果中的指定端点进行对齐,即采用时间差最小的匹配方式,将相匹配的指定端点作为目标端点对。示例性的,以人工标注结果中的各个指定端点为标准,针对每一人工标注结果中的指定端点,从识别结果的各个指定端点中选取出与该指定端点的时间差最小的指定端点,作为相对齐的指定端点对,该相对齐的指定端点对即为目标端点对。例如,如图4b所示,s1与s1’为一目标端点对,e1与e2’为一目标端点对。然后,通过计算各个目标端点对中的指定端点之间的时间差之和,得到该时间匹配指标的指标值。示例性的,该时间差可以是方差、绝对差值,这都是合理的。
81.该正确率指标对应的指标值计算方式包括:
82.计算该识别结果中指定端点的总数量与满足第二预设条件的指定端点的数量的差值,基于该差值与该人工标注结果中的指定端点的总数量的比值,确定该正确率指标的指标值;
83.其中,该第二预设条件为表征识别错误的条件。
84.可以理解的是,在实际应用中,由于识别结果中的指定端点与人工标注结果中的指定端点相比,存在属于插入错误、插入位置不准确或者缺少插入的情况,因此,可以将该属于插入错误、插入位置不准确或者缺少插入的条件作为第二预设条件。即该表征识别错误的第二预设条件可以包括:表征目标vad算法在不该切分处进行了切分的条件;或者,表征目标vad算法在应该切分处没有切分的条件;或者,表征目标vad算法所识别出的端点的位置不准确的条件。
85.可选地,在一种实现方式中,满足第二预设条件的指定端点的数量的确定方式,可以包括步骤a1-a2:
86.a1,识别符合第一子条件的目标端点对的数量以及符合第二子条件的目标端点对的数量;其中,第一子条件为:当前待分析的目标端点中的属于识别结果的指定端点的序号,与前一目标端点对中的属于识别结果的指定端点的序号相比,不属于端点命名时的相
邻序号;第二子条件为:当前待分析的目标端点对中的指定端点之间的时间差超过预设阈值;
87.本实现方式中,若各个目标端点对中属于识别结果的指定端点的序号,与前一目标端点对中的属于识别结果的指定端点的序号相比,不属于端点命名时的相邻序号,则该识别结果中存在不应该切分的地方进行了切分的指定端点;其中,该前一目标端点对为属于时间维度上的前一个目标端点对。若当前待分析的目标端点对中的指定端点之间的时间差超过预设阈值,即该目标端点对中属于识别结果的指定端点与属于人工标注结果的指定端点之间的时间差超过预设阈值,则可以认为该目标端点对中属于识别结果的指定端点为插入位置不准确的端点。示例性的,该预设阈值可以是50ms、100ms,等等。
88.a2,计算所识别得到的数量以及指定数量之和,得到满足第二预设条件的指定端点的数量;其中,该指定数量为相对于人工标注结果,该识别结果中的指定端点所减少的数量。
89.本实现方式中,该指定数量为相对于人工标注结果,该识别结果中的指定端点所减少的数量,即缺少插入的指定端点的数量。可以理解的是,在通过步骤a1识别出符合第一子条件的目标端点对的数量以及符合第二子条件的目标端点对的数量后,通过计算所识别得到的数量以及指定数量之和,即可得到满足第二预设条件的指定端点的数量。
90.可以理解的是,在得到满足第二预设条件的指定端点的数量之后,即可计算该识别结果中指定端点的总数量与满足第二预设条件的指定端点的数量的差值,基于该差值与该人工标注结果中的指定端点的总数量的比值,确定该正确率指标的指标值。示例性的,若识别结果中指定端点的总数量为17,满足第二预设条件的指定端点的数量为11,则该正确率的指标值为6/17。
91.可见,通过本方案,通过从多个维度计算出该识别结果与该人工标注结果之间的差异,可以从多个维度反映出该目标vad算法的性能,从而提高了测试性能的全面性。
92.可选地,在本公开的另一实施例中,指定测试需求包括第一类测试需求,和/或,第二类测试需求;
93.其中,该第一类测试需求为:与指定算法对象进行性能比较的测试需求,该指定算法对象为该目标vad算法的历史版本或其他vad算法;
94.该第二类测试需求为:对该目标vad算法测试是否达到性能标准的测试需求。
95.可以理解的是,在实际应用中,对目标vad算法进行测试的测试需求,可以是与其他算法进行对比以分析出该目标vad算法的算法性能是否优于其他算法的测试需求,也可以是单独根据该目标vad算法的各个指定测试指标的指标值分析该目标vad算法的性能是否符合性能标准的测试需求。因此,该指定测试需求可以包括第一类测试需求,和/或,第二类测试需求。
96.相应地,在本实施例中,针对第一类测试需求所确定的、该多个指定测试指标的参考指标值包括:该指定算法对象对应的多个指定测试指标的指标值;
97.针对第二类测试需求所确定的、该多个指定测试指标的参考指标值包括:
98.基于该性能标准所设定的、该多个指定测试指标的指标阈值。
99.本实施例中,若指定测试需求为第一类测试需求,则基于该指定算法对象对测试音频进行识别的识别结果与人工标注结果,计算出该指定算法对象对应的多个指定测试指
标的指标值,作为针对第一类测试需求所确定的、该多个指定测试指标的参考指标值。若指定测试需求为第二类测试需求,则可以将预先针对该目标vad算法的性能标准所设定的多个指定测试指标的指标阈值,作为针对第二类测试需求所确定的、该多个指定测试指标的参考指标值。
100.另外,需要说明的是,若指定测试需求为第一类测试需求,则该测试结果可以是表征该目标vad算法的性能优于,或者,劣于该指定算法对象的结果;若该指定测试需求为第二类测试需求,则该测试结果可以是表征该目标vad算法达到性能标准,或者,未达到性能标准的测试结果。
101.示例性的,若该多个指定测试指标为时间匹配指标和正确率指标,指定测试需求为第一类测试需求,且时间匹配指标对应的预设分值为30,正确率指标对应的预设分值为70,该第一类测试需求下的预设分值阈值为60,则若该正确率指标的指标值大于该正确率指标的参考指标值,时间匹配指标的指标值小于该时间匹配指标的参考指标值,则对该vad算法进行打分的分值为70,大于该第一类测试需求下的预设分值阈值,从而可以得到该目标vad算法的性能优于指定算法对象的测试结果。
102.可见,通过本方案,根据不同的测试需求,将多个指定测试指标的指标值与该测试需求下的参考指标值进行比较,可以得到目标vad算法在不同的测试需求下的测试结果,从而可以对目标vad算法进行更加灵活的测试。
103.可选地,在本公开的另一实施例中,如图3所示,上述步骤s204中基于该目标vad算法对应的多个指定测试指标的指标值,以及所获得的参考指标值,确定该目标vad算法在该指定测试需求下的测试结果,可以包括步骤s301-s304:
104.s301,基于该目标vad算法所待应用的应用场景,从该多个指定测试指标中确定主指标和次指标;其中,该主指标在该应用场景中重要程度高于该次指标;
105.示例性的,若目标vad算法所待应用的应用场景为语音识别场景,且该语音识别场景中所利用的语音识别算法具有一定的瓶颈,例如对待识别语音区域的时长要求较小,即该语音识别算法一次无法处理较长的语音区域,则该目标vad算法的多个指定测试指标中,截断率指标在该应用场景中的重要程度更高,因此,可以将截断率指标确定为主指标,将其他指定测试指标确定为次指标。另外,需要说明的是,该主指标或次指标的个数可以是一个或多个。
106.s302,比较该主指标的指标值与该主指标的参考指标值大小,得到第一比较结果;
107.示例性的,该第一比较结果可以是表征该主指标的指标值大于或者小于该主指标的参考指标值的结果。
108.s303,比较该次指标的指标值与该次指标的参考指标值的大小,得到第二比较结果;
109.示例性的,该第二比较结果可以是表征该次指标的指标值大于或者小于该次指标的参考指标值的结果。
110.s304,基于该第一比较结果所表征的结果内容和该第二比较结果所表征的结果内容,并按照针对该主指标和该次指标设定的权重,对该目标vad算法进行打分,并基于打分得到的分值,确定该目标vad算法在该指定测试需求下的测试结果。
111.本实施例中,第一比较结果所表征的结果内容可以是该主指标的指标值大于或者
小于该主指标的参考指标值;第二比较结果所表征的结果内容可以是该次指标的指标值大于或者小于该次指标的参考指标值。可以理解的是,由于主指标在该应用场景中重要程度高于该次指标,因此在进行打分时,可以根据该第一比较结果所表征的结果内容和该第二比较结果所表征的结果内容,并按照针对该主指标和该次指标设定的权重,对该目标vad算法进行打分。
112.可选地,在实际应用中,可以分别根据第一比较结果所表征的结果内容和该第二比较结果所表征的结果内容,确定目标vad算法在该主指标和次指标维度上的分值。然后根据针对主指标和次指标设定的权重,对该主指标和次指标维度上的分值进行加权求和,得到该目标vad算法的打分分值。最后根据该打分得到的分值以及指定测试需求下的预设分值阈值,确定该目标vad算法在该指定测试需求下的测试结果。
113.示例性的,若主指标为正确率指标,次指标为时间匹配指标,该主指标和次指标的指标值越大,表征算法的性能越高,且针对该主指标和该次指标设定的权重分别为0.7和0.3,指定测试需求下的预设分值阈值为60;则若第一比较结果表征主指标的指标值大于该主指标的参考指标值,第二比较结果表征次指标的指标值小于该次指标的参考指标值,则可以给主指标打100分,给次指标打30分,通过计算主指标和次指标对应的分值的加权和,得到对该目标vad算法打分的分值为79分,大于该指定测试需求下的预设分值阈值,从而可以确定出该目标vad算法在该指定测试需求下的测试结果。即若指定测试需求为第一类测试需求,则该测试结果为表征该目标vad算法的性能优于该指定算法对象的结果;若该指定测试需求为第二类测试需求,则该测试结果为表征该目标vad算法达到性能标准的测试结果。
114.可见,通过本方案,根据该目标vad算法所待应用的应用场景,确定目标vad算法在指定测试需求下的测试结果,使得该测试结果可以更加全面地反映出该目标vad算法在待应用应用场景下的性能表现,从而后续在利用vad算法时,可以根据应用场景选取该应用场景下表现更佳的vad算法。
115.为了更好的理解本公开实施例的内容,下面结合一个具体的示例进行阐述。
116.本示例通过利用截断率指标、匹配率指标、时间匹配指标以及正确率指标,对vad算法进行测试,以评估和比较不同vad算法的性能。如图4a所示,展示了对于一条测试音频进行人工标注各语音区域的开始端点和结束端点所得到的人工标注结果,图中“s”为人工标注的开始端点的位置,“e”为人工标注的结束端点的位置。利用目标vad算法对该测试音频进行语音区域识别,所得到的识别结果如图4b所示,图中“s
’”
为vad算法所识别出的开始端点的位置,“e
’”
为vad算法所识别出的结束端点的位置。
117.该目标vad算法对应的多个指定测试指标包括截断率指标、匹配率指标、时间匹配指标以及正确率指标,各个指标的计算公式如下:
118.(1)截断率指标
119.截断率=实际截断次数/标注截断次数,其中:
120.实际截断次数=目标vad算法实际返回的开始和结束端点对的个数;
121.标注截断次数=人工标注结果中的开始和结束端点对的个数;
122.其中,实际截断次数可能大于标注截断次数,也可能小于标注截断次数。
123.(2)匹配率指标
124.匹配率=1-|实际截断次数-标注截断次数|/标注截断次数;
125.例如,若人工标注结果中有标注片段17个,即标注截断次数为17,识别结果中有标注片段19个,则匹配率为15/17。
126.(3)时间匹配指标
127.对于一条音频文件,若人工标注结果中的各个指定端点的和目标vad算法返回的各个指定端点一一对齐,则对齐率为100%,此时可以参考图1a,即识别结果与人工标注结果完全重合,此时,时间匹配指标的指标值为0,表示完全匹配。
128.如图4b所示,若识别结果与人工标注结果中的各个指定端点不完全重合,此时可以首先对各个指定端点进行对齐,得到各个目标端点对。即以人工标注的各个指定端点的时间为准,从识别结果中选取与该各个人工标注的指定端点的时间差最小的指定端点,构成各个目标端点对。例如,图4b中的s1与s1’为一目标端点对,s2与s3’为一目标端点对。此时,该时间匹配指标的指标值的计算公式可以是各个目标端点对之间在时间上的方差和,例如,时间匹配指标的指标值=(s1-s1')2+(s2-s3')2+
…
,指标值越小,说明该vad算法的效果越好。
129.(4)正确率指标
130.如下述的表1所示,展示了针对一条测试音频的人工标注结果中的指定端点,与vad算法的返回的识别结果中的指定端点进行对齐后的情况。其中,标注序号为人工标注结果中的指定端点的序号,识别序号为识别结果中的指定端点的序号,同一列对应的标记序号与识别序号为相对齐的序号,该相对齐序号对应的指定端点对即为一目标端点对;标注打点时间为标记序号对应的打点时间,识别打点时间为识别序号对应的打点时间;阈值匹配为目标端点对之间的时间差是否超过预设阈值的结果,若未超过,则阈值匹配结果为true,该预设阈值为0.5s。
131.表1
[0132][0133]
通过上述表1可以分析出阈值匹配成功的目标端点对的数量为8,未匹配成功的目标端点对的数量为9。另外,属于插入错误(对应于上文中符合第一子条件的目标端点对)的数量为2,表示标注序号10至11之间,vad算法多切分了2段。属于删除错误的数量(对应于上
文中的指定数量)为0,即上表中没有少切分的情况。属于替换错误(对应于上文中的符合第二子条件的目标端点对)的数量为9,即未匹配成功的目标端点对的数量为9。因此,正确率为:(17-(2+9))/17=35.3%。
[0134]
可见,通过本方案,通过计算多个测试指标的指标值,可以更加全面地评估目标vad算法的性能表现;通过基于统一标准对不同vad算法的性能进行评估和比较,可以找到表现最优的算法,从而为产品提供更准确、更稳定的vad服务;可以减少人工评估过程中的时间和成本,提高评估效率,使研发团队能够更快地优化和改进vad算法;通过应用本发明的测试方法,产品可以在vad技术方面取得更好的性能,从而在市场竞争中脱颖而出,提高产品在语音识别、语音信号处理等领域的竞争力。
[0135]
基于上述测试方法的实施例,本公开实施例还提供了一种测试装置,如图5所示,所述装置包括:
[0136]
识别模块510,用于基于待进行测试的目标vad算法,对测试音频进行语音区域识别,得到识别结果;其中,所述识别结果表征识别得到的各语音区域的开始端点和结束端点;
[0137]
计算模块520,用于利用所述识别结果以及所述测试音频的人工标注结果,计算所述目标vad算法对应的多个指定测试指标的指标值;其中,所述人工标注结果表征标注得到的各语音区域的开始端点和结束端点;
[0138]
获取模块530,用于获得针对指定测试需求所确定的、所述多个指定测试指标的参考指标值;
[0139]
确定模块540,用于基于所述目标vad算法对应的多个指定测试指标的指标值,以及所获得的参考指标值,确定所述目标vad算法在所述指定测试需求下的测试结果。
[0140]
可选地,所述多个指定测试指标包括截断率指标、匹配率指标、时间匹配指标以及正确率指标中的多个指标;
[0141]
其中,所述截断率指标用于表征:所述目标vad算法进行语音区域识别的粒度;
[0142]
所述匹配率指标用于表征:所述识别结果与所述人工标注结果中的指定端点在数量上的匹配程度,所述指定端点为开始端点或结束端点;
[0143]
所述时间匹配指标用于表征:所述识别结果与所述人工标注结果中的指定端点在时间上的差异;
[0144]
所述正确率指标用于表征:所述目标vad算法进行语音区域识别的精确度。
[0145]
可选地,所述计算模块,具体用于:
[0146]
利用所述识别结果以及所述测试音频的人工标注结果,按照与多个指定测试指标各自对应的指标值计算方式,计算所述目标vad算法对应的多个指定测试指标的指标值;
[0147]
其中,所述截断率指标对应的指标值计算方式包括:
[0148]
基于所述识别结果与所述人工标注结果中的所述指定端点的数量的比值,计算所述截断率指标的指标值;
[0149]
所述匹配率指标对应的指标值计算方式包括:
[0150]
基于所述识别结果与所述人工标注结果中的所述指定端点的总数量的差值,与所述人工标注结果中的所述指定端点的总数量的比值,计算所述匹配率指标的指标值;
[0151]
所述时间匹配指标对应的指标值计算方式包括:
[0152]
基于目标端点对中的指定端点之间的时间差,计算所述时间匹配指标的指标值;其中,所述目标端点对中包含有所述人工标注结果中的一指定端点,以及所述识别结果中的符合第一预设条件的一指定端点,所述第一预设条件为表征与该人工标注结果中的一指定端点满足时间差最小的匹配条件;
[0153]
所述正确率指标对应的指标值计算方式包括:
[0154]
计算所述识别结果中指定端点的总数量与满足第二预设条件的指定端点的数量的差值,基于所述差值与所述人工标注结果中的指定端点的总数量的比值,确定所述正确率指标的指标值;
[0155]
其中,所述第二预设条件为表征识别错误的条件。
[0156]
可选地,所述满足第二预设条件的指定端点的数量包括:
[0157]
识别符合第一子条件的目标端点对的数量以及符合第二子条件的目标端点对的数量;
[0158]
计算所识别得到的数量以及指定数量之后,得到满足第二预设条件的指定端点的数量;
[0159]
所述第一子条件为:当前待分析的目标端点中的属于识别结果的指定端点的序号,与前一目标端点对中的属于识别结果的指定端点的序号相比,不属于端点命名时的相邻序号;
[0160]
第二子条件为:当前待分析的目标端点对中的指定端点之间的时间差超过预设阈值;
[0161]
所述指定数量为相对于人工标注结果,所述识别结果中的指定端点所减少的数量。
[0162]
可选地,所述指定测试需求包括第一类测试需求,和/或,第二类测试需求;
[0163]
其中,所述第一类测试需求为:与指定算法对象进行性能比较的测试需求,所述指定算法对象为所述目标vad算法的历史版本或其他vad算法;
[0164]
所述第二类测试需求为:对所述目标vad算法测试是否达到性能标准的测试需求。
[0165]
可选地,针对第一类测试需求所确定的、所述多个指定测试指标的参考指标值包括:所述指定算法对象对应的多个指定测试指标的指标值;
[0166]
针对第二类测试需求所确定的、所述多个指定测试指标的参考指标值包括:
[0167]
基于所述性能标准所设定的、所述多个指定测试指标的指标阈值。
[0168]
可选地,所述确定模块,包括:
[0169]
确定子模块,用于基于所述目标vad算法所待应用的应用场景,从所述多个指定测试指标中确定主指标和次指标;其中,所述主指标在所述应用场景中重要程度高于所述次指标;
[0170]
第一比较子模块,用于比较所述主指标的指标值与所述主指标的参考指标值大小,得到第一比较结果;
[0171]
第二比较子模块,用于比较所述次指标的指标值与所述次指标的参考指标值的大小,得到第二比较结果;
[0172]
打分子模块,用于基于所述第一比较结果所表征的结果内容和所述第二比较结果所表征的结果内容,并按照针对所述主指标和所述次指标设定的权重,对所述目标vad算法
进行打分,并基于打分得到的分值,确定所述目标vad算法在所述指定测试需求下的测试结果。
[0173]
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
[0174]
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0175]
本公开所提供的一种电子设备,可以包括:
[0176]
至少一个处理器;以及
[0177]
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一测试方法的步骤。
[0178]
本公开所提供的一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一测试方法的步骤。
[0179]
在本公开提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一测试方法的步骤。
[0180]
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0181]
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(rom)602中的计算机程序或者从存储单元608加载到随机访问存储器(ram)603中的计算机程序,来执行各种适当的动作和处理。在ram 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、rom 602以及ram 603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
[0182]
设备600中的多个部件连接至i/o接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0183]
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如测试方法。例如,在一些实施例中,测试方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由rom 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到ram 603并由计算单元601执行时,可以执行上文描述的测试方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被
配置为执行测试方法。
[0184]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0185]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0186]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0187]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0188]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
[0189]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0190]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0191]
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
技术特征:
1.一种测试方法,包括:基于待进行测试的目标vad算法,对测试音频进行语音区域识别,得到识别结果;其中,所述识别结果表征识别得到的各语音区域的开始端点和结束端点;利用所述识别结果以及所述测试音频的人工标注结果,计算所述目标vad算法对应的多个指定测试指标的指标值;其中,所述人工标注结果表征标注得到的各语音区域的开始端点和结束端点;获得针对指定测试需求所确定的、所述多个指定测试指标的参考指标值;基于所述目标vad算法对应的多个指定测试指标的指标值,以及所获得的参考指标值,确定所述目标vad算法在所述指定测试需求下的测试结果。2.根据权利要求1所述的方法,其中,所述多个指定测试指标包括截断率指标、匹配率指标、时间匹配指标以及正确率指标中的多个指标;其中,所述截断率指标用于表征:所述目标vad算法进行语音区域识别的粒度;所述匹配率指标用于表征:所述识别结果与所述人工标注结果中的指定端点在数量上的匹配程度,所述指定端点为开始端点或结束端点;所述时间匹配指标用于表征:所述识别结果与所述人工标注结果中的指定端点在时间上的差异;所述正确率指标用于表征:所述目标vad算法进行语音区域识别的精确度。3.根据权利要求2所述的方法,其中,所述利用所述识别结果以及所述测试音频的人工标注结果,计算所述目标vad算法对应的多个指定测试指标的指标值,包括:利用所述识别结果以及所述测试音频的人工标注结果,按照与多个指定测试指标各自对应的指标值计算方式,计算所述目标vad算法对应的多个指定测试指标的指标值;其中,所述截断率指标对应的指标值计算方式包括:基于所述识别结果与所述人工标注结果中的所述指定端点的数量的比值,计算所述截断率指标的指标值;所述匹配率指标对应的指标值计算方式包括:基于所述识别结果与所述人工标注结果中的所述指定端点的总数量的差值,与所述人工标注结果中的所述指定端点的总数量的比值,计算所述匹配率指标的指标值;所述时间匹配指标对应的指标值计算方式包括:基于目标端点对中的指定端点之间的时间差,计算所述时间匹配指标的指标值;其中,所述目标端点对中包含有所述人工标注结果中的一指定端点,以及所述识别结果中的符合第一预设条件的一指定端点,所述第一预设条件为表征与该人工标注结果中的一指定端点满足时间差最小的匹配条件;所述正确率指标对应的指标值计算方式包括:计算所述识别结果中指定端点的总数量与满足第二预设条件的指定端点的数量的差值,基于所述差值与所述人工标注结果中的指定端点的总数量的比值,确定所述正确率指标的指标值;其中,所述第二预设条件为表征识别错误的条件。4.根据权利要求3所述的方法,其中,所述满足第二预设条件的指定端点的数量的确定方式包括:
识别符合第一子条件的目标端点对的数量以及符合第二子条件的目标端点对的数量;计算所识别得到的数量以及指定数量之后,得到满足第二预设条件的指定端点的数量;所述第一子条件为:当前待分析的目标端点中的属于识别结果的指定端点的序号,与前一目标端点对中的属于识别结果的指定端点的序号相比,不属于端点命名时的相邻序号;第二子条件为:当前待分析的目标端点对中的指定端点之间的时间差超过预设阈值;所述指定数量为相对于人工标注结果,所述识别结果中的指定端点所减少的数量。5.根据权利要求1所述的方法,其中,所述指定测试需求包括第一类测试需求,和/或,第二类测试需求;其中,所述第一类测试需求为:与指定算法对象进行性能比较的测试需求,所述指定算法对象为所述目标vad算法的历史版本或其他vad算法;所述第二类测试需求为:对所述目标vad算法测试是否达到性能标准的测试需求。6.根据权利要求5所述的方法,其中,针对第一类测试需求所确定的、所述多个指定测试指标的参考指标值包括:所述指定算法对象对应的多个指定测试指标的指标值;针对第二类测试需求所确定的、所述多个指定测试指标的参考指标值包括:基于所述性能标准所设定的、所述多个指定测试指标的指标阈值。7.根据权利要求1所述的方法,其中,所述基于所述目标vad算法对应的多个指定测试指标的指标值,以及所获得的参考指标值,确定所述目标vad算法在所述指定测试需求下的测试结果,包括:基于所述目标vad算法所待应用的应用场景,从所述多个指定测试指标中确定主指标和次指标;其中,所述主指标在所述应用场景中重要程度高于所述次指标;比较所述主指标的指标值与所述主指标的参考指标值大小,得到第一比较结果;比较所述次指标的指标值与所述次指标的参考指标值的大小,得到第二比较结果;基于所述第一比较结果所表征的结果内容和所述第二比较结果所表征的结果内容,并按照针对所述主指标和所述次指标设定的权重,对所述目标vad算法进行打分,并基于打分得到的分值,确定所述目标vad算法在所述指定测试需求下的测试结果。8.一种测试装置,包括:识别模块,用于基于待进行测试的目标vad算法,对测试音频进行语音区域识别,得到识别结果;其中,所述识别结果表征识别得到的各语音区域的开始端点和结束端点;计算模块,用于利用所述识别结果以及所述测试音频的人工标注结果,计算所述目标vad算法对应的多个指定测试指标的指标值;其中,所述人工标注结果表征标注得到的各语音区域的开始端点和结束端点;获取模块,用于获得针对指定测试需求所确定的、所述多个指定测试指标的参考指标值;确定模块,用于基于所述目标vad算法对应的多个指定测试指标的指标值,以及所获得的参考指标值,确定所述目标vad算法在所述指定测试需求下的测试结果。9.一种电子设备,包括:至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。10.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。11.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。
技术总结
本公开提供了一种测试方法、装置、设备以及存储介质,计算机技术领域,尤其涉及语音识别、音频会议和语音编码等技术领域。具体实现方案为:基于待进行测试的目标VAD算法,对测试音频进行语音区域识别,得到识别结果;利用所述识别结果以及所述测试音频的人工标注结果,计算所述目标VAD算法对应的多个指定测试指标的指标值;获得针对指定测试需求所确定的、所述多个指定测试指标的参考指标值;基于所述目标VAD算法对应的多个指定测试指标的指标值,以及所获得的参考指标值,确定所述目标VAD算法在所述指定测试需求下的测试结果。可见,通过本方案,可以更加全面地评估目标VAD算法在各个测试需求下的性能表现。各个测试需求下的性能表现。各个测试需求下的性能表现。
技术研发人员:汪鹏 迪力亚尔
受保护的技术使用者:百度时代网络技术(北京)有限公司
技术研发日:2023.04.25
技术公布日:2023/9/14
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
