一种车载语音识别方法、装置、设备和存储介质与流程

未命名 08-14 阅读：100 评论：0

1.本发明实施例涉及自动驾驶技术领域，尤其涉及一种车载语音识别方法、装置、设备和存储介质。

背景技术：

2.目前，语音识别技术在安静场景下已经取得长足进步，在单一说话人语音识别任务上表现出很高的识别准确率和稳定性，但是，在面向复杂声学环境的多说话人语音识别任务时仍然具有很大的挑战性，效果始终不能达到令人满意的程度。示例性的，现有技术在对车内单语音进行语音识别时具有较高的语音识别准确度，但在对车内有多人说话等情况时的混合语音进行语音识别时，无法保证较好的语音识别准确度。

技术实现要素：

3.本发明实施例提供了一种车载语音识别方法、装置、设备和存储介质，可以提高对车内混合语音的识别准确性和识别效率。
4.第一方面，本发明实施例提供了一种车载语音识别方法，该方法包括：
5.获取目标车辆中各音区车载麦克风采集到的多路原始音频信号，并对所述多路原始音频信号进行信号处理得到混合音区特征；
6.将所述混合音区特征输入到预设音区编码识别神经网络，得到各音区编码特征；
7.将所述各音区编码特征输入到预设语音识别网络，得到各音区语音识别文本内容，并基于所述各音区语音识别文本内容确定目标语音识别结果。
8.第二方面，本发明实施例提供了一种车载语音识别装置，该装置包括：
9.语音信号获取模块，用于获取目标车辆中各音区车载麦克风采集到的多路原始音频信号，并对所述多路原始音频信号进行信号处理得到混合音区特征；
10.音区编码特征确定模块，用于将所述混合音区特征输入到预设音区编码识别神经网络，得到各音区编码特征；
11.语音识别结果确定模块，用于将所述各音区编码特征输入到预设语音识别网络，得到各音区语音识别文本内容，并基于所述各音区语音识别文本内容确定目标语音识别结果。
12.第三方面，本发明实施例提供了一种计算机设备，该计算机设备包括：
13.一个或多个处理器；
14.存储器，用于存储一个或多个程序；
15.当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现任一实施例所述的车载语音识别方法。
16.第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一实施例所述的车载语音识别方法。
17.本发明实施例所提供的技术方案，通过获取目标车辆中各音区车载麦克风采集到
的多路原始音频信号，并对所述多路原始音频信号进行信号处理得到混合音区特征；将所述混合音区特征输入到预设音区编码识别神经网络，得到各音区编码特征；将所述各音区编码特征输入到预设语音识别网络，得到各音区语音识别文本内容，并基于所述各音区语音识别文本内容确定目标语音识别结果。本发明实施例的技术方案解决了现有技术中无法准确且高效地识别车内混合语音的问题，可以提高对车内混合语音的识别准确性和识别效率。
附图说明
18.图1是本发明实施例提供的一种车载语音识别方法流程图；
19.图2是本发明实施例提供的又一种车载语音识别方法流程图；
20.图3是本发明实施例提供的一种车载麦克风采集到多路原始音频信号的示意图；
21.图4是本发明实施例提供的一种进行车载语音识别的方法流程图；
22.图5是本发明实施例提供的一种车载语音识别装置的结构示意图；
23.图6是本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
24.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
25.图1是本发明实施例提供的一种车载语音识别方法流程图，本发明实施例可适用于对车内的混合语音进行识别的场景中，该方法可以由车载语音识别装置执行，该装置可以由软件和/或硬件的方式来实现。
26.如图1所示，车载语音识别方法包括以下步骤：
27.s110、获取目标车辆中各音区车载麦克风采集到的多路原始音频信号，并对所述多路原始音频信号进行信号处理得到混合音区特征。
28.其中，目标车辆可以是需要进行车载语音识别的车辆。音区可以是预设的用于接收音频信号的区域，具体的，可以在目标车辆中的设置多个音区，并在各个音区安装车载麦克风，用于接收发生对象的音频信号。多路原始音频信号可以是目标车辆中各个车载麦克风采集到的音频信号。具体的，可以在目标车辆内的不同区域安装车载麦克风，将各个车载麦克风采集到的音频信号作为多路原始音频信号。其中，音频信号可以是目标车辆中发声对象发出的语音信号。
29.混合音区特征可以是描述各音区车载麦克风采集到的原始音频信号的属性特征。具体的，可以对多路原始音频信号进行信号处理，得到混合音区特征。示例性，可以分别对多路原始音频信号进行快速傅里叶变换得到对应的时频谱图，再将各时频谱图进行叠加并进行均值计算，再将叠加和均值计算后的数据处理结果作为混合音区特征。
30.s120、将所述混合音区特征输入到预设音区编码识别神经网络，得到各音区编码特征。
31.其中，预设编码识别神经网络可以是预设的对混合音区特征的编码特征进行识别
的神经网络。由于预设编码识别神经网络需要识别混合音区特征的编码特征，因此，该神经网络需要具备较好的对混合音区特征进行分析的能力。具体的，可以基于预设的混合音区特征训练样本进行模型训练后获得。
32.进一步的，音区编码特征可以是各个音区音频信号的编码特征数据。具体的，可以将混合音区特征输入到预设音区编码识别神经网络，得到各音区编码特征。其中，编码特征数据通过编码可建立音频信号与文本内容间的内在联系，便于后续对音频信号进行识别，得到相应的文本内容。
33.s130、将所述各音区编码特征输入到预设语音识别网络，得到各音区语音识别文本内容，并基于所述各音区语音识别文本内容确定目标语音识别结果。
34.其中，预设语音识别网络可以是预设的各音区编码特征对应的语音文本内容进行识别的神经网络。各音区语音识别文本内容可以是对各音区编码特征进行语音识别得到的文本。
35.具体的，可以将各音区编码特征输入到预设语音识别网络，得到各音区语音识别文本内容。进一步的，预设语音识别网络在对各音区编码特征进行语音识别时，还可以输出各音区语音识别文本内容的置信度，便于在后续过程中确定从各音区语音识别文本内容确定识别准确度较高的文本。
36.目标语音识别结果可以是对多路原始音频信号进行语音识别后最终确定的语音识别结果。具体的，可以基于各音区语音识别文本内容的识别准确度确定目标语音识别结果。示例性的，可以分别比较各音区语音识别文本内容的置信度与预设置信度参考阈值后，可以将置信度大于预设置信度参考阈值的音区语音识别文本内容作为目标语音识别结果。其中，当音区语音识别文本内容的置信度大于预设置信度参考阈值时，表示该音区语音识别文本内容的具有较高的识别准确度，因此可以将置信度大于预设置信度参考阈值的音区语音识别文本内容作为目标语音识别结果，以提高语音识别的准确性。
37.在一种可选的实施方式中，在得到目标语音识别结果后，还可以将目标语音识别结果显示在目标车辆的车载显示屏上，以提高目标语音识别结果的可视性。
38.本发明实施例所提供的技术方案，通过获取目标车辆中各音区车载麦克风采集到的多路原始音频信号，并对多路原始音频信号进行信号处理得到混合音区特征；将混合音区特征输入到预设音区编码识别神经网络，得到各音区编码特征；将各音区编码特征输入到预设语音识别网络，得到各音区语音识别文本内容，并基于各音区语音识别文本内容确定目标语音识别结果。本发明实施例的技术方案解决了现有技术中无法准确且高效地识别车内混合语音的问题，可以提高对车内混合语音的识别准确性和识别效率。
39.图2是本发明实施例提供的又一种车载语音识别方法流程图，本发明实施例可适用于对车内的混合语音进行识别的场景中，本实施例在上述实施例的基础上，进一步的说明如何对所述多路原始音频信号进行信号处理得到混合音区特征，以及如何基于所述各音区语音识别文本内容确定目标语音识别结果。该装置可以由软件和/或硬件的方式来实现，集成于具有应用开发功能的计算机设备中。
40.如图2所示，车载语音识别方法包括以下步骤：
41.s210、获取目标车辆中各音区车载麦克风采集到的多路原始音频信号，分别对所述多路原始音频信号进行快速傅里叶变换得到对应的时频谱图。
42.其中，目标车辆可以是需要进行车载语音识别的车辆。音区可以是预设的用于接收音频信号的区域，具体的，可以在目标车辆中的设置多个音区，并在各个音区安装车载麦克风，用于接收发生对象的音频信号。多路原始音频信号可以是目标车辆中各个车载麦克风采集到的音频信号。具体的，可以在目标车辆内的不同区域安装车载麦克风，将各个车载麦克风采集到的音频信号作为多路原始音频信号。其中，音频信号可以是目标车辆中发声对象发出的语音信号。
43.示例性，图3是本发明实施例提供的一种车载麦克风采集到多路原始音频信号的示意图，如图3所示，在目标车辆中的4个区域(4个音区)处分别设置有麦克风，用于收集语音信号，图中有说话人a和说话人d两个发声对象，各个麦克风可以分别采集两个发声对象发出的音频信号，最终获取到4路原始音频信号，每路原始音频信号都包括说话人a和说话人d两个发声对象的音频信号。
44.快速傅里叶变换是一种快速计算序列的离散傅里叶变换或其逆变换的数据处理方式。快速傅里叶变换可以将信号从原始域(通常是时间或空间)转换到频域的表示或者逆过来转换。时频谱图可以是多路原始音频信号的频率和幅度随时间的变化图谱。具体的，在获取到多路原始音频信号后，可以对多路原始音频信号进行快速傅里叶变换，将多路原始音频信号从时域变换到频域，得到对应的时频谱图。
45.s220、将各所述时频谱图进行叠加并进行均值计算，得到混合平均时频谱图，作为所述混合音区特征。
46.其中，混合平均时频谱图可以是将各个时频谱图中的数值进行平均值处理后的时频谱图。具体的，可以将各个时频谱图进行叠加并进行均值计算，得到混合平均时频谱图。混合音区特征可以是描述各音区车载麦克风采集到的原始音频信号的属性特征。具体的，可以将上述计算得到的混合平均时频谱图作为混合音区特征。
47.s230、将所述混合音区特征输入到预设音区编码识别神经网络，得到各音区编码特征。
48.其中，预设编码识别神经网络可以是预设的对混合音区特征的编码特征进行识别的神经网络。具体的，由于预设编码识别神经网络需要识别多音区音频信号的编码特征，因此，该神经网络需要具备较好的对混合音区特征进行分析的能力。
49.预设音区编码识别神经网络可以通过预先训练获得，示例性的，预设音区编码识别神经网络的训练过程包括：将一个发声对象发出语音时目标车辆中各音区车载麦克风采集到的多路音频样本信号的混合平均时频谱图作为一类样本，并将发声对象所在音区的车载麦克风采集到的音频样本信号的时频谱图及对应数量的纯噪声音频时频谱图作为一类样本标签；基于一类样本和一类样本标签进行模型训练，得到基础音区编码识别神经网络；将多个发声对象发出语音时目标车辆中各音区车载麦克风采集到的多路音频样本信号的混合平均时频谱图作为二类样本，并将多个发声对象所在音区的车载麦克风采集到的音频样本信号的时频谱图及对应数量的纯噪声音频时频谱图作为二类样本标签；基于二类样本和二类样本标签对基础音区编码识别神经网络进行模型训练，得到预设音区编码识别神经网络。
50.其中，一类样本可以是基于单个发声对象得到的混合平均时频谱图样本。纯噪声音频时频谱图可以是在没有接收到发声语音时噪声声音的时频谱图。由于在单人说话时，
存在车载麦克风没有接受到音频样本信号的情况，因此，可以将没有车载麦克风接收到发声语音时噪声声音的时频谱图也作为一类样本标签，可以以纯噪声音频时频谱图作为背景时频谱图，提高语音识别过程中的抗噪声能力，提高训练后的预设音区编码识别神经网络进行音区编码识别的准确性。具体的，纯噪声音频时频谱图的数量可以根据各音区车载麦克风的数量和发声对象的数量进行确定。纯噪声音频时频谱图的数量可以等于各音区车载麦克风的数量减去发声对象的数量。例如，在目标车辆4个音区区域均存在一个车载麦克风，而发声对象为1个且在1号音区区域发出语音的情况下，纯噪声音频时频谱图的数量为3个，也即3个纯噪声音频时频谱图分别为2号音区、3号音区和4号音区的纯噪声音频时频谱图。
51.基础音区编码识别神经网络可以是基于一个发生对象时的样本数据进行训练后得到的神经网络。具体的，可以将发声对象所在音区的车载麦克风采集到的音频样本信号的时频谱图及对应数量的纯噪声音频时频谱图作为一类样本标签；基于一类样本和一类样本标签进行模型训练，得到基础音区编码识别神经网络。基础音区编码识别神经网络在对单个发声对象的混合平均时频谱图的编码特征进行识别时具有较好的识别准确度，但不具有较好识别多个发声对象的混合平均时频谱图的编码特征的能力。
52.而二类样本可以是基于多个发声对象得到的混合平均时频谱图样本。进一步的，在发声对象为多个时，纯噪声音频时频谱图的数量也会较一类样本时的数量有所减少。例如，当在目标车辆4个音区区域均存在一个车载麦克风，而发声对象为3个且分别在1号音区区域、2号音区区域和3号音区区域发出语音的情况下，纯噪声音频时频谱图的数量会变为1个，也即4号音区的纯噪声音频时频谱图。在获取到二类样本后，可以将多个发声对象所在音区的车载麦克风采集到的音频样本信号的时频谱图及对应数量的纯噪声音频时频谱图作为二类样本标签；基于二类样本和二类样本标签对基础音区编码识别神经网络进行模型训练，得到预设音区编码识别神经网络。基于二类样本和二类样本标签对基础音区编码识别神经网络进行模型训练，可以使训练出的预设音区编码识别神经网络在对多个发声对象的混合平均时频谱图的编码特征进行识别时，也能具有较好的识别准确度。
53.在一种可选的实施方式中，基于训练样本和样本标签进行对神经网络进行训练的过程包括：将训练样本输入至待训练的神经网络中，得到输出结果，随后计算输出结果与样本标签的相似度，并根据相似度进行反向传播更新上述预训练模型的权重，得到训练后的神经网络。
54.在一种可选的实施方式中，可以基于resnet50神经网络进行模型训练，得到预设音区编码识别神经网络。
55.进一步的，音区编码特征可以是各个音区音频信号的编码特征数据。具体的，可以将混合音区特征输入到预设音区编码识别神经网络，得到各音区编码特征。其中，编码特征数据通过编码可建立音频信号与文本内容间的内在联系，便于后续对音频信号进行识别，得到相应的文本内容。
56.s240、将所述各音区编码特征输入到预设语音识别网络，得到各音区语音识别文本内容。
57.其中，预设语音识别网络可以是预设的各音区编码特征对应的语音文本内容进行识别的神经网络。预设音区编码识别神经网络可以通过预先训练获得。具体的，可以基于预
设音区编码识别神经网络的训练样本以及预设音区编码识别神经网络获取预设语音识别网络的训练样本，再基于获取的训练样本进行模型训练，得到预设语音识别网络。示例性，预设语音识别网络的训练过程，包括：将一类样本和二类样本分别输入到预设音区编码识别神经网络，得到对应的各样本音区编码特征；将各样本音区编码特征作为语音识别网络的模型训练样本，并将对应的一类样本或二类样本对应的多路原始音频信号的文本内容作为样本标签，对初始语音识别模型进行训练，得到预设语音识别网络。
58.在一种可选的实施方式中，可以基于transformer-ctc神经网络进行模型训练，得到预设语音识别网络。
59.各音区语音识别文本内容可以是对各音区编码特征进行语音识别得到的文本。具体的，可以将各音区编码特征输入到预设语音识别网络，得到各音区语音识别文本内容。进一步的，预设语音识别网络在对各音区编码特征进行语音识别时，还可以输出各音区语音识别文本内容的置信度，便于在后续过程中确定从各音区语音识别文本内容确定识别准确度较高的文本。
60.s250、分别比较所述各音区语音识别文本内容的识别置信度与预设置信度参考阈值。
61.其中，识别置信度可以是描述语音识别文本内容可信程度的一种参数。预设语音识别网络在对输入的各音区编码特征识别后，可以得到各音区语音识别文本内容以及各音区语音识别文本内容的识别置信度。示例性的，预设语音识别网络可以输出一条识别文本l＝{l1，l2，l3}以及该文本中每个字的置信度，即置信度向量p＝{p1，p2，p3}。
62.预设置信度参考阈值可以是预设的评判识别置信度是否可靠的参考阈值。在获取到各音区语音识别文本内容的识别置信度后，可以将各音区语音识别文本内容的识别置信度与预设置信度参考阈值进行比较，进而确定各音区的语音识别文本内容是否可靠。
63.s260、将识别置信度大于所述预设置信度参考阈值的音区语音识别文本内容作为目标语音识别结果。
64.其中，目标语音识别结果可以是对多路原始音频信号进行语音识别后最终确定的语音识别结果。
65.具体的，在分别比较各音区语音识别文本内容的识别置信度与预设置信度参考阈值后，可以将识别置信度大于预设置信度参考阈值的音区语音识别文本内容作为目标语音识别结果。当音区语音识别文本内容的识别置信度大于预设置信度参考阈值时，表示该音区语音识别文本内容的具有较高的识别准确度，因此可以将识别置信度大于预设置信度参考阈值的音区语音识别文本内容作为目标语音识别结果，以提高语音识别的准确性。
66.具体的，可以音区语音识别文本内容中各个字的识别置信度进行均值处理，得到置信度均值，再将置信度均值与预设置信度参考阈值进行对比，将大于预设置信度参考阈值的置信度均值对应的音区语音识别文本内容作为目标语音识别结果。
67.例如，音区a的音区语音识别文本内容为l＝{今天天气不错}，识别置信度p＝{0.81，0.82，0.83，0.84，0.85，0.86}。
68.音区b的音区语音识别文本内容为l＝{今}，识别置信度p＝{0.2}。
69.音区c的音区语音识别文本内容为l＝{不}，识别置信度p＝{0.1}。
70.音区d的音区语音识别文本内容为l＝{真的挺不错}，识别置信度p＝{0.91，0.92，
0.93，0.94，0.95}。
71.对于得到的识别文本和置信度向量，可以计算每条文本的置信度向量的均值。例如：
72.音区a的l＝{今天天气不错}置信度向量均值pa＝0.835。
73.音区b的l＝{今}置信度向量均值pa＝0.2。
74.音区c的l＝{不}置信度向量均值pa＝0.1。
75.音区d的l＝{真的挺不错}置信度向量均值pa＝0.93。
76.因为音区a识别结果的平均置信度pa大于预设置信度参考阈值0.75，音区d同理，则最后确定的目标语音识别结果为：说话人a：今天天气不错；说话人d：真的挺不错。
77.在一种可选的实施方式中，在得到目标语音识别结果后，还可以将目标语音识别结果显示在目标车辆的车载显示屏上，以提高目标语音识别结果的可视性。
78.示例性的，图4是本发明实施例提供的一种进行车载语音识别的方法流程图，如图4所示，进行车载语音识别的方法流程包括：将原始音频1、原始音频2、原始音频3和原始音频4输入至音区编码模块，音区编码模块分别对各个原始音频的音区特征进行识别，得到对应的音区特征1、音区特征2、音区特征3和音区特征4；随后，再将音区特征1、音区特征2、音区特征3和音区特征4输入至语音识别模块，语音识别模块分别对音区特征进行识别，得到对应的识别结果1、识别结果2、识别结果3和识别结果4；进一步的，将识别结果1、识别结果2、识别结果3和识别结果4输入至文本确定模块，文本确定模块基于各个识别结果的置信度确定目标识别结果，最后将目标识别结果显示在目标车辆的车载显示屏上，完成车载语音识别的流程。
79.本发明实施例所提供的技术方案，通过获取目标车辆中各音区车载麦克风采集到的多路原始音频信号，分别对多路原始音频信号进行快速傅里叶变换得到对应的时频谱图；将各时频谱图进行叠加并进行均值计算，得到混合平均时频谱图，作为混合音区特征；将混合音区特征输入到预设音区编码识别神经网络，得到各音区编码特征；将各音区编码特征输入到预设语音识别网络，得到各音区语音识别文本内容；分别比较各音区语音识别文本内容的识别置信度与预设置信度参考阈值；将识别置信度大于预设置信度参考阈值的音区语音识别文本内容作为目标语音识别结果。本发明实施例的技术方案解决了现有技术中无法准确且高效地识别车内混合语音的问题，可以提高对车内混合语音的识别准确性和识别效率。
80.图5是本发明实施例提供的一种车载语音识别装置的结构示意图，本发明实施例可适用于对车内的混合语音进行识别的场景中，该装置可以由软件和/或硬件的方式来实现，集成于具有应用开发功能的计算机设备中。
81.如图5所示，车载语音识别装置包括：语音信号获取模块310、音区编码特征确定模块320和语音识别结果确定模块330。
82.其中，语音信号获取模块310，用于获取目标车辆中各音区车载麦克风采集到的多路原始音频信号，并对所述多路原始音频信号进行信号处理得到混合音区特征；音区编码特征确定模块320，用于将所述混合音区特征输入到预设音区编码识别神经网络，得到各音区编码特征；语音识别结果确定模块330，用于将所述各音区编码特征输入到预设语音识别网络，得到各音区语音识别文本内容，并基于所述各音区语音识别文本内容确定目标语音
识别结果。
83.本发明实施例所提供的技术方案，通过获取目标车辆中各音区车载麦克风采集到的多路原始音频信号，并对所述多路原始音频信号进行信号处理得到混合音区特征；将所述混合音区特征输入到预设音区编码识别神经网络，得到各音区编码特征；将所述各音区编码特征输入到预设语音识别网络，得到各音区语音识别文本内容，并基于所述各音区语音识别文本内容确定目标语音识别结果。本发明实施例的技术方案解决了现有技术中无法准确且高效地识别车内混合语音的问题，可以提高对车内混合语音的识别准确性和识别效率。
84.在一种可选的实施方式中，所述语音信号获取模块310具体用于：分别对所述多路原始音频信号进行快速傅里叶变换得到对应的时频谱图；将各所述时频谱图进行叠加并进行均值计算，得到混合平均时频谱图，作为所述混合音区特征。
85.在一种可选的实施方式中，语音识别结果确定模块320具体用于：分别比较所述各音区语音识别文本内容的识别置信度与预设置信度参考阈值；将识别置信度大于所述预设置信度参考阈值的音区语音识别文本内容作为目标语音识别结果。
86.在一种可选的实施方式中，所述车载语音识别装置还包括：预设音区编码识别神经网络训练模块，用于：将一个发声对象发出语音时所述目标车辆中各音区车载麦克风采集到的多路音频样本信号的混合平均时频谱图作为一类样本，并将所述发声对象所在音区的车载麦克风采集到的音频样本信号的时频谱图及对应数量的纯噪声音频时频谱图作为一类样本标签；基于所述一类样本和所述一类样本标签进行模型训练，得到基础音区编码识别神经网络；将多个发声对象发出语音时所述目标车辆中各音区车载麦克风采集到的多路音频样本信号的混合平均时频谱图作为二类样本，并将所述多个发声对象所在音区的车载麦克风采集到的音频样本信号的时频谱图及对应数量的纯噪声音频时频谱图作为二类样本标签；基于所述二类样本和所述二类样本标签对所述基础音区编码识别神经网络进行模型训练，得到所述预设音区编码识别神经网络。
87.在一种可选的实施方式中，在一种可选的实施方式中，所述车载语音识别装置还包括：预设语音识别网络训练模块，用于：将所述一类样本和所述二类样本分别输入到所述预设音区编码识别神经网络，得到对应的各样本音区编码特征；将所述各样本音区编码特征作为语音识别网络的模型训练样本，并将对应的所述一类样本或所述二类样本对应的多路原始音频信号的文本内容作为样本标签，对初始语音识别模型进行训练，得到所述预设语音识别网络。
88.在一种可选的实施方式中，所述预设语音识别网络是基于transformer-ctc模型训练得到的模型。
89.在一种可选的实施方式中，所述车载语音识别装置还包括：语音识别结果显示模块，用于：将所述目标语音识别结果显示在所述目标车辆的车载显示屏上。
90.本发明实施例所提供的车载语音识别装置可执行本发明任意实施例所提供的车载语音识别方法，具备执行方法相应的功能模块和有益效果。
91.图6为本发明实施例提供的一种计算机设备的结构示意图。图6示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图6显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。计算机设备12可以任意具有计
算能力的终端设备，可以与配置于车载语音识别设备中。
92.如图6所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
93.总线18可以是几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(isa)总线，微通道体系结构(mac)总线，增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。
94.计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。
95.系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(ram)30和/或高速缓存32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示，通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如cd-rom，dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。
96.具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如系统存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
97.计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图6中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
98.处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发实施例所提供的车载语音识别方法，该方法包括：
99.获取目标车辆中各音区车载麦克风采集到的多路原始音频信号，并对所述多路原始音频信号进行信号处理得到混合音区特征；
100.将所述混合音区特征输入到预设音区编码识别神经网络，得到各音区编码特征；
101.将所述各音区编码特征输入到预设语音识别网络，得到各音区语音识别文本内
容，并基于所述各音区语音识别文本内容确定目标语音识别结果。
102.本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所提供的车载语音识别方法，包括：
103.获取目标车辆中各音区车载麦克风采集到的多路原始音频信号，并对所述多路原始音频信号进行信号处理得到混合音区特征；
104.将所述混合音区特征输入到预设音区编码识别神经网络，得到各音区编码特征；
105.将所述各音区编码特征输入到预设语音识别网络，得到各音区语音识别文本内容，并基于所述各音区语音识别文本内容确定目标语音识别结果。
106.本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
107.计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
108.计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。
109.可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言，诸如java、smalltalk、c++，还包括常规的过程式程序设计语言，诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
110.本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。
111.注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，
本发明不限于这里的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

技术特征：
1.一种车载语音识别方法，其特征在于，包括：获取目标车辆中各音区车载麦克风采集到的多路原始音频信号，并对所述多路原始音频信号进行信号处理得到混合音区特征；将所述混合音区特征输入到预设音区编码识别神经网络，得到各音区编码特征；将所述各音区编码特征输入到预设语音识别网络，得到各音区语音识别文本内容，并基于所述各音区语音识别文本内容确定目标语音识别结果。2.根据权利要求1所述的方法，其特征在于，所述对所述多路原始音频信号进行信号处理得到混合音区特征，包括：分别对所述多路原始音频信号进行快速傅里叶变换得到对应的时频谱图；将各所述时频谱图进行叠加并进行均值计算，得到混合平均时频谱图，作为所述混合音区特征。3.根据权利要求1或2所述的方法，其特征在于，所述预设音区编码识别神经网络的训练过程，包括：将一个发声对象发出语音时所述目标车辆中各音区车载麦克风采集到的多路音频样本信号的混合平均时频谱图作为一类样本，并将所述发声对象所在音区的车载麦克风采集到的音频样本信号的时频谱图及对应数量的纯噪声音频时频谱图作为一类样本标签；基于所述一类样本和所述一类样本标签进行模型训练，得到基础音区编码识别神经网络；将多个发声对象发出语音时所述目标车辆中各音区车载麦克风采集到的多路音频样本信号的混合平均时频谱图作为二类样本，并将所述多个发声对象所在音区的车载麦克风采集到的音频样本信号的时频谱图及对应数量的纯噪声音频时频谱图作为二类样本标签；基于所述二类样本和所述二类样本标签对所述基础音区编码识别神经网络进行模型训练，得到所述预设音区编码识别神经网络。4.根据权利要求1所述的方法，其特征在于，所述基于所述各音区语音识别文本内容确定目标语音识别结果，包括：分别比较所述各音区语音识别文本内容的识别置信度与预设置信度参考阈值；将识别置信度大于所述预设置信度参考阈值的音区语音识别文本内容作为目标语音识别结果。5.根据权利要求3所述的方法，其特征在于，所述预设语音识别网络的训练过程，包括：将所述一类样本和所述二类样本分别输入到所述预设音区编码识别神经网络，得到对应的各样本音区编码特征；将所述各样本音区编码特征作为语音识别网络的模型训练样本，并将对应的所述一类样本或所述二类样本对应的多路原始音频信号的文本内容作为样本标签，对初始语音识别模型进行训练，得到所述预设语音识别网络。6.根据权利要求5所述的方法，其特征在于，所述预设语音识别网络是基于transformer-ctc模型训练得到的模型。7.根据权利要求1所述的方法，其特征在于，所述方法还包括：将所述目标语音识别结果显示在所述目标车辆的车载显示屏上。8.一种车载语音识别装置，其特征在于，包括：
语音信号获取模块，用于获取目标车辆中各音区车载麦克风采集到的多路原始音频信号，并对所述多路原始音频信号进行信号处理得到混合音区特征；音区编码特征确定模块，用于将所述混合音区特征输入到预设音区编码识别神经网络，得到各音区编码特征；语音识别结果确定模块，用于将所述各音区编码特征输入到预设语音识别网络，得到各音区语音识别文本内容，并基于所述各音区语音识别文本内容确定目标语音识别结果。9.一种计算机设备，其特征在于，所述计算机设备包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的车载语音识别方法。10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的车载语音识别方法。

技术总结
本发明实施例公开了一种车载语音识别方法、装置、设备和存储介质，其中，方法包括：获取目标车辆中各音区车载麦克风采集到的多路原始音频信号，并对所述多路原始音频信号进行信号处理得到混合音区特征；将所述混合音区特征输入到预设音区编码识别神经网络，得到各音区编码特征；将所述各音区编码特征输入到预设语音识别网络，得到各音区语音识别文本内容，并基于所述各音区语音识别文本内容确定目标语音识别结果。本发明实施例的技术方案解决了现有技术中无法准确且高效地识别车内混合语音的问题，可以提高对车内混合语音的识别准确性和识别效率和识别效率。和识别效率和识别效率。和识别效率和识别效率。

技术研发人员：孙宇嘉陈博付振王明月何金鑫梁小明王紫烟张毅
受保护的技术使用者：一汽（南京）科技开发有限公司
技术研发日：2023.06.02
技术公布日：2023/8/13

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

一种车载语音识别方法、装置、设备和存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种车载语音识别方法、装置、设备和存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表