混音方法、装置、电子设备及存储介质与流程

未命名 07-15 阅读：95 评论：0

1.本技术属于音频处理技术领域，具体涉及一种混音方法、装置、电子设备及存储介质。

背景技术：

2.目前，用户可以通过电子设备，对至少一个音频信号(例如歌声)进行合成处理，从而得到用户需求的音频文件。现有技术中，歌声的音频合成主要是通过预先录制大量的歌曲，对这些录制歌曲进行标注训练，然后输入预先训练好的合成模型中进行训练，得到多种声学参数，基于这些声学参数，来合成歌声的音频。
3.然而，上述歌声的音频合成的过程，不仅需要预先录制大量的歌曲，还需要专业的歌手在特定的环境进行录制，导致在没有大量标注的专业歌手录制的情况下，歌声的音频合成的真实性差，如此，电子设备生成的音频文件的失真度较高。

技术实现要素：

4.本技术实施例的目的是提供一种混音方法、装置、电子设备及存储介质，能够解决电子设备生成的音频文件的失真度较高的问题。
5.第一方面，本技术实施例提供了一种混音方法，该混音方法包括：获取m个音频信号，m个音频信号中的第一音频信号包含人声信号；对第一音频信号进行信号处理，消除第一音频信号中的人声信号中的气息信号，以得到第二音频信号；基于第二音频信号和m个音频信号中除第一音频信号以外的其他音频信号，得到目标音频信号；其中，m为大于1的整数。
6.第二方面，本技术实施例提供了一种混音装置，该混音装置包括：获取模块和处理模块。获取模块，用于获取m个音频信号，m个音频信号中的第一音频信号包含人声信号。处理模块，用于对第一音频信号进行信号处理，消除第一音频信号中的人声信号中的气息信号，以得到第二音频信号；并基于第二音频信号和m个音频信号中除第一音频信号以外的其他音频信号，得到目标音频信号；其中，m为大于1的整数。
7.第三方面，本技术实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
8.第四方面，本技术实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
9.第五方面，本技术实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。
10.第六方面，本技术实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
11.在本技术实施例中，电子设备可以获取m个音频信号，该m个音频信号中的第一音频信号包含人声信号，然后，电子设备可以对第一音频信号进行信号处理，以消除第一音频信号中的人声信号中的气息信息，从而得到第二音频信号，进而基于第二音频信号和m个音频信号中除第一音频信号以外的其他音频信号，得到目标音频信号。本方案中，由于电子设备可以对第一音频进行信号处理，消除了第一音频信号中的人声信号中的气息信号，从而电子设备得到的目标音频信号中的杂音较低，进而提升了音频文件的音质，避免了电子设备生成的音频文件失真度较高的问题，如此，提升了电子设备生成的音频文件的音质。
附图说明
12.图1是本技术实施例提供的一种混音方法的流程图之一；
13.图2是本技术实施例提供的一种混音方法的流程图之二；
14.图3是本技术实施例提供的一种混音方法的流程图之三；
15.图4是本技术实施例提供的一种混音应用程序的界面的实例示意图；
16.图5是本技术实施例提供的一种混音装置的结构示意图；
17.图6是本技术实施例提供的一种电子设备的硬件结构示意图之一；
18.图7是本技术实施例提供的一种电子设备的硬件结构示意图之二。
具体实施方式
19.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
20.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。
21.下面对本技术实施例中涉及的专业术语进行解释说明。
22.混音：混音是音乐制作中的一个步骤，是把多种来源的声音整合至一个立体声轨或者单音音轨中。
23.过零率：单位时间内信号通过零值的次数，即信号正负值变化的次数。
24.自动增益控制：(automatic gain control，agc)，对较大的信号衰减，对小信号放大。将信号增益调整到一个合适的范围，达到其最佳的调节效果。
25.下面结合附图，通过具体的实施例及其应用场景对本技术实施例提供的混音方法进行详细地说明。
26.目前，随着电子设备的发展，各类歌唱节目的红火以及各类短视频平台的出现，用户动手制作音乐逐渐成为潮流，各类音乐应用程序中的音乐创造者越来越多，现有技术中，用户可以通过人工智能(artificial intelligence，ai)作曲功能可以帮助用户进行自动
谱曲，然后，将用户可以人声音频信号和其他类型(例如乐器)的音频信号，输入至电子设备中，通过电子设备将该人声音频信号和乐器音频型号进行合成，从而得到用户需求的音频文件。
27.然而，由于人声音频信号通常包含气息音频信号，电子设备在生成音频文件后，若未能去除气息音频信号，则导致音频文件的音质较差，如此，电子设备生成的音频文件的失真度较高。
28.本技术实施例中，电子设备可以获取m个音频信号，该m个音频信号中的第一音频信号包含人声信号，然后，电子设备可以对第一音频信号进行信号处理，以消除第一音频信号中的人声信号中的气息信息，从而得到第二音频信号，进而基于第二音频信号和m个音频信号中除第一音频信号以外的其他音频信号，得到目标音频信号。本方案中，由于电子设备可以对第一音频进行信号处理，消除了第一音频信号中的人声信号中的气息信号，从而电子设备得到的目标音频信号中的杂音较低，进而提升了音频文件的音质，避免了电子设备生成的音频文件失真度较高的问题，如此，提升了电子设备生成的音频文件的音质。
29.本技术实施例提供的混音方法的执行主体可以为混音装置，该混音装置可以为电子设备，或电子设备中的功能模块。以下以电子设备为例，对本技术实施例提供的技术方案进行说明。
30.本技术实施例提供一种混音方法，图1示出了本技术实施例提供的一种混音方法的流程图。如图1所示，本技术实施例提供的混音方法可以包括下述的步骤201至步骤203。
31.步骤201、电子设备获取m个音频信号。
32.本技术实施例中，上述m个音频信号中的第一音频信号包含人声信号，该m个音频信号中的每个音频信号对应的音频类型不同，m为大于1的整数。
33.本技术实施中，电子设备可以通过用户在预设界面上的输入，从而确定m个音频信号，该预设界面可以为音频应用程序或浏览器应用程序。
34.可选地，本技术实施例中，上述用户在目标界面上的输入可以为点击输入、长按输入、预设轨迹输入或滑动输入等。具体可以根据实际使用情况确定，本技术实施例不做限制。
35.可选地，本技术实施例中，上述音频类型可以包括以下至少一项：人声类型、吉他音频类型、钢琴音频类型和鼓声音频类型。
36.可选地，本技术实施例中，在电子设备获取m个音频信号之后，电子设备可以通过至少一个神经网络对m个音频信号进行处理，从而确定出m个音频信号所属的音频类型。
37.示例性地，电子设备可以通过预训练的卷积神经网络(convolutional neural network,cnn)模型提取m个音频信号的向量embedding特征，然后通过二阶分类器(例如支持向量机(support vector machines，svm))，对m个音频信号进行间隔最大化处理，从而使cnn模型能够较准确的根据音频特性识别出m个音频信号的音频类型。
38.步骤202、电子设备对第一音频信号进行信号处理，消除第一音频信号中的人声信号中的气息信号，以得到第二音频信号。
39.本技术实施例中，电子设备可以通过对第一音频信号进行信号处理，消除第一音频信号中的人声信号中的气息信号，从而电子设备得到的音频文件(即下述目标音频信号)的失真度较低。
40.可选地，本技术实施例中，结合图1，如图2所示，上述步骤202具体可以通过下述的步骤202a和步骤202b实现。
41.步骤202a、电子设备基于第一音频信号的音频信号信息，从第一音频信号中确定出气息信号。
42.本技术实施例中，上述音频信号信息包括第一音频信号的以下至少之一：时域信息和频域信息。
43.本技术实施例中，电子设备可以在时域和/或频域上对第一音频信号进行处理，从而可以电子设备在不同角度上从第一音频信号中确定出气息信号，如此，提升了电子设备从第一音频信号中确定出气息信号的灵活性。
44.步骤202b、电子设备对第一音频信号中的气息信号进行能量抑制处理，得到第二音频信号。
45.本技术实施例中，电子设备在得到第一音频信号中的气息信号之后，电子设备可以将第一音频信号与预设常数进行与运算，从而抑制第一音频信号中的气息信号，进而得到第二音频信号。
46.本技术实施例中，电子设备通过对第一音频信号中的气息信号进行能量抑制处理，从而电子设备得到的目标音频信号的失真度较低。
47.可选地，本技术实施例中，上述音频信号信息包括：频域信息；上述步骤202a具体可以通过下述的步骤301至步骤304。
48.步骤301、电子设备确定n个预设时间点。
49.可选地，本技术实施例中，上述n个预设时间点可以为用户预设的或电子设备根据音频信号的频率确定的。
50.步骤302、电子设备在每个预设时间点，对第一音频信号的频率进行n次均匀采样，得到至少n个频率。
51.本技术实施例中，n为大于1的整数。
52.示例性地，假设第一音频信号的采样率为fs，频谱范围为0～f0 hz，以f/16hz为起始频率，间隔f/8hz均匀频率选取，则n个频率分别为：
[0053][0054]
步骤303、针对n个频率中的每个频率，基于第一频率和目标值，得到第一频率对应的第一能量值。
[0055]
本技术实施例中，上述目标值为至少n个第一频率对应频率值的平均值，第一能量值用于表征在第一频率下第一音频信号当前的频率能量。
[0056]
本技术实施例中，电子设备可以将n个第一频率对应频率值的平均值和第一频率进行方差处理，从而得到第一频率对应的第一能量值，具体可以通过下述公式一实现：
[0057][0058]
其中，e
fi
为第一频率处的信号能量，e0为同一时间点至少n个第一频率对应频率值的平均值，s2为第一频率对应的第一能量值。
[0059]
步骤304、电子设备基于每个频率对应的能量值，从第一音频信号中确定出气息信号。
[0060]
本技术实施例中，针对每个频率对应的能量值，电子设备可以得到第一个频率对应的能量值(下述简称为第一能量值)，从而根据第一能量值从第一音频信号中确定出该第一个频率对应的音频信号(下述简称为第一信号)，并将该第一信号确定为气息信号，然后，电子设备可以得到第二个频率对应的能量值(下述简称为第二能量值)，从而根据第二能量值从第一音频信号中确定该第二个频率对应的音频信号(下述简称为第二信号)，并将该第二信号确定为气息信号，以此类推，直至将确定出n个频率的能量值，从而根据n个频率的能量值，电子设备可以从第一音频信号中确定出完整的气息信号。
[0061]
可选地，本技术实施例中，上述步骤304具体可以通过步骤304a实现。
[0062]
步骤304a、在任一频率对应的能量值小于预设阈值的情况下，电子设备将第一音频信号中任一频率对应的音频信号确定为气息信号。
[0063]
可选地，本技术实施例中，上述预设阈值可以为用户预设的，或电子设备根据n个频率的能量值的均值确定的。
[0064]
示例性地，电子设备可以将任一频率对应的能量值小于0.1的音频信号，确定为气息信号，并对该气息信号进行能量抑制处理。
[0065]
可选地，本技术实施例中，电子设备可以获取第二预设阈值，在任一频率对应的能量值小于第二预设阈值的情况下，电子设备将第一音频信号中任一频率对应的音频信号确定为气息信号，并对该音频信号进行加倍能量抑制处理。
[0066]
示例性地，电子设备可以将任一频率对应的能量值小于0.05的音频信号，确定为气息信号，并对该气息信号进行加倍能量抑制处理。
[0067]
需要说明的是，电子设备对气息信号进行能量抑制处理具体可以参见上述实施例，为避免重复，此处不再赘述。
[0068]
本技术实施例中，电子设备可以根据任一频率对应的能量值是否小于预设阈值，从而从第一音频信号确定出气息信号，提升了电子设备确定气息信号的准确性。
[0069]
可选地，本技术实施例中，上述音频信号信息还包括：时域信息；上述步骤304具体可以通过下述步骤304b实现。
[0070]
步骤304b、在任一频率对应的能量值小于预设阈值、且第一音频信号中任一频率对应的音频信号的时域频段的过零率大于预设过零率的情况下，电子设备将第一音频信号中任一频率对应的音频信号确定为气息信号。
[0071]
本技术实施例中，电子设备可以根据第一音频信号中任一频率对应的音频信号的时域频段在单位时间内的过零率，判断该时域频段内是否存在气息信号。
[0072]
示例性地，电子设备可以截取t0至t1时刻内的第一音频信号中任一频率对应的音频信号的时域频段，然后将t0至t1时刻的第一音频信号的过零率与预设过零率(例如60)进行对比，从而将t0至t1时刻中的第一音频信号中大于预设过零率的音频信号确定为气息信号。
[0073]
可选地，本技术实施例中，在第一音频信号中任一频率对应的音频信号的时域频段的过零率大于第二预设过零率的情况下，电子设备将第一音频信号中任一频率对应的音频信号确定为气息信号，然后对该气息信号进行加倍能量抑制处理。
[0074]
示例性地，电子设备可以截取t1至t2时刻内的第一音频信号中任一频率对应的音频信号的时域频段，然后将t1至t2时刻的第一音频信号的过零率与预设过零率(例如80)进行对比，从而将t1至t2时刻中的第一音频信号中大于预设过零率的音频信号确定为气息信号，并对该气息信号进行加倍能量抑制处理。
[0075]
本技术实施例中，电子设备可以在频域和时域上分别确定气息信号，从而电子设备将频域上得到的气息信号和频域上得到的气息信号进行结合，综合判断第一音频中的气息信号，提升了电子设备确定气息信号的准确性。
[0076]
步骤203、电子设备基于第二音频信号和m个音频信号中除第一音频信号以外的其他音频信号，得到目标音频信号。
[0077]
本技术实施例中，电子设备在得到第二音频信号可以和m个音频信号中除第一音频信号以外的其他音频信号进行合成处理，从而得到目标音频信号。
[0078]
需要说明的是，上述目标音频信号为单轨音频信号。
[0079]
可选地，本技术实施例中，结合图1，如图3所示，上述步骤203具体可以通过下述的步骤401和步骤402实现。
[0080]
步骤401、电子设备基于每个其他音频信号对应的音量基准值，分别调节各自对应的音频音量，得到调节后的其他音频信号。
[0081]
本技术实施例中，上述每个其他音频信号对应的音量基准值是：基于预设音量基准值和各自对应的音频类型分别确定的。
[0082]
可选地，本技术实施例中，在电子设备基于每个其他音频信号对应的音量基准值，分别调节各自对应的音频音量，得到调节后的其他音频信号之前，电子设备可以获取预设音量基准值，该预设音量基准值为每个其他音频信号的音量值上限。
[0083]
需要说明的是，上述每个其他音频信号对应的音量基准值不同。
[0084]
本技术实施例中，电子设备可以预设音量基准值和每个其他音频信号对应的音频类型通过等响曲线确定每个其他音频信号的音量基准值，然后根据每个其他音频信号的音量基准值，通过agc算法分别对每个其他音频信号进行单轨音量调节，从而得到调节后的其他音频信号。
[0085]
步骤402、电子设备将第二音频信号和调节后的其他音频信号进行混音处理，得到目标音频信号。
[0086]
本技术实施例中，电子设备可以将第二音频信号和调节后的其他音频信号进行合成处理，得到目标音频信号。
[0087]
可选地，本技术实施例中，电子设备在得到目标音频信号之后，电子设备可以接收用户的输入，从而对目标音频进行目标操作。
[0088]
可选地，本技术实施例中，上述目标操作可以包括以下至少一项：分享操作、下载操作和重命名操作。
[0089]
本技术实施例中，电子设备可以对其他音频信号进行音量调节处理，并将音量调节后的其他音频信号与第二音频信号进行混音处理，如此，电子设备得到的目标音频信号的音质较好。
[0090]
本技术实施例提供一种混音方法，电子设备可以获取m个音频信号，该m个音频信号中的第一音频信号包含人声信号，m个音频信号中的每个音频信号对应的音频类型不同，
然后，电子设备可以对第一音频信号进行信号处理，以消除第一音频信号中的人声信号中的气息信息，从而得到第二音频信号，进而基于第二音频信号和m个音频信号中除第一音频信号以外的其他音频信号，得到目标音频信号。本方案中，由于电子设备可以对第一音频进行信号处理，消除了第一音频信号中的所述人声信号中的气息信号，从而电子设备得到的目标音频信号中的杂音较低，进而提升了音频文件的音质，避免了电子设备生成的音频文件失真度较高的问题，如此，提升了电子设备生成的音频文件的音质。
[0091]
示例性地，下面通过具体的实例对本技术提供的混音方进行进一步的解释说明。
[0092]
步骤20、电子设备接收用户在目标界面上的第一输入。
[0093]
本技术实施例中，上述目标界面为混音应用程序中的界面，该界面中包括第一控件和第二控件，该第一控件用于添加m个音频信号，该第二控件用于制作目标音频信号。
[0094]
可选地，本技术实施例中，上述第一输入可以包括第一子输入和第二子输入，该第一子输入可以为用户对第一控件的输入，第二子输入可以为用户对第二控件的输入。
[0095]
示例性地，如图4所示，在显示目标界面10的情况下，电子设备可以接收用户对目标控件11的多次第一子输入，从而电子设备可以添加m个音频信号，然后电子设备可以接收用户对第二控件12的第二子输入，进而电子设备可以开始制作并得到目标音频信号。
[0096]
步骤21、电子设备响应于第一输入，基于多个神经网络对m个音频信号进行单轨识别，得到m个音频信号中的每个音频的音频类别。
[0097]
可选地，本技术实施例中，上述音频类别包括以下至少一项：人声类型、吉他音频类型、钢琴音频类型和鼓声音频类型。
[0098]
步骤22、电子设备通过时域过零率和频域上的能量值方差对m个音频信号中人声信号中的气息信号进行能量异常处理，从而消除气息信号。
[0099]
步骤23、电子设备可以设置预设音量基准值，该音量基准值为m个音频信号中除人声音频信号以外的其他音频信号的音量上限值。
[0100]
步骤24、电子设备可以针对不同音频类型的频谱特征，结合等响曲线分别确定其他音频信号的音量基准值，然后通过agc算法和其他音频信号的音量基准值，对其他音频信号的音量进行单轨调整。
[0101]
步骤25、电子设备将音量调整后的其他音频信号和消除气息信号的人声信号进行混合叠加处理，从而得到单轨的目标音频信号。
[0102]
本技术实施例提供一种混音方法，由于电子设备可以对第一音频进行信号处理，消除了第一音频信号中的人声信号中的气息信号，而且，电子设备通过调节第一音频中除人声信号以外的其他音频信号的音量，从而电子设备得到的目标音频信号中的杂音较低，进而提升了音频文件的音质，避免了电子设备生成的音频文件失真度较高的问题，如此，提升了电子设备生成的音频文件的音质。
[0103]
需要说明的是，本技术实施例提供的混音方法，执行主体可以为混音装置，或者电子设备，或者还可以为电子设备中的功能模块或实体。本技术实施例中以混音装置执行混音方法为例，说明本技术实施例提供的混音装置。
[0104]
图5示出了本技术实施例中涉及的混音装置的一种可能的结构示意图。如图5所示，该混音装置70可以包括：获取模块71和处理模块72。
[0105]
其中，获取模块71，用于获取m个音频信号，m个音频信号中的第一音频信号包含人
声信号。处理模块72，用于对第一音频信号进行信号处理，消除第一音频信号中的人声信号中的气息信号，以得到第二音频信号；并基于第二音频信号和m个音频信号中除第一音频信号以外的其他音频信号，得到目标音频信号；其中，m为大于1的整数。
[0106]
在一种可能的实现方式中，上述处理模块72，具体用于基于第一音频信号的音频信号信息，从第一音频信号中确定出气息信号，音频信号信息包括第一音频信号的以下至少之一：时域信息和频域信息；并对第一音频信号中的气息信号进行能量抑制处理，得到第二音频信号。
[0107]
在一种可能的实现方式中，上述音频信号信息包括：频域信息；处理模块72，具体用于确定n个预设时间点；在每个预设时间点，对第一音频信号的频率进行n次均匀采样，得到至少n个频率；针对n个频率中的每个频率，基于第一频率和目标值，得到第一频率对应的第一能量值，目标值为至少n个第一频率对应频率值的平均值，第一能量值用于表征在第一频率下第一音频信号当前的频率能量；基于每个频率对应的能量值，从第一音频信号中确定出气息信号。
[0108]
在一种可能的实现方式中，上述处理模块72，具体用于在任一频率对应的能量值小于预设阈值的情况下，将第一音频信号中任一频率对应的音频信号确定为气息信号。
[0109]
在一种可能的实现方式中，上述音频信号信息还包括：时域信息；处理模块72，具体用于在任一频率对应的能量值小于预设阈值、且第一音频信号中任一频率对应的音频信号的时域频段的过零率大于预设过零率的情况下，将第一音频信号中任一频率对应的音频信号确定为气息信号。
[0110]
在一种可能的实现方式中，上述处理模块72，还用于基于每个其他音频信号对应的音量基准值，分别调节各自对应的音频音量，得到调节后的其他音频信号；将第二音频信号和调节后的其他音频信号进行混音处理，得到目标音频信号；其中，每个其他音频信号对应的音量基准值是：基于预设音量基准值和各自对应的音频类型分别确定的。
[0111]
本技术实施例提供一种混音装置，由于混音装置可以对第一音频进行信号处理，消除了第一音频信号中的人声信号中的气息信号，从而混音装置得到的目标音频信号中的杂音较低，进而提升了音频文件的音质，避免了混音装置生成的音频文件失真度较高的问题，如此，提升了混音装置生成的音频文件的音质。
[0112]
本技术实施例中的混音装置可以是装置，也可以是电子设备中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(mobile internet device，mid)、增强现实(augmented reality，ar)/虚拟现实(virtual reality，vr)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，umpc)、上网本或者个人数字助理(personal digital assistant，pda)等，还可以为服务器、网络附属存储器(network attached storage，nas)、个人计算机(personal computer，pc)、电视机(television，tv)、柜员机或者自助机等，本技术实施例不作具体限定。
[0113]
本技术实施例中的混音装置可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本技术实施例不作具体限定。
[0114]
本技术实施例提供的混音装置能够实现上述方法实施例实现的各个过程，为避免
重复，这里不再赘述。
[0115]
可选地，如图6所示，本技术实施例还提供一种电子设备90，包括处理器91和存储器92，存储器92上存储有可在所述处理器91上运行的程序或指令，该程序或指令被处理器91执行时实现上述混音方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0116]
需要说明的是，本技术实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
[0117]
图7为实现本技术实施例的一种电子设备的硬件结构示意图。
[0118]
该电子设备100包括但不限于：射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。
[0119]
本领域技术人员可以理解，电子设备100还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图7中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。
[0120]
其中，处理器110，用于获取m个音频信号，m个音频信号中的第一音频信号包含人声信号；并对第一音频信号进行信号处理，消除第一音频信号中的人声信号中的气息信号，以得到第二音频信号；以及基于第二音频信号和m个音频信号中除第一音频信号以外的其他音频信号，得到目标音频信号；其中，m为大于1的整数。
[0121]
本技术实施例提供一种电子设备，由于电子设备可以对第一音频进行信号处理，消除了第一音频信号中的人声信号中的气息信号，从而电子设备得到的目标音频信号中的杂音较低，进而提升了音频文件的音质，避免了电子设备生成的音频文件失真度较高的问题，如此，提升了电子设备生成的音频文件的音质。
[0122]
可选地，本技术实施例中，上述处理器110，具体用于基于第一音频信号的音频信号信息，从第一音频信号中确定出气息信号，音频信号信息包括第一音频信号的以下至少之一：时域信息和频域信息；对第一音频信号中的气息信号进行能量抑制处理，得到第二音频信号。
[0123]
可选地，本技术实施例中，上述音频信号信息包括：频域信息；上述处理器110，具体用于确定n个预设时间点；在每个预设时间点，对第一音频信号的频率进行n次均匀采样，得到至少n个频率；针对n个频率中的每个频率，基于第一频率和目标值，得到第一频率对应的第一能量值，目标值为至少n个第一频率对应频率值的平均值，第一能量值用于表征在第一频率下第一音频信号当前的频率能量；基于每个频率对应的能量值，从第一音频信号中确定出气息信号。
[0124]
可选地，本技术实施例中，上述处理器110，具体用于在任一频率对应的能量值小于预设阈值的情况下，将第一音频信号中任一频率对应的音频信号确定为气息信号。
[0125]
可选地，本技术实施例中，上述音频信号信息还包括：时域信息；上述处理器110，具体用于在任一频率对应的能量值小于预设阈值、且第一音频信号中任一频率对应的音频信号的时域频段的过零率大于预设过零率的情况下，将第一音频信号中任一频率对应的音
频信号确定为气息信号。
[0126]
可选地，本技术实施例中，上述处理器110，具体用于基于每个其他音频信号对应的音量基准值，分别调节各自对应的音频音量，得到调节后的其他音频信号；将第二音频信号和调节后的其他音频信号进行混音处理，得到目标音频信号；其中，每个其他音频信号对应的音量基准值是：基于预设音量基准值和各自对应的音频类型分别确定的。
[0127]
本技术实施例提供的电子设备能够实现上述方法实施例实现的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0128]
本实施例中各种实现方式具有的有益效果具体可以参见上述方法实施例中相应实现方式所具有的有益效果，为避免重复，此处不再赘述。
[0129]
应理解的是，本技术实施例中，输入单元104可以包括图形处理器(graphics processing unit，gpu)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072中的至少一种。触控面板1071，也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。
[0130]
存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器109可以包括易失性存储器或非易失性存储器，或者，存储器109可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，rom)、可编程只读存储器(programmable rom，prom)、可擦除可编程只读存储器(erasable prom，eprom)、电可擦除可编程只读存储器(electrically eprom，eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory，ram)，静态随机存取存储器(static ram，sram)、动态随机存取存储器(dynamic ram，dram)、同步动态随机存取存储器(synchronous dram，sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram，ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram，esdram)、同步连接动态随机存取存储器(synch link dram，sldram)和直接内存总线随机存取存储器(direct rambus ram，drram)。本技术实施例中的存储器109包括但不限于这些和任意其它适合类型的存储器。
[0131]
处理器110可包括一个或多个处理单元；可选的，处理器110集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。
[0132]
本技术实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0133]
其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器rom、随机存取存储器ram、磁碟或者光
盘等。
[0134]
本技术实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0135]
应理解，本技术实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
[0136]
本技术实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述混音方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0137]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。
[0138]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本技术各个实施例所述的方法。
[0139]
上面结合附图对本技术的实施例进行了描述，但是本技术并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本技术的启示下，在不脱离本技术宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本技术的保护之内。

技术特征：
1.一种混音方法，其特征在于，所述方法包括：获取m个音频信号，所述m个音频信号中的第一音频信号包含人声信号；对所述第一音频信号进行信号处理，消除所述第一音频信号中的所述人声信号中的气息信号，以得到第二音频信号；基于所述第二音频信号和所述m个音频信号中除所述第一音频信号以外的其他音频信号，得到目标音频信号；其中，m为大于1的整数。2.根据权利要求1所述的方法，其特征在于，所述对所述第一音频信号进行信号处理，消除所述第一音频信号中的所述人声信号中的气息信号，以得到第二音频信号，包括：基于所述第一音频信号的音频信号信息，从所述第一音频信号中确定出气息信号，所述音频信号信息包括所述第一音频信号的以下至少之一：时域信息和频域信息；对所述第一音频信号中的所述气息信号进行能量抑制处理，得到所述第二音频信号。3.根据权利要求2所述的方法，其特征在于，所述音频信号信息包括：频域信息；所述基于所述第一音频信号的音频信号信息，从所述第一音频信号中确定出气息信号，包括：确定n个预设时间点；在每个所述预设时间点，对所述第一音频信号的频率进行n次均匀采样，得到至少n个频率；针对所述n个频率中的每个频率，基于第一频率和目标值，得到所述第一频率对应的第一能量值，所述目标值为所述至少n个第一频率对应频率值的平均值，所述第一能量值用于表征在所述第一频率下所述第一音频信号当前的频率能量；基于所述每个频率对应的能量值，从所述第一音频信号中确定出气息信号。4.根据权利要求3所述的方法，其特征在于，所述基于所述每个频率对应的能量值，从所述第一音频信号中确定出气息信号，包括：在任一频率对应的能量值小于预设阈值的情况下，将所述第一音频信号中所述任一频率对应的音频信号确定为所述气息信号。5.根据权利要求3所述的方法，其特征在于，所述音频信号信息还包括：时域信息；所述基于所述每个频率对应的能量值，从所述第一音频信号中确定出气息信号，包括：在所述任一频率对应的能量值小于预设阈值、且所述第一音频信号中所述任一频率对应的音频信号的时域频段的过零率大于预设过零率的情况下，将所述第一音频信号中所述任一频率对应的音频信号确定为所述气息信号。6.根据权利要求1所述的方法，其特征在于，所述基于所述第二音频信号和所述m个音频信号中除所述第一音频信号以外的其他音频信号，得到目标音频信号，包括：基于每个所述其他音频信号对应的音量基准值，分别调节各自对应的音频音量，得到调节后的所述其他音频信号；将所述第二音频信号和所述调节后的所述其他音频信号进行混音处理，得到所述目标音频信号；其中，每个所述其他音频信号对应的音量基准值是：基于预设音量基准值和各自对应的音频类型分别确定的。7.一种混音装置，其特征在于，所述装置包括：获取模块和处理模块；
所述获取模块，用于获取m个音频信号，所述m个音频信号中的第一音频信号包含人声信号；所述处理模块，用于对所述第一音频信号进行信号处理，消除所述第一音频信号中的所述人声信号中的气息信号，以得到第二音频信号；并基于所述第二音频信号和所述m个音频信号中除所述第一音频信号以外的其他音频信号，得到目标音频信号；其中，m为大于1的整数。8.根据权利要求7所述的装置，其特征在于，所述处理模块，具体用于基于所述第一音频信号的音频信号信息，从所述第一音频信号中确定出气息信号，所述音频信号信息包括所述第一音频信号的以下至少之一：时域信息和频域信息；并对所述第一音频信号中的所述气息信号进行能量抑制处理，得到所述第二音频信号。9.根据权利要求8所述的装置，其特征在于，所述音频信号信息包括：频域信息；所述处理模块，具体用于确定n个预设时间点；在每个所述预设时间点，对所述第一音频信号的频率进行n次均匀采样，得到至少n个频率；针对所述n个频率中的每个频率，基于第一频率和目标值，得到所述第一频率对应的第一能量值，所述目标值为所述至少n个第一频率对应频率值的平均值，所述第一能量值用于表征在所述第一频率下所述第一音频信号当前的频率能量；基于所述每个频率对应的能量值，从所述第一音频信号中确定出气息信号。10.根据权利要求9所述的装置，其特征在于，所述处理模块，具体用于在任一频率对应的能量值小于预设阈值的情况下，将所述第一音频信号中所述任一频率对应的音频信号确定为所述气息信号。11.根据权利要求9所述的装置，其特征在于，所述音频信号信息还包括：时域信息；所述处理模块，具体用于在所述任一频率对应的能量值小于预设阈值、且所述第一音频信号中所述任一频率对应的音频信号的时域频段的过零率大于预设过零率的情况下，将所述第一音频信号中所述任一频率对应的音频信号确定为所述气息信号。12.根据权利要求7所述的装置，其特征在于，所述处理模块，还用于：基于每个所述其他音频信号对应的音量基准值，分别调节各自对应的音频音量，得到调节后的所述其他音频信号；将所述第二音频信号和所述调节后的所述其他音频信号进行混音处理，得到所述目标音频信号；其中，每个所述其他音频信号对应的音量基准值是：基于预设音量基准值和各自对应的音频类型分别确定的。13.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至6中任一项所述的混音方法的步骤。14.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至6中任一项所述的混音方法的步骤。

技术总结
本申请公开了一种混音方法、装置、电子设备及存储介质，属于音频处理技术领域，能够解决电子设备生成的音频文件的失真度较高的问题。该方法包括：获取M个音频信号，M个音频信号中的第一音频信号包含人声信号；对第一音频信号进行信号处理，消除第一音频信号中的人声信号中的气息信号，以得到第二音频信号；基于第二音频信号和M个音频信号中除第一音频信号以外的其他音频信号，得到目标音频信号；其中，M为大于1的整数。为大于1的整数。为大于1的整数。

技术研发人员：程戈
受保护的技术使用者：维沃移动通信有限公司
技术研发日：2023.03.07
技术公布日：2023/7/12

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

混音方法、装置、电子设备及存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

混音方法、装置、电子设备及存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表