一种用于实时情感语音转换的方法及系统与流程

未命名 07-23 阅读:107 评论:0


1.本技术实施例涉及音频处理技术领域,尤其涉及一种用于实时情感语音转换的方法及系统。


背景技术:

2.传统的语音转换方法中通常采集用户输入的语音数据,并将采集的语音数据转换为二进制数据后,建立基于数据传输的网络请求,之后将服务端的用户语音数据进行转换并反馈至客户端输出。但是此种语音转换方法的语音转换质量,取决于网络传输的质量,在单一的网络传输调制参数下,无法适应多种语音转换质量的传输要求。从而由于不同用户输入的语音数据质量不同,导致语音数据传输质量不同,最终导致语音转换的自然度不足,并存在输出的语音声调单一情感体验差的问题。
3.公开号为cn113689867b的中国专利,提供了一种语音转换模型的预处理方法、装置、电子设备及介质,此专利通过提取原始声学中的隐特征,用以进一步提高原始声学与预测声学之间的匹配度。公开号为cn112116904b的中国专利,提供了一种语音转换方法、装置、设备及存储介质,此专利中针对原始语音可以同时进行语音与语种的转换。但是上述专利中并未明确说明匹配完成或语音转换后,针对原始声学中质量较差的信息,如何进一步进行声学质量增强。
4.因此,针对现有的语音转换技术中存在的问题,本发明中提供了一种用于实时情感语音转换的方法及系统


技术实现要素:

5.针对上述存在的问题,本发明第一方面提供了用于实时情感语音转换的方法,具体包括步骤一、实时采集用户录入语音数据;步骤二、将用户录入语音数据传送至模型文件中进行预处理;步骤三、待预处理完成后进行音频输出。
6.优选的,所述步骤二将用户录入语音数据传送至模型文件中进行预处理中,对用户录入语音数据进行用户编号,并根据用户编号针对下发音色文件。
7.优选的,校验所述模型文件是否存在,若是,则将音色文件传送至模型文件中进行预处理;若否,则反馈模型文件导入错误。
8.优选的,所述将音色文件传送至模型文件中进行预处理中,根据音色质量进行采样域的选择。
9.优选的,根据所述采样域的选择,进行数据传输波特率的同步切换,根据波特率的同步切换进行音色质量切换。
10.优选的,所述实时情感语音转换中,用户通过切换不同波特率数值进行不同音色质量的实时切换,切换速率在40ms-60ms之间。
11.优选的,所述不同音色质量的实时切换中,建立背景噪声分离方法提取用户音色文件,对音色文件中声音质量进行判断,对不符合判断标准的音色文件自适应调整波特率
数值,并进行音色质量增强。
12.本发明第二方面提供了一种用于实时情感语音转换的系统,具体包括资源模块、预处理模块、转换模块。
13.优选的,所述预处理模块中包括声音库,所述声音库中存储待用户转换的模型文件。
14.优选的,所述转换模块,根据用户需求进行音色参数调节,并进行待转换音色的自定义定制。
15.与现有技术相比,本发明的有益效果在于:
16.(1)本发明所述实时情感语音转换方法,将用户音色文件针对性匹配模型文件进行预处理,不同模型文件对应不同的待匹配音色数据,用以帮助用户自由选择音色,提高用户体验。
17.(2)在(1)的基础上,本发明中通过采样域的选择进行数据传输波特率的切换,从而进行音色质量的切换。针对不同的用户语音转换质量需求,以及不同的录音场景,动态的进行语音转换质量的优化,从而进一步提高用户语音转换的自然度。
18.(3)在(2)的基础上,本发明通过建立背景噪声分离方法提取用户音色文件,用以满足多场景下的语音转换与输出质量,提高用户语音识别精度。
19.(4)在(3)的基础上,本发明对不符合判断标准的音色文件,自适应调整波特率数值,并进行音色质量增强,从而进一步克服由于不同用户输入的语音数据中,指定频段下的语音质量不同,导致语音数据传输质量不同,最终导致语音转换的自然度不足,并存在输出的语音声调单一情感体验差的问题。
20.(5)在(4)的基础上,本发明中建立了用于实时情感语音转换的系统,所述系统中可根据用户需求自定义进行待转换语音的设置,从而满足用户的个性化需求,提高语音转换系统的应用范围。
附图说明
21.图1为一种用于实时情感语音转换的方法流程图。
具体实施方式
22.实施例:
23.本实施例中第一方面提供了用于实时情感语音转换的方法,如图1所示,具体包括:
24.步骤一、实时采集用户录入语音数据;
25.步骤二、将用户录入语音数据传送至模型文件中进行预处理;其中,所述预处理的具体流程为:
26.s1、对用户录入语音数据进行用户编号,并根据用户编号针对下发音色文件;
27.s2、校验所述模型文件是否存在,若是,则将音色文件传送至模型文件中进行预处理;若否,则反馈模型文件导入错误;
28.s3、所述将音色文件传送至模型文件中进行预处理中,根据音色质量进行采样域的选择;
29.s5、所述将音色文件传送至模型文件中进行预处理中,根据音色质量进行采样域的选择;
30.s6、根据所述采样域的选择,进行数据传输波特率的同步切换,根据波特率的同步切换进行音色质量切换;
31.s7、所述实时情感语音转换中,用户通过切换不同波特率数值进行不同音色质量的实时切换,切换速率为50ms;
32.s8、所述不同音色质量的实时切换中,建立背景噪声分离方法提取用户音色文件,对音色文件中声音质量进行判断,对不符合判断标准的音色文件自适应调整波特率数值,并进行音色质量增强;
33.进一步的,所述背景噪声分离方法中,将采集的用户录入语音数据转换为语音特征,并对所述语音特征进行筛选,在所述语音特征筛选中,提取语音特征中语音频域信息的幅值数据与相位数据,并根据幅值数据与相位数据的分布特点,进行语音特征与噪声的区分筛选,同时将所述幅值数据与相位数据根据其分布程度建立分布系数,根据分布系数对语音特征进行进一步放大,并对噪声进行进一步缩小,从而提高背景噪声分离的清晰度。
34.进一步的,所述对音色文件中声音质量进行判断中,具体的判断方式为:针对用户录入的音色文件,将音色文件划分为多个音色频段,对各音色频段进行声音质量判断,并根据声音质量判断结果将音色文件中的各音色频段划分至对应的采样域中,不同采样域在声音信号传播过程中对应不同的波特率,而不同的波特率决定声音信号的传播质量,通过对不同音色质量下的音色频段在声音传播过程中实时进行波特率的动态调整,从而保证转换后的音色质量保持稳定输出。
35.更进一步的,将本发明所述声音质量判断应用于实时情感语音转换的方法中,用以克服用户在进行语音转换时,由于情感的变换,造成音色文件各音色频段中声音的起伏波动,并由于起伏波动造成不同的频段中声音质量呈非线性变化,从而导致最终输出的预处理后的音色数据偏向机械音,缺乏连续性与情感的表达。
36.步骤三、待预处理完成后进行音频输出。
37.本实施例第二方面提供了用于实时情感语音转换的系统,具体包括资源模块、预处理模块、转换模块,其中:
38.所述资源模块:用于加载模型文件与音色文件;具体的,引入模型文件如下:
39.std::map《int,float*》speakerbins;
40.所述预处理模块:用于选择采样域与对应波特率,并选择待转换音色参数,进行音色转换引擎初始化,具体的,将音色转换引擎初始化并加载模型文件下:
41.42.[0043][0044]
所述转换模块:在音色转换引擎中,通过对应模型文件预处理音色文件,并输出预处理后的数据;其中,所述预处理模块中包括声音库,所述声音库中存储待用户转换的模型文件;所述转换模块,根据用户需求进行音色参数调节,并进行待转换音色的自定义定制。
[0045]
根据本发明的技术方案,通过采样域的选择,进行数据传输波特率的同步切换,根据波特率的同步切换进行音色质量切换,当用户录入语音数据时,用以根据用户语音数据中的情感变化进行不同声音数据传输波特率的调整,从而进行不同语音质量的实时切换,以此提高预处理后输出的音色质量的稳定性,提高输出音色数据的真实性。

技术特征:
1.一种用于实时情感语音转换的方法,其特征在于,具体包括步骤一、实时采集用户录入语音数据;步骤二、将用户录入语音数据传送至模型文件中进行预处理;步骤三、待预处理完成后进行音频输出。2.根据权利要求1所述用于实时情感语音转换的方法,其特征在于,所述步骤二将用户录入语音数据传送至模型文件中进行预处理中,对用户录入语音数据进行用户编号,并根据用户编号针对下发音色文件。3.根据权利要求2所述用于实时情感语音转换的方法,其特征在于,校验所述模型文件是否存在,若是,则将音色文件传送至模型文件中进行预处理;若否,则反馈模型文件导入错误。4.根据权利要求3所述用于实时情感语音转换的方法,其特征在于,所述将音色文件传送至模型文件中进行预处理中,根据音色质量进行采样域的选择。5.根据权利要求4所述用于实时情感语音转换的方法,其特征在于,根据所述采样域的选择,进行数据传输波特率的同步切换,根据波特率的同步切换进行音色质量切换。6.根据权利要求1所述用于实时情感语音转换的方法,其特征在于,所述实时情感语音转换中,用户通过切换不同波特率数值进行不同音色质量的实时切换,切换速率在40ms-60ms之间。7.根据权利要求6所述用于实时情感语音转换的系统,其特征在于,所述不同音色质量的实时切换中,建立背景噪声分离方法提取用户音色文件,对音色文件中声音质量进行判断,对不符合判断标准的音色文件自适应调整波特率数值,并进行音色质量增强。8.一种用于实时情感语音转换的系统,其特征在于,具体包括资源模块、预处理模块、转换模块。9.根据权利要求8所述用于实时情感语音转换的系统,其特征在于,所述预处理模块中包括声音库,所述声音库中存储待用户转换的模型文件。10.根据权利要求9所述用于实时情感语音转换的系统,其特征在于,所述转换模块,根据用户需求进行音色参数调节,并进行待转换音色的自定义定制。

技术总结
本申请实施例涉及音频处理技术领域,尤其涉及一种用于实时情感语音转换的方法及系统。本发明具体包括步骤一、实时采集用户录入语音数据;步骤二、将用户录入语音数据传送至模型文件中进行预处理;步骤三、待预处理完成后进行音频输出。本发明所述实时情感语音转换方法,将用户音色文件针对性匹配模型文件进行预处理,不同模型文件对应不同的待匹配音色数据,用以帮助用户自由选择音色,提高用户体验。提高用户体验。提高用户体验。


技术研发人员:冯超 徐颖 凌天格
受保护的技术使用者:上海格子互动信息技术有限公司
技术研发日:2023.05.12
技术公布日:2023/7/22
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐