一种音频导读自动生成方法和系统与流程
未命名
07-22
阅读:129
评论:0
1.本技术涉及语音导读技术领域,尤其涉及一种音频导读自动生成方法和系统。
背景技术:
2.目前的电子书具有了初步的导读功能,即通过预先录制的方法或者人工合成语音的方法,事先录好或制作好一个阅读材料例如电子书的音频文件,当用户需要在阅读时听书或者单纯听书时,通过点击等操作打开预先录制好的音频文件进行同步阅读。
3.然而,上述音频导读的方法比较僵化,对于不同类型的人群效果可能并不好,例如儿童需要的睡前伴读,往往习惯了特定的监护人,如父母、祖父母或其他监护人等人的声音。如果仅仅播放预制好的通用语音,可能不能引起儿童的阅读兴趣。因此,展开个性化的、针对性的音频导读成为了亟待解决的现实需求。
技术实现要素:
4.有鉴于此,本技术的目的在于提出一种音频导读自动生成方法和系统,本技术能够针对性的解决现有的问题。
5.基于上述目的,本技术提出了一种音频导读自动生成方法,包括:向第一用户展示和提示所述第一用户发声阅读第一阅读材料,在所述第一用户阅读所述第一阅读材料时,获取第一用户的音频记录;解析所述第一用户的音频记录,提取所述音频记录的特征信息,以获取所述第一用户的发声规律,所述发声规律为文字、拼音、声调、声纹、语速、和音强的映射关系;将所述第一阅读材料的文本、所述音频记录的特征信息和发声规律输入并训练预设神经网络;获取第二阅读材料的文本,将所述第二阅读材料的文本输入训练后的神经网络中,输出具有相同发声规律的音频导读文件,所述音频导读文件的进度与所述第二阅读材料的文本页数相匹配;向第二用户展示所述第二阅读材料,根据用户的操作指示打开所述第二阅读材料的相应文本页数或段落,并向所述第二用户播放所述音频导读文件的相应页数或段落的音频,所述第二用户为第一用户的关联用户。
6.进一步地,所述解析所述第一用户的音频记录,提取所述音频记录的特征信息,以获取所述第一用户的发声规律,所述发声规律为文字、拼音、声调、声纹、语速、和音强的映射关系,包括:将所述第一用户的音频记录转换为文本信息,得到所述音频记录对应的文字,根据所述文字和预设的文字-拼音映射表,得到文字对应的拼音;提取所述音频记录的声调、声纹、语速、和音强,作为所述音频记录的特征信息;将所述文字、拼音与其对应的声调、声纹、语速、和音强进行关联映射,得到发声规律。
7.进一步地,所述将所述第一用户的音频记录转换为文本信息,得到所述音频记录对应的文字,根据所述文字和预设的文字-拼音映射表,得到文字对应的拼音,包括:对所述第一用户的音频记录进行语音识别,以获得文本数据;对所述文本数据进行固定句式语义解析,以获得包括固定句式和实体词的解析结果,包括:利用预设的固定句式解析模板与所述文本数据进行匹配,以获得所述文本数据匹配中的目标固定句式解析模板,所述目标固定句式解析模板包括固定表达部分和待定表达部分;将所述文本数据中对应所述固定表达部分的内容作为所述解析结果中的固定句式,将所述文本数据中对应所述待定表达部分的内容作为所述解析结果中的实体词;按照预设的文字-拼音映射表将所述解析结果中的实体词转换为拼音流,得到文字对应的拼音。
8.进一步地,所述提取所述音频记录的声调、声纹、语速、和音强,作为所述音频记录的特征信息,包括:对所述音频记录进行分帧加窗,求取每一帧语音的线性预测参数,计算每一帧所述音频记录的增益参数,由此获得所述音频记录的增益轨迹曲线,与标准语音声调曲线进行对比,确定所述音频记录的声调;将所述音频记录的语音频谱特征输入深度神经网络,并在深度神经网络中加入注意力层,通过注意力机制来估计不同语音帧的权重,从深度神经网络的最后一个隐层中抽取出激活值,经过加权得到声纹特征;从所述音频记录中识别音素序列和每个音素对应的时间分割点,根据上述识别出的音素序列和每个音素对应的时间分割点,识别字序列和每个字对应的时间分割点,以及根据上述识别出的字序列和每个字对应的时间分割点,计算所述音频记录的语速;以一个预定长度的帧为单位切割所述音频记录的波形,根据所述音频记录的波形的波长方向中的特征计算所述音频记录的强度;将所述声调、声纹特征、语速、和强度作为所述音频记录的特征信息。
9.进一步地,所述将所述第一阅读材料的文本、所述音频记录的特征信息和发声规律输入并训练预设神经网络,包括:所述预设神经网络为具有n层中间层的深度神经网络结构,并且第n层中间层分叉出语音识别层和发声规律分类层,所述语音识别层输出语音识别结果,所述发声规律层输出发声规律分类结果,所述训练包括:对第一阅读材料的文本、所述音频记录的特征信息进行文本标注和发声规律标注;将所述第一阅读材料的文本、所述音频记录的特征信息和发声规律输入至所述n层中间层,基于所述语音识别层输出的语音识别结果和文本标注,进行语音识别训练,训练所述n层中间层和所述语音识别层的神经网络参数;在所述语音识别训练完成后,基于所述发声规律分类层输出的发声规律分类结果和发声规律标注,仅训练所述发声规律分类层的神经网络参数,完成发声规律分类训练。
10.进一步地,所述基于所述发声规律分类层输出的发声规律分类结果和发声规律标注,仅训练所述发声规律分类层的神经网络参数包括:基于交叉熵训练准则,利用极大似然估计对第一阅读材料的文本、所述音频记录的特征信息进行发声规律优化,使所述发声规
律分类结果向所述发声规律标注更新。
11.进一步地,所述获取第二阅读材料的文本,将所述第二阅读材料的文本输入训练后的神经网络中,输出具有相同发声规律的音频导读文件,包括:对所述第二阅读材料的文本进行解析,获取目标文字序列;将所述目标文字序列结合所述发声规律获得所述目标文字序列对应的拼音、声调、声纹、语速、和音强;将所述目标文字序列对应的拼音、声调、声纹、语速、和音强输入到训练后的神经网络中获得所述音频导读文件。
12.基于上述目的,本技术还提出了一种音频导读自动生成系统,包括:第一用户音频获取模块,用于向第一用户展示和提示所述第一用户发声阅读第一阅读材料,在所述第一用户阅读所述第一阅读材料时,获取第一用户的音频记录;发声规律解析模块,用于解析所述第一用户的音频记录,提取所述音频记录的特征信息,以获取所述第一用户的发声规律,所述发声规律为文字、拼音、声调、声纹、语速、和音强的映射关系;训练模块,用于将所述第一阅读材料的文本、所述音频记录的特征信息和发声规律输入并训练预设神经网络;语音生成模块,用于获取第二阅读材料的文本,将所述第二阅读材料的文本输入训练后的神经网络中,输出具有相同发声规律的音频导读文件,所述音频导读文件的进度与所述第二阅读材料的文本页数相匹配;导读音频模块,用于向第二用户展示所述第二阅读材料,根据用户的操作指示打开所述第二阅读材料的相应文本页数或段落,并向所述第二用户播放所述音频导读文件的相应页数或段落的音频,所述第二用户为第一用户的关联用户。
13.总的来说,本技术的优势及给用户带来的体验在于:能够根据不同的用户需求,展开个性化的、针对性的音频导读,使得用户产生阅读的兴趣和专注力;所使用的特色语音分析,使得语音经转换、拆解、计算分析后能够得出录入语音的发声规律;通过对语音、文本、发声规律进行基于神经网络的模型训练,使得模型具有了自学习的能力,使得听众能够在阅读时想听到他想听到的特定人物的语音播放。
附图说明
14.在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本技术公开的一些实施方式,而不应将其视为是对本技术范围的限制。
15.图1示出根据本技术实施例的音频导读自动生成方法的流程图。
16.图2示出根据本技术实施例的第一用户录音场景示意图。
17.图3示出根据本技术实施例的第二用户音频导读场景示意图。
18.图4示出根据本技术实施例的音频导读自动生成系统的构成图。
19.图5示出了本技术一实施例所提供的一种电子设备的结构示意图。
20.图6示出了本技术一实施例所提供的一种存储介质的示意图。
具体实施方式
21.下面结合附图和实施例对本技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
22.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
23.图1示出根据本技术实施例的音频导读自动生成方法的流程图。如图1所示,该音频导读自动生成方法包括:s1、向第一用户展示和提示所述第一用户发声阅读第一阅读材料,在所述第一用户阅读所述第一阅读材料时,获取第一用户的音频记录;如图2所示,可以通过手机、平板电脑、电脑等电子设备,向准备进行语音合成的用户,例如孩子的父母等,展示第一阅读材料,用户可以首先输入自己的身份设定,例如爸爸、妈妈等。用户可以通过“点击可录制语音”按钮启动下面的录音器,开始录音。第一阅读材料可以包括不同的语种,例如英语、汉语等,并且应该包括主要的发音情况。例如汉语中的声母表、韵母表、整体认读音节等基本的发声单元及音调等,以及常见的汉字(大约五千个)等。
24.s2、解析所述第一用户的音频记录,提取所述音频记录的特征信息,以获取所述第一用户的发声规律,所述发声规律为文字、拼音、声调、声纹、语速、和音强的映射关系;s3、将所述第一阅读材料的文本、所述音频记录的特征信息和发声规律输入并训练预设神经网络;s4、获取第二阅读材料的文本,将所述第二阅读材料的文本输入训练后的神经网络中,输出具有相同发声规律的音频导读文件,所述音频导读文件的进度与所述第二阅读材料的文本页数相匹配;s5、向第二用户展示所述第二阅读材料,根据用户的操作指示打开所述第二阅读材料的相应文本页数或段落,并向所述第二用户播放所述音频导读文件的相应页数或段落的音频,所述第二用户为第一用户的关联用户。如图3所示,可以通过手机、平板电脑、电脑等电子设备,向准备阅读第二阅读材料的用户,例如孩子等,展示第二阅读材料,孩子可以通过“点击播放妈妈的语音按钮”,来播放听起来像是妈妈读的合成语音。以下重点通过步骤s2-s4的具体实现方式讲解,来讲述本技术的语音合成过程。
25.进一步地,步骤s2中,包括:s21、将所述第一用户的音频记录转换为文本信息,得到所述音频记录对应的文字,根据所述文字和预设的文字-拼音映射表,得到文字对应的拼音,包括:对所述第一用户的音频记录进行语音识别,以获得文本数据;对所述文本数据进行固定句式语义解析,以获得包括固定句式和实体词的解析结果,包括:利用预设的固定句式解析模板与所述文本数据进行匹配,以获得所述文本数据匹配中的目标固定句式解析模板,所述目标固定句式解析模板包括固定表达部分和待定表达部分;将所述文本数据中对应所述固定表达部分的内容作为所述解析结果中的固定句式,将所述文本数据中对应所述待定表达部分的内容作为所述解析结果中的实体词;按照预设的文字-拼音映射表将所述解析结果中的实体词转换为拼音流,得到文字对应的拼音。
26.s22、提取所述音频记录的声调、声纹、语速、和音强,作为所述音频记录的特征信息,包括:对所述音频记录进行分帧加窗,求取每一帧语音的线性预测参数,计算每一帧所述音频记录的增益参数,由此获得所述音频记录的增益轨迹曲线,与标准语音声调曲线进行对比,确定所述音频记录的声调;将所述音频记录的语音频谱特征输入深度神经网络,并在深度神经网络中加入注意力层,通过注意力机制来估计不同语音帧的权重,从深度神经网络的最后一个隐层中抽取出激活值,经过加权得到声纹特征;从所述音频记录中识别音素序列和每个音素对应的时间分割点,根据上述识别出的音素序列和每个音素对应的时间分割点,识别字序列和每个字对应的时间分割点,以及根据上述识别出的字序列和每个字对应的时间分割点,计算所述音频记录的语速;以一个预定长度的帧为单位切割所述音频记录的波形,根据所述音频记录的波形的波长方向中的特征计算所述音频记录的强度;将所述声调、声纹特征、语速、和强度作为所述音频记录的特征信息。
27.s23、将所述文字、拼音与其对应的声调、声纹、语速、和音强进行关联映射,得到发声规律。由于在实际发声规律中,每个文字都有对应的拼音、声调、声纹、语速、和音强,不同的用户在读同一个字或字母、音节的时候的发音特色不同,为了全面分析用户的发声特点,本技术通过对于语音的各个参数进行详细的解析、计算从而从多个参数的角度量化了用户的发声特色,进一步总结得到其发声规律。
28.进一步地,步骤s3中,所述预设神经网络为具有n层中间层的深度神经网络结构,并且第n层中间层分叉出语音识别层和发声规律分类层,所述语音识别层输出语音识别结果,所述发声规律层输出发声规律分类结果,所述训练包括:s31、对第一阅读材料的文本、所述音频记录的特征信息进行文本标注和发声规律标注;s32、将所述第一阅读材料的文本、所述音频记录的特征信息和发声规律输入至所述n层中间层,基于所述语音识别层输出的语音识别结果和文本标注,进行语音识别训练,训练所述n层中间层和所述语音识别层的神经网络参数;s33、在所述语音识别训练完成后,基于所述发声规律分类层输出的发声规律分类结果和发声规律标注,仅训练所述发声规律分类层的神经网络参数,完成发声规律分类训练,包括:基于交叉熵训练准则,利用极大似然估计对第一阅读材料的文本、所述音频记录的特征信息进行发声规律优化,使所述发声规律分类结果向所述发声规律标注更新。
29.步骤s3中,通过使用用户的实际音频数据,训练深度神经网络,从而使其成为一个能够体现该用户发声规律的“语音合成器”,为下一步的语音合成打下基础。
30.进一步地,步骤s4中,包括:s41、对所述第二阅读材料的文本进行解析,获取目标文字序列;s42、将所述目标文字序列结合所述发声规律获得所述目标文字序列对应的拼音、声调、声纹、语速、和音强;s43、将所述目标文字序列对应的拼音、声调、声纹、语速、和音强输入到训练后的神经网络中获得所述音频导读文件。
31.通过步骤s4,对新的阅读材料,第一用户例如妈妈已经不需要自己阅读第二阅读材料了,直接将第二阅读材料的文本输入“语音合成器”之中,就会自动生成具有妈妈发声规律的音频,从而有助于提高孩子阅读时的亲切感,对于集中注意力、得到良好的阅读效果具有极大的促进左右。
32.本技术能够根据不同的用户需求,展开个性化的、针对性的音频导读,使得用户产生阅读的兴趣和专注力;所使用的特色语音分析,使得语音经转换、拆解、计算分析后能够得出录入语音的发声规律;通过对语音、文本、发声规律进行基于神经网络的模型训练,使得模型具有了自学习的能力,使得听众能够在阅读时想听到他想听到的特定人物的语音播放。
33.申请实施例提供了一种音频导读自动生成系统,该系统用于执行上述实施例所述的音频导读自动生成方法,如图4所示,该系统包括:第一用户音频获取模块401,用于向第一用户展示和提示所述第一用户发声阅读第一阅读材料,在所述第一用户阅读所述第一阅读材料时,获取第一用户的音频记录;发声规律解析模块402,用于解析所述第一用户的音频记录,提取所述音频记录的特征信息,以获取所述第一用户的发声规律,所述发声规律为文字、拼音、声调、声纹、语速、和音强的映射关系;训练模块403,用于将所述第一阅读材料的文本、所述音频记录的特征信息和发声规律输入并训练预设神经网络;语音生成模块404,用于获取第二阅读材料的文本,将所述第二阅读材料的文本输入训练后的神经网络中,输出具有相同发声规律的音频导读文件,所述音频导读文件的进度与所述第二阅读材料的文本页数相匹配;导读音频模块405,用于向第二用户展示所述第二阅读材料,根据用户的操作指示打开所述第二阅读材料的相应文本页数或段落,并向所述第二用户播放所述音频导读文件的相应页数或段落的音频,所述第二用户为第一用户的关联用户。
34.本技术的上述实施例提供的音频导读自动生成系统与本技术实施例提供的音频导读自动生成方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
35.本技术实施方式还提供一种与前述实施方式所提供的音频导读自动生成方法对应的电子设备,以执行上音频导读自动生成方法。本技术实施例不做限定。
36.请参考图5,其示出了本技术的一些实施方式所提供的一种电子设备的示意图。如图5所示,所述电子设备20包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本技术前述任一实施方式所提供的音频导读自动生成方法。
37.其中,存储器201可能包含高速随机存取存储器(ram:random access memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
38.总线202可以是isa总线、pci总线或eisa总线等。所述总线可以分为地址总线、数
据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本技术实施例任一实施方式揭示的所述音频导读自动生成方法可以应用于处理器200中,或者由处理器200实现。
39.处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
40.本技术实施例提供的电子设备与本技术实施例提供的音频导读自动生成方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
41.本技术实施方式还提供一种与前述实施方式所提供的音频导读自动生成方法对应的计算机可读存储介质,请参考图6,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的音频导读自动生成方法。
42.需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存 (pram)、静态随机存取存储器 (sram)、动态随机存取存储器 (dram)、其他类型的随机存取存储器 (ram)、只读存储器 (rom)、电可擦除可编程只读存储器 (eeprom)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
43.本技术的上述实施例提供的计算机可读存储介质与本技术实施例提供的音频导读自动生成方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
44.需要说明的是:在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备有固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本技术也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本技术的内容,并且上面对特定语言所做的描述是为了披露本技术的最佳实施方式。
45.在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本技术的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
46.类似地,应当理解,为了精简本技术并帮助理解各个发明方面中的一个或多个,在上面对本技术的示例性实施例的描述中,本技术的各个特征有时被一起分组到单个实施
例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本技术要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本技术的单独实施例。
47.本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
48.此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本技术的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
49.本技术的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器( dsp )来实现根据本技术实施例的虚拟机的创建系统中的一些或者全部部件的一些或者全部功能。本技术还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者系统程序(例如,计算机程序和计算机程序产品)。这样的实现本技术的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
50.应该注意的是上述实施例对本技术进行说明而不是对本技术进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本技术可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干系统的单元权利要求中,这些系统中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
51.以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
技术特征:
1.一种音频导读自动生成方法,其特征在于,包括:向第一用户展示和提示所述第一用户发声阅读第一阅读材料,在所述第一用户阅读所述第一阅读材料时,获取第一用户的音频记录;解析所述第一用户的音频记录,提取所述音频记录的特征信息,以获取所述第一用户的发声规律,所述发声规律为文字、拼音、声调、声纹、语速、和音强的映射关系;将所述第一阅读材料的文本、所述音频记录的特征信息和发声规律输入并训练预设神经网络;获取第二阅读材料的文本,将所述第二阅读材料的文本输入训练后的神经网络中,输出具有相同发声规律的音频导读文件,所述音频导读文件的进度与所述第二阅读材料的文本页数相匹配;向第二用户展示所述第二阅读材料,根据用户的操作指示打开所述第二阅读材料的相应文本页数或段落,并向所述第二用户播放所述音频导读文件的相应页数或段落的音频,所述第二用户为第一用户的关联用户。2.根据权利要求1所述的方法,其特征在于,所述解析所述第一用户的音频记录,提取所述音频记录的特征信息,以获取所述第一用户的发声规律,所述发声规律为文字、拼音、声调、声纹、语速、和音强的映射关系,包括:将所述第一用户的音频记录转换为文本信息,得到所述音频记录对应的文字,根据所述文字和预设的文字-拼音映射表,得到文字对应的拼音;提取所述音频记录的声调、声纹、语速、和音强,作为所述音频记录的特征信息;将所述文字、拼音与其对应的声调、声纹、语速、和音强进行关联映射,得到发声规律。3.根据权利要求2所述的方法,其特征在于,所述将所述第一用户的音频记录转换为文本信息,得到所述音频记录对应的文字,根据所述文字和预设的文字-拼音映射表,得到文字对应的拼音,包括:对所述第一用户的音频记录进行语音识别,以获得文本数据;对所述文本数据进行固定句式语义解析,以获得包括固定句式和实体词的解析结果,包括:利用预设的固定句式解析模板与所述文本数据进行匹配,以获得所述文本数据匹配中的目标固定句式解析模板,所述目标固定句式解析模板包括固定表达部分和待定表达部分;将所述文本数据中对应所述固定表达部分的内容作为所述解析结果中的固定句式,将所述文本数据中对应所述待定表达部分的内容作为所述解析结果中的实体词;按照预设的文字-拼音映射表将所述解析结果中的实体词转换为拼音流,得到文字对应的拼音。4.根据权利要求2或3所述的方法,其特征在于,所述提取所述音频记录的声调、声纹、语速、和音强,作为所述音频记录的特征信息,包括:对所述音频记录进行分帧加窗,求取每一帧语音的线性预测参数,计算每一帧所述音频记录的增益参数,由此获得所述音频记录的增益轨迹曲线,与标准语音声调曲线进行对比,确定所述音频记录的声调;将所述音频记录的语音频谱特征输入深度神经网络,并在深度神经网络中加入注意力层,通过注意力机制来估计不同语音帧的权重,从深度神经网络的最后一个隐层中抽取出
激活值,经过加权得到声纹特征;从所述音频记录中识别音素序列和每个音素对应的时间分割点,根据上述识别出的音素序列和每个音素对应的时间分割点,识别字序列和每个字对应的时间分割点,以及根据上述识别出的字序列和每个字对应的时间分割点,计算所述音频记录的语速;以一个预定长度的帧为单位切割所述音频记录的波形,根据所述音频记录的波形的波长方向中的特征计算所述音频记录的强度;将所述声调、声纹特征、语速、和强度作为所述音频记录的特征信息。5.根据权利要求1所述的方法,其特征在于,所述将所述第一阅读材料的文本、所述音频记录的特征信息和发声规律输入并训练预设神经网络,包括:所述预设神经网络为具有n层中间层的深度神经网络结构,并且第n层中间层分叉出语音识别层和发声规律分类层,所述语音识别层输出语音识别结果,所述发声规律层输出发声规律分类结果,所述训练包括:对第一阅读材料的文本、所述音频记录的特征信息进行文本标注和发声规律标注;将所述第一阅读材料的文本、所述音频记录的特征信息和发声规律输入至所述n层中间层,基于所述语音识别层输出的语音识别结果和文本标注,进行语音识别训练,训练所述n层中间层和所述语音识别层的神经网络参数;在所述语音识别训练完成后,基于所述发声规律分类层输出的发声规律分类结果和发声规律标注,仅训练所述发声规律分类层的神经网络参数,完成发声规律分类训练。6.根据权利要求5所述的方法,其特征在于,所述基于所述发声规律分类层输出的发声规律分类结果和发声规律标注,仅训练所述发声规律分类层的神经网络参数包括:基于交叉熵训练准则,利用极大似然估计对第一阅读材料的文本、所述音频记录的特征信息进行发声规律优化,使所述发声规律分类结果向所述发声规律标注更新。7.根据权利要求1所述的方法,其特征在于,所述获取第二阅读材料的文本,将所述第二阅读材料的文本输入训练后的神经网络中,输出具有相同发声规律的音频导读文件,包括:对所述第二阅读材料的文本进行解析,获取目标文字序列;将所述目标文字序列结合所述发声规律获得所述目标文字序列对应的拼音、声调、声纹、语速、和音强;将所述目标文字序列对应的拼音、声调、声纹、语速、和音强输入到训练后的神经网络中获得所述音频导读文件。8.一种音频导读自动生成系统,其特征在于,包括:第一用户音频获取模块,用于向第一用户展示和提示所述第一用户发声阅读第一阅读材料,在所述第一用户阅读所述第一阅读材料时,获取第一用户的音频记录;发声规律解析模块,用于解析所述第一用户的音频记录,提取所述音频记录的特征信息,以获取所述第一用户的发声规律,所述发声规律为文字、拼音、声调、声纹、语速、和音强的映射关系;训练模块,用于将所述第一阅读材料的文本、所述音频记录的特征信息和发声规律输
入并训练预设神经网络;语音生成模块,用于获取第二阅读材料的文本,将所述第二阅读材料的文本输入训练后的神经网络中,输出具有相同发声规律的音频导读文件,所述音频导读文件的进度与所述第二阅读材料的文本页数相匹配;导读音频模块,用于向第二用户展示所述第二阅读材料,根据用户的操作指示打开所述第二阅读材料的相应文本页数或段落,并向所述第二用户播放所述音频导读文件的相应页数或段落的音频,所述第二用户为第一用户的关联用户。9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序以实现如权利要求1-7任一项所述的方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行实现如权利要求1-7中任一项所述的方法。
技术总结
本申请提供一种音频导读自动生成方法和系统,方法包括:向第一用户展示和提示所述第一用户发声阅读第一阅读材料,获取第一用户的音频记录;解析所述第一用户的音频记录,提取所述音频记录的特征信息,以获取所述第一用户的发声规律,所述发声规律为文字、拼音、声调、声纹、语速、和音强的映射关系;将所述第一阅读材料的文本、所述音频记录的特征信息和发声规律输入并训练预设神经网络;获取第二阅读材料的文本,将所述第二阅读材料的文本输入训练后的神经网络中,输出具有相同发声规律的音频导读文件;向第二用户展示所述第二阅读材料,根据用户的操作指示打开相应文本材料页数或段落,并向所述第二用户播放相应的所述音频导读文件的相应页数或段落的音频。文件的相应页数或段落的音频。文件的相应页数或段落的音频。
技术研发人员:张辰 张芳
受保护的技术使用者:北京奇趣万物科技有限公司
技术研发日:2023.06.08
技术公布日:2023/7/20
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种变压器用绝缘柱检测装置的制作方法 下一篇:一种换热器监测控制器的制作方法
