基于端到端深度学习的帕金森语音检测方法与流程

未命名 07-22 阅读:142 评论:0


1.本发明涉及大数据计算领域,尤其涉及一种基于端到端深度学习的帕金森语音检测方法。


背景技术:

2.帕金森病(parkinsondisease,pd)是一种慢性进展性神经变性疾病,其诊断通常是基于病史和神经系统检查发现的特殊临床特征。临床数据显示,大约60%-90%的pd患者会出现语言障碍,典型的特征包括低声,缺乏音调,不准确的发音,微弱的声音(呼吸声音)和嘎吱作响的声音(粗暴声音)等。语音信号分析被认为是用于pd识别的一种重要的非侵入性方法。
3.现有针对pd患者的语音识别,通常采用静态特征的传统机器学习算法来构建,包括k近邻(knn)、高斯朴素贝叶斯分类器(gnb)、决策树(dt)、和支持向量机(svm)模型,这些算法的准确率较低,在进行筛查的过程中对医生提供的参考是有限的。因此如何更准确地提供一种针对帕金森语音的计算模型,从而为医生判断是否为pd患者提供准确的依据是特别重要的。


技术实现要素:

4.针对上述技术中存在的不足之处,本发明提供一种基于端到端深度学习的帕金森语音检测方法,通过利用对数梅尔图谱将语音转化为时序动态特征,然后代入对应的模型算法中,从而能有效提高整个模型的准确性。
5.为实现上述目的,本发明公开了一种基于端到端深度学习的帕金森语音检测方法,包括以下步骤:s1:对帕金森患者的语音进行采集,并且对语音进行预处理,获得语音样本;s2:将语音样本代入对数梅尔谱图上进行动态特征转换,获得特征值;s3:将特征值代入至基于time-distributed2d-cnns和1d-cnn的检测模型内进行计算,并且进行模型的参数优化,获得计算模型;s4:将用户的语音信息导入至计算模型内,获得计算结果。
6.作为优选,在步骤s1中,需要在安静的环境中对语音进行采集,录入一定时长的语音进行保存,并且对该语音进行重新采样,重新采样频率22050hz,对重采样后的语音进行保存。
7.作为优选,在步骤s2中,语音对数梅尔谱图时序动态特征转换时,首先将语音转换为对数梅尔谱图,然后将对数梅尔谱图划分成一系列重叠片段,沿着时间轴应用滑动窗口获得这些片段,主要参数包括:窗口大小为2048,跳变长度为512,梅尔带宽为65,最高频率为8000,采样频率为22050。
8.作为优选,在步骤s3中,将对数梅尔谱图上的一系列重叠片段输入至time-distributed2d-cnns模型内,对这些片段进行检测,获得局部特征,即时间序列的动态特
征。
9.作为优选,将局部特征代入1d-cnn模型内,将时间序列的动态特征展平为一个序列,并且学习时间依赖性,并且经过多次学习和训练,最终得到计算模型,输出结果信息。
10.作为优选,在步骤s4中,将用户的语音信息代入至计算模型内,输出结果信息,根据结果信息的显示内容,由专业人员判断用户是否为帕金森患者所对应的情况。
11.本发明的有益效果是:与现有技术相比,本发明提供的基于端到端深度学习的帕金森语音检测方法,采用带有时序信号的pd语音对数梅尔谱图动态特征,除了无需人工抽取即可捕捉到类似于人耳对频率感受的特性,即对低频段的变化敏感,对高频段的语音变化迟钝,同时,还能够从连续的语音中通过分帧、加窗等操作自动获得并强化一般的静态特征无法检测到的发音过程中由pd引起的语音波动,从而可以从很大程度上提高系统检测的精度;同时提出基于时序分布的time-distributed 2d-cnns 结合 1d-cnn的帕金森语音检测模型充分利用了2d-cnns(二维卷积神经网络)高效地捕捉局部频谱图的空间信息,同时有效地保持了语音在时间轴的时间依赖信息结构,整个识别过程无需传统的机器学习算法中的特征工程步骤,并能在较少的训练数据集上有效建模,实现高效的pd检测。
附图说明
12.图1为本发明的步骤流程图;图2为本发明的模型处理图;图3至图8为现有不同深度模型的帕金森语音检测学习曲线;图9为本技术的帕金森语音检测学习曲线。
具体实施方式
13.为了更清楚地表述本发明,下面结合附图和实施例对本发明作进一步地描述,当然本发明的保护范围不仅于此,在不付出创造性劳动的前提下,本领域技术人员所能够作出的简单置换都属于本技术的保护范围。
14.请参阅图1和图2,本发明公开了一种基于端到端深度学习的帕金森语音检测方法,包括以下步骤:s1:对帕金森患者的语音进行采集,并且对语音进行预处理,获得语音样本;s2:将语音样本代入对数梅尔谱图上进行动态特征转换,获得特征值;s3:将特征值代入至基于time-distributed 2d-cnns 和1d-cnn的检测模型内进行计算,并且进行模型的参数优化,获得计算模型;s4:将用户的语音信息导入至计算模型内,获得计算结果。在本实施例中,本技术目的是为了得到一个计算模型,然后只需要将用户的语音经过处理后代入即可得出计算结果,专业医生以该计算结果作为依据之一,判断该用户是否为pd患者,而且本技术采用语音的时序特征和基于频谱的局部空间特征,可以有效地捕获pd语音信号的动态,相较于现有的静态特征的机器学习算法,本技术的准确率更高。
15.为了实现上述目的,在步骤s1中,需要在安静的环境中对语音进行采集,录入一定时长的语音进行保存,并且对该语音进行重新采样,对语音采用采样频率22050hz进行保存。在本实施例中,需要对帕金森患者的语音进行采集,从而获得基础的特征,在背景技术中提到pd患者会出现语言障碍,典型的特征包括低声,缺乏音调,不准确的发音,微弱的声音和嘎吱作响的声音等,因此事先对这些声音进行收集,从而作为后续判断是否患有帕金
森的指标,而由于后续过程需要利用对数梅尔谱图进行特征转换,因此就需要将语音的频率转换为相对应的参数。
16.在步骤s2中,语音对数梅尔谱图时序动态特征转换时,首先将语音转换为对数梅尔谱图,然后将对数梅尔谱图划分成一系列重叠片段,沿着时间轴应用滑动窗口获得这些片段,主要参数包括:窗口大小为2048,跳变长度为512,梅尔带宽为65,最高频率为8000,采样频率为22050;在本实施例中,由于后续模型的输入特征的要求是动态的,时序的;因此就需要在进行特征转换的过程中就需要获得时序动态特征,通过特点的参数调整后,语音经过对数梅尔谱图输出所需要的动态特征。
17.在步骤s3中,首先将对数梅尔谱图上的一系列重叠片段输入至time-distributed2d-cnns模型内,对这些片段进行检测,获得局部特征,即时间序列的动态特征;获得局部特征后,将局部特征代入1d-cnn模型内,将时间序列的动态特征展平为一个序列,并且学习时间依赖性,并且经过多次学习和训练,最终得到计算模型,输出结果信息。在该过程中,time-distributed2d-cnns包括2d卷积层、批量归一化层、二维平均池化层和丢弃层,2d卷积层用于捕捉局部空间谱图的信息,批量归一化层提高了收敛速度并有助于提高概括,二维平均池化层和丢弃层用于降维和分别防止过拟合,而1d-cnn模型由一维卷积神经网络层和一维平均池化层层构成。由time-distributed2d-cnns模块获得的时间序列的动态特征被展平为一个序列,然后送入1d-cnn模型以学习时间依赖性,该一维卷积运算仅在时间轴上进行。
18.在步骤s4中,将用户的语音信息代入至计算模型内,输出结果信息,根据结果信息的显示内容,辅助判断用户是否为帕金森患者。
19.请参阅图3至图9,在具体实施过程中,本技术选取45名实验对象(15名hc和30名pd病例),共268个短句语音样本的数据上的实验结果(训练数据:测试数据=6:4)显示:在采用静态特征的传统机器学习算法,包括k近邻(knn)、高斯朴素贝叶斯分类器(gnb)、决策树(dt)、和支持向量机(svm)模型中,knn模型在使用特征集surfboardsubset和gnb在使用特征集phonation均获得最好的73.33%的准确率,在采用常用的深度学习模型,包括mlp、fcn、resnet、time-cnn、encoder和cnns-lstm(与图3至图8一一对应)模型中,cnns-lstm模型获得最好的76.22%的准确率。而采用本发明提出的基于时序分布的time-distributed2d-cnns和1d-cnn可以获得81.56%的准确率。在部分简单句与复杂句的语音输入数据上的实验结果显示,本发明提出的模型可以达到92%的正确率,说明本方法可以从很大程度上提高系统检测的精度,同时,在使用较少的训练数据集上,与常用的深度学习模型相比,该模型具有更好的收敛性。
20.以上公开的仅为本发明的几个具体实施例,但是本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。。

技术特征:
1.一种基于端到端深度学习的帕金森语音检测方法,其特征在于,包括以下步骤:s1:对帕金森患者的语音进行采集,并且对语音进行预处理,获得语音样本;s2:将语音样本代入对数梅尔谱图上进行动态特征转换,获得特征值;s3:将特征值代入至基于time-distributed 2d-cnns 和1d-cnn的检测模型内进行计算,并且进行模型的参数优化,获得计算模型;s4:将用户的语音信息导入至计算模型内,获得计算结果。2.根据权利要求1所述的基于端到端深度学习的帕金森语音检测方法,其特征在于,在步骤s1中,需要在安静的环境中对语音进行采集,录入一定时长的语音进行保存,并且对该语音进行重新采样,重新采样频率22050hz,对重采样后的语音进行保存。3.根据权利要求1所述的基于端到端深度学习的帕金森语音检测方法,其特征在于,在步骤s2中,语音对数梅尔谱图时序动态特征转换时,首先将语音转换为对数梅尔谱图,然后将对数梅尔谱图划分成一系列重叠片段,沿着时间轴应用滑动窗口获得这些片段,主要参数包括:窗口大小为2048,跳变长度为512,梅尔带宽为65,最高频率为8000,采样频率为 22050。4.根据权利要求1所述的基于端到端深度学习的帕金森语音检测方法,其特征在于,在步骤s3中,将对数梅尔谱图上的一系列重叠片段输入至time-distributed 2d-cnns模型内,对这些片段进行检测,获得局部特征,即时间序列的动态特征。5.根据权利要求4所述的基于端到端深度学习的帕金森语音检测方法,其特征在于,将局部特征代入1d-cnn模型内,将时间序列的动态特征展平为一个序列,并且学习时间依赖性,并且经过多次学习和训练,最终得到计算模型,输出结果信息。6.根据权利要求1所述的基于端到端深度学习的帕金森语音检测方法,其特征在于,在步骤s4中,将用户的语音信息代入至计算模型内,输出结果信息,根据结果信息的显示内容,由专业人员判断用户是否为帕金森患者所对应的情况。

技术总结
本发明公开了一种基于端到端深度学习的帕金森语音检测方法,包括以下步骤:S1:对帕金森患者的语音进行采集,并且对语音进行预处理,获得语音样本;S2:将语音样本代入对数梅尔谱图上进行动态特征转换,获得特征值;S3:将特征值代入至基于Time-distributed 2D-CNNs和1D-CNN的检测模型内进行计算,并且进行模型的参数优化,获得计算模型;S4:将用户的语音信息导入至计算模型内,获得计算结果,本申请通过利用对数梅尔图谱将语音转化为时序动态特征,然后代入对应的模型算法中,从而能有效提高整个模型的准确性。个模型的准确性。个模型的准确性。


技术研发人员:全昌勤 吴玲玉 凌云 陈仲略 任康 罗志伟 马凌燕
受保护的技术使用者:深圳市臻络科技有限公司
技术研发日:2023.04.19
技术公布日:2023/7/20
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐