基于超声的多模态发音数据采集方法和系统

未命名 10-19 阅读：197 评论：0

1.本案涉及信息技术领域，尤其涉及一种基于超声的多模态发音数据采集方法和系统。

背景技术：

2.目前国内外大部分关于舌部超声图像的数据规模较小，采集内容、方法单一，且缺乏标准化的多模态数据采集方法和系统。例如，国外现有超声-语音并行数据库主要为tal corpus(参见文献m.s.ribeiro et al.，“tal：a synchronised multi-speaker corpus of ultrasound tongue imaging，audio，and lip videos，”in 2021ieee spoken language technology workshop(slt)，shenzhen，china，jan.2021，pp.1109-1116)和ultrasuite(参见文献a.eshky et al.，“ultrasuite：a repository of ultrasound and acoustic data from child speech therapy sessions，”in interspeech 2018，sep.2018，pp.1888-1892.)。tal corpus包括音频、超声舌图像以及唇动视频的并行数据，说话人均为健康成年人，包括1位受过专业训练的人士和80位普通人，语音时长分别为1.16h和12.39h。ultrasuite包括58名正常发育儿童和28名患有构音障碍儿童的数据，语音时长分别为3.47h和14.66h。而国内缺乏大规模超声-语音并行数据库，已有汉语超声-语音并行数据均时长较短，涉及说话人以及语料文本种类较少，其中郑锌源
14.采集了1位说话人6个元音/a，o，e，i，u，
ü
/的数据，每个元音发音2000次左右，总计11800条数据；陈宗雷(参见文献：基于超声和egg的发音器官运动的研究[d].天津大学，2018)采集了四位说话人的超声-语音并行数据，每人300句中文短句，总共1200条语句。
[0003]
现有技术方案极少详细阐述数据采集方法和同步方法。超声仪多用于临床，实际应用中较常采集单帧图像，且不像红外和脑电等有完善的程序用于连续数据采集并支持同步处理，因此，如何同步采集语音和超声数据，建立标准化操作方便易上手的采集系统，是科研和临床都急需解决的难题。

技术实现要素：

[0004]
为了解决现有技术中存在的上述问题，本案旨在根据汉语发音特性，设计全面的具有汉语特色的文本材料和采集任务，设计一个基于超声的多模态发音数据采集方法和系统。具体技术方案如下。
[0005]
第一方面，本案提出一种基于超声的多模态发音数据采集方法，所述方法根据发音特征设计语料材料和语音任务，在语音任务中朗读相应的语料材料；使用多线程同步采集语音和超声数据，并根据语音任务将语音数据、超声数据和语料文本数据一一对应存储，构成多模态数据；
[0006]
对多模态数据进行数据过滤后，进行数据配准，得到用于分析的多模态数据；
[0007]
所述超声数据具有表征一次语音任务开始前和结束后设定次数的吞咽动作。
[0008]
在上述技术方案中，使用多线程同步采集语音和超声数据，步骤包括：
[0009]
利用超声仪、麦克风、采集卡、头盔搭建采集平台；
[0010]
使用头盔的超声探头支架放置超声仪的探头，使用头盔固定发声者的头；
[0011]
使用多线程同时控制超声仪和麦克风，分别采集超声数据和语音数据，并将超声数据通过采集卡实时传输至存储设备上。
[0012]
在上述技术方案中，数据过滤包括语音数据过滤、超声数据过滤、基于超声数据特征的数据过滤；
[0013]
所述语音数据过滤：对语音进行能量计算，保留满足设定能量阈值条件的语音数据及其对应的超声数据和语料文本数据；
[0014]
超声数据过滤：对保留超声图像底部有“f”标以及右侧存在刻度的超声数据及其对应的语音数据和语料文本数据；
[0015]
基于超声数据特征的数据过滤：使用结合densenet和u-net网络的舌头轮廓跟踪模型获取正常超声图像的舌头轮廓，对能获得舌头轮廓的超声图像和对应的语音数据、语料文本数据进行保留。
[0016]
在上述技术方案中，数据配准通过比较语音数据中语音开始时间和超声数据中舌头开始运动时间的位置来实现。
[0017]
在上述技术方案中，数据配准在比较时将语音数据中人声出现前0.5s和人声消失后0.5s作为语音开始和结束时间。
[0018]
在上述技术方案中，超声数据采集和写入存储设备，实现步骤包括：
[0019]
使用第一线程从端口读取数据包(packet)，并放入数据包队列；
[0020]
使用第二线程从数据包队列中取出数据包，解码出帧并将帧放进帧(frame)队列中；
[0021]
使用第三线程从帧(frame)队列中取出帧，并将该帧写入文件中，每一帧保存为一个文件。
[0022]
在上述技术方案中，第一线程通过按键值控制运行。
[0023]
在上述技术方案中，超声数据特征提取包括硬颚轮廓提取；
[0024]
硬颚轮廓提取方式为：利用吞咽或者口腔中的液体时，超声在上颚处产生可见回波，从而通过吞咽过程的多个舌部超声图像变化确定颚部位置，进而获得颚部痕迹。
[0025]
在上述技术方案中，通过累积吞咽过程的多个舌部超声图像，获得腭部痕迹，步骤包括：
[0026]
对每个舌部超声图像，使用log-gabor滤波在不同尺度和方向上进行滤波，经过阈值处理计算相位对称性，保留原始舌部超声图像中最大最亮的回波作为亮痕；
[0027]
将从时间序列中的不同舌部超声图像提取的亮痕叠加，获得腭部痕迹。
[0028]
第二方面，本案提出一种基于超声的多模态发音数据采集系统，所述系统根据权利要求1至8中任一种方法实现；所述系统还包括计算机可读存储介质，用于存储系统实现时涉及的计算机程序。
[0029]
本案的技术效果如下：
[0030]
(1)通过设计吞咽动作，使超声数据中具有表征吞咽的数据，以确定一次语音任务的开始与结束，同时通过获取用于确定连续发音过程中腭部的轮廓位置，作为语音数据使用，比如以视觉反馈的形式辅助医生对患者进行发音训练和治疗。
[0031]
(2)设计了获取上述多模态语音数据的采集平台，提高了数据采集效率，实现同步采集存储，且减少同步误差。
[0032]
(3)通过使用多线程实现语音数据和超声数据的同步启动采集，在采集阶段将多模态数据进行同步，无需后续处理。在采集过程中实现超声数据、语音数据、语料文本数据一一对应同步存储，通过规范化命名和配对保存，方便使用，采集到的数据可以用于汉语语音识别、语音合成、发音教学等领域的研究和应用，具有广阔的应用前景。
[0033]
(4)通过按键和多线程设计，实现自动化同步采集和存储，提高了数据采集效率和准确性。
附图说明
[0034]
为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0035]
图1、在一实施方式中根据汉语发音特点设计的语料材料示例；
[0036]
图2、在一实施方式中语音任务示例；
[0037]
图3、在一实施方式中数据采集平台示意图；
[0038]
图4、在一实施方式中同步采集流程示意图；
[0039]
图5、在一实施方式中超声数据的采集与保存示意图；
[0040]
图6、在一实施方式中多模态数据的存储结构示意图；
[0041]
图7、在一实施方式中自动化采集流程示意图；
[0042]
图8(a)、在一实施方式中超声数据检查的关键点示意图之正常图像；
[0043]
图8(b)、在一实施方式中超声数据检查的关键点示意图之异常图像；
[0044]
图9(a)、在一实施方式中舌头轮廓示意图；
[0045]
图9(b)、在一实施方式中舌头亮线示意图；
[0046]
图10、在一实施方式中舌头轮廓情况示例图；
[0047]
图11、在一实施方式中语音-超声数据的配置示例图；
[0048]
图12、在一实施方式中总体框架示意图。
具体实施方式
[0049]
当结合附图阅读时将更好地理解前面的发明内容以及后面对本案一些实施例的详细描述。就附图示出各种实施例的功能块的图而言，功能块并不一定指示硬件电路之间的划分。因此，例如一个或多个所述功能块(例如处理器或存储器)可以在单件硬件(例如通用信号处理器或随机存取存储器、硬盘等)中被实施。类似地，程序可以是独立的程序，可以作为操作系统中的子程序被结合，可以是安装的软件包中的函数，等等。应当理解，各种实施例并不限于附图中所示的装置和手段。
[0050]
如在此所用，以单数陈述并且前面有单词“一”或“一个”的元件或步骤应当被理解为不排除多个所述元件或步骤，除非这种排除被明确地声明。此外，对本案的“一个实施例”的提及不打算被解释为排除也结合所述特征的附加实施例的存在。而且，除非以相反的方
式明确地声明，否则“包括”或“具有”包含特定性质的一个元件或多个元件的实施例可以包括附加的不具有所述性质的这样的元件。
[0051]
术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括一个或者更多个该特征。
[0052]
现有大部分基于超声的多模态数据库的文本材料内容单一，只包含单音节或句子，且语料规模较小，缺乏大规模和多样性的文本材料，这限制了基于超声的多模态数据的应用和研究范围，而且若采集时没有在采集阶段实现多模态数据同步，后期数据处理繁杂且压力大。并且，在现有基于超声的多模态数据采集任务及流程方面，现有大部分研究采用的设备、方法和模式参差不齐，缺乏统一的文本材料显示和数据采集集成。有些要求超声仪自带录音模块，有些则直接在超声仪上保存数据再移入硬盘，而超声仪保存数据通常繁琐、操作时间长，且无法与语料配对保存。这些因素影响了基于超声的多模态数据采集的质量和效率。
[0053]
鉴于此，本案提出一种基于超声的多模态发音数据采集方法，所述方法根据发音特征设计语料材料和语音任务，在语音任务中朗读相应的语料材料，使用多线程同步采集语音和超声数据，提高数据采集效率和准确性，并根据语音任务将语音数据、超声数据和语料文本数据一一对应存储，构成多模态数据；对多模态数据进行分阶段多次数据过滤后，进行数据配准，得到用于分析的多模态数据；所述超声数据具有表征一次语音任务开始前和结束后设定次数的吞咽动作。
[0054]
在上述方法的一个实施方式中，根据汉语发音特性和超声舌位图像特性，设计一套合理全面且发音分布均衡的文本材料和任务，包括单元音、单音节、句子和吞咽多种任务，通过优化采集任务和材料设计，本发明能够实现对汉语发音过程的全面覆盖，从而提高数据的多样性和规模性。其中单音节语料包含所有常见声韵母组合的汉字；句子语料覆盖了常用的116个中文单音素发音，且句子语料的音素平衡。结合超声舌位图像特性，本案还设计了吞咽任务，可通过吞咽动作确定硬腭轮廓。最终，采集到的数据可以用于汉语语音识别、语音合成、发音教学等领域的研究和应用，具有广阔的应用前景。
[0055]
具体地，本案根据汉语发声特征设计了语料文本，覆盖汉语的多个方面，以克服汉语语音-超声多模态数据采集大部分只涉及元音或短句，文本材料较为单一片面，缺乏全面性的文本材料和系统性的采集任务。在本案中，语料文本包括汉语单元音、汉语单音节、汉语句子等。其中：汉语单元音6个，如图1所示，分别为a、o、e、i、u、
ü
；405个汉语单音节，包含常见声韵母组合的主要音调的常用汉语字；汉语句子，采用863计划北方口音语音库(northern chinese speech corpus，casia)的全部文本作为录音语料，大约包含一万七千个不同的句子，句子长度从2个词到17个词不等，覆盖常用的116个中文有声单音素发音且音素平衡。
[0056]
在超声数据采集方面，可以通过吞咽这一动作确定硬腭位置，硬腭位置的确定可以提供与口腔收缩有关的信息，辅助发音舌运动分析，因此本案还增加了吞咽的任务。考虑到志愿者的身体状态，将所有语料和任务将语料平均分为3个部分，每个部分开始和结束时都需要做三次吞咽动作，具体任务分配和流程如图2所示。
[0057]
上述语音和超声数据的采集平台如图3所示，平台设备包括超声仪、麦克风、采集
卡、头盔等。示例性配置信息如下：
[0058]
(1)语音采集设备
[0059]
boya by-wm4 pro便携无线领夹麦克风：采样率16khz，单声道，16bit。
[0060]
(2)超声采集设备
[0061]
focus&fusion finus 55超声仪：便携式超声仪，探头为相控阵探头p5-2，扫描范围为80度。将超声探头置于颈部颏下皮肤采集正中矢状面的舌头图像，帧率为60f/s，超声图像区域像素920
×
700。
[0062]
(3)其他设备：
[0063]
电脑：thinkstation p910，用于显示任务指示语以及文本材料。
[0064]
采集卡：avermedia gc553，用于将超声数据实时传输至电脑。
[0065]
头盔：包括支架主体和超声探头支架，支架主体用于固定志愿者头部，防止头部晃动导致超声仪的探头偏移；超声探头支架：用于固定探头，减少手握带来的误差和操作难度。在一种实施方式中，头盔结构实施方式详见cn114795275a。
[0066]
在麦克风采集语音同时超声仪采集超声数据，超声数据通过采集卡实时传输至存储设备上，语音数据可通过电脑的声卡采集。
[0067]
为降低人工操控同步的难度，使用多线程同时控制超声仪和麦克风，分别采集超声数据和语音数据，通过多线程控制提高数据采集效率和准确性。图4给出了一种示例实现方式，当按下ctrl时同步启动两个线程，在两个线程都开启时，才开始读取和写入数据，ctrl松开则控制两个线程结束。本案中提及的ctrl键均为一种示例性键，可替换为其它按键。
[0068]
为避免因写入速度慢于读帧和解码而导致丢帧，超声数据采集和写入也通过多线程控制。在一种实施方式中示例性地涉及3个线程，分别用于读取packet、解码和写入文件。超声录制线程采集与保存处理情况如图5所示。当按下ctrl键，第一线程开始运行，负责不停地从端口读取packet放进packet队列中，第二线程负责从packet队列中取出packet，解码出帧并将帧放进frame队列中，第三线程负责从frame队列中取出帧，将该帧的数据写入文件中，每一帧保存为一个pgm文件；当松开ctrl，标志位改变，第一线程停止读取packet，并将空包送入packet队列，结束线程；第二线程读到空包后，将空frame送入frame队列，结束线程；第三线程读到空frame后，即停止写入，结束线程。
[0069]
为方便后续数据的自动化分析处理，本案设计了规范的文件命名规则和存储方式，每位志愿者的每份数据一一对应，并自动匹配命名。在一种实施方式中，每位志愿者在实验开始时首先获得一个编号，创建以该编号命名的文件夹，该文件夹内包括3个目录：超声数据(pgm)、语音数据(wav)、文本材料(txt)。文件命名规则如下：
[0070]
(1)音频文件：
[0071]
speaker[五位数编号]_[m/f]_[s1/s2/s3]_stn[五位数编号].wav，示例speaker00054_m_s1_stn00069.wav
[0072]
(2)文本文件：
[0073]
speaker[五位数编号]_[m/f]_[s1/s2/s3]_stn[五位数编号].txt，示例speaker00054_m_s1_stn00069.txt
[0074]
(3)超声文件：
[0075]
speaker[五位数编号]_[m/f]_[s1/s2/s3]_stn[五位数编号]_超声图片序号.pgm，示例speaker00054_m_s1_stn00069_005.pgm，表示第54个speaker的第1个session的第69句话第5帧超声图片，通过这样有规则一帧帧保存，可方便过滤检查，以及后续处理。一张图片大概是600-800k左右。
[0076]
图6示例多模态数据的数据存储结构关系。最终，采集到的数据可以用于汉语语音识别、语音合成、发音教学等领域的研究和应用，具有广阔的应用前景。
[0077]
从采集数据到存储数据可以看出，本案采集操作简单，只需要志愿者通过几个按键进行控制和注视电脑屏幕中的文本材料进行发音即可，可大大减少志愿者的参与难度。通过几个简单的按键实现语音和超声数据的开始录制、结束录制和重录，大大缓解实验人员的操作压力，解放人力，减少时间成本。
[0078]
在一实施方式中，将上述采集通过程序辅助实现，可实现自动化采集流程参考图7。具体地流程如下：
[0079]
s10、载入txt文件格式的文本材料，输入志愿者姓名拼音以新建用户，准备录音。
[0080]
s20、获取当前按键：
[0081]
示例性地，若当前按下按键为“ctrl”，开启录制线程，为方便志愿者做好准备，指令字体变大；若当前按下按键为up键，即
“↑”
，若是第一条指令，则出现弹窗，显示“已回退到第一条”，若不是第一条指令，则回退到上一条指令；若当前松开按键为“ctrl”，则结束录制，保存文件；若当前松开按键为up键，即
“↑”
，则返回s20获取当前按键。
[0082]
在上述过程中，语音录音时按键始终处于按下状态，直至录音结束。在其它实施例中，可使用按键指示录音开始后松开，结束时使用再次按键指示录音结束。
[0083]
在保存文件后，对保存的语音文件，判断音频文件的最大能量进行实时语音数据过滤，若最大能量小于0.2，则出现弹窗，显示“声音过小，请重录上一条”，进入判断当前指令是否为最后一条指令；若最大能量大于0.9，则出现弹窗，显示“声音过大，请重录上一条”，进入判断当前指令是否为最后一条指令；若最大能量大于等于0.2且小于等于0.9，判断当前指令是否为最后一条指令，若是最后一条指令，则出现弹窗，显示“录制完成”，若不是最后一条指令，则显示下一条指令，返回s20获取当前按键。
[0084]
在上述过程中，语音文件的最大能量，可通过下述公式计算：
[0085][0086]
其中，n为音频文件的数据点数目，ei为第i个数据点的能量，而xi为第i个数据点的值。当e小于某个给定值(如0.2)时，判定为该文件能量过小；当e大于某个给定值(如0.9)时，判定为该文件能量过大。
[0087]
对于重新录制的语音数据，因为语料文本数据相同，使其覆盖原来不满足条件的语音数据，同时将其对应的超声数据也重新采集，并覆盖旧的超声数据。
[0088]
接下来，对采集到的数据进行进一步预处理，包括超声数据过滤、基于超声数据特征的数据过滤，以及数据配准，进一步提高数据采集的正确性，并确保对齐后的语音-超声数据没有出现明显的异步性。具体如下：
[0089]
(1)超声数据过滤：
[0090]
对收集到的数据进行检查，使用关键点判断超声图像是否正常并丢弃出错的数
据，然后过滤掉存在严重模糊或舌头亮线位置不准确的超声图像。
[0091]
在超声图像记录中可能会出现no signal帧的情况，如图10(f)所示，因此需要检查超声图像记录是否正确。由于正常图像中底部有“f”标识以及右侧存在刻度，因此可以通过检查特殊位置的像素值是否正常来确定图像是否正常。选取“f”标识、右上角刻度、no signal帧边框左下角3处位置，检查该3处位置的像素值是否正确，记录每句话中出现错误的帧的编号，见图8(a)为正常图像示意图，图8(b)为异常图像示意图。对于每句话，如在有声段中存在出错帧，则进行舍弃。
[0092]
(2)基于超声数据特征的数据过滤
[0093]
更进一步，检查超声图像中的舌头轮廓，保留能提取“舌头亮线”的超声数据。清晰的舌头轮廓如图9(a)所示，“舌头亮线”为舌头轮廓的外边缘线，如图9(b)所示。
[0094]
按“舌头亮线”的清晰程度可以将图像分为清晰、较模糊、严重模糊三类，分别如图10(a)-(c)所示，图10(d)-(e)所示为因口水等原因而导致舌头亮线位置不准确的超声图像。一般来说，在数据过滤过程中，仅保留舌头亮线清晰的超声文件，如存在较模糊、严重模糊或“舌头亮线”位置不准确的超声图像，则进行舍弃。或者不舍弃，对较模糊、严重模糊的图像进行标识，结合其在语音中的位置，用于分析舌头动作带来的发音问题，辅助发音矫正。
[0095]
在舌头轮廓提取方面，由于不同受试者的舌头位置深浅各异，以及舌头抵住上颚时舌头亮线会变暗甚至模糊，为了得到清晰的舌头亮线，同时为后续实现由语音合成对应舌头运动的超声图像作准备，可使用结合densenet和u-net网络的舌头轮廓跟踪模型mtracker(jian z.et al.，“a cnn-based tool for automatic tongue contour tracking in ultrasound images”，arxiv preprint arxiv：1907.10210，2019.)来提取超声图像中的舌头轮廓。
[0096]
由于结合超声舌位图像独有特性，本案设计了特有的吞咽任务，用于判断一个任务是否完成或者语音的连续性。因此，在提取超声图像的舌头轮廓的同时，本案根据吞咽过程的舌部超声图像变化确定的腭部位置进一步进行硬腭轮廓提取，在图像中生成腭的轮廓痕迹，作为多模态发音数据的一部分进行分析和/或应用，比如以视觉反馈的形式辅助医生对患者进行发音训练和治疗。
[0097]
具体地，在硬腭轮廓提取方面，由于录音过程中志愿者吞咽或者嘴里含着液体时，超声会在上腭处产生可见回波，因此通过累积吞咽过程的多个超声图像，可获得腭部痕迹。具体操作是，首先使用log-gabor滤波在不同尺度和方向上进行滤波，经过阈值处理计算相位对称性，保留原始图像中最大最亮的回波，见图12。然后从时间序列中的不同图像提取的亮痕叠加，随着时间的推移，腭等不可移动的结构会使得叠加图像中的相应位置亮度高，最亮的线即为硬腭位置。而舌或成像伪影等移动的结构，虽然在单个图像中通常比腭更亮，但由于这些舌或成像伪影等结构在发音过程中位置经常发生变化，因此叠加图像的亮度较低。
[0098]
(2)数据配准：
[0099]
对于数据过滤后的超声数据，可通过数据配准来同步语音数据和超声数据。通过比较语音数据中语音开始位置和超声数据中舌头开始运动的位置来比较数据是否配准同步，见图11。
[0100]
在言语产生过程中发声器官的运动不会晚于声音。将舌头从平稳态开始运动的时间作为舌头运动开始时间，舌头恢复至平稳态的时间作为舌头运动结束时间。使用vad获得人声开始和结束时间，由于开始发声时舌头往往先于语音，结束发音后舌头还有复位时间，因此将语音数据中人声出现前0.5s和人声消失后0.5s作为语音开始和结束时间。进一步通过将音频和与其对应的超声文件，使用ffmpeg和python编写脚本合成为一个视频，可方便人工复检。通过语音开始时间和超声开始时间进行配准，以确保对齐后的语音-超声数据没有出现明显的异步性。
[0101]
综上，本案提出的基于超声的多模态数据采集方法在上述实施过程中，根据汉语发声特征，设计内容合理丰富的文本材料和任务，搭建包括麦克风、超声仪等设备在内的多模态数据采集平台，使用多线程实现基于超声的多模态数据标准化同步采集和存储，而在存储中进一步设计易于理解和操作的自动化采集流程，对收集到的基于超声的多模态数据进行规范化命名存储，存储的同时进行语音数据过滤，并对存储的多模态数据进行进一步的数据过滤和数据配准预处理，以提高数据的有效性和同步性。
[0102]
从实施过程可以看出以下有益技术效果：
[0103]
(1)志愿者只需通过几个按键进行控制和注视电脑屏幕中的文本材料进行发音即可，可大大减少志愿者的参与难度，而通过简单的按键实现语音和超声数据的开始录制、结束录制和重录，实现自动化同步采集和存储，提高了数据采集效率和准确性，大大缓解实验人员的操作压力，解放人力，减少时间成本。
[0104]
(2)通过使用多线程实现语音数据和超声数据的同步启动采集，在采集阶段将多模态数据进行同步，无需后续处理。在采集过程中实现超声数据、语音数据和文本材料数据一一对应同步采集存储，方便后续处理。
[0105]
(3)通过多次数据过滤，进一步提高数据采集的正确性，通过数据配准，确保对齐后的语音-超声数据没有出现明显的异步性，从而获得可直接用于分析的有效且正常的多模态语音数据。通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本公开方法可实施为相应的系统，系统可以是软件程序，也可以是可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用cpu、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本公开而言更多情况下，软件程序实现是更佳的实施方式。
[0106]
需要说明的是在本说明书中所谈到的“一个实施例”、“另一个实施例”、“实施例”等，指的是结合该实施例描述的具体特征、结构或者特点包括在本技术概括性描述的至少一个实施例中。在说明书中多个地方出现同种表述不是一定指的是同一个实施例。进一步来说，结合任一实施例描述一个具体特征、结构或者特点时，所要主张的是结合其他实施例来实现这种特征、结构或者特点也落在本案的范围内。
[0107]
尽管以上结合附图对本案的实施方案进行了描述，但本案并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本案权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本案保护之列。

技术特征：
1.一种基于超声的多模态发音数据采集方法，所述方法根据发音特征设计语料材料和语音任务，在语音任务中朗读相应的语料材料，其特征在于：使用多线程同步采集语音和超声数据，并根据语音任务将语音数据、超声数据和语料文本数据一一对应存储，构成多模态数据；对多模态数据进行数据过滤后，进行数据配准，得到用于分析的多模态数据；所述超声数据具有表征一次语音任务开始前和结束后设定次数的吞咽动作。2.根据权利要求1所述的方法，其特征在于，使用多线程同步采集语音和超声数据，步骤包括：利用超声仪、麦克风、采集卡、头盔搭建采集平台；使用头盔的超声探头支架放置超声仪的探头，使用头盔固定发声者的头；使用多线程同时控制超声仪和麦克风，分别采集超声数据和语音数据，并将超声数据通过采集卡实时传输至存储设备上。3.根据权利要求1所述的方法，其特征在于，数据过滤包括语音数据过滤、超声数据过滤、基于超声数据特征的数据过滤；所述语音数据过滤：对语音进行能量计算，保留满足设定能量阈值条件的语音数据及其对应的超声数据和语料文本数据；超声数据过滤：对保留超声图像底部有“f”标以及右侧存在刻度的超声数据及其对应的语音数据和语料文本数据；基于超声数据特征的数据过滤：使用结合densenet和u-net网络的舌头轮廓跟踪模型获取正常超声图像的舌头轮廓，对能获得舌头轮廓的超声图像和对应的语音数据、语料文本数据进行保留。4.根据权利要求1所述的方法，其特征在于：数据配准通过比较语音数据中语音开始时间和超声数据中舌头开始运动时间的位置来实现。5.根据权利要求4所述的方法，其特征在于：数据配准在比较时将语音数据中人声出现前0.5s和人声消失后0.5s作为语音开始和结束时间。6.根据权利要求2所述的方法，其特征在于：超声数据采集和写入存储设备，实现步骤包括：使用第一线程从端口读取数据包(packet)，并放入数据包队列；使用第二线程从数据包队列中取出数据包，解码出帧并将帧放进帧(frame)队列中；使用第三线程从帧(frame)队列中取出帧，并将该帧写入文件中，每一帧保存为一个文件。7.根据权利要求6所述的方法，其特征在于，第一线程通过按键值控制运行。8.根据权利要求3所述的方法，其特征在于：超声数据特征提取包括硬颚轮廓提取；硬颚轮廓提取方式为：利用吞咽或者口腔中的液体时，超声在上颚处产生可见回波，从而通过吞咽过程的多个舌部超声图像变化确定颚部位置，进而获得颚部痕迹。9.根据权利要求8所述的方法，其特征在于，通过累积吞咽过程的多个舌部超声图像，获得腭部痕迹，步骤包括：对每个舌部超声图像，使用log-gabor滤波在不同尺度和方向上进行滤波，经过阈值处理计算相位对称性，保留原始舌部超声图像中最大最亮的回波作为亮痕；
将从时间序列中的不同舌部超声图像提取的亮痕叠加，获得腭部痕迹。10.一种基于超声的多模态发音数据采集系统，其特征在于，所述系统根据权利要求1至8中任一种方法实现；所述系统还包括计算机可读存储介质，用于存储系统实现时涉及的计算机程序。

技术总结
本案涉及一种基于超声的多模态发音数据采集方法及系统，属于信息技术领域，用于解决现有技术缺乏标准化的多模态数据采集方法和系统。技术方案如下：使用多线程同步采集语音和超声数据，并根据语音任务将语音数据、超声数据和语料文本数据一一对应存储，构成多模态数据；对多模态数据进行数据过滤后，进行数据配准，得到用于分析的多模态数据；所述超声数据具有表征一次语音任务开始前和结束后设定次数的吞咽动作。通过建立硬件采集平台，可减少同步误差，进一步通过程序辅助实现数据处理，不仅可实现同步采集，而且可实现自动化采集，降低采集难度。降低采集难度。降低采集难度。

技术研发人员：苏荣锋谢旭荣王岚燕楠魏建国
受保护的技术使用者：中国科学院深圳先进技术研究院
技术研发日：2023.05.16
技术公布日：2023/10/15

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

基于超声的多模态发音数据采集方法和系统

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

基于超声的多模态发音数据采集方法和系统

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表