基于跨模态学习的小样本声波感知手势识别方法
未命名
07-15
阅读:97
评论:0
1.本发明涉及信息处理技术领域,更具体地,涉及一种基于跨模态学习的小样本声波感知手势识别方法。
背景技术:
2.随着传感器的发展和智能化的普及,研究者经常利用智能手机、智能耳机以及智能手表等设备中的传感器来进行研究,以达到识别用户的活动并满足用户需求的目的。现有的用户活动识别系统通常依赖于机器学习模型来构建,而这些模型需要由大规模带标签的传感器数据进行训练。对于大规模的带标签的传感器数据,通常需要耗费大量的时间进行数据收集且需要人工对传感器数据进行注释,这一过程阻碍了模型地快速部署,使得新的传感器无法及时应用。
3.目前声波感知的技术较多,但通常需要预先设定手势集合并招募实验者采集大量的带标签的传感器的数据集,然后对深度学习网络模型进行训练。由于神经网络的训练需要大量的数据并且用户需要按照预先设定的手势动作使用手势识别系统,这不仅会耗费大量的时间成本和人力成本,而且用户不能按照自己的喜好以及习惯去自由定义手势。这使得研究者无法快速部署系统,即研究者需要先采集大量的数据才能对传感器的相关应用进行研究。
4.在现有技术中,对于跨模态的手势识别研究较少。2020年,hyeokhyen kwon等人提出了用人类活动的视频建模出惯性传感器imu数据的虚拟流,这些虚拟imu流代表人体各种位置的加速度测量。在该方案中,通过利用现有的大量人体活动的视频数据生成了虚拟的imu数据以训练基于传感器的活动识别器,且能取得一个不错的识别性能。2021年,sejal bhalla等人提出了用imu数据跨模态辅助毫米波雷达转换成的多普勒数据的机器学习模型训练,在该方案中,通过机器学习模型学习用户手腕上佩戴的传感器以及放置在周围的毫米波雷达传感器之间的特征映射,无需大量的毫米波雷达数据即可构建一个活动识别系统,仅用14秒的带标记多普勒数据就可以实现一个10类活动准确率达到70%的系统。2022年,邹永攀等人提出了一种基于小样本的手势识别方法。在该方法中,通过利用现有的同模态的数据集实现了在目标数据中,每个类别提供多个样本即可实现一个不错的识别性能。
5.经分析,现有的手势识别方案主要存在以下缺陷:
6.1)选择的开源数据集的类别需要与所跨传感器要识别的类别基本一致,因此仍然需要耗费较多人力以及时间去为每个识别类别搜寻相关类别的开源数据。
7.2)需要预先采集所跨传感器的少量数据用于辅助训练或者微调模型。
8.3)需要找寻相同模态的数据集对模型进行训练。
技术实现要素:
9.本发明的目的是克服上述现有技术的缺陷,提供一种基于跨模态学习的小样本声波感知手势识别方法。该方法包括以下步骤:
10.获取用户自定义手势对应的时频图,输入到经训练的识别模型,生成自定义手势类别的原型向量;
11.在用户与智能设备进行手势交互过程中,检测交互动作并获取对应的时频图,输入到所述识别模型,生成交互动作的查询向量;
12.将所述原型向量和所述查询向量根据余弦相似度进行比对,以识别出交互动作的手势类别;
13.其中,所述识别模型是基于支撑集和查询集训练的跨模态小样本学习模型,所述支撑集从公开数据集中随机选择部分类别的样本获得,所述查询集从公开数据集中随机选择相同类别中的不同数据获得,且所述时频图是声波感知的时频图,所述公开数据集包含手写的字符和数字图片。
14.与现有技术相比,本发明的优点在于,提出了一种跨模态声波感知手势识别系统,考虑到目前已经有很多公开的数据集,因此能够根据声波传感器收集到的数据的特征对现有公开数据集进行选择利用,直接用现有的公开数据集对模型进行训练,在模型训练过程中无需声波感知手势的数据。在用户层面上,用户能够通过带有这套系统的智能设备如智能手机等输入自定义的手势的一个到多个样本,样本经过模型后得到的特征向量取平均作为原型向量保存到系统中,最终进行手势识别,实现模型训练过程中无需声波感知手势数据即可进行手势识别的目的。
15.通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
16.被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
17.图1是根据本发明一个实施例的基于跨模态学习的小样本声波感知手势识别方法的总体过程示意图;
18.图2是根据本发明一个实施例的基于跨模态学习的小样本声波感知手势识别方法的流程图;
19.图3是根据本发明一个实施例的开源数据集处理流程图;
20.图4是根据本发明一个实施例的跨模态小样本学习模型示意图;
21.图5是根据本发明一个实施例的声波感知数据集处理流程图
22.图6是根据本发明一个实施例的生成的时频图;
23.图7是根据本发明一个实施例的识别用户手势类别的过程示意图;
24.图8是根据本发明一个实施例的10类数字识别的混淆矩阵示意图;
25.图9是根据本发明一个实施例的26类字母手势识别的混淆矩阵示意图。
具体实施方式
26.现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
27.以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
28.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
29.在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
30.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
31.本发明的目的是:利用已有的不同模态的开源数据集来训练声波感知手势识别模型,减少采集声波数据所带来的时间以及人工开销;利用开源数据集训练模型,以实现模型快速部署到智能终端的需求,已训练好的模型能够借助少量的样本且无需微调模型能取得优异的手势识别性能。
32.本发明所提供的基于跨模态学习的小样本声波感知手势识别方法可以实现在常用的智能设备上,例如,智能手机、智能耳机或可穿戴设备等,其总体应用过程如图1所示,涉及模型训练、智能设备和设备软件三部分,主要包括:通过开源数据集训练跨模态小样本学习模型并将模型打包导入软件,然后用户通过智能设备上的扬声器和麦克风实现采集自定义的手势作为样本。设备软件实现数据处理、生成手势特征向量、保存原型向量以及识别手势类别等主要功能。
33.具体地,参见图2所示,所提供的基于跨模态学习的小样本声波感知手势识别方法包括以下步骤:
34.步骤s210,选取公开数据集进行预处理和数据增强。
35.图3是处理开源数据集(即公开数据集)的流程图。对于后续基于声波感知得到的手势数据时频图,考虑到各个手势时频图最大的差异在于时频图的形状上,因此,选取minist手写数字数据集作为模型训练的数据集使用。
36.为了减小手势时频图与minist图片之间的差异,更便于模型泛化到手势时频图数据,首先,不同于以往的模型只将minist图片作为黑白(0和1)来看待,这里将minist数据集按照设置的颜色色条将数字区域读取为彩色,而背景读取为黑色。此外,考虑到手势时频图上的识别区域可能分布在偏左或者偏右区域以及出现的噪声情况,将读取完的minist数据集随机加噪声并在图片的左边或者右边区域随机进行了黑色填充。应理解的是,加噪声是为了使得模型识别更加鲁棒,而黑色填充是为了模拟自定义手势过程中手势数据偏左或偏右的情况。最后,由于训练模型的目的主要是使得模型能够通过图片中内容形状的比对而进行分类,因此对于图片的对比度和色调进行了随机变换,以使得模型更偏向于去学习图片中识别区域的形状。
37.需说明的是,本发明所采用的公开数据集不限于minist数据集,也可采用例如omniglot数据集和eminist数据集等。这些数据集包含手写字符和数字的图片,有利于后续训练的模型更关注图像内容的形状。此外,也可采用其它的预处理方法。例如,可将图片进行灰度化即由三通道变为单通道以节省算力。
38.步骤s220,构建跨模态小样本学习模型,并以设定的损失函数为优化目标进行训练。
39.本发明通过训练跨模态小样本学习模型,得到手势识别模型。图4是跨模态小样本学习模型的示意图,主要包括特征提取器模块、全局特征提取模块、局部特征提取模块、全局相似比较模块和局部相似比较模块等。
40.在图4实施例中,利用开源数据集训练原型网络小样本学习模型,在数据输入模型的过程中,数据被划分为支撑集和查询集,模型特征提取器可以是普通卷积神经网络,例如采用四层卷积网络,采用这种浅层网络是为了避免网络学到开源数据集过于深层次的一些特征分布。为了从仅有的几个样本中有效地实现开源数据集训练的模型迁移到声波感知手势数据集上使用,模型利用了图像的全局不变特征和局部判别细节,使得既能够学习开源数据集的全局分布,又能够学习局部分布,以此来提高模型跨模态的识别准确率。
41.具体地,经过特征提取器提取全局特征后,进一步在全局特征的监督下探索更具有较强识别力的局部特征。对于特征提取器所提取的全局特征,会先经过全局特征提取模块(例如包含两个卷积块)以学习图像中具有全局表示的通用知识,然后使用余弦相似性函数来测量查询集与支撑集之间的相似性。对于局部特征提取模块,采用了注意力机制,首先对全局特征的通道数通过卷积块(down channel block)进行降维,然后通过自适应平均池化层(adapativeavgpool)所得的向量再与原来降维后的矩阵相乘,以对需要加强的特征通道进行加强作为一个权重矩阵,最后将权重矩阵与全局特征矩阵逐行元素进行相乘,从而得到局部特征。
42.在训练模型过程中,使用了小样本学习的元训练方法。首先,从选择的公开数据集中随机选择部分类别的少量样本作为支撑集,再随机选择相同类别中的不同数据作为查询集,两者组合为一个任务。支撑集经过上述模型得到全局特征向量和局部特征向量,对相同类别的支撑集取平均值作为全局原型向量和局部原型向量。同理,查询集经过模型后也得到了相应的特征向量作为全局查询向量和局部查询向量,将全局原型向量与全局查询向量经过全局相似性比较模块,并将局部原型向量与局部查询向量经过局部相似性比较模块后,获得相应的度量结果(例如采用余弦相似性距离进行度量)。最后,将度量结果与查询向量的真实标签经过交叉熵损失函数进行计算后,得出训练的总损失以此反向传播更新模型的参数。
43.需说明的是,本文对跨模态小样本学习模型的具体结构不进行限制,例如,涉及到的卷积层数量、卷积核大小等可适当设置。
44.步骤s230,针对用户自定义的手势,采集基于声波感知的手势数据处理成时频图,并利用经训练的跨模态小样本学习模型生成自定义手势对应的原型向量。
45.图5是声波感知数据集的处理流程。首先,控制智能设备如智能手机内置扬声器按照调制的特定频率发射声波信号,考虑到选择的发射频率需满足用户察觉不到它的存在且需要不受周围环境的影响以方便滤波实现降噪,因此将发射频率设置为19khz。由采样频率需满足奈奎斯特采样定律,将采样率设置为了44.1khz。
46.接着,用户在智能设备的扬声器附近区域以任意大小、速度以及方位实施个性化预定义手势。
47.然后,对预定义手势的数据进行预处理,包括滤波、加窗、短时傅里叶变换、高斯滤波、阈值滤波、以及时频图调整大小等,由于这一过程是用户自定义手势阶段,所以不需要检测动作检测。具体地,首先,对数据集进行滤波。滤波可采用3阶巴特沃斯点阻滤波器,其
带阻范围是[18985,19015]hz,主要是为了是去除19khz的中心频率。此外,考虑到手势数据分布在一段频率范围内,因此还进行了带通滤波,带通范围是[18700,19300]hz。接着,对采集到的声波信号序列进行滑动加窗处理以进行分帧,并对每一帧做短时傅里叶变换。滑动窗口的类别设置为汉宁窗,宽度是8192个样本点,步进值为1024个样本点,通过以上操作,一维的声音信号序列转为为了二维的时频图。进而对时频图数据进行处理,为了将识别的数据从时频图背景中分离出来,进行一个高斯滤波以及阈值滤波,此处高斯卷积核为5,标准差为1,阈值设置为0.72。
[0048]
此外,考虑到用户完成每个手势的时间不是固定的,因此还需要统一时频图的大小(如84
×
84),以方便输入到模型中,如图6是生成的时频图。在将自定义手势输入到经训练的跨模态小样本学习模型后,模型会对自定义手势数据生成原型向量。
[0049]
最后,为了提升模型识别的性能,考虑到用户在做手势的过程中速度可能不一样,因此对用户提供的手势样本进行了数据增强,将提供的一个手势样本变为了多个手势样本,使用的样本数据增强方法包括横向平移和缩放,处理过程中出现的空白区域可直接填补为黑色(0,0,0)。
[0050]
需说明的是,对于声波感知数据预处理阶段,加窗分帧中滑动窗口的参数以及窗函数的类型可适当调整。此外,将一维时序信号转化成二维时频图的方法可以是小波变换以及傅里叶变换等。高斯滤波可以适当调整参数以及滤波方式,也可以采用中值滤波或者均值滤波等,阈值滤波的阈值可根据需要适当调整。
[0051]
步骤s240,在用户与智能设备进行手势交互过程中,利用经训练的跨模态小样本学习模型生成交互动作手势所对应的查询向量,进而通过与存储的原型向量进行比对,获得手势识别结果。
[0052]
识别用户手势类别的过程如图7所示。当用户自定义完手势后,已经保存了每个自定义手势数据的原型向量(原型向量包括全局原型向量和局部原型向量)。在实际的手势识别场景中,用户只需对着智能设备附近的扬声器按照之前所完成手势的方位实施手势动作。经过步骤s230所描述的手势数据预处理过程后生成用户想要识别手势的一个时频图,经过经训练的跨模态小样本学习模型后生成查询向量(查询向量包括全局查询向量和局部查询向量),并与之前保存的自定义手势数据的所有原型向量进行余弦相似度距离的计算,然后采用softmax函数计算属于各个手势类别的概率,最后将全局相似比较模块预测的概率与局部相似比较模块预测的概率求和后按照置信度最大的类别作为所想要识别手势的一个预测类别。在生成完时频图后,由于用户在实施手势的过程是一个即兴的过程,为了不让系统每时每刻都在进行识别,因此需要加入一个动作检测过程,动作检测过程如下:
[0053]
考虑到经过数据预处理完的时频图背景颜色已经变为黑色即像素点值为(0,0,0),而非黑色部分基本就是手势动作的数据,并且考虑到人做手势的速度,因此,当连续有五个帧即约0.1s的窗口均出现阈值大于0的数据时,则判定检测到的第一帧为活动的开始帧,当检测到活动帧后,若有连续五个帧没有出现阈值大于0的数据时,则判定最初帧为活动的结束帧,将开始帧和结束帧分别往前和往后推五个帧,将这一部分提取出来作为对应于手势的完整时频图。
[0054]
需说明的是,动作检测也可采用自下而上地扫描时频图的方式,即检测出有多余4个连续的色块值都大于0则判定该活动帧为活动帧,结束帧同理。
[0055]
为进一步验证本发明的可行性,进行了实验验证。结果表明,当用户对每个自定义的手势(为了方便,采用了10类数字手势以及26类字母手势)分别提供1个、3个或者5个样本时,所提出的方法对于10个数字手势的识别准确率分别为70.45%、78.32%、81.14%,而对于26个字母手势的识别准确率分别为60.99%、68.99%、72.39%,top-3的准确率分别为83.68%、88.78%、90.91%。图8和图9分别展示了在3个样本下10类数字手势识别和26类字母手势识别的混淆矩阵图。
[0056]
应理解是,本发明所提出的方法,除了使用声波作为跨模态的对象进行手势识别外,也可以应用到其他传感器数据上,诸如最近探究比较广泛的毫米波雷达传感器,只要传感器所收集的数据不同类别之间的差别可以从所要识别的区域的形状上能够区分即可。
[0057]
综上所述,相对于现有技术,本发明具有以下优势:
[0058]
1)本发明提出了一种跨模态的小样本声波感知手势识别方案,该方案允许模型在训练阶段使用不同模态的开源数据集且不需要数据集与所跨模态数据集的类别相同,从而降低了采集数据的人力成本和时间成本,使得模型能够快速部署。
[0059]
2)本发明针对跨模态的问题,对开源数据集按照所跨模态数据的特征进行了变换和数据增强,并引入了局部特征,使得模型既能够关注全局的不变性,又能够关注于局部的细节,通过学习这两种特征的分布,提高了模型的泛化性能。
[0060]
3)本发明在不同模态的开源数据集训练的模型基础上,支持用户自由定义属于自己的手势且不限手势的数量。此外,不需要用户在使用过程中按照预定义的手势类别来进行交互,提升了用户的体验感。
[0061]
4)本发明在训练的过程中无需引入所跨传感器的数据且不需要微调,直接将开源数据集经过处理后输入模型训练即可将模型使用到所跨传感器的数据,降低了用户的负担并具有较高的手势识别准确率。
[0062]
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
[0063]
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
[0064]
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计
算机可读存储介质中。
[0065]
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如smalltalk、c++、python等,以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
[0066]
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
[0067]
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
[0068]
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
[0069]
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
[0070]
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技
术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。
技术特征:
1.一种基于跨模态学习的小样本声波感知手势识别方法,包括以下步骤:获取用户自定义手势对应的时频图,输入到经训练的识别模型,生成自定义手势类别的原型向量;在用户与智能设备进行手势交互过程中,检测交互动作并获取对应的时频图,输入到所述识别模型,生成交互动作的查询向量;将所述原型向量和所述查询向量根据余弦相似度进行比对,以识别出交互动作的手势类别;其中,所述识别模型是基于支撑集和查询集训练的跨模态小样本学习模型,所述支撑集从公开数据集中随机选择部分类别的样本获得,所述查询集从公开数据集中随机选择相同类别中的不同数据获得,且所述时频图是声波感知的时频图,所述公开数据集包含手写的字符和数字图片。2.根据权利要求1所述的方法,其特征在于,所述跨模态小样本学习模型包括特征提取器模块、局部特征提取模块、全局特征提取模块、全局相似比较模块和局部相似比较模块,其中特征提取器模块基于输入的支撑集和查询集提取特征,并分别传递至局部特征提取模块和全局特征提取模块,全局特征提取模块输出全局原型向量和全局查询向量,局部特征提取模块输出局部原型向量和局部查询向量,全局相似比较模块用于度量全局原型向量和全局查询向量之间的相似性,局部相似比较模块用于比较局部原型向量和局部查询向量之间的相似性。3.根据权利要求2所述的方法,其特征在于,所述特征提取器模块是多层卷积网络,所述全局特征提取模块包含多个卷积块,所述全局相似比较模块和所述局部相似比较模块采用余弦相似性函数进行度量,所述局部特征提取模块基于通道注意力机制提取局部特征。4.根据权利要求1所述的方法,其特征在于,根据以下步骤训练所述跨模态小样本学习模型:从选择的公开数据集中随机选择部分类别的样本作为支撑集,再随机选择相同类别中的不同数据作为查询集,两者组合为一个任务;支撑集经过跨模态小样本学习模型得到全局特征向量和局部特征向量,对相同类别的支撑集取平均值作为全局原型向量和局部原型向量;查询集经过跨模态小样本学习模型得到全局查询向量和局部查询向量;将全局原型向量与全局查询向量以及局部原型向量与局部查询向量利用余弦相似性函数得到度量结果,并通过交叉熵损失函数与查询向量的真实标签计算出训练的总损失来反向传播更新跨模态小样本学习模型的参数。5.根据权利要求1所述的方法,其特征在于,所述时频图根据以下步骤获得:在用户实施手势时,智能设备的扬声器按照设定的频率发射声波,智能设备的麦克风按照设定的采样率采集信号;对采集的信号进行点阻滤波、加窗分帧,时频变换处理,生成二维时频图;对所述二维时频图进行高斯滤波、阈值滤波和数据增强处理,其中数据增强包括横向平移和缩放,并将处理过程中出现的空白区域填补为黑色。6.根据权利要求1所述的方法,其特征在于,所述公开数据集是经预处理的数据集,预处理过程包括:
选择包含手写数字图片的公开数据集;将所选择的公开数据集按照设置的颜色色条将数字区域读取为彩色,而背景读取为黑色;将读取的公开数据集随机加噪声并在图片的左边或者右边区域随机进行黑色填充,并对于图片的对比度和色调进行随机变换。7.根据权利要求1所述的方法,其特征在于,所述检测交互动作包括:对于采集到的信号,当连续有设定数目的帧均出现阈值大于0的数据时,则判定检测到的第一帧为动作的开始帧,当检测到开始帧后,若有连续设定数目的帧没有出现阈值大于0的数据,则判定最初帧为动作的结束帧,将开始帧和结束帧分别往前和往后推多个帧,以提取对应于手势的完整时频图。8.根据权利要求1所述的方法,其特征在于,所述智能设备是智能手机、智能耳机或可穿戴设备。9.一种计算机可读存储介质,其上存储有计算机程序,其中,该计算机程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。10.一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
技术总结
本发明公开一种基于跨模态学习的小样本声波感知手势识别方法。该方法包括:获取用户自定义手势的时频图,输入经训练的识别模型,生成自定义手势类别的原型向量;检测交互动作手势并获取时频图,输入到识别模型,生成交互动作手势的查询向量;将原型向量和查询向量根据余弦相似度比对,以识别交互动作手势的类别。其中识别模型是基于支撑集和查询集训练的跨模态小样本学习模型,所述支撑集从公开数据集中随机选择部分类别的样本获得,所述查询集从公开数据集中随机选择相同类别中的不同数据获得,且所述时频图是声波感知的时频图。本发明允许训练数据集与测试数据集是不同的模态,显著减少了采集数据的开销,且仅需少量样本就可实现优良的性能。本就可实现优良的性能。本就可实现优良的性能。
技术研发人员:邹永攀 翁健豪 伍楷舜
受保护的技术使用者:深圳大学
技术研发日:2023.03.15
技术公布日:2023/7/12
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
