一种智能人机交互系统及其方法
未命名
07-27
阅读:152
评论:0
1.本发明涉及人机交互技术领域,具体为一种智能人机交互系统及其方法。
背景技术:
2.人机交互是一门研究系统与用户之间的交互关系的学问,系统可以是各种各样的机器,也可以是计算机化的系统和软件,人机交互界面通常是指用户可见的部分,用户通过人机交互界面与系统交流,并进行操作,小如收音机的播放按键,大至飞机上的仪表板,或发电厂的控制室,人机交互界面的设计要包含用户对系统的理解,那是为了系统的可用性或者用户友好性。
3.经检索到中国专利cn112788148a并公开了一种智能人机交互系统及方法,通过设置分别与云系统通信连接的设备a和设备b,用户基于云系统通过设备a与设备b的多端交互,将传统玩具向智能玩具转化,让玩具/玩偶具备拟人特性,且变成人和人之间的交互寄托,提高了玩具的智能化程度,通过自定义信息,使用户可以根据需要进行自定义设置,避免了普通玩具存在的千篇一律的反馈,充分尊重个性,让玩具的交互体现个性化和多样性,实现了交互的输入和反馈方式可定制,通过信息推荐模块,实现玩具的智能化和智慧化,让玩具越来越懂用户,玩具系统根据用户的习惯,自动为用户推荐、选择输入和反馈方式的能力,该专利虽然能够提高智能化程度,然而在进行人机交互时,也是需要提高交互时的便利性,该专利在进行交互时较为繁琐,会延长交互的时间,减少了用户的体验感,鉴于此,提出了一种智能人机交互系统及其方法。
技术实现要素:
4.(一)解决的技术问题
5.针对现有技术的不足,本发明提供了一种智能人机交互系统及其方法,具备人机交互便利性高的优点,解决了人机交互繁琐的问题。
6.(二)技术方案
7.为实现上述人机交互便利性高的目的,本发明提供如下技术方案:一种智能人机交互系统,包括kinect体感设备、人脸验证模块、智能控制模块、登录模块和视频播放器,所述kinect体感设备含有kinect传感器,所述kinect传感器用于对人脸图像、音频、深度图像和骨骼图像数据的获取,所述人脸验证模块含有人脸识别模块,所述人脸识别模块包括人脸检测模块、特征提取模块和分类识别模块。
8.进一步,所述人脸验证模块与kinect体感设备和登录模块连接,所述智能控制模块与kinect体感设备和视频播放器连接,所述特征提取模块与人脸检测模块和分类识别模块连接,所述登录模块和视频播放器连接有外界设备。
9.进一步,所述智能控制模块包括语音识别模块和手势识别模块,所述语音识别模块和手势识别模块可以自由相互切换。
10.进一步,所述人脸检测模块和特征提取模块采用openvino,所述openvino对使用
的神经网络进行优化部署。
11.本发明要解决的另一技术问题是提供一种智能人机交互方法,包括以下步骤:
12.步骤一:kinect传感器对数据的采集,用kinect传感器对人脸图像、音频、深度图像和骨骼图像数据的获取;
13.1)获取深度图像的成像方法采用结构光编码方法和飞行时间法;
14.2)获取骨骼图像数据的方法:
15.①
将单个输入的深度图像分割为密集的身体部位标记,并且推断出骨骼附近感兴趣区域的关节;
16.②
将推断出的部分重新投射到世界坐标空间中,生成每个骨骼关节的三维位置坐标;
17.③
kinect传感器对获取的深度数据进行分析并提取特征向量,将其送至随机决策森林进行人体各部位的分类,骨骼关节分类和预测使用机器学习中的随机森林;
18.④
利用随机决策森林对深度图像中提取的特征进行训练学习,经训练后师可以对深度图像中每个像素进行判断,确定是否属于身体骨骼关节,并实时更新骨骼关节点的三维坐标信息;
19.步骤二:将数据传输给人脸识别模块或者智能交互模块,人脸识别模块进行人脸检测时采用ssd算法,利用卷积神经网络来进行检测,将vgg16作为ssd模型的主干网络,并在此基础上增加若千个不同的卷积层,卷积层的主要目的是获取更多的特征图用于目标检测,智能交互模块进行交互切换采用dfe算法,驱使外界设备以完成整个交互过程。
20.优选的,步骤一中所述的结构光编码方法,包括以下步骤:
21.步骤一:kinect的红外发射器连续不断地发射脉冲信号,脉冲信号会在物体表面形成红外线斑点图;
22.步骤二:红外接收器会采集物体表面的斑点图,运用物体成像原理形成红外线斑点图;
23.步骤三:红外接收器会采集物体表面的斑点图,运用物体成像原理形成深度图像。
24.优选的,步骤一中所述的飞行时间法,包括以下步骤:
25.步骤一:kinect的红外发射器不断地发射红外光线;
26.步骤二;到达物体表面后进行反射,深度相机接收反射回来的红外光线;
27.步骤三:对红外光线发射与接受之间的飞行时间进行计算,便可得到kinect与物体之间的深度距离。
28.优选的,ssd算法具体方法是输入一张300x300x3的图片,图片经过ssd特征提取网络的卷积运算生成一系列特征图,ssd选择其中的6个(conv4-3、cony7、conv8-2、cony9-2、conv10-2、conv11-2)作为有效特征层,6个有效特征层最后可以提取到6个不同尺度的特征图,接下来ssd对特征图进行密集采样,采样时使用不同尺度和长宽比,然后卷积运算获得目标区域位置与类别的预测信息,并将各个特征终获得的信息合并,最后使用非极大值抑制的方法筛选出最终的检测结果。
29.优选的,步骤二中所述dfe算法是随机森林中的每层节点选取相同的决策,则树结构就可以转为结构相对单一的蕨结构,dfe算法以手部周围36x36像素的深度图像作为数据样本,对手势图像进行特征提取,每一个fern均对图像块q中成对的像素灰度值进行计算,
若像素点q比q,的灰度值小,则该点的特征值为1,用u,表示像素点q的邻域,统计q邻域内n维灰度向量:c
″q=ξ(c
nqu(q)
)∈{0,1}k,式中,矩阵c"行向量有(cn)t,
……
,(cnk)t,ξ为赫维赛德函数,c是u(q)的稀疏向量,再对灰度向量进行空间直方图编码fm(c):式中,ψ是离散三角函数,dn是fernn的空间聚合区域,最后使用一个线性分类器应用于n个fern直方图的拼接,得到dfe分类器,下面元素a={wn,cn,dn}nn-1,则分类器:式中,w={w1,
…
,wm}εr
m2k
是由支持向量机对n2k个特征训练得到的权重向量。
30.优选的,所述特征提取采用facenet网络模型。
31.(三)有益效果
32.与现有技术相比,本发明提供了一种智能人机交互系统及其方法,具备以下有益效果:
33.1、该智能人机交互系统及其方法,通过采用计算机输入设备kinect传感器,利用人脸识别技术确认用户身份,同时运用手势识别与语音识别技术,实现用户无需穿戴和接触设备,达到与视频播放器之间智能化、个性化的非接触式交互,从而达到智能控制的效果,并且可以最大限度地提高人与机器之间交互的便利性,通过人脸识别实现自动便捷的系统验证,从而提高个人信息的安全性,通过用户可根据个人意图进行手势和语音交互功能切换,并满足控制交互可靠性,实现手势控制时,排除语音指令的干扰,用户只需要通过简单手势,即可完成对视频播放器常用功能进行控制,如播放、全屏、切换视频等操作。
34.2、该智能人机交互系统及其方法,通过使用kinect传感器获取人脸数据、音频数据、深度数据和骨骼数据,通过对获取的数据进行特征信息处理,构建模型以及识别分析,最后在特定场景下实现实时人机交互。
35.3、该智能人机交互系统及其方法,通过提取手势图像梯度直方图特征和灰度空间直方图特征,使用加权融合支持向量机和集成区分随机蕨算法进行静态手热识别,完成功能选择指令。
36.4、该智能人机交互系统及其方法,通过静态手势完成选择指令后,以当前静态手势作为动作的始末态,获取特定人体关节点的距离和角度特征,构建动态手势特征信息,对特征信息进行马氏距离计算分析,采用模板匹配方法进行识别,从而实现静态和动态手势结合的方式进行交互系统的功能控制。
37.5、该智能人机交互系统及其方法,通过引进微软speechplatformruntimev11的方式,实现中英文双重控制功能,另外,以定义的固定静态手势作为手势控制和语音控制的转换指令,完成语音和手势自然,灵活的人机交互控制转换。
38.6、该智能人机交互系统及其方法,通过基于卷积神经网络ssd的人脸检测器,该人脸检测器是基于深度学习的ssd目标检测算法,ssd算法是继yolo和fasterrcnn之后一种卓越的目标检测算法,对各种角度人脸均可以做到正确检测,具有很强的抗干扰能力。
附图说明
39.图1为本发明系统示意图;
40.图2为本发明结构光法和飞行时间法的示意图;
41.图3为本发明kinect骨骼跟踪算法的示意图;
42.图4为本发明随机机蕨的示意图;
43.图5为本发明ssd模型的示意图;
44.图6为本发明facenet的示意图;
45.图7为本发明三元损失函数的示意图。
具体实施方式
46.下面将结合本发明的实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
47.请参阅图1-7,一种智能人机交互系统,包括kinect体感设备、人脸验证模块、智能控制模块、登录模块和视频播放器,智能控制模块包括语音识别模块和手势识别模块,语音识别模块和手势识别模块可以自由相互切换,登录模块和视频播放器连接有外界设备,智能交互模块提供手势和语音两种交互方式来对视频播放器进行互动操作,两个模块可自由相互切换,按照交互逻辑需求进行融合,将其应用于视频播放器,实现用户非接触式的和能交互,并且在交互过程中给予用户良好的交互体验。
48.并且,智能控制模块与kinect体感设备和视频播放器连接,kinect体感设备含有kinect传感器,kinect传感器用于对人脸图像、音频、深度图像和骨骼图像数据的获取,人脸验证模块含有人脸识别模块,人脸识别模块包括人脸检测模块、特征提取模块和分类识别模块。
49.同时,人脸验证模块与kinect体感设备和登录模块连接,特征提取模块与人脸检测模块和分类识别模块连接,人脸检测模块和特征提取模块采用openvino,openvino对使用的神经网络进行优化部署,从而提高人脸图像处理速度,在人脸识别过程中,结合机器学习与模板匹配算法,对人脸特征向量进行识别,提高了人脸识别准确率,并有效排除对未定义人脸的识别。
50.本发明要解决的是提供一种智能人机交互方法,包括以下步骤:
51.步骤一:kinect传感器对数据的采集,用kinect传感器对人脸图像、音频、深度图像和骨骼图像数据的获取;
52.1)获取深度图像的成像方法采用结构光编码方法和飞行时间法,结构光编码方法是kinect的红外发射器连续不断地发射脉冲信号,脉冲信号会在物体表面形成红外线斑点图,红外接收器会采集物体表面的斑点图,运用物体成像原理形成红外线斑点图,红外接收器会采集物体表面的斑点图,运用物体成像原理形成深度图像,飞行时间法是kinect的红外发射器不断地发射红外光线,到达物体表面后进行反射,深度相机接收反射回来的红外光线,对红外光线发射与接受之间的飞行时间进行计算,便可得到kinect与物体之间的深度距离,飞行时间法能够快速地进行深度信息的计算,而且测量精度不会随测量距离的增加而降低,并且其抗干扰能力较强,不受背景光照的影响;
53.2)获取骨骼图像数据的方法,本质是只需单幅深度图像便可实时且精确地预测人
体骨骼关节的位置坐标,并且不会受到背景因素和光照强度的影响,即使在复杂背景或夜晚的环境下kinect仍然可以实现对人体骨骼关节的跟踪:
54.①
将单个输入的深度图像分割为密集的身体部位标记,并且推断出骨骼附近感兴趣区域的关节;
55.②
将推断出的部分重新投射到世界坐标空间中,生成每个骨骼关节的三维位置坐标;
56.③
kinect传感器对获取的深度数据进行分析并提取特征向量,将其送至随机决策森林进行人体各部位的分类,骨骼关节分类和预测使用机器学习中的随机森林;
57.④
利用随机决策森林对深度图像中提取的特征进行训练学习,经训练后师可以对深度图像中每个像素进行判断,确定是否属于身体骨骼关节,并实时更新骨骼关节点的三维坐标信息,算法实现在kinect运行处于5毫秒/帧,比现有方法快一个数量级;
58.步骤二:将数据传输给人脸识别模块或者智能交互模块,人脸识别模块进行人脸检测时采用ssd算法,利用卷积神经网络来进行检测,将vgg16作为ssd模型的主干网络,并在此基础上增加若千个不同的卷积层,卷积层的主要目的是获取更多的特征图用于目标检测,ssd算法具体方法是输入一张300x300x3的图片,图片经过ssd特征提取网络的卷积运算生成一系列特征图,ssd选择其中的6个(conv4-3、cony7、conv8-2、cony9-2、conv10-2、conv11-2)作为有效特征层,6个有效特征层最后可以提取到6个不同尺度的特征图,接下来ssd对特征图进行密集采样,采样时使用不同尺度和长宽比,然后卷积运算获得目标区域位置与类别的预测信息,并将各个特征终获得的信息合并,最后使用非极大值抑制的方法筛选出最终的检测结果。
59.并且,智能交互模块进行交互切换采用dfe算法,kinect为了实现用户通过简单的手势与计算机进行控制交互,通过单顺手部图像进行解决手部姿势分类问题,主要任务是识别张开、闭合和半闭合三种不同的手部状态,dfe算法是随机森林中的每层节点选取相同的决策,则树结构就可以转为结构相对单一的蕨结构,dfe算法以手部周围36x36像素的深度图像作为数据样本,对手势图像进行特征提取,每一个fern均对图像块q中成对的像素灰度值进行计算,若像素点q比q,的灰度值小,则该点的特征值为1,用u,表示像素点q的邻域,统计q邻域内n维灰度向量:c
″q=ξ(cnq
u(q)
)∈{0,1}k,式中,矩阵c"行向量有(cn)t,
……
,(cnk)t,ξ为赫维赛德函数,c是u(q)的稀疏向量,再对灰度向量进行空间直方图编码fm(c):式中,ψ是离散三角函数,dn是fernn的空间聚合区域,最后使用一个线性分类器应用于n个fern直方图的拼接,得到dfe分类器,下面元素a={wn,cn,dn}nn-1,则分类器:式中,w={w1,
…
,wm}εr
m2k
是由支持向量机对n2k个特征训练得到的权重向量,驱使外界设备以完成整个交互过程。
60.其中,特征提取采用facenet网络模型,人脸终像批量输入层是人脸图像样本通过面部检测并裁剪为160x160的图像,作为facenet的输入,facenet的深度学习框架采用googlenet模型,facenet模型在传统卷积神经网络基础上加入了多个inception结构,在此基础上进行优化,并将googlenet的softmax分类器去掉,替换成一个l2特征归一化的嵌入层,经过l2的归一化后,得到人脸的特征向量,然后用三元损失函数的方法对得到的人脸特
征向量进行计算分析,再对整个网络模型进行端到端的训练优化,优化完成后,会更新人脸特征向量,此时便得到facenet模型的128维人脸特征向量。
61.另外,facenet力求嵌入f(x),将人脸图像x映射到特征空间rd中,即f(x)εrd,通过||f(x)||2=1限制d维超平面,使用三元损失函数基于最大间隔近邻分类训练输出128位连续向量来表示人脸。
62.本发明的有益效果是:
63.该智能人机交互系统及其方法,通过采用计算机输入设备kinect传感器,利用人脸识别技术确认用户身份,同时运用手势识别与语音识别技术,实现用户无需穿戴和接触设备,达到与视频播放器之间智能化、个性化的非接触式交互,从而达到智能控制的效果,并且可以最大限度地提高人与机器之间交互的便利性,通过人脸识别实现自动便捷的系统验证,从而提高个人信息的安全性,通过用户可根据个人意图进行手势和语音交互功能切换,并满足控制交互可靠性,实现手势控制时,排除语音指令的干扰,用户只需要通过简单手势,即可完成对视频播放器常用功能进行控制,如播放、全屏、切换视频等操作。
64.并且,通过使用kinect传感器获取人脸数据、音频数据、深度数据和骨骼数据,通过对获取的数据进行特征信息处理,构建模型以及识别分析,最后在特定场景下实现实时人机交互。
65.同时,通过提取手势图像梯度直方图特征和灰度空间直方图特征,使用加权融合支持向量机和集成区分随机蕨算法进行静态手热识别,完成功能选择指令。
66.还有,通过静态手势完成选择指令后,以当前静态手势作为动作的始末态,获取特定人体关节点的距离和角度特征,构建动态手势特征信息,对特征信息进行马氏距离计算分析,采用模板匹配方法进行识别,从而实现静态和动态手势结合的方式进行交互系统的功能控制。
67.具体通过引进微软speechplatformruntimev11的方式,实现中英文双重控制功能,另外,以定义的固定静态手势作为手势控制和语音控制的转换指令,完成语音和手势自然,灵活的人机交互控制转换。
68.另外,通过基于卷积神经网络ssd的人脸检测器,该人脸检测器是基于深度学习的ssd目标检测算法,ssd算法是继yolo和fasterrcnn之后一种卓越的目标检测算法,对各种角度人脸均可以做到正确检测,具有很强的抗干扰能力。
69.尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
技术特征:
1.一种智能人机交互系统,其特征在于,包括kinect体感设备、人脸验证模块、智能控制模块、登录模块和视频播放器,所述kinect体感设备含有kinect传感器,所述kinect传感器用于对人脸图像、音频、深度图像和骨骼图像数据的获取,所述人脸验证模块含有人脸识别模块,所述人脸识别模块包括人脸检测模块、特征提取模块和分类识别模块。2.根据权利要求1所述的一种智能人机交互系统,其特征在于,所述人脸验证模块与kinect体感设备和登录模块连接,所述智能控制模块与kinect体感设备和视频播放器连接,所述特征提取模块与人脸检测模块和分类识别模块连接,所述登录模块和视频播放器连接有外界设备。3.根据权利要求1所述的一种智能人机交互系统,其特征在于,所述智能控制模块包括语音识别模块和手势识别模块,所述语音识别模块和手势识别模块可以自由相互切换。4.根据权利要求1所述的一种智能人机交互系统,其特征在于,所述人脸检测模块和特征提取模块采用openvino,所述openvino对使用的神经网络进行优化部署。5.采用权利要求1-4任意一项所述一种智能人机交互系统的方法,其特征在于,包括以下步骤:步骤一:kinect传感器对数据的采集,用kinect传感器对人脸图像、音频、深度图像和骨骼图像数据的获取;1)获取深度图像的成像方法采用结构光编码方法和飞行时间法;2)获取骨骼图像数据的方法:
①
将单个输入的深度图像分割为密集的身体部位标记,并且推断出骨骼附近感兴趣区域的关节;
②
将推断出的部分重新投射到世界坐标空间中,生成每个骨骼关节的三维位置坐标;
③
kinect传感器对获取的深度数据进行分析并提取特征向量,将其送至随机决策森林进行人体各部位的分类,骨骼关节分类和预测使用机器学习中的随机森林;
④
利用随机决策森林对深度图像中提取的特征进行训练学习,经训练后师可以对深度图像中每个像素进行判断,确定是否属于身体骨骼关节,并实时更新骨骼关节点的三维坐标信息;步骤二:将数据传输给人脸识别模块或者智能交互模块,人脸识别模块进行人脸检测时采用ssd算法,利用卷积神经网络来进行检测,将vgg16作为ssd模型的主干网络,并在此基础上增加若千个不同的卷积层,卷积层的主要目的是获取更多的特征图用于目标检测,智能交互模块进行交互切换采用dfe算法,驱使外界设备以完成整个交互过程。6.根据权利要求5所述的一种智能人机交互方法,其特征在于,步骤一中所述的结构光编码方法,包括以下步骤:步骤一:kinect的红外发射器连续不断地发射脉冲信号,脉冲信号会在物体表面形成红外线斑点图;步骤二:红外接收器会采集物体表面的斑点图,运用物体成像原理形成红外线斑点图;步骤三:红外接收器会采集物体表面的斑点图,运用物体成像原理形成深度图像。7.根据权利要求5所述的一种智能人机交互方法,其特征在于,步骤一中所述的飞行时间法,包括以下步骤:步骤一:kinect的红外发射器不断地发射红外光线;
步骤二;到达物体表面后进行反射,深度相机接收反射回来的红外光线;步骤三:对红外光线发射与接受之间的飞行时间进行计算,便可得到kinect与物体之间的深度距离。8.根据权利要求5所述的一种智能人机交互方法,其特征在于,ssd算法具体方法是输入一张300x300x3的图片,图片经过ssd特征提取网络的卷积运算生成一系列特征图,ssd选择其中的6个(conv4-3、cony7、conv8-2、cony9-2、conv10-2、conv11-2)作为有效特征层,6个有效特征层最后可以提取到6个不同尺度的特征图,接下来ssd对特征图进行密集采样,采样时使用不同尺度和长宽比,然后卷积运算获得目标区域位置与类别的预测信息,并将各个特征终获得的信息合并,最后使用非极大值抑制的方法筛选出最终的检测结果。9.根据权利要求5所述的一种智能人机交互方法,其特征在于,步骤二中所述dfe算法是随机森林中的每层节点选取相同的决策,则树结构就可以转为结构相对单一的蕨结构,dfe算法以手部周围36x36像素的深度图像作为数据样本,对手势图像进行特征提取,每一个fern均对图像块q中成对的像素灰度值进行计算,若像素点q比q,的灰度值小,则该点的特征值为1。用u,表示像素点q的邻域,统计q邻域内n维灰度向量:c
″
q
=ξ(c
n
q
u(q)
∈{0,1}
k
,式中,矩阵c"行向量有(c
n
)t,
……
,(c
n
k)t,ξ为赫维赛德函数,c是u(q)的稀疏向量,再对灰度向量进行空间直方图编码f
m
(c):式中,ψ是离散三角函数,dn是fernn的空间聚合区域,最后使用一个线性分类器应用于n个fern直方图的拼接,得到dfe分类器,下面元素a={wn,cn,dn}nn-1,则分类器:式中,w={w1,
…
,w
m
}εr
m2k
是由支持向量机对n2
k
个特征训练得到的权重向量。10.根据权利要求9所述的一种智能人机交互方法,其特征在于,所述特征提取采用facenet网络模型。
技术总结
本发明涉及人机交互技术领域,且公开了一种智能人机交互系统,包括Kinect体感设备、人脸验证模块、智能控制模块、登录模块和视频播放器,所述Kinect体感设备含有Kinect传感器,所述Kinect传感器用于对人脸图像、音频、深度图像和骨骼图像数据的获取,所述人脸验证模块含有人脸识别模块。该智能人机交互系统及其方法,通过采用计算机输入设备Kinect传感器,利用人脸识别技术确认用户身份,同时运用手势识别与语音识别技术,实现用户无需穿戴和接触设备,达到与视频播放器之间智能化、个性化的非接触式交互,从而达到智能控制的效果,并且可以最大限度地提高人与机器之间交互的便利性,通过人脸识别实现自动便捷的系统验证,从而提高个人信息的安全性。高个人信息的安全性。高个人信息的安全性。
技术研发人员:沈易娟 徐艳玲 祝娅婷 贺霄娟 李峥 钱枫
受保护的技术使用者:武昌理工学院
技术研发日:2023.05.08
技术公布日:2023/7/25
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种水稻有效穂快速检测器及使用方法 下一篇:一种清洁拖把的制作方法
