一种基于TED-Net的非接触人-物交互检测方法

未命名 08-13 阅读:225 评论:0

一种基于ted-net的非接触人-物交互检测方法
技术领域
1.本发明属于人-物交互检测技术领域,涉及人机交互、人工智能领域,具体涉及一种基于ted-net的非接触人-物交互检测方法。


背景技术:

2.人物交互检测(human object interaction,hoi)除检测输入图像中人和物体的位置,还需判断二者的交互类型,最后输出一系列的三元组(《human,object,interaction》)。hoi是计算机视觉领域新兴的方向,它在图像高级语义信息理解中起着重要的作用,具体涉及到人机交互领域、人工智能领域,并可广泛应用于视频监控、智能车舱、智慧城市等诸多场景,亦可以支撑更高层级的视觉内容处理。
3.基于神经网络的hoi主要分为两阶段检测和一阶段检测。两阶段方法将hoi任务分为两个阶段:人-物检测和交互判别。chao等人基于coco数据集构建了一个新的hoi检测数据集(hico-det),然后设计了一个标准的两阶段hoi网络,即ho-rcnn。ho-rcnn率先使用现成的检测器来生成与人-物对相关的边界框。另一方面,fcm-net、pdnet、gtnet和consnet利用文本信息进一步提高检测性能。xu等人(kunlun xu,zhimin li,zhijun zhang,leizhen dong,wen-hui xu,luxin yan,sheng zhong,and xu zou.effective actor-centric human-object interaction detection.image and vision computing,121:104422,2022.)设计了一个以人为中心的交互式推理框架,以充分利用实例的上下文信息。gpnn分别利用节点和边来识别实例和交互,并提出对应邻接矩阵来构建关系结构。sg2hoi中嵌入了场景图信息作为重要的上下文线索,以进一步提升人-物交互网络建模能力。两阶段模型相对简单且易于理解,但其在交互判别阶段,会将第一阶段所检测出的人和物体进行一一配对,所以运行速度较慢且效率较低。
4.不同于两阶段方法,单阶段方法直接输出图像中存在的人-物交互三元组。ppdm将人和物的中点看做关系中心点,重新定义了人-物交互关系三元组,并通过关系匹配来从关系点出发预测配对信息,在提升速度的同时也提升了检测精度。基于查询的transformer被应用于hoi检测,如hoitrans和qpic,它们通过查询嵌入来查询感兴趣的区域,以获得解码器的输出。然而,上述方法都忽略了不同尺度上实例的位置和大小,qahoi则使用可变形transformer来提取不同尺度的特征,并结合锚点提高了检测性能。
5.目前,现有的hoi模型主要集中检测人和物相应的边界框,而忽略了人-物周围的信息,因此导致了实例交互的不精确推断,使用现有技术对非接触交互图像(iou=0)进行人物关系解析至今仍然是一个具有挑战的问题。


技术实现要素:

6.本发明的目的在于提出一种基于ted-net的非接触人-物交互检测方法,该方法对人、物和实例交互类型分别进行解码,最后解耦实例之间的交互关系,同时,还提出了一种额外的辅助机制来提高实例交互解码流的识别能力,三流增强型编码器-解码器分散网络
(ted-net)可以关注先前检测技术忽略的人-物内部以及外部的信息,利用这些额外的信息有效地对图像中的对象进行关系建模。
7.本发明至少通过如下技术方案之一实现。
8.一种基于ted-net的非接触人-物交互检测方法,包括以下步骤:
9.a、对输入的人物交互图像进行数据增强;
10.b、将数据增强后的图像输入到卷积神经网络中,通过卷积神经网络进行视觉特征提取,获取人-物视觉特征;
11.c、通过图像压缩将人-物视觉特征进行压缩获取特征图的压缩特征;
12.d、通过编码器对压缩后的特征图进一步编码,获取基于编码器的全局特征编码;
13.e、通过查询矩阵获取三个查询向量分别表示人、物、交互关系,引入配对信息;
14.f、融合编码后的特征构建三流解码器获取人的位置信息、物的位置信息及物体类别、交互类别,实现人物交互检测。
15.进一步地,卷积神经网络是在目标检测数据集上预训练好的resnet-50,得到的特征图为其中,表示矩阵维度,hr、wr、cr分别表示图像的高、宽、通道数。
16.进一步地,所述resnet-50包括7
×
7的卷积核、3
×
3的池化层以及四个残差组构成的特征提取的骨干网络,其中第一个残差组共有3个残差块,每个残差块有3层分别为1
×1×
64的卷积核、3
×3×
64的卷积核、1
×1×
256的卷积核;第二个残差组共有4个残差块,每个残差块有3层分别是1
×1×
128的卷积核、3
×3×
128的卷积核、1
×1×
512的卷积核;第三个残差组共有6个残差块,每个残差块有3层分别是1
×1×
256的卷积核、3
×3×
256的卷积核、1
×1×
1024的卷积核,;第四个残差组共有3个残差块,每个残差块有3层分别是1
×1×
512的卷积核、3
×3×
512的卷积核、1
×1×
2048的卷积核。
17.进一步地,编码器encoder包括n个子编码器层堆叠而成,每个子编码器层分别包括两个子层,第一个子层包括多头注意力层和规范化层,第二个子层包括前馈神经网络层和规范化层。
18.进一步地,所述多头注意力层使用一组线性变化层对向量进行线性变换和多头注意力计算,得到上下文信息。
19.进一步地,所述规范化层对向量进行数值的规范化。
20.进一步地,所述前馈神经网络层包括全连接层和激活函数。
21.进一步地,步骤e中,所述查询矩阵生成三个查询矩阵,分别代表人、物体和交互,将人物查询、对象查询、交互查询一一配对。
22.进一步地,所述的三流解码器包括交互解码器和采用dispersal decoder架构的人物分散解码器、物体分散解码器,其中人物分散解码器与物体分散解码器的输入不同;
23.所述dispersal decoder为双路设计,上路负责预测人-物框,关注边框信息;下路负责关注人-物的自身以及外部信息并送入到交互解码器中。
24.进一步地,所述交互解码器共有三个输入:查询向量qa、人物分散解码器和物体分散解码器的输出之和ho以及编码器编码后的全局特征编码xe,交互解码器使用额外辅助机制辅助判断人-物交互类别;
25.所述额外辅助机制利用人-物之间的相对位置、人-物框的交互比、人-物框的面积比信息辅助判断人-物的交互类别。
26.与现有的技术相比,本发明的有益效果为:
27.1)对于现有的hoi模型主要集中检测人-物边界框,导致的不准确的交互类别判断的问题,本发明提出基于三流增强型编码器-解码器分散网络(ted-net),用于更好地解耦人物关系,捕捉人-物周围的非接触交互信息。
28.2)本发明的auxiliary discrimination mechanism利用human dispersal decoder和object dispersal decoder预测的知识辅助交互类别任务的输出,实验结果表明,本发明显著优于现有的检测模型,进一步提高了现有模型的检测性能(map),且更加适用于人机产品上。
附图说明
29.图1为本发明实施例基于ted-net的非接触人-物交互检测方法的整体网络框架图;
30.图2为本发明实施例的encoder架构图;
31.图3为本发明实施例的dispersal decoder架构图;
32.图4为本发明实施例的interaction decoder架构图;
33.图5为本发明实施例中的hoi实例交互图。
具体实施方式
34.为更清楚地解释本发明的目的,技术方案和优点,以下将结合附图对本发明进行进一步详细说明。
35.本实施例的一种基于ted-net的非接触人-物交互检测方法,包括以下6个步骤:
36.步骤1、对输入的人物交互图像进行数据增强;
37.所述步骤1中的数据增强包括:将输入图像进行随机翻转,随机调整图像的亮度、对比对、饱和度和色调,随机调整大小、随机裁剪、归一化等操作。
38.步骤2、将步骤1的结果图像输入到卷积神经网络中,通过卷积神经网络进行视觉特征提取,获取人-物视觉特征;
39.所述的卷积神经网络可由残差网络(resnet)构成。遵循基于resnet的检测器,使用预训练好的resnet-50作为特征提取器,如图1中的骨干网络(backbone)。给定输入图像50作为特征提取器,如图1中的骨干网络(backbone)。给定输入图像其中hi、wi、ci分别表示输入图像的高度、宽度和通道,经过resnet-50提取后获得特征图resnet-50通过多层卷积进行了32倍下采样并获得输出通道为2048的特征图,此时,hr=1/32hi,wr=1/32wi,cr=2048。
40.作为一种优选的实施例,所述resnet-50具体参数设置由表1所示,包括一个7
×
7的卷积核、一个3
×
3的卷积核以及4个残差组构成的特征提取的骨干网络。其中第一个残差组共有3个残差块,每个残差块有3层分别是1
×1×
64的卷积核、3
×3×
64的卷积核、1
×1×
256的卷积核,共9层;第二个残差组共有4个残差块,每个残差块有3层分别是1
×1×
128的卷积核、3
×3×
128的卷积核、1
×1×
512的卷积核,共12层;第三个残差组共有6个残差块,每个残差块有3层分别是1
×1×
256的卷积核、3
×3×
256的卷积核、1
×1×
1024的卷积核,共18层;第四个残差组共有3个残差块,每个残差块有3层分别是1
×1×
512的卷积核、3
×3×
512的卷积核、1
×1×
2048的卷积核,共9层。
41.表1 resnet-50参数设置
[0042][0043][0044]
步骤3、通过图像压缩技术将步骤2的结果进行压缩获取特征图的压缩特征;
[0045]
所述图像压缩技术是指使用1
×
1卷积来对特征图的通道进行压缩以减少内存占用,压缩后的得到此时cc=256。
[0046]
步骤4、通过编码器(encoder)对压缩后的特征图fc(x)进一步编码,获取基于encoder的全局特征编码xe;
[0047]
如图2所示,所述编码器encoder架构与基于自注意力模型的目标检测(nicolas carion,francisco massa,gabriel synnaeve,nicolas usunier,alexander kirillov,and sergey zagoruyko.end-to-end object detection with transformers.in proceedings of the european conference on computer vision(eccv),pages 213

229.springer,2020.)中用到的架构相同,其由结构完全相同的n个子编码器层堆叠而成(,作为一种优选的实施例,n取6),每个子编码器层分别由两个子层构成,第一个子层由多头注意力层(multi-head self-attention)和规范化层(add&normalize)组成,第二个子层包括前馈神经网络层(feed forward network)和规范化层(add&normalize)。
[0048]
所述的multi-head self-attention使用一组线性变化层对向量(token)进行线性变换和多头注意力计算,得到丰富的上下文信息。feed forward network由全连接层和激活函数组成。add&normalize对向量进行数值的规范化,使其特征数值在合理范围内,避免通过多层计算后的参数可能出现过大或过小的情况。
[0049]
步骤4的具体编码过程为:将压缩后的特征图fc(x)在像素级上进行展开获得序列(x)在像素级上进行展开获得序列其中hr、wr、cc表示图像的高度、宽度以及通道数;xe表示由hr×
wr个长度为cc的向量组成;接着将xe与送入encoder中,用公式(1)描述:
[0050]
xe=encoder(xe,pe),
ꢀꢀꢀꢀ
(1)
[0051]
式中的pe表示位置嵌入编码向量(positional encoding),此时xe表示合并完位置
向量后的词向量(token)。
[0052]
在上述公式(1)中,encoder为进一步学习多重含义表述,首先将输入向量(token)乘以wq、wk、wv接着进行线性映射,最后获得三个矩阵q、k、v,由公式(2)-(4)表示:
[0053]
q=liner((xe,pe)*wq),
ꢀꢀꢀꢀ
(2)
[0054]
k=liner((xe,pe)*wk),
ꢀꢀꢀꢀ
(3)
[0055]
v=liner(xe*wv),
ꢀꢀꢀꢀ
(4)
[0056]
公式中的wq、wk、wv、表示查询q、键k、值v的三个空间变化矩阵。
[0057]
接着进行注意力计算,输出注意力特征图a,a计算公式如下:
[0058][0059]
式中qk
t
表示注意力矩阵,dk表示k向量的维度,这样可以使得训练过程中具有更稳定的梯度,softmax用以激活注意力矩阵,然后使用注意力矩阵给v加权,使得之后的结果更加稳定。
[0060]
进一步地,通过连接注意力特征图a与序列xe,并将结果送入规范化层,得到归一化数值,以起到防止梯度消失、加快训练速度、加速收敛的作用,具体由公式(6)-(7)表示。之后,在前馈神经网络中(feed forward network),通过激活函数对token进行激活,见公式(8),activate表示激活函数,例如relu。最后,先前规范化层的之后的结果(公式(7)的结果)会与feed forward network中的结果(公式(8)的结果)相加,继续送入规范化层。
[0061]
a=a+xe,
ꢀꢀꢀꢀ
(6)
[0062]
a=layernorm(a),
ꢀꢀꢀꢀ
(7)
[0063]
a=activate(liner(a)).
ꢀꢀꢀꢀ
(8)
[0064]
步骤5、通过公共的查询矩阵(query)获取三个查询向量分别表示“人”,“物”,“交互关系”,引入配对信息;
[0065]
所述公共查询矩阵是指query,三流解码器需要三个查询向量q来分别表示人、物体以及交互,并且也需要将人物查询、物体查询、交互查询一一配对。
[0066]
具体地说,三流增强型编解码分散网络(triple stream enhanced encoder-decoder dispersal network,ted-net)生成了三个查询矩阵,分别代表人、物体和交互,具体为:
[0067]qs
=query
×ws
,s∈h,o,a,
ꢀꢀꢀꢀ
(9)
[0068]
query表示初始生成的查询矩阵,ws表示查询变换矩阵,s的取值范围为(h,o,a),其中h,o,a分别表示人、物体以及交互,表示人物查询矩阵,表示物体查询矩阵,表示交互查询矩阵。上述nq表示查询向量的数量,cq表示查询向量的维度,此时ted-net可以同时预测出nq个人、物以及交互类别,即nq个hoi关系对。
[0069]
步骤6、融合编码后的特征构建三流解码器获取人的位置信息、物的位置信息及物体类别、交互类别,实现人物交互检测。
[0070]
如图1所示,步骤6中所述的三流解码包括人物分散解码器(human dispersal decoder)、物体分散解码器(object dispersal decoder)和交互解码器(interaction decoder),其中,human dispersal decoder和object dispersal decoder都采用
dispersal decoder架构,但输入不同。
[0071]
作为一种优选的实施例,如图3所示,所述的dispersal decoder为了让网络注意关注人-物的内部以及外部信息,遵从双路设计,上路负责预测人-物框,主要关注边框信息;下路负责关注人-物的内部以及外部信息并送入到interaction decoder中。
[0072]
具体地说,dispersal decoder由双分支扩散解码器组成旨在增强对实例周围信息的关注,dispersal decoder的上分支专注于人-物边界信息,以检测人体-物体的边界框,而下分支则覆盖人-物周围信息,用于人体-物体交互检测。为了便于阅读,图3中的b

和b

分别表示上分支与下分支。
[0073]
以human dispersal decoder为例说明,在dispersal decoder上路b

中,注意力特征图a

由公式(5)生成,然后输出b

,但是,此时上路仅仅关注的是人物框的位置信息,为了让网络关注人-物周围以及内部的信息,对上路的softmax前的特征图进行分散操作;
[0074]
所述分散操作是指:在下路中首先用激活函数将上路所产生的特征图ai(i=0,1,

,nq)激活,使原始特征图不重要的部分变为0;其次,将二维高斯分布)激活,使原始特征图不重要的部分变为0;其次,将二维高斯分布构建的卷积核作用于下路所产生的特征图ai,其中n表示卷积核大小,以扩大区域面积,高斯核中μ1=0,μ2=0,ρ=0,具体见公式(10):
[0075][0076]
其中表示正态(高斯)分布,μ1和μ2分别表示二维高斯分布的均值,σ1和σ2分别表示二维高斯分布的标准差,ρ表示相关系数,表示生成的高斯核,x和y表示坐标索引。
[0077]
此外,使用公式(11)进行额外的归一化操作,从而保证之后的特征值不易过大。
[0078][0079]
其中,a
ij
表示特征图a中的像素值,h和w分别表示输入特征图的高和宽。这样,我们就得到了扩散后的特征图ai,继而得到b

,此时的特征图不仅关注了人物框的位置信息,还关注了人物内部以及外部的信息,弥补先前网络的不足。接着,b

会作为人-物交互的关键信息送入到interaction decoder中进一步判断人-物交互类别。
[0080]
如图4所示,所述interaction decoder共有三个输入:查询向量qa、human dispersal decoder和object dispersal decoder的输出之和ho以及encoder编码后的特征图xe,ho由公式(12)计算,其中,+表示二者对应元素相加,最后,利用额外辅助机制(auxiliary discrimination mechanism)决策人-物交互类别:
[0081][0082]
式中hd表示human dispersal decoder的结果,od表示object dispersal decoder的输出结果。
[0083]
以上所述的auxiliary discrimination mechanism考虑如下两个交互样例:《人骑车》和《人扔飞盘》,如图5所示。前者《人骑车》描述的交互信息“人在车的上方”,此时人和车的交互比(iou)大于0。《人扔飞盘》,此时人和飞盘iou=0,因此,对于女孩和飞盘之间没
有直接接触的后者,且人框面积要大于飞盘的面积。所以,auxiliary discrimination mechanism利用人-物之间的相对位置、人-物框的交互比、人-物框的面积比等信息用于辅助判断人-物的交互类别。
[0084]
具体地,所述的auxiliary discrimination mechanism计算过程如下:
[0085]
human dispersal decoder的输出为:
[0086][0087]
其中分别表示人物检测框的中心点坐标,分别表示人物检测框的高和宽。
[0088]
object dispersal decoder的输出定义和其中o
box
表示物体检测框,和表示物体检测框的中心坐标,和表示物体检测框的高和宽,o
score
表示每一个类别的预测分数,no+1表示物体类别数(其中有一类表示背景类)。
[0089]
具体地,相对位置r
p
、物体到人的方向d
o,h
、人-物体边界框的iou
h,o
、人-物体边界框的面积比area
ratio
以及物体类别信息o
class
分别由公式(14)-(18)计算:
[0090][0091][0092][0093]oclass
=one_hot(o
score
).
ꢀꢀꢀꢀ
(18)
[0094]
式中ε表示一个非常小的值,保证分母不为0,one_hot(o
score
)表示对o
score
进行独热编码。
[0095]
为得到最优网络模型,采用匈牙利算法为每个真实标签分配唯一的预测,从而使网络输入与真实标签相对应,计算公式见(19)-(20):
[0096][0097][0098]
公式(19)中g表示真实标签(groud truth),为网络预测的交互关系对,gi表示第i个真实标签,表示网络的第i个预测。公式(20)中p、q、r分别表示分类、回归、交并比的候
选场景,h、o、a分别表示人、物以及动作,表示分类损失,表示位置框的回归损失,表示人物边界框的iou损失;此外,β1、β2、β3、α
p
、αq、αr均为匹配损失的超参数(可自行设置),用以平衡各损失。在匹配完成后,使用公式(21)计算整体损失:
[0099][0100]
式中表示模型的蒸馏损失。
[0101]
为了进一步验证本发明的技术效果,以及弥补当前市场非接触交互数据集的空缺,本发明从现有的hico-det和v-coco数据集中挑选了人和物体没有接触的图像,组成了hico-det-nc和v-coco-nc两个数据集(非接触实例之间进行交互iou=0),以展示ted-net的实用性和有效性。
[0102]
基于基准数据集hico-det和v-coco将本发明与先前的技术进行了对比。hico-det共有47776个图像(38118个图像用于训练,9658个图像用于测试),v-coco包含来自coo数据集的10326幅图像,包括5400个训练图像和4964个测试图像。另外,分别以hico-det和v-coco数据集为基础,构建了两个非接触数据集并命名为hico-det-nt和v-coco-nt。
[0103]
平均精度(map)作为评估指标。当满足以下条件时,hoi三元组预测的结果正确:1)预测的人和物体边界框的iou》0.5;2)预测的类别是正确的。对于v-coco数据集,有两个map指标:s1用于包括4个身体动作在内的29个动作类别,s2用于25个动作类别而不包括无物体hoi类别。
[0104]
表2本发明在hico-det数据集上与其他算法的对比结果
[0105]
[0106][0107]
表3本发明在vcoco数据集上与其他算法的对比结果
[0108]
[0109][0110]
表4本发明在hico-det-nc数据集上与其他算法的对比结果
[0111][0112]
表5本发明在v-coco-nc数据集上与其他算法的对比结果
[0113][0114]
表2-5显示了本发明方法与其他方法的对比结果。由表中可以看出,本发明方法(ted-net)相比其他方法与真实标签更为接近,可见本发明方法要优于其他方法。
[0115]
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

技术特征:
1.一种基于ted-net的非接触人-物交互检测方法,其特征是,包括以下步骤:a、对输入的人物交互图像进行数据增强;b、将数据增强后的图像输入到卷积神经网络中,通过卷积神经网络进行视觉特征提取,获取人-物视觉特征;c、通过图像压缩将人-物视觉特征进行压缩获取特征图的压缩特征;d、通过编码器对压缩后的特征图进一步编码,获取基于编码器的全局特征编码;e、通过查询矩阵获取三个查询向量分别表示人、物、交互关系,引入配对信息;f、融合编码后的特征构建三流解码器获取人的位置信息、物的位置信息及物体类别、交互类别,实现人物交互检测。2.根据权利要求1所述的基于ted-net的非接触人-物交互检测方法,其特征是,卷积神经网络是在目标检测数据集上预训练好的resnet-50,得到的特征图为其中,表示矩阵维度,h
r
、w
r
、c
r
分别表示图像的高、宽、通道数。3.根据权利要求2所述的基于ted-net的非接触人-物交互检测方法,其特征是,所述resnet-50包括7
×
7的卷积核、3
×
3的池化层以及四个残差组构成的特征提取的骨干网络,其中第一个残差组共有3个残差块,每个残差块有3层分别为1
×1×
64的卷积核、3
×3×
64的卷积核、1
×1×
256的卷积核;第二个残差组共有4个残差块,每个残差块有3层分别是1
×1×
128的卷积核、3
×3×
128的卷积核、1
×1×
512的卷积核;第三个残差组共有6个残差块,每个残差块有3层分别是1
×1×
256的卷积核、3
×3×
256的卷积核、1
×1×
1024的卷积核,;第四个残差组共有3个残差块,每个残差块有3层分别是1
×1×
512的卷积核、3
×3×
512的卷积核、1
×1×
2048的卷积核。4.根据权利要求1所述的基于ted-net的非接触人-物交互检测方法,其特征是,编码器encoder包括n个子编码器层堆叠而成,每个子编码器层分别包括两个子层,第一个子层包括多头注意力层和规范化层,第二个子层包括前馈神经网络层和规范化层。5.根据权利要求4所述的基于ted-net的非接触人-物交互检测方法,其特征是,所述多头注意力层使用一组线性变化层对向量进行线性变换和多头注意力计算,得到上下文信息。6.根据权利要求4所述的基于ted-net的非接触人-物交互检测方法,其特征是,所述规范化层对向量进行数值的规范化。7.根据权利要求4所述的基于ted-net的非接触人-物交互检测方法,其特征是,所述前馈神经网络层包括全连接层和激活函数。8.根据权利要求1所述的基于ted-net的非接触人-物交互检测方法,其特征是,步骤e中,所述查询矩阵生成三个查询矩阵,分别代表人、物体和交互,将人物查询、对象查询、交互查询一一配对。9.根据权利要求1~8任一项所述的基于ted-net的非接触人-物交互检测方法,其特征是,所述的三流解码器包括交互解码器和采用dispersal decoder架构的人物分散解码器、物体分散解码器,其中人物分散解码器与物体分散解码器的输入不同;所述dispersal decoder为双路设计,上路负责预测人-物框,关注边框信息;下路负责关注人-物的自身以及外部信息并送入到交互解码器中。
10.根据权利要求9所述的基于ted-net的非接触人-物交互检测方法,其特征是,所述交互解码器共有三个输入:查询向量q
a
、人物分散解码器和物体分散解码器的输出之和h
o
以及编码器编码后的全局特征编码x
e
,交互解码器使用额外辅助机制辅助判断人-物交互类别;所述额外辅助机制利用人-物之间的相对位置、人-物框的交互比、人-物框的面积比信息辅助判断人-物的交互类别。

技术总结
本发明公开了一种基于TED-Net的非接触人-物交互检测方法,包括以下步骤:对输入图像进行数据增强;通过卷积神经网络进行视觉特征提取,获取人-物视觉特征;通过图像压缩技术获取特征图的压缩特征;获取基于编码器的全局特征编码;通过公共的查询矩阵获取三个查询向量分别表示人、物、交互关系,引入配对信息;融合编码后的特征构建三流解码器获取人的位置信息、物的位置信息及物体类别、交互类别,实现人物交互检测。本发明利用人-物细粒度特征关注人-物周围环境提供的有效信息,捕获非接触交互信息,在人物交互检测问题上,进一步提高了人物交互检测的精度。人物交互检测的精度。人物交互检测的精度。


技术研发人员:刘琦 王煜骁 林锦濠 邢晓芬 雷玉 徐向民
受保护的技术使用者:华南理工大学
技术研发日:2023.04.10
技术公布日:2023/8/9
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐