一种餐馆场景下的人物交互行为识别方法及安全监控系统

未命名 07-18 阅读：226 评论：0

1.本发明公开了一种餐馆场景下的人物交互行为识别方法及安全监控系统，属于视频分析
技术领域：
：。
背景技术：
：：2.当前，社会上在公共场所尤其是一些餐馆有时会发生一些恶劣的寻衅滋事、暴力打人事件，导致就餐安全得不到保障，向人们发出来公共场合的安全警示。因此，建立一种餐馆场景下人物交互行为识别方法及安全监控系统，创建一个安全良好的餐馆用餐环境，从而实时对餐馆中的顾客和工作人员的行为进行监督与报警是非常重要且必须的。3.目前国内外现有的很多行为识别方法的研究更多聚焦单人和多人行为、单帧和多帧图像行为。根据所使用的数据集的不同和输入的数据类型不同，目前主流的交互行为识别方法可以分为：基于可见光（rgb）信息和基于深度（rgb-d）信息两类；而根据输入图像的数据类型不同，目前主流的交互行为识别方法可以分为：基于单帧的图像（rgb）交互行为动作识别和基于多帧（rgb-t）的连续交互行为动作识别两类；并且根据识别人体部位的不同识别方法也可以分为：基于人物躯干状态的交互动作识别和各肢体行为语义的交互行为识别两类。而这些方法都需要大量的预训练处理和昂贵的gpu消耗，所得到的模型仅针对一般交互行为的识别能达到一定的准确性，在实际场景下的识别鲁棒性非常不足。4.但是在实际场景中的使用，既要识别效果满足一定准确性和鲁棒性的要求，也要避免训练损耗训练成本不能太高，还要满足较小的延迟和实时快速性的要求，无论直接使用上述任意模型、任意数据集进行落地应用，都无法满足所有要求，以上方法都没能给出很好的参考和解决方案。技术实现要素：5.为了满足目前的人物交互行为识别方案在餐馆安全监控场景下，能够切实的、较为精确、快速的进行人物交互行为检测、行为安全合理性分类判别的要求，本发明提供了一种餐馆场景下的人物交互行为识别方法及安全监控系统，技术方案如下：6.本发明的目的在于提供一种餐馆场景下的人物交互行为识别方法及安全监控系统，所述方法包括：7.步骤s1：首先确定视频监控采集区域、拍摄设备安装位置并且确认是否满足安装条件后，针对采集到的视频画面抽帧并获得等时间步间隔的单帧图像。8.步骤s2：建立餐馆员工人脸及人体目标、顾客人体、餐馆常见物品工具标签库，并构建能识别人物实例和物体目标的模型，从而能进行目标检测相关特征的提取。9.步骤s3：建立与餐馆常见物品工具交互的人物肢体相关动作行为、人与人之间交互动作的标签库，即人物肢体动作标签和人/物/人交互行为标签，同时对这些动作行为进行评估，判断其行为的安全/非安全和合理/非合理性，且建立合理安全性标签，并构建能识别餐馆内人物交互动作行为的模型，从而能进行人物交互行为相关特征的提取。10.步骤s4：然后针对采集到的视频画面进行分区域处理，在图像上设置不同区域和安全等级，构建多（双）任务双流并行学习网络，把不同（两个）任务目标的特征看做不同（两个）模态的特征创建双流主干，并对各图像中2种类型的人体目标（就餐顾客、工作服务人员）、场景内可能与人发生交互行为的多类型物体目标等对象，提取目标识别的特征信息与人物交互动作行为的特征信息。11.步骤s5：处理融合模型网络提取到的目标区域内的人体目标对象特征和人物交互行为特征，构建一种对餐馆顾客安全监控、对员工服务工作内容进行理解、推理的深度神经网络模型，使用基于顾客安全/非安全行为动作判断标签和基于员工的工作内容等识别标签，进行识别分类，从而判断出当前画面中是否存在不安全不合理行为，用以保障顾客用餐安全，确认员工服务内容。12.进一步地，所述步骤s1中具体包括以下步骤：13.s11：首先确定视频监控采集区域、拍摄设备安装位置并且确认是否满足安装条件：即要确定餐馆内部监控设备需要对准拍摄采集的区域，一般来说餐馆的顾客就餐区域、公共服务区域、门面前的卫生责任区域等，都是需要负责并进行安全监控的；而且为了能提高单个摄像头的视频采集范围，每个摄像头应尽量选择高位进行安装并以俯视的视角进行监控；同时无论是拍摄哪个位置的摄像头，拍摄画面的质量应得到满足，即画面在任意营业时间的光照下都清晰可见且人物大小比例合适。14.s12：其次，针对采集到的视频画面抽帧并获得等时间步间隔的单帧图像：对各个摄像头原始采集到的行为动作视频按10分钟进行解析，并统一将10分钟的视频分割成200个非重叠的3秒片段，并抽取3秒动作片段开头、中间、结尾共9张清晰片段帧图像。进行预处理，在不丢失图像信息的前提下，将上述图片数据集尺寸统一化，使用imagenet训练集抽样计算得出的数据：mean=[0.485，0.456，0.406]，std=[0.229，0.224，0.225]其中mean代表均值，std代表方差；进行归一化；由于日常采集到的视频中，不安全、不合理的人物交互行为只是极少数情况，这就可能会造成采集到的视频数据正负样本之间存在非常大的数量差异，从而导致正负样本严重不均衡的问题。为解决这一问题，在采集视频画面的时候，需要人为干预添加进日常中不常见的一些不安全不合理的人物交互行为的视频画面数据，即人为表演性质的在监控视频画面中做出相应行为：如骚扰侵犯、动手打人、醉酒跌倒、走路不稳等顾客异常行为；同理服务工作人员的不正确和不良工作行为也同样采集处理进需要训练测试的视频画面数据集中去。[0015]进一步地，所述步骤s2中具体包括以下步骤：[0016]s21：建立餐馆员工人脸目标标签库，按照celeba人脸数据集打标签规则，构建工作人员人脸目标标签；其具体步骤包括：将步骤s12采集到的不重叠图像，使用opencv自制程序批量进行标签制作，即使用鼠标和键盘依次在采集到的图片上进行框选、仿射变换和文字标注等，最终获得经过人脸居中，裁剪，并统一大小为178×178的jpg格式图片；标注文件分别为5个txt文本文件，每个对象用一行文本标注好信息：1、identity指定每张图片对应的人脸标签，格式为图片名称、人脸id；2、list_attr指定标注人脸属性，原始格式为40类别，我们则根据实际情况选取人脸属性，如选取人脸是否黑色头发、是否戴眼镜、男女性别等；3、list_bbox标注出人脸在图片中的位置，格式为图片名称boundingbox四元素信息，即左上角x轴坐标、y轴坐标、宽度、高度；4、list_landmarks_align标注居中后图片中人脸关键点位置，一共5个关键点，为眼睛、鼻子和嘴角，格式为图片名称、左眼x轴坐标、y轴坐标、右眼x轴坐标、y轴坐标、鼻子x轴坐标、y轴坐标、左嘴角x轴坐标、y轴坐标、右嘴角x轴坐标、y轴坐标；5、list_landmarks标注原图片中人脸的关键点位置，格式同上。[0017]s22：建立员工人体目标、顾客人体目标和餐馆常见物品工具标签库，按照yolo目标检测数据集打标签规则，构建员工人体目标、顾客人体目标和餐馆常见物品工具标签，其具体步骤包括：同理将步骤s12采集到的不重叠图像，使用opencv自制的程序或者现有的labelimg软件对采集到的图像逐一进行框选、仿射变化和文字标注等，最后获得两个文件夹：一个是存放原始图片的文件夹，另一个是标签文本文件夹；其中，标签文本文件夹中存放以图片名称命名的txt文本文件，每个对象用一行信息标注，标注格式为类别id、中心点x轴坐标、中心点y轴坐标、目标宽度、目标高度，但需要注意的是无论是坐标还是宽度和高度都需要进行归一化操作，即需要以百分比的形式定义目标中心坐标在图片中的位置和目标高宽占图片的百分比。并且还需要一个类别classes标签文本文件，按照类别id序号在每一行标注出类别名称，这里的类别包括顾客人体、工作服务人员人体、餐馆中常见物品和可能出现的一般物品等。[0018]进一步地，所述步骤s3中具体包括以下步骤：[0019]s31：建立与餐馆常见物品工具交互的人物肢体相关动作行为，按照hake（humanactivityknowledgeengine）中人物目标肢体状态的原语特征形式进行数据标注，即使用part_state_93_new中的6个肢体部位的93种不同的肢体原语特征对顾客和工作人员进行标注；并且同时使用157种不同的人物当前行为动作进行人物标注，保存为单个的mdb文件，标注格式为图片路径、行为动作序号、人物bbox位置、人物各肢体的原语序号、groundtruth的flag标志，同时构建正负样本，以gt_flag进行备注。[0020]s32：建立与餐馆常见物品工具交互的人物动作行为、人与人之间交互动作的标签库，即人物肢体动作标签和人/物/人交互行为标签，按照hico（humansinteractingwithcommonobjects）中两个方面hoiclassification和hoidetection的标签形式进行标注。首先是hoiclassification：以s22中创建的物品和s31中创建的人物行为动作为目标，建立一组二进制标签，每个标签代表一个hoi类存在或者不存在，创建正负样本的同时也创建“模糊”样本，即无关联交互样本；其次再将s22中创建检测物品边和s31中创建的人物目标边界框进行整合，每个边界框对定位一个人和一个物体，或者一个人和另一个人，最终创建一个hoi类别标签。两类标注文件均为mat文件，hoiclassification标注文件中包括：一维长度为交互动作类别数目的ndarray，对于每一类都有图片文件路径交互动作名称同义词等个属性；训练和测试图片名称列表；训练和测试集标签及其flag类别；而hoidetection标注文件中包括：每张图片的路径、图像尺寸、人物交互信息；其中人物交互信息又包括行为动作序号、人物bbox（数组，多个）、物体bbox（数组，多个）、交互任务编号对等；最后需要创建属于餐馆场景下，之前构建的所有物品及其动名词组合类别的标注信息list_actions。[0021]s33：对s32中的任务交互动作行为进行评估，判断其行为的安全/非安全和合理/非合理性，且建立合理安全性标签；正如s12中所述，人为添加和本身就存在在采集到的视频中的负样本视频片段画面，都是工作人员的不正确、不良工作行为和顾客的不安全、不合理行为，需要在s32对所有存在的交互动作属性中添加这一安全性合理性标签，即一位二级basedmulti-headattention计算中head数的swin-transformerblock和一个每次将特征图尺寸减半，通道数量维度增加一倍的下采样模块patchmerging，但在最后一层stage中最后不包含patchmerging模块，因为4次下采样计算均已完毕；所以之前的张量数据经过各basiclayer尺寸依次变化为（b,,256）、（b,,512）、（b,,1024）等尺寸维度；进一步地，swin-transformerblock的计算过程如下列公式（1）~（4）所示：[0030]ꢀꢀꢀꢀꢀ（1）[0031]ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ（2）[0032]ꢀꢀꢀꢀꢀꢀꢀ（3）[0033]ꢀꢀꢀꢀꢀꢀꢀꢀꢀ（4）[0034]进一步地，该计算过程的核心步骤w-msa与sw-msa，前者是在msa整张特征图下进行多头自注意力机制的计算，即公式（5）所示：ꢀꢀꢀꢀꢀꢀꢀꢀ（5）[0035]以整张特征图为感受野；而后者w-msa中，只在单个window大小中进行多头自注意力机制的计算，感受野大幅度下降的同时缺少了windows窗口之间的信息交互；因此设计出了sw-msa，将整张特征图分割为9块4种不同大小的区域，并且定义为4块区域，通过平移变换改变区域位置后，添加mask掩码计算原来不相关的区域的注意力结果，将结果-100使其变为负值，在进行softmax操作变为0，等待计算结束后反向移动区域位置还原回之前的位置，注意力机制中的偏差bias，在计算过程中引入相对位置偏差，这里引入了新的根据训练学习得到的相对位置偏差table表，任意patch对于其他patch的偏差直接从这个网络中能学习到的信息取出对应数据。[0036]s425：双流支路主干构建完成后，需要对双流的支路主干同一层输出的特征进行后续操作，在每一层的stage中连续的swin-transformerblock模块对操作之后得到的4个尺度的特征进行乘积运算，即在每次完成下采样计算并计算了窗口多头自注意力之后，对齐来自同一张图片但是不同识别任务的特征，以显示公共的显著位置；在控件部分对齐两个支路的特征然后重新校准各自的通道部分，公共空间注意力计算如公式（6）所示：[0037]ꢀꢀꢀꢀ（6）[0038]其中，和分别为上述需要对齐的两支路特征；然后将公共空间注意图作为两个任务特征的权重，通过以下方式实现两种模式的空间对齐如公式（7）、（8）所示：[0039]ꢀꢀꢀꢀꢀꢀꢀꢀ（7）[0040]ꢀꢀꢀꢀꢀꢀꢀꢀ（8）[0041]然后，将空间部分、中对齐的特征分别执行空间注意，用以生成空间注意力图，空间注意力计算如公式（9）所示：[0042]ꢀꢀꢀꢀ（9）[0043]该图通过以下方式在每种任务特征的更显著的内容上显示更多权重，然后将每个通道注意力图与原始特征相乘以实现通道重新校准，如公式（10）、（11）所示：[0044]ꢀꢀꢀꢀꢀꢀ（10）[0045]ꢀꢀꢀꢀꢀꢀꢀ（11）[0046]最后，每层stage将两个任务特征整合校准后的融合特征为如公式（12）所示：[0047]ꢀꢀꢀꢀꢀꢀꢀꢀ（12）[0048]s426：然后需要构建双流网络中的任务1，即提取物体及人体目标检测特征任务的后续neck网络，使用的是路径聚合网络（pathaggergationnetwork，panet）和特征金字塔网络（fpn）。fpn自顶向下传达语义特征信息，pan自底向下传达定位信息；从不同的主干层对不同特征层提取位置信息和语义特征信息，使用多个尺度：图片、、的三个不同尺度条件下，分别实现大中小的人物目标和物体目标的识别和位置预测。[0049]s427：然后构建双流网络中的任务2，即提取肢体pasta特征及人物交互动作特征的heads部分，使用具有残差连接的mlp，对整个任务2的swin-transformer编码器的输出进行人物肢体状态、交互动作预测，并将其与s426中的目标识别特征进行融合分类，最终得到所有检测目标间的人物交互行为，即人物目标和物品目标：人物-动作-物品和人物-动作-人物两类交互信息输出。其中，pasta输出采用了resnet50的layer4和hake-meta的原语推理的先验wordmap知识库pasta_language_matrix.npy，增加推荐精度和速度，最终输出各人物间的交互动作信息。[0050]s43：损失函数的构建和训练过程的实施：[0051]s431：首先是双任务中人物目标及物品目标的检测，其损失函数一般由分类损失和回归损失两部分构成，即预测出bbox框和目标类别。分类损失函数使用的是focalloss，用来处理类别不平衡及困难样本挖掘的损失函数，计算公式如（13）所示：[0052]ꢀꢀꢀꢀꢀꢀꢀꢀꢀ（13）[0053]其中，就是模型预测出来的裸结果并经过softmax后的概率值，就是交叉熵损失的计算结果，因此当前样本类别对应的越小，说明预测越不准确，那么这一项就会增大，所以这一项也作为困难样本的系数，预测越不准，focalloss越倾向于把这个样本当作困难样本，这个系数也就越大，目的是让困难样本对loss和梯度的贡献更大。前面的是类别权重系数。如果你有一个类别不平衡的数据集，那么你肯定想对数量少的那一类在loss贡献上赋予一个高权重，这个就起到这样的作用。因此，应该是一个向量，向量的长度等于类别的个数，用于存放各个类别的权重。[0054]而回归损失函数采用的是ciouloss用来衡量bbox的损失，考虑了边界框长宽损失，增加预测框和真实框之间的相似性，能更快的收敛，计算公式如（14）所示：[0055]ꢀꢀꢀꢀꢀꢀꢀꢀꢀ（14）[0056]其中，是一个正则项，从diou引进而来，也有防止过拟合的作用；α是一个正的trade-off参数，ν用于去度量长宽比的一致性。[0057]s432：其次是双任务中人物交互行为识别任务，其识别内容为两个目标识别内容和交互行为动作识别内容共三部分，然后合并识别出一个完整的人物-动词-物品或者人物-动词-人物两类交互信息。这里的每个目标都同理使用s431中的focalloss函数。具体计算过程如上同理。[0058]s433：具体训练过程采用分布式训练方法，将数据存放到两块或更多块的gpu上进行训练，构建优化器，不断迭代训练，调整网络参数直至模型收敛，同时使用预训练的两支路主干网络权重，加速训练过程。[0059]进一步地，所述步骤s5中具体包括以下步骤：[0060]s51：处理融合模型网络提取到的目标区域内的人体目标对象特征和人物交互行为特征，构建一种对餐馆顾客安全监控、对员工服务工作内容进行理解、推理的深度神经网络模型：在经过s4的操作处理下，从图片中提取到了目标检测的信息和人物交互行为的信息，下面构建更深入的分类器，对目标行为进行：基于顾客动作安全/非安全行为的判断和基于员工的工作内容正确与否的判断；这里使用s33制作的标签，并且构建adaboost弱学习器组合推理将顾客行为和员工工作行为进行判断。[0061]s52：最后，构建一整套监控安全系统，即除了设备及其安装、算法计算、模型训练等过程以外，还需要有一套完整的监控系统路程：即处理实时的监控器拍摄到的画面或者监控摄像头先前拍摄记录的画面，经过模型的算法计算得到识别结果以后，该系统会根据得到的结果信息对其进行分类判断，再由判断结果选择性验证并根据验证结果处理当前或者先前的行为，具体流程见说明书附图2。附图说明[0062]为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。[0063]图1为本发明一种餐馆场景下的人物交互行为识别方法实施例的框架流程图。[0064]图2为本发明一种餐馆场景下的人物交互行为识别的安全监控系统实施例流程图。[0065]图3为本发明一种餐馆场景下的人物交互行为识别方法的模型网络结构图。具体实施方式[0066]需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。[0067]为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图1、2，对本发明提供的人物交互行为识别方法、设备及安全监控系统进行进一步详细说明。[0068]一种餐馆场景下的人物交互行为识别方法，包括如下步骤：[0069]具体的，本实施例中，所应用的场景中，交互行为具体指餐馆场景下顾客和餐馆工作人员的行为。[0070]s1：首先确定视频监控采集区域、拍摄设备安装位置并且确认是否满足安装条件后，针对采集到的视频画面抽帧并获得等时间步间隔的单帧图像；本实施例中，监控采集地点设置为餐馆一楼，使用佳能eosm6mark2相机，用支架等架高于中午11点半到1点半以及activityknowledgeengine）中人物目标肢体状态的原语特征形式进行数据标注，即使用part_state_93_new中的6个肢体部位的93种不同的肢体原语特征对顾客和工作人员进行标注；并且同时使用157种不同的人物当前行为动作进行人物标注，保存为单个的mdb文件，标注格式为图片路径、行为动作序号、人物bbox位置、人物各肢体的原语序号、groundtruth的flag标志，同时构建正负样本，以gt_flag进行备注。[0076]s32：建立与餐馆常见物品工具交互的人物动作行为、人与人之间交互动作的标签库，即人物肢体动作标签和人/物/人交互行为标签，按照hico（humansinteractingwithcommonobjects）中两个方面hoiclassification和hoidetection的标签形式进行标注。首先是hoiclassification：以s22中创建的物品和s31中创建的人物行为动作为目标，建立一组二进制标签，每个标签代表一个hoi类存在或者不存在，创建正负样本的同时也创建“模糊”样本，即无关联交互样本；其次再将s22中创建检测物品边和s31中创建的人物目标边界框进行整合，每个边界框对定位一个人和一个物体，或者一个人和另一个人，最终创建一个hoi类别标签。两类标注文件均为mat文件，hoiclassification标注文件中包括：一维长度为交互动作类别数目的ndarray，对于每一类都有图片文件路径交互动作名称同义词等个属性；训练和测试图片名称列表；训练和测试集标签及其flag类别；而hoidetection标注文件中包括：每张图片的路径、图像尺寸、人物交互信息；其中人物交互信息又包括行为动作序号、人物bbox（数组，多个）、物体bbox（数组，多个）、交互任务编号对等；最后需要创建属于餐馆场景下，之前构建的所有物品及其动名词组合类别的标注信息list_actions。[0077]s33：对s32中的任务交互动作行为进行评估，判断其行为的安全/非安全和合理/非合理性，且建立合理安全性标签；正如s12中所述，人为添加和本身就存在在采集到的视频中的负样本视频片段画面，都是工作人员的不正确、不良工作行为和顾客的不安全、不合理行为，需要在s32对所有存在的交互动作属性中添加这一安全性合理性标签，即一位二级制数据flag来表示。[0078]s4：然后针对采集到的视频画面进行分区域处理，在图像上设置不同区域和安全等级，如顾客就餐区域、顾客购餐区域、食堂员工备餐区域等等。构建多（双）任务双流并行学习网络，把不同（两个）任务目标的特征看做不同（两个）模态的特征创建双流主干，并对各图像中2种类型的人体目标（就餐顾客、工作服务人员）、场景内可能与人发生交互行为的多类型物体目标等对象，提取目标识别的特征信息与人物交互动作行为的特征信息。在具有双3090显卡的实验室服务器上，利用pytorch构建实验网络模型。[0079]s41：针对采集到的视频画面进行分区域处理，在图像上设置不同区域和安全等级：根据餐馆就餐区域大小和餐馆整体规模来看，可能存在两种情况。一种情况是小餐馆餐馆规模并不大的场景：使用单一视频监控相机即可从高位在一定程度的俯视下无死角完整监控到整间餐馆的全貌；另一种情况是大餐馆餐馆规模非常大的场景：同一就餐区域的范围过大，单一监控相机无法完整监控到区域的全貌，只好采用复数相机辅助拍摄才能完整监控。或者是餐馆存在多楼层区域必须设置更多摄像头监控等等。无论是哪一种情况，都存在就餐区域的划分和根据餐馆具体情况划分各区域的安全等级：单一相机划分就餐区域添加区域掩码设定顾客roi区域和工作人员roi区域，针对性的进行识别、推理和预测；而多相机彼此辅助就存在区域重叠问题，同区域的识别推理预测更需要划分好各个相机图像的区域名称，根据情况选择是否需要将提取到的信息进行融合；此外涉及到多层多区域还需要考虑是否需要将跨图像信息进行整合，进行人物重识别、人物交互行为重识别等更复杂的后续操作，从而建立一种更加庞大复杂、整个的大规模餐馆人员及其行为的安全系统。[0080]s42：构建多（双）任务双流并行学习网络，把不同（两个）任务目标的特征看做不同（两个）模态的特征创建双流主干，并对各图像中2种类型的人体目标（就餐顾客、工作服务人员）、场景内可能与人发生交互行为的多类型物体目标等对象，提取目标识别的特征信息与人物交互动作行为的特征信息，但是使用同一种类的编码器进行提取：一条支路编码提取物体及人体目标检测特征，另一支路编码提取肢体pasta特征及人物交互动作特征。[0081]s421：首先选取s12中采集处理到的各类型人物交互动作中间帧画面，将两张同一交互行为相同时间帧上的视频图像画面，作为双流网络的输入。[0082]s422：双流网络的第一条支路使用swiftedwindowtransformer编码器结构，窗口尺寸大小为7×7，其参数使用的为swin-b的部分结构参数，即编码器结构共分为4层stage，第一个stage的隐藏层特征维度为128，每层stage的连续swin-tranformerblock数量分别为2、2、18、2，并且在做窗口注意力机制操作时heads数量分别为4、8、16、32，这部分用于提取物体及人体目标检测特征，使用作backbone主干。[0083]s423：同理，双流网络的第二条支路也是用swiftedwindowtransformer编码器结构，但是其参数使用的为swin-b结构参数，除了并且在做窗口注意力机制操作时heads数量也分别改为3、6、12、24，其余参数完全一致不变，这部分用于提取肢体pasta特征及人物交互动作特征，同样是使用作backbone主干。[0084]s424：无论是那一支路编码器，已知输入一个批量（批量数为b）的图片img维度为（b,h,w,3）：首先将其从二维的图像数据转化为patch编码的形式，即使用stride=4、4×4的卷积核将其下采样patchsize（统一设置为为4）倍数，同时输入的通道数由3转换为编码特征维度（均设置为为128），然后将下采样后的每一个patch的特征图展平成一个维度并调整张量尺寸，再然后进行层归一化操作，img数据尺寸改变为（b,,128）的张量数据；接下来按照2、2、18、2的深度和4、8、16、32（3、6、12、24）的heads数分别创建stage1、stage2、stage3、stage4的basiclayer：其中basiclayer包括规定深度（数目）和windowbasedmulti-headattention计算中head数的swin-transformerblock和一个每次将特征图尺寸减半，通道数量维度增加一倍的下采样模块patchmerging，但在最后一层stage中最后不包含patchmerging模块，因为4次下采样计算均已完毕；所以之前的张量数据经过各basiclayer尺寸依次变化为（b,,256）、（b,,512）、（b,,1024）等尺寸维度；进一步地，swin-transformerblock的计算过程如下列公式所示：[0085][0086][0087][0088][0089]进一步地，该计算过程的核心步骤w-msa与sw-msa，前者是在msa整张特征图下进行多头自注意力机制的计算，即如下式所示：[0090][0091]以整张特征图为感受野；而后者w-msa中，只在单个window大小中进行多头自注意力机制的计算，感受野大幅度下降的同时缺少了windows窗口之间的信息交互；因此设计出了sw-msa，将整张特征图分割为9块4种不同大小的区域，并且定义为4块区域，通过平移变换改变区域位置后，添加mask掩码计算原来不相关的区域的注意力结果，将结果-100使其变为负值，在进行softmax操作变为0，等待计算结束后反向移动区域位置还原回之前的位置，注意力机制中的偏差bias，在计算过程中引入相对位置偏差，这里引入了新的根据训练学习得到的相对位置偏差table表，任意patch对于其他patch的偏差直接从这个网络中能学习到的信息取出对应数据。[0092]s425：双流支路主干构建完成后，需要对双流的支路主干同一层输出的特征进行后续操作，在每一层的stage中连续的swin-transformerblock模块对操作之后得到的4个尺度的特征进行乘积运算，即在每次完成下采样计算并计算了窗口多头自注意力之后，对齐来自同一张图片但是不同识别任务的特征，以显示公共的显著位置；在控件部分对齐两个支路的特征然后重新校准各自的通道部分，公共空间注意力计算如下式所示：[0093][0094]其中，和分别为上述需要对齐的两支路特征；然后将公共空间注意图作为两个任务特征的权重，通过以下方式实现两种模式的空间对齐如下式所示：[0095][0096][0097]然后，将空间部分、中对齐的特征分别执行空间注意，用以生成空间注意力图，空间注意力计算如下式所示：[0098][0099]该图通过以下方式在每种任务特征的更显著的内容上显示更多权重，然后将每个通道注意力图与原始特征相乘以实现通道重新校准，如下式所示：[0100][0101][0102]最后，每层stage将两个任务特征整合校准后的融合特征为如下式所示：[0103][0104]s426：然后需要构建双流网络中的任务1，即提取物体及人体目标检测特征任务的后续neck网络，使用的是路径聚合网络（pathaggergationnetwork，panet）和特征金字塔网络（fpn）。fpn自顶向下传达语义特征信息，pan自底向下传达定位信息；从不同的主干层对不同特征层提取位置信息和语义特征信息，使用多个尺度：图片、、的三个不同尺度条件下，分别实现大中小的人物目标和物体目标的识别和位置预测。[0105]s427：然后构建双流网络中的任务2，即提取肢体pasta特征及人物交互动作特征的heads部分，使用具有残差连接的mlp，对整个任务2的swin-transformer编码器的输出进行人物肢体状态、交互动作预测，并将其与s426中的目标识别特征进行融合分类，最终得到所有检测目标间的人物交互行为，即人物目标和物品目标：人物-动作-物品和人物-动作-人物两类交互信息输出。其中，pasta输出采用了resnet50的layer4和hake-meta的原语推理的先验wordmap知识库pasta_language_matrix.npy，增加推荐精度和速度，最终输出各人物间的交互动作信息。[0106]s43：损失函数的构建和训练过程的实施：[0107]s431：首先是双任务中人物目标及物品目标的检测，其损失函数一般由分类损失和回归损失两部分构成，即预测出bbox框和目标类别。分类损失函数使用的是focalloss，用来处理类别不平衡及困难样本挖掘的损失函数，计算公式如下所示：[0108][0109]其中，就是模型预测出来的裸结果并经过softmax后的概率值，就是交叉熵损失的计算结果，因此当前样本类别对应的越小，说明预测越不准确，那么这一项就会增大，所以这一项也作为困难样本的系数，预测越不准，focalloss越倾向于把这个样本当作困难样本，这个系数也就越大，目的是让困难样本对loss和梯度的贡献更大。前面的是类别权重系数。如果你有一个类别不平衡的数据集，那么你肯定想对数量少的那一类在loss贡献上赋予一个高权重，这个就起到这样的作用。因此，应该是一个向量，向量的长度等于类别的个数，用于存放各个类别的权重。[0110]而回归损失函数采用的是ciouloss用来衡量bbox的损失，考虑了边界框长宽损失，增加预测框和真实框之间的相似性，能更快的收敛，计算公式如下所示：[0111][0112]其中，是一个正则项，从diou引进而来，也有防止过拟合的作用；α是一个正的trade-off参数，ν用于去度量长宽比的一致性。[0113]s432：其次是双任务中人物交互行为识别任务，其识别内容为两个目标识别内容和交互行为动作识别内容共三部分，然后合并识别出一个完整的人物-动词-物品或者人物-动词-人物两类交互信息。这里的每个目标都同理使用s431中的focalloss函数。具体计算过程如上同理。[0114]s433：具体训练过程采用分布式训练方法，将数据存放到两块或更多块的gpu上进行训练，构建优化器，不断迭代训练，调整网络参数直至模型收敛，同时使用预训练的两支路主干网络权重，加速训练过程。[0115]s5：处理模型网络提取到的目标区域内的人体目标对象特征和人物交互行为特征，构建一种对餐馆顾客安全监控、对员工服务工作内容进行理解、推理的深度神经网络模型，使用基于顾客安全/非安全行为动作判断标签和基于员工的工作内容等识别标签，进行识别分类，从而判断出当前画面中是否存在不安全不合理行为，用以保障顾客用餐安全，确认员工服务内容。针对得到的hoi类别，进行最后一层分类，判断其行为的安全合理性。[0116]应当理解地是，以上所述实施例中的内容是对本发明的较佳实施方式进行了具体说明，用以说明本发明的技术方案，但本发明并不限于以上所述实施例，凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均应包含在本发明权利要求所限定的保护范围之内。当前第1页12当前第1页12
技术特征：
1.一种餐馆场景下的人物交互行为识别方法及安全监控系统，其特征在于，所述方法包括：步骤一：首先确定视频监控采集区域、拍摄设备安装位置并且确认是否满足安装条件后，对采集到的视频画面抽帧并获得等时间步间隔的单帧图像；步骤二：建立餐馆员工人脸及人体目标、顾客人体、餐馆常见物品工具标签库，并构建能识别人物实例和物体目标的模型，从而能进行目标检测相关特征的提取；步骤三：建立与餐馆常见物品工具交互的人物肢体相关动作行为、人与人之间交互动作的标签库，即人物肢体动作标签和人/物/人交互行为标签，同时对这些动作行为进行评估，判断其行为的安全/非安全和合理/非合理性，且建立合理安全性标签，并构建能识别餐馆内人物交互动作行为的模型，从而能进行人物交互行为相关特征的提取；步骤四：然后针对采集到的视频画面进行分区域处理，在图像上设置不同区域和安全等级，构建多（双）任务双流并行学习网络，把不同（两个）任务目标的特征看做不同（两个）模态的特征创建双流主干，并对各图像中2种类型的人体目标（就餐顾客、工作服务人员）、场景内可能与人发生交互行为的多类型物体目标等对象，提取目标识别的特征信息与人物交互动作行为的特征信息；步骤五：处理融合模型网络提取到的目标区域内的人体目标对象特征和人物交互行为特征，构建一种对餐馆顾客安全监控、对员工服务工作内容进行理解、推理的深度神经网络模型，使用基于顾客安全/非安全行为动作判断标签和基于员工的工作内容等识别标签，进行识别分类，从而判断出当前画面中是否存在不安全不合理行为，用以保障顾客用餐安全，确认员工服务内容。2.根据权利要求1所述的餐馆场景下的人物交互行为识别方法及安全监控系统，其特征在于：构建多（双）任务双流并行学习网络，把不同（两个）任务目标的特征看做不同（两个）模态的特征创建双流主干，并对各图像中2种类型的人体目标（就餐顾客、工作服务人员）、场景内可能与人发生交互行为的多类型物体目标等对象，提取目标识别的特征信息与人物交互动作行为的特征信息，但是使用同一种类的编码器进行提取：一条支路编码提取物体及人体目标检测特征，另一支路编码提取肢体pasta特征及人物交互动作特征；双流支路主干构建完成后，需要对双流的支路主干同一层输出的特征进行后续操作，在每一层的stage中连续的swin-transformer block模块对操作之后得到的4个尺度的特征进行乘积运算，即在每次完成下采样计算并计算了窗口多头自注意力之后，对齐来自同一张图片但是不同识别任务的特征，以显示公共的显著位置；在空间部分对齐两个支路的特征然后重新校准各自的通道部分。

技术总结
本发明公开了一种餐馆场景下的人物交互行为识别方法及安全监控系统，属于视频分析技术领域，所述方法包括：确定各视频监控采集区域画面、数据预处理等任务；建立餐馆员工人脸及人体目标、顾客人体、餐馆常见物品标签库；建立与餐馆常见物品交互的肢体相关动作行为、人与人之间交互的标签库，判断其行为的安全/非安全性且建立标签；构建双任务双流并行学习网络，提取目标识别的特征信息与人物交互动作行为的特征信息；处理融合模型网络提取到的特征信息，构建一种对餐馆顾客安全监控、对员工服务工作内容理解的网络模型，并判断是否存在不安全的员工和顾客行为，建立了一种智能监控的系统，对视频智能监控系统的自动化水平有一定帮助作用。帮助作用。帮助作用。

技术研发人员：陈立家许世文代震王赞李孟伟汪钇成喻方连晨轩董孟豪吴俊霆陈慧彬万福瑞
受保护的技术使用者：河南大学
技术研发日：2023.03.21
技术公布日：2023/7/17

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

一种餐馆场景下的人物交互行为识别方法及安全监控系统

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种餐馆场景下的人物交互行为识别方法及安全监控系统

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表