视频分类方法、装置、服务器及计算机可读存储介质与流程

未命名 07-14 阅读：191 评论：0

1.本技术涉及人工智能技术领域，具体涉及一种视频分类方法、装置、服务器及计算机可读存储介质。

背景技术：

2.当前社会越来越多的人开始饲养宠物，因此人们也开始逐渐关注起了宠物的健康状况，传统的宠物健康状况检测方式是借助医疗仪器的检测和宠物医生的经验，通过合理的分析与推测得出宠物的健康状况检测结果。
3.但是在一些没有宠物医院或者医疗仪器不完善的地方，宠物的健康状况一旦发生问题，很难及时找出病因，因此，传统的宠物健康检测方式过于依赖医疗仪器和人工经验，给宠物的健康状况检测造成了极大的不便。
4.申请内容
5.本技术实施例提供一种视频分类方法、装置、服务器及计算机可读存储介质，以提高健康状况检测效率。
6.一方面，本技术提供一种视频分类方法，包括：
7.获取关于目标对象的预设时长的视频数据，视频数据包括行为信息和声音信息；
8.根据声音信息确定声音特征向量，以及根据行为信息确定行为特征向量；
9.将声音特征向量和行为特征向量输入已训练的分类网络进行处理，输出目标对象对应的分类结果。
10.一方面，本技术提供一种视频分类装置，包括：
11.获取单元，用于获取关于目标对象的预设时长的视频数据，视频数据包括行为信息和声音信息；
12.确定单元，用于根据声音信息确定声音特征向量，以及根据行为信息确定行为特征向量；
13.分类单元，用于将声音特征向量和行为特征向量输入已训练的分类网络进行处理，输出目标对象对应的分类结果。
14.一方面，本技术实施例提供了一种服务器，服务器包括存储器、处理器以及存储于存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述视频分类方法中的步骤。
15.一方面，本技术提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述视频分类方法中的步骤。
16.本技术实施例提供了一种视频分类方法、装置、服务器及计算机可读存储介质，该方法首先对包含有目标对象的行为信息和声音信息的视频数据分别进行声音特征提取和行为特征提取，得到行为信息对应的行为特征和声音信息对应的声音特征，由于目标对象在某一时刻的声音特征与在该时刻的行为特征相互关联，因此需要将声音特征向量与行为特征向量进行融合，得到特征表达更加完整的综合特征向量，最后通过分类网络对综合特
征向量进行分类，得到目标对象的健康状况分类结果。本方案无需借助传统的医疗仪器和医生经验就能得到目标对象的健康检测结果，且本方案中得到的综合特征向量特征表达更加完整，因此，在提高了健康状况检测效率的同时，提高了健康状况检测的准确率。
附图说明
17.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
18.图1为本技术实施例提供的视频分类系统的场景示意图。
19.图2为本技术实施例提供的视频分类方法的第一种流程示意图。
20.图3a为本技术实施例提供的视频分类方法的第二种流程示意图。
21.图3b为本技术实施例提供的视频分类方法的第三种流程示意图。
22.图3c为本技术实施例提供的视频分类方法的第四种流程示意图。
23.图3d为本技术实施例提供的视频分类方法的第五种流程示意图。
24.图4a为本技术实施例提供的音频分析网络的结构示意图。
25.图4b为本技术实施例提供的行为识别网络的结构示意图。
26.图4c为本技术实施例提供的分类网络的结构示意图。
27.图5为本技术实施例提供的视频分类装置的结构示意图。
28.图6为本技术实施例提供的服务器的结构示意图。
具体实施方式
29.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
30.在本技术中，目标对象为能用声音和语言表达一定的信息的动物，包括但不局限于家庭中饲养的宠物。
31.在本技术中，行为信息为视频数据中的含有行为动作的图像数据，声音信息为视频数据中含有声音信号的音频数据。
32.在本技术中，分类结果为对应的目标对象的健康状态，例如目标对象是猫时，分类的结果可能是健康状态良好，也可能是患有肠炎，或者呼吸道感染等结果，具体分类结果根据包含有目标对象的行为信息和声音信息的视频数据分析计算得出的。
33.请参阅图1，图1为本技术实施例提供的视频分类系统的场景示意图，该系统可以包括服务器11、视频采集设备12、数据库13，视频采集设备12服务器11之间，数据库13与服务期11之间通过无线网络或有线网络进行数据交互，其中：
34.服务器11包括本地服务器和/或远程服务器等。
35.视频采集设备12包括但不局限于摄像机等可以采集视频的工具。
36.一种实施例中，在视频采集设备12在采集到目标对象的视频数据后，通过有线或
无线网络上传给服务器11。
37.在一种实施例中，视频采集设备12采集到目标对象的视频数据后，将视频数据保存在数据库13中，数据库13中的视频数据通过有线或无线网络上传给服务器11。
38.服务器11获取到视频数据后，对视频数据中声音信息进行声音特征提取处理，得到声音特征向量，再对视频数据中的行为信息进行行为特征提取，得到行为特征向量，最后，通过训练后的分类网络对声音特征向量和行为特征向量进行分类处理，得到分类结果。本技术利用神经网络对包含有目标对象的行为信息和声音信息的视频数据进行自动分析，得到目标对象的健康状况分类结果，提高了健康状况检测效率。
39.需要说明的是，图1所示的视频分类的场景示意图仅仅是一个示例，本技术实施例描述的服务器、视频采集设备以及数据库是为了更加清楚的说明本技术实施例的技术方案，并不构成对于本技术实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统的演变和新业务局景的出现，本技术实施例提供的技术方案对于类似的技术问题，同样适用。以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。
40.请参阅图2，图2为本技术实施例提供的视频分类方法的第一种流程示意图，应用于上述服务器，该视频分类方法包括：
41.步骤201：获取关于目标对象的预设时长的视频数据，视频数据包括行为信息和声音信息。
42.对目标对象的健康状况进行检测首先需要获取包含有目标对象的行为信息和声音信息的视频数据，目标对象包括但不局限于宠物，一般情况下，当宠物表现出行为异常和/或声音异常时，宠物的健康状态可能出现问题，具体是什么原因引起的行为异常和/或声音异常，需要通过需要包含有目标对象的行为信息和声音信息的视频数据来进行分析，因此，需要获取包括目标对象的行为信息和声音信息的视频数据，根据视频数据分析得到的健康状态分类结果只能表示该视频数据对应的时长内目标对象的健康状况。
43.其中，预设时长可以是20秒、30秒、45秒或60秒，在此不作限定。
44.步骤202：根据声音信息确定声音特征向量，以及根据行为信息确定行为特征向量。
45.由于视频数据中包含行为和声音两方面的信息，因此，需要根据声音信息确定用来表示声音特征的声音特征向量，根据行为信息确定用来表示行为特征的行为特征向量。其中，可以通过神经网络从声音信息中提取声音特征向量，也可以通过其他可以实现提取声音特征向量的方法来提取；可以通过神经网络从行为信息提取行为特征向量，也可以通过其他可以实现提取行为特征向量的方法来提取，具体的提取声音特征向量和行为特征向量的方法在此不做限定。
46.步骤203：将声音特征向量和行为特征向量输入已训练的分类网络进行处理，输出目标对象对应的分类结果。
47.由于目标对象的声音特征与行为特征是具有相互关联，某一时刻的声音特征与该时刻的行为特征一一对应，因此，需要将声音特征向量与行为特征向量进行融合，训练后的分类网络将融合得到的特征再进行分析，得出准确的分类结果。
48.本技术中将目标对象的声音特征和行为特征进行单独提取，再将单独提取得到的
声音特征向量和行为特征向量进行融合得到融合后的特征向量，训练后的分类网络将融合后的特征向量再进行分析，得出分类结果。因此，本技术中融合后的特征向量表达能力更强，最后得出的分类结果更加准确。
49.如图3a所示，为本技术实施例提供的视频分类方法的第二种流程图，应用于上述服务器。步骤202具体包括以下步骤：
50.步骤2021：将声音信息输入已训练的音频分析网络进行处理，输出声音特征向量。
51.获取到视频数据后，需要通过训练后的音频分析网络对视频数据中的声音信息进行特征提取，得到声音特征向量。
52.步骤2022：将行为信息输入已训练的行为识别网络进行处理，输出行为特征向量。
53.在对视频数据中的声音信息进行特征提取的同时，通过训练后的行为识别网络对视频数据中的行为信息进行行为特征提取，得到行为特征向量。
54.如图3b所示，为本技术实施例提供的视频分类方法的第三种流程图，应用于上述服务器。在本实施例中，已训练的音频分析网络包括第一声音特征提取模块、第二声音特征提取模块以及第一全连接模块；步骤2021具体包括以下步骤：
55.步骤20211：通过第一声音特征提取模块声音信息进行特征提取，得到第一子声音特征向量，并通过第二声音特征提取模块对声音信息进行特征提取，得到第二子声音特征向量。
56.由于声音特征可以从不同的方面进行提取，例如可以从声谱图中提取声音特征，也可以从视频的声音信息对应的波形中提取声音特征。因此，通过第一声音特征提取模块从声谱图中提取第一子声音特征向量，同时通过第二声音特征提取模块从原始波形中提取第二子声音特征向量。
57.在一种实施例中，第一声音特征提取模块包括梅尔声谱图提取模块、卷积循环模块以及第一全连接子模块；通过第一声音特征提取模块对声音信息进行特征提取，得到第一子声音特征向量，包括：
58.通过梅尔声谱图提取模块对声音信息进行声谱提取，得到第一梅尔声谱图；
59.通过卷积循环模块对第一梅尔声谱图进行特征提取，得到梅尔声谱特征图；
60.通过第一全连接子模块对梅尔声谱特征图进行特征提取，得到第一子声音特征向量。
61.梅尔声谱图提取模块主要负责对视频数据中的声音信息进行声谱提取，梅尔声谱图提取模块把一段长信号分帧、加窗，再对每一帧做傅里叶变换(fft)，最后把每一帧的结果沿另一个维度堆叠起来，得到类似于一幅图的二维信号形式的梅尔声谱图。梅尔声谱图有多种声音特征组成，采用了卷积循环模块对梅尔声谱图中的声音特征进行提取，卷积循环模块包括第一卷积模块、循环模块以及池化模块，通过卷积循环模块对第一梅尔声谱图进行特征提取，得到梅尔声谱特征图的方法为，首先第一卷积模块对第一梅尔声谱图进行特征提取，得到第二梅尔声谱图，再通过循环模块对第二梅尔声谱图进行特征提取，得到第三梅尔声谱图，最后通过池化模块对第三梅尔声谱图进行特征提取，得到梅尔声谱特征图。
62.其中，第一卷积模块包括输入层、卷积层和池化层，第一梅尔声谱图为输入层，卷积层对输入层的第一梅尔声谱图进行特征提取，得到提取后的第一梅尔声谱图，池化层将卷积层中提取得到的第一梅尔声谱图中的特征再进行特征选择和信息过滤，得到过滤掉一
些多余特征的第二梅尔声谱图。由于采用第一卷积模块中提取到的第二梅尔声谱图的特征只与输入层的第一梅尔声谱图中的特征有关，即提取到的只是第一梅尔声谱图的结构信息，而忽视了在卷积过程中前一过程的结果对后一过程的结果的影响，为了加强声音特征之间的时序关系，在得到第二梅尔声谱图之后，采用循环模块对第二梅尔声谱图再进行时序信息上的特征提取。
63.循环模块，包括输入层、隐藏层和输出层，循环模块将第二梅尔声谱图以序列数据的形式作为输入，在序列的演进方向进行递归特征提取，最后得到第三梅尔声谱图，循环模块中的计算公式为：s
t
＝f(uxt+wst-1)，其中，s
t
为当前时刻的输出，xt为当前时刻的输入，u为当前时刻输入值的加权计算，st-1为上一时刻的输出，w为上一时刻输出的权重。
64.由于循环模块中输出的是一个多维的特征图，为方便特征统计，通过第一全连接子模块对梅尔声谱特征图进行特征提取，将多维的特征输入映射为二维的特征输出，得到第一子声音特征向量，例如将一个7
×7×
512的多维特征矩阵映射成一个1
×1×
4096的声音特征向量。
65.对声谱图中的声音特征进行了提取的同时需要对声波中的声音特征参数进行提取。
66.在一种实施例中，第二声音特征提取模块包括声音特征参数提取模块和至少一个第二全连接子模块；通过第二声音特征提取模块对声音信息进行特征提取，得到第二子声音特征向量，包括：
67.通过声音特征参数提取模块对声音信息进行特征参数提取，得到高维声音参数特征；
68.通过至少一个第二全连接子模块对高维声音参数特征进行降维处理，得到低维的第二子声音特征向量。
69.声音特征参数包括基频、过零率、梅尔倒谱系数等特征参数，其中，基频主要是指自由振荡系统的最低振荡频率，复合波中的最低频率；过零率表示一帧语音中语音信号波形穿过横轴(零电平)的次数，由于浊音具有较低的过零率而清音具有较高的过零率，过零率可以用来区分清音和浊音，在端点检查中有一定的运用；梅尔频率倒谱(mel-frequency cepstrum)是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换，而梅尔频率倒谱系数(mel-frequency cepstral coefficients，mfccs)就是组成梅尔频率倒谱的系数。
70.在一种实施例中，声音特征参数提取模块包括基础特征参数提取模块和统计模块；通过声音特征参数提取模块对声音信息进行特征参数提取，得到高维声音参数特征，包括：
71.通过基础特征参数提取模块对声音信息进行基础特征参数提取，得到多个基础特征参数；
72.通过统计模块对多个基础特征参数进行统计处理，得到高维声音参数特征。
73.基础特征参数提取模块对视频数据中的声音信息进行基础特征参数提取，得到基频、过零率、梅尔倒谱系数等基础特征参数，统计模块对多个基础特征参数进行统计处理，得到高维声音参数特征。最后将高维声音参数特征通过第二全连接子模块进行降维处理，得到低维的第二子声音特征向量。
74.步骤20212：将第一子声音特征向量和第二子声音特征向量进行拼接处理，得到混合声音特征向量。
75.由于第一子声音特征向量是从声音图谱的角度得到的声音特征向量，第二子声音特征向量是从波形角度得到的声音特征向量，两个角度得到的声音特征向量存在互补性。为了充分利用音频中的信息，将两类特征结合起来，得到的混合声音向量能更加全面地表达声音特征。拼接方法在此不做限定，本技术中做的是横向拼接，例如第一子声音特征向量为一个1
×
100维的特征向量，第二子声音特征向量为一个1
×
50维的特征向量，最后拼接得到的向量为1
×
150维的特征向量。
76.步骤20213：通过第一全连接模块对混合声音特征向量进行特征提取，得到声音特征向量。
77.混合声音特征向量只是在形式上做了简单的拼接，第一全连接模块将在形式上进行拼接得到的混合声音向量再进行特征提取，得到内容融合的声音特征向量。
78.如图3c所示，为本技术实施例提供的视频分类方法的第四种流程图，应用于上述服务器。在本实施例中，已训练的行为识别网络包括第一行为特征提取模块和第二行为特征提取模块；步骤2022具体包括以下步骤：
79.步骤20221：通过第一行为特征提取模块对行为信息进行特征提取，得到第一子行为特征向量，并通过第二行为特征提取模块对行为信息进行特征提取，得到第二子行为特征向量。
80.由于视频中的行为特征具有时间和空间两个方面的特性，因此，需要采用不同的方法分别对两方面的行为特征进行提取，即通过第一行为特提取模块对视频数据中的行为信息进行特征提取，得到空间上的第一子行为特征向量，同时通过第二行为特征提取模块对视频数据中的行为信息进行特征提取，得到时间上的第二子行为特征向量。
81.在一种实施例中，第一行为特征提取模块包括第一图像提取模块和空间流模块；通过第一行为特征提取模块对行为信息进行特征提取，得到第一子行为特征向量，包括：
82.通过第一图像提取模块对行为信息进行图像提取，得到多帧图像；
83.通过空间流模块对多帧图像分别进行特征提取处理，得到第一子行为特征向量。
84.在进行空间上的第一子行为特征向量进行提取之前，先通过第一图像提取模块对视频数据中的行为信息进行图像提取，得到多帧图像，提取方法可以是每隔相同的时间周期t提取一张图像，例如每1秒钟提取一张图像，时间周期t在此不做限定。再通过空间流模块对多帧图像分别进行特征提取处理，得到空间上的第一子行为特征向量。
85.在一种实施例中，空间流模块包括第二卷积模块、第一长短期记忆模块以及第三全连接子模块；通过空间流模块对多帧图像分别进行特征提取处理，得到第一子行为特征向量，包括：
86.通过第二卷积模块对多帧图像分别进行特征提取和归一化处理，得到第一空间特征图；
87.通过第一长短期记忆模块对第一空间特征图进行递归运算，得到第二空间特征图；
88.通过第三全连接子模块对第二空间特征图进行特征提取，得到第一子行为特征向量。
89.第二卷积模块包括输入层、卷积层、归一化层、池化层、全连接层，从视频数据中提取的多帧图像中的任意一帧图像作为输入层，卷积层对输入层的图像进行特征提取，归一化层将卷积层提取的特征进行归一化处理，池化层将归一化处理得到的特征再进行特征选择和信息过滤，最后，通过全连接层将归一化得到的特征再进行提取并分类得到第一空间特征图。
90.由于通过第二卷积模块提取得到的第一空间特征图忽视了体征提取过程中间隔和延迟相对较长的重要事件对当前时间的重要性，因此，需要通过第一长短期记忆模块对第一空间特征图进行在此特征提取，得到第二空间特征图，通过长短期记忆模块得到的第二空间特征图中特征之间的联系更加紧密。最后，通过第三全连接子模块将第二空间特征图再进行提取，将多维的第二空间特征图转换成低维的第一子行为特征向量。
91.对空间上的第一行为特征进行特征提取的同时，需要对时间上的第二行为特征进行特征提取。
92.在一种实施例中，第二行为特征提取模块包括第二图像提取模块和时间流模块；通过第二行为特征提取模块对行为信息进行特征提取，得到第二子行为特征向量，包括：
93.通过第二图像提取模块对行为信息进行光流提取，得到多帧光流图像；
94.通过时间流模块对多帧光流图像分别进行特征提取处理，得到第二子行为特征向量。
95.在本技术中，光流指的是视频图像的一帧中的代表同一对象(物体)像素点移动到下一帧的移动量，使用二维向量表示，第二图像提取模块根据将视频分为多帧图像，根据相邻两帧图像得到多帧光流图，再通过时间流模块对多帧光流图像分别进行特征提取处理，得到第二子行为特征向量。
96.在一种实施例中，时间流模块包括第三卷积模块、第二长短期记忆模块以及第四全连接子模块；通过时间流模块对多帧光流图像分别进行特征提取处理，得到第二子行为特征向量，包括：
97.通过第三卷积模块对多帧光流图像分别进行特征提取和归一化处理，得到第一时间特征图；
98.通过第二长短期记忆模块对第一时间特征图进行递归运算，得到第二时间特征图；
99.通过第四全连接子模块对第二时间特征图进行特征提取，得到第二子行为特征向量。
100.第三卷积模块包括输入层、卷积层、归一化层、池化层、全连接层，多帧光流图像中的任意一帧光流图像作为输入层，卷积层对输入层的图像进行特征提取，归一化层将卷积层提取的特征进行归一化处理，池化层将归一化处理得到的特征再进行特征选择和信息过滤，最后，通过全连接层将归一化得到的特征再进行提取并分类得到第一时间特征图。
101.由于通过第三卷积模块提取得到的第一时间特征图忽视了体征提取过程中间隔和延迟相对较长的重要事件对当前时间的重要性，因此，需要通过第二长短期记忆模块对第一空间特征图进行在此特征提取，得到第二空间特征图，通过长短期记忆模块得到的第二时间特征图中特征之间的联系更加紧密。最后，通过第三全连接子模块将第二时间特征图再进行提取，将多维的第二时间特征图转换成低维的第二子行为特征向量。
102.步骤20222：将第一子行为特征和第二子行为特征进行加权融合处理，得到行为特征向量。
103.将第一子行为特征和第二子行为特征以一定的权重比进行加权融合得到最终的行为特征向量。行为特征向量＝α1×
空间流特征向量+α2×
时间流特征向量，其中，α1、α2通过模型学习得到，融合得到的行为特征向量准确率更高。
104.如图3d所示，为本技术实施例提供的视频分类方法的第五种流程图，应用于上述服务器。在本实施例中，已训练的分类网络包括融合模块、第二全连接模块以及分类模块；步骤203具体包括以下步骤：
105.步骤2031：通过融合模块对声音特征向量和行为特征向量进行融合处理，得到综合特征向量。
106.在上述步骤中分别得到了目标对象视频中的声音特征向量和行为特征向量，因为同一目标对象的声音特征与行为特征是相互关联的，对同一时刻的声音特征和行为特征进行综合分析才能得出健康状况准确分类结果，因此，需要将声音特征向量和行为特征向量进行融合处理，融合公式为y＝ω1x1+ω2x2+b，其中b为偏置，ω1、ω2、b分类网络学习得到，y为综合特征向量。
107.步骤2032：通过第二全连接模块对综合特征向量进行特征提取，得到目标特征向量。
108.将上述得到的综合特征向量通过第二全连接模块再进行特征提取，得到融合度更高的目标特征向量。
109.步骤2033：通过分类模块对目标特征向量进行分类处理，得到目标对象对应的分类结果。
110.最后通过分类模块对目标特征向量进行化分类处理，得到多种候选结果和每种候选结果对应的概率，最后概率最高的候选结果为最终的分类结果。
111.例如，目标对象是猫，将包含有猫的行为信息和声音信息的视频进行分类，得到猫的健康状态候选分类结果，后选分类结果有，候选结果1：健康状态良好，对应的概率为10％；候选结果2：患有肠炎，对应的概率为80％；候选结果3：呼吸道感染，对应的概率为10％，则猫的健康状况分类结果为患有肠炎。
112.在实际场景中，猫表现出嗜睡、长时间保持侧卧的姿势，且时不时发出微弱且低沉的声音时，可能患有肠炎，由专家分析可知，动物在身体状态不同的情况下发出的声音和动作也会不一样，因此可以对宠物的视频中的行为特征和声音特征进行分析，得出宠物的健康状况分析结果。
113.如图4a所示为本技术实施例提供的音频分析网络的结构示意图，目标对象视频中的音频分别通过第一声音特征提取模块和第二声音特征提取模块进行特征提取，得到第一子声音特征向量和第二子声音特征向量，再将第一子声音特征向量和第二子声音特征向量进行拼接，将拼接得到的混合特征向量输入第一全连接层中进行特征提取得到，声音特征向量。将声音信息通过第一声音特征提取模块和第二声音特征提取模块分别进行提取，最终得到的声音特征向量融合了声谱图的特征和声波的特征，表达能力更强。
114.如图4b所示为本技术实施例提供的行为识别网络的结构示意图，目标对象视频分别通过第一行为特征提取模块和第二行为特征提取模块进行特征提取，得到第一子行为特
征向量和第二子行为特征向量，再将第一子行为特征向量和第二子行为特征向量进行加权融合得到行为特征向量。将行为信息通过第一行为特征提取模块和第二行为特征提取模块分别进行提取，得到的行为特征向量融合了空间上的行为特征和时间上的行为特征，因此，最终得到的行为特征向量更加准确。
115.如图4c所示为本技术实施例提供的分类网络的结构示意图，将音频分析网络中得到的声音特征向量和行为视频网络中得到的行为特征向量，通过融合模块进行融合，得到综合特征向量，再通过第二全连接模块对综合特征向量进行特征提取，得到目标特征向量，最后，通过分类模块对目标特征向进行分类处理，得到分类结果。分类结果即为目标对象的健康状态。将行为特征向量和声音特征向量进行融合，得到的综合特征向量更加准确，表达能力更强，因此，基于综合特征向量得出的分类结果也更加准确。
116.本技术实施例提供了一种视频分类方法，该方法首先获取关于目标对象的预设时长的视频数据，视频数据包括行为信息和声音信息，再根据声音信息确定声音特征向量，以及根据行为信息确定行为特征向量，最后，将声音特征向量和行为特征向量输入已训练的分类网络进行处理，输出目标对象对应的分类结果。本技术利用神经网络对包含有目标对象的行为信息和声音信息的视频数据进行自动分类，得到目标对象的健康状况分类结果。无需借助传统的医疗仪器和医生经验就能得到目标对象的健康检测结果，提高了健康状况检测效率。
117.在上述实施例方法的基础上，本实施例将从视频分类装置的角度进一步进行描述，请参阅图5，图5具体描述了本技术实施例提供的视频分类装置的结构示意图，其可以包括：
118.获取单元501，用于获取关于目标对象的预设时长的视频数据，视频数据包括行为信息和声音信息；
119.确定单元502，用于根据声音信息确定声音特征向量，以及根据行为信息确定行为特征向量；
120.分类单元503，用于将声音特征向量和行为特征向量输入已训练的分类网络进行处理，输出目标对象对应的分类结果。
121.在一种实施例中，确定单元502，包括：
122.第一确定子单元，用于将所述声音信息输入已训练的音频分析网络进行处理，输出声音特征向量；
123.第二确定子单元，用于将所述行为信息输入已训练的行为识别网络进行处理，输出行为特征向量。
124.在一种实施例中，分类单元503，包括：
125.融合子单元，用于通过融合模块对声音特征向量和行为特征向量进行融合处理，得到综合特征向量；
126.提取子单元，用于通过第二全连接模块对综合特征向量进行特征提取，得到目标特征向量；
127.分类子单元，用于通过分类模块对目标特征向进行分类处理，得到分类结果。
128.本技术实施例还提供一种服务器，如图6所示，为本技术实施例提供的服务器的结构示意图，具体来讲：
129.该服务器包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源604和输入单元603等部件。本领域技术人员可以理解，图6中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：
130.处理器601是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。可选的，处理器601可包括一个或多个处理核心；优选的，处理器601可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器601中。
131.存储器602可用于存储软件程序以及模块，处理器601通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器601对存储器602的访问。
132.服务器还包括给各个部件供电的电源604，优选的，电源604可以通过电源管理系统与处理器601逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源604还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
133.该服务器还可包括输入单元603，该输入单元603可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
134.尽管未示出，服务器还可以包括显示处理器等，在此不再赘述。具体在本实施例中，服务器中的处理器601会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器601来运行存储在存储器602中的应用程序，从而实现各种功能，如下：
135.获取关于目标对象的预设时长的视频数据，视频数据包括行为信息和声音信息；
136.根据声音信息确定声音特征向量，以及根据行为信息确定行为特征向量；
137.将声音特征向量和行为特征向量输入已训练的分类网络进行处理，输出目标对象对应的分类结果。
138.在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对视频分类方法的详细描述，此处不再赘述。
139.本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。
140.为此，本技术实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现本技术实施例所提供的任一种视频分类方
法中的步骤。
141.以上各个操作的具体实施可参见前面的实施例，在此不再赘述。
142.其中，该计算机可读存储介质可以包括：只读存储器(rom，read only memory)、随机存取记忆体(ram，random access memory)、磁盘或光盘等。
143.由于该计算器可读存储介质中所存储的指令，可以执行本技术实施例所提供的任一种视频分类方法的步骤，因此，可以实现本技术实施例所提供的任一种视频分明方法所能实现的有益效果，详见前面的实施例，在此不再赘述。
144.同时，本技术实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。
145.以上对本技术实施例所提供的一种视频分类方法、装置、服务器及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的技术人员，依据本技术的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本技术的限制。

技术特征：
1.一种视频分类方法，其特征在于，包括：获取关于目标对象的预设时长的视频数据，所述视频数据包括行为信息和声音信息；根据所述声音信息确定声音特征向量，以及根据所述行为信息确定行为特征向量；将所述声音特征向量和所述行为特征向量输入已训练的分类网络进行处理，输出所述目标对象对应的分类结果。2.如权利要求1所述的方法，其特征在于，所述根据所述声音信息确定声音特征向量，以及根据所述行为信息确定行为特征向量，包括：将所述声音信息输入已训练的音频分析网络进行处理，输出声音特征向量；将所述行为信息输入已训练的行为识别网络进行处理，输出行为特征向量。3.如权利要求2所述的方法，其特征在于，所述已训练的音频分析网络包括第一声音特征提取模块、第二声音特征提取模块以及第一全连接模块；所述将所述声音信息输入已训练的音频分析网络进行处理，输出声音特征向量，包括：通过所述第一声音特征提取模块对所述声音信息进行特征提取，得到第一子声音特征向量，并通过所述第二声音特征提取模块对所述声音信息进行特征提取，得到第二子声音特征向量；将所述第一子声音特征向量和所述第二子声音特征向量进行拼接处理，得到混合声音特征向量；通过所述第一全连接模块对所述混合声音特征向量进行特征提取，得到声音特征向量。4.如权利要求2所述的方法，其特征在于，所述已训练的行为识别网络包括第一行为特征提取模块和第二行为特征提取模块；所述将所述行为信息输入已训练的行为识别网络进行处理，输出行为特征向量，包括：通过所述第一行为特征提取模块对所述行为信息进行特征提取，得到第一子行为特征向量，并通过所述第二行为特征提取模块对所述行为信息进行特征提取，得到第二子行为特征向量；将所述第一子行为特征向量和所述第二子行为特征向量进行加权融合处理，得到行为特征向量。5.如权利要求3所述的方法，其特征在于，所述第一声音特征提取模块包括梅尔声谱图提取模块、卷积循环模块以及第一全连接子模块；所述通过所述第一声音特征提取模块对所述声音信息进行特征提取，得到第一子声音特征向量，包括：通过所述梅尔声谱图提取模块对所述声音信息进行声谱提取，得到第一梅尔声谱图；通过所述卷积循环模块对所述第一梅尔声谱图进行特征提取，得到梅尔声谱特征图；通过所述第一全连接子模块对所述梅尔声谱特征图进行特征提取，得到第一子声音特征向量。6.如权利要求3所述的方法，其特征在于，所述第二声音特征提取模块包括声音特征参数提取模块和至少一个第二全连接子模块；所述通过所述第二声音特征提取模块对所述声音信息进行特征提取，得到第二子声音特征向量，包括：通过所述声音特征参数提取模块对所述声音信息进行特征参数提取，得到高维声音参数特征；
通过所述至少一个第二全连接子模块对所述高维声音参数特征进行降维处理，得到低维的第二子声音特征向量。7.如权利要求4所述的方法，其特征在于，所述第一行为特征提取模块包括第一图像提取模块和空间流模块；所述通过所述第一行为特征提取模块对所述行为信息进行特征提取，得到第一子行为特征向量，包括：通过所述第一图像提取模块对所述行为信息进行图像提取，得到多帧图像；通过所述空间流模块对所述多帧图像分别进行特征提取处理，得到第一子行为特征向量。8.如权利要求4所述的方法，其特征在于，所述第二行为特征提取模块包括第二图像提取模块和时间流模块；所述通过所述第二行为特征提取模块对所述行为信息进行特征提取，得到第二子行为特征向量，包括：通过所述第二图像提取模块对所述行为信息进行光流提取，得到多帧光流图像；通过所述时间流模块对所述多帧光流图像分别进行特征提取处理，得到第二子行为特征向量。9.如权利要求5所述的方法，其特征在于，所述卷积循环模块包括第一卷积模块、循环模块以及池化模块；所述通过所述卷积循环模块对所述第一梅尔声谱图进行特征提取，得到梅尔声谱特征图，包括：通过所述第一卷积模块对所述第一梅尔声谱图进行特征提取，得到第二梅尔声谱图；通过所述循环模块对所述第二梅尔声谱图进行特征提取，得到第三梅尔声谱图；通过所述池化模块对所述第三梅尔声谱图进行特征提取，得到梅尔声谱特征图。10.如权利要求6所述的方法，其特征在于，所述声音特征参数提取模块包括基础特征参数提取模块和统计模块；所述通过所述声音特征参数提取模块对所述声音信息进行特征参数提取，得到高维声音参数特征，包括：通过所述基础特征参数提取模块对所述声音信息进行基础特征参数提取，得到多个基础特征参数；通过所述统计模块对所述多个基础特征参数进行统计处理，得到高维声音参数特征。11.如权利要求7所述的方法，其特征在于，所述空间流模块包括第二卷积模块、第一长短期记忆模块以及第三全连接子模块；所述通过所述空间流模块对所述多帧图像分别进行特征提取处理，得到第一子行为特征向量，包括：通过所述第二卷积模块对所述多帧图像分别进行特征提取和归一化处理，得到第一空间特征图；通过所述第一长短期记忆模块对所述第一空间特征图进行递归运算，得到第二空间特征图；通过所述第三全连接子模块对所述第二空间特征图进行特征提取，得到第一子行为特征向量。12.如权利要求8所述的方法，其特征在于，所述时间流模块包括第三卷积模块、第二长短期记忆模块以及第四全连接子模块；所述通过所述时间流模块对所述多帧光流图像分别进行特征提取处理，得到第二子行为特征向量，包括：通过所述第三卷积模块对所述多帧光流图像分别进行特征提取和归一化处理，得到第
一时间特征图；通过所述第二长短期记忆模块对所述第一时间特征图进行递归运算，得到第二时间特征图；通过所述第四全连接子模块对所述第二时间特征图进行特征提取，得到第二子行为特征向量。13.如权利要求1-12任一项所述的方法，其特征在于，所述已训练的分类网络包括融合模块、第二全连接模块以及分类模块；所述将所述声音特征向量和所述行为特征向量输入已训练的分类网络进行处理，输出所述目标对象对应的分类结果，包括：通过所述融合模块对所述声音特征向量和所述行为特征向量进行融合处理，得到综合特征向量；通过所述第二全连接模块对所述综合特征向量进行特征提取，得到目标特征向量；通过所述分类模块对所述目标特征向量进行分类处理，得到所述目标对象对应的分类结果。14.一种视频分类装置，其特征在于，包括：获取单元，用于获取关于目标对象的预设时长的视频数据，所述视频数据包括行为信息和声音信息；确定单元，用于根据所述声音信息确定声音特征向量，以及根据所述行为信息确定行为特征向量；分类单元，用于将所述声音特征向量和所述行为特征向量输入已训练的分类网络进行处理，输出所述目标对象对应的分类结果。15.一种服务器，其特征在于，所述服务器包括存储器、处理器以及存储于所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至13任一项所述的视频分类方法中的步骤。16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至13任一项所述的视频分类方法中的步骤。

技术总结
本申请实施例提供了一种视频分类方法、装置、服务器及计算机可读存储介质，该方法首先获取关于目标对象的预设时长的视频数据，视频数据包括行为信息和声音信息，再根据声音信息确定声音特征向量，以及根据行为信息确定行为特征向量，最后，将声音特征向量和行为特征向量输入已训练的分类网络进行处理，输出目标对象对应的分类结果。本申请利用神经网络对包含有目标对象的行为信息和声音信息的视频数据进行自动分析，得到目标对象的健康状况分类结果，提高了健康状况检测效率。提高了健康状况检测效率。提高了健康状况检测效率。

技术研发人员：李繁蔡云龙
受保护的技术使用者：TCL科技集团股份有限公司
技术研发日：2021.12.28
技术公布日：2023/7/13

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种环保型不锈钢口杯拉伸液的制备方法与流程 下一篇：车辆及车辆故障的处理方法及装置、存储介质与流程

视频分类方法、装置、服务器及计算机可读存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

视频分类方法、装置、服务器及计算机可读存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表