基于多模态深度特征层级融合的视频情感极性分析方法

未命名 10-09 阅读：103 评论：0

1.本发明涉及智能信息处理与多模态情感技术领域，尤其涉及一种基于多模态深度特征层级融合的视频情感极性分析方法。

背景技术：

2.随着网络、智能移动终端和b站、抖音、快手、youtube等国内外社交媒体平台的快速发展，越来越多的用户倾向于在各类网络社交媒体上以视频的形式分享自己对于某些事件、话题、政策、产品和服务等方面的看法，网络上涌现了大量包含个人情感态度的多媒体视频资源。这些用户生成的视频内容中蕴含着大量的信息，可以反映出说话人的情感、态度和观点，具有巨大的商业价值和应用价值。比如，政府部门可以通过视频分析推断出网民对某政策的看法和态度，当负面消息过多是及时采取有效措施阻断消极内容传，同时为政策改进提供指导；品牌公司可以通过社交媒体视频分析明确民众对于某品牌的评价，负面评价短期增多时可以采取相应的行动，并提出优化方案。此外，研究显示，非职业内容创作者的短视频贡献行为显著增强，政府、社会组织等机构通过分析这些包含大量个人情感态度的多媒体视频资源，应对可能突发的舆论冲击。此外，随着 chatgpt 的问世，情感对话技术引发研究热潮，而准确地理解、识别出视频中说话者的情感是生成情感回复的首要基础。
3.相比文字陈述，包含视觉、语音和文本信息的多模态视频更加符合人类多感官表达和多感官感知的天性，用户可以从多个维度表达和感知视频中的情感，而情感具有非常重要的社会价值和环境适应意义，是人类跨文化交流的核心，人类天然依赖用识别对方情感的方式来判断对方的行为倾向，从而调动合适的大脑资源、调整自己的行为、做出合理的决策。
4.早在上世纪六十年代时，情感在“机器智能”当中的作用已经引起了很多学者的关注，比如，1967年herb simon教授就提出了思维和问题解决的通用理论中必须包括情感的影响；麻省理工学院minsky 教授在1986年出版的《the society of mind》中提出了“情感是机器智能的重要组成部分”的论断；1997年，麻省理工学院多媒体实验室的picard教授提出了情感计算（affective computing）的概念：“情感计算是与情感相关，来源于情感或能够对情感施加影响的计算；1999 年，北京科技大学的王志良教授提出了人工心理理论；中国科学院自动化研究所的胡包刚教授等人也结合自身研究给出了情感计算的定义：“情感计算的目的是通过赋予计算机识别、理解、表达和适应人的情感的能力来建立和谐人机环境，并使计算机具有更高的、全面的智能。”情感计算正逐步成为一个新兴研究领域，随着人工智能技术的发展，情感理论体系的不断积累完善，情感计算将在远程教育、医疗保健、智慧城市、金融科技、智能家电、网络娱乐、心理建设、民生服务、人机自然交互等领域取得更加成熟的应用。
5.情感分析（sentiment analysis, sa）是情感计算领域的关键技术环节之一，旨在利用计算机自动处理和分析采集到的生理数据（心电、脑电、肌电、皮肤电导和呼吸信号等）和行为数据（手势、面部表情、身体姿态和语音语调等），提取出相关情感特征，并据此进行
建模，分析出情感的外在表现与内在状态之间的映射关系，从而将说话人当前的情感状态、情绪类型以及情感强度值等信息预测出来。
6.研究早期，情感分析仅考虑文本模态的信息，从文本的内部语境中抽取出情感线索并用于情感识别。近些年，随着多模态人机交互设备（multimodal human-computer interaction, mhci）的普及和短视频网络平台的发展，陆续诞生了视频博主、vlogger、达人主播和自媒体人等新型职业身份，这些职业者及普通用户都可以随时随地上传发布各类视频，用户生成内容也逐渐从文字形式倾向于视频形式，视频情感分析研究应运而生。
7.心理学领域主要存在两种情感分析理论模型，包括离散型情感分类模型和维度型情感分类模型。离散型情感分类模型将情感表示为各个独立的标签，每种情感之间没有相关性。ekman最早论证了面部表情和情感之间具有相关性，通过跨文化研究表明不同文化环境中的人对某些基本情感的感知方式是相同的，并据此提出基于6种基本情感的分类模型。维度型情感模型通过多维度来表示更细粒度的情感，常用三维模型通过轴和极点来定义情感，将情感分布在每个轴两极之间的不同位置，经典模型包括pad模型和倒锥体情感三维模型。目前用离散型情感模型来进行情感分析仍然是多模态情感计算领域最受欢迎的方法。
8.视频情感分析的目标对象包括从视频中分离出的文本、音频和视觉等多模态信息，为利用视频情感分析技术从这些多模态数据中挖掘出情感极性，现有技术方法通常认为所有多模态特征都对情感分析有促进作用，首先采用各种特征抽取模型获得各模态的原始表征，再使用线性分类器或者多层感知机（multilayer perceptron, mlp）综合所有模态特征来识别视频中的情感；mmmu-ba、dean等技术方法专注于多模态融合方法的创新，利用跨模态注意力机制融合对齐的多模态特征序列，实现了话语级别的情感分析；cia技术方法引入自编码网络指导模型不同模态间的关系。
9.然而，以上方法只能从一个角度捕捉跨模态交互信息，没有考虑到不同模态的之间可能存在信息冗余和相互干扰，多模态信息融合不当可能会在情感分析时带来噪声特征，因此以上方法仍然具有局限性。为弥补上述传统视频情感分析方法的不足，本方法根据视频片段中各模态的特性构造合适的多模态融合方法并建立情感极性分析模型，关注到多模态视频序列中与情感分析最相关的数据特征，联合学习模态间的关联信息。

技术实现要素：

10.为克服现有方法只能从一个角度捕捉跨模态交互信息，在情感分析时带来噪声特征的技术缺陷，本发明提供了一种基于多模态深度特征层级融合的视频情感极性分析方法。
11.本发明公开了基于多模态深度特征层级融合的视频情感极性分析方法，由视频处理单元和情感分析单元实现，包括以下步骤：s1：原始特征提取：通过视频处理单元将完整的视频划分为多个视频片段，基于随机抽样法将多个视频片段划分为训练数据、验证数据和测试数据；采集每个视频片段中说话者的面部表情数据、语音信号数据和文本字幕数据发送至单模态原始特征提取单元，得到三种单模态数据的原始深度特征；s2：构建视频片段情感极性分析模型：
视频片段情感极性分析模型包括多模态特征层级交互融合单元和情感极性判别单元，多模态特征层级交互融合单元包括底层双模态特征交互模块和高层三模态特征层次融合模块，高层三模态特征层次融合模块包括成对双线性门控融合单元和三模态自注意前馈融合单元；先将单模态数据的原始深度特征先经过底层双模态特征交互模块处理，引入成对注意力机制，捕捉任意两个单模态数据之间的语义关系；再分别通过高层三模态特征层次融合模块的成对双线性门控融合单元和三模态自注意前馈融合单元处理，最终得到层级交互融合后的多模态特征；通过情感极性判别单元对多模态特征进行处理，即将多模态特征层级交互融合单元提取的多模态特征经过分类层，计算目标视频片段的情感概率分布结果，最大概率对应的类别即为针对该视频片段判断出的情感极性类型；s3：模型训练与测试：使用训练数据对构建好的视频片段情感极性分析模型进行训练；使用验证数据评估训练过程中视频片段情感极性分析模型的训练效果，不断调整和优化后，得到最优的视频片段情感极性分析模型；使用测试数据对最优的视频片段情感极性分析模型进行测试，并计算最终的情感极性类型的分类效果指标。
12.本发明提供的技术方案与现有技术相比具有如下优点：视频片段中说话者的情感极性识别效果更好，识别率更高；在充分融合多模态特征的同时过滤了融合特征中的冗余和噪声信息，在一定程度上改善了多模态情感特征的表示能力，可以有效识别视频片段中说话人的情感正负极性。
附图说明
13.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。
14.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
15.图1为本发明实施例提供的基于多模态深度特征层级融合的视频情感极性分析方法的流程示意图；图2为本发明实施例提供的基于多模态深度特征层级融合的视频情感极性分析方法的技术路线图；图3为本发明实施例提供的基于多模态深度特征层级融合的视频情感极性分析方法的整体框架示意图；图4为本发明实施例提供的三模态自注意前馈融合单元示意图；图5为本发明实施例提供的成对双线性融合单元示意图；图6为本发明实施例提供的多模态门控机制示意图。
具体实施方式
16.为了能够更清楚地理解本发明的上述目的、特征和优点，下面将对本发明的方案进行进一步描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。
17.在描述中，需要说明的是，术语
ꢀ“
第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。
18.在下面的描述中阐述了很多具体细节以便于充分理解本发明，但本发明还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本发明的一部分实施例，而不是全部的实施例。
19.下面结合附图对本发明的具体实施例进行详细说明。
20.本发明某实施例中，公开了基于多模态深度特征层级融合的视频情感极性分析方法，由视频处理单元和情感分析单元实现，包括以下步骤：s1：原始特征提取：通过视频处理单元将完整的视频划分为多个视频片段，基于随机抽样法将多个视频片段划分为训练数据、验证数据和测试数据；采集每个视频片段中说话者的面部表情数据、语音信号数据和文本字幕数据发送至单模态原始特征提取单元，得到三种单模态数据的原始深度特征；s2：构建视频片段情感极性分析模型：视频片段情感极性分析模型包括多模态特征层级交互融合单元和情感极性判别单元，多模态特征层级交互融合单元包括底层双模态特征交互模块和高层三模态特征层次融合模块，高层三模态特征层次融合模块包括成对双线性门控融合单元和三模态自注意前馈融合单元；先将单模态数据的原始深度特征先经过底层双模态特征交互模块处理，引入成对注意力机制，捕捉任意两个单模态数据之间的语义关系；再分别通过高层三模态特征层次融合模块的成对双线性门控融合单元和三模态自注意前馈融合单元处理，最终得到层级交互融合后的多模态特征；通过情感极性判别单元对多模态特征进行处理，即将多模态特征层级交互融合单元提取的多模态特征经过分类层，具体实施例中，分类层为全连接层和softmax 归一化层，计算目标视频片段的情感概率分布结果，最大概率对应的类别即为针对该视频片段判断出的情感极性类型；s3：模型训练与测试：使用训练数据对构建好的视频片段情感极性分析模型进行训练；使用验证数据评估训练过程中视频片段情感极性分析模型的训练效果，不断调整和优化后，得到最优的视频片段情感极性分析模型；使用测试数据对最优的视频片段情感极性分析模型进行测试，并计算最终的情感极性类型的分类效果指标。
21.在上述实施例的基础上，在一个优选的实施例中，步骤s1中，将完整的视频进行划分时，是将完整的视频以话语为单位进行划分的，其中话语（utterance）被定义为根据视频中语音信号数据的停顿或断句而切分出的多条说话片段；面部表情数据、语音信号数据和文本字幕数据分别对应视觉模态、音频模态和文本模态，从摄像头获取视频片段中说话者的面部表情数据，从麦克风获取视频片段中说话者的面部表情数据，从字幕文档获取视频片段的文本字幕数据，三种单模态数据的原始深度特征的提取步骤为：s11、为提取每个片段的三种模态特征，将视觉模态、音频模态的数据对齐到文本模态上，使视觉模态、音频模态和文本模态的时间步长长度一致，由于在各类语言中，最基本的语言成分是词，因此将三种模态的子序列按照词级别进行对齐，具体利用p2fa工具获
取文本模态中每个词的起止时间戳，再据此对齐到视觉模态序列和音频模态序列，则使视觉模态、音频模态和文本模态的子序列按照词级别实现对齐，获得三种单模态数据对齐的视频片段；s12、利用不同的深度特征抽取方法对三种单模态数据对齐的视频片段进行特征抽取，将形式和来源均不同的异构多模态信息转化为计算机可理解的稠密特征向量，即利用词嵌入技术和cnn网络提取文本模态的原始深度特征，利用opensmile或covarep等常见语音分析框架提取音频模态的原始深度特征，利用facet或3d-cnn等常见视觉分析框架提取视觉模态的原始深度特征。
22.在上述实施例的基础上，在一个优选的实施例中，步骤s2中，底层双模态特征交互模块的处理过程为：捕获各单模态数据的原始深度特征的内部时序依赖，对原始深度特征分别进行编码，接着利用dense层将各单模态数据的原始深度特征映射到一个公共语义空间，消除语义鸿沟，最后，将各单模态数据的原始深度特征两两组合送入成对注意力机制单元以学习双模态间的交互依赖，分别对文本模态-音频模态、音频模态-视觉模态、文本模态-视觉模态这三个双模态组合进行独立训练，最终将成对注意力机制单元输出的三个双模态组合的隐藏层特征取出，作为高层模块的初始输入；高层三模态特征层次融合模块的处理过程为：利用三模态自注意前馈融合单元先过滤三个双模态组合的隐藏层特征的噪音特征，然后提取去除噪音后的三模态特征，再利用成对双线性门控融合单元先获取三模态特征之间的依赖，再进行特征过滤，仅保留与情感分析相关的多模态特征。
23.在上述实施例的基础上，在一个优选的实施例中，基于随机抽样法将多个视频片段划分为训练数据、验证数据和测试数据是指，将所述划分出的视频片段按照8:2的比例划分为总训练数据和测试数据，然后将总训练数据按照8:2的比例划分为训练数据和验证数据。
24.在上述实施例的基础上，在一个优选的实施例中，底层双模态特征交互模块处理时，选择跨模态上下文注意力单元作为成对注意力机制单元，其具体步骤为：s211：将各单模态数据的原始深度特征经过双向门控循环单元捕捉单个模态内部的时序依赖关系，获取包含上下文信息的片段特征表征；s212：将片段特征表示经过具有非线性激励的全连接层，将各模态的话语特征投影到一个维度为d的公共语义空间，得到文本模态、音频模态和视觉模态在公共语义空间的向量表示；s213：将各单模态数据的原始深度特征两两组合，采用三对跨模态上下文注意力单元融合双模态信息，得到三个双模态信息融合后的特征表示向量；s214：应用步骤s211对各单模态数据的原始深度特征进行编码，将三个双模态信息融合后的特征表示向量分别与编码后的单模态数据的原始深度特征对拼接后作为情感极性判别单元的输入，经过一个全连接层和softmax 归一化层，得到目标话语的情绪概率分布；s215：应用步骤s211-步骤s214分别对文本模态-音频模态、音频模态-视觉模态、文本模态-视觉模态这三个双模态组合进行独立训练，最终将跨模态上下文注意力单元输出的三个隐藏层特征，作为高层模块的初始输入。
25.具体实施例中，步骤s213的特征表示向量为，跨模态上下文注意力单元
的具体计算步骤为：的具体计算步骤为：的具体计算步骤为：的具体计算步骤为：的具体计算步骤为：其中，，分别表示两种不同的模态，表示矩阵乘法，表示哈达玛积，表示文本模态和视觉模态融合后的特征向量。
26.具体实施例中，步骤s214的目标话语的情绪概率分布具体计算步骤为：；其中，和分别是全连接层中可学习的权重矩阵和偏置项；表示目标视频片段对应的情感类型概率分布。
27.具体实施例中，底层模块训练时，重要的网络参数值设置如下：隐藏层神经元数量设置为100，学习率设置为1e-3，批大小设置为16，共训练100个epoch，dropout率设置为0.5；采用adam优化器训练网络，相比于随机梯度下降法，adam优化器实现简单，计算高效。
28.在上述实施例的基础上，在一个优选的实施例中，三模态自注意前馈融合单元包括相连接的自注意力过滤层和前馈网络浅层融合层，成对双线性门控融合单元包括相连接的成对双线性融合单元和多模态门控输出层，则高层三模态特征层次融合模块处理时具体步骤为：自注意力过滤层分别过滤文本模态-音频模态、音频模态-视觉模态、文本模态-视觉模态这三个双模态组合的隐藏层特征的噪音特征，得到自注意过滤后的双模态表征，再利用前馈网络浅层融合层提取去除噪音后的双模态表征，将自注意过滤后的双模态表征与前馈融合后的双模态表征拼接，促进梯度反向传播，最终得到自注意前馈融合后的三模态特征表征；利用成对双线性融合单元获取三模态特征表征之间的依赖，再采用多模态门控输出层自适应学习不同输入特征所占的比重，激活对情感分类有用的特征，对特征进行过滤，仅保留与情感分析最相关的多模态特征，多模态门控层给不同输入特征分配不同权重的具体策略为：；其中，分别表示多模态门控输出层的不同输入特征，、和表示利用三个独立双层非线性前馈神经网络自适应学习得到的各输入信息的权重；将各权重分配给各输入特征后在特征维度进行平均，平均操作在降维的同时最大限度保留特征信息；最终得到双线性门控融合后的三模态特征。
29.多模态门控层能够自适应地学习不同输入特征所占的比重，激活对情感分类有用的特征。具体的来说，输入经过双线性融合后的特征，经过多模态门控层的多模态门控输出机制能够给不同输入特征分类不同的权重，消除冗余特征和噪音特征，提高情感特征的判别性。多模态门控机制被广泛用于多模态情感分析任务中，如dean技术方法就利用该机制计算不同模态的重要性，并加权控制每个目标模态的输出。
30.在一些实施例中，首先拼接所有双线性融合后的特征，得到，
接着利用三个独立的双层非线性前馈神经网络自适应学习各输入信息的权重，将各权重分配给各输入特征后在特征维度进行平均，平均操作在降维的同时最大限度保留特征信息。最终得到双线性门控融合后的三模态特征，具体计算过程为：；；；；；其中，表示sigmoid激活函数，, 和,为第一层前馈网络的权重矩阵和偏置项。, 为第二层前馈网络的权重矩阵。
31.该模块引入两个层次的三模态融合机制，分别简称为tri-saffu和pbgfu。tri-saffu先采用自注意力机制过滤底层的双模态特征交互模块训练得到的双模态特征中的噪音，再利用前馈融合得到三模态特征表示。pbgfu利用双线性融合模块（pairwise bi-linear fusion, pbf）获取三模态特征间的依赖，再采用多模态门控输出单元（gated ouput module, gom）进行特征过滤，仅保留与情感分析最相关的特征。
32.在一些实施例中，s221：应用步骤s211-步骤s215获取三个双模态输入特征矩阵，将三个双模态输入特征矩阵经过bigru编码时序依赖关系，使得特定片段包含其前后上下文的信息；添加具有非线性激励的全连接层，令各个双模态的话语特征投影到一个维度为d的公共特征空间；s222：将所述公共特征空间的双模态向量分别经过两个层次的融合单元获取三模态细粒度情感表征，具体为：三模态自注意前馈融合单元和成对双线性门控融合单元。
33.步骤s221经过bigru和非线性全连接编码得到三组双模态特征矩阵，在此基础上，分别对三个特征矩阵进行自注意力操作，去除双模态交互信息中的冗余成分，具体过程如公式：；；；将自注意后的双模态特征表征两两组合，在特征维度上进行拼接后经过全连接层，实现三模态特征的前馈融合，具体过程如公式：；；.其中，和为全连阶层的权重矩阵。
34.在一些实施例中，启发于残差网络，将前馈融合后的双模态表征与自注意过滤后
的双模态表征拼接起来，促进梯度反向传播。最终得到了自注意前馈融合后的三模态特征表示，具体为：。
35.具体实施例中，利用成对双线性融合单元获取三模态特征表征之间的依赖具体包括，所述成对双线性融合单元利用低秩双线性模型使得输入的双模态特征矩阵通过非线性dense层将其嵌入到新的特征空间中；应用哈达玛积来近似双线性模型进行特征充分交互，并添加自注意力机制来关联上下文信息，进一步改进情感特征表示。
36.低秩双线性模型被广泛用于分类任务中，为了降低计算成本，其利用哈达玛积来近似双线性模型，具体计算过程如公式：；；；其中，
⊙
表示哈达玛积，所有输入的双模态对共享权重参数和。
37.在一些实施例中，为进一步改进情感特征表示，以增强模型识别情感的能力，该模块在双线性计算之后采用自注意力来关联上下文信息，以为例，具体计算过程为：；；；同样地，以和为输入，可以得到和。
38.在一些实施例中，将自注意过滤后的双模态表征与前馈融合后的双模态表征，即和进行拼接，同时启发于残差网络，为了便于模型梯度反向传播，将该模块的输入特征，和跳跃链接到该模块的输出上。最终，用于情感判别的情感特征表示为：；对于情感极性分类任务，将经过一个全连接层和softmax 归一化层，得到目标视频片段的情感概率分布，如公式：；其中和分别是全连接层中可学习的权重矩阵和偏置项。表示视频中第个片段对应的情绪标签概率分布。
39.在一些实施例中，为公平地比较模型的性能，所有对比模型均采用二分类交叉熵（cross entropy, ce）损失函数来训练情感极性分类模型，具体公式为：；
其中，表示视频数量，表示第个视频包含的片段数，表示模型预测第个视频第个片段为正例的概率，表示模型预测第个视频第个片段为负例的概率。表示的第个视频第个片段的真实标签，若该片段为正例，则取值为1，否则取0。
40.在一些实施例中，为了防止由于数据量和神经网络参数不匹配而导致的过拟合，加入dropout层来缓解过拟合现象；在一些实施例中，在训练时，重要的网络超参数值设置如下：学习率设置为1e-3 dense层dropout率和bigru层的dropout率分别设置为0.7和0.5，隐藏层单元数量设置为300，批大小设置为16；在实验中，均采用早停策略(early stop)，当测试集上loss值不再减小的次数积累到设定设定阈值时停止训练，实验中两个数据集的阈值均设置为10；在训练神经网络的过程中，使用基于随机梯度下降的adam优化器来优化模型参数。
41.在上述实施例的基础上，在一个优选的实施例中，所述模型训练与测试方法，包括：s41：使用训练数据对构建好的视频片段情感极性分析模型进行训练，并根据训练结构调整模型参数；s42：使用验证数据评估训练过程中调整参数后的视频片段情感极性分析模型的训练效果，用于调整和优化模型，当模型在验证数据上的表现不再优异的次数积累到设定阈值时停止训练，得到最优的视频片段情感极性分析模型；s43：使用测试数据对最优的视频片段情感极性分析模型进行测试，得到待分析的视频片段的情感极性分析结果，并计算最终的情感极性类型的分类效果指标。
42.在一些实施例中，为衡量本发明的情感分析效果，实验采用分类准确率accuracy和weight-avg-f1值这两个评价指标来评估模型的效果，分别简记为acc和f1。同时引入分类结果混淆矩阵来直观地展示模型分类的好坏。为减少实验过程的随机性，同时说明本发明所提方法性能的稳定性，选取十个固定的随机种子进行实验，最终将十次实验中acc和f1值的平均值及其标准差作为实验结果。标准差小，说明多次实验的情况下模型有较为一致表现，模型性能越稳定。
43.以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。尽管参照前述各实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离各实施例技术方案的范围，其均应涵盖权利要求书的保护范围中。

技术特征：
1.基于多模态深度特征层级融合的视频情感极性分析方法，由视频处理单元和情感分析单元实现，其特征在于，包括以下步骤：s1：原始特征提取：通过视频处理单元将完整的视频划分为多个视频片段，基于随机抽样法将多个视频片段划分为训练数据、验证数据和测试数据；采集每个视频片段中说话者的面部表情数据、语音信号数据和文本字幕数据发送至单模态原始特征提取单元，得到三种单模态数据的原始深度特征；s2：构建视频片段情感极性分析模型：视频片段情感极性分析模型包括多模态特征层级交互融合单元和情感极性判别单元，多模态特征层级交互融合单元包括底层双模态特征交互模块和高层三模态特征层次融合模块，高层三模态特征层次融合模块包括成对双线性门控融合单元和三模态自注意前馈融合单元；先将单模态数据的原始深度特征先经过底层双模态特征交互模块处理，引入成对注意力机制，捕捉任意两个单模态数据之间的语义关系；再分别通过高层三模态特征层次融合模块的成对双线性门控融合单元和三模态自注意前馈融合单元处理，最终得到层级交互融合后的多模态特征；通过情感极性判别单元对多模态特征进行处理，即将多模态特征层级交互融合单元提取的多模态特征经过分类层，计算目标视频片段的情感概率分布结果，最大概率对应的类别即为针对该视频片段判断出的情感极性类型；s3：模型训练与测试：使用训练数据对构建好的视频片段情感极性分析模型进行训练；使用验证数据评估训练过程中视频片段情感极性分析模型的训练效果，不断调整和优化后，得到最优的视频片段情感极性分析模型；使用测试数据对最优的视频片段情感极性分析模型进行测试，并计算最终的情感极性类型的分类效果指标。2.根据权利要求1所述的基于多模态深度特征层级融合的视频情感极性分析方法，其特征在于，步骤s1中，将完整的视频进行划分时，是将完整的视频以话语为单位进行划分的，其中话语为根据视频中语音信号数据的停顿或断句而切分出的多条说话片段；面部表情数据、语音信号数据和文本字幕数据分别对应视觉模态、音频模态和文本模态，三种单模态数据的原始深度特征的提取步骤为：s11、将视觉模态、音频模态的数据对齐到文本模态上，使视觉模态、音频模态和文本模态的时间步长长度一致，利用p2fa工具获取文本模态中每个词的起止时间戳，再据此对齐到视觉模态序列和音频模态序列，则使视觉模态、音频模态和文本模态的子序列按照词级别实现对齐，获得三种单模态数据对齐的视频片段；s12、利用不同的深度特征抽取方法对三种单模态数据对齐的视频片段进行特征抽取，即利用词嵌入技术和cnn网络提取文本模态的原始深度特征，利用语音分析框架提取音频模态的原始深度特征，利用视觉分析框架提取视觉模态的原始深度特征。3.根据权利要求2所述的基于多模态深度特征层级融合的视频情感极性分析方法，其特征在于，底层双模态特征交互模块的处理过程为：捕获各单模态数据的原始深度特征的内部时序依赖，对原始深度特征分别进行编码，接着利用dense层将各单模态数据的原始深度特征映射到一个公共语义空间，最后，将各单模态数据的原始深度特征两两组合送入成对注意力机制单元以学习双模态间的交互依赖，分别对文本模态-音频模态、音频模态-视
觉模态、文本模态-视觉模态这三个双模态组合进行独立训练，最终将成对注意力机制单元输出的三个双模态组合的隐藏层特征取出，作为高层模块的初始输入；高层三模态特征层次融合模块的处理过程为：利用三模态自注意前馈融合单元先过滤三个双模态组合的隐藏层特征的噪音特征，然后提取去除噪音后的三模态特征，再利用成对双线性门控融合单元先获取三模态特征之间的依赖，再进行特征过滤，仅保留与情感分析相关的多模态特征。4.根据权利要求3项所述的基于多模态深度特征层级融合的视频情感极性分析方法，其特征在于，底层双模态特征交互模块处理时，选择跨模态上下文注意力单元作为成对注意力机制单元，其具体步骤为：s211：将各单模态数据的原始深度特征经过双向门控循环单元捕捉单个模态内部的时序依赖关系，获取包含上下文信息的片段特征表征；s212：将片段特征表示经过具有非线性激励的全连接层，将各模态的话语特征投影到一个维度为d的公共语义空间，得到文本模态、音频模态和视觉模态在公共语义空间的向量表示；s213：将各单模态数据的原始深度特征两两组合，采用三对跨模态上下文注意力单元融合双模态信息，得到三个双模态信息融合后的特征表示向量；s214：应用步骤s211对各单模态数据的原始深度特征进行编码，将三个双模态信息融合后的特征表示向量分别与编码后的单模态数据的原始深度特征对拼接后作为情感极性判别单元的输入，经过一个全连接层和softmax 归一化层，得到目标话语的情绪概率分布；s215：应用步骤s211-步骤s214分别对文本模态-音频模态、音频模态-视觉模态、文本模态-视觉模态这三个双模态组合进行独立训练，最终将跨模态上下文注意力单元输出的三个隐藏层特征，作为高层模块的初始输入。5.根据权利要求4所述的基于多模态深度特征层级融合的视频情感极性分析方法，其特征在于，三模态自注意前馈融合单元包括相连接的自注意力过滤层和前馈网络浅层融合层，成对双线性门控融合单元包括相连接的成对双线性融合单元和多模态门控输出层，则高层三模态特征层次融合模块处理时具体步骤为：自注意力过滤层分别过滤文本模态-音频模态、音频模态-视觉模态、文本模态-视觉模态这三个双模态组合的隐藏层特征的噪音特征，得到自注意过滤后的双模态表征，再利用前馈网络浅层融合层提取去除噪音后的双模态表征，将自注意过滤后的双模态表征与前馈融合后的双模态表征拼接，最终得到自注意前馈融合后的三模态特征表征；利用成对双线性融合单元获取三模态特征表征之间的依赖，再采用多模态门控输出层自适应学习不同输入特征所占的比重，激活对情感分类有用的特征，对特征进行过滤，仅保留与情感分析最相关的多模态特征，多模态门控层给不同输入特征分配不同权重的具体策略为：；其中，分别表示多模态门控输出层的不同输入特征，、和表示利用三个独立双层非线性前馈神经网络自适应学习得到的各输入信息的权重；将各权重分配给各输入特征后在特征维度进行平均，平均操作在降维的同时最大限度保留特征信息；最终得到双线性门控融合后的三模态特征。6.根据权利要求5所述的基于多模态深度特征层级融合的视频情感极性分析方法，其
特征在于，情感极性判别单元对多模态特征进行处理时，分类层为全连接层和softmax 归一化层。7.根据权利要求6所述的基于多模态深度特征层级融合的视频情感极性分析方法，其特征在于，所述模型训练与测试方法，包括：s41：使用训练数据对构建好的视频片段情感极性分析模型进行训练，并根据训练结构调整模型参数；s42：使用验证数据评估训练过程中调整参数后的视频片段情感极性分析模型的训练效果，用于调整和优化模型，当模型在验证数据上的表现不再优异的次数积累到设定阈值时停止训练，得到最优的视频片段情感极性分析模型；s43：使用测试数据对最优的视频片段情感极性分析模型进行测试，得到待分析的视频片段的情感极性分析结果，并计算最终的情感极性类型的分类效果指标。8.根据权利要求7所述的基于多模态深度特征层级融合的视频情感极性分析方法，其特征在于，基于随机抽样法将多个视频片段划分为训练数据、验证数据和测试数据是指，将所述划分出的视频片段按照8:2的比例划分为总训练数据和测试数据，然后将总训练数据按照8:2的比例划分为训练数据和验证数据。

技术总结
本发明涉及智能信息处理与多模态情感技术领域，尤其涉及一种基于多模态深度特征层级融合的视频情感极性分析方法，解决了背景技术中的技术问题，该方法包括原始特征提取、构建视频片段情感极性分析模型和模型训练与测试；视频片段情感极性分析模型包括多模态特征层级交互融合单元和情感极性判别单元，多模态特征层级交互融合单元包括底层双模态特征交互模块和高层三模态特征层次融合模块，高层三模态特征层次融合模块包括成对双线性门控融合单元和三模态自注意前馈融合单元。本发明在充分融合多模态特征的同时过滤了融合特征中的冗余和噪声，改善了多模态情感特征的表示能力，有效识别视频片段中说话人的情感正负极性。性。性。

技术研发人员：谢珺刘琴续欣莹郝戍峰郝雅卉
受保护的技术使用者：太原理工大学
技术研发日：2023.08.23
技术公布日：2023/10/7

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

基于多模态深度特征层级融合的视频情感极性分析方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

基于多模态深度特征层级融合的视频情感极性分析方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表