一种云服务机器人的复杂场景视频问答方法及系统与流程

未命名 08-07 阅读：165 评论：0

1.本发明属于服务机器人视频问答技术领域，尤其涉及一种云服务机器人的复杂场景视频问答方法及系统。

背景技术：

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。
3.服务机器人已经广泛应用于如迎宾、无接触消毒配送等多种现实场景中。在以上场景中，基于视觉的人机交互的问答功能发挥着不可或缺的作用。视频问答(video question answering，videoqa)技术在服务机器人领域应运而生并得以广泛利用。videoqa技术可以根据服务机器人记录的视频内容自动回答生活场景中的问题，通过开发交互式人工智能，极大地促进了在线教育、情景分析、视频内容检索等方面的发展。
4.在持续的视频问答过程中，由于服务机器人不断与外界进行视觉交互并对视频每帧内容进行语义采集与实体定位，机器人会累积大量细微偏差，当偏差累积到一定饱和度，针对视频的问答效果会明显降低；且因为服务机器人工作场景复杂，如医院等同一时刻大量视频信息传入，机器人难以对噪声进行精确清洗并对主要信息进行聚焦，造成问答结果过渡依赖先验知识，实际场景视觉信息抓取度与区分度不够，其服务性能鲁棒性较差且场景考虑单一，传统的单一优化算法也存在稳定性差的缺点，难以被广泛使用。
5.视频问答旨在为复杂的视频和相关问题提供正确的答案，对视频和语言的理解能力都有很高的要求。发明人在研发的过程中发现，现有的视频问答算法系统，将该任务描述为一个多模态融合过程，将整个问题建立到视频内容中，忽略了名词和动词丰富的语义细节，存在稳定性差、耗费成本巨大缺点，因此，难以将理论分析应用于实际评价。

技术实现要素：

6.为了解决上述背景技术中存在的技术问题，本发明提供一种云服务机器人的复杂场景视频问答方法及系统，其能够将分离的名词和动词分别与框架级和运动级特征融合，提高实际服务机器人的人机交互问答的准确性，理解视频不同方面和粒度，从时间和空间领域的细粒度到粗粒度推理问题，使得服务机器人的体验性更好。
7.为了实现上述目的，本发明采用如下技术方案：
8.本发明的第一个方面提供一种云服务机器人的复杂场景视频问答方法，其包括：
9.获取问题文本信息及复杂场景视频，作为待查询的信息交互数据；
10.从问题文本信息中提取所有动词及名词，从待交互的视频数据中提取物体动作信息和物体静态信息；
11.融合动词和物体动作信息，得到视频框架特征；融合名词和物体静态信息，得到行为动作特征；
12.将视频框架特征和行为动作特征这两个特征与先验数据集进行对比学习，从先验
数据集中匹配出文本信息及定位出视频帧信息，再进行多模态融合，得到若干组融合预测结果；
13.将待查询的信息交互数据与所述融合预测结果进行匹配，选取相似度最高的一组融合预测结果，作为视觉问答输出结果。
14.作为一种实施方式，在所述先验数据集中，还对不同场景下机器人视觉问答的先验数据进行特征编码。
15.作为一种实施方式，将视频框架特征和行为动作特征这两个特征与先验数据集进行对比学习的过程包括：
16.获取先验数据集中的视频-问题样本对和待查询的视频-问题样本对；
17.将先验数据集中包含的视觉信息与待查询的视频-问题样本对中的视频信息进行比对。
18.作为一种实施方式，采用文本适配器从问题文本信息中提取所有动词及名词。
19.作为一种实施方式，所述先验数据集中包含不同场景下的视频-问题样本对。
20.作为一种实施方式，在将视频框架特征和行为动作特征这两个特征与先验数据集进行对比学习的过程中，采用交叉熵损失和对比损失来学习先验数据集中的样本对。
21.本发明的第二个方面提供了一种云服务机器人的复杂场景视频问答系统，其包括：
22.交互数据获取模块，其用于获取问题文本信息及复杂场景视频，作为待查询的信息交互数据；
23.信息提取模块，其用于从问题文本信息中提取所有动词及名词，从待交互的视频数据中提取物体动作信息和物体静态信息；
24.信息融合模块，其用于融合动词和物体动作信息，得到视频框架特征；融合名词和物体静态信息，得到行为动作特征；
25.对比学习模块，其用于将视频框架特征和行为动作特征这两个特征与先验数据集进行对比学习，从先验数据集中匹配出文本信息及定位出视频帧信息，再进行多模态融合，得到若干组融合预测结果；
26.结果匹配模块，其用于将待查询的信息交互数据与所述融合预测结果进行匹配，选取相似度最高的一组融合预测结果，作为视觉问答输出结果。
27.作为一种实施方式，在对比学习模块中，将视频框架特征和行为动作特征这两个特征与先验数据集进行对比学习的过程包括：
28.获取先验数据集中的视频-问题样本对和待查询的视频-问题样本对；
29.将先验数据集中包含的视觉信息与待查询的视频-问题样本对中的视频信息进行比对。
30.本发明的第三个方面提供了一种云服务机器人，其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的云服务机器人云服务机器人的复杂场景视频问答方法中的步骤。
31.本发明的第四个方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述的云服务机器人云服务机器人的复杂场景视频问答方法中的步骤。
32.与现有技术相比，本发明的有益效果是：
33.系统将分离的名词和动词分别与框架级和运动级特征融合，其中名词和动词可以来自问题或答案。此外，为了适应不同粒度的基准，包括单词级和语句级，我们设计了一个在线残差结构适配器，用于获得不同模型要求下的单个单词嵌入(名词和动词)或时间顺序嵌入(句子中的单词)。
34.本发明为了提升服务机器人视频问答系统精确度与鲁棒性，借助对比学习算法构建高质量服务机器人videoqa系统，通过引入一种基于对比的抽样方法来提高对问题的理解能力，其中选择一个不相关的问题作为负样本，以打破问题和答案之间的表面相关性。基于设计的架构，我们的模型同时适合多项选择和开放式qa场景。同时，系统使用高效的预训练语言模型来检索常识性知识作为候选答案，以进一步提高模型的性能。其能够提高实际服务机器人的人机交互问答的准确性，理解视频不同方面和粒度，从时间和空间领域的细粒度到粗粒度推理问题，使得服务机器人的体验性更好。
35.本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
附图说明
36.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。
37.图1是本发明实施例中云服务机器人的视频问答模型的工作实例；
38.图2是本发明实施例预训练模型中检索答案的框架示意图；
39.图3是本发明实施例中lstm模型结构示意图；
40.图4(a)是本发明实施例中语言建模的第一种适配器模式示意图；
41.图4(b)是本发明实施例中语言建模的第二种适配器模式示意图；
42.图4(c)是本发明实施例中语言建模的第三种适配器模式示意图；
43.图5(a)是本发明实施例中在nextqa验证集的超参数实验结果1；
44.图5(b)是本发明实施例中在nextqa验证集的超参数实验结果2；
45.图5(c)是本发明实施例中在nextqa验证集的超参数实验结果3；
46.图5(d)是本发明实施例中在nextqa验证集的超参数实验结果4；
47.图6是本发明实施例中残差适配模块结构示意图；
48.图7是本发明实施例中云服务机器人的视觉问答方法中典型模型与基于对比学习的问题抽样模型的结构示意图。
具体实施方式
49.下面结合附图与实施例对本发明作进一步说明。
50.应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
51.需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式
也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
52.服务机器人能够回答关于视频的自然问题是机器人认知能力的有力证明。在复杂的场景交互中，视频流中蕴含的信息量是极为可观的，通过相应信息提取，机器人甚至可以从每帧视频中提取关键信息并给予回答与相应服务。目前由于绝大部分服务机器人本体对于视觉信息利用率低，服务机器人在人机对话时单纯采集对象语义信息、而不能利用视频流中的大量重要信息并作出复杂场景下的准确回答，这使得大多数服务机器人人机交互能力低下，问答结果误差较大，大多数机器人只能应用于特定语义小场景，在很大程度上限制了服务机器人的发展。与文本、图像相比，视频具有更丰富和高质量的时间维度的视觉信息，如何通过一个合理的视频建模方法表示视频并能够提取外观信息和运动信息，同时根据问题找出视频中相关的片段并对回答问题的过程进行指导，处理全部的视频帧来学习时空信息过程中如何降低计算成本，是目前服务机器人视频问答技术的关键难点所在。多模态信息对齐和融合问题。为提升模型适应家庭和医院等环境下处理复杂结构数据的泛化性，提升服务机器人在复杂场景下对视频流问题的准确应答，本发明针对视觉信息提出构建多任务协同和参数共享的视频问答功能，以获取对话视频模态中的先验数据(视频加问题描述)、场景信息、实体及空间关系，更好地提升机器人服务靶向性与人性化，使机器人问答服务功能更加智能，更好理解视觉信息意图。
53.服务机器人的视频问答系统相比于传统的语音问答系统而言，是一项结合计算机视觉和自然语言处理的学习任务，是开发新ai功能的强大测试平台。这项任务需要学习在时空的视觉和语言领域中对物体、关系和事件进行推理。在推理过程中，视频被抽象为交互对象的动态流。在视频事件流的每个阶段，这些对象都会相互交互，并且它们的交互是根据查询和视频的整体上下文进行推理的。计算机视觉主要是对给定图像进行处理，包括图像识别，图像分类等任务。自然语言处理主要是对自然语言文本形式的内容进行处理以及理解，包括机器翻译，信息检索，生成文本摘要等任务。视频问答是需要对给定视频内容和问题进行处理，经过一定的视觉问答技术处理过后生成自然语言答案，是对二者的结合。
54.实施例一
55.参照图1，本实施例提供了一种云服务机器人的复杂场景视频问答方法，其包括以下步骤：
56.获取问题文本信息及复杂场景视频，作为待查询的信息交互数据；
57.从问题文本信息中提取所有动词及名词，从待交互的视频数据中提取物体动作信息和物体静态信息；
58.融合动词和物体动作信息，得到视频框架特征；融合名词和物体静态信息，得到行为动作特征；
59.将视频框架特征和行为动作特征这两个特征与先验数据集进行对比学习，从先验数据集中匹配出文本信息及定位出视频帧信息，再进行多模态融合，得到若干组融合预测结果；
60.将待查询的信息交互数据与所述融合预测结果进行匹配，选取相似度最高的一组融合预测结果，作为视觉问答输出结果。
61.在具体实施过程中，将视频框架特征和行为动作特征这两个特征与先验数据集进
行对比学习，从先验数据集中匹配出文本信息及定位出视频帧信息，再进行多模态融合，得到若干组融合预测结果，该步骤采用如图6所示的残差适配模块来实现。
62.视觉问答任务作为一种交互性任务，特别是现实场景中的问答往往需要先验与常识知识的引入。模型不仅需要完成视觉和语言模态上的表征学习，还需要外部知识的整合与逻辑关系的推理。具体地，构建不同场景下的先验统计模型，针对videoqa先验文本数据进行特征编码。任务概述给定一个视频v相对语言问题q，videoqa旨在通过结合信息v和q预测正确答案a。一般来说，videoqa任务制定如下：
[0063][0064]
其中，代表具有可训练权值θ的建模函数。
[0065]
模型进一步提取句子的名词和动词，从视频内容中提取更丰富的语义信息。具体来说，输入问题q首先由语言处理工具nltk 2划分为名词和动词，然后进一步输入bert编码器，得到单个单词表示。然后，文本适配器表示不同粒度，同时将提取出的运动级和帧级特征投影到相同的d维空间中，分别进行线性变换，然后进行gelu激活和归一化：
[0066][0067][0068]
其中，d表示特征维度空间，fa表示bert编码后的单个单词表示，fm表示名词级词嵌入，gelu为激活函数。通过norm函数就可以将先验数据统计的输出值转换为范围在[0,1]的归一化分布。
[0069]
其中，本实施例提供三种适配器模式分别如图4(a)、图4(b)和图4(c)所示。
[0070]
在获得视觉特征和语言表示后，模型将其连接为组合特征，然后通过一个典型的多模态变压器与自注意力机制融合，得到具有帧级特征的名词表示：
[0071][0072]
其中，dk表示视觉特征的维度。qf，kf和vf表示查询、键和值特征。
[0073]
为了获得用于以下答案预测的时间融合特征ft，系统通过两层线性变换和注意力加权聚合视觉问题表示，然后进行注意力加权：
[0074][0075]
其中，ft表示时间融合特征，表示视觉问题表示。
[0076]
对于名词和动词的基础特征，将其融合后通过一次线性变换得到多模态特征：
[0077][0078]
在答案预测阶段，根据videoqa系统中的整体设置，首先将问题和候选答案连接起来，通过语言建模方法获得全局查询表示fg与预测分布s：
[0079][0080]
其中，ft表示时间问题级融合特征，fnv表示时间名词和动词特征，
⊙
表示阿达玛乘积，λ表示权衡参数。
[0081]
在对比学习模块中，利用对比损失l，以确保负样本预测的答案远离真实答案：
[0082][0083]
其中，k是答案集a中真实答案的索引。
[0084]
此外，交叉熵损失lp用来优化多项选择和开放式预测过程，当预测答案a等于基准真值答案时，yi设为1，否则为0。
[0085][0086]
自此，模型总损失函数为：
[0087]
la＝l
p
+lcꢀꢀꢀ
(10)
[0088]
模型在训练过程中会产生大量的原始数据，这些原始数据存在大量的缺失和噪声，严重影响了数据的质量，对挖掘有效信息造成了一定的困扰，应用一些方法，如数据切割，可以提高数据的质量。
[0089]
实验在公开数据集next-qa数据集、msrvtt数据集与msvd数据集上进行实验。当训练分割和测试分割的答案分布显著不同时，提出了tgif-qa-r数据集来评价videoqa模型的鲁棒性。通过计算精度对该模型进行了评价。本实施例中在nextqa验证集的超参数实验结果1-实验结果4，分别如图5(a)-图5(d)所示。
[0090]
将基于视频问答的云机器人服务对比模型与多个基线模型在相同参数预训练模型下进行训练，对于所有实现的videoqa学习方法，我们通过预训练模型初始化视频与文本描述嵌入，如图2所示。其中，预训练模型可采用如图3所示的lstm模型。
[0091]
在模型训练前对视频-问答对进行随机采样和固定。利用上述公开数据集训练数据对模型进行训练，利用验证数据和测试数据中的关系分别对模型进行调整和评价。实验对比了多个现有模型在相同数据集上的得分情况，评价指标以预测准确率为基础，分别如下：整体指标acca、时间推理指标acc
t
、因果推理指标accc以及描述指标accd。
[0092]
本发明实施例中云服务机器人的视觉问答方法中典型模型与基于对比学习的问题抽样模型的结构示意图，如图7所示。下面以next-qa数据集为例，在next-qa测试集和训练集上对基线模型与本模型进行问答得分比较，在其上所有模型的性能如下表1、表2所示：
[0093]
表1next-qa训练集上各模型问答得分对比结果
[0094][0095]
表2next-qa测试集上各模型问答得分对比结果
[0096][0097]
实验结果如上表所示，很明显证明，与传统的videoqa学习方法相比，本模型在两个数据集上都取得了更好的性能，基于视觉问答的云机器人服务视频问答系统更适合于解决视觉问答问题，结合视频与文本描述信息，给出精确回答。
[0098]
实施例二
[0099]
本实施例提供了一种云服务机器人的复杂场景视频问答系统，其包括：
[0100]
交互数据获取模块，其用于获取问题文本信息及复杂场景视频，作为待查询的信息交互数据；
[0101]
信息提取模块，其用于从问题文本信息中提取所有动词及名词，从待交互的视频数据中提取物体动作信息和物体静态信息；
[0102]
信息融合模块，其用于融合动词和物体动作信息，得到视频框架特征；融合名词和物体静态信息，得到行为动作特征；
[0103]
对比学习模块，其用于将视频框架特征和行为动作特征这两个特征与先验数据集
进行对比学习，从先验数据集中匹配出文本信息及定位出视频帧信息，再进行多模态融合，得到若干组融合预测结果；
[0104]
结果匹配模块，其用于将待查询的信息交互数据与所述融合预测结果进行匹配，选取相似度最高的一组融合预测结果，作为视觉问答输出结果。
[0105]
其中，在对比学习模块中，将视频框架特征和行为动作特征这两个特征与先验数据集进行对比学习的过程包括：
[0106]
获取先验数据集中的视频-问题样本对和待查询的视频-问题样本对；
[0107]
将先验数据集中包含的视觉信息与待查询的视频-问题样本对中的视频信息进行比对。
[0108]
实施例三
[0109]
本实施例提供了一种云服务机器人，其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的云服务机器人云服务机器人的复杂场景视频问答方法中的步骤。
[0110]
实施例四
[0111]
本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述的云服务机器人云服务机器人的复杂场景视频问答方法中的步骤。
[0112]
本发明是参照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0113]
以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

技术特征：
1.一种云服务机器人的复杂场景视频问答方法，其特征在于，包括：获取问题文本信息及复杂场景视频，作为待查询的信息交互数据；从问题文本信息中提取所有动词及名词，从待交互的视频数据中提取物体动作信息和物体静态信息；融合动词和物体动作信息，得到视频框架特征；融合名词和物体静态信息，得到行为动作特征；将视频框架特征和行为动作特征这两个特征与先验数据集进行对比学习，从先验数据集中匹配出文本信息及定位出视频帧信息，再进行多模态融合，得到若干组融合预测结果；将待查询的信息交互数据与所述融合预测结果进行匹配，选取相似度最高的一组融合预测结果，作为视觉问答输出结果。2.如权利要求1所述的云服务机器人的复杂场景视频问答方法，其特征在于，在所述先验数据集中，还对不同场景下机器人视觉问答的先验数据进行特征编码。3.如权利要求1所述的云服务机器人的复杂场景视频问答方法，其特征在于，将视频框架特征和行为动作特征这两个特征与先验数据集进行对比学习的过程包括：获取先验数据集中的视频-问题样本对和待查询的视频-问题样本对；将先验数据集中包含的视觉信息与待查询的视频-问题样本对中的视频信息进行比对。4.如权利要求1所述的云服务机器人的复杂场景视频问答方法，其特征在于，采用文本适配器从问题文本信息中提取所有动词及名词。5.如权利要求1所述的云服务机器人的复杂场景视频问答方法，其特征在于，所述先验数据集中包含不同场景下的视频-问题样本对。6.如权利要求1所述的云服务机器人的复杂场景视频问答方法，其特征在于，在将视频框架特征和行为动作特征这两个特征与先验数据集进行对比学习的过程中，采用交叉熵损失和对比损失来学习先验数据集中的样本对。7.一种云服务机器人的复杂场景视频问答系统，其特征在于，包括：交互数据获取模块，其用于获取问题文本信息及复杂场景视频，作为待查询的信息交互数据；信息提取模块，其用于从问题文本信息中提取所有动词及名词，从待交互的视频数据中提取物体动作信息和物体静态信息；信息融合模块，其用于融合动词和物体动作信息，得到视频框架特征；融合名词和物体静态信息，得到行为动作特征；对比学习模块，其用于将视频框架特征和行为动作特征这两个特征与先验数据集进行对比学习，从先验数据集中匹配出文本信息及定位出视频帧信息，再进行多模态融合，得到若干组融合预测结果；结果匹配模块，其用于将待查询的信息交互数据与所述融合预测结果进行匹配，选取相似度最高的一组融合预测结果，作为视觉问答输出结果。8.如权利要求7所述的云服务机器人的复杂场景视频问答系统，其特征在于，在对比学习模块中，将视频框架特征和行为动作特征这两个特征与先验数据集进行对比学习的过程包括：
获取先验数据集中的视频-问题样本对和待查询的视频-问题样本对；将先验数据集中包含的视觉信息与待查询的视频-问题样本对中的视频信息进行比对。9.一种云服务机器人，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1-6中任一项所述的云服务机器人云服务机器人的复杂场景视频问答方法中的步骤。10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的云服务机器人云服务机器人的复杂场景视频问答方法中的步骤。

技术总结
本发明属于服务机器人视频问答技术领域，提供云服务机器人的复杂场景视频问答方法及系统。其中，复杂场景视频问答方法包括获取问题文本信息及复杂场景视频，作为待查询的信息交互数据；从问题文本信息中提取所有动词及名词，从待交互的视频数据中提取物体动作信息和物体静态信息；融合动词和物体动作信息，得到视频框架特征；融合名词和物体静态信息，得到行为动作特征；将视频框架特征和行为动作特征这两个特征与先验数据集进行对比学习，从先验数据集中匹配出文本信息及定位出视频帧信息，进行多模态融合，得到融合预测结果；将待查询的信息交互数据与所述融合预测结果进行匹配，选取相似度最高的一组融合预测结果，作为视觉问答输出结果。问答输出结果。问答输出结果。

技术研发人员：周风余刘进范崇峰陈建业郑学汗颜国翠
受保护的技术使用者：山东芯辰人工智能科技有限公司山东正晨科技股份有限公司
技术研发日：2023.03.27
技术公布日：2023/8/5

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种级联电源电路及降频控制方法与流程 下一篇：一种同位素轻组分分离仿真方法及系统与流程

一种云服务机器人的复杂场景视频问答方法及系统与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种云服务机器人的复杂场景视频问答方法及系统与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表