基于视图位置信息的多视图多标签分类方法与流程

未命名 07-24 阅读:83 评论:0


1.本发明属于多视图多标签分类领域,更确切地说,涉及一种基于视图位置信息的多视图多标签分类方法。


背景技术:

2.在多视图多标签学习中,每个实例可以与一组标签相关联,这些实例由不同视图的特征共同表示。在许多现实应用中,一个对象具有多个标签,传统的多标签学习基于单一的数据结构进行学习。事实上,随着数据类型的不断增多,多视图数据逐渐成为主流数据类型之一,在视频监控、娱乐媒体等领域呈爆炸式增长。因此,为了更好解决现实场景中更为复杂的分类问题,出现了多视图多标签学习。
3.现有的多视图多标签学习方法通过子空间学习利用视图的共享信息和视图特定信息。然而,在特征提取过程中,往往忽略了特征的位置信息,没有指定特征来自的具体视图。


技术实现要素:

4.本发明所要解决的技术问题在于通过添加视图位置信息优化多视图多标签分类结果。
5.本发明的多视图多标签分类方法,包括以下几个步骤:
6.(1)通过最小化对抗损失l
adv
和共享子空间的多标签损失l
cml
提取视图共享特征c;
7.(2)将提取出的视图共享特征c进行正交约束获取视图特有特征;
8.(3)将视图公共特征与特有特征根据维度结合,添加可学习的位置编码形成协同特征p,p=[p1,p2,...,pm,c]+e
pos
,其中e
pos
为位置编码;
[0009]
(4)为协同特征后进行自注意力学习,得到带有视图位置信息以及自注意分配完成的特征空间p
final

[0010]
(5)将所述最终特征空间与标签空间放入全连接层,获得最终预测结果
[0011]
所述的步骤(1)具体计算过程如下:
[0012]
l
common
=l
adv
+l
cml
[0013][0014][0015]
其中,τ(
·
)=e-x
,si为的m维视图标签向量,其中为1,其他为0,表示的视图来源,y为真实标签,为预测标签,n为样1本数量,m为视图数量,q为标签数量。
[0016]
所述的步骤(2)具体计算过程如下:
[0017]
[0018]
其中为包含所有视图的公共信息的k维特征向量,pm表示第m个视图的特征空间经过特有特征提取层w(
·
)后的k维特征。
[0019]
本发明采用adam作为优化方法,总损失函数可以表示为:
[0020]
l=l
ml
+λl
cml
+γl
special
[0021]
其中,控制最终模型的多标签损失,λ、γ为超参数。
[0022]
所述的步骤(4)具体计算过程如下:
[0023]
将步骤(3)得到的协同特征p放入学习transformer encoder中进行学习,本专利transformer encoder由多头自注意力(multi-headed self-attention,以下简称为msa)和mlp两个模块构成。在msa模块中,视图注意力权重的计算如下:
[0024]
[q,k,v]=pw
qkv
[0025][0026]
sa(p)=av
[0027]
其中dk是比例因子,本文使用自注意力机制,协同特征p与w
qkv
相乘分为三部分作为查询、键和值。在多头注意力机制中,查询、键和值通过线性映射被划分为多个部分,并赋予每个部分相应的注意力权重,本文将协同特征p分为8个部分,公式表示如下:
[0028]
headi=sa(pi)
[0029]
multihead(p1,p2,...,p8)=concat(head1,head2,...,head8)w0[0030]
其中headi表示第i个head的关注度,concat(
·
)是将各个head的输出矩阵根据维度拼接得到新矩阵,再与w0矩阵相乘得到输出。
[0031]
mlp模块包含了两层非线性gelu。
[0032]
transformer encoder整体可以被公式表示为:
[0033]
p0=p=[p1,p2,...,pm,c]+e
pos
[0034]
p
l
'=multihead
l-1
(p1,p2,...,p8)+p
l-1
[0035]
p
l
=mlp(p'
l
)+p'
l
[0036][0037]
本发明能够达到的有益效果如下:
[0038]
现有的多视图多标签分类忽略了视图位置信息在分类过程中的作用,限制了多视图多标签分类领域的研究。本发明提出的方法在多视图多标签分类领域首次提出在特征中加入视图位置信息,改善了多视图多标签分类在图片标注、文本分类等现实领域出现的错标、漏标的情况,提高了分类性能。
附图说明
[0039]
图1是本发明的基于视图位置信息的多视图多标签分类方法的流程图。
[0040]
图2是图1中transformer encoder模块的具体流程示意图。
具体实施方式
[0041]
为了使本发明的目的、技术方案及优点更加清楚明白,以下对本发明的具体实施方式进行进一步详细说明。
[0042]
实施例一
[0043]
如图1、图2可见,本实施例一具体过程如下:
[0044]
(1)输入多标签数据集,通过最小化对抗损失l
adv
和多标签损失l
cml
提取视图共享特征c,计算过程可以表示为:
[0045]
l
common
=l
adv
+l
cml
[0046][0047][0048]
其中,τ(
·
)=e-x
,si为的m维视图标签向量,其中为1,其他为0,表示的视图来源,y为真实标签,为预测标签,n为样本数量,m为视图数量,q为标签数量。
[0049]
(2)将提取出的视图共享特征c进行正交约束获取视图特有特征,可以表示为:
[0050]
其中为包含所有视图的公共信息的k维特征向量,pm表示第m个视图的特征空间经过特有特征提取层w(
·
)后的k维特征。
[0051]
(3)将视图公共特征与特有特征根据维度结合,添加可学习的位置编码形成协同特征p,p=[p1,p2,...,pm,c]+e
pos
,其中e
pos
为位置编码。
[0052]
(4)为协同特征后进行自注意力学习,得到带有视图位置信息以及自注意分配完成的特征空间p
final
,具体过程如图二所示:
[0053]
将协同特征p与分别与可学习的三个权重矩阵wq,wk,wv相乘,作为自注意力机制中的q、k、v,注意力的获取过程为:
[0054]
[q,k,v]=pw
qkv
[0055][0056]
sa(p)=av
[0057]
其中为比例因子;
[0058]
多头注意力机制中,查询、键和值通过线性映射被划分为多个部分,并赋予每个部分相应的注意力权重,本文根据协同特征p根据视图的数量分为8个部分,公式表示如下:
[0059]
headi=sa(pi)
[0060]
multihead(p1,p2,...,p8)=concat(head1,head2,...,head8)w0[0061]
其中headi表示第i个部分的关注度,concat(
·
)是将各个head的输出矩阵根据维度拼接得到新矩阵,再与w0矩阵相乘得到输出。
[0062]
mlp模块包含了两层非线性gelu。
[0063]
transformer encoder整体可以被公式表示为:
[0064][0065]
p
l
'=multihead
l-1
(p1,p2,...,p8)+p
l-1
[0066]
p
l
=mlp(p'
l
)+p'
l
[0067][0068]
(5)将所述最终特征空间与标签空间放入全连接层,获得最终预测结果
[0069]
本发明的具体实施方式包括但不局限于上述实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形,但仍然落入本发明的保护范围。

技术特征:
1.一种基于视图位置信息的多视图多标签分类方法,包括以下步骤:(1)在多视图多标签数据集中,通过最小化对抗损失l
adv
和共享子空间的多标签损失l
cml
提取视图共享特征c;所述多视图多标签数据集由数据集中全部样本对应的多个视图的特征空间和标签空间组成,所述数据集类型包括但不限于生物、音乐和图像;(2)将提取出的视图共享特征c进行正交约束获取视图特有特征;(3)将视图公共特征与特有特征根据维度结合,再加入位置信息编码得到协同特征p,所述位置信息是指特征具体来源的视图位置;(4)对p进行自注意力学习和位置编码学习,得到带有视图位置信息以及自注意分配完成的特征空间p
final
;(5)将所述特征空间p
final
与标签空间放入全连接层,获得最终预测结果2.如权利要求1所述的基于视图位置信息的多视图多标签分类方法,其特征在于:所述步骤(3)位置信息编码添加过程包括:p=[p1,p2,...,p
m
,c]+e
pos
其中e
pos
为位置编码,得到的嵌入矢量矩阵命名为协同特征,用作编码器的输入;添加视图位置编码为1-d位置编码;位置编码维度与共享特征与特有特征根据维度结合后的特征空间维度相同。3.如权利要求1所述的基于视图位置信息的多视图多标签分类方法,其特征在于:所述步骤(4)注意力分配过程包括:协同特征p作为输入进入transformer encoder获得带有视图位置信息以及注意力权重分配的特征空间p
final
,其中q,k,v均来自transformer encoder的输入,自注意力的获取过程为:[q,k,v]=pw
qkv
sa(p)=av其中为比例因子。4.如权利要求3所述的基于视图位置信息的多视图多标签分类方法,其特征在于:所述步骤(4)中,多头自注意力机制中,查询、键和值通过线性映射被划分为多个部分,并赋予每个部分相应的注意力权重,公式表示如下:head
i
=sa(p
i
)multihead(p1,p2,...,p8)=concat(head1,head2,...,head8)w0其中head
i
表示第i个head的关注度,concat(
·
)是将各个head的输出矩阵根据维度拼接得到新矩阵,再与w0矩阵相乘得到输出;mlp(multilayer perceptron)模块包含了两层非线性gelu;transformer encoder整体可以被公式表示为:p0=p=[p1,p2,...,p
m
,c]+e
pos
p
l
'=multihead
l-1
(p1,p2,...,p8)+p
l-1
p
l
=mlp(p'
l
)+p'
l

技术总结
本发明公开了一种基于视图位置信息的多视图多标签分类方法,包括以下步骤:(1)在公共特征提取层通过最小化对抗损失和多标签损失提取视图共享特征;(2)在特有特征提取层通过对(1)提取的共享特征进行正交约束得到视图特有特征;(3)将视图共享特征和特有特征根据维度结合,再加入位置信息编码成为新的特征空间;(4)对进行自注意力学习,得到带有视图位置信息的特征空间;(5)将(4)结果放入全连接层,得到预测结果y。本发明可以有效进行多视图多标签分类,满足图片分类、视频注释等多种应用的需求。的需求。的需求。


技术研发人员:程玉胜 王佳宝 吴海峰 王一宾 程一飞 余钟萍 孙鸿飞
受保护的技术使用者:程玉胜
技术研发日:2023.05.16
技术公布日:2023/7/22
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐