一种EMD距离优化方法
未命名
07-22
阅读:115
评论:0
一种emd距离优化方法
技术领域
1.本发明涉及emd距离优化技术领域,具体为一种emd距离优化方法。
背景技术:
2.在图文多模式检索任务中,每个块图片和每个字是不可能具有高一致性,并且算出每个位置上之间的传输信息的计算量是相当复杂的,因为文本通常表示准确并且不具有冗余的信息,属性具有单一性,而图像的块图片信息是冗余的,一个块图片可能既有纹理信息又有颜色信息,而有些块图片和文字描述没有任何关系,这就表示耦合矩阵中并不需要每个位置都传输差值;因此,合理的解释是一个字特征应该与个块图片具有很大的相关性,而不能与所有块图片都相关的问题,为此,我们提出一种实用性更高的一种emd距离优化方法。
技术实现要素:
3.本发明的目的在于提供一种emd距离优化方法,解决了现有的问题。
4.为实现上述目的,本发明提供如下技术方案:一种emd距离优化方法,包括以下步骤:
5.s1、获取耦合矩阵:在图像文本检索中,图像特征、文本特征可以是运输前的状态,也可以是运输后的状态;
6.s2、分析余弦相似度;
7.s3、从余弦距离和最优传输距离的角度重新考虑图文细粒度相似性,获取耦合矩阵的最佳解和相应的距离。
8.优选的,所述图像特征和文本特征高维单纯形向量表示:
[0009][0010]
其中,l1,l2表示在配对的图文对中非负数量的特定位置;
[0011]
耦合矩阵表示图片的第i个块图片特征传输到第j个字特征之间的传输质量,即图片的第i个位置需要传输到文本中第j个位置的数量,大小在0~1之间。
[0012]
优选的,所述耦合矩阵的最佳解和相应的距离可以定义为:
[0013][0014][0015]
其中,k
argmin
表示搜索代价矩阵中列方向上的前k个最小值的位置,k_min表示
搜索代价矩阵中列方向上的前k个最小值;
[0016]
耦合矩阵的目标是在语义层面为每一个字特征找到耦合度最高的k个块图片特征。
[0017]
与现有技术相比,本发明的有益效果如下:
[0018]
本发明基于平均池化相似度,对于涉及语义对齐的单个块图片信息和字信息是不足的,单个字信息应该和个语义对齐的块图片信息有相关性。
[0019]
本发明的平均池化的方式在每个位置具有不同的值,新的耦合矩阵仅在语义对齐下的的块图片特征和字特征之间具有非零值,可以表示一对图像和文本之间更复杂的细粒度语义关系。
具体实施方式
[0020]
下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
[0021]
一种emd距离优化方法,包括以下步骤:
[0022]
s1、获取耦合矩阵:在图像文本检索中,图像特征、文本特征可以是运输前的状态,也可以是运输后的状态;
[0023]
s2、分析余弦相似度;
[0024]
具体而言,拿余弦相似度做平均池化举例,耦合矩阵和代价矩阵的推导具体如下:
[0025]
对于一对匹配的图文对,在分别经过图像、文本编码器之后,图片变成l1个块图片高维特征(l1×
dim),文本变成l2个字高维特征(l1×
dim),针对l1,l2个高维特征做归一化后,得到归一化图片特征和文本特征:
[0026][0027]
其中xi是图片第i个归一化的块图片特征,yj是文本中第j个归一化的字特征。
[0028]
在得到归一化的图片特征和文本特征后,当前匹配的图文相似度为:
[0029][0030]
将相似度转换为相似度距离可以得到:
[0031][0032]
因此,新的图文相似度表针可以表述为下式的新形式:
[0033][0034][0035][0036]
理论上,匹配图文间的距离越小越好,所以对于式(6)而言,越小越好。
[0037][0038][0039]
从式(1)和式(7)的形式上可以看出,匹配图文对的平均距离可以看作最优传输问题的一个天然解,耦合矩阵p
i,j
,代价矩阵c
i,j
可以被定义为:
[0040][0041][0042]
代价矩阵c
i,j
表示从第i个归一化的块图片特征到第j个归一化的字特征之间的代价损失,以及从式(9)来看,代价矩阵中的每个值c
i,j
表示位置i和位置j之间的差距,也表示如果把特征i完全转换成特征j所需要的差值;耦合矩阵p
i,j
表示从第i个归一化的块图片特征到第j个归一化的字特征之间需要传输的差值多少,即给代价矩阵c
i,j
附权重;从式(8)和式(9)来看,图片的块图片和文本的字特征的每个位置都有相应的传输信息,即图片任意i位置上的块图片特征都可以转换成文本任意j位置的字特征,并且传输的多少有耦合矩阵的p
i,j
决定。
[0043]
s3、从余弦距离和最优传输距离的角度重新考虑图文细粒度相似性,获取耦合矩阵的最佳解和相应的距离;
[0044]
从余弦距离和最优传输距离的角度重新考虑了图文细粒度相似性,重新定义了代价矩阵c
i,j
和耦合矩阵p
i,j
,通过人为松弛条件,给出了可行的解决方案。
[0045]
考虑最优传输中对于代价矩阵的定义,先通过余弦距离构造代价矩阵
[0046]
同样的,代价矩阵中的每一个实值c
i,j
表示块图片特征和字特征之
间的相似度,本文用余弦相似度来表示;传输前后的状态向量和步骤s2中的定义一致,即表示预训练的视觉编码器的块图片特征,表示预训练的文本编码器的字特征,这些特征都经过归一化,满足最优传输的状态限制条件;因此,耦合矩阵p
i,j
和距离可以被表达为:
[0047][0048][0049]
在前面的分析中,可得知在最优传输的严格限制下,获得最优耦合矩阵的解对于图文多模态检索是不合理的;因此,针对式(7)的约束条件,可以通过移除其中一个来松弛传输问题,故式(12)表示为:
[0050][0051][0052]
上述的分析得知,由于块图片的冗余性,单个字信息应该和k个语义对齐的块图片信息有相关性,即文字和图片的关系应该是一对多的映射关系,以获得细粒度的对应关系,最后,耦合矩阵的最佳解和相应的距离可以定义为:
[0053][0054][0055]
在式(14)中,k
argmin
表示搜索代价矩阵中列方向上的前k个最小值的位置,k_min表示搜索代价矩阵中列方向上的前k个最小值,耦合矩阵的目标是在语义层面为每一个字特征找到耦合度最高的k个块图片特征,和步骤s2中取平均池化的方式相比,平均池化的方式在每个位置具有不同的值,新的耦合矩阵仅在语义对齐下的的块图片特征和字特征之间具有非零值,可知,这种方法可以表示一对图像和文本之间更复杂的细粒度语义关系。
技术特征:
1.一种emd距离优化方法,其特征在于,包括以下步骤:s1、获取耦合矩阵:在图像文本检索中,图像特征、文本特征可以是运输前的状态,也可以是运输后的状态;s2、分析余弦相似度;s3、从余弦距离和最优传输距离的角度重新考虑图文细粒度相似性,获取耦合矩阵的最佳解和相应的距离。2.根据权利要求1所述的一种emd距离优化方法,其特征在于,所述图像特征和文本特征高维单纯形向量表示:其中,l1,l2表示在配对的图文对中非负数量的特定位置;耦合矩阵表示图片的第i个块图片特征传输到第j个字特征之间的传输质量,即图片的第i个位置需要传输到文本中第j个位置的数量,大小在0~1之间。3.根据权利要求1所述的一种emd距离优化方法,其特征在于,所述耦合矩阵的最佳解和相应的距离可以定义为:和相应的距离可以定义为:其中,k
argmin
表示搜索代价矩阵中列方向上的前k个最小值的位置,k_min表示搜索代价矩阵中列方向上的前k个最小值;耦合矩阵的目标是在语义层面为每一个字特征找到耦合度最高的k个块图片特征。
技术总结
本发明公开了一种EMD距离优化方法,包括以下步骤:S1、获取耦合矩阵:在图像文本检索中,图像特征、文本特征可以是运输前的状态,也可以是运输后的状态;S2、分析余弦相似度;S3、从余弦距离和最优传输距离的角度重新考虑图文细粒度相似性,获取耦合矩阵的最佳解和相应的距离。本发明的平均池化的方式在每个位置具有不同的值,新的耦合矩阵仅在语义对齐下的的块图片特征和字特征之间具有非零值,可以表示一对图像和文本之间更复杂的细粒度语义关系。一对图像和文本之间更复杂的细粒度语义关系。
技术研发人员:蒋恒智 李旦
受保护的技术使用者:复旦大学
技术研发日:2023.03.13
技术公布日:2023/7/20
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
