基于交并比度量的异构图对比学习分类方法

未命名 10-18 阅读:101 评论:0


1.本发明属于图神经网络技术领域,具体涉及一种基于交并比度量的异构图对比学习分类方法。


背景技术:

2.处理异构图数据主要有三类方法。第一种方法直接忽视节点与边的类型,从而把异构图看作是同构图,但这种做法丢失了节点与边的类型信息,无法充分利用图中隐藏的信息。第二种方法是使用元路径将异构图转化为由元路径所定义的同构图,这种方法是处理异构图数据中最常用的方法之一。但是,目前基于人工预定义的元路径的异构图神经网络过于依赖于专家知识,而一些基于自学习元路径的异构图神经网络模型,时间与空间复杂度较高,需要占用大量资源,在实际应用中有一定的局限性。第三种方法,即自适应异构信息的方法,无需使用元路径,通常通过自适应异构图结构来对异构图数据建模,然而,类似的方法大多仅直接聚合一阶邻域的信息,而无法直接感知高阶邻域的信息。
3.交并比是一种用于衡量两个集合相似性的度量方法。它定义为两个集合的交集元素数量与并集元素数量之间的比值。其中,交集是指两个集合中同时存在的元素的集合,而并集是指两个集合中所有不同的元素的集合。
4.在图数据分析中,交并比可以应用于节点相似性的计算。具体而言,可以将一个节点的一阶邻居节点表示为一个集合。然后,可以使用交并比来比较两个节点的邻居节点集合之间的相似性。交并比的取值范围是0到1,值越大表示节点邻居的重叠程度越高。当iou为1时,表示图中两个节点的邻居完全一致;当iou为0时,表示两者没有重叠部分。如果两者的交并比较高,表示两个节点的邻居节点集合相似,那么可以认为这两个节点在图中具有较高的相似性。


技术实现要素:

5.鉴于现有技术处理异构图数据可以使用自适应异构信息的方法,通常通过自适应异构图结构来对异构图数据建模,然而,类似的方法大多仅直接聚合一阶邻域的信息,而无法直接感知高阶邻域的信息。
6.本发明考虑将交并比的度量方式引入到图神经网络中,可以结合对比学习的方式,依据相似度排名选择中心节点的正样本,进而计算中心节点与正样本之间的互信息,并与监督损失结合训练模型。
7.由于基于交并比度量方法选择的正样本节点与中心节点的关系不再局限于一跳邻居,而可以是中心节点的高跳邻居,模型通过这种方式可以发现潜在的高阶关系,学习到更丰富的语义信息。
8.由此,本发明提供一种基于交并比度量的异构图对比学习分类方法。
9.首先对节点特征进行预处理;其次,通过基于注意力的一阶邻域信息感知模块,利用节点表示和关系表示计算一阶邻居的注意力得分,加权聚合邻域信息,使得模型具备感
知一阶邻域信息的能力;然后,通过基于交并比度量的的高阶邻域信息感知模块,使用计算一阶邻居集合交并比的方式选择节点的正样本,使模型具备感知高阶邻域信息的能力。
10.本发明具体包含以下设计过程:
11.1.提出了一种基于注意力的一阶邻域信息感知模块,利用节点表示和关系表示计算一阶邻居的注意力得分,加权聚合邻域信息,使得模型具备感知一阶邻域信息的能力。
12.2.提出了一种基于交并比度量的的高阶邻域信息感知模块,使用计算一阶邻居集合交并比的方式选择节点的正样本,使模型具备感知高阶邻域信息的能力。
13.本发明解决其技术问题具体采用的技术方案是:
14.一种基于交并比度量的异构图对比学习分类方法,其特征在于:首先对节点特征进行预处理;其次,通过基于注意力的一阶邻域信息感知模块,利用节点表示和关系表示计算一阶邻居的注意力得分,加权聚合邻域信息,以感知一阶邻域信息;然后,通过基于交并比度量的高阶邻域信息感知模块,使用计算一阶邻居集合交并比的方式选择节点的正样本,以感知高阶邻域信息。
15.进一步地,所述预处理具体为:使用线性变换的方法对节点特征进行处理,将非目标类型的节点特征通过one-hot向量进行替换,再进行线性变换;对于目标节点的特征,则直接进行线性变换。
16.进一步地,所述基于注意力的一阶邻域信息感知模块利用节点表示以及显式建模得到关系表示,根据节点表示和关系表示计算注意力得分,并根据注意力得分加权聚合一阶邻域信息。
17.进一步地,所述基于注意力的一阶邻域信息感知模块的处理过程具体为:
18.每一层中,对于图中的边e,为其学习一个d
l
维的表示其中,ψ(e)∈te,表示该边的类型。节点对之间的注意力得分由节点之间的关系表示计算得到,即:
[0019][0020]
其中,ψ(《i,j》)指的是节点vi与节点vj之间的边,r
ψ(《i,j>)
表示该边的表示向量,是转换关系类型表示的可学习的参数矩阵,a是可学习的参数矩阵,h是节点的表示向量,表示节点i的邻居。
[0021]
此处hi,hj与后文公式中的含义相同,其中,公式(1)指出了每一层如何使用节点的表示hi和hj计算不同节点的注意力得分,公式(2)(3)指出了节点在不同层之间是如何聚集和更新信息的,公式(13)指出了如何通过节点表示计算互信息。
[0022]
为跨层的节点表示添加了预激活的残差连接,在第l层的聚合公式表示为:
[0023][0024]
其中,是关于边的注意力权重,σ是一个激活函数;如果要使维度在第l层发生变化,则还需要一个可学习线性变换即:
[0025][0026]
对注意力分数也使用残差连接,在通过式(1)得到注意力分数后,加入残差连接:
[0027][0028]
其中,比例系数β∈[0,1]是一个超参数;
[0029]
采用多头注意以增强模型的表示能力;根据式(4)执行n个独立的注意力机制;相应的更新规则如下:
[0030][0031][0032][0033]
其中,||表示连接操作,是由第n个线性变换根据式(5)得到的注意力分数;模型在输出节点最终表示时,不选择将结果直接拼接的方式,而是采用了与gat一样取平均的方式,输出第l层的最终表示,即:
[0034][0035]
进一步采用归一化对输出的节点表示进行处理:
[0036][0037]
其中,是从式(8)中得到的节点表示,而oi是节点vi通过l2归一化后的表示。
[0038]
进一步地,为了捕捉到中心节点与其他节点潜在的高阶关系,将交并比的度量方式应用在图神经网络中,所述基于交并比度量的高阶邻域信息感知模块通过计算中心节点与其他节点一阶邻域节点集合的交并比以得到中心节点的正样本,并计算中心节点与正样本对之间的互信息;通过结合所得到的互信息与原有的交叉熵损失来训练模型。
[0039]
进一步地,所述基于交并比度量的高阶邻域信息感知模块中,对于图中的目标节点vi,考虑所有其他的节点vj,其中,j≠i;n(vi)表示节点vi的一阶邻居节点集合,即与vi直接相连的节点集合;同理,n(vj)表示节点vj的一阶邻居节点集合,则节点vi与节点vj的一阶邻域交并比为:
[0040][0041]
对于中心节点vi,取相似度最高的前k个节点作为正样本集合pi,即:
[0042]
pi={vj∣iou(vi,vj)的前k大}
ꢀꢀꢀꢀꢀꢀ
(11)
[0043]
其中,k是超参数;计算交并比的算法采用minhash;
[0044]
通过计算交并比,以量化两个节点之间的相似度,从而找到与中心节点相似度最
高的节点,将其选为正样本,以直接感知到高阶邻域的信息;
[0045]
对于中心节点vi和其正样本集合pi中的每个节点vj,计算它们的互信息,互信息的形式为:
[0046][0047]
其中,p(vi,vj)为vi和vj的联合概率,p(vi)和p(vj)分别为vi和vj的边缘概率;具体使用infonce近似计算互信息,即:
[0048][0049]
其中,超参数τ为温度系数,θ(
·
)为余弦相似度,hi为式(8)得到的节点vi表示。
[0050]
进一步地,所述基于交并比度量的高阶邻域信息感知模块采用的交叉熵函数表示为:
[0051][0052]
其中,是经过线性变换激活后的预测概率,而yi是标签;
[0053]
结合交叉熵损失,则最终的损失函数为:
[0054][0055]
其中,超参数λ为控制各项损失函数的占比。
[0056]
以及,一种基于交并比度量的异构图对比学习分类系统,其特征在于,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上所述的方法。
[0057]
以及,一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上所述的方法。
[0058]
相比于现有技术,本发明及其优选方案首先对节点特征进行预处理;其次,通过基于注意力的一阶邻域信息感知模块,利用节点表示和关系表示计算一阶邻居的注意力得分,加权聚合邻域信息,使得模型具备感知一阶邻域信息的能力;然后,通过基于交并比度量的的高阶邻域信息感知模块,使用计算一阶邻居集合交并比的方式选择节点的正样本,使模型具备感知高阶邻域信息的能力。
附图说明
[0059]
下面结合附图和具体实施方式对本发明进一步详细的说明:
[0060]
图1是本发明实施特征预处理示意图。
[0061]
图2是本发明实施基于注意力的一阶邻域信息感知示意图。
[0062]
图3是本发明实施交并比度量方法示意图。
具体实施方式
[0063]
为让本专利的特征和优点能更明显易懂,下文特举实施例,作详细说明如下:
[0064]
应该指出,以下详细说明都是例示性的,旨在对本技术提供进一步的说明。除非另有指明,本说明书使用的所有技术和科学术语具有与本技术所属技术领域的普通技术人员通常理解的相同含义。
[0065]
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0066]
1.模型概述:
[0067]
本发明实施例提出了一种基于交并比度量的异构图对比学习分类方法,该方法首先对节点特征进行预处理;其次,通过基于注意力的一阶邻域信息感知模块,利用节点表示和关系表示计算一阶邻居的注意力得分,加权聚合邻域信息,使得模型具备感知一阶邻域信息的能力;然后,通过基于交并比度量的高阶邻域信息感知模块,使用计算一阶邻居集合交并比的方式选择节点的正样本,使模型具备感知高阶邻域信息的能力。
[0068]
2.特征预处理
[0069]
节点特征的预处理对于模型的效果存在一定的影响,为了让不同特征维度的节点投影到同一特征空间,本发明使用线性变换的方法对节点特征进行处理,如图1所示。这里对特征进行预处理的方式,是将非目标类型的节点特征通过one-hot向量进行替换,再进行线性变换。对于目标节点的特征,则采取直接进行线性变换的做法。
[0070]
3.基于注意力的一阶邻域信息感知:
[0071]
为了使模型可以更好地直接聚集一阶邻域信息,本发明利用节点表示以及显式建模得到关系表示,根据节点表示和关系表示计算注意力得分,并根据注意力得分加权聚合一阶邻域信息,如图2所示。
[0072]
具体做法是,每一层中,对于图中的边e,模型为其学习一个d
l
维的表示其中,ψ(e)∈te,而节点对之间的注意力得分将由节点之间的关系表示计算得到,即:
[0073][0074]
其中,ψ(《i,j》)指的是节点vi与节点vj之间的边,而是转换关系类型表示的可学习的参数矩阵。
[0075]
图神经网络中往往很难堆叠多层,其原因在于图神经网络中存在过平滑和梯度消失的问题。这里为跨层的节点表示添加了预激活的残差连接,在第l层的聚合公式可以表示为:
[0076][0077]
其中,是关于边的注意力权重,σ是一个激活函数,这里设置为elu。如果要使维度在第l层发生变化,则还需要一个可学习线性变换即:
[0078][0079]
对注意力分数也使用残差连接,对模型也可起到优化效果,在通过式(1)得到注意力分数后,加入残差连接:
[0080][0081]
其中,比例系数β∈[0,1]是一个超参数。
[0082]
本发明采用了多头注意来增强模型的表示能力。具体来说,这里根据式(4)执行k个独立的注意力机制。相应的更新规则如下:
[0083][0084][0085][0086]
其中,||表示连接操作,是由第k个线性变换根据式(5)得到的注意力分数。模型在输出节点最终表示时,不选择将结果直接拼接的方式,而是采用了与gat一样取平均的方式,输出第l层的最终表示,即:
[0087][0088]
将节点的表示通过归一化的进行处理是一种常用的方法。为了使模型取得更好的效果,这里采用了归一化对输出的节点表示进行处理:
[0089][0090]
其中,是从式(8)中得到的节点表示,oi是节点vi通过l2归一化后的表示。
[0091]
4.基于交并比的高阶邻域信息感知:
[0092]
为了让模型可以捕捉到中心节点与其他节点潜在的高阶关系,本发明将交并比的度量方式应用在图神经网络中,通过计算中心节点与其他节点一阶邻域节点集合的交并比来得到中心节点的正样本,并计算中心节点与正样本对之间的互信息。通过结合所得到的互信息与原有的交叉熵损失来训练模型。
[0093]
如图3所示,对于图中的目标节点vi,这里考虑所有其他的节点vj,其中,j≠i。n(vi)表示节点vi的一阶邻居节点集合,即与vi直接相连的节点集合。同理,n(vj)表示节点vj的一阶邻居节点集合,则节点vi与节点vj的一阶邻域交并比为:
[0094][0095]
对于中心节点vi,取相似度最高的前k个节点作为其正样本集合pi,即:
[0096]
pi={vj∣iou(vi,vj)的前k大}
ꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0097]
其中,k是超参数,可以根据实际情况来设置。本发明中实际计算交并比的算法为minhash。
[0098]
通过计算交并比,可以量化两个节点之间的相似度,从而找到与中心节点相似度最高的节点,将其选为正样本。通过这种方式,节点可以直接感知到高阶邻域的信息。
[0099]
对于中心节点vi和其正样本集合pi中的每个节点vj,计算它们的互信息,互信息的形式为:
[0100][0101]
其中,p(vi,vj)为vi和vj的联合概率,p(vi)和p(vj)分别为vi和vj的边缘概率。本发明中,使用infonce来近似计算互信息,即:
[0102][0103]
其中,超参数τ为温度系数,θ(
·
)为余弦相似度,hi为式(8)得到的节点vi表示。
[0104]
本发明的交叉熵函数可以表示为:
[0105][0106]
其中,是经过线性变换激活后的预测概率,而yi是标签。
[0107]
结合交叉熵损失,则最终的损失函数为:
[0108][0109]
其中,超参数λ为控制各项损失函数的占比。
[0110]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0111]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0112]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0113]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计
算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0114]
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
[0115]
本专利不局限于上述最佳实施方式,任何人在本专利的启示下都可以得出其它各种形式的基于交并比度量的异构图对比学习分类方法,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本专利的涵盖范围。

技术特征:
1.一种基于交并比度量的异构图对比学习分类方法,其特征在于:首先对节点特征进行预处理;其次,通过基于注意力的一阶邻域信息感知模块,利用节点表示和关系表示计算一阶邻居的注意力得分,加权聚合邻域信息,以感知一阶邻域信息;然后,通过基于交并比度量的高阶邻域信息感知模块,使用计算一阶邻居集合交并比的方式选择节点的正样本,以感知高阶邻域信息。2.根据权利要求1所述的基于交并比度量的异构图对比学习分类方法,其特征在于:所述预处理具体为:使用线性变换的方法对节点特征进行处理,将非目标类型的节点特征通过one-hot向量进行替换,再进行线性变换;对于目标节点的特征,则直接进行线性变换。3.根据权利要求1所述的基于交并比度量的异构图对比学习分类方法,其特征在于:所述基于注意力的一阶邻域信息感知模块利用节点表示以及显式建模得到关系表示,根据节点表示和关系表示计算注意力得分,并根据注意力得分加权聚合一阶邻域信息。4.根据权利要求3所述的基于交并比度量的异构图对比学习分类方法,其特征在于:所述基于注意力的一阶邻域信息感知模块的处理过程具体为:每一层中,对于图中的边e,为其学习一个d
l
维的表示其中,ψ(e)∈t
e
,表示边e的类型,节点对之间的注意力得分由节点之间的关系表示计算得到,即:其中,ψ(<i,j>)指的是节点v
i
与节点v
j
之间的边,r
ψ(<i,j>)
表示边的表示向量,是转换关系类型表示的可学习的参数矩阵,a是可学习的参数矩阵,h是节点的表示向量,表示节点i的邻居;为跨层的节点表示添加了预激活的残差连接,在第l层的聚合公式表示为:其中,是关于边的注意力权重,σ是一个激活函数;如果要使维度在第l层发生变化,则还需要一个可学习线性变换即:对注意力分数也使用残差连接,在通过式(1)得到注意力分数后,加入残差连接:其中,比例系数β∈[0,1]是一个超参数;采用多头注意以增强模型的表示能力;根据式(4)执行n个独立的注意力机制;相应的更新规则如下:
其中,||表示连接操作,是由第n个线性变换根据式(5)得到的注意力分数;模型在输出节点最终表示时,不选择将结果直接拼接的方式,而是采用了与gat一样取平均的方式,输出第l层的最终表示,即:进一步采用归一化对输出的节点表示进行处理:其中,是从式(8)中得到的节点表示,而o
i
是节点v
i
通过l2归一化后的表示。5.根据权利要求4所述的基于交并比度量的异构图对比学习分类方法,其特征在于:为了捕捉到中心节点与其他节点潜在的高阶关系,将交并比的度量方式应用在图神经网络中,所述基于交并比度量的高阶邻域信息感知模块通过计算中心节点与其他节点一阶邻域节点集合的交并比以得到中心节点的正样本,并计算中心节点与正样本对之间的互信息;通过结合所得到的互信息与原有的交叉熵损失来训练模型。6.根据权利要求5所述的基于交并比度量的异构图对比学习分类方法,其特征在于:所述基于交并比度量的高阶邻域信息感知模块中,对于图中的目标节点v
i
,考虑所有其他的节点v
j
,其中,j≠i;n(v
i
)表示节点v
i
的一阶邻居节点集合,即与v
i
直接相连的节点集合;同理,n(v
j
)表示节点v
j
的一阶邻居节点集合,则节点v
i
与节点v
j
的一阶邻域交并比为:对于中心节点v
i
,取相似度最高的前k个节点作为正样本集合p
i
,即:p
i
={v
j
∣iou(v
i
,v
j
)的前k大}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)其中,k是超参数;计算交并比的算法采用minhash;通过计算交并比,以量化两个节点之间的相似度,从而找到与中心节点相似度最高的节点,将其选为正样本,以直接感知到高阶邻域的信息;对于中心节点v
i
和其正样本集合p
i
中的每个节点v
j
,计算它们的互信息,互信息的形式为:其中,p(v
i
,v
j
)为v
i
和v
j
的联合概率,p(v
i
)和p(v
j
)分别为v
i
和v
j
的边缘概率;具体使用infonce近似计算互信息,即:
其中,超参数τ为温度系数,θ(
·
)为余弦相似度,h
i
为式(8)得到的节点v
i
表示。7.根据权利要求6所述的基于交并比度量的异构图对比学习分类方法,其特征在于:所述基于交并比度量的高阶邻域信息感知模块采用的交叉熵函数表示为:其中,是经过线性变换激活后的预测概率,而y
i
是标签;结合交叉熵损失,则最终的损失函数为:其中,超参数λ为控制各项损失函数的占比。8.一种基于交并比度量的异构图对比学习分类系统,其特征在于,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-7其中任一所述的方法。9.一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-7其中任一所述的方法。

技术总结
本发明的目的在于提供一种基于交并比度量的异构图对比学习分类方法,首先对节点特征进行预处理;其次,通过基于注意力的一阶邻域信息感知模块,利用节点表示和关系表示计算一阶邻居的注意力得分,加权聚合邻域信息,使得模型具备感知一阶邻域信息的能力;然后,通过基于交并比度量的的高阶邻域信息感知模块,使用计算一阶邻居集合交并比的方式选择节点的正样本,使模型具备感知高阶邻域信息的能力。使模型具备感知高阶邻域信息的能力。使模型具备感知高阶邻域信息的能力。


技术研发人员:傅仰耿 黄鑫洋 陈金杰 张启荣 李进
受保护的技术使用者:福州大学
技术研发日:2023.07.14
技术公布日:2023/10/15
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐