基于异质信息网络表示学习的科研团队识别方法及装置
未命名
08-15
阅读:130
评论:0
1.本发明涉及大数据技术领域,尤其涉及一种基于异质信息网络表示学习的科研团队识别方法及装置。
背景技术:
2.具有多种类型的节点和边构成的相互连接、规模宏大、结构复杂的有向图就是一个异质信息网络,异质信息网络中节点的种类数或边的种类数大于1;由学者、论文、会议、期刊等类型的节点和“发表”、“合著”等类型的边组成的异质信息网络为学术异质信息网络。异质信息网络的表示学习是指将原始高维、稀疏空间中的向量映射到低维向量空间中,学习节点低维、稠密的实值向量表示,使相似实体在空间中更加接近,不相似的实体距离更远。
3.随着互联网的快速发展、国内外科研水平的不断提高,期刊论文、基金项目、专利著作等数据的数量出现爆炸性增长态势,这些类型多样的数据中包含的大量与科研团队相关的数据信息构成了相互连接、规模宏大、结构复杂的学术异质信息网络,而基于学术异质信息网络有效的识别出科研团队是非常重要的。传统的科研团队识别方法采用问卷调查的方式来收集与科研团队相关的机构信息、团队项目信息等资料,虽然该方法可以突破空间的限制,但是对于大范围、大规模的科研团队信息收集,问卷调查方式的人力财力和物力成本都将极大提高。
4.因为科研团队成员之间通常具有合著关系、隶属关系、合作作者等紧密的联系,在学术异质信息网络中会形成不同节点之间的不同连接,这些紧密连接的节点聚集便形成了异质信息网络中的社区结构。基于此,目前有的采用基于层次聚类的科研团队识别方法对科研团队进行识别,该方法有效识别科研团队关键在于对复杂学术异质信息网络中的社区结构进行有效挖掘,但是基于层次聚类的科研团队识别方法由于必须要通过相似性计算来度量社区的结构划分,不同的相似性度量指标就会导致不同的社区结构划分结果,因而造成团队识别结果不准确。
5.除上述之外,现有技术中还有的采用基于关联规则的科研团队识别方法进行科研团队的识别,该方法通过挖掘合作最为紧密的最大频繁项集进行科研团队的识别;该基于关联规则的科研团队识别方法虽然可由论文-作者合著关系构成的大规模学术异质信息网络中识别出科研团队,但其无法识别和区分科研团队中团队成员的角色,即无法区分团队负责人、团队核心成员和非核心人员,这降低了科研团队识别结果的实际应用价值。另外,现有技术中也有的采用中心性度量指标来识别合著关系网络中紧密合作的科研人员和团队,该方法采用中心性度量指标,其偏向于处于网络几何中心位置邻居节点数量多的节点,不能够很好的表示和度量由科研团队组成的学术异质信息网络中,不同类型的节点由于不同类型的连接而蕴含的丰富拓扑和语义等异质特性,因而也导致对于学术异质信息网络中的科研团队识别结果不准确。因此,如何准确的识别学术异质信息网络中的科研团队的负责人、核心成员、非核心成员是亟待解决的技术问题。
技术实现要素:
6.有鉴于此,本发明提供了一种基于异质信息网络表示学习的科研团队识别方法及装置,以解决现有技术中存在的一个或多个问题。
7.根据本发明的一个方面,本发明公开了一种基于异质信息网络表示学习的科研团队识别方法,所述方法包括:获取学术异质信息网络信息,基于所述学术异质信息网络信息构建异质图网络结构,确定异质图网络结构中各节点的元路径、元路径邻接向量和邻居节点;将所述各节点的元路径、元路径邻接向量和邻居节点输入至训练好的嵌入表示学习模型中得到各节点与其各邻居节点的结构特征相似度、各节点的各邻居节点的第一节点级别注意力权重;基于各节点的各邻居节点的第一节点级别注意力权重计算各节点的各元路径对应的第二节点级别注意力权重,基于各节点的各元路径对应的第二节点级别注意力权重确定科研团队负责人;基于各节点的各邻居节点的第一节点级别注意力权重及各节点与其各邻居节点的结构特征相似度确定团队核心成员和团队非核心成员。
8.在本发明的一些实施例中,所述方法还包括:基于各节点的各邻居节点的元路径邻接向量和第一节点级别注意力权重确定各节点的邻居节点聚合特征表示,基于各节点的各元路径邻接向量和邻居节点聚合特征表示确定各节点的各元路径对应的结构特征嵌入表示;获取各节点的元路径偏好向量,基于各节点的各元路径对应的结构特征嵌入表示与元路径偏好向量计算各节点的各元路径与所述元路径偏好向量之间的路径相似度,基于所述路径相似度和各节点的各元路径对应的结构特征嵌入表示确定各节点的综合嵌入表示;基于所述综合嵌入表示对初始网络模型进行迭代训练,得到训练好的嵌入表示学习模型。
9.在本发明的一些实施例中,所述嵌入表示学习模型的损失函数为:其中,表示节点集合,,表示节点在标签l上的真值,,表示学习得到的节点在标签l上的预测值,l为标签总数量。
10.在本发明的一些实施例中,获取各节点的元路径偏好向量,基于各节点的各元路径对应的结构特征嵌入表示与元路径偏好向量计算各节点的各元路径与所述元路径偏好向量之间的路径相似度,基于所述路径相似度和各节点的各元路径对应的结构特征嵌入表示确定各节点的综合嵌入表示,包括:确定所述各节点的元路径偏好向量的维度;将所述各节点的各元路径对应的结构特征嵌入表示转换为与所述元路径偏好向量同维度的嵌入表示;分别计算各节点的各元路径对应的维度转换后的嵌入表示与所述元路径偏好向量的路径相似度;
基于各所述路径相似度计算各节点的元路径注意力系数;基于各节点的元路径注意力系数和各节点的各元路径对应的结构特征嵌入表示确定各节点的综合嵌入表示。
11.在本发明的一些实施例中,所述路径相似度的计算公式为:;所述元路径注意力系数的计算公式为:;所述综合嵌入表示的计算公式为:;其中,表示节点的元路径偏好向量,表示节点的维度转换后的嵌入表示,表示节点的元路径偏好向量与维度转换后的嵌入表示的路径相似度,表示向量正则化,表示节点基于元路径π的元路径注意力系数,m表示节点的元路径总数量,表示节点基于元路径π的综合嵌入表示,表示节点基于元路径π的结构特征嵌入表示。
12.在本发明的一些实施例中,基于各节点的各邻居节点的第一节点级别注意力权重计算各节点的各元路径对应的第二节点级别注意力权重,包括:对各第一节点级别注意力权重进行邻居节点重要性排序;选取重要性较高的部分邻居节点,计算所选取的部分邻居节点的第一节点级别注意力权重的平均值作为对应节点的第二节点级别注意力权重。
13.在本发明的一些实施例中,基于各节点的各元路径对应的第二节点级别注意力权重确定科研团队负责人,包括:将第二节点级别注意力权重最大的节点作为科研团队负责人;基于各节点的各邻居节点的第一节点级别注意力权重及各节点与其各邻居节点的结构特征相似度确定团队核心成员和团队非核心成员,包括:基于科研团队负责人对应的节点与其邻居节点的结构特征相似度进行相似度排序;选取相似度较高的部分邻居节点作为科研团队负责人的团队成员集合;基于科研团队负责人对应的节点的各邻居节点的第一节点级别注意力权重进行邻居节点重要性排序;选取重要性较高的部分邻居节点作为科研团队负责人的影响力节点集合;将团队成员集合与影响力节点集合的交集作为团队核心成员;将科研团队负责人对应的节点的所有邻居节点中除交集之外的其他邻居节点作为团队非核心成员。
14.在本发明的一些实施例中,结构特征相似度的计算公式为:
第一节点级别注意力权重的计算公式为:邻居节点聚合特征表示的计算公式为:结构特征嵌入表示的计算公式为:其中,表示节点与节点基于元路径π的结构特征相似度,σ表示激活函数,,为维度转换参数,n为节点总数量,d为目标维度,表示节点基于元路径π的邻居节点聚合特征表示,表示节点基于元路径π的第一节点级别注意力权重,表示节点基于元路径π的元路径邻接向量,表示线性转换的权重系数,r表示实数集,d表示目标维度,表示节点基于元路径π的元路径邻接向量,表示向量拼接,表示节点基于元路径π的邻居节点集合。
15.根据本发明的另一方面,还公开了一种基于学术异质信息网络表示学习的科研团队识别系统,该系统包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如上任一实施例所述方法的步骤。
16.根据本发明的再一方面,还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一实施例所述方法的步骤。本技术所公开的基于异质信息网络表示学习的科研团队识别方法及装置,通过训练好的嵌入表示学习模型得到学术异质信息网络信息的各节点与其各邻居节点的结构特征相似度、各节点的各邻居节点的第一节点级别注意力权重,进一步基于各第一节点级别注意力权重计算各节点的各元路径对应的第二节点级别注意力权重,并根据第二节点级别注意力权重确定科研团队负责人,以及基于第一节点级别注意力权重和各节点与其各邻居节点的结构特征相似度确定团队核心成员和团队非核心成员。该方法可准确的识别学术异质信息网络中的科研团队的负责人、核心成员和非核心成员。
17.另外,该嵌入表示学习模型保留了异质信息网络中节点拓扑结构特征和语义特征,通过节点级别和元路径级别的注意力机制提高了对异质信息网络中节点异质特性的表示能力,从而进一步的提高了团队负责人、团队核心成员和团队非核心成员识别结果的准确度。
18.本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获
知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。
19.本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
20.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,并不构成对本发明的限定。附图中的部件不是成比例绘制的,而只是为了示出本发明的原理。为了便于示出和描述本发明的一些部分,附图中对应部分可能被放大,即,相对于依据本发明实际制造的示例性装置中的其它部件可能变得更大。在附图中:图1为本发明一实施例的基于学术异质信息网络表示学习的科研团队识别方法的流程示意图。
21.图2为本发明一实施例的基于学术异质信息网络表示学习的科研团队识别系统的架构示意图。
具体实施方式
22.为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
23.在此,需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
24.应该强调,术语“包括/包含/具有”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
25.科研团队是指在共同的科技研发目标下,由团队负责人和一定数量的科研人员通过分工合作形成的科技研究群体;科研团队识别则是指在由科研人员-合著关系组成的异质信息网络中,识别和发现属于同一科研团队的团队负责人、团队核心成员和非核心成员。现有的科研团队识别方法由于无法有效挖掘异质信息网络中丰富拓扑和语义等异质特征,而导致在科研团队识别过程中存在团队成员重要性评估不准、无法区分团队成员角色等问题;基于此本技术公开了一种基于学术异质信息网络表示学习的科研团队识别方法及装置,以准确的识别学术异质信息网络中的科研团队的负责人、核心成员、非核心成员。
26.在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
27.图1为本发明一实施例的基于学术异质信息网络表示学习的科研团队识别方法的流程示意图,参考图1,该科研团队识别方法至少包括步骤s10至s40。
28.步骤s10:获取学术异质信息网络信息,基于所述学术异质信息网络信息构建异质图网络结构,确定异质图网络结构中各节点的元路径、元路径邻接向量和邻居节点。
29.在该步骤中,各节点可具有m条元路径,而元路径邻接向量也相应的具有m个,示例性的,节点的基于元路径π的元路径邻接向量可表示为。进一步的,为了简化计算,则
可为节点的基于元路径π的归一化元路径邻接向量。并且,节点的邻居节点为基于异质图网络结构确定的邻居节点。
30.步骤s20:将所述各节点的元路径、元路径邻接向量和邻居节点输入至训练好的嵌入表示学习模型中得到各节点与其各邻居节点的结构特征相似度、各节点的各邻居节点的第一节点级别注意力权重。
31.在该步骤中,基于嵌入表示学习模型学习得到各节点与其邻居节点的结构特征相似度以及各节点的各邻居节点的第一节点级别注意力权重。并且在该实施例中,与节点具有相似结构特征的所有邻居节点将被赋以较大的第一节点级别注意力权重。
32.示例性的,结构特征相似度的计算公式为:第一节点级别注意力权重的计算公式为:其中,表示节点与节点基于元路径π的结构特征相似度,当元路径的总数量为m时,则π∈[1,m],为维度转换参数,表示元路径π的结构特征转换,,r表示实数集,n为节点总数量,d为目标维度,表示节点基于元路径π的元路径邻接向量,表示节点基于元路径π的元路径邻接向量,表示节点基于元路径π的第一节点级别注意力权重,表示基于元路径π与节点相连的邻居节点集合。
[0033]
步骤s30:基于各节点的各邻居节点的第一节点级别注意力权重计算各节点的各元路径对应的第二节点级别注意力权重,基于各节点的各元路径对应的第二节点级别注意力权重确定科研团队负责人。
[0034]
在该步骤中,是基于计算得到的各节点的各元路径对应的第二节点级别注意力权重确定科研团队负责人。科研团队负责人作为科研团队的灵魂和核心,有效识别和发现科研团队负责人是实现科研团队识别的前提和关键;科研团队负责人在学术上成就卓著且具有崇高的威望,对团队决策能够起重要的影响作用,这种重要性作用在科研团队组成的异质信息网络中体现为重要节点更能影响异质信息网络中节点的布局与网络流通性,因而利用节点级别的第二节点级别注意力权重对学术异质信息网络中的科研团队负责人进行识别,第二节点级别注意力权重表示节点的影响力,即将第二节点级别注意力权重最高(影响力最大)的“作者”节点作为科研团队负责人。具体的,基于各节点的各元路径对应的第二节点级别注意力权重确定科研团队负责人,包括:将第二节点级别注意力权重最大的节点作为科研团队负责人。
[0035]
在一实施例中,基于各节点的各邻居节点的第一节点级别注意力权重计算各节点的各元路径对应的第二节点级别注意力权重,包括:对各第一节点级别注意力权重进行邻居节点重要性排序;选取重要性较高的部分邻居节点,计算所选取的部分邻居节点的第一节点级别注意力权重的平均值作为对应节点的第二节点级别注意力权重。
[0036]
可以理解的,同一研究方向的科研人员之间组成科研团队的概率更高,映射到科
研团队组成的学术异质信息网络中就是节点间的结构特征相似度越高,影响力越大,这些节点越有可能形成聚集紧密的簇。节点与节点基于元路径的结构特征相似度如前述计算得到的。学术异质信息网络中代表同一科研团队的科研成员的节点之间一定是通过路径实例相连从而成为彼此的邻居节点,属于同一科研团队的科研成员之间一定具有较高的结构特征相似度,而在学术异质信息网络的表示学习过程中对于通过实例路径与节点相连的所有邻居节点中,与节点具有相似结构特征的邻居节点将会被赋予较大的第一节点级别注意力权重系数。因此采用第一节点级别注意力权重系数度量节点的邻居节点的影响力大小,将节点的邻居节点的第一节点级别注意力权重按照大小进行排序,则选取影响力较大的部分邻居节点。示例性的,可选择前k个第一节点级别注意力权重对应的邻居节点,则此时节点的第二节点级别注意力权重为前k个第一节点级别注意力权重的平均值,即,表示节点的第二节点级别注意力权重,表示邻居节点的第一节点级别注意力权重。
[0037]
在上述实施例中,表示节点的影响力大小,因而进一步的对所有节点的第二节点级别注意力权重进行排序,并将将影响力最大的“作者”节点作为科研团队负责人即实现了科研团队负责人的识别。
[0038]
步骤s40:基于各节点的各邻居节点的第一节点级别注意力权重及各节点与其各邻居节点的结构特征相似度确定团队核心成员和团队非核心成员。
[0039]
在基于上述步骤s30有效识别了科研团队负责人之后,进一步的识别科研团队成员,同一科研团队内的科研人员与科研团队负责人之间具有隶属、合著等紧密的联系,这些关系对应到学术异质信息网络中会形成不同“作者”节点之间的紧密连接,在异质信息网络节点的嵌入表示结果中体现为这些“作者”节点的向量表示具有较高的结构特征相似度。因而通过各节点与其各邻居节点的结构特征相似度可确定与科研团队负责人属于同一团队的团队成员。
[0040]
在一实施例中,基于各节点的各邻居节点的第一节点级别注意力权重及各节点与其各邻居节点的结构特征相似度确定团队核心成员和团队非核心成员,包括:基于科研团队负责人对应的节点与其邻居节点的结构特征相似度进行相似度排序;选取相似度较高的部分邻居节点作为科研团队负责人的团队成员集合;基于科研团队负责人对应的节点的各邻居节点的第一节点级别注意力权重进行邻居节点重要性排序;选取重要性较高的部分邻居节点作为科研团队负责人的影响力节点集合;将团队成员集合与影响力节点集合的交集作为团队核心成员;将科研团队负责人对应的节点的所有邻居节点中除交集之外的其他邻居节点作为团队非核心成员。
[0041]
在该实施例中,首先可从与科研团队负责人节点的结构特征相似的所有邻居节点中选取结构特征相似度位于前p的邻居节点,该p个邻居节点组合成团队成员集合,且该p个邻居节点对应的作者与科研团队负责人属于同一科研团队。进而基于计算得到的科研团队负责人对应的节点的各邻居节点的第一节点级别注意力权重选取第一节点注意力权重位于前p
´
的邻居节点,该p
´
个邻居节点组成影响力节点集合。进一步的求取团队成员集合与影响力节点集合的交集,假设交集中节点的数量为m,则该m个节点对应的科研团队成员为
团队核心成员;进一步的确定科研团队负责人对应的节点的所有邻居节点,则科研团队负责人对应的节点的所有邻居节点中除团队核心成员之外的其他成员均为团队非核心成员,当科研团队负责人对应的节点的所有邻居节点的数量为n时,则团队非核心成员的数量为n-m。
[0042]
可以理解的,在基于上述方法确定了第一科研团队的团队负责人、团队核心成员和团队非核心成员之后,进一步的可获取第二节点级别注意力权重排序第二所对应的节点作为第二科研团队的团队负责人。另外第二科研团队的团队核心成员和团队非核心成员的识别方法与第一科研团队的识别方法类似,在此不做赘述。
[0043]
一实施例中具体的基于学术异质信息网络表示学习的科研团队识别方法的识别过程如下表所示:算法1:基于学术异质信息网络表示学习的科研团队识别方法输入:学术异质信息网络输出:科研团队识别结果1.通过学术异质信息网络表示学习获取网络节点的向量表示;2.计算所有未标记的“作者”节点的影响力大小并排序;3.选取节点影响力最高的节点作为科研团队负责人节点,并标记该节点为“已识别”;4.选取与“科研团队负责人”节点最相似的前p个“作者”节点作为与当前“科研团队负责人”节点同属同一个科研团队的团队核心成员候选节点;5.计算对“科研团队负责人”节点影响力前p
´
的邻居节点与步骤4中p个相似节点的交集,交集结果作为科研团队的“核心团队成员”节点,并标记这些节点为“已识别”;6.“科研团队负责人”节点的其余邻居“作者”节点作为团队的“非核心成员”节点,并标记这些节点为“已识别”;7.输出当前科研团队的识别结果,重复步骤2-6直到所有节点都被标记为“已识别”。为了获得准确的可沿团队识别结果,则训练嵌入表示学习模型以使得嵌入表示学习模型具有较佳的模型参数是重要的,为了训练该嵌入表示学习模型,则一实施例中的基于学术异质信息网络表示学习的科研团队识别方法,还包括如下步骤:基于各节点的各邻居节点的元路径邻接向量和第一节点级别注意力权重确定各节点的邻居节点聚合特征表示,基于各节点的各元路径邻接向量和邻居节点聚合特征表示确定各节点的各元路径对应的结构特征嵌入表示;获取各节点的元路径偏好向量,基于各节点的各元路径对应的结构特征嵌入表示与元路径偏好向量计算各节点的各元路径与所述元路径偏好向量之间的路径相似度,基于所述路径相似度和各节点的各元路径对应的结构特征嵌入表示确定各节点的综合嵌入表示;基于所述综合嵌入表示对初始网络模型进行迭代训练,得到训练好的嵌入表示学习模型。
[0044]
在上述实施例中,当基于嵌入表示学习模型得到各节点与其各邻居节点的结构特征相似度、各节点的各邻居节点的第一节点级别注意力权重之后,则进一步的学习得到异质图网络结构中节点的结构特征嵌入表示和语义特征表示,进而基于结构特征嵌入表示和语义特征表示确定节点的综合嵌入表示。
[0045]
示例性的,邻居节点聚合特征表示的计算公式为:在确定了节点的邻居节点的邻居节点聚合特征表示之后,则进一步的将节点自身的结构特征与邻居节点聚合特征进行拼接得到节点的结构特征嵌入表示,则节点的结构特征嵌入表示的计算公式为:其中,σ表示激活函数,为维度转换参数,表示元路径π的结构特征转换,,r表示实数集,n为节点总数量,d为目标维度,表示节点基于元路径π的邻居节点聚合特征表示,表示节点基于元路径π的第一节点级别注意力权重,表示节点基于元路径π的元路径邻接向量,表示从拼接向量到嵌入空间线性转换的权重系数,r表示实数集,表示节点基于元路径π的元路径邻接向量,表示向量拼接。
[0046]
进一步的,获取各节点的元路径偏好向量,基于各节点的各元路径对应的结构特征嵌入表示与元路径偏好向量计算各节点的各元路径与所述元路径偏好向量之间的路径相似度,基于所述路径相似度和各节点的各元路径对应的结构特征嵌入表示确定各节点的综合嵌入表示,,具体包括:确定所述各节点的元路径偏好向量的维度;将所述各节点的各元路径对应的结构特征嵌入表示转换为与所述元路径偏好向量同维度的嵌入表示;分别计算各节点的各元路径对应的维度转换后的嵌入表示与所述元路径偏好向量的路径相似度;基于各所述路径相似度计算各节点的元路径注意力系数;基于各节点的元路径注意力系数和各节点的各元路径对应的结构特征嵌入表示确定各节点的综合嵌入表示。
[0047]
在该实施例中,为每一个节点引入一个元路径偏好向量来引导元路径注意力机制以实现节点的基于元路径的语义特征表示学习,对于节点基于元路径的结构特征嵌入表示,若它与偏好向量相似则将会被赋予较大的注意力权重系数,使得在节点的综合嵌入表示中的贡献更高。在计算节点的元路径注意力系数时,首先将节点的基于元路径π的结构特征嵌入表示转换为k维空间的嵌入表示,即使得节点的基于元路径π的结构特征嵌入表示的维度与元路径偏好向量的维度相同,则此时维度转换后的结构特征嵌入表示,其中,σ为激活函数,是维度转换的参数,表示偏置项。进一步的计算维度转换后的嵌入表示与所述元路径偏好向量的路径相似度,路径相似度的计算公式为:;其中,表示节点的元路径偏好向量,表示节点的维度转换后的嵌入表示,表示节点的元路径偏好向量与维度转换后的嵌入表示的路径相似度,表示向量正则化。在计算得到路径相似度之后,则进一步的计算
节点的元路径注意力系数;其中,表示节点基于元路径π的元路径注意力系数,m表示节点的元路径总数量。
[0048]
进一步的,异质信息网络中节点最终的综合嵌入表示计算公式为:;其中,表示节点基于元路径π的综合嵌入表示,表示节点基于元路径π的元路径注意力系数,表示节点基于元路径π的结构特征嵌入表示。融合了元路径丰富语义信息的元路径注意力权重,融合了节点结构特征的结构特征嵌入表示,因而节点基于元路径π的综合嵌入表示同时保留了异质信息网络中节点拓扑结构特征和语义特征,从而基于节点级别和元路径级别的注意力机制提高了对异质信息网络中节点异质特性的表示能力。
[0049]
进一步的,为了基于综合嵌入表示对初始网络模型进行迭代训练,以得到训练好的嵌入表示学习模型,则还进一步的需要构建模型的损失函数和样本数据集,则基于样本数据集和损失函数对模型进行预训练。示例性的,在一次迭代训练过程中,当获得了节点的综合嵌入表示之后,则进一步的基于该模型对节点进行分类,以得到节点的预测值,并基于节点的标签值与预测值计算模型的交叉熵损失值。
[0050]
嵌入表示学习模型的损失函数可为:;其中,表示节点集合,,表示节点在标签l上的真值,,表示学习得到的节点在标签l上的预测值,l为标签总数量。
[0051]
在上述实施例中,该基于学术异质信息网络表示学习的科研团队识别方法利用节点级别和元路径级别的注意力机制,对异质信息网络进行结构特征和语义特征表示学习,在同时保留网络中节点丰富的拓扑信息和基于元路径的语义信息的基础上学习低维、密集和实值向量表示;通过聚合网络节点邻居节点的影响力对学术异质信息网络中节点重要性进行评估,基于节点影响力最大化实现科研团队负责人、团队核心成员和非核心成员的有效识别与发现。
[0052]
相应的,本技术还公开了一种基于学术异质信息网络表示学习的科研团队识别系统,该系统包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如上任一实施例所述方法的步骤。
[0053]
图2为本发明一实施例的基于学术异质信息网络表示学习的科研团队识别系统的架构示意图,参考图2,该系统首先将学术异质信息网络转换为异质图网络结构,进而将异质图网络结构输入至嵌入表示学习模型中以进行节点的结构特征表示学习、语义特征表示学习,从而得到节点的综合嵌入表示。在结构特征表示学习过程中,表示节点基于元路径π的元路径邻接向量,分别表示节点的第一个、第二个
…
第个邻居节
点的元路径邻接向量,进一步的基于节点的元路径邻接向量和其邻居节点的元路径邻接向量计算各邻居节点的第一节点级别注意力权重,进一步的,基于节点自身的结构特征和邻居节点的聚合特征得到节点基于各元路径的结构特征嵌入表示。
[0054]
进一步的计算节点基于各元路径的元路径注意力系数,并基于计算得到的节点基于各元路径的元路径注意力系数以及节点的结构特征嵌入表示确定最终的综合嵌入表示。综合嵌入表示用于完成嵌入表示学习模型的预训练。
[0055]
进一步的,系统进行节点相似性关系分析、邻居节点影响力度量以及邻居节点影响力聚合以进行节点影响力评估,并基于节点影响力完成科研团队负责人的识别,基于节点与邻居节点间的结构特征相似度确定的团队成员集合和基于邻居节点的第一节点级别注意力权重确定的影响力节点集合完成科研团队核心成员的识别和科研团队非核心成员的识别。
[0056]
通过上述实施例可以发现,本技术的基于异质信息网络表示学习的科研团队识别方法及装置基于训练好的嵌入表示学习模型可得到各节点与其各邻居节点的结构特征相似度、各节点的各邻居节点的第一节点级别注意力权重,从而进一步的基于各节点的影响力大小、邻居节点与节点之间的结构特征相似度、各邻居节点的影响力大小,识别科研团队负责人、团队核心成员和非核心成员。另外,本技术的嵌入表示学习模型在预训练过程中通过节点级别的注意力机制进行结构特征表示学习,挖掘学术异质信息网络中节点的拓扑结构特征,并基于元路径级别的注意力机制进行语义特征表示学习,挖掘网络中丰富的语义信息;从而在获得学术异质信息网络中节点的低维、稠密和鲁棒表示后,通过探索这些节点间的相似度和邻居节点的影响力大小,通过聚合节点邻居节点的重要性来实现科研团队组成的学术异质信息网络中节点的重要性评估。
[0057]
另外,该发明还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一实施例所述方法的步骤。
[0058]
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(asic)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、rom、闪存、可擦除rom(erom)、软盘、cd-rom、光盘、硬盘、光纤介质、射频(rf)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
[0059]
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描
述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
[0060]
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
[0061]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种基于异质信息网络表示学习的科研团队识别方法,其特征在于,所述方法包括:获取学术异质信息网络信息,基于所述学术异质信息网络信息构建异质图网络结构,确定异质图网络结构中各节点的元路径、元路径邻接向量和邻居节点;将所述各节点的元路径、元路径邻接向量和邻居节点输入至训练好的嵌入表示学习模型中得到各节点与其各邻居节点的结构特征相似度、各节点的各邻居节点的第一节点级别注意力权重;基于各节点的各邻居节点的第一节点级别注意力权重计算各节点的各元路径对应的第二节点级别注意力权重,基于各节点的各元路径对应的第二节点级别注意力权重确定科研团队负责人;基于各节点的各邻居节点的第一节点级别注意力权重及各节点与其各邻居节点的结构特征相似度确定团队核心成员和团队非核心成员。2.根据权利要求1所述的基于异质信息网络表示学习的科研团队识别方法,其特征在于,所述方法还包括:基于各节点的各邻居节点的元路径邻接向量和第一节点级别注意力权重确定各节点的邻居节点聚合特征表示,基于各节点的各元路径邻接向量和邻居节点聚合特征表示确定各节点的各元路径对应的结构特征嵌入表示;获取各节点的元路径偏好向量,基于各节点的各元路径对应的结构特征嵌入表示与元路径偏好向量计算各节点的各元路径与所述元路径偏好向量之间的路径相似度,基于所述路径相似度和各节点的各元路径对应的结构特征嵌入表示确定各节点的综合嵌入表示;基于所述综合嵌入表示对初始网络模型进行迭代训练,得到训练好的嵌入表示学习模型。3.根据权利要求2所述的基于异质信息网络表示学习的科研团队识别方法,其特征在于,所述嵌入表示学习模型的损失函数为:其中,表示节点集合,,表示节点在标签l上的真值,,表示学习得到的节点在标签l上的预测值,l为标签总数量。4.根据权利要求2所述的基于异质信息网络表示学习的科研团队识别方法,其特征在于,获取各节点的元路径偏好向量,基于各节点的各元路径对应的结构特征嵌入表示与元路径偏好向量计算各节点的各元路径与所述元路径偏好向量之间的路径相似度,基于所述路径相似度和各节点的各元路径对应的结构特征嵌入表示确定各节点的综合嵌入表示,包括:确定所述各节点的元路径偏好向量的维度;将所述各节点的各元路径对应的结构特征嵌入表示转换为与所述元路径偏好向量同维度的嵌入表示;分别计算各节点的各元路径对应的维度转换后的嵌入表示与所述元路径偏好向量的路径相似度;基于各所述路径相似度计算各节点的元路径注意力系数;基于各节点的元路径注意力系数和各节点的各元路径对应的结构特征嵌入表示确定
各节点的综合嵌入表示。5.根据权利要求4所述的基于异质信息网络表示学习的科研团队识别方法,其特征在于,所述路径相似度的计算公式为:;所述元路径注意力系数的计算公式为:;所述综合嵌入表示的计算公式为:;其中,表示节点的元路径偏好向量,表示节点的维度转换后的嵌入表示,表示节点的元路径偏好向量与维度转换后的嵌入表示的路径相似度,表示向量正则化,表示节点基于元路径π的元路径注意力系数,m表示节点的元路径总数量,表示节点基于元路径π的综合嵌入表示,表示节点基于元路径π的结构特征嵌入表示。6.根据权利要求1所述的基于异质信息网络表示学习的科研团队识别方法,其特征在于,基于各节点的各邻居节点的第一节点级别注意力权重计算各节点的各元路径对应的第二节点级别注意力权重,包括:对各第一节点级别注意力权重进行邻居节点重要性排序;选取重要性较高的部分邻居节点,计算所选取的部分邻居节点的第一节点级别注意力权重的平均值作为对应节点的第二节点级别注意力权重。7.根据权利要求6所述的基于异质信息网络表示学习的科研团队识别方法,其特征在于,基于各节点的各元路径对应的第二节点级别注意力权重确定科研团队负责人,包括:将第二节点级别注意力权重最大的节点作为科研团队负责人;基于各节点的各邻居节点的第一节点级别注意力权重及各节点与其各邻居节点的结构特征相似度确定团队核心成员和团队非核心成员,包括:基于科研团队负责人对应的节点与其邻居节点的结构特征相似度进行相似度排序;选取相似度较高的部分邻居节点作为科研团队负责人的团队成员集合;基于科研团队负责人对应的节点的各邻居节点的第一节点级别注意力权重进行邻居节点重要性排序;选取重要性较高的部分邻居节点作为科研团队负责人的影响力节点集合;将团队成员集合与影响力节点集合的交集作为团队核心成员;将科研团队负责人对应的节点的所有邻居节点中除交集之外的其他邻居节点作为团队非核心成员。8.根据权利要求2所述的基于异质信息网络表示学习的科研团队识别方法,其特征在于,结构特征相似度的计算公式为:
第一节点级别注意力权重的计算公式为:邻居节点聚合特征表示的计算公式为:结构特征嵌入表示的计算公式为:其中,表示节点与节点基于元路径π的结构特征相似度,σ表示激活函数,,为维度转换参数,n为节点总数量,d为目标维度,表示节点基于元路径π的邻居节点聚合特征表示,表示节点基于元路径π的第一节点级别注意力权重,表示节点基于元路径π的元路径邻接向量,表示线性转换的权重系数,r表示实数集,d表示目标维度,表示节点基于元路径π的元路径邻接向量,表示向量拼接,表示节点基于元路径π的邻居节点集合。9.一种基于异质信息网络表示学习的科研团队识别系统,该系统包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如权利要求1至8中任意一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至8中任意一项所述方法的步骤。
技术总结
本发明提供一种基于异质信息网络表示学习的科研团队识别方法及装置,属于大数据技术领域,包括:获取学术异质信息网络信息,构建异质图网络结构,确定各节点的元路径、元路径邻接向量和邻居节点;将元路径、元路径邻接向量和邻居节点输入至训练好的嵌入表示学习模型中得到各节点与其各邻居节点的结构特征相似度、各邻居节点的第一节点级别注意力权重;基于第一节点级别注意力权重计算节点的第二节点级别注意力权重,基于第二节点级别注意力权重确定科研团队负责人;基于各第一节点级别注意力权重及各节点与其邻居节点的结构特征相似度确定核心成员和非核心成员。该方法可准确的识别学术异质信息网络中的科研团队的负责人、核心成员、非核心成员。非核心成员。非核心成员。
技术研发人员:李雅文 王军富 李昂
受保护的技术使用者:北京邮电大学
技术研发日:2023.07.07
技术公布日:2023/8/14
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
