一种基于图神经网络的论文数据姓名消歧算法

未命名 08-15 阅读:106 评论:0


1.本发明属于实体消歧技术领域,具体涉及一种基于图神经网络的论文数据姓名消歧算法。


背景技术:

2.数字图书馆的出现为学者们提供了高质量的学术信息资源,使他们能够方便地访问海量的学术期刊、论文以及学者信息,从而为他们的学术研究提供了便利。随着科学研究的不断深入,研究人员越来越需要高质量的学术资源来支持其研究工作,因此确保数字图书馆中数据的准确性变得尤为重要。然而,由于作者重名现象的普遍存在以及由于文化差异性所导致的记录方式的不一致,使得学术数据库中存在大量的同名学者,这给用户的信息检索带来了极大的困扰,需要用户花费大量时间对检索结果进行筛选,增加了用户检索的难度,妨碍了科研活动的开展。此外,同名学者的存在还可能会导致学者的研究成果被错误地归属给其他同名学者,这可能会影响学者的知名度和声誉,甚至出现混淆和错误的引用。同时,同名学者的论文引用次数还可能会被错误地算入到某个特定学者的引用计数中,从而影响其学术排名和评估,对科学计量学造成影响,因此同名作者消歧便成为文献数据库亟待解决的问题。
3.针对同名作者消歧问题,现有的解决方法主要分为以下几种:
4.1.基于有监督的消歧方法,主要利用人为标注的训练集训练分类模型对同名作者文献进行分类;但是,基于有监督的消歧方法需要在事先标注好的数据集上进行训练,而人工标注训练集的成本过高,不适合大量数据的消歧,因此具有一定的局限性。
5.2.基于无监督的消歧方法,主要使用文献的属性特征来计算相似度,并运用聚类算法进行消歧;基于无监督的方法不需要事先对数据集进行标注,但在计算文献相似性时,很难选择合适的相似性判定阈值;同时,在进行聚类时,由于无法预先确定同名作者的数量,也就无法确定聚类结果的个数即同名作者簇的数量,因此消歧准确率相对较低。
6.3.基于半监督的消歧方法,该方法介于有监督和无监督之间,它可以使用少量标注的数据信息训练分类器来对大量未标注的数据进行分类,从而提高消歧结果的准确率;但是,这种方法往往具有更为复杂的结构,整体性能较为依赖人工标注信息的完整性,对数据质量要求高,且存在人为产生噪声的可能。
7.4.基于图的消歧方法,通常将作者或论文作为网络的节点,然后根据论文与论文之间或者作者与论文之间的关系构建图,最后通过计算节点之间的相似性或者聚类算法进行消歧;通常此方法的消歧效果较好,但现有的基于图的消歧方法通常只考虑了论文之间的合著关系和引用关系等简单关系,而这些简单关系构建的网络不能够有效的捕捉论文数据中丰富的语义和结构信息。


技术实现要素:

8.鉴于上述,本发明提出了一种基于图神经网络的论文数据姓名消歧算法,该算法
将每篇论文作为异质网络的节点,通过论文属性特征之间的强关联性建立边,并使用一个无监督的图自动编码器学习得到每篇论文的表征向量,同时采用一种分层的注意力机制网络来增强论文的向量表示,最后通过层次聚类算法实现同名作者消歧。
9.一种基于图神经网络的论文数据姓名消歧算法,包括如下步骤:
10.(1)利用特征工程提取论文数据集中每篇论文的论文特征作为姓名消歧的元数据,并将每篇论文作为异质网络中的节点;
11.(2)基于拼音声母的转换方法将论文数据集划分为若干个同名作者簇,以解决同一作者姓名有多种不同写法的问题;
12.(3)使用word2vec对论文特征进行词向量嵌入表示并生成每篇论文的特征向量,进而采用三元组损失模型对特征向量进行调整,最后基于特征向量进行初步聚类;
13.(4)根据论文的共同通讯作者构建学术关系网络,并基于强规则对同一关系网络中的同名作者进行二次聚类;
14.(5)利用图自动编码器来学习学术关系网络中节点的分布式表示,从而得到各节点包含论文属性信息和论文间关系信息的表征向量;
15.(6)使用包含节点级和语义级的分层注意力机制网络来学习同一元路径上不同节点之间的权值关系以及不同元路径之间的权值关系,进而通过加权融合以增强论文节点的表征向量;
16.(7)根据增强后得到的论文表征向量通过层次聚类算法进行聚类,从而实现姓名消歧。
17.进一步地,所述步骤(1)中提取的论文特征由论文属性特征和论文关系特征两部分组成,其中论文属性特征包括作者姓名(第一作者)、邮箱、地址机构名称、标题,论文关系特征包括合著者、关键词、出版物。
18.进一步地,所述步骤(2)的具体实现过程如下:
19.step1:将所有论文的作者姓名均视为类,构成类集合a={a1,a2,

,an};
20.step2:将所有作者姓名均统一成小写并去除特殊符号(例如逗号、分号、连接符等);
21.step3:将作者姓名中的拼音全写用唯一的汉字对应(例如zeng对应曾,zheng对应郑);
22.step4:分析作者姓名是拼音全称还是声母简写,并将拼音全写解析为拼音、拼音对应的声母以及拼音对应的汉字;
23.step5:如果集合a中任意两个类a1与a2的作者姓名均为拼音全写且对应的汉字相同,或者类a1与a2的作者姓名中含有声母简写且对应的声母相同,那么将a1和a2合并为类a
12
,并把类a
12
添加到集合a中,同时去除a1和a2;
24.step6:反复执行step5,直至集合a中没有类可以再合并为止,结束聚类。
25.进一步地,所述步骤(3)中首先通过word2vec生成每项论文特征的词向量,然后通过tf-idf计算每项论文特征的权值,最后将所有词向量加权求和后得到每篇论文的特征向量,具体计算公式如下:
26.27.其中:xm表示论文特征,di表示论文i的特征集合,xi表示论文i的特征向量,表示论文特征xm的词向量,fm表示论文特征xm的权值系数。
28.进一步地,所述步骤(3)中采用三元组损失模型对特征向量进行调整即利用大量正负样本对作为训练数据,正样本对为属于同一作者的两篇论文,负样本对为属于不同作者的两篇论文,进而根据以下损失函数ζd对三元组损失模型进行训练,训练完成后取模型中的word2vec重新计算生成每篇论文的特征向量;
[0029][0030]
其中:y
ij
=1表示论文i和论文j属于同一作者即正样本对,y
ik
=0表示论文i和论文k属于不同作者即负样本对,d
ij
表示论文i与论文j特征向量之间的欧式距离,d
ik
表示论文i与论文k特征向量之间的欧式距离,m为一个固定的边界距离常量,[]
+
为hinge损失函数。
[0031]
进一步地,所述步骤(3)中根据调整后得到的特征向量通过余弦相似度在异质网络中遍历计算任意两个论文节点特征向量之间的相似度,若相似度足够高(即大于阈值),则在这两个节点之间构建一条边。
[0032]
进一步地,由于邮箱地址具有唯一性,在邮箱信息无缺的情况下,如果两位重名作者含有相同的邮箱,则认为这两位作者为同一个人,所述步骤(4)中将与相同通讯作者有合著关系的学者处于同一学术关系网络中。
[0033]
进一步地,所述步骤(4)中的强规则包括:
[0034]

如果两篇论文的作者姓名相同、地址信息相同且含有相同的合著者,那么可以认为这两篇论文属于同一作者;
[0035]

如果两篇论文的作者姓名相同、地址信息相同且发表在同一出版物上,那么可以认为这两篇论文属于同一作者;
[0036]

如果两篇论文的作者姓名相同、地址信息相同且含有相同的关键词,那么可以认为这两篇论文属于同一作者。
[0037]
进一步地,所述步骤(6)中首先通过图注意力网络对同一元路径上的邻居节点进行加权融合,得到节点级的论文表征向量;然后再使用语义级的注意力机制来学习不同元路径的重要性,并融合各个元路径的语义得到最终的论文表征向量;所述元路径即为基于相同论文关系特征连接起来的节点所构成的路径。
[0038]
基于上述技术方案,本发明具有以下有益技术效果:
[0039]
1.本发明利用图神经网络对异质网络中的节点进行表征,可以充分利用节点之间的关联信息,提高消歧的准确率。
[0040]
2.本发明使用无监督的图自动编码器进行论文表征向量的学习,避免了传统消歧方法中需要大量标注数据的问题。
[0041]
3.本发明采用分层的注意力机制网络来学习节点和元路径之间的权值关系,进一步增强了论文的向量表示和消歧的准确率。
附图说明
[0042]
图1为本发明论文数据姓名消歧算法的流程示意图。
[0043]
图2为三元组损失模型的网络结构示意图。
[0044]
图3为本发明同名作者消歧算法的流程示意图。
[0045]
图4为图自动编码器的网络结构示意图。
[0046]
图5为分层注意力机制网络的结构示意图。
[0047]
图6为节点级权值计算示意图。
具体实施方式
[0048]
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
[0049]
如图1所示,本发明基于图神经网络的论文数据姓名消歧算法包括如下步骤:
[0050]
(1)数据预处理。
[0051]
本发明需要对原始数据进行预处理,包括数据清洗和规范化处理。
[0052]
首先,对于原始数据中可能会存在信息缺失、字符异常等问题,统一使用特殊标识“null”进行填充;然后,通过特征工程从中提取论文属性特征和论文关系特征,包括作者姓名、邮箱、合著者、地址机构名称、标题、关键词和出版物,作为消歧的元数据;接着,对获取的文本数据进行去噪和分词处理,包括除标点符号及特殊符号、去掉多余空格和换行符、去掉停用词和字符串小写以及去除无用词,去噪完成后再使用ntlk工具进行分词和提取词根;最后,在每项特征前添加属性标签,以便于后续使用tf-idf进行特征权值计算。
[0053]
(2)解决一人多名问题。
[0054]
本发明使用一种基于拼音声母的方法来解决同一个作者姓名有多种不同写法问题,具体实现方式如下:
[0055]
step1:将每篇论文的作者姓名分别看作一类,构成集合a={a1,a2,

,an};
[0056]
step2:统一去除作者姓名的大小写和特殊符号(例如逗号、分号、连接符等);
[0057]
step3:将每个姓名的拼音用一个唯一的汉字对应,例如“zeng”对应“曾”,“zheng”对应“郑”;
[0058]
step4:分析作者姓名是拼音全称还是声母简写,并将拼音全称解析为拼音、拼音对应的声母和拼音对应的汉字;
[0059]
step5:如果类a1和类a2的作者姓名都为全称且对应的汉字相同,或者类a1和类a2的作者姓名中含有声母简写且对应的声母相同,那么将a1和a2合并为a
12
,并把a
12
添加到集合a中,同时去除a1和a2,否则跳至step7;
[0060]
step6:如果类集合中类的个数大于1,则重复step4和step5;
[0061]
step7:结束聚类。
[0062]
(3)特征内容嵌入。
[0063]
本发明使用word2vec模型生成每项特征的词向量,然后通过tf-idf计算每项特征的权值,最后将所有词向量加权融合取平均得到每篇论文的特征向量xi,具体计算公式如下:
[0064][0065]
其中:xm表示论文特征,di表示论文特征集合,表示每项特征对应的词向量,fm表示每项特征对应的权值系数。
[0066]
得到论文的特征向量之后,再通过三元组损失模型对向量进行调整,得到更为准确的结果。三元组损失模型结构如图2所示,给定两篇论文di和dj,如果它们属于同一作者,则构成一对正样本对;反之,如果它们属于不同的作者,则构成一对负样本对。三元组损失模型的目的是找到一个精确的距离阈值m来区分正样本对和负样本对,它可以让正样本对之间的距离愈发接近,而负样本对之间的距离愈发远离,其损失函数ζd如下所示:
[0067][0068]
其中:d
ij
表示论文节点i到节点j之间的距离,通常采用欧式距离进行计算,即d
ij
=‖d
i-dj‖;y
ij
=1表示两篇论文属于同一作者,即是一对正样本对;y
ik
=0表示两篇论文属于不同作者,即是一对负样本对;[]
+
为hinge损失函数,可以理解为[x]
+
=max(0,x),m是一个固定的边界距离常量。
[0069]
最后,通过余弦相似度计算论文特征向量之间的相似度,如果两篇论文的相似度足够高,则在两论文对应的节点之间构建一条边。
[0070]
(4)关系网络构建。
[0071]
由于邮箱地址具有唯一性,在邮箱信息无缺的情况下,如果两位重名作者含有相同的邮箱,则认为两位作者为同一个人,因此可认为与相同通讯作者有合著关系的学者处于同一学术关系网络中。本发明使用文献的共同通讯作者构建异质学术关系网络,并根据以下算法对同一学术关系网络中的同名作者进行消歧,算法的流程如下:
[0072][0073]
如图3所示,首先通过对比论文a1和a2的邮箱信息来进行第一次聚类,以降低后续聚类的复杂度和提高效率;然后,根据地址机构进行二次聚类,如果地址机构相同,则认为两篇论文属于同一作者;如果一级机构相同,但二级机构不同,可以通过引用和合著关系进行再次判断;如果合著关系和引用关系匹配,则进行聚类;当一级机构无法匹配时,可以通过匹配合著关系、引用关系和学科进行消歧;如果这三项特征都能匹配上,则认为是同一作者,并将其聚类到指定的簇中。
[0074]
(5)关系网络学习。
[0075]
本发明使用一个基于无监督的图自动编码器来学习异质网络中节点的分布表示,然后对节点之间的链接关系进行预测,从而得到新的论文向量表示。图自动编码器的模型结构如图4所示,图自动编码器由节点编码器模型z=g1(y,a)和边解码器模型两部分组成,其中是节点d的嵌入矩阵,a∈rn×n是图g的邻接矩阵,主要用来表示节点之间的关系,要用来表示节点之间的关系,是节点嵌入矩阵,是模型预测的邻接矩阵,目标是使预测的邻接矩阵与原始的邻接矩阵a之间的重构误差最小化。
[0076]
编码部分:图自动编码器使用了一个两层的图卷积神经网络gcn作为编码器,来得到节点的嵌入表示,编码器g1计算公式如下所示:
[0077][0078]
其中:是对称归一化的邻接矩阵,即d是图g的节点度矩阵,relu(.)=max(0,.),w0和w1是图神经网络第一层和第二层的参数。
[0079]
解码部分:图自动编码器采用了内积的方式来重构原始图的结构信息,解码器g2的计算公式如下:
[0080]
g2(z)=sigmoid(z
t
z)
[0081]
节点di和dj之间存在边的概率如下:
[0082][0083]
采用交叉熵作为损失函数,具体公式如下所示:
[0084][0085]
最后,基于图自动编码器可以得到包含论文属性特征信息和论文间关系信息的潜在变量z=[z1,z2,

,zn],并将其作为论文新的向量表示。
[0086]
(6)关系网络增强。
[0087]
本发明使用一种包含节点级和语义级的分层注意力机制网络来增强论文节点的向量表示,网络的结构如图5所示,在节点级的权值计算中,通过图注意力网络对同一元路径上的邻居节点进行加权融合,从而得到更好的节点嵌入表示,节点级计算过程如图6所示。由于已经使用图自动编码器得到了每篇论文的向量表示,因此只需要计算每个邻居节点的权值,给定中心节点i,其邻居节点j的权值计算公式如下:
[0088]nij
=att
node
(ni,nj)=σ(n
t
·
[ni‖nj])
[0089]
其中:n
ij
表示节点j对节点i的重要性,需要注意的是,由于异质网络是非对称的,所以权值系数n
ij
也是非对称的;att
node
表示生成权值的节点级权值网络模型,对于同一元路径上的节点,权值网络模型是一致的;σ表示sigmoid激活函数,n表示节点级的注意力向量,通过单层的前馈神经网络训练得到;ninj表示对应节点的嵌入向量。
[0090]
对节点的注意力值进行归一化可以得到权值系数m
ij
,计算公式如下:
[0091][0092]
其中:ri表示同一元路径上的邻居节点(包括节点i本身)。
[0093]
通过聚合元路径上的邻居节点,可以得到中心节点i的嵌入表示,其计算公式如下所示:
[0094][0095]
在得到各元路径下的节点表示之后,再使用语义级的注意力机制来学习不同元路径的重要性,并融合各个元路径的语义得到最终的向量表示;给定元路径ri,ri的权值计算如下:
[0096][0097]
其中:att
sem
表示语义级的权值网络模型,w是权值矩阵,q是语义级的注意力向量,
通过前馈神经网络得到;ν表示属性特征集合,b为偏置向量;不同类型元路径的权值系数si可用下式计算:
[0098][0099]
将元路径的权值系数与节点嵌入进行加权计算,可以得到节点i的最终表示如下所示:
[0100][0101]
模型采用损失熵作为损失函数,具体计算公式如下所示:
[0102][0103]
其中:c是分类器的参数,y
l
表示带标签的节点,y
l
和z
l
是标签数据的标签值和预测值。
[0104]
(7)聚类。
[0105]
最后,根据增强后得到的论文表征向量通过层次聚类算法进行聚类,从而实现姓名消歧。
[0106]
上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。

技术特征:
1.一种基于图神经网络的论文数据姓名消歧算法,包括如下步骤:(1)利用特征工程提取论文数据集中每篇论文的论文特征作为姓名消歧的元数据,并将每篇论文作为异质网络中的节点;(2)基于拼音声母的转换方法将论文数据集划分为若干个同名作者簇,以解决同一作者姓名有多种不同写法的问题;(3)使用word2vec对论文特征进行词向量嵌入表示并生成每篇论文的特征向量,进而采用三元组损失模型对特征向量进行调整,最后基于特征向量进行初步聚类;(4)根据论文的共同通讯作者构建学术关系网络,并基于强规则对同一关系网络中的同名作者进行二次聚类;(5)利用图自动编码器来学习学术关系网络中节点的分布式表示,从而得到各节点包含论文属性信息和论文间关系信息的表征向量;(6)使用包含节点级和语义级的分层注意力机制网络来学习同一元路径上不同节点之间的权值关系以及不同元路径之间的权值关系,进而通过加权融合以增强论文节点的表征向量;(7)根据增强后得到的论文表征向量通过层次聚类算法进行聚类,从而实现姓名消歧。2.根据权利要求1所述的论文数据姓名消歧算法,其特征在于:所述步骤(1)中提取的论文特征由论文属性特征和论文关系特征两部分组成,其中论文属性特征包括作者姓名、邮箱、地址机构名称、标题,论文关系特征包括合著者、关键词、出版物。3.根据权利要求1所述的论文数据姓名消歧算法,其特征在于:所述步骤(2)的具体实现过程如下:step1:将所有论文的作者姓名均视为类,构成类集合a={a1,a2,

,a
n
};step2:将所有作者姓名均统一成小写并去除特殊符号;step3:将作者姓名中的拼音全写用唯一的汉字对应;step4:分析作者姓名是拼音全称还是声母简写,并将拼音全写解析为拼音、拼音对应的声母以及拼音对应的汉字;step5:如果集合a中任意两个类a1与a2的作者姓名均为拼音全写且对应的汉字相同,或者类a1与a2的作者姓名中含有声母简写且对应的声母相同,那么将a1和a2合并为类a
12
,并把类a
12
添加到集合a中,同时去除a1和a2;step6:反复执行step5,直至集合a中没有类可以再合并为止,结束聚类。4.根据权利要求1所述的论文数据姓名消歧算法,其特征在于:所述步骤(3)中首先通过word2vec生成每项论文特征的词向量,然后通过tf-idf计算每项论文特征的权值,最后将所有词向量加权求和后得到每篇论文的特征向量,具体计算公式如下:其中:x
m
表示论文特征,d
i
表示论文i的特征集合,x
i
表示论文i的特征向量,表示论文特征x
m
的词向量,f
m
表示论文特征x
m
的权值系数。5.根据权利要求1所述的论文数据姓名消歧算法,其特征在于:所述步骤(3)中采用三元组损失模型对特征向量进行调整即利用大量正负样本对作为训练数据,正样本对为属于
同一作者的两篇论文,负样本对为属于不同作者的两篇论文,进而根据以下损失函数ζ
d
对三元组损失模型进行训练,训练完成后取模型中的word2vec重新计算生成每篇论文的特征向量;其中:y
ij
=1表示论文i和论文j属于同一作者即正样本对,y
ik
=0表示论文i和论文k属于不同作者即负样本对,d
ij
表示论文i与论文j特征向量之间的欧式距离,d
ik
表示论文i与论文k特征向量之间的欧式距离,m为一个固定的边界距离常量,[]
+
为hinge损失函数。6.根据权利要求1所述的论文数据姓名消歧算法,其特征在于:所述步骤(3)中根据调整后得到的特征向量通过余弦相似度在异质网络中遍历计算任意两个论文节点特征向量之间的相似度,若相似度足够高,则在这两个节点之间构建一条边。7.根据权利要求1所述的论文数据姓名消歧算法,其特征在于:由于邮箱地址具有唯一性,在邮箱信息无缺的情况下,如果两位重名作者含有相同的邮箱,则认为这两位作者为同一个人,所述步骤(4)中将与相同通讯作者有合著关系的学者处于同一学术关系网络中。8.根据权利要求1所述的论文数据姓名消歧算法,其特征在于:所述步骤(4)中的强规则包括:

如果两篇论文的作者姓名相同、地址信息相同且含有相同的合著者,那么可以认为这两篇论文属于同一作者;

如果两篇论文的作者姓名相同、地址信息相同且发表在同一出版物上,那么可以认为这两篇论文属于同一作者;

如果两篇论文的作者姓名相同、地址信息相同且含有相同的关键词,那么可以认为这两篇论文属于同一作者。9.根据权利要求1所述的论文数据姓名消歧算法,其特征在于:所述步骤(6)中首先通过图注意力网络对同一元路径上的邻居节点进行加权融合,得到节点级的论文表征向量;然后再使用语义级的注意力机制来学习不同元路径的重要性,并融合各个元路径的语义得到最终的论文表征向量;所述元路径即为基于相同论文关系特征连接起来的节点所构成的路径。

技术总结
本发明公开了一种基于图神经网络的论文数据姓名消歧算法,该算法将每篇论文作为异质网络的节点,通过论文属性特征之间的强关联性建立边,并使用无监督的图自动编码器学习得到每篇论文的表征向量,同时还采用分层的注意力机制网络来增强论文的向量表示,最后通过层次聚类算法实现同名作者消歧。相较于传统方法,本发明利用图神经网络对异质网络中的节点进行表征,可以充分利用节点之间的关联信息,提高消歧的准确率;本发明使用无监督的图自动编码器进行论文表征向量的学习,避免了传统消歧方法中需要大量标注数据的问题;本发明采用分层的注意力机制网络来学习节点和元路径之间的权值关系,进一步增强了论文的向量表示和消歧的准确率。歧的准确率。歧的准确率。


技术研发人员:张华熊 汤哲冲 方志坚
受保护的技术使用者:浙江理工大学
技术研发日:2023.05.23
技术公布日:2023/8/13
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐