电网设备标准条款差异的确定方法、装置及电子设备与流程
未命名
07-27
阅读:111
评论:0
1.本发明涉及知识图谱技术领域,具体而言,涉及一种电网设备标准条款差异的确定方法、装置及电子设备。
背景技术:
2.设备是推动电网转型升级的重要物质基础,随着电力网络设备数量、种类的不断增加,设备安全与应用管理工作面临新的要求和挑战,电力设备标准条款是安全与应用管理的一种重要方式,不同的电力设备对应于不同的电力设备标准条款。但是随着电力设备分类的不断细化,经常出现多个电力设备对应的标准条款相似度较大,容易导致电力设备标准条款误用或混用的情况,相关技术中主要通过人工识别方式对多个相似的电力设备标准条款进行区别,识别工作量大且识别效率低。
3.针对上述的问题,目前尚未提出有效的解决方案。
技术实现要素:
4.本发明实施例提供了一种电网设备标准条款差异的确定方法、装置及电子设备,以至少解决由于相关技术中采用人工方式进行电网设备标准条款差异,造成的分析效率低、准确性差且条款误用率低的技术问题。
5.根据本发明实施例的一个方面,提供了一种电网设备标准条款差异的确定方法,包括:对预先获取到的多个电网设备标准条款进行三元组抽取,得到上述多个电网设备标准条款对应的多个三元组抽取结果,其中,上述多个三元组抽取结果分别包括头实体,尾实体,以及头实体和尾实体之间的实体关系,上述多个电网设备标准条款与上述多个三元组抽取结果存在一一对应的关系;对上述多个三元组抽取结果包括的实体进行聚类处理,得到实体聚类结果,其中,上述实体聚类结果用于指示上述多个三元组抽取结果中包括的实体分别从属的实体类别;基于上述多个三元组抽取结果和上述实体聚类结果,构建知识图谱;基于上述知识图谱,确定上述多个电网设备标准条款之间的差异分析结果。
6.可选的,上述基于上述知识图谱,确定上述多个电网设备标准条款之间的差异结果,包括:基于上述知识图谱,采用知识表示算法确定上述多个三元组抽取结果包括的实体分别对应的向量表示;基于上述多个三元组抽取结果包括的实体分别对应的向量表示,确定上述多个三元组抽取结果包括的实体中任意两个实体之间的实体相似度,其中,上述任意两个实体属于相同的实体类别;基于上述实体相似度,确定上述多个三元组抽取结果中存在相似关系的实体对,并将上述相似关系更新至上述知识图谱中,得到更新后的知识图谱;基于上述更新后的知识图谱,确定上述差异分析结果。
7.可选的,上述基于上述实体相似度,确定上述多个三元组抽取结果中存在相似关系的实体对,包括:判断上述任意两个实体之间的上述实体相似度是否大于预设相似度阈值;若上述任意两个实体之间的上述实体相似度大于上述预设相似度阈值,则确定上述任意两个实体之间存在上述相似关系,并确定上述任意两个实体为上述实体对。
8.可选的,在上述实体相似度包括头实体相似度和尾实体相似度的情况下,上述基于上述更新后的知识图谱,确定上述差异分析结果,包括:从上述更新后的知识图谱中确定出第一实体对,其中,上述第一实体对包括的两个头实体之间的头实体相似度大于预设相似度阈值;确定上述第一实体对包括的两个尾实体之间的尾实体相似度,以及确定上述第一实体对包括的两个实体关系之间的关系相似度;基于上述第一实体对包括的两个头实体之间的头实体相似度,两个尾实体之间的尾实体相似度,以及两个实体关系之间的关系相似度,确定上述差异分析结果。
9.可选的,在上述实体相似度包括头实体相似度和尾实体相似度的情况下,上述基于上述更新后的知识图谱,确定上述差异分析结果,包括:从上述更新后的知识图谱中确定出第二实体对,其中,上述第二实体对包括的两个尾实体之间的尾实体相似度大于预设相似度阈值;确定上述第二实体对包括的两个头实体之间的头实体相似度,以及确定上述第二实体对包括的两个实体关系之间的关系相似度;基于上述第二实体对包括的两个头实体之间的头实体相似度,两个尾实体之间的尾实体相似度,以及两个实体关系之间的关系相似度,确定上述差异分析结果。
10.可选的,上述基于上述知识图谱,采用知识表示算法确定上述多个三元组抽取结果包括的实体分别对应的向量表示,包括:确定上述多个三元组抽取结果对应的预设数据格式,其中,上述预设数据格式至少包括:由上述多个三元组抽取结果中包括的实体、以及对应的实体编号组成的第一数据格式,由上述多个三元组抽取结果中包括的实体关系、以及对应的关系编号对应的第二数据格式,上述多个三元组抽取结果中包括头实体对应的头实体编号、实体关系对应的关系编号、以及尾实体对应的尾实体编号组成的第三数据格式;基于上述预设数据格式和预设损失函数,采用上述知识表示算法,确定上述多个三元组抽取结果包括的实体分别对应的向量表示。
11.可选的,上述对预先获取到的多个电网设备标准条款进行三元组抽取,得到上述多个电网设备标准条款对应的多个三元组抽取结果,包括:对上述多个电网设备标准条款分别进行分词处理,得到上述多个电网设备标准条款对应的分词结果;对上述分词结果进行词性标注处理,得到上述多个电网设备标准条款对应的词性标注结果;对上述分词结果和上述词性标注结果进行依存句法分析,得到依存句法分析结果;基于上述分词结果,上述词性标注结果,以及上述依存句法分析结果,确定上述多个电网设备标准条款中包括的词语分别对应的依存节点字典;基于上述依存节点字典,确定上述多个三元组抽取结果。
12.根据本发明实施例的另一方面,还提供了一种电网设备标准条款差异的确定装置,包括:三元组抽取模块,用于对预先获取到的多个电网设备标准条款进行三元组抽取,得到上述多个电网设备标准条款对应的多个三元组抽取结果,其中,上述多个三元组抽取结果分别包括头实体,尾实体,以及头实体和尾实体之间的实体关系,上述多个电网设备标准条款与上述多个三元组抽取结果存在一一对应的关系;聚类模块,用于对上述多个三元组抽取结果包括的实体进行聚类处理,得到实体聚类结果,其中,上述实体聚类结果用于指示上述多个三元组抽取结果中包括的实体分别从属的实体类别;构建模块,用于基于上述多个三元组抽取结果和上述实体聚类结果,构建知识图谱;确定模块,用于基于上述知识图谱,确定上述多个电网设备标准条款之间的差异分析结果。
13.可选的,上述确定模块,包括:第一确定子模块,用于基于上述知识图谱,采用知识
表示算法确定上述多个三元组抽取结果包括的实体分别对应的向量表示;第二确定子模块,用于基于上述多个三元组抽取结果包括的实体分别对应的向量表示,确定上述多个三元组抽取结果包括的实体中任意两个实体之间的实体相似度,其中,上述任意两个实体属于相同的实体类别;第三确定子模块,用于基于上述实体相似度,确定上述多个三元组抽取结果中存在相似关系的实体对,并将上述相似关系更新至上述知识图谱中,得到更新后的知识图谱;第四确定子模块,用于基于上述更新后的知识图谱,确定上述差异分析结果。
14.可选的,上述第三确定子模块,包括:第一判断子模块,用于判断上述任意两个实体之间的上述实体相似度是否大于预设相似度阈值;第五确定子模块,用于若上述任意两个实体之间的上述实体相似度大于上述预设相似度阈值,则确定上述任意两个实体之间存在上述相似关系,并确定上述任意两个实体为上述实体对。
15.可选的,在上述实体相似度包括头实体相似度和尾实体相似度的情况下,上述第四确定子模块,包括:第一选取子模块,用于从上述更新后的知识图谱中确定出第一实体对,其中,上述第一实体对包括的两个头实体之间的头实体相似度大于预设相似度阈值;第六确定子模块,用于确定上述第一实体对包括的两个尾实体之间的尾实体相似度,以及确定上述第一实体对包括的两个实体关系之间的关系相似度;第七确定子模块,用于基于上述第一实体对包括的两个头实体之间的头实体相似度,两个尾实体之间的尾实体相似度,以及两个实体关系之间的关系相似度,确定上述差异分析结果。
16.可选的,在上述实体相似度包括头实体相似度和尾实体相似度的情况下,上述第四确定子模块,包括:第二选取子模块,用于从上述更新后的知识图谱中确定出第二实体对,其中,上述第二实体对包括的两个尾实体之间的尾实体相似度大于预设相似度阈值;第八确定子模块,用于确定上述第二实体对包括的两个头实体之间的头实体相似度,以及确定上述第二实体对包括的两个实体关系之间的关系相似度;第九确定子模块,用于基于上述第二实体对包括的两个头实体之间的头实体相似度,两个尾实体之间的尾实体相似度,以及两个实体关系之间的关系相似度,确定上述差异分析结果。
17.可选的,上述第一确定子模块,包括:第十确定子模块,用于确定上述多个三元组抽取结果对应的预设数据格式,其中,上述预设数据格式至少包括:由上述多个三元组抽取结果中包括的实体、以及对应的实体编号组成的第一数据格式,由上述多个三元组抽取结果中包括的实体关系、以及对应的关系编号对应的第二数据格式,上述多个三元组抽取结果中包括头实体对应的头实体编号、实体关系对应的关系编号、以及尾实体对应的尾实体编号组成的第三数据格式;第十一确定子模块,用于基于上述预设数据格式和预设损失函数,采用上述知识表示算法,确定上述多个三元组抽取结果包括的实体分别对应的向量表示。
18.可选的,上述三元组抽取模块,包括:第一获取子模块,用于对上述多个电网设备标准条款分别进行分词处理,得到上述多个电网设备标准条款对应的分词结果;第一标注子模块,用于对上述分词结果进行词性标注处理,得到上述多个电网设备标准条款对应的词性标注结果;第一分析子模块,用于对上述分词结果和上述词性标注结果进行依存句法分析,得到依存句法分析结果;第十二确定子模块,用于基于上述分词结果,上述词性标注结果,以及上述依存句法分析结果,确定上述多个电网设备标准条款中包括的词语分别对应的依存节点字典;第十三确定子模块,用于基于上述依存节点字典,确定上述多个三元组
抽取结果。
19.根据本发明实施例的另一方面,还提供了一种非易失性存储介质,其特征在于,上述非易失性存储介质存储有多条指令,上述指令适于由处理器加载并执行任意一项上述的电网设备标准条款差异的确定方法。
20.根据本发明实施例的另一方面,还提供了一种电子设备,其特征在于,包括一个或多个处理器和存储器,上述存储器用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现任意一项上述的电网设备标准条款差异的确定方法。
21.在本发明实施例中,通过对预先获取到的多个电网设备标准条款进行三元组抽取,得到上述多个电网设备标准条款对应的多个三元组抽取结果,其中,上述多个三元组抽取结果分别包括头实体,尾实体,以及头实体和尾实体之间的实体关系,上述多个电网设备标准条款与上述多个三元组抽取结果存在一一对应的关系;对上述多个三元组抽取结果包括的实体进行聚类处理,得到实体聚类结果,其中,上述实体聚类结果用于指示上述多个三元组抽取结果中包括的实体分别从属的实体类别;基于上述多个三元组抽取结果和上述实体聚类结果,构建知识图谱;基于上述知识图谱,确定上述多个电网设备标准条款之间的差异分析结果,达到了基于知识图谱快速实现的电网设备标准条款之间的差异分析目的,从而实现了提升电网设备标准条款差异分析效率和分析准确性,降低相似电网设备标准条款之间的误用率的技术效果,进而解决了由于相关技术中采用人工方式进行电网设备标准条款差异,造成的分析效率低、准确性差且条款误用率低的技术问题。
附图说明
22.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
23.图1是根据本发明实施例的电网设备标准条款差异的确定方法的流程图;
24.图2是根据本发明实施例的一种可选的误差平方和与聚类数之间的关系示意图;
25.图3是根据本发明实施例的一种可选的知识图谱示意图;
26.图4是根据本发明实施例的一种可选的电网设备标准条款差异的确定方法的流程图;
27.图5是根据本发明实施例的一种电网设备标准条款差异的确定装置的结构示意图。
具体实施方式
28.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
29.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用
的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
30.电网是高效快捷的能源输送通道和优化配置平台,是能源电力可持续发展的关键环节,在现代能源供应体系中发挥着重要的枢纽作用,关系国家能源安全。以电为中心,以智能电网和泛在电力物联网为基础平台,深度融合先进能源技术、现代信息通信技术和控制技术,实现了多能互补、智能互动、泛在互联的智慧能源网络,助力低碳清洁、安全高效的能源体系建设。设备是推动电网转型升级的重要物质基础,随着电力网络设备数量、种类的不断增加,设备安全与应用管理工作面临新的要求和挑战,电力设备标准条款是安全与应用管理的一种重要方式,不同的电力设备对应于不同的电力设备标准条款。但是随着电力设备分类的不断细化,经常出现多个电力设备对应的标准条款相似度较大,容易导致电力设备标准条款误用或混用的情况,相关技术中主要通过人工识别方式对多个相似的电力设备标准条款进行区别,识别工作量大且识别效率低。
31.知识图谱用于完善搜索引擎,是一种典型的多边关系图,由节点(实体)和边(实体之间的关系)组成,本质上是一种语义网络,用于揭示万物之间的关系。知识图谱的构建需要应用到多方面信息处理技术,如知识抽取、知识融合。知识抽取是指从多种数据源中提取知识并存入知识图谱,是构建大规模知识图谱的基础。知识融合可以解决不同知识图谱的异构问题,通过知识融合,能够使得不同数据源的异构知识图谱相互联通、相互操作,从而提高知识图谱的质量。知识图谱在自然语言处理领域应用广泛,如语义搜索、智能问答、辅助决策等方面,其已经成为人工智能发展的重要动力。
32.综上所述,如何充分挖掘电力设备标准条款中海量知识数据的价值,利用已有知识指导设备全过程闭环管理,实现电力设备标准条款的准确识别与区分,成为亟待解决的问题。
33.基于上述问题,本发明实施例提供了一种电网设备标准条款差异的确定的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
34.图1是根据本发明实施例的电网设备标准条款差异的确定方法的流程图,如图1所示,该方法包括如下步骤:
35.步骤s102,对预先获取到的多个电网设备标准条款进行三元组抽取,得到上述多个电网设备标准条款对应的多个三元组抽取结果。
36.可选的,上述多个三元组抽取结果分别包括头实体,尾实体,以及头实体和尾实体之间的实体关系,上述多个电网设备标准条款与上述多个三元组抽取结果存在一一对应的关系。
37.在一种可选的实施例中,上述对预先获取到的多个电网设备标准条款进行三元组抽取,得到上述多个电网设备标准条款对应的多个三元组抽取结果,包括:对上述多个电网设备标准条款分别进行分词处理,得到上述多个电网设备标准条款对应的分词结果;对上
述分词结果进行词性标注处理,得到上述多个电网设备标准条款对应的词性标注结果;对上述分词结果和上述词性标注结果进行依存句法分析,得到依存句法分析结果;基于上述分词结果,上述词性标注结果,以及上述依存句法分析结果,确定上述多个电网设备标准条款中包括的词语分别对应的依存节点字典;基于上述依存节点字典,确定上述多个三元组抽取结果。
38.可选的,可以但不限于采用语言技术平台(language technology platform,ltp)对预先获取到的多个电网设备标准条款进行分词处理,对获取到的分词结果进行词性标注,以获取到的分词结果和词性标注结果为输入,对上述多个电网设备标准条款进行依存句法分析。进一步以分词结果、词性标注结果以及依存句法分析结果为输入,进行实体抽取,确定多个电网设备标准条款分别对应的三元组抽取结果,得到多个三元组抽取结果。
39.作为一种可选的实施例,上述对预先获取到的多个电网设备标准条款进行三元组抽取,得到上述多个电网设备标准条款对应的多个三元组抽取结果,包括如下子步骤:
40.子步骤a1:利用ltp分词方法对多个电网设备标准条款进行分词处理,得到分词结果。
41.例如:输入标准条款为“绝缘电阻不能低于2500mω”,分词结果为:绝缘/电阻/不/能/低于/2500/mω。
42.子步骤a2:对子步骤a1得到的分词结果进行词性标注处理,得到词性标注结果。
43.例如:分词结果为“绝缘/电阻/不/能/低于/2500/mω”对应的词性标注结果为:绝缘v/电阻n/不d/能v/低于v/2500m/mωq,其中v表示动词,n表示名词,d表示副词,m表示数字,q表示量词。
44.子步骤a3:以子步骤a1和子步骤a2得到的分词结果和词性标注结果为输入,对标准条款进行依存句法分析。
45.例如:标准条款为“绝缘电阻不能低于2500mω”的依存句法分析结果为:{2:att}{5:sbv}{4:adv}{5:adv}{0:hed}{7:att}{5:vob},其中{2:att}表示当前词语即第1个词“绝缘”与索引为2的词语“电阻”构成att关系,att表示定中关系;{0:hed}表示当前词语为整个句子的核心词,不依存于其他节点;sbv表示主谓关系,adv表示状中结构,vob表示直接宾语关系。
46.子步骤a4:以分词结果、词性标注结果、依存句法分析结果为输入,首先为标准条款中每个词语构建一个保存依存节点的字典。例如:输入为“绝缘/电阻/不/能/低于/2500/mω”、“绝缘v/电阻n/不d/能v/低于v/2500m/mωq”、“{2:att}{5:sbv}{4:adv}{5:adv}{0:hed}{7:att}{5:vob}”,构建的依存节点字典为:[{},{'att':[0]},{},{'adv':[2]},{'sbv':[1],'adv':[3],'vob':[6]},{},{'att':[5]}]。其次遍历词性标注列表,如果词性为“v”,即动词,则进一步分析该词语的依存节点字典,如果依存关系包括“sbv”和“vob”,就认为关系为该动词,头实体为主语,尾实体为宾语。之后依据实体的依存节点字典关系完善实体,如果实体的依存节点字典关系中包括“att”,则考虑为实体加上定语作为前缀,从而完善实体,例如:绝缘电阻。然后依据实体的依存节点字典关系完善关系,如果关系的依存节点字典关系中包括“adv”,则考虑为关系加上状语作为前缀,从而完善关系,例如:不能低于。最后得到标准条款“绝缘电阻不能低于2500mω”的三元组为(绝缘电阻,不能低于,2500mω),其中头实体为“绝缘电阻”,“不能低于”为实体关系,“2500mω”为尾实体。
[0047]
需要说明的是,对多个电网设备标准条款进行分词处理获取到的分词结果仅考虑单个词语的特征,无法全面考虑各词语之间的前后联系,因此无法将分词结果直接作为单元组抽取结果。基于此,本发明实施例在分词结果的基础上结合依存语法关系,通过依存节点字典关系进行对应实体和实体关系的完善,由此提升三元组抽取质量。
[0048]
步骤s104,对上述多个三元组抽取结果包括的实体进行聚类处理,得到实体聚类结果。
[0049]
可选的,上述实体聚类结果用于指示上述多个三元组抽取结果中包括的实体分别从属的实体类别。
[0050]
可选的,可以但不限于采用肘部法则确定用于对多个三元组抽取结果包括的实体进行聚类的聚类值(即聚类k值),基于获取到的聚类k值,以多个三元组抽取结果包括的实体作为输入进行聚类,得到对应的实体聚类结果。
[0051]
可选的,上述对上述多个三元组抽取结果包括的实体进行聚类处理,得到实体聚类结果,包括如下子步骤:
[0052]
子步骤b1:利用肘部法则选取聚类k值。手肘法的核心指标是sse(误差平方和):
[0053][0054]
其中,ci是第i个簇,p是ci中的样本点,mi是ci中所有样本的均值,sse是所有样本的聚类误差,代表了聚类效果的好坏。图2是根据本发明实施例的一种可选的误差平方sse和与聚类数k之间的关系示意图,如图2所示,随着聚类数k的增大,每个簇的聚合程度会逐渐提高,误差平方和sse会逐渐变小,当k小于真实聚类数时,由于k的增大会大幅增加每个簇的聚合程度,故sse的下降幅度会很大,而当k到达真实聚类数时,再增加k所得到的聚合程度回报会迅速变小,所以sse的下降幅度会骤减,然后随着k值的继续增大而趋于平缓,也就是说sse和k的关系图是一个手肘的形状,如图2所示,图中肘部对应的k值4就是数据的真实聚类数。
[0055]
子步骤b2:以上述获取到的多个三元组抽取结果中的所有实体为输入,将实体聚类为k组,得到实体聚类结果。其中k为子步骤b1得到的聚类数。例如:实体“断路器、接地电缆、铜质导体、接地导体、4s、2ms、1m/s、5m、膨胀罐、储油柜、油箱、绝缘油”等12个实体的聚类结果如表1所示,其中entity列为实体,label列为实体所属的实体类别,其中,实体类别是基于实体聚类结果获取到的。
[0056]
表1
[0057]
表1entitylabelentitylabelentitylabel断路器14s2储油柜3接地电缆12ms2油箱3铜质导体11m/s2膨胀罐3接地导体15m2绝缘油3
[0058]
步骤s106,基于上述多个三元组抽取结果和上述实体聚类结果,构建知识图谱。
[0059]
通过以上方式,按照实体聚类结果对多个三元组抽取结果中包括的实体进行分类,按照实体类别进行知识图谱的构建,由此提升知识图谱的清晰度和可观测性。
[0060]
可选的,以获取到的实体聚类结果为输入,按照实体类别依次创建知识图谱中的实体。以获取到的多个三元组抽取结果为输入,在实体之间创建知识图谱中的关系,其中创建知识图谱中的关系时要为关系添加对应的电网设备标准条款的属性信息,其中,上述属性信息至少包括:电网设备标准条款对应的条款编号、标准文件名、条款目录以及条款内容。构建好电力设备标准条款知识图谱如图3所示。
[0061]
步骤s108,基于上述知识图谱,确定上述多个电网设备标准条款之间的差异分析结果。
[0062]
在一种可选的实施例中,上述基于上述知识图谱,确定上述多个电网设备标准条款之间的差异结果,包括:基于上述知识图谱,采用知识表示算法确定上述多个三元组抽取结果包括的实体分别对应的向量表示;基于上述多个三元组抽取结果包括的实体分别对应的向量表示,确定上述多个三元组抽取结果包括的实体中任意两个实体之间的实体相似度,其中,上述任意两个实体属于相同的实体类别;基于上述实体相似度,确定上述多个三元组抽取结果中存在相似关系的实体对,并将上述相似关系更新至上述知识图谱中,得到更新后的知识图谱;基于上述更新后的知识图谱,确定上述差异分析结果。
[0063]
通过以上方式,首先采用知识表示算法将多个三元组抽取结果包括的实体和实体关系转换为对应的向量表示形式,并在此基础上确定任意两个实体之间的实体相似度,根据相似度的大小确定多个三元组抽取结果包括的实体对,并在知识图谱中建立实体对之间的相似关系,并将相似关系更新至知识图谱中,由此丰富知识图谱中的内容以及各实体之间的关系表示。根据更新后的知识图谱,能够很容易的查找出其中存在相似关系的实体对,并对应找出其中相似的电网设备标准条款,在此基础上可以更加快速准确的查找出相似的电网设备标准条款之间的差异。
[0064]
在一种可选的实施例中,上述基于上述知识图谱,采用知识表示算法确定上述多个三元组抽取结果包括的实体分别对应的向量表示,包括:确定上述多个三元组抽取结果对应的预设数据格式,其中,上述预设数据格式至少包括:由上述多个三元组抽取结果中包括的实体、以及对应的实体编号组成的第一数据格式,由上述多个三元组抽取结果中包括的实体关系、以及对应的关系编号对应的第二数据格式,上述多个三元组抽取结果中包括头实体对应的头实体编号、实体关系对应的关系编号、以及尾实体对应的尾实体编号组成的第三数据格式;基于上述预设数据格式和预设损失函数,采用上述知识表示算法,确定上述多个三元组抽取结果包括的实体分别对应的向量表示。
[0065]
通过以上方式,确定知识表示算法所需要的预设数据格式,即上述第一数据格式、第二数据格式以及第三数据格式,其中,可以但不限于通过“实体-编号”列表表征上述第一数据格式,“关系-编号”列表表征上述第二数据格式,“三元组-编号”列表表征上述第三数据格式,并在知识图谱中为实体添加编号属性。例如:创建“实体-编号”列表时,在知识图谱中查询实体的cypher语句为:match(e:{})return e.name,为实体添加属性“编号x”的cypher语句为:'merge(e:{}{{name:"{}"}})on match set e.x="{}"'.format(classname[i],e_name,x),其中classname[i]为实体所属类别,e_name为实体名字,x为实体编号。整理好的数据为文本类型,例如:实体-编号为:金属电缆管1,关系-编号为:最大水深1,三元组-编号为:3 2 5,其中表示3表示编号为3的实体,2表示编号为2的实体,5表示编号为5的关系。
[0066]
可选的,在获取到上述预设数据格式之后,将多个三元组抽取结果包括的实体表示为预设数据格式作为输入,利用知识表示算法得到多个三元组抽取结果包括的实体分别对应的向量表示。首先将多个三元组抽取结果包括的实体、以及对应的实体关系初始化表示为指定维度的向量eh,er,e
t
作为正例三元组,其中,eh为头实体对应的向量表示,er为尾实体对应的向量表示,e
t
为实体关系对应的向量表示;其次生成负例三元组,即按照概率分别替换正例三元组的头实体或尾实体;按照使正样本之间的距离越来越近、负样本之间距离越离越远的原则设计损失函数:
[0067][0068]
其中,s表示正例三元组数据集,s
′
表示负例三元组数据集,(h
′
,r,t
′
)为替换正例三元组的头实体或尾实体后生成的负例三元组。知识表示模型根据损失函数进行梯度更新,达到规定的训练轮次后得到训练好的电力设备标准条款中所有实体和关系的向量表示。
[0069]
在一种可选的实施例中,上述基于上述实体相似度,确定上述多个三元组抽取结果中存在相似关系的实体对,包括:判断上述任意两个实体之间的上述实体相似度是否大于预设相似度阈值;若上述任意两个实体之间的上述实体相似度大于上述预设相似度阈值,则确定上述任意两个实体之间存在上述相似关系,并确定上述任意两个实体为上述实体对。
[0070]
通过以上方式,在实体相似度较大的两个实体之间建立实体关系,并对知识图谱进行更新。即按照实体聚类结果中包括的实体类别遍历多个三元组抽取结果中包括的实体,以获取到的实体的向量表示为输入数据,计算类内实体相似度,为相似度在一定阈值内的实体对在知识图谱中创建相似关系。例如:预绞式金具与加强型金具两个实体的向量表示经计算后得到相似度为0.8,则在知识图谱中为二者创建新的相似关系。由此丰富知识图谱中各实体之间的交互关系,进而有助于提升知识图谱查询效率。
[0071]
在一种可选的实施例中,在上述实体相似度包括头实体相似度和尾实体相似度的情况下,上述基于上述更新后的知识图谱,确定上述差异分析结果,包括:从上述更新后的知识图谱中确定出第一实体对,其中,上述第一实体对包括的两个头实体之间的头实体相似度大于预设相似度阈值;确定上述第一实体对包括的两个尾实体之间的尾实体相似度,以及确定上述第一实体对包括的两个实体关系之间的关系相似度;基于上述第一实体对包括的两个头实体之间的头实体相似度,两个尾实体之间的尾实体相似度,以及两个实体关系之间的关系相似度,确定上述差异分析结果。
[0072]
通过以上方式,在保证实体对中两个头实体相似或相同的情况下,进一步确定两个头实体分别对应的电力设备标准条款中两个尾实体之间的尾实体相似度,以及两个实体关系之间的关系相似度,基于头实体、尾实体以及实体关系的综合差异对两个头实体相似的电力设备标准条款进行进一步的差异分析,由此提升差异识别与分析的准确性。
[0073]
作为一种可选的实施例,在知识图谱中,查询具有相似关系的第二实体对,其中,上述第二实体对包括的两个尾实体之间的尾实体相似度大于预设相似度阈值,第二实体对中两个尾实体相似或相同,保存以其为尾实体的三元组信息,计算关系相似度,保存尾实体相似、关系相似的三元组对应的条款信息。例如:(存放时间,超过,6个月)(放置时间,超过,
3个月)两个三元组头实体相似、尾实体相似的情况,则给出二者对应的电网设备标准条款“现场存放时间超过6个月的变压器(电抗器)要充油保存,严防进水受潮。”与“现场放置时间超过3个月的变压器应注油保存,并装上储油柜和胶囊,严防进水受潮。”可能存在差异。
[0074]
作为一种可选的实施例,在知识图谱中,遍历所有实体,查询具有相似关系的第一实体对,其中,上述第一实体对包括的两个头实体一致,保存以该实体为头实体的三元组信息,计算关系相似度,保存头实体一致、关系相似的三元组对应的条款信息;例如:(环境相对湿度,不大于,85%)(环境相对湿度,不大于,95%)两个三元组头实体相似、尾实体相似的情况,则给出二者对应的标准条款“sf6气体湿度测量必须在充气至额定气体压力下至少静止24h后进行。测量时,环境相对湿度一般不大于85%。”与“测量时,sf6气体应为额定密度,环境相对湿度一般不大于95%。”可能存在差异。计算尾实体相似度,保存头实体一致、关系相似的三元组对应的条款信息。例如:(持续时间,应不小于,0.5s)(持续时间,不应小于,0.5s)两个三元组头实体相似、尾实体相似的情况,则给出二者对应的电网设备标准条款“燃弧时间为0.5s及以上内部故障电弧允许持续时间应不小于0.5s”与“隔室的内部故障电弧允许持续时间不应小于0.5s”可能存在差异。
[0075]
在一种可选的实施例中,在上述实体相似度包括头实体相似度和尾实体相似度的情况下,上述基于上述更新后的知识图谱,确定上述差异分析结果,包括:从上述更新后的知识图谱中确定出第二实体对,其中,上述第二实体对包括的两个尾实体之间的尾实体相似度大于预设相似度阈值;确定上述第二实体对包括的两个头实体之间的头实体相似度,以及确定上述第二实体对包括的两个实体关系之间的关系相似度;基于上述第二实体对包括的两个头实体之间的头实体相似度,两个尾实体之间的尾实体相似度,以及两个实体关系之间的关系相似度,确定上述差异分析结果。
[0076]
通过以上方式,在保证实体对中两个尾实体相似或相同的情况下,进一步确定两个尾实体分别对应的电力设备标准条款中两个头实体之间的头实体相似度,以及两个实体关系之间的关系相似度,基于头实体、尾实体以及实体关系的综合差异对两个尾实体相似的电力设备标准条款进行进一步的差异分析,由此提升差异识别与分析的准确性。
[0077]
作为一种可选的实施例,在知识图谱中,查询具有相似关系的第二实体对,其中,上述第二实体对包括的两个尾实体之间的尾实体相似度大于预设相似度阈值,第二实体对中两个尾实体相似或相同,保存以其为尾实体的三元组信息,计算关系相似度,保存尾实体相似、关系相似的三元组对应的条款信息。例如:(存放时间,超过,6个月)(放置时间,超过,3个月)两个三元组头实体相似、尾实体相似的情况,则给出二者对应的电网设备标准条款“现场存放时间超过6个月的变压器(电抗器)要充油保存,严防进水受潮。”与“现场放置时间超过3个月的变压器应注油保存,并装上储油柜和胶囊,严防进水受潮”可能存在差异。
[0078]
作为一种可选的实施例,在知识图谱中,遍历所有实体,查询具有相似关系的第二实体对,其中,上述第一实体对包括的两个尾实体一致,保存以该实体为尾实体的三元组信息,计算关系相似度,保存尾实体一致、关系相似的三元组对应的条款信息。例如:(短路持续时间,推荐值,4s)(在110kv及以下短路持续时间,额定值,4s)两个三元组头实体相似、尾实体相似的情况,则给出二者对应的电网设备标准条款“额定短路持续时间的标准值为2s。如果需要,可以选取大于2s的值。推荐值为3s和4s”与“断路器的额定短时耐受电流等于额定短路开断电流,其持续时间额定值在110kv及以下为4s;在220kv及以上为2s”可能存在差
异。
[0079]
通过上述步骤s102至步骤s108,可以达到基于知识图谱快速实现的电网设备标准条款之间的差异分析目的,从而实现了提升电网设备标准条款差异分析效率和分析准确性,降低相似电网设备标准条款之间的误用率的技术效果,进而解决了由于相关技术中采用人工方式进行电网设备标准条款差异,造成的分析效率低、准确性差且条款误用率低的技术问题。
[0080]
基于上述实施例和可选实施例,本发明提出一种可选实施方式,图4是根据本发明实施例的一种可选的电网设备标准条款差异的确定方法的流程图,如图4所示,该方法包括:
[0081]
步骤s1:对多个标准条款分别进行三元组抽取,得到对应的多个三元组抽取结果,包括以下子步骤:
[0082]
子步骤s11:利用ltp分词方法对多个电网设备标准条款进行分词处理,得到分词结果。
[0083]
子步骤s12:对子步骤s11得到的分词结果进行词性标注处理,得到词性标注结果。
[0084]
子步骤s13:以子步骤s11和子步骤s12得到的分词结果和词性标注结果为输入,对标准条款进行依存句法分析。
[0085]
子步骤s14:以分词结果、词性标注结果、依存句法分析结果为输入,首先为标准条款中每个词语构建一个保存依存节点的字典。之后依据实体的依存节点字典关系完善实体.然后依据实体的依存节点字典关系完善关系,最终基于完善后的实体和实体关系得到多个三元组抽取结果。
[0086]
步骤s2:将步骤s1得到的多个三元组抽取结果中的实体进行聚类,得到实体聚类结果。包括以下子步骤:
[0087]
子步骤s21:利用肘部法则选取聚类k值。
[0088]
子步骤s22:以获取到的多个三元组抽取结果中的所有实体为输入,将实体聚类为k组,得到实体聚类结果。
[0089]
步骤s3:基于获取到的多个三元组抽取结果和实体聚类结果,构建技术标准条款知识图谱包括以下子步骤:
[0090]
子步骤s31:以获取到的实体聚类结果为输入,按照实体类别依次创建知识图谱中的实体。
[0091]
子步骤s32:以获取到的多个三元组抽取结果为输入,在实体之间创建知识图谱中的关系,其中创建知识图谱中的关系时要为关系添加对应的电网设备标准条款的属性信息,其中,上述属性信息至少包括:电网设备标准条款对应的条款编号、标准文件名、条款目录以及条款内容。
[0092]
步骤s4:利用知识表示算法得到多个三元组抽取结果包括的实体分别对应的向量表示(即嵌入表示)。具体包括如下子步骤:
[0093]
子步骤s41:基于步骤s3得到的知识图谱,整理知识表示算法所需要的预设数据格式,分别是“实体-编号”列表、“关系-编号”列表、“三元组-编号”列表,并在知识图谱中为实体添加编号属性。
[0094]
子步骤s42:将多个三元组抽取结果包括的实体表示为以子步骤d1中的预设数据
格式作为为输入,利用知识表示算法得到多个三元组抽取结果包括的实体分别对应的向量表示。
[0095]
步骤s5:计算多个三元组抽取结果包括的实体机实体关系的相似度,实现标准技术条款的差异分析。
[0096]
子步骤s51:按照实体聚类结果中包括的实体类别遍历多个三元组抽取结果中包括的实体,以获取到的实体的向量表示为输入数据,计算类内实体相似度,为相似度在一定阈值内的实体对在知识图谱中创建相似关系。
[0097]
子步骤s52:在知识图谱中,查询具有相似关系的第一实体对,其中,上述第一实体对包括的两个头实体之间的头实体相似度大于预设相似度阈值,第一实体对中两个头实体相似,保存以其为头实体的三元组信息,计算关系相似度,保存头实体相似、关系相似的三元组对应的条款信息,例如:(隔室相对年泄漏率,应不大于,1%)(气室年漏气率,不大于,0.5%)两个三元组头实体相似、关系相似的情况,则给出二者对应的电网设备标准条款“每个隔室的相对年泄漏率应不大于1%”与“每个气室的年漏气率应不大于0.5%”可能存在差异;进一步计算尾实体相似度,得到头实体相似、尾实体相似的三元组对应的条款信息,例如:(最小规格,不小于,35mm2)(最小截面,不应小于,35mm2)两个三元组头实体相似、尾实体相似的情况,则给出二者对应的电网设备标准条款“拉线应采用镀锌钢绞线,其强度设计安全系数应不小于2,最小规格不小于35mm2”与“10kv及以下架空线路拉线一般采用镀锌钢绞线,且最小截面不应小于35mm2”可能存在差异。
[0098]
子步骤s53:在知识图谱中,查询具有相似关系的第二实体对,其中,上述第二实体对包括的两个尾实体之间的尾实体相似度大于预设相似度阈值,第二实体对中两个尾实体相似或相同,保存以其为尾实体的三元组信息,计算关系相似度,保存尾实体相似、关系相似的三元组对应的条款信息。例如:(存放时间,超过,6个月)(放置时间,超过,3个月)两个三元组头实体相似、尾实体相似的情况,则给出二者对应的电网设备标准条款“现场存放时间超过6个月的变压器(电抗器)要充油保存,严防进水受潮。”与“现场放置时间超过3个月的变压器应注油保存,并装上储油柜和胶囊,严防进水受潮”可能存在差异。
[0099]
子步骤s54:在知识图谱中,遍历所有实体,查询具有相似关系的第一实体对,其中,上述第一实体对包括的两个头实体一致,保存以该实体为头实体的三元组信息,计算关系相似度,保存头实体一致、关系相似的三元组对应的条款信息;例如:(环境相对湿度,不大于,85%)(环境相对湿度,不大于,95%)两个三元组头实体相似、尾实体相似的情况,则给出二者对应的标准条款“sf6气体湿度测量必须在充气至额定气体压力下至少静止24h后进行。测量时,环境相对湿度一般不大于85%。”与“测量时,sf6气体应为额定密度,环境相对湿度一般不大于95%。”可能存在差异。计算尾实体相似度,保存头实体一致、关系相似的三元组对应的条款信息。例如:(持续时间,应不小于,0.5s)(持续时间,不应小于,0.5s)两个三元组头实体相似、尾实体相似的情况,则给出二者对应的电网设备标准条款“燃弧时间为0.5s及以上内部故障电弧允许持续时间应不小于0.5s”与“隔室的内部故障电弧允许持续时间不应小于0.5s”可能存在差异。
[0100]
子步骤s55:在知识图谱中,遍历所有实体,查询具有相似关系的第二实体对,其中,上述第一实体对包括的两个尾实体一致,保存以该实体为尾实体的三元组信息,计算关系相似度,保存尾实体一致、关系相似的三元组对应的条款信息。例如:(短路持续时间,推
荐值,4s)(在110kv及以下短路持续时间,额定值,4s)两个三元组头实体相似、尾实体相似的情况,则给出二者对应的电网设备标准条款“额定短路持续时间的标准值为2s。如果需要,可以选取大于2s的值。推荐值为3s和4s”与“断路器的额定短时耐受电流等于额定短路开断电流,其持续时间额定值在110kv及以下为4s;在220kv及以上为2s”可能存在差异。利用知识表示算法得到多个三元组抽取结果包括的实体分别对应的向量表示。
[0101]
本发明实施例至少可以实现如下技术效果:利用开放式中文三元组提取的方式抽取电力设备技术条款中的知识三元组,将复杂条款中的关键信息有效存储;通过构建电力设备技术条款知识图谱,缩短了数据查询及数据处理时间;通过知识表示算法得到的嵌入式表示结合了大量实体、关系之间的关联信息,在计算相似度之前完成知识表示,使得之后计算相似度的时间大大减少;通过聚类先将实体分类,再利用知识表示比较类内实体相似度,进而比较关系和尾实体的相似度,层层递进,使得标准条款三元组相似度的计算更为准确。
[0102]
在本实施例中还提供了一种电网设备标准条款差异的确定装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”“装置”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
[0103]
根据本发明实施例,还提供了一种用于实施上述电网设备标准条款差异的确定方法的装置实施例,图5是根据本发明实施例的一种电网设备标准条款差异的确定装置的结构示意图,如图5所示,上述电网设备标准条款差异的确定装置,包括:三元组抽取模块500、聚类模块502、构建模块504、确定模块506,其中:
[0104]
上述三元组抽取模块500,用于对预先获取到的多个电网设备标准条款进行三元组抽取,得到上述多个电网设备标准条款对应的多个三元组抽取结果,其中,上述多个三元组抽取结果分别包括头实体,尾实体,以及头实体和尾实体之间的实体关系,上述多个电网设备标准条款与上述多个三元组抽取结果存在一一对应的关系;
[0105]
上述聚类模块502,连接于上述三元组抽取模块500,用于对上述多个三元组抽取结果包括的实体进行聚类处理,得到实体聚类结果,其中,上述实体聚类结果用于指示上述多个三元组抽取结果中包括的实体分别从属的实体类别;
[0106]
上述构建模块504,连接于上述聚类模块502,用于基于上述多个三元组抽取结果和上述实体聚类结果,构建知识图谱;
[0107]
上述确定模块506,连接于上述构建模块504,用于基于上述知识图谱,确定上述多个电网设备标准条款之间的差异分析结果。
[0108]
在本发明实施例中,通过设置上述三元组抽取模块500,用于对预先获取到的多个电网设备标准条款进行三元组抽取,得到上述多个电网设备标准条款对应的多个三元组抽取结果,其中,上述多个三元组抽取结果分别包括头实体,尾实体,以及头实体和尾实体之间的实体关系,上述多个电网设备标准条款与上述多个三元组抽取结果存在一一对应的关系;上述聚类模块502,连接于上述三元组抽取模块500,用于对上述多个三元组抽取结果包括的实体进行聚类处理,得到实体聚类结果,其中,上述实体聚类结果用于指示上述多个三元组抽取结果中包括的实体分别从属的实体类别;上述构建模块504,连接于上述聚类模块502,用于基于上述多个三元组抽取结果和上述实体聚类结果,构建知识图谱;上述确定模
块506,连接于上述构建模块504,用于基于上述知识图谱,确定上述多个电网设备标准条款之间的差异分析结果,达到了基于知识图谱快速实现的电网设备标准条款之间的差异分析目的,从而实现了提升电网设备标准条款差异分析效率和分析准确性,降低相似电网设备标准条款之间的误用率的技术效果,进而解决了由于相关技术中采用人工方式进行电网设备标准条款差异,造成的分析效率低、准确性差且条款误用率低的技术问题。
[0109]
可选的,上述确定模块,包括:第一确定子模块,用于基于上述知识图谱,采用知识表示算法确定上述多个三元组抽取结果包括的实体分别对应的向量表示;第二确定子模块,用于基于上述多个三元组抽取结果包括的实体分别对应的向量表示,确定上述多个三元组抽取结果包括的实体中任意两个实体之间的实体相似度,其中,上述任意两个实体属于相同的实体类别;第三确定子模块,用于基于上述实体相似度,确定上述多个三元组抽取结果中存在相似关系的实体对,并将上述相似关系更新至上述知识图谱中,得到更新后的知识图谱;第四确定子模块,用于基于上述更新后的知识图谱,确定上述差异分析结果。
[0110]
可选的,上述第三确定子模块,包括:第一判断子模块,用于判断上述任意两个实体之间的上述实体相似度是否大于预设相似度阈值;第五确定子模块,用于若上述任意两个实体之间的上述实体相似度大于上述预设相似度阈值,则确定上述任意两个实体之间存在上述相似关系,并确定上述任意两个实体为上述实体对。
[0111]
可选的,在上述实体相似度包括头实体相似度和尾实体相似度的情况下,上述第四确定子模块,包括:第一选取子模块,用于从上述更新后的知识图谱中确定出第一实体对,其中,上述第一实体对包括的两个头实体之间的头实体相似度大于预设相似度阈值;第六确定子模块,用于确定上述第一实体对包括的两个尾实体之间的尾实体相似度,以及确定上述第一实体对包括的两个实体关系之间的关系相似度;第七确定子模块,用于基于上述第一实体对包括的两个头实体之间的头实体相似度,两个尾实体之间的尾实体相似度,以及两个实体关系之间的关系相似度,确定上述差异分析结果。
[0112]
可选的,在上述实体相似度包括头实体相似度和尾实体相似度的情况下,上述第四确定子模块,包括:第二选取子模块,用于从上述更新后的知识图谱中确定出第二实体对,其中,上述第二实体对包括的两个尾实体之间的尾实体相似度大于预设相似度阈值;第八确定子模块,用于确定上述第二实体对包括的两个头实体之间的头实体相似度,以及确定上述第二实体对包括的两个实体关系之间的关系相似度;第九确定子模块,用于基于上述第二实体对包括的两个头实体之间的头实体相似度,两个尾实体之间的尾实体相似度,以及两个实体关系之间的关系相似度,确定上述差异分析结果。
[0113]
可选的,上述第一确定子模块,包括:第十确定子模块,用于确定上述多个三元组抽取结果对应的预设数据格式,其中,上述预设数据格式至少包括:由上述多个三元组抽取结果中包括的实体、以及对应的实体编号组成的第一数据格式,由上述多个三元组抽取结果中包括的实体关系、以及对应的关系编号对应的第二数据格式,上述多个三元组抽取结果中包括头实体对应的头实体编号、实体关系对应的关系编号、以及尾实体对应的尾实体编号组成的第三数据格式;第十一确定子模块,用于基于上述预设数据格式和预设损失函数,采用上述知识表示算法,确定上述多个三元组抽取结果包括的实体分别对应的向量表示。
[0114]
可选的,上述三元组抽取模块,包括:第一获取子模块,用于对上述多个电网设备
标准条款分别进行分词处理,得到上述多个电网设备标准条款对应的分词结果;第一标注子模块,用于对上述分词结果进行词性标注处理,得到上述多个电网设备标准条款对应的词性标注结果;第一分析子模块,用于对上述分词结果和上述词性标注结果进行依存句法分析,得到依存句法分析结果;第十二确定子模块,用于基于上述分词结果,上述词性标注结果,以及上述依存句法分析结果,确定上述多个电网设备标准条款中包括的词语分别对应的依存节点字典;第十三确定子模块,用于基于上述依存节点字典,确定上述多个三元组抽取结果。
[0115]
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,例如,对于后者,可以通过以下方式实现:上述各个模块可以位于同一处理器中;或者,上述各个模块以任意组合的方式位于不同的处理器中。
[0116]
此处需要说明的是,上述三元组抽取模块500、聚类模块502、构建模块504、确定模块506对应于实施例中的步骤s102至步骤s108,上述模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在计算机终端中。
[0117]
需要说明的是,本实施例的可选或优选实施方式可以参见实施例中的相关描述,此处不再赘述。
[0118]
上述的电网设备标准条款差异的确定装置还可以包括处理器和存储器,上述三元组抽取模块500、聚类模块502、构建模块504、确定模块506等均作为程序模块存储在存储器中,由处理器执行存储在存储器中的上述程序模块来实现相应的功能。
[0119]
处理器中包含内核,由内核去存储器中调取相应的程序模块,上述内核可以设置一个或以上。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram),存储器包括至少一个存储芯片。
[0120]
根据本技术实施例,还提供了一种非易失性存储介质的实施例。可选的,在本实施例中,上述非易失性存储介质包括存储的程序,其中,在上述程序运行时控制上述非易失性存储介质所在设备执行上述任意一种电网设备标准条款差异的确定方法。
[0121]
可选的,在本实施例中,上述非易失性存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中,上述非易失性存储介质包括存储的程序。
[0122]
可选的,在程序运行时控制非易失性存储介质所在设备执行以下功能:对预先获取到的多个电网设备标准条款进行三元组抽取,得到上述多个电网设备标准条款对应的多个三元组抽取结果,其中,上述多个三元组抽取结果分别包括头实体,尾实体,以及头实体和尾实体之间的实体关系,上述多个电网设备标准条款与上述多个三元组抽取结果存在一一对应的关系;对上述多个三元组抽取结果包括的实体进行聚类处理,得到实体聚类结果,其中,上述实体聚类结果用于指示上述多个三元组抽取结果中包括的实体分别从属的实体类别;基于上述多个三元组抽取结果和上述实体聚类结果,构建知识图谱;基于上述知识图谱,确定上述多个电网设备标准条款之间的差异分析结果。
[0123]
根据本技术实施例,还提供了一种处理器的实施例。可选的,在本实施例中,上述处理器用于运行程序,其中,上述程序运行时执行上述任意一种电网设备标准条款差异的
确定方法。
[0124]
根据本技术实施例,还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有上述任意一种的电网设备标准条款差异的确定方法步骤的程序。
[0125]
可选的,上述计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:对预先获取到的多个电网设备标准条款进行三元组抽取,得到上述多个电网设备标准条款对应的多个三元组抽取结果,其中,上述多个三元组抽取结果分别包括头实体,尾实体,以及头实体和尾实体之间的实体关系,上述多个电网设备标准条款与上述多个三元组抽取结果存在一一对应的关系;对上述多个三元组抽取结果包括的实体进行聚类处理,得到实体聚类结果,其中,上述实体聚类结果用于指示上述多个三元组抽取结果中包括的实体分别从属的实体类别;基于上述多个三元组抽取结果和上述实体聚类结果,构建知识图谱;基于上述知识图谱,确定上述多个电网设备标准条款之间的差异分析结果。
[0126]
本发明实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:对预先获取到的多个电网设备标准条款进行三元组抽取,得到上述多个电网设备标准条款对应的多个三元组抽取结果,其中,上述多个三元组抽取结果分别包括头实体,尾实体,以及头实体和尾实体之间的实体关系,上述多个电网设备标准条款与上述多个三元组抽取结果存在一一对应的关系;对上述多个三元组抽取结果包括的实体进行聚类处理,得到实体聚类结果,其中,上述实体聚类结果用于指示上述多个三元组抽取结果中包括的实体分别从属的实体类别;基于上述多个三元组抽取结果和上述实体聚类结果,构建知识图谱;基于上述知识图谱,确定上述多个电网设备标准条款之间的差异分析结果。
[0127]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0128]
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0129]
在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如上述模块的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模块或模块的间接耦合或通信连接,可以是电性或其它的形式。
[0130]
上述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0131]
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
[0132]
上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取非易失性存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产
品的形式体现出来,该计算机软件产品存储在一个非易失性存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的非易失性存储介质包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0133]
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
技术特征:
1.一种电网设备标准条款差异的确定方法,其特征在于,包括:对预先获取到的多个电网设备标准条款进行三元组抽取,得到所述多个电网设备标准条款对应的多个三元组抽取结果,其中,所述多个三元组抽取结果分别包括头实体,尾实体,以及头实体和尾实体之间的实体关系,所述多个电网设备标准条款与所述多个三元组抽取结果存在一一对应的关系;对所述多个三元组抽取结果包括的实体进行聚类处理,得到实体聚类结果,其中,所述实体聚类结果用于指示所述多个三元组抽取结果中包括的实体分别从属的实体类别;基于所述多个三元组抽取结果和所述实体聚类结果,构建知识图谱;基于所述知识图谱,确定所述多个电网设备标准条款之间的差异分析结果。2.根据权利要求1所述的方法,其特征在于,所述基于所述知识图谱,确定所述多个电网设备标准条款之间的差异结果,包括:基于所述知识图谱,采用知识表示算法确定所述多个三元组抽取结果包括的实体分别对应的向量表示;基于所述多个三元组抽取结果包括的实体分别对应的向量表示,确定所述多个三元组抽取结果包括的实体中任意两个实体之间的实体相似度,其中,所述任意两个实体属于相同的实体类别;基于所述实体相似度,确定所述多个三元组抽取结果中存在相似关系的实体对,并将所述相似关系更新至所述知识图谱中,得到更新后的知识图谱;基于所述更新后的知识图谱,确定所述差异分析结果。3.根据权利要求2所述的方法,其特征在于,所述基于所述实体相似度,确定所述多个三元组抽取结果中存在相似关系的实体对,包括:判断所述任意两个实体之间的所述实体相似度是否大于预设相似度阈值;若所述任意两个实体之间的所述实体相似度大于所述预设相似度阈值,则确定所述任意两个实体之间存在所述相似关系,并确定所述任意两个实体为所述实体对。4.根据权利要求2所述的方法,其特征在于,在所述实体相似度包括头实体相似度和尾实体相似度的情况下,所述基于所述更新后的知识图谱,确定所述差异分析结果,包括:从所述更新后的知识图谱中确定出第一实体对,其中,所述第一实体对包括的两个头实体之间的头实体相似度大于预设相似度阈值;确定所述第一实体对包括的两个尾实体之间的尾实体相似度,以及确定所述第一实体对包括的两个实体关系之间的关系相似度;基于所述第一实体对包括的两个头实体之间的头实体相似度,两个尾实体之间的尾实体相似度,以及两个实体关系之间的关系相似度,确定所述差异分析结果。5.根据权利要求2所述的方法,其特征在于,在所述实体相似度包括头实体相似度和尾实体相似度的情况下,所述基于所述更新后的知识图谱,确定所述差异分析结果,包括:从所述更新后的知识图谱中确定出第二实体对,其中,所述第二实体对包括的两个尾实体之间的尾实体相似度大于预设相似度阈值;确定所述第二实体对包括的两个头实体之间的头实体相似度,以及确定所述第二实体对包括的两个实体关系之间的关系相似度;基于所述第二实体对包括的两个头实体之间的头实体相似度,两个尾实体之间的尾实
体相似度,以及两个实体关系之间的关系相似度,确定所述差异分析结果。6.根据权利要求2所述的方法,其特征在于,所述基于所述知识图谱,采用知识表示算法确定所述多个三元组抽取结果包括的实体分别对应的向量表示,包括:确定所述多个三元组抽取结果对应的预设数据格式,其中,所述预设数据格式至少包括:由所述多个三元组抽取结果中包括的实体、以及对应的实体编号组成的第一数据格式,由所述多个三元组抽取结果中包括的实体关系、以及对应的关系编号对应的第二数据格式,所述多个三元组抽取结果中包括头实体对应的头实体编号、实体关系对应的关系编号、以及尾实体对应的尾实体编号组成的第三数据格式;基于所述预设数据格式和预设损失函数,采用所述知识表示算法,确定所述多个三元组抽取结果包括的实体分别对应的向量表示。7.根据权利要求1至6中任意一项所述的方法,其特征在于,所述对预先获取到的多个电网设备标准条款进行三元组抽取,得到所述多个电网设备标准条款对应的多个三元组抽取结果,包括:对所述多个电网设备标准条款分别进行分词处理,得到所述多个电网设备标准条款对应的分词结果;对所述分词结果进行词性标注处理,得到所述多个电网设备标准条款对应的词性标注结果;对所述分词结果和所述词性标注结果进行依存句法分析,得到依存句法分析结果;基于所述分词结果,所述词性标注结果,以及所述依存句法分析结果,确定所述多个电网设备标准条款中包括的词语分别对应的依存节点字典;基于所述依存节点字典,确定所述多个三元组抽取结果。8.一种电网设备标准条款差异的确定装置,其特征在于,包括:三元组抽取模块,用于对预先获取到的多个电网设备标准条款进行三元组抽取,得到所述多个电网设备标准条款对应的多个三元组抽取结果,其中,所述多个三元组抽取结果分别包括头实体,尾实体,以及头实体和尾实体之间的实体关系,所述多个电网设备标准条款与所述多个三元组抽取结果存在一一对应的关系;聚类模块,用于对所述多个三元组抽取结果包括的实体进行聚类处理,得到实体聚类结果,其中,所述实体聚类结果用于指示所述多个三元组抽取结果中包括的实体分别从属的实体类别;构建模块,用于基于所述多个三元组抽取结果和所述实体聚类结果,构建知识图谱;确定模块,用于基于所述知识图谱,确定所述多个电网设备标准条款之间的差异分析结果。9.根据权利要求8所述的装置,其特征在于,所述确定模块,包括:第一确定子模块,用于基于所述知识图谱,采用知识表示算法确定所述多个三元组抽取结果包括的实体分别对应的向量表示;第二确定子模块,用于基于所述多个三元组抽取结果包括的实体分别对应的向量表示,确定所述多个三元组抽取结果包括的实体中任意两个实体之间的实体相似度,其中,所述任意两个实体属于相同的实体类别;第三确定子模块,用于基于所述实体相似度,确定所述多个三元组抽取结果中存在相
似关系的实体对,并将所述相似关系更新至所述知识图谱中,得到更新后的知识图谱;第四确定子模块,用于基于所述更新后的知识图谱,确定所述差异分析结果。10.根据权利要求9所述的装置,其特征在于,所述第三确定子模块,包括:第一判断子模块,用于判断所述任意两个实体之间的所述实体相似度是否大于预设相似度阈值;第五确定子模块,用于若所述任意两个实体之间的所述实体相似度大于所述预设相似度阈值,则确定所述任意两个实体之间存在所述相似关系,并确定所述任意两个实体为所述实体对。11.根据权利要求9所述的装置,其特征在于,在所述实体相似度包括头实体相似度和尾实体相似度的情况下,所述第四确定子模块,包括:第一选取子模块,用于从所述更新后的知识图谱中确定出第一实体对,其中,所述第一实体对包括的两个头实体之间的头实体相似度大于预设相似度阈值;第六确定子模块,用于确定所述第一实体对包括的两个尾实体之间的尾实体相似度,以及确定所述第一实体对包括的两个实体关系之间的关系相似度;第七确定子模块,用于基于所述第一实体对包括的两个头实体之间的头实体相似度,两个尾实体之间的尾实体相似度,以及两个实体关系之间的关系相似度,确定所述差异分析结果。12.根据权利要求9所述的装置,其特征在于,在所述实体相似度包括头实体相似度和尾实体相似度的情况下,所述第四确定子模块,包括:第二选取子模块,用于从所述更新后的知识图谱中确定出第二实体对,其中,所述第二实体对包括的两个尾实体之间的尾实体相似度大于预设相似度阈值;第八确定子模块,用于确定所述第二实体对包括的两个头实体之间的头实体相似度,以及确定所述第二实体对包括的两个实体关系之间的关系相似度;第九确定子模块,用于基于所述第二实体对包括的两个头实体之间的头实体相似度,两个尾实体之间的尾实体相似度,以及两个实体关系之间的关系相似度,确定所述差异分析结果。13.根据权利要求9所述的装置,其特征在于,所述第一确定子模块,包括:第十确定子模块,用于确定所述多个三元组抽取结果对应的预设数据格式,其中,所述预设数据格式至少包括:由所述多个三元组抽取结果中包括的实体、以及对应的实体编号组成的第一数据格式,由所述多个三元组抽取结果中包括的实体关系、以及对应的关系编号对应的第二数据格式,所述多个三元组抽取结果中包括头实体对应的头实体编号、实体关系对应的关系编号、以及尾实体对应的尾实体编号组成的第三数据格式;第十一确定子模块,用于基于所述预设数据格式和预设损失函数,采用所述知识表示算法,确定所述多个三元组抽取结果包括的实体分别对应的向量表示。14.根据权利要求8至13中任意一项所述的装置,其特征在于,所述三元组抽取模块,包括:第一获取子模块,用于对所述多个电网设备标准条款分别进行分词处理,得到所述多个电网设备标准条款对应的分词结果;第一标注子模块,用于对所述分词结果进行词性标注处理,得到所述多个电网设备标
准条款对应的词性标注结果;第一分析子模块,用于对所述分词结果和所述词性标注结果进行依存句法分析,得到依存句法分析结果;第十二确定子模块,用于基于所述分词结果,所述词性标注结果,以及所述依存句法分析结果,确定所述多个电网设备标准条款中包括的词语分别对应的依存节点字典;第十三确定子模块,用于基于所述依存节点字典,确定所述多个三元组抽取结果。15.一种非易失性存储介质,其特征在于,所述非易失性存储介质存储有多条指令,所述指令适于由处理器加载并执行权利要求1至7中任意一项所述的电网设备标准条款差异的确定方法。16.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7中任意一项所述的电网设备标准条款差异的确定方法。
技术总结
本发明公开了一种电网设备标准条款差异的确定方法、装置及电子设备。其中,该方法包括:对预先获取到的多个电网设备标准条款进行三元组抽取,得到多个电网设备标准条款对应的多个三元组抽取结果,多个电网设备标准条款与多个三元组抽取结果存在一一对应的关系;对多个三元组抽取结果包括的实体进行聚类处理,得到实体聚类结果;基于多个三元组抽取结果和实体聚类结果,构建知识图谱;基于知识图谱,确定多个电网设备标准条款之间的差异分析结果。本发明解决了由于相关技术中采用人工方式进行电网设备标准条款差异,造成的分析效率低、准确性差且条款误用率低的技术问题。确性差且条款误用率低的技术问题。确性差且条款误用率低的技术问题。
技术研发人员:孙振 王彦卿 王剑 张兴辉 邵进 赵雪骞 谢欢 程林 李香龙 袁清芳 赵蕾 王培祎 蔺家骏 许飞 付慧 马径坦 王思宁 郑倩 王军 高晓欣 雍怡博 姜海东 张涛 孙丽丽
受保护的技术使用者:国家电网有限公司 北京中电普华信息技术有限公司 国网信息通信产业集团有限公司 国网浙江省电力有限公司 国网江苏省电力有限公司
技术研发日:2022.12.31
技术公布日:2023/7/25
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
