电力财务知识问答方法、装置、终端及存储介质

未命名 10-19 阅读:122 评论:0


1.本发明涉及自然语言处理技术领域,尤其涉及一种电力财务知识问答方法、装置、终端及存储介质。


背景技术:

2.知识图谱(kg,knowledge graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。知识图谱,它能为学科研究提供切实的、有价值的参考。
3.知识图谱问答在各个领域得到了广泛的应用,基于知识图谱的问答技术也得到了极大的发展。知识图谱属于人工智能重要研究领域知识工程研究范畴,是利用知识工程建立大规模知识资源的重要应用之一。知识图谱构建需要挖掘、分析、绘制和显示知识及知识之间的相互关系,让原本知识库更具智能。结合知识图谱智能问答,通过知识图谱中实体间存在的直接联系,挖掘推理出潜在关系,与传统搜索引擎比较,基于知识图谱的信息检索,不再是反馈简单排序的文档结果,而是通过智能语义分析,反馈接近用户需要的问题答案。
4.基于知识图谱的问答技术不断与各个领域的技术相结合,并形成不同领域的语义分析、知识检索的搜索引擎。对于财务领域而言,尤其是电力领域的财务而言,出于对财务数据的保密性和财务文本的专业特性,现有的一些知识图谱问答方法很难在电力财务领域取得理想的效果。
5.基于此,需要开发设计出一种电力财务知识问答方法。


技术实现要素:

6.本发明实施方式提供了一种电力财务知识问答方法、装置、终端及存储介质,用于解决现有技术中问答技术在电力财务领域取得的效果不理想的问题。
7.第一方面,本发明实施方式提供了一种电力财务知识问答方法,包括:
8.对问句文本进行分词和实体链接处理,从电力财务知识图谱中找出与所述问句文本的多个关键词相对应的多个候选词集,其中,所述电力财务知识图谱包括多个实体和多个关系;
9.根据所述多个候选词集进行关系路径匹配,获得到多个候选关系路径;
10.从所述多个候选关系路径中选出最终关系路径,基于所述最终关系路径确定最终答案。
11.在一种可能实现的方式中,所述对问句文本进行分词和实体链接处理,从电力财务知识图谱中找出与所述问句文本的多个关键词相对应的多个候选词集,包括:
12.根据所述电力财务知识图谱的多个实体和多个关系,对所述问句文本进行分词处理获得多个目标关键词,其中,所述实体以及所述关系分别基于多个基本分词组合形成;
13.根据所述多个目标关键词,从所述电力财务知识图谱中提取对应所述多个目标关键词的多个目标词向量,其中,目标词向量基于构成目标关键词的多个基本分词的标识构建而成;
14.根据所述问句文本对所述多个词向量进行排序,获得词向量集合;
15.提取所述电力财务知识图谱中对应多个实体和多个关系的多个图谱向量,其中,实体以及关系的图谱向量分别基于构成实体以及关系的多个基本分词的标识构建而成;
16.根据所述多个图谱向量与所述词向量集合的相似度,获取多个候选词集。
17.在一种可能实现的方式中,所述根据所述多个图谱向量与所述词向量集合的相似度,获取多个候选词集,包括:
18.对于所述多个图谱向量中的每个向量,执行如下步骤:
19.根据第一公式、图谱向量以及所述词向量集合,确定图谱向量的相似度,其中,所述第一公式为:
20.s
er
=e
wi
·
kg
21.式中,s
er
为图谱向量的相似度,e
wi
为词向量集合中对应第i个关键词的向量,kg为图谱向量;
22.根据图谱向量的相似度以及相似度阈值,确定图谱向量是否为候选词;
23.若图谱向量为候选词,则将图谱向量对应实体或关系的加入到词向量所对应的候选词集中。
24.在一种可能实现的方式中,所述根据所述多个候选词集进行关系路径匹配,获得到多个候选关系路径,包括:
25.将所述多个候选词集进行分类,获得多个实体候选词集和多个关系候选词集;
26.遍历判断步骤:若已遍历第一个实体候选词集,则删除不完整的关系预备链路,以及,根据所述多个关系候选词集,对多个完整的关系预备链路进行匹配,获得多个候选关系路径,其中,第一个实体候选词集为所述多个实体候选词集中对应所述问句文本第一个实体关键词的候选词集,不完整的关系预备链路中的实体数量少于所述多个实体候选词集的数量;
27.若未遍历第一个实体候选词集,则从第一个实体候选词集中按照预设的顺序选择实体作为第一候选实体,并基于第一候选实体,构建多个关系链路预备集,其中,关系链路预备集包括具有多个一跳关系的实体,关系链路预备集的多个实体基于多个实体候选词集进行一跳关系判断确定。
28.在一种可能实现的方式中,所述基于第一候选实体,构建多个关系链路预备集,包括:
29.初始化预备候选词集为第二个实体候选词集;
30.一跳关系判断步骤:判断所述第一候选实体与所述预备候选词集中的多个实体的一跳关系;
31.若所述预备候选词集中存在与所述候选实体有一跳关系的实体,则将所述第一候选实体加入对应所述第一候选实体的关系链路预备集中,将所述预备候选词集的下一个词
集作为预备候选词集,将所述候选实体有一跳关系的实体作为第一候选实体,以及,跳转至所述一跳关系判断步骤;
32.否则,跳转至所述遍历判断步骤。
33.在一种可能实现的方式中,所述根据所述多个关系候选词集,对多个完整的关系预备链路进行匹配,获得多个候选关系路径,包括:
34.对于所述多个完整的关系预备链路中的每个完整的关系预备链路,执行如下步骤:
35.将所述多个关系候选词集的关系,按照所述问句文本的多个关键词的顺序,加入到关系预备联络中;
36.从所述多个关系候选词集中选择最后一个关系候选词集作为目标词集;
37.对于所述目标词集中的每个关系,执行如下步骤:
38.获取关系的头实体;
39.判断所述头实体是否存在于所述多个实体候选词集中的最后一个候选词集中;
40.若存在于所述多个关系候选词集中最后一个候选词集中,则将关系的尾实体作为候选答案。
41.在一种可能实现的方式中,所述从所述多个候选关系路径中选出最终关系路径,包括:
42.根据所述电力财务知识图谱的多个实体和多个关系,对所述问句文本进行分词处理获得多个目标关键词,其中,所述实体以及所述关系分别基于多个基本分词组合形成;
43.根据所述多个目标关键词,从所述电力财务知识图谱中提取对应所述多个目标关键词的多个目标词向量,其中,目标词向量基于构成目标关键词的多个基本分词的标识构建而成;
44.根据所述问句文本对所述多个词向量进行重组,获得问句向量;
45.根据第二公式、所述多个候选关系路径以及所述问句向量,获得对应所述多个候选关系路径的多个评分,其中,所述第二公式为:
46.s
qer
=eq·
e1·
r1·
e2·
r2·
……
·rn-1
·en
47.式中,s
qer
为评分,eq为问句向量,r
n-1
为第n-1个关系的向量,en为第n个实体的向量;
48.选择评分最高的候选关系路径作为最终关系路径。
49.第二方面,本发明实施方式提供了一种电力财务知识问答装置,用于实现如上第一方面或第一方面的任一种可能的实现方式所述的电力财务知识问答方法,所述电力财务知识问答装置包括:
50.分词和链接模块,用于对问句文本进行分词和实体链接处理,从电力财务知识图谱中找出与所述问句文本的多个关键词相对应的多个候选词集,其中,所述电力财务知识图谱包括多个实体和多个关系;
51.候选关系路径构建模块,用于根据所述多个候选词集进行关系路径匹配,获得到多个候选关系路径;
52.以及,
53.路径选择和答案确定模块,用于从所述多个候选关系路径中选出最终关系路径,
基于所述最终关系路径确定最终答案。
54.第三方面,本发明实施方式提供了一种终端,包括存储器以及处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。
55.第四方面,本发明实施方式提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。
56.本发明实施方式与现有技术相比存在的有益效果是:
57.本发明实施方式公开了的一种电力财务知识问答方法,其首先获取对问句文本进行分词和实体链接处理,从电力财务知识图谱中找出与所述问句文本的多个关键词相对应的多个候选词集,其中,所述电力财务知识图谱包括多个实体和多个关系;然后根据所述多个候选词集进行关系路径匹配,获得到多个候选关系路径;最后从所述多个候选关系路径中选出最终关系路径,基于所述最终关系路径确定最终答案。本发明实施方式电力财务知识图谱,进行关键词的划分,并基于关键词和基于链路推理,确定与问句文本最为相似的链路,从而确定最为准确的回答,可以减少关系匹配的范围,提高关系路径匹配的准确率,从而提升问答任务的准确率。
附图说明
58.为了更清楚地说明本发明实施方式中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
59.图1是本发明实施方式提供的电力财务知识问答方法的流程图;
60.图2是本发明实施方式提供的知识图谱问答方法的架构图;
61.图3是本发明实施方式提供的电力财务知识图谱示例图;
62.图4是本发明实施方式提供的实体连接模块候选集示例图;
63.图5是本发明实施方式提供的一跳关系判断示意图;
64.图6是本发明实施方式提供的终候选答案确定过程图。
65.图7是本发明实施方式提供的路径选择和答案确定过程图;
66.图8是本发明实施方式提供的知识图谱问答方法的链路匹配算法流程图;
67.图9是本发明实施方式提供的电力财务知识问答装置功能框图;
68.图10是本发明实施方式提供的终端功能框图。
具体实施方式
69.以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施方式。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施方式中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
70.为使本发明的目的、技术方案和优点更加清楚,下面将结合附图通过具体实施方
式来进行说明。
71.下面对本发明的实施例作详细说明,本实例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
72.图1为本发明实施方式提供的电力财务知识问答方法的流程图。
73.如图1所示,其示出了本发明实施方式提供的电力财务知识问答方法的实现流程图,详述如下:
74.在步骤101中,对问句文本进行分词和实体链接处理,从电力财务知识图谱中找出与所述问句文本的多个关键词相对应的多个候选词集,其中,所述电力财务知识图谱包括多个实体和多个关系。
75.在一些实施方式中,所述步骤101包括:
76.根据所述电力财务知识图谱的多个实体和多个关系,对所述问句文本进行分词处理获得多个目标关键词,其中,所述实体以及所述关系分别基于多个基本分词组合形成;
77.根据所述多个目标关键词,从所述电力财务知识图谱中提取对应所述多个目标关键词的多个目标词向量,其中,目标词向量基于构成目标关键词的多个基本分词的标识构建而成;
78.根据所述问句文本对所述多个词向量进行排序,获得词向量集合;
79.提取所述电力财务知识图谱中对应多个实体和多个关系的多个图谱向量,其中,实体以及关系的图谱向量分别基于构成实体以及关系的多个基本分词的标识构建而成;
80.根据所述多个图谱向量与所述词向量集合的相似度,获取多个候选词集。
81.在一些实施方式中,根据所述多个图谱向量与所述词向量集合的相似度,获取多个候选词集,包括:
82.对于所述多个图谱向量中的每个向量,执行如下步骤:
83.根据第一公式、图谱向量以及所述词向量集合,确定图谱向量的相似度,其中,所述第一公式为:
84.s
er
=e
wi
·
kg
85.式中,s
er
为图谱向量的相似度,e
wi
为词向量集合中对应第i个关键词的向量,kg为图谱向量;
86.根据图谱向量的相似度以及相似度阈值,确定图谱向量是否为候选词;
87.若图谱向量为候选词,则将图谱向量对应实体或关系的加入到词向量所对应的候选词集中。
88.示例性地,本发明实施方式的电力财务知识问答方法,从功能模块上进行划分,可以划分为四个部分:
89.分词模块、实体链接模块、链路推理模块、评分模块。图2展示模型的框架。首先知识图谱kg可以表示为一个三元组集合,即kg∈e
×r×
e,其中e为知识图谱中的全部实体集合,r为知识图谱中的全部关系集合。对于知识图谱kg中任意三元组t,可表示为一个有序对(h,r,t),其中h为三元组的头实体,t为三元组的尾实体,r为头实体h与尾实体t之间的关系,h、t∈e且r∈r。其次对知识图谱问答任务(kgqa)进行是给定一个知识图谱kg∈e
×r×
e以及一个自然语言问题q,通过一系列的推理,在知识图谱kg中找到自然语言问题q的正确答案a,a∈e。
90.具体到四个部分方面,分词模块:
91.本文所用方法提取自然语言问题q中所有可能出现在知识图谱kg中的关键词wi(i=1,2
……
,n),其中n为自然语言问题q包含的关键词的数量。这样做一方面可以避免关键词提取错误带来的风险,另一方面可以充分的利用问题中包含的信息。
92.通常使用的中文分词工具(例如jieba等)无法对财务文本数据进行准确的切分。例如,给定一个问题“a公司人力部承办的文化创新项目的负责人是谁”,jieba分词对其进行切分的结果为“a/公司/人力部/承办/的/文化/创新/项目/的/负责/人/是/谁”,而我们想要的切分结果是“a公司/人力部/承办/的/文化创新项目/的/负责人/是/谁”。两种结果相差非常大,而且通用分词工具的切分结果也无法满足实验的需求。
93.通过对财务文本的观察分析,我们将问句中可能出现的关键词分为四类:公司类、部门类、项目类、属性类(包括项目属性和部门属性)。部门类关键词通常可以被识别。公司类关键词均有明显的特征:变电站类的关键词通常包含“字符串”+“公司”或“有限责任公司”的组合特征,根据这种明显的特征,可以比较容易的切分出公司类的关键词。而项目类和属性类的关键词通常会被介词、动词等词汇间隔开。
94.实体链接模块:
95.将上一步(分词模块)中得到的关键词序列w1、w2
……
、wn链接到知识图谱中,得到关键词序列w1、w2
……
、wn的候选词集w1、w2
……
、wn。本文采用了向量匹配法进行实体链接。
96.对关键词序列和知识图谱进行嵌入表示(例如,使用transe模型),得到关键词序列的向量表示集合e
wi
(i=1,2
……
,n)以及知识图谱的向量表示集合kg。kg包括节点向量集合ej和关系向量集合rl,其中j和l分别为知识图谱中的节点和关系数量。对每一个e
wi
分别与ej和rl中的每个向量做内积运算,其结果作为关键词与知识图谱中节点关系的相似度评分:
97.s
er
=e
wi
·
kg
98.式中,s
er
为图谱向量的相似度,e
wi
为词向量集合中对应第i个关键词的向量,kg为图谱向量。
99.取s
er
在某个阈值之上的e或r作为关键词wi的候选词集bi。
100.在步骤102中,根据所述多个候选词集进行关系路径匹配,获得到多个候选关系路径。
101.在一些实施方式中,所述步骤102包括:
102.将所述多个候选词集进行分类,获得多个实体候选词集和多个关系候选词集;
103.遍历判断步骤:若已遍历第一个实体候选词集,则删除不完整的关系预备链路,以及,根据所述多个关系候选词集,对多个完整的关系预备链路进行匹配,获得多个候选关系路径,其中,第一个实体候选词集为所述多个实体候选词集中对应所述问句文本第一个实体关键词的候选词集,不完整的关系预备链路中的实体数量少于所述多个实体候选词集的数量;
104.若未遍历第一个实体候选词集,则从第一个实体候选词集中按照预设的顺序选择实体作为第一候选实体,并基于第一候选实体,构建多个关系链路预备集,其中,关系链路预备集包括具有多个一跳关系的实体,关系链路预备集的多个实体基于多个实体候选词集
进行一跳关系判断确定。
105.在一些实施方式中,所述基于第一候选实体,构建多个关系链路预备集,包括:
106.初始化预备候选词集为第二个实体候选词集;
107.一跳关系判断步骤:判断所述第一候选实体与所述预备候选词集中的多个实体的一跳关系;
108.若所述预备候选词集中存在与所述候选实体有一跳关系的实体,则将所述第一候选实体加入对应所述第一候选实体的关系链路预备集中,将所述预备候选词集的下一个词集作为预备候选词集,将所述候选实体有一跳关系的实体作为第一候选实体,以及,跳转至所述一跳关系判断步骤;
109.否则,跳转至所述遍历判断步骤。
110.在一些实施方式中,所述根据所述多个关系候选词集,对多个完整的关系预备链路进行匹配,获得多个候选关系路径,包括:
111.对于所述多个完整的关系预备链路中的每个完整的关系预备链路,执行如下步骤:
112.将所述多个关系候选词集的关系,按照所述问句文本的多个关键词的顺序,加入到关系预备联络中;
113.从所述多个关系候选词集中选择最后一个关系候选词集作为目标词集;
114.对于所述目标词集中的每个关系,执行如下步骤:
115.获取关系的头实体;
116.判断所述头实体是否存在于所述多个实体候选词集中的最后一个候选词集中;
117.若存在于所述多个关系候选词集中最后一个候选词集中,则将关系的尾实体作为候选答案。
118.示例性地,电力财务知识问答方法的第三个部分是链路推理模块,链路匹配模块采用基于取交集的链路匹配算法。对于在上一步实体链接中得到的候选集,任取其中一个候选集,并依次取该候选集中的所有实体的一跳范围内的实体集合,分别与其他候选集进行取交集。对每个候选集分别进行上述操作,将最后得到的交集部分整合为一条完整的关系链路。链路匹配算法具体流程如图8所示。
119.假设有如图3所示的部分知识图谱,对自然语言问题“a公司人力部承办的文化创新项目的负责人是谁”在图3所示的知识图谱中进行问答推理。具体过程如下:
120.(1)首先,得到这个问题的关键词序列w={w1,w2,w3,w4,w5}={“a公司”,“人力部”,“承办”,“文化创新项目”,“负责人”}以及关键词序列w的候选集b,如图3所示。
121.将关键词w1,w2,w4链接到知识图谱中的实体,分别得到实体候选集b1、b2、b4。候选集中的实体带有其在知识图谱中的id作为标识。关键词w3,w5链接到了知识图谱中的关系,分别得到关系候选集b3、b5。候选集中的关系带有其在知识图谱中的头节点id和尾节点id作为标识。
122.(2)选取其中的一个实体候选集b1(可以是任意候选集),取其中的一个候选实体b11=“a公司{id=1}”,得到该候选实体在知识图谱中一跳范围内的所有实体集合k11={“人力部{id=2}”,“财务部{id=5}”}。对实体集合k11与其余所有的候选实体集合b2、b4取交集,如果实体集合k11与候选实体集合b2,b4均无交集,则说明候选实体b11与其他候选
实体节点之间不存在关系,故舍弃掉该节点;如果如果实体集合k11与候选实体集合b2、b4存在交集,则表示候选实体b11与其他候选实体节点之间存在关系,关系链路的匹配可以继续进行,如图5所示。
123.(3)实体集合k11与候选实体集合b2、b4分别进行取交集操作,结果可知k11与b4不存在交集,与b2存在交集{“人事部{id=2}”,“财务部{id=5}”}。这说明候选实体b11“a公司{id=1}”与实体“人事部{id=2}”和“财务部{id=5}”之间存在关系,可以在此基础上继续进行关系链路推理。
124.(4)继续取实体“人事部{id=2}”和“财务部{id=5}”各自的一跳范围内实体集合与其余未成功取交集的候选实体集合b4进行取交集,如果可以取到交集,则继续重复上述操作,直到所有候选实体集合均成功取交集之后,将关系候选集加入取交集操作中,如图5所示。
125.(5)最终,在所有候选集合都参与并成功取交集后,得到关系b51=“{id=3}起始时间{id=4}”的头实体b41=“{id=3}”存在于候选集合中,而尾实体“{id=4}”不在候选集合中,此时我们把尾实体“{id=4}”作为候选答案,候选实体b11=“a公司{id=1}”到候选答案“{id=4}”之间的关系路径作为候选关系路径,如图6所示。
126.在步骤103中,从所述多个候选关系路径中选出最终关系路径,基于所述最终关系路径确定最终答案。
127.在一些实施方式中,所述步骤103包括:
128.根据所述电力财务知识图谱的多个实体和多个关系,对所述问句文本进行分词处理获得多个目标关键词,其中,所述实体以及所述关系分别基于多个基本分词组合形成;
129.根据所述多个目标关键词,从所述电力财务知识图谱中提取对应所述多个目标关键词的多个目标词向量,其中,目标词向量基于构成目标关键词的多个基本分词的标识构建而成;
130.根据所述问句文本对所述多个词向量进行重组,获得问句向量;
131.根据第二公式、所述多个候选关系路径以及所述问句向量,获得对应所述多个候选关系路径的多个评分,其中,所述第二公式为:
132.s
qer
=eq·
e1·
r1·
e2·
r2·
……
·rn-1
·en
133.式中,s
qer
为评分,eq为问句向量,r
n-1
为第n-1个关系的向量,en为第n个实体的向量;
134.选择评分最高的候选关系路径作为最终关系路径。
135.示例性地,电力财务知识问答方法的第四个部分是评分模块,我们以候选实体b11=“a公司{id=1}”为例推理了关系链路的匹配过程,并得到一条关系链路,如图7所示。对全部的实体候选集b中的全部候选实体都进行上述描述的操作,将会得到多条完整的关系路径,即多个候选答案。我们将对每一条候选路径进行评分,以确定最终的答案。
136.对问句q进行嵌入,得到问句q的向量表示eq,取每一条链路上的实体向量表示e1、e2、
……
、en和关系向量表示r1、r2、
……
、r
n-1
进行评分:
137.s
qer
=eq·
e1·
r1·
e2·
r2·
……
·rn-1
·en
138.式中,s
qer
为评分,eq为问句向量,r
n-1
为第n-1个关系的向量,en为第n个实体的向量。
139.取s
qer
值最高的候选路径作为最终关系路径,该关系路径最终链接的实体为最终答案。
140.本发明实施方式与现有技术的对比:
141.实验对比:
142.我们在实验中选取了三个基线模型进行比较:
143.(1)模板匹配法:根据电力财务知识图谱构建模板库,其中包括30条问题模板。将问句在模板库中根据规则进行匹配,并转换为相应的sparql查询语句,在知识图谱中进行检索。
144.(2)bilstm+crf+cnn:使用bilstm+crf通过命名实体识别确定问句中的关键实体,使用cnn抽取问句向量与关系向量的相似性矩阵进行关系预测。
145.(3)kgembedding:分别对知识图谱和问题进行嵌入表示,学习问题嵌入和答案实体嵌入,进行答案预测得到候选答案,最终通过结合问题和关系的相似度确定最终答案。最终实验结果如表1所示:
[0146][0147]
表1实验结果对比
[0148]
本文实验在完整数据集上对本文方法及模板匹配法、bilstm+crf+cnn模型、kgembedding进行了实验对比如表1所示。在表中可见,本文模型在一跳、二跳、三跳数据上的准确率均高于对比模型。随着问题跳数的增加,本文模型的优势更为明显,比kgembedding模型高出2.8%,充分说明了本文模型在该数据集上的有效性。
[0149]
对本文模型在三跳数据集上进行消融实验结果如表2所示。本文在实体关系链接环节,分别使用了向量匹配法和字符匹配法两种方法,最终结果分别为92.9%和93.2%,并无较大区别。将本文模型中的关系路径匹配环节去掉,将关键词嵌入进行拼接,学习拼接后的嵌入和答案实体嵌入得出候选答案。最终的准确率为89.2%,相对于本文模型的准确率降低了4.1%说明了关系路径匹配环节在本文模型中的重要性。
[0150][0151]
表2消融实验
[0152]
本发明电力财务知识问答方法实施方式,其首先获取对问句文本进行分词和实体链接处理,从电力财务知识图谱中找出与所述问句文本的多个关键词相对应的多个候选词
集,其中,所述电力财务知识图谱包括多个实体和多个关系;然后根据所述多个候选词集进行关系路径匹配,获得到多个候选关系路径;最后从所述多个候选关系路径中选出最终关系路径,基于所述最终关系路径确定最终答案。本发明实施方式电力财务知识图谱,进行关键词的划分,并基于关键词和基于链路推理,确定与问句文本最为相似的链路,从而确定最为准确的回答,可以减少关系匹配的范围,提高关系路径匹配的准确率,从而提升问答任务的准确率。
[0153]
应理解,上述实施方式中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施方式的实施过程构成任何限定。
[0154]
以下为本发明的装置实施方式,对于其中未详尽描述的细节,可以参考上述对应的方法实施方式。
[0155]
图9是本发明实施方式提供的电力财务知识问答装置功能框图,参照图9,电力财务知识问答装置9包括:分词和链接模块901候选关系路径构建模块902、以及路径选择和答案确定模块903,其中:
[0156]
分词和链接模块901,用于对问句文本进行分词和实体链接处理,从电力财务知识图谱中找出与所述问句文本的多个关键词相对应的多个候选词集,其中,所述电力财务知识图谱包括多个实体和多个关系;
[0157]
候选关系路径构建模块902,用于根据所述多个候选词集进行关系路径匹配,获得到多个候选关系路径;
[0158]
以及,
[0159]
路径选择和答案确定模块903,用于从所述多个候选关系路径中选出最终关系路径,基于所述最终关系路径确定最终答案。
[0160]
图10是本发明实施方式提供的终端的功能框图。如图10所示,该实施方式的终端10包括:处理器1000和存储器1001,所述存储器1001中存储有可在所述处理器1000上运行的计算机程序1002。所述处理器1000执行所述计算机程序1002时实现上述各个电力财务知识问答方法及实施方式中的步骤,例如图1所示的步骤101至步骤103。
[0161]
示例性的,所述计算机程序1002可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器1001中,并由所述处理器1000执行,以完成本发明。
[0162]
所述终端10可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端10可包括,但不仅限于,处理器1000、存储器1001。本领域技术人员可以理解,图10仅仅是终端10的示例,并不构成对终端10的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端10还可以包括输入输出设备、网络接入设备、总线等。
[0163]
所称处理器1000可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0164]
所述存储器1001可以是所述终端10的内部存储单元,例如终端10的硬盘或内存。所述存储器1001也可以是所述终端10的外部存储设备,例如所述终端10上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,所述存储器1001还可以既包括所述终端10的内部存储单元也包括外部存储设备。所述存储器1001用于存储所述计算机程序1002以及所述终端10所需的其他程序和数据。所述存储器1001还可以用于暂时地存储已经输出或者将要输出的数据。
[0165]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本技术的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施方式中的对应过程,在此不再赘述。
[0166]
在上述实施方式中,对各个实施方式的描述都各有侧重,某个实施方式中没有详述或记载的部分,可以参见其它实施方式的相关描述。
[0167]
本领域普通技术人员可以意识到,结合本文中所公开的实施方式描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0168]
在本发明所提供的实施方式中,应该理解到,所揭露的装置/终端和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端实施方式仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
[0169]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
[0170]
另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0171]
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施方式方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法及装置实施方式的步骤。其中,所述计算机程序包括计算机程序代码,所述计
算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、电载波信号、电信信号以及软件分发介质等。
[0172]
以上所述实施方式仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施方式对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施方式技术方案的精神和范围,均应包含在本发明的保护范围之内。

技术特征:
1.一种电力财务知识问答方法,其特征在于,包括:对问句文本进行分词和实体链接处理,从电力财务知识图谱中找出与所述问句文本的多个关键词相对应的多个候选词集,其中,所述电力财务知识图谱包括多个实体和多个关系;根据所述多个候选词集进行关系路径匹配,获得到多个候选关系路径;从所述多个候选关系路径中选出最终关系路径,基于所述最终关系路径确定最终答案。2.根据权利要求1所述的电力财务知识问答方法,其特征在于,所述对问句文本进行分词和实体链接处理,从电力财务知识图谱中找出与所述问句文本的多个关键词相对应的多个候选词集,包括:根据所述电力财务知识图谱的多个实体和多个关系,对所述问句文本进行分词处理获得多个目标关键词,其中,所述实体以及所述关系分别基于多个基本分词组合形成;根据所述多个目标关键词,从所述电力财务知识图谱中提取对应所述多个目标关键词的多个目标词向量,其中,目标词向量基于构成目标关键词的多个基本分词的标识构建而成;根据所述问句文本对所述多个词向量进行排序,获得词向量集合;提取所述电力财务知识图谱中对应多个实体和多个关系的多个图谱向量,其中,实体以及关系的图谱向量分别基于构成实体以及关系的多个基本分词的标识构建而成;根据所述多个图谱向量与所述词向量集合的相似度,获取多个候选词集。3.根据权利要求2所述的电力财务知识问答方法,其特征在于,所述根据所述多个图谱向量与所述词向量集合的相似度,获取多个候选词集,包括:对于所述多个图谱向量中的每个向量,执行如下步骤:根据第一公式、图谱向量以及所述词向量集合,确定图谱向量的相似度,其中,所述第一公式为:s
er
=e
wi
·
kg式中,s
er
为图谱向量的相似度,e
wi
为词向量集合中对应第i个关键词的向量,kg为图谱向量;根据图谱向量的相似度以及相似度阈值,确定图谱向量是否为候选词;若图谱向量为候选词,则将图谱向量对应实体或关系的加入到词向量所对应的候选词集中。4.根据权利要求1所述的电力财务知识问答方法,其特征在于,所述根据所述多个候选词集进行关系路径匹配,获得到多个候选关系路径,包括:将所述多个候选词集进行分类,获得多个实体候选词集和多个关系候选词集;遍历判断步骤:若已遍历第一个实体候选词集,则删除不完整的关系预备链路,以及,根据所述多个关系候选词集,对多个完整的关系预备链路进行匹配,获得多个候选关系路径,其中,第一个实体候选词集为所述多个实体候选词集中对应所述问句文本第一个实体关键词的候选词集,不完整的关系预备链路中的实体数量少于所述多个实体候选词集的数量;若未遍历第一个实体候选词集,则从第一个实体候选词集中按照预设的顺序选择实体
作为第一候选实体,并基于第一候选实体,构建多个关系链路预备集,其中,关系链路预备集包括具有多个一跳关系的实体,关系链路预备集的多个实体基于多个实体候选词集进行一跳关系判断确定。5.根据权利要求4所述的电力财务知识问答方法,其特征在于,所述基于第一候选实体,构建多个关系链路预备集,包括:初始化预备候选词集为第二个实体候选词集;一跳关系判断步骤:判断所述第一候选实体与所述预备候选词集中的多个实体的一跳关系;若所述预备候选词集中存在与所述候选实体有一跳关系的实体,则将所述第一候选实体加入对应所述第一候选实体的关系链路预备集中,将所述预备候选词集的下一个词集作为预备候选词集,将所述候选实体有一跳关系的实体作为第一候选实体,以及,跳转至所述一跳关系判断步骤;否则,跳转至所述遍历判断步骤。6.根据权利要求4所述的电力财务知识问答方法,其特征在于,所述根据所述多个关系候选词集,对多个完整的关系预备链路进行匹配,获得多个候选关系路径,包括:对于所述多个完整的关系预备链路中的每个完整的关系预备链路,执行如下步骤:将所述多个关系候选词集的关系,按照所述问句文本的多个关键词的顺序,加入到关系预备联络中;从所述多个关系候选词集中选择最后一个关系候选词集作为目标词集;对于所述目标词集中的每个关系,执行如下步骤:获取关系的头实体;判断所述头实体是否存在于所述多个实体候选词集中的最后一个候选词集中;若存在于所述多个关系候选词集中最后一个候选词集中,则将关系的尾实体作为候选答案。7.根据权利要求1-6任一项所述的电力财务知识问答方法,其特征在于,所述从所述多个候选关系路径中选出最终关系路径,包括:根据所述电力财务知识图谱的多个实体和多个关系,对所述问句文本进行分词处理获得多个目标关键词,其中,所述实体以及所述关系分别基于多个基本分词组合形成;根据所述多个目标关键词,从所述电力财务知识图谱中提取对应所述多个目标关键词的多个目标词向量,其中,目标词向量基于构成目标关键词的多个基本分词的标识构建而成;根据所述问句文本对所述多个词向量进行重组,获得问句向量;根据第二公式、所述多个候选关系路径以及所述问句向量,获得对应所述多个候选关系路径的多个评分,其中,所述第二公式为:s
qer
=e
q
·
e1·
r1·
e2·
r2·
......
·
r
n-1
·
e
n
式中,s
qer
为评分,e
q
为问句向量,r
n-1
为第n-1个关系的向量,e
n
为第n个实体的向量;选择评分最高的候选关系路径作为最终关系路径。8.一种电力财务知识问答装置,其特征在于,用于实现如权利要求1-7任一项所述的电力财务知识问答方法,所述电力财务知识问答装置包括:
分词和链接模块,用于对问句文本进行分词和实体链接处理,从电力财务知识图谱中找出与所述问句文本的多个关键词相对应的多个候选词集,其中,所述电力财务知识图谱包括多个实体和多个关系;候选关系路径构建模块,用于根据所述多个候选词集进行关系路径匹配,获得到多个候选关系路径;以及,路径选择和答案确定模块,用于从所述多个候选关系路径中选出最终关系路径,基于所述最终关系路径确定最终答案。9.一种终端,包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上的权利要求1至7中任一项所述方法的步骤。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上的权利要求1至7中任一项所述方法的步骤。

技术总结
本发明涉及自然语言处理技术领域,尤其涉及一种电力财务知识问答方法、装置、终端及存储介质,本发明方法首先获取对问句文本进行分词和实体链接处理,从电力财务知识图谱中找出与问句文本的多个关键词相对应的多个候选词集,其中,电力财务知识图谱包括多个实体和多个关系;然后根据多个候选词集进行关系路径匹配,获得到多个候选关系路径;最后从多个候选关系路径中选出最终关系路径,基于最终关系路径确定最终答案。本发明利用基于候选词集相交的链路推理模型进行电力财务知识图谱问答任务,可以减少关系匹配的范围,提高关系路径匹配的准确率,从而提升问答任务的准确率。从而提升问答任务的准确率。从而提升问答任务的准确率。


技术研发人员:陈曦 张鹏飞 王玉贞 王洪涛 王新颖 王少影 卢艳艳 彭姣 尹晓宇 刘明硕 徐行
受保护的技术使用者:华北电力大学(保定) 国家电网有限公司
技术研发日:2023.04.14
技术公布日:2023/10/15
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐