一种基于知识图谱的招投标领域问答匹配方法与流程
未命名
07-22
阅读:252
评论:0
1.本发明属于文本数据处理分析技术领域,具体是一种基于知识图谱的招投标领域问答匹配方法。
背景技术:
2.问答匹配方法主要用于自动问答系统,其目的是在大量备选答案中找到与用户提出的问题最匹配的答案;
3.招投标领域具有流程顺序严格、专业术语繁多复杂等特点,现有的问答系统主要基于文本匹配和信息检索技术,但这些方法在处理招投标领域的问题时,往往难以准确理解问题背后的语境和意图,无法提供准确、全面的答案。
4.而知识图谱是一种知识表示和管理方法,它通过将实体、属性和关系结构化地组织在一起,可以有效地处理领域知识。一方面,结构化表示有助于捕捉招投标领域的专业术语和概念之间的关系,从而提高问答系统的准确性和效率;另一方面,基于知识图谱的问答系统可以处理多样化的问题类型,如事实性问题、原因解释、推荐等;这使得问答系统能够更好地满足招投标参与者在各个阶段的信息需求。而当前缺少一种能够通过构建知识图谱,提升了问答系统在招投标领域的准确性的方法,基于此,提供一种解决方案。
技术实现要素:
5.本发明旨在至少解决现有技术中存在的技术问题之一;
6.为此,本发明提出了一种基于知识图谱的招投标领域问答匹配方法,该方法具体包括如下步骤:
7.步骤一:使用bert预训练模型将输入的问题文本转化成结构化信息,具体方式为:
8.s21:使用bert预训练模型初始化输入的问题文本的原型表征,如式(1)所示,得到对应的表征fe(q):
9.fe(q)=f
encoder
(q)#(1)
10.其中,q代表输入的问题文本,f
encoder
(
·
)表示编码器函数;
11.s22:使用bert预训练模型解码原型表征fe(q),并进行文本化操作,得到短语三元组集合tp(q)=(tp1,tp2,
…
),如式(2)所示,
12.tp(q)=f
txt
(f
decoder
(fe(q)))#(2)
13.其中,f
decoder
(
·
)表示解码器函数,f
txt
(
·
)表示文本化操作函数;
14.s23:根据步骤2.2得到的tp(q),构建短语图其中,ε代表节点集合,集合,代表第i个三元组中的实体节点;代表边的集合,ri代表实体节点之间的边;
15.s24:使用allennlp获取问题中的词性标记,并提取标记为名词的第一个短语,预测数据类型和语义类型;
16.步骤二、根据步骤一生成的结构化信息,与知识图谱中的对应实体和关系建立链接:
17.s31、使用余弦相似度函数计算pgp节点与知识图谱顶点的语义亲和度得分s,如式(3)所示:
[0018][0019]
其中,ln是pgp中的节点,dv是知识图谱中的顶点的语义,l是ln的表征向量,d是dv的表征向量,如式(4)、(5)所示:
[0020]
l=f
fasttext
(ln)#(4)
[0021]
d=f
fasttext
(dv)#(5)
[0022]
其中,f
fasttext
(
·
)是表征生成函数;
[0023]
利用式(3),计算pgp中的边与知识图谱中的边语义亲和度得分s(lr,d
p
),其中,lr是pgp中的边,d
p
是知识图谱中的边的语义;
[0024]
s32、利用步骤s31中得到的语义亲和度得分,计算得到与pgp节点相似的知识图谱顶点集合以及与pgp中的边相似的知识图谱边的集合
[0025]
步骤三、根据链接结果,生成top-k短语图:
[0026]
s41、根据步骤s32得到的和遍历所有有效组合,生成关于tp的候选集tpkg
all
={《va,p,vb》},其中,》},其中,
[0027]
s42、计算tpkg
all
中每一个tpkgi的得分,如式(6)所示:
[0028][0029]
根据得分,排序取top-k项,组成集合tpkgr;k为预设数值;
[0030]
步骤四、使用sparql技术查询知识图谱,并进行过滤,最终得到答案:
[0031]
s51、根据s42得到的tpkgr,如式(7)所示,得到相应的sparql查询tpkg
sq
,
[0032]
tpkg
sq
=f
getsparql
(tpkgr)#(7);
[0033]
其中,f
getsparql
(
·
)是查询转化操作函数;
[0034]
s52、根据步骤s51得到的tpkg
sq
输入rdf引擎,得到备选答案集tpkga;
[0035]
tpkga={《a,?c》},其中a是答案,?c是答案的数据类型和语义类型;
[0036]
s53、根据步骤s52得到的tpkga,过滤不符合预测数据类型和语义类型的答案,得到问题q的答案aq。
[0037]
进一步地,在进行步骤一之前还需进行下述步骤:
[0038]
根据用户提问和系统功能,结合招投标领域知识,进行知识抽取,使用rdf方法定义本体,将实体、属性和关系表示为节点和边,形成知识图谱。
[0039]
进一步地,步骤s21中采用自注意力机制,隐藏层的激活函数选择glue,隐藏层dropout=0.1;自注意力权重的dropout=0.1。
[0040]
进一步地,步骤s22中tpi是经过解码器和文本转化得到的第i个三元组,即
和是问题q的实体短语或未知变量,ri是问题q的关系短语;
[0041]
且步骤s22中采用交叉注意力机制。
[0042]
进一步地,步骤s24中嵌入层大小为6,隐藏层大小为6。
[0043]
进一步地,步骤s31中,表征的embedding size=128,window=3;
[0044]
步骤s32中,设置每一个实体节点n所链接的顶点数最大为20,设置每一条关系边所链接的边的数量最大为10。
[0045]
与现有技术相比,本发明的有益效果是:
[0046]
本发明通过知识图谱,有助于实现问答系统对领域专业知识的深入理解和处理,更好地理解用户的问题,从而提供更准确、更具针对性的答案,满足用户在招投标过程中的实际需求。
附图说明
[0047]
图1为本发明方法的整体流程示意图;
[0048]
图2为本发明招投标知识图谱层次图。
具体实施方式
[0049]
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0050]
请参阅图1,本技术提供了一种基于知识图谱的招投标领域问答匹配方法,该方法具体包括如下步骤:
[0051]
步骤1、根据用户提问和系统功能,结合招投标领域知识,进行知识抽取,使用rdf方法定义本体,将实体、属性和关系表示为节点和边,形成知识图谱,层次结构如图2所示;
[0052]
步骤2、使用bert预训练模型将输入的问题文本转化成结构化信息:
[0053]
步骤2.1、使用bert预训练模型初始化输入的问题文本的原型表征,如式(1)所示,得到对应的表征fe(q):
[0054]
fe(q)=f
encoder
(q)#(1)
[0055]
其中,q代表输入的问题文本,f
encoder
(
·
)表示编码器函数。具体实施中,采用自注意力机制,隐藏层的激活函数选择glue,隐藏层dropout=0.1;自注意力权重的dropout=0.1。
[0056]
步骤2.2、使用bert预训练模型解码原型表征fe(q),并进行文本化操作,得到短语三元组集合tp(q)=(tp1,tp2,
…
),如式(2)所示,其中,tpi是经过解码器和文本转化得到的第i个三元组,即第i个三元组,即和是问题q的实体短语或未知变量,ri是问题q的关系短语。
[0057]
tp(q)=f
txt
(f
decoder
(fe(q)))#(2)
[0058]
其中,f
decoder
(
·
)表示解码器函数,f
txt
(
·
)表示文本化操作函数。具体实施中,采用交叉注意力机制。
[0059]
步骤2.3、根据步骤2.2得到的tp(q),构建短语图其中,ε代表节点集合,节点集合,代表第i个三元组中的实体节点。代表边的集合,ri代表实体节点之间的边。
[0060]
步骤2.4、使用allennlp获取问题中的词性标记,并提取标记为名词的第一个短语,预测数据类型和语义类型。具体实施中,嵌入层大小为6,隐藏层大小为6。
[0061]
步骤3、根据步骤2生成的结构化信息,与知识图谱中的对应实体和关系建立链接:
[0062]
步骤3.1、使用余弦相似度函数计算pgp节点与知识图谱顶点的语义亲和度得分s,如式(3)所示:
[0063][0064]
其中,ln是pgp中的节点,dv是知识图谱中的顶点的语义,l是ln的表征向量,d是dv的表征向量,如式(4)、(5)所示:
[0065]
l=f
fasttext
(ln)#(4)
[0066]
d=f
fasttext
(dv)#(5)
[0067]
其中,f
fasttext
(
·
)是表征生成函数。
[0068]
利用式(3),计算pgp中的边与知识图谱中的边语义亲和度得分s(lr,d
p
),其中,lr是pgp中的边,d
p
是知识图谱中的边的语义。具体实例中,表征的embedding size=128,window=3。
[0069]
步骤3.2、利用步骤3.1中得到的语义亲和度得分,计算得到与pgp节点相似的知识图谱顶点集合以及与pgp中的边相似的知识图谱边的集合具体实施中,设置每一个实体节点n所链接的顶点数最大为20,设置每一条关系边所链接的边的数量最大为10。
[0070]
步骤4、根据链接结果,生成top-k短语图:
[0071]
步骤4.1、根据步骤3.2得到的和遍历所有有效组合,生成关于tp的候选集tpkg
all
={《va,p,vb》},其中,》},其中,
[0072]
步骤4.2、计算tpkg
all
中每一个tpkgi的得分,如式(6)所示:
[0073][0074]
根据得分,排序取top-k项,组成集合tpkgr。具体实施中,k=5。
[0075]
步骤5、使用sparql技术查询知识图谱,并进行过滤,最终得到答案:
[0076]
步骤5.1、根据步骤4.2得到的tpkgr,如式(7)所示,得到相应的sparql查询tpkg
sq
。
[0077]
tpkg
sq
=f
getsparql
(tpkgr)#(7)
[0078]
其中,f
getsparql
(
·
)是查询转化操作函数。
[0079]
步骤5.2、根据步骤5.1得到的tpkg
sq
输入rdf引擎,得到备选答案集tpkga={《a,?c》},其中a是答案,?c是答案的数据类型和语义类型。
[0080]
步骤5.3、根据步骤5.2得到的tpkga,过滤不符合预测数据类型和语义类型的答案,得到问题q的答案aq。
[0081]
以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。
技术特征:
1.一种基于知识图谱的招投标领域问答匹配方法,其特征在于,该方法具体包括如下步骤:步骤一:使用bert预训练模型将输入的问题文本转化成结构化信息,具体方式为:s21:使用bert预训练模型初始化输入的问题文本的原型表征,如式(1)所示,得到对应的表征f
e
(q):f
e
(q)=f
encoder
(q)#(1)其中,q代表输入的问题文本,f
encoder
(
·
)表示编码器函数;s22:使用bert预训练模型解码原型表征f
e
(q),并进行文本化操作,得到短语三元组集合tp(q)=(tp1,tp2,
…
),如式(2)所示,tp(q)=f
txt
(f
decoder
(f
e
(q)))#(2)其中,f
decoder
(
·
)表示解码器函数,f
txt
(
·
)表示文本化操作函数;s23:根据步骤2.2得到的tp(q),构建短语图其中,ε代表节点集合,其中,ε代表节点集合,代表第i个三元组中的实体节点;代表边的集合,r
i
代表实体节点之间的边;s24:使用allennlp获取问题中的词性标记,并提取标记为名词的第一个短语,预测数据类型和语义类型;步骤二、根据步骤一生成的结构化信息,与知识图谱中的对应实体和关系建立链接:s31、使用余弦相似度函数计算pgp节点与知识图谱顶点的语义亲和度得分s,如式(3)所示:其中,l
n
是pgp中的节点,d
v
是知识图谱中的顶点的语义,l是l
n
的表征向量,d是d
v
的表征向量,如式(4)、(5)所示:l=f
fasttext
(l
n
)#(4)d=f
fasttext
(d
v
)#(5)其中,f
fasttext
(
·
)是表征生成函数;利用式(3),计算pgp中的边与知识图谱中的边语义亲和度得分s(l
r
,d
p
),其中,l
r
是pgp中的边,d
p
是知识图谱中的边的语义;s32、利用步骤s31中得到的语义亲和度得分,计算得到与pgp节点相似的知识图谱顶点集合以及与pgp中的边相似的知识图谱边的集合步骤三、根据链接结果,生成top-k短语图:s41、根据步骤s32得到的和遍历所有有效组合,生成关于tp的候选集tpkg
all
={<v
a
,p,v
b
>},其中,>},其中,s42、计算tpkg
all
中每一个tpkg
i
的得分,如式(6)所示:
根据得分,排序取top-k项,组成集合tpkg
r
;k为预设数值;步骤四、使用sparql技术查询知识图谱,并进行过滤,最终得到答案:s51、根据s42得到的tpkg
r
,如式(7)所示,得到相应的sparql查询tpkg
sq
,tpkg
sq
=f
getsparql
(tpkg
r
)#(7);其中,f
getsparql
(
·
)是查询转化操作函数;s52、根据步骤s51得到的tpkg
sq
输入rdf引擎,得到备选答案集tpkg
a
;tpkg
a
={<a,?c>},其中a是答案,?c是答案的数据类型和语义类型;s53、根据步骤s52得到的tpkg
a
,过滤不符合预测数据类型和语义类型的答案,得到问题q的答案a
q
。2.根据权利要求1所述的一种基于知识图谱的招投标领域问答匹配方法,其特征在于,在进行步骤一之前还需进行下述步骤:根据用户提问和系统功能,结合招投标领域知识,进行知识抽取,使用rdf方法定义本体,将实体、属性和关系表示为节点和边,形成知识图谱。3.根据权利要求1所述的一种基于知识图谱的招投标领域问答匹配方法,其特征在于,步骤s21中采用自注意力机制,隐藏层的激活函数选择glue,隐藏层dropout=0.1;自注意力权重的dropout=0.1。4.根据权利要求1所述的一种基于知识图谱的招投标领域问答匹配方法,其特征在于,步骤s22中tp
i
是经过解码器和文本转化得到的第i个三元组,即是经过解码器和文本转化得到的第i个三元组,即和是问题q的实体短语或未知变量,r
i
是问题q的关系短语;且步骤s22中采用交叉注意力机制。5.根据权利要求1所述的一种基于知识图谱的招投标领域问答匹配方法,其特征在于,步骤s24中嵌入层大小为6,隐藏层大小为6。6.根据权利要求1所述的一种基于知识图谱的招投标领域问答匹配方法,其特征在于,步骤s31中,表征的embedding size=128,window=3;步骤s32中,设置每一个实体节点n所链接的顶点数最大为20,设置每一条关系边所链接的边的数量最大为10。
技术总结
本发明公开了一种基于知识图谱的招投标领域问答匹配方法,涉及文本数据处理分析技术领域;该方法具体包括通过如下方式,首先使用BERT预训练模型将输入的问题文本转化成结构化信息,之后根据步骤一生成的结构化信息,与知识图谱中的对应实体和关系建立链接;再根据链接结果,生成Top-K短语图,最后使用SPARQL技术查询知识图谱,并进行过滤,最终得到答案;本发明通过知识图谱,有助于实现问答系统对领域专业知识的深入理解和处理,更好地理解用户的问题,从而提供更准确、更具针对性的答案,满足用户在招投标过程中的实际需求。用户在招投标过程中的实际需求。用户在招投标过程中的实际需求。
技术研发人员:张珏 陈小伟 张本富 满中甜 殷文 张奉天 闻静 王顺 花艳
受保护的技术使用者:安徽安天利信工程管理股份有限公司
技术研发日:2023.05.05
技术公布日:2023/7/21
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种医用多重耐药菌收纳装置的制作方法 下一篇:用于分配资源块的系统和方法与流程
