一种基于知识图谱的古诗智能问答方法及系统
未命名
09-16
阅读:225
评论:0
1.本发明涉及智能问答交互技术领域,更具体地,涉及一种基于知识图谱的古诗智能问答方案,是一种智能语音数据识别技术。
背景技术:
2.随着人工智能技术的不断发展,越来越多的研究者使用人工智能技术对古诗进行数据信息处理,并且取得了一定的进展。
3.智能问答技术是人工智能领域的核心技术之一,具有重大的研究价值。智能问答通过理解用户问题所表达的语义信息,高效、准确地回答用户的问题。早期的智能问答系统大多针对某一特定领域,范围较窄且不易扩展,如baseball和lunar。在此阶段,人们主要利用信息检索或者浅层的语义表示从大量候选数据中找寻答案,由于高质量问答数据的缺乏以及自然语言处理技术的限制,智能问答任务在这一阶段较为缓慢。随着互联网数据的爆炸式增长,越来越多的高质量数据集被提出用于完成自然语言处理任务。基于知识图谱的智能问答逐渐成为智能问答任务的研究热点之一。
4.网络中包含丰富的古诗信息,有利于对古诗进行学习和理解。然而,网络上的古诗信息大多为非结构化信息。相较于结构化文本,非结构化文本信息较为冗余,且容易忽略不同古诗之间的潜在联系以及古诗本身的细粒度和多维度信息,为古诗的研究与学习带来了挑战。2012年,谷歌第一次提出了知识图谱的概念。知识图谱作为一种结构化数据表示方式,具有强大的语义表达能力,能够完成查询、推理等操作,具有巨大的发展潜力。古诗包含诗人、诗句等信息,使用知识图谱存储古诗信息有利于对古诗进行推理,促进对古诗的理解与学习。借助知识图谱,并将其与古诗结合,结构化表示古诗及诗人的相关信息具有重要的研究意义。然而,目前针对古诗的知识图谱数量较少,且基本未开源,不利于研究者们进行基于知识图谱的古诗智能学习。构建古诗知识图谱,统计古诗的相关信息并将其整合为结构化数据,有利于提高人工智能技术在古诗上的推理能力。
5.知识图谱的发展为智能问答带来了新的研究方向,基于知识图谱的智能问答成为了智能问答的解决方式之一。基于知识图谱的古诗智能问答是古诗与人工智能技术结合的重要应用之一,需要首先理解用户与古诗相关的问题,然后在古诗知识图谱中匹配问题的答案,最终反馈给用户。将古诗与基于知识图谱的智能问答结合完成古诗智能问答任务,不仅能够更高效地帮助用户获取所需的知识,还能够更深入地探究古诗与古诗、古诗与诗人、诗人与诗人之间的关系,方便更好地进行古诗的研究与学习,同时促进人工智能技术的发展。
技术实现要素:
6.本发明所要解决的问题是,构建高质量古诗知识图谱,准确表示诗歌及诗人的相关信息和关系,同时利用深度学习技术和知识图谱技术提高古诗智能问答的准确性。
7.本发明提供一种基于知识图谱的古诗智能问答方法,构建古诗知识图谱tpkg;使
用古诗与译文结合的预训练策略,基于基础模型chinesebert进行训练,得到面向古诗的预训练语言模型cp-chinesebert;利用多任务学习和图注意力网络构建基于知识图谱的古诗智能问答模型kbqa-cp-chinesebert,包含语音识别、问题/实体编码层、图注意力网络层、注意力层和语音生成模块,其中,语音识别时找到问题中与古诗知识图谱tpkg相关的实体,问题/实体编码层基于面向古诗的预训练语言模型cp-chinesebert实现;使用多任务学习进行模型训练,引入了实体识别和意图识别两个辅助任务,以理解用户问题所表达的语义信息,获取与古诗相关问题的答案,通过语音生成将答案通过语音的方式反馈给用户。
8.而且,在基于知识图谱的古诗智能问答模型kbqa-cp-chinesebert中进行以下处理,
9.对于用户发送的包含古诗问题的语音,通过语音识别将问题识别为文本,找到问题中与知识图谱相关的实体,并以该实体为中心,抽取知识图谱两跳内知识三元组作为候选子图;
10.在问题/实体编码层,使用包含古诗字形与拼音信息的面向中文古诗的预训练语言模型cp-chinesebert对问题和候选子图涉及到的实体进行编码;
11.在图注意力网络层,使用图注意力网络对cp-chinesebert编码实体得到的实体向量进行操作,得到包含邻居节点信息的实体向量;
12.问题经过cp-chinesebert得到的问题向量和候选子图内实体经过cp-chinesebert和gat得到的实体向量经过注意力层得到经过问题信息选择过后的实体向量;
13.最后,利用语音生成将问题的答案播放给用户。
14.而且,构建古诗知识图谱tpkg时,采用三级细粒度框架分层存储诗歌知识,设置时间链框架以进行诗歌、诗人相关的推理。
15.而且,所述古诗与译文结合的预训练策略如下,
16.古诗上句,古诗下句,记为p&p:将古诗直接拆分为上下两部分,然后拼接作为模型的训练语料;
17.古诗上句、上句译文,古诗下句、下句译文,记为pt&pt:将古诗拆分为上下两部分,后面分别拼接对应的译文,然后拼接作为模型的训练语料;
18.古诗上句,下句译文/上句译文、古诗下句,记为p&t:将古诗拆分后,替换其中一部分为对应的译文,一条古诗数据将被拆分组合为两条训练数据。
19.而且,使用多任务学习进行模型训练,共包含三个训练任务,分别是意图识别和实体识别两个辅助任务以及古诗智能问答任务。
20.而且,图注意力网络利用多个图注意力层组成,候选子图能够充分交互,将与当前实体相连的所有实体信息整合到当前实体中。
21.另一方面,本发明提供一种基于知识图谱的古诗智能问答系统,用于实现如上所述的一种基于知识图谱的古诗智能问答方法。
22.而且,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如上所述的一种基于知识图谱的古诗智能问答方法。
23.或者,包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如上所述的一种基于知识图谱的古诗智能问答方法。
24.本发明构建了古诗知识图谱tpkg,建立针对诗歌、诗句、字词的三级细粒度框架,
该框架可以将不同层次的相关知识连接到相应的实体上,更合理地存储知识,设计了时间链框架以进行诗歌、诗人相关的推理。
25.本发明提出了一种古诗智能问答模型kbqa-cp-chinesebert。本发明使用古诗与译文结合的预训练策略,基于chinesebert训练,得到了面向古诗的预训练语言模型cp-chinesebert。cp-chinesebert在嵌入层引入了古诗的字形和拼音,能够利用汉字的字形及拼音中包含的语义信息更好地理解古诗语义。该策略将古诗数据重构为古诗与其现代汉语译文结合的数据,能够快速对齐古诗与现代汉语的语义空间,同时将数据量扩充为原来的两倍。针对用户与古诗相关的问题语音,kbqa-cp-chinesebert首先使用语音识别将其识别为文本,然后使用面向中文古诗的预训练语言模型cp-chinesebert编码古诗相关问题及相关知识图谱,采用图注意力网络获取古诗知识图谱的语义表示。考虑到问题的意图和实体与问题表达的语义联系紧密,本发明使用多任务学习训练模型,引入了实体识别和意图识别两个辅助任务,更好地理解用户问题所表达的语义信息,进而更准确地获取与古诗相关问题的答案。最后,通过语音生成将答案通过语音的方式反馈给用户。
26.本发明能够提高用户体验,具有重要的市场价值。
附图说明
27.图1为本发明实施例的唐诗知识图谱tpkg三级细粒度框架示意图。
28.图2为本发明实施例的唐诗知识图谱tpkg时间链框架示意图。
29.图3为本发明实施例的唐诗知识图谱tpkg诗人本体模型示意图。
30.图4为本发明实施例基于知识图谱的古诗智能问答模型kbqa-cp-chinesebert模型结构图。
具体实施方式
31.以下结合附图和实施例具体说明本发明的技术方案。
32.本发明提供一种基于知识图谱的古诗智能问答方法,构建古诗知识图谱tpkg;使用古诗与译文结合的预训练策略,基于基础模型chinesebert进行训练,得到面向古诗的预训练语言模型cp-chinesebert;利用多任务学习和图注意力网络构建基于知识图谱的古诗智能问答模型kbqa-cp-chinesebert,包含语音识别、问题/实体编码层、图注意力网络层、注意力层和语音生成模块,其中,语音识别时找到问题中与古诗知识图谱tpkg相关的实体,问题/实体编码层基于面向古诗的预训练语言模型cp-chinesebert实现;使用多任务学习进行模型训练,引入了实体识别和意图识别两个辅助任务,以理解用户问题所表达的语义信息,获取与古诗相关问题的答案,通过语音生成将答案通过语音的方式反馈给用户。
33.本发明实施例以唐诗三百首的智能问答实现方案为例,首先构建了基于唐诗三百首的古诗知识图谱,用于表示诗歌、诗人相关的信息和关系。其次,构建了基于知识图谱的古诗智能问答模型,使用古诗知识图谱,利用多任务学习和图注意力网络更好地回答与古诗相关的问题。
34.本发明实施例构建了唐诗三百首相应的知识图谱,简称tpkg。唐代是我国古典诗歌发展的全盛时期,无论在题材、派系还是风格都趋于完善。《唐诗三百首》共收录了77位诗人的313首诗。《唐诗三百首》所选择的诗歌多为描写生活琐事、个人情怀之作,反映了唐代
社会生活风貌,是历史学家与文学家们研究的重点,也是唐诗文化的精华。《唐诗三百首》中的诗歌脍炙人口,多被收录至中小学生必背书目,相关产品具有重要市场价值,且网络上与诗歌相关的信息较多,信息获取较为方便。因此本发明选择以《唐诗三百首》为核心构建唐诗三百首知识图谱tpkg。
35.但是,互联网上搜集到的数据大多是非结构化信息,利用爬虫爬取的信息包含较多的噪音,难以直接利用;其次,唐诗三百首自古至今有较多版本,且网络上信息不唯一,如同一个诗句可能有不同的翻译和赏析,自动化选择合适的版本对计算机而言较为困难;最后,同一个数据源所包含的信息不全,需要访问多个数据源,对不同的数据源需要编写不同的爬虫代码,效率较低。
36.考虑到《唐诗三百首》仅包含77名诗人和313首诗歌,数据量不多、规模不大,同时网络上存在较多的冗余信息,本发明实施例采取爬虫收集,支持用户调整的方式收集数据。具体来说,对于包含较多信息的主要数据源,使用python编写爬虫爬取,然后支持用户进行修改整理;对于使用爬虫较难成规模爬取的信息,如需要在各位诗人编年史中获取的诗人的成长经历等信息,采取预先收集的方式提取信息,并将其保存为结构化数据。对于有争议的数据,则可支持由用户投票决定是否保留、保留哪一版本。
37.在构建tpkg时,采取自底向上的方法,即先对实体进行归纳组织,再向上抽象形成上层概念。tpkg以《唐诗三百首》中的313首诗歌、77个诗人和唐朝自618到923年间的306个以年为单位的时间节点为三个主要实体类型。为了更好地理解诗歌所蕴含的情感,学习诗歌的艺术表现形式,实施例将诗歌的全文赏析和单句赏析着重提取出来。同时着重展示了诗人的关系网络,方便更好地关注诗人与亲友、朋友之间的联系。实施例还重点关注了时间这一概念,将时间与诗人的经历、诗歌的创作等联系起来,方便做进一步的推理。
38.具体来说,tpkg主要有以下两个结构特点:
39.参见图1,实施例设计了针对诗歌、诗句、字词的三级细粒度框架,该框架可以将不同层次的相关知识连接到相应的实体上,更合理地存储知识。具体来说,将唐诗实体分为诗歌、诗句、字词三个不同层次的子实体。字词实体是最低级别的实体,它只有一个“字词释义”属性。诗句实体作为中级实体,既能够组合为诗歌,又能够拆分为字词,包含比字词更多的属性和信息。诗歌实体是诗歌中最高级的实体,它既与诗歌的整体属性有关,又与诗歌中其他两大主要实体(诗人和时间)有关。这种三级细粒度结构符合诗歌的结构特点,能更合理细致地存储唐诗知识。例如,对于古诗《早发白帝城》,在诗歌层面,其体裁为“七言绝句”、修辞为“夸张”、全文为“朝辞白帝彩云间,千里江陵一日还。两岸猿声啼不住,轻舟已过万重山。”在诗句层面,以“朝辞白帝彩云间”为例,其意向有“朝”、“彩云”和“白帝”、位于“第一句”。在字词层面,以“朝”为例,其字词释义为“早晨”。
40.参见图2,实施例将唐朝的时间连接起来,设计了时间链框架。时间链框架将唐朝的年号、发生的事件、诗人的出生及去世等信息与唐朝618到923年间的306个时间实体连接起来,可以进行与诗歌、诗人相关的推理。例如,公元678年,骆宾王创作了诗歌《在狱咏蝉》,同年其经历为“骆宾王调任武功主簿、长安主簿,又由长安主簿入朝为侍御史,武则天当政,他多次上书讽刺,得罪入狱。”,根据诗歌的创作时间以及诗人的经历可以推断出《在狱咏蝉》用于抒发骆宾王内心的悲愤。
41.图3展示了诗人的本体模型。该本体模型展示了诗人的基本信息,如号、字、别名、
出生地等信息,还记录了诗人的经历、成就和亲友等信息。通过将这些事件实体与时间实体联系起来,可以从时间链上追溯到诗人的生活,进而构建诗人的社会网络,记录诗人的亲友关系,以及诗人之间的关系。例如通过李白与杜甫、李白与孟浩然等诗人之间的关系,可以构建以李白为中心的社交网络。
42.tpkg共包括34567个rdf三元组,其中实体共8类,rdf三元组中的关系共59种,数据较为丰富。
43.本发明实施例使用唐诗三百首知识图谱tpkg,利用多任务学习和图注意力网络构建了基于知识图谱的古诗智能问答模型kbqa-cp-chinesebert。其中的关键部分是面向古诗的预训练语言模型cp-chinesebert。
44.为了获取更准确地古诗语义表示,本发明设计了三种古诗与译文结合的预训练策略,该策略将古诗与其现代汉语译文结合构建了训练语料,然后将chinesebert作为基础模型,使用本发明设计的策略继续训练得到了cp-chinesebert。具体来说,三种古诗与译文结合的策略如下文所示:
45.古诗上句,古诗下句(poem and poem,p&p):将古诗直接拆分为上下两部分,如将《静夜思》拆分为“床前明月光,疑是地上霜”和“举头望明月,低头思故乡”两部分。然后拼接作为模型的训练语料。这种策略没有引入古诗的现代汉语译文。
46.古诗上句、上句译文,古诗下句、下句译文(poem/translation and poem/translation,pt&pt):将古诗拆分为上下两部分,后面分别拼接对应的译文,如将《静夜思》拆分并组合为“床前明月光,疑是地上霜;在床前看天上明月洒在地上的月光,迷离中疑是秋霜一片”和“举头望明月,低头思故乡;举头望山月,不由得低下头来沉思,愈加想念自己的故乡”两部分。然后拼接作为模型的训练语料。这种策略引入了古诗的现代汉语译文。模型在学习古诗时可以先学习输入数据中的现代汉语,然后利用古诗上下句之间的语义联系理解古诗。该方法能够在一定程度上缓解模型直接根据古诗进行学习的困难。
47.古诗上句,下句译文/上句译文、古诗下句(poem and translation,p&t):将古诗拆分后,替换其中一部分为对应的译文,如将《静夜思》拆分组合为“床前明月光,疑是地上霜;举头望山月,不由得低下头来沉思,愈加想念自己的故乡”和“在床前看天上明月洒在地上的月光,迷离中疑是秋霜一片;举头望明月,低头思故乡”。一条古诗数据将被拆分组合为两条训练数据,扩大了数据量。这种策略能够帮助模型理解古诗,同时也将原有的古诗数据扩充为古诗与译文结合的数据,数据量扩大为原来的两倍。
48.并且,cp-chinesebert引入了汉字的字形和拼音。而汉字的字形和拼音包含丰富的语义信息,能够帮助模型更好地理解古诗。
49.在训练过程中,cp-chinesebert使用掩码语言模型(masked language model,mlm)和下一句预测(next sentence prediction,nsp)任务进行训练。mlm任务对单词的掩蔽只发生在古诗部分,对其现代汉语译文则不进行掩蔽。掩蔽策略为随机掩蔽15%的单词,被掩蔽的单词中,80%替换为“[mask]”这个单词,10%替换为词表任意一个单词,10%概率不变。nsp任务预测输入上下句之间的关系,根据策略的不同,预测的主体也有所不同。p&t策略中,nsp任务预测古诗与其现代汉语译文之间的上下句关系,p&p策略和pt&pt策略中,nsp任务预测古诗上句与下句之间的相邻关系。
[0050]
kbqa-cp-chinesebert包含语音识别、问题/实体编码层、图注意力网络层、注意力
层和语音生成共五个模块,其模型结构图如图4所示。具体来说,对于用户发送的包含古诗问题的语音,进行以下处理:
[0051]
1)首先使用语音识别技术将问题识别为文本,找到问题中与知识图谱相关的实体,并以该实体为中心,抽取知识图谱两跳内知识三元组作为候选子图。两跳指的是两个知识三元组,例如对知识三元组《早发白帝城,作者,李白》和《李白,字,太白》,两个三元组都包含“李白”这一实体,因此通过这一实体,两个知识三元组可以连接成一条两跳的路径,即早发白帝城
→
李白
→
太白。
[0052]
2)然后,使用包含古诗字形与拼音信息的面向中文古诗的预训练语言模型(cp-chinesebert)对问题和候选子图涉及到的实体进行编码。问题/实体编码层见下文具体描述。
[0053]
在问题/实体编码层,对于一条数据,编码器将问题q编码为语句向量vq,将候选子图涉及到的所有实体e={e1,e2,
…
,em}编码为实体向量ve={v1,v2,
…
,vm},其中,m为候选子图涉及的实体数量,vi是ei的实体向量。具体编码过程表达如下:
[0054]vq
=cp-chinesebert(q)
[0055]
vi=cp-chinesebert(ei)
[0056]
其中,cp-chinesebert(
·
)表示本发明训练得到的面向中文古诗的预训练语言模型cp-chinesebert,使用cp-chinesebert编码每一个候选子图内的实体,然后将其合并得到了实体向量ve。例如,每个实体经过cp-chinesebert后得到了维度为(1,768)的向量,共m个实体,合并就得到了维度为(m,768)的实体向量ve。
[0057]
3)使用图注意力网络(graph attention network,gat)对cp-chinesebert编码实体得到的实体向量进行操作,得到包含邻居节点信息的实体向量。图注意力网络层见下文具体描述。
[0058]
在图注意力网络层,考虑到知识图谱图结构与图神经网络的匹配程度,本发明实施例优先使用图注意力网络层(gat)处理候选子图。现有技术中图注意力网络(gat)的基本思想是计算每个邻居节点与当前节点之间的注意力权重,然后将邻居节点的表征与对应的权重进行加权求和,得到聚合后的表征。本实施例对候选子图的每个实体,整合其周边节点的信息。图注意力网络通过叠加多个图注意力层在实体之间传递信息,每一层通过自注意力聚合邻居节点的信息来学习更新当前实体的表示。通过整理和聚合,使得当前实体能够包含周围邻居节点的信息。
[0059]
图注意力网络将实体向量ve={v1,v2,
…
,vm}作为输入,在第t个图注意力层中(t≠1),表示该层的输入向量,也是第t-1个图注意力层的输出,其中实体ei的向量表示为图注意力机制对候选子图中的每个实体ei进行操作,公式如下所示。
[0060][0061]
其中,是第t个图注意力层中结合了所有邻居节点信息的实体ei的输出,是第t-1个图注意力层中结合了所有邻居节点信息的实体ej的输出,w
t
和b
t
是可学习的参数,e
(i)代表候选子图中与实体ei直接相连的实体,例如若ei与e1和e2相连,则此处j取值为1和2。是注意力权重,它反映了实体ei和实体ej之间的匹配程度,relu(
·
)是激活函数。具体学习过程如下:
[0062][0063][0064]
其中,[;]表示拼接,w
t
是可学习的权重矩阵,表示在第t个图注意力层融合了实体ej信息的实体ei表示,leakyrelu(
·
)是激活函数。最终得到了第t个图注意力层中实体ei和实体ej的注意力权重。
[0065]
通过使用图注意力网络对候选子图内实体向量进行编码,得到了融合邻居节点信息的实体表示vge={vg1,vg2,
…
,vgm}。
[0066]
为了更全面地提取实体与实体之间的联系,本发明使用多头注意,每个头都可以相对独立地获得每个实体的向量表示。通过利用多个图注意力层组成的图注意力网络,候选子图能够充分交互。将与当前实体相连的所有实体信息整合到当前实体中,能够补充实体信息,在古诗智能问答任务中表现良好。
[0067]
4)接着,问题经过cp-chinesebert得到的问题向量和候选子图内实体经过cp-chinesebert和gat得到的实体向量经过注意力层得到经过问题信息选择过后的实体向量。注意力层见见下文具体描述。
[0068]
在注意力层,为了在候选子图中正确选择出问题的答案,本发明使用了注意力网络融合问题与候选子图。具体来说,将问题的编码向量vq作为查询(query),候选子图中的实体vge作为键(key)和值(value),计算过程如公式下:
[0069][0070]
其中,m为候选子图的实体个数,s(
·
)为计算相关性的函数,常用点积计算,softmax(
·
)为激活函数,
·
为累和函数。att(k,q,v(为一组k、v对于一个q的注意力信息。
[0071]
候选子图实体向量和问题编码向量经过注意力层之后得到了实体向量v
qa
,经过全连接层和softmax激活函数之后得到了最终的答案。
[0072]
5)最后,利用语音生成技术将问题的答案播放给用户。
[0073]
其中,使用用户问题经过问题/实体编码层得到的问题向量完成实体识别和意图识别任务,使用注意力层输出的最终实体向量完成智能问答任务,实现了三个任务的同时训练。
[0074]
本发明使用多任务学习进行模型的训练,共包含三个训练任务,分别是意图识别和实体识别两个辅助任务以及古诗智能问答任务。
[0075]
意图识别任务用于监督问题的意图,对于问题编码得到的向量vq,将第1个位置的向量作为问题的向量表示,经过全连接层和softmax层之后完成意图识别任务,并且计算得
到了意图识别损失l
intend
。意图识别损失l
intend
使用多分类交叉熵损失计算得到。计算方式如下:
[0076]vintent
=softmax(leaner(vq[0]))
[0077][0078]
其中,vqq[0]是问题编码器在第1个位置的输出向量,leaner(
·
)是线性层,softmax(
·
)是激活函数,t是意图的类别数量。最终得到了意图识别任务的损失l
intend
。
[0079]
实体识别任务将问题中包含的古诗相关的实体作为监督信号。对于问题编码得到的向量vq,对除'[cls]'和'[sep]'之外的位置,经过全连接层和softmax层之后做二分类预测,然后将相邻预测结果为1的单词拼接作为最后实体预测的结果,并且计算得到了实体识别损失l
ner
。实体识别损失l
ner
使用二分类交叉熵损失计算得到。具体计算过程如下:
[0080]vner
=softmax(leaner(vq))
[0081][0082]
其中,vq是问题编码器的输出向量,leaner(
·
)是线性层,softmax(
·
)是激活函数,n是问题的序列长度。通过对输出向量v
ner
每个位置进行计算,得到了实体识别任务的损失l
ner
。
[0083]
古诗智能问答任务利用注意力层最终的输出v
qa
计算损失。古诗智能问答任务的损失使用v
qa
计算得到,损失函数如下:
[0084][0085]
其中,m为候选子图内的实体数量。通过对最终输出v
qa
每个位置进行计算,得到了古诗智能问答任务的损失l
qa
。
[0086]
kbqa-cp-chinesebert的损失由古诗智能问答任务损失值、意图识别损失值和实体识别损失值三部分共同组成,模型的目标函数如下:
[0087]
l
total
=l
qa
+λ1l
intent
+λ2l
ner
[0088]
其中,λ1和λ2是预先设定的超参数,可根据实验设置经验值,实施例设定均为1。
[0089]
通过古诗智能问答、意图识别和实体识别三个任务联合训练,模型能够利用古诗知识图谱准确地回答与唐诗三百首相关的问题。
[0090]
本发明实施例构建了唐诗三百首知识图谱,并提出了一种古诗智能问答方法,但是,该知识图谱结构与古诗智能问答方法不限于唐诗三百首。具体来说,任意朝代的古诗及古词使用本发明提出的针对诗歌的三级细粒度框架、针对时间的时间链框架和针对诗人的本体模型都可以被表示为结构化数据,并被用于完成古诗相关的任务。同时,只要有相应的古诗问答语料和知识图谱,使用本发明提出的古诗智能问答方法训练模型就可以回答古诗相关的问题。
[0091]
由于本发明使用的cp-chinesebert是针对古诗语义空间的,因此将此方法用到现代文本中,如现代文诗歌,由于古诗与现代文语义的差距,该方法可能无法取得显著的效
果。
[0092]
具体实施时,本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程,实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备,也应当在本发明的保护范围内。
[0093]
在一些可能的实施例中,提供一种基于知识图谱的古诗智能问答系统,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如上所述的一种基于知识图谱的古诗智能问答方法。
[0094]
在一些可能的实施例中,提供一种基于知识图谱的古诗智能问答系统,包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如上所述的一种基于知识图谱的古诗智能问答方法。
[0095]
实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,例如各阈值可由本领域技术人员自行根据具体情况设定,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
技术特征:
1.一种基于知识图谱的古诗智能问答方法,其特征在于:构建古诗知识图谱tpkg;使用古诗与译文结合的预训练策略,基于基础模型chinesebert进行训练,得到面向古诗的预训练语言模型cp-chinesebert;利用多任务学习和图注意力网络构建基于知识图谱的古诗智能问答模型kbqa-cp-chinesebert,包含语音识别、问题/实体编码层、图注意力网络层、注意力层和语音生成模块,其中,语音识别时找到问题中与古诗知识图谱tpkg相关的实体,问题/实体编码层基于面向古诗的预训练语言模型cp-chinesebert实现;使用多任务学习进行模型训练,引入了实体识别和意图识别两个辅助任务,以理解用户问题所表达的语义信息,获取与古诗相关问题的答案,通过语音生成将答案通过语音的方式反馈给用户。2.如权利要求1所述基于知识图谱的古诗智能问答方法,其特征在于:在基于知识图谱的古诗智能问答模型kbqa-cp-chinesebert中进行以下处理,对于用户发送的包含古诗问题的语音,通过语音识别将问题识别为文本,找到问题中与知识图谱相关的实体,并以该实体为中心,抽取知识图谱两跳内知识三元组作为候选子图;在问题/实体编码层,使用包含古诗字形与拼音信息的面向中文古诗的预训练语言模型cp-chinesebert对问题和候选子图涉及到的实体进行编码;在图注意力网络层,使用图注意力网络对cp-chinesebert编码实体得到的实体向量进行操作,得到包含邻居节点信息的实体向量;问题经过cp-chinesebert得到的问题向量和候选子图内实体经过cp-chinesebert和gat得到的实体向量经过注意力层得到经过问题信息选择过后的实体向量;最后,利用语音生成将问题的答案播放给用户。3.如权利要求1所述基于知识图谱的古诗智能问答方法,其特征在于:构建古诗知识图谱tpkg时,采用三级细粒度框架分层存储诗歌知识,设置时间链框架以进行诗歌、诗人相关的推理。4.如权利要求1所述基于知识图谱的古诗智能问答方法,其特征在于:所述古诗与译文结合的预训练策略如下,古诗上句,古诗下句,记为p&p:将古诗直接拆分为上下两部分,然后拼接作为模型的训练语料;古诗上句、上句译文,古诗下句、下句译文,记为pt&pt:将古诗拆分为上下两部分,后面分别拼接对应的译文,然后拼接作为模型的训练语料;古诗上句,下句译文/上句译文、古诗下句,记为p&t:将古诗拆分后,替换其中一部分为对应的译文,一条古诗数据将被拆分组合为两条训练数据。5.如权利要求1所述基于知识图谱的古诗智能问答方法,其特征在于:使用多任务学习进行模型训练,共包含三个训练任务,分别是意图识别和实体识别两个辅助任务以及古诗智能问答任务。6.如权利要求1或2或3或4或5所述基于知识图谱的古诗智能问答方法,其特征在于:图注意力网络利用多个图注意力层组成,候选子图能够充分交互,将与当前实体相连的所有实体信息整合到当前实体中。7.一种基于知识图谱的古诗智能问答系统,其特征在于:用于实现如权利要求1-6任一项所述的一种基于知识图谱的古诗智能问答方法。
8.根据权利要求6所述基于知识图谱的古诗智能问答系统,其特征在于:包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如权利要求1-6任一项所述的一种基于知识图谱的古诗智能问答方法。9.根据权利要求6所述基于知识图谱的古诗智能问答系统,其特征在于:包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如权利要求1-6任一项所述的一种基于知识图谱的古诗智能问答方法。
技术总结
本发明技术方案提供一种基于知识图谱的古诗智能问答方法及系统,构建古诗知识图谱TPKG;使用古诗与译文结合的预训练策略,基于基础模型ChineseBERT进行训练,得到面向古诗的预训练语言模型CP-ChineseBERT;利用多任务学习和图注意力网络构建基于知识图谱的古诗智能问答模型KBQA-CP-ChineseBERT,包含语音识别、问题/实体编码层、图注意力网络层、注意力层和语音生成模块,其中,语音识别时找到问题中与古诗知识图谱TPKG相关的实体,问题/实体编码层基于面向古诗的预训练语言模型CP-ChineseBERT实现;使用多任务学习进行模型训练,引入了实体识别和意图识别两个辅助任务,以理解用户问题所表达的语义信息,获取与古诗相关问题的答案,通过语音生成将答案通过语音的方式反馈给用户。的方式反馈给用户。的方式反馈给用户。
技术研发人员:何婷婷 洪婕 张淼 章哲铭 戴汝锋 涂新辉 董明
受保护的技术使用者:华中师范大学
技术研发日:2023.04.27
技术公布日:2023/9/14
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
