一种基于飞行态势知识图谱的知识问答方法与流程

未命名 07-23 阅读:109 评论:0


1.本发明属于智能问答技术领域,尤其涉及一种基于飞行态势知识图谱的知识问答方法。


背景技术:

2.随着人工智能技术的发展和大数据时代的到来,不同领域的专业数据得到了爆炸式增长,基于领域大数据对行业进行数字智能化改造的需求也越来越强烈。飞行态势领域包含大量航班号、飞机识别码、备降机场、起飞时间及起飞地点等相关数据,数据结构复杂但蕴含着大量有价值的信息。针对海量而复杂的飞行态势数据,只有能够快速、精准地从中获取专业数据信息,才能有效依据专业数据来指导空管系统的相关工作。
3.基于领域知识图谱的知识问答系统可以快速准确地回答复杂业务问题,提高用户与系统之间的交互能力,作为一种新型的信息搜索方法得到了大量的关注。面向通用领域的知识问答系统主要分为两种:(1)基于神经网络对自然问句和知识图谱进行匹配计算,找出自然问句对应的图谱三元组。(2)基于机器学习算法和自然语言处理对自然问句进行问句理解,然后结合文本相似度计算找出答案相关知识三元组。其中基于神经网络的知识问答方法适用于在大型通用领域知识库上进行快速的计算,但是由于扩展了泛化性而导致准确性较低。因此面向特定领域知识库的知识问答系统更多的采用基于问句理解和查询的知识问答技术路线。研究发现,基于知识图谱的问答系统针对同一个问题可能拥有的多种不同问答方式,同时用户输入的自然问句由于其口语化的特点不遵循严格的句法而很难被机器进行准确的理解,因此如何将用户的意图准确、快速和高效的转化为知识图谱上的查询语句,仍是一个有待研究的难点。当前针对知识问答系统中问句理解需求的方法主要分为:基于模板匹配的方式,该方法准确率高,但规则需要人工构建,因此只能支持在限定领域内的问句理解,在通用领域中较难实现;基于句法分析的语义提取方法,该方法通过对问句中的字词词性和字词组合搭配情况进行基于句法规则的分析,支持对面向通用领域的问句进行理解,但是问句需严格按照句法规则来写,因此在对口语化的自然问句进行理解时性能较差;基于文本相似度的语义提取方法,该方法基于大量短文本数据集对模型算法进行训练,训练原理复杂且受各项参数影响较大,实际效果不够稳定。


技术实现要素:

4.发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于飞行态势知识图谱的知识问答方法。
5.为了解决上述技术问题,本发明公开了一种基于飞行态势知识图谱的知识问答方法,包括以下几个步骤:
6.步骤1:构建飞行态势知识图谱。
7.步骤2:构建面向飞行态势领域的问题类型模板,所述问题类型模板包括问题分类和问题模板;构建飞行态势领域自然问句多分类器,对自然问句进行分类,并根据自然问句
的分类结果匹配其对应的问题模板,实现飞行态势相关的自然问句理解。
8.步骤3,构建面向飞行态势领域的命名实体识别模型,通过所述命名实体识别模型抽取自然问句中的关键词;
9.步骤4,根据抽取到的关键词和对应的问题模板生成查询语句,利用所述查询语句从飞行态势知识图谱上获取答案。
10.进一步地,所述步骤1包括以下步骤:
11.步骤1.1,统一时间信息和空间信息的语义表达形式,将时空信息与知识三元组中的宾语进行关联,实现飞行态势数据模型的设计;
12.步骤1.2,根据步骤1-1中的飞行态势数据模型,通过信息提取技术,对结构化和半结构化的复杂飞行态势数据进行预处理和关键信息提取,通过知识图谱构建技术将获取到的飞行态势知识构建为飞行态势知识图谱。
13.进一步地,步骤1.1中所述飞行态势数据模型采用扩展的知识三元组(s,p,o[t1,t2,l])对飞行态势数据中的静态知识和时空信息进行表示,所述静态知识包括航班号、飞机编号和飞机机型,所述时空信息包括航班起飞时间、降落时间、飞行途中的经纬度坐标和高度;s和p代表主语和谓语,o代表拓展表示后的宾语,拓展知识结构中t1和t2代表时间点yyyy-mm-dd hh:mm:ss,同时t1、t2具备时间序列的特点,t2》=t1;l代表宾语所具有的空间信息,表示为一组经纬度和海拔高度的空间信息组(latitude,longitude,altitude),记录机场或飞机飞行过程中在三维空间中的位置。
[0014]
步骤1采用知识图谱对飞行态势领域知识进行重组和知识表示,解决传统知识问答方法应用在飞行态势领域存在的自然问句特征提取能力不足,查询效率不高以及交互形式单一的问题。
[0015]
进一步地,步骤2中构建问句多分类器,对自然问句进行分类包括:
[0016]
步骤2.1,根据预先设定的问题模板数n,采用间接法将n个基于svm算法的二分类器通过决策函数组合为一个能够实现多分类任务的问句多分类器;
[0017]
步骤2.2,通过tf-idf(term frequency

inverse document frequency,词频-逆文本频率指数)算法对自然问句中每个词语的tf-idf值进行统计计算,实现自然问句的特征提取;
[0018]
步骤2.3,根据tf-idf值设定词语的权重,将词语权重作为问句多分类器输入的附加信息,帮助问句多分类模型提高性能;
[0019]
步骤2.4,问句多分类器输出自然问句的分类结果,并根据分类结果匹配自然问句对应的问题模板,实现面向飞行态势领域的自然问句理解。
[0020]
步骤2利用问答模板、自然语言处理和神经网络等技术,解决了现有知识问答方法无法准确获取飞行态势领域自然问句中用户查询意图的问题,使得研究方案更加严谨可行。
[0021]
进一步地,步骤3包括:
[0022]
步骤3.1,使用word2vec(word to vector)字向量训练方法构建字词级别的语言模型,进行训练得到字词的向量表示,将自然问句转化为向量组合的特征矩阵;
[0023]
步骤3.2,采用gru(gate recurrent unit)门控循环单元获取自然问句特征矩阵中的隐藏特征;
[0024]
步骤3.3,结合自然问句的隐藏特征,采用crf(conditional random field)条件随机场对自然问句进行句子级别序列标注;
[0025]
步骤3.4,通过softmax打分函数对句子序列标注进行概率计算,实现不同字之间是否构成命名实体的识别,从而抽取关键词。
[0026]
进一步地,所述步骤1还包括:步骤1-3,将构建好的飞行态势知识图谱通过neo4j数据库进行存储和管理。利用时空知识图谱模型和图数据库对构建的飞行态势知识图谱进行持久化,提高复杂飞行态势数据的管理和查询效率。
[0027]
进一步地,步骤2中构建面向飞行态势领域的问题类型模板后,针对每个问题模板,构建相应的cypher查询语句框架。
[0028]
进一步地,步骤4包括:
[0029]
步骤4.1,将抽取到的关键词填入到匹配的问题模板对应的cypher查询语句框架中,生成完整的cypher查询语句;
[0030]
步骤4.2,利用所述cypher查询语句在图数据库neo4j中查询问句对应答案并返回。
[0031]
进一步地,步骤2中所述问题类型模板的问题分类包括机场相关、飞机编号相关和航班号相关,机场相关的问题模板包括机场位置以及机场在某天的天气和特情;飞机编号相关的问题模板包括飞机的机型、商业注册号、应答器编号和在某天的航班号;航班号相关的问题模板包括航班在某天的计划起飞和降落机场、实际起飞和降落机场、计划起飞和降落时间、实际起飞和降落时间、起飞跑道、航站楼、备降机场、航班状态和计划旅客人数。
[0032]
进一步地,步骤1.2中通过知识图谱构建技术rdflib将获取到的飞行态势知识构建为飞行态势知识图谱。
[0033]
有益效果:
[0034]
本发明与现有技术相比,显著优点是:现有针对飞行态势数据的查询大多基于关系型数据库等进行sql/sparql查询或基于结构化文档(如csv,excel等)进行信息提取。本发明引入时空知识图谱模型进行飞行态势数据的管理,相较于关系型数据库和结构化文档,可以更加灵活的对飞行态势数据进行存储、管理和更新。同时本发明构建了针对飞行态势领域的问题模板,配合发明设计的问题多分类器和命名实体识别模型实现自然问句理解和图数据库查询,一方面可以更加精准的进行目标信息的获取,另一方面基于属性图方式的查询对比sql/spqral查询可以更加快速的获取到多个目标信息。随着各行各业智能化改造程度的加深,飞行区空管领域作为典型的大数据行业,具有强烈的智能化升级需求,本发明提供的一种基于飞行态势知识图谱的知识问答方法,旨在对飞行区空管的智能化发展进行探索和技术储备。
附图说明
[0035]
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
[0036]
图1为本技术实施例提供的一种基于飞行态势知识图谱的知识问答方法的流程示意图。
[0037]
图2为本技术实施例提供的一种基于飞行态势知识图谱的知识问答方法的飞行态
势知识图谱示例图。
[0038]
图3为本技术实施例提供的一种基于飞行态势知识图谱的知识问答方法的自然问句多分类器模型。
[0039]
图4为本技术实施例提供的一种基于飞行态势知识图谱的知识问答方法的word2vec模型。
[0040]
图5为本技术实施例提供的一种基于飞行态势知识图谱的知识问答方法的gru模型。
[0041]
图6为使用本技术实施例提供的一种基于飞行态势知识图谱的知识问答方法获得的知识问答系统结果图。
[0042]
图7为本技术实施例提供的一种基于飞行态势知识图谱的知识问答方法中问答流程实例图。
具体实施方式
[0043]
为了使本领域技术人员更好地理解本发明中的技术问题、技术方案和技术效果,下面结合附图和文档对本发明作进一步详细说明。
[0044]
针对现有知识问答方法的不足,本技术实施例构建面向飞行态势领域的问题类型模板,设计面向模板匹配的问句多分类器,并利用面向飞行态势领域的命名实体识别模型对自然问句关键词抽取,进而设计面向飞行态势知识图谱的知识问答方法,不仅能够准确的获取用户查询意图,还能够快速的获取答案相关三元组的查询语句,实现在大型飞行态势知识图谱上进行自然问答形势的知识获取。
[0045]
本发明的总体流程图如图1所示。构建的飞行态势知识图谱如图2所示。图3到图5包含了本发明提出的模型。图6展示了最终实现的知识问答系统效果图。图7是一个知识问答的实例,以下结合各图进行详细说明。
[0046]
本技术实施例公开一种基于飞行态势知识图谱的知识问答方法,是针对飞行态势领域数据进行管理和问答式交互的方法,采用时空知识图谱模型对飞行态势数据进行知识整合,构建飞行态势知识图谱;构建问题多分类器,对用户输入的自然问句进行分类;构建面向飞行态势领域的问题类型模板,将分类后的自然问句与问题类型模板进行匹配;设计面向飞行态势领域的命名实体识别模型,抽取自然问句中的关键词;将抽取到的关键词填充到问题模板对应的cypher查询语句中,利用cypher查询语句从存储在图数据库neo4j中的飞行态势知识图谱上获取答案。其具体实施步骤如下,且总体流程见图1。
[0047]
步骤1.基于时空知识图谱模型的飞行态势知识图谱构建,包括:
[0048]
步骤1.1,统一时间信息和空间信息的语义表达形式,将时空信息与知识三元组中的宾语进行关联,实现飞行态势数据模型的设计;
[0049]
飞行态势领域数据除包含航班号、飞机编号、飞机机型等静态知识外,还包含航班起飞时间、降落时间、飞行途中的经纬度坐标、高度等时间信息和空间信息。经典的知识图谱采用三元组结构(s,p,o)对知识进行表示,其中s表示主语,p表示谓语,o表示宾语。该知识表示模型可以有效的将实体与实体通过关联关系进行组织表示,但是对静态知识以外的时间信息、空间信息等无法进行灵活的表征。本实施例采用一种对表达形式进行拓展的知识三元组(s,p,o[t1,t2,l]),其中s和p依然代表主语和谓语,o代表拓展表示后的宾语。拓
展知识结构中t1、t2代表时间点(yyyy-mm-ddhh:mm:ss),l代表指定宾语所具有的空间信息如经纬度及高度。同时t1、t2具备时间序列的特点,t2》=t1。l代表宾语所携带的空间信息,本实施例构建的知识图谱主要面向飞行态势领域,在此将l表示为一组经纬度+海拔高度的空间信息组(latitude,longitude,altitude),记录机场或飞机飞行过程中在三维空间中的位置。
[0050]
步骤1.2,根据步骤1-1中的飞行态势数据模型,通过信息提取技术,对结构化和半结构化的复杂飞行态势数据进行预处理和关键信息提取,通过rdflib等知识图谱构建技术将获取到的飞行态势知识构建为飞行态势知识图谱。飞行态势知识图谱如附图2所示。
[0051]
本实施例在网上爬取和整理了国内机场相关的飞行计划、航班信息等作为飞行态势知识图谱的数据来源。
[0052]
步骤1.3,为了对构建好的飞行态势知识图谱持久化以支持知识问答系统的运行,选择图数据库neo4j作为飞行态势知识图谱存储的数据库。neo4j图数据库是主流开源知识图谱数据库之一,其性能和便利性得到了广泛的认可,同时具有灵活的数据结构调整能力,可以适配本实施例采用的飞行态势数据模型的存储结构。
[0053]
步骤2.面向飞行态势领域的问题类型模板构建和自然问句多分类器设计。
[0054]
面向飞行态势领域的自然问句分类目前还没有公开的数据集可供参考,同时在web端也很难获取到有效的飞行态势问答数据集。因此本实施例围绕飞行态势知识图谱中包含的实体、关系和对应知识为中心,人工构建了面向飞行态势领域的问题模板,共设计了n=20种飞行态势知识问答查询模板。问题类型模板如表1所示。
[0055]
表1问题类型模板
(x))将正样本a类文本分离出来;
[0061]
(2)设定b为正样本,a、c为负样本,使用由svm算法构造出的决策函数f2=sgn(g2(x))将正样本b类文本分离出来;
[0062]
(3)设定c为正样本,a、b为负样本,使用由svm算法构造出的决策函数f3=sgn(g3(x))将正样本b类文本分离出来;
[0063]
(4)理想情况下,构造的svm决策函数能完美的将正样本与负样本分离开来,那么对任意输入x,决策函数f1、f2和f3中有且仅有一个为正值,正值项既为正样本;如果构造的决策函数出现误差,则根据g1(x)、g2(x)和g3(x)三者最大值来确定输入文本x的类别,g(x)最大项既为正样本。
[0064]
针对自然问句的向量化,本发明采用tf-idf算法实现问句的特征提取,通过对问句中每个词语的tf-idf值进行统计计算,根据tf-idf值设置为词语的权重,将词语权重作为原始输入的附加信息,从而有效的帮助分类模型提高性能。
[0065]
步骤3.构建面向飞行态势领域的命名实体识别模型,通过所述命名实体识别模型抽取自然问句中的关键词。
[0066]
通过构建的自然问句多分类器可以对用户输入的自然问句进行多分类,并根据分类结果匹配问题对应的查询模板。为了生成与neo4j图数据库进行查询交互的cypher查询语句,还需要将问题中的命名实体进行识别,补充到查询语句中,才能将自然问句完整的映射为cypher查询语句。自然问句及其对应查询模板实例如表2所示。
[0067]
表2自然问句及其对应查询模板实例
[0068][0069]
对表2中实例进行解释如下,针对用户问句“n232wn的机型是什么?”,命名实体为“n232wn”和“机型”,将飞机尾部编号n232wn作为查询条件(fr:flight_registration.name),指定关系“飞机类型”查找与指定查询条件关联的(ft:flight_typecode.name)属性并作为答案返回。针对用户问题“n232wn在2019年8月12日起飞的航班号?”,命名实体为“n232wn”、“2019年8月12日”和“航班号”,将飞机尾部编号n232wn作为查询条件1(fr:flight_registration.name),同时识别自然问句中的时间信息“2019年8月12日”,对时间信息进行处理并统一表示为

201908012

作为查询条件2(fn:flight_no).tl)的字符串起始字段,结合查询条件1和查询条件2返回对应的查询结果作为答案返回。
[0070]
本实施例采用机器学习和深度学习相结合方式,构建了中文命名实体识别模型gru-crf,利用深度学习对向量化后的特征矩阵进行计算,并结合机器学习对命名实体识别模型计算结果与实际答案进行映射。在命名实体识别模型训练过程中,首先使用word2vec
字向量训练方法构建了字词级别的语言模型,进行训练得到字词的向量表示,将原始文本数据转化为向量组合的特征矩阵,特征矩阵维度为n
×
embed_dim,n代表字词的个数,embed_dim代表了向量的维度。word2vec语言模型如附图4所示,其主要做法是设计携带了权重参数的隐藏层,将初始输出不断与权重进行交叉计算,转化为向量数值并输出,命名实体识别模型训练过程中通过多轮迭代训练来对隐藏层的权重和最终生成的向量进行不断优化,训练效果由权重初始化设计、训练次数等参数设定决定。
[0071]
命名实体识别模型采用gru门控循环单元提取问句中包含的隐藏特征。gru是lstm(long short-term memory,长短期记忆)循环神经网络的一种变体,它对lstm网络结构进行了简化设计,lstm包含三个门函数:输入门、遗忘门和输出门来控制输入值、记忆值和输出值。而gru模型中只有两个门:分别是更新门和重置门,减少了命名实体识别模型的信息量和复杂度,提高了训练效率和表现。gru的结构如附5所示:
[0072]
图中z
t
、r
t
分别表示更新门和重置门。更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多。重置门控制前一状态有多少信息被写入到当前的候选集上,重置门越小,前一状态的信息被写入的越少。神经网络函数h
t
的计算如下:
[0073]zt
=σ(wz·
[h
t-1
,x
t
])
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0074]rt
=σ(wr·
[h
t-1
,x
t
])
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0075][0076][0077]
其中σ表示sigmoid函数tanh表示双曲正切函数,x
t
表示t时刻的输入。
[0078]
命名实体识别模型的第3部分采用crf条件随机场进行句子级别的序列标注。crf层的参数是一个(k+2)
×
(k+2)的矩阵a,a
ij
为从第i个标签到第j个标签的转移得分,在某一项进行标注的时候可以重复使用前序标注过的标签。k+2表示实体可能具有的标签(状态)数目,由于在标注过程中会在句子首部添加一个起始状态、在句子尾部添加一个终止状态,因此参数中的k要加2以表示额外添加的起始、终止两项。假定一个句子长度的标签序列y=(y1,y2,

,yn),命名实体识别模型关于句子x的标签等于y的打分函数设计如下:
[0079][0080]
其中,表示命名实体识别模型对于第i个字打上标签yi的概率,表示从第i-1个字的标签y
i-1
到第i个字的标签yi的转移概率。公式5证明了整个序列的得分由各项得分之和组成,而每个项的得分由gru模型输出p和crf算法转移矩阵a共同决定。因此,采用softmax函数得到的句子x的标签等于y概率为:
[0081][0082]
其中,y'表示逐项求和过程中的每一个y的取值。
[0083]
步骤4,根据抽取到的关键词和对应的问题模板生成查询语句,利用所述查询语句从飞行态势知识图谱上获取答案,包括:
[0084]
步骤4.1,将抽取到的关键词填入到匹配的问题模板对应的cypher查询语句框架中,生成完整的cypher查询语句;
[0085]
步骤4.2,利用所述cypher查询语句在图数据库neo4j中查询问句对应答案并返回。
[0086]
基于步骤2、步骤3和步骤4,以步骤1构建的飞行态势知识图谱为后台数据支撑,本实施例设计实现了一个基于飞行态势知识图谱的知识问答系统,其前端界面如图6所示。基于飞行态势知识图谱的知识问答系统的问答处理流程如附图7所示,用户输入问题“2019年8月9日aal624航班是从哪里起飞的?”,先对该自然问句进行向量化,输入至自然问句多分类器获得自然问句的分类结果,并根据分类结果匹配自然问句对应的问题模板:某航班在某天的实际起飞机场;将自然问句输入至命名实体识别模型,获得关键词航班实体aal624,结合时空条件2019年8月9日,填入到匹配的问题模板对应的cypher查询语句框架中,生成完整的cypher查询语句,利用所述cypher查询语句在图数据库neo4j中查询问句对应答案kclt并向用户返回。
[0087]
具体实现中,本技术提供计算机存储介质以及对应的数据处理单元,其中,该计算机存储介质能够存储计算机程序,所述计算机程序通过数据处理单元执行时可运行本发明提供的一种基于飞行态势知识图谱的知识问答方法的发明内容以及各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)或随机存储记忆体(random access memory,ram)等。
[0088]
本领域的技术人员可以清楚地了解到本发明实施例中的技术方案可借助计算机程序以及其对应的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序即软件产品的形式体现出来,该计算机程序软件产品可以存储在存储介质中,包括若干指令用以使得一台包含数据处理单元的设备(可以是个人计算机,服务器,单片机,muu或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
[0089]
本发明提供了一种基于飞行态势知识图谱的知识问答方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

技术特征:
1.一种基于飞行态势知识图谱的知识问答方法,其特征在于,包括如下步骤:步骤1,构建飞行态势知识图谱;步骤2,构建面向飞行态势领域的问题类型模板,所述问题类型模板包括问题分类和问题模板;构建自然问句多分类器,对自然问句进行分类,并根据自然问句的分类结果匹配其对应的问题模板;步骤3,构建面向飞行态势领域的命名实体识别模型,通过所述命名实体识别模型抽取自然问句中的关键词;步骤4,根据抽取到的关键词和对应的问题模板生成查询语句,利用所述查询语句从飞行态势知识图谱上获取答案。2.根据权利要求1所述的一种基于飞行态势知识图谱的知识问答方法,其特征在于,所述步骤1包括以下步骤:步骤1.1,统一时间信息和空间信息的语义表达形式,将时空信息与知识三元组中的宾语进行关联,实现飞行态势数据模型的设计;步骤1.2,根据步骤1-1中的飞行态势数据模型,通过信息提取技术,对结构化和半结构化的复杂飞行态势数据进行预处理和关键信息提取,通过知识图谱构建技术将获取到的飞行态势知识构建为飞行态势知识图谱。3.根据权利要求2所述的一种基于飞行态势知识图谱的知识问答方法,其特征在于,步骤1.1中所述飞行态势数据模型采用扩展的知识三元组(s,p,o[t1,t2,l])对飞行态势数据中的静态知识和时空信息进行表示,所述静态知识包括航班号、飞机编号和飞机机型,所述时空信息包括航班起飞时间、降落时间、飞行途中的经纬度坐标和高度;s和p代表主语和谓语,o代表拓展表示后的宾语,拓展知识结构中t1和t2代表时间点yyyy-mm-dd hh:mm:ss,同时t1、t2具备时间序列的特点,t2>=t1;l代表宾语所具有的空间信息,表示为一组经纬度和海拔高度的空间信息组(latitude,longitude,altitude),记录机场或飞机飞行过程中在三维空间中的位置。4.根据权利要求3所述的一种基于飞行态势知识图谱的知识问答方法,其特征在于,步骤2中构建问句多分类器,对自然问句进行分类包括:步骤2.1,根据预先设定的问题模板数n,采用间接法将n个基于svm算法的二分类器通过决策函数组合为一个能够实现多分类任务的问句多分类器;步骤2.2,通过tf-idf算法对自然问句中每个词语的tf-idf值进行统计计算,实现自然问句的特征提取;步骤2.3,根据tf-idf值设定词语的权重,将词语权重作为问句多分类器输入的附加信息;步骤2.4,问句多分类器输出自然问句的分类结果,并根据分类结果匹配自然问句对应的问题模板。5.根据权利要求4所述的一种基于飞行态势知识图谱的知识问答方法,其特征在于,步骤3包括:步骤3.1,使用word2vec字向量训练方法构建字词级别的语言模型,进行训练得到字词的向量表示,将自然问句转化为向量组合的特征矩阵;步骤3.2,采用gru门控循环单元获取自然问句特征矩阵中的隐藏特征;
步骤3.3,结合自然问句的隐藏特征,采用crf条件随机场对自然问句进行句子级别序列标注;步骤3.4,通过softmax打分函数对句子序列标注进行概率计算,实现不同字之间是否构成命名实体的识别,从而抽取关键词。6.根据权利要求5所述的一种基于飞行态势知识图谱的知识问答方法,其特征在于,所述步骤1还包括:步骤1.3,将构建好的飞行态势知识图谱通过neo4j数据库进行存储和管理。7.根据权利要求6所述的一种基于飞行态势知识图谱的知识问答方法,其特征在于,步骤2中构建面向飞行态势领域的问题类型模板后,针对每个问题模板,构建相应的cypher查询语句框架。8.根据权利要求7所述的一种基于飞行态势知识图谱的知识问答方法,其特征在于,步骤4包括:步骤4.1,将抽取到的关键词填入到匹配的问题模板对应的cypher查询语句框架中,生成完整的cypher查询语句;步骤4.2,利用所述cypher查询语句在图数据库neo4j中查询问句对应答案并返回。9.根据权利要求8所述的一种基于飞行态势知识图谱的知识问答方法,其特征在于,步骤2中所述问题类型模板的问题分类包括机场相关、飞机编号相关和航班号相关,机场相关的问题模板包括机场位置以及机场在某天的天气和特情;飞机编号相关的问题模板包括飞机的机型、商业注册号、应答器编号和在某天的航班号;航班号相关的问题模板包括航班在某天的计划起飞和降落机场、实际起飞和降落机场、计划起飞和降落时间、实际起飞和降落时间、起飞跑道、航站楼、备降机场、航班状态和计划旅客人数。10.根据权利要求9所述的一种基于飞行态势知识图谱的知识问答方法,其特征在于,步骤1.2中通过知识图谱构建技术rdflib将获取到的飞行态势知识构建为飞行态势知识图谱。

技术总结
本发明公开了一种基于飞行态势知识图谱的知识问答方法,属于智能问答领域,包括:步骤1,构建飞行态势知识图谱;步骤2,构建面向飞行态势领域的问题类型模板;构建自然问句多分类器,根据自然问句的分类结果匹配其对应的问题模板;步骤3,构建面向飞行态势领域的命名实体识别模型,通过所述命名实体识别模型抽取自然问句中的关键词;步骤4,根据抽取到的关键词和对应的问题模板生成查询语句,利用所述查询语句从飞行态势知识图谱上获取答案。本方法被运用到飞行态势知识图谱知识问答系统中,解决了飞行区异构知识难以高效组织和交互的问题,更加灵活的对飞行态势数据进行存储、管理和更新,更加精准和快速地进行目标信息的获取。更加精准和快速地进行目标信息的获取。更加精准和快速地进行目标信息的获取。


技术研发人员:张笑文 马宗民 汤闻易 张阳 丁辉
受保护的技术使用者:中国电子科技集团公司第二十八研究所
技术研发日:2023.03.06
技术公布日:2023/7/21
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐