一种基于岭南建筑知识图谱的问答系统及其方法与流程
未命名
08-27
阅读:151
评论:0
1.本发明涉及一种基于岭南建筑知识图谱的问答系统及其方法,属于问答系统技术领域。
背景技术:
2.随着人工智能技术的不断发展,智能问答系统在各个领域的应用越来越广泛,传统的问答系统主要依靠关键词匹配来寻找答案,但是这种方式往往不能很好地解决语义理解和知识推理的问题,难以准确回答复杂问题,然而知识图谱作为一种语义化的知识表示方法,能够对实体、属性和关系进行明确的定义和建模,通过对知识图谱中的实体和关系进行游走,在知识库中寻找问题的答案,是一种很好的解决方案,有鉴于此特提出本发明。
技术实现要素:
3.本发明的目的就在于为了解决上述问题而提供一种基于岭南建筑知识图谱的问答系统及其方法,具有提高答案的覆盖率和质量的优点,同时问答系统具备较高的灵活性和可扩展性,且嵌入虚拟数字人进行智能交互,可以满足用户不同的需求和偏好,提高系统的用户体验和可用性。
4.本发明通过以下技术方案来实现上述目的,一种基于岭南建筑知识图谱的问答系统,包括数据采集与处理组件、知识图谱组件、语义理解组件、知识推理组件和答案生成与呈现组件,所述数据采集与处理组件从互联网或其他数据源中采集、整理和处理相关的知识和数据,并将其存储在知识图谱中,数据包括结构化数据和非结构化数据,所述结构化数据通过公开的数据集、网站的api等途径获得,所述非结构化数据可以通过爬虫等方式获取。
5.所述知识图谱组件用于存储和管理知识图谱的数据,所述语义理解组件负责对用户的输入进行语义理解和分析,将其转化为知识图谱中的实体和关系,所述知识推理组件根据用户的问题,在知识图谱中进行推理和计算,找到相关的实体和关系,并生成相应的答案,所述答案生成与呈现组件将答案生成并呈现给用户,关系抽取是指从文本中抽取实体之间的关系,所述关系抽取包括建筑间的前身、建筑间的现址、建筑间的包含、隶属关系、人物代表建筑和代表著作关系。
6.进一步的,支持多种形式的输入和输出,可以满足用户不同的需求和偏好,提高系统的用户体验和可用性,智能问答包括知识储存、知识获取和知识融合加工,所述知识获取包括馆藏文本数据、网络爬虫以及网页和表格数据,所述网页和表格数据由mysql数据库获得,所述知识融合加工包括实体识别、关系抽取和实体融合,所述智能问答流程包括用户输入问题、通过自然语言理解技术转换成结构化查询语句、检索信息、通过自然语言生成技术转换成自然语言形式和答案呈现。
7.进一步的,提高了智能问答系统的准确性和可靠性,使得系统的知识库更加丰富和全面,所述知识图谱组件构建过程包括数据预处理、模型架构、模型训练、模型评估和模
型应用,所述数据预处理将原始文本转换为模型输入所需的格式,所述模型架构结合了基于注意力机制的编码器和解码器,用于同时识别实体和关系,所述模型训练是指使用标注的训练数据来训练模型,所述模型评估使用标注的测试数据来评估模型的性能,所述模型应用使用训练好的模型对新文本进行实体关系联合抽取。
8.问答方法步骤如下:
9.步骤一:数据收集与清洗,在进行知识图谱的构建前,先收集相关建筑领域的数据;
10.步骤二:实体识别与关系抽取,在知识图谱中,实体是构建知识图谱的基础,实体识别是指从文本中识别出实体,关系抽取是指从文本中抽取实体之间的关系,这一步骤需要使用自然语言处理技术,包括命名实体识别和关系抽取算法;
11.步骤三:知识图谱构建,将实体和关系以图谱的形式进行表示,这一步骤需要确定图谱的模式和架构,选择合适的图谱存储方式,如图数据库;
12.步骤四:问答系统设计,在完成知识图谱的构建后,需要设计一个智能问答系统来应用知识图谱;
13.步骤五:模型训练与优化,在完成问答系统的设计后,需要使用机器学习技术对模型进行训练和优化,这一步骤需要使用大量的样本数据进行训练,同时,需要对模型进行不断的优化和调整,以提高模型的准确性和效率;
14.步骤六:部署和上线,在模型训练和优化完成后,需要将问答系统部署到服务器上,并进行测试和上线,需要不断收集用户的反馈和数据,对模型进行不断的更新和迭代,以提高问答系统的效果和用户体验。
15.本发明的技术效果和优点:本发明通过采集和整理大量的知识和数据,并将其存储在知识图谱中,可以使系统的知识库更加丰富和全面,提高答案的覆盖率和质量,且使用知识图谱的方式可以更好地解决语义理解和知识推理的问题,提高智能问答系统的准确性和可靠性,同时问答系统具备较高的灵活性和可扩展性,可以根据需要动态地更新和扩展知识图谱,提高系统的应用范围和实用性,问答系统还支持多种形式的输入和输出,嵌入虚拟数字人进行智能交互,可以满足用户不同的需求和偏好,提高系统的用户体验和可用性。
附图说明
16.图1为本发明的问答系统结构示意图;
17.图2为本发明的数据收集与处理结构示意图;
18.图3为本发明的关系收取结构示意图;
19.图4为本发明的知识图谱构建流程结构示意图;
20.图5为本发明的知识图谱构建步骤结构示意图;
21.图6为本发明的智能问答流程结构示意图;
具体实施方式
22.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他
实施例,都属于本发明保护的范围。
23.请参阅图1-6所示,一种基于岭南建筑知识图谱的问答系统及其方法,包括数据采集与处理组件、知识图谱组件、语义理解组件、知识推理组件和答案生成与呈现组件,数据采集与处理组件从互联网或其他数据源中采集、整理和处理相关的知识和数据,并将其存储在知识图谱中,数据包括结构化数据和非结构化数据,结构化数据通过公开的数据集、网站的api等途径获得,非结构化数据可以通过爬虫等方式获取,数据收集后,需要进行数据清洗,去除重复数据和噪声数据,确保数据的质量和准确性。
24.知识图谱组件用于存储和管理知识图谱的数据,包括实体、属性和关系等,语义理解组件负责对用户的输入进行语义理解和分析,将其转化为知识图谱中的实体和关系,知识推理组件根据用户的问题,在知识图谱中进行推理和计算,找到相关的实体和关系,并生成相应的答案,答案生成与呈现组件将答案生成并呈现给用户,可以采用文本、图片、语音等呈现形式,关系抽取是指从文本中抽取实体之间的关系,关系抽取包括建筑间的前身、建筑间的现址、建筑间的包含、隶属关系、人物代表建筑和代表著作关系。
25.本发明通过数据采集与处理组件对数据进行采集处理,数据分为结构化数据和非结构化数据,结构化数据可以通过公开的数据集、网站的api等途径获得,非结构化数据可以通过爬虫等方式获取,在数据收集后,需要进行数据清洗,去除重复数据和噪声数据,确保数据的质量和准确性,再利用知识图谱组件对数据进行存储和管理,将实体和关系以图谱的形式进行表示,通常使用三元组的形式进行表示,利用智能问答系统来应用知识图谱,进行智慧交互,问答系统的设计包括用户输入问题的方式、问题分类和答案生成等,其中问题分类是非常重要的一步,需要通过自然语言处理技术将用户输入的问题进行分类,对问题类型进行判定,以确定问题的类型和需要查询的实体和关系,答案生成需要使用自然语言生成技术,将查询到的答案以自然语言的形式呈现给用户。
26.智能问答包括知识储存、知识获取和知识融合加工,知识获取包括馆藏文本数据、网络爬虫以及网页和表格数据,网页和表格数据由mysql数据库获得,知识融合加工包括实体识别、关系抽取和实体融合,知识融合加工能够对储存和获取的知识进行融合加工,方便进行智能问答,智能问答流程包括用户输入问题、通过自然语言理解技术转换成结构化查询语句、检索信息、通过自然语言生成技术转换成自然语言形式和答案呈现。
27.本发明在使用时,用户输入问题,问题输入方式有文本输入、语音输入和图片输入等多种方式,通过自然语言理解技术将输入的问题转换成结构化查询语句,方便进行检索信息,之后通过自然语言生成技术将检索到的信息转换成自然语言形式,方便对答案进行呈现。
28.知识图谱组件构建过程包括数据预处理、模型架构、模型训练、模型评估和模型应用,数据预处理将原始文本转换为模型输入所需的格式,模型架构结合了基于注意力机制的编码器和解码器,用于同时识别实体和关系,模型训练是指使用标注的训练数据来训练模型,模型评估使用标注的测试数据来评估模型的性能,模型应用使用训练好的模型对新文本进行实体关系联合抽取。
29.本发明在使用时,先将原始文本转换为模型输入所需的格式,通常,输入序列被分割成标记,并且每个标记都与其在句子中的位置相对应,另外,实体和关系标签也需要被分配相应的标记,编码器将输入序列转换为上下文感知的表示形式,解码器则通过全局指针
和上下文感知的表示形式来生成实体和关系标签,具体的,实体和关系联合抽取本质上是五元组数据(sh,st,p,oh,ot)的抽取,其中sh,st分别是subject的首、尾位置,predicate是待预测的关系,而oh,ot分别是object的首、尾位置,设计五元组抽取的打分函数f(sh,st,p,oh,ot),并做简化分解:f(sh,st,p,oh,ot)=f(sh,st)+f(oh,ot)+f(sh,oh|p)+f(st,ot|p),其中f(sh,st)和f(oh,ot)分别表示subject和object实体的首尾位置识别打分,通过f(sh,st)》0和f(oh,ot)》0就可以抽取出所有的subject和object实体,而f(sh,oh|p)表示在subject的首位置和object的首位置之间解析出关系p,考虑到存在嵌套实体的可能性,还需要再对实体的尾位置做进一步的判断,故加上f(st,ot|p)。
30.在模型训练过程中,让标注好的训练数据五元组f(sh,st)》0,f(oh,ot)》0,f(sh,oh|p)》0,f(st,ot|p)》0;而其余五元组则f(sh,st)《0,f(oh,ot)《0,f(sh,oh|p)《0,f(st,ot|p)《0,通过最小化损失函数来优化模型,设计模型训练的损失函数为softmax+交叉熵,使其能够正确地预测实体和关系标签,再使用标注的测试数据来评估模型的性能,评估指标通常包括精度、召回率和f1值等,最后使用训练好的模型对新文本进行实体关系联合抽取,具体来说,将输入文本转换为模型输入所需的格式,然后使用训练好的模型来预测实体和关系标签。
31.问答方法步骤如下:
32.步骤一:数据收集与清洗,在进行知识图谱的构建前,先收集相关建筑领域的数据;
33.步骤二:实体识别与关系抽取,在知识图谱中,实体是构建知识图谱的基础,实体识别是指从文本中识别出实体,关系抽取是指从文本中抽取实体之间的关系,这一步骤需要使用自然语言处理技术,包括命名实体识别和关系抽取算法;
34.步骤三:知识图谱构建,将实体和关系以图谱的形式进行表示,这一步骤需要确定图谱的模式和架构,选择合适的图谱存储方式,如图数据库;
35.步骤四:问答系统设计,在完成知识图谱的构建后,需要设计一个智能问答系统来应用知识图谱;
36.步骤五:模型训练与优化,在完成问答系统的设计后,需要使用机器学习技术对模型进行训练和优化,这一步骤需要使用大量的样本数据进行训练,同时,需要对模型进行不断的优化和调整,以提高模型的准确性和效率;
37.步骤六:部署和上线,在模型训练和优化完成后,需要将问答系统部署到服务器上,并进行测试和上线,需要不断收集用户的反馈和数据,对模型进行不断的更新和迭代,以提高问答系统的效果和用户体验。
38.对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
39.此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员
可以理解的其他实施方式。
技术特征:
1.一种基于岭南建筑知识图谱的问答系统,包括数据采集与处理组件、知识图谱组件、语义理解组件、知识推理组件和答案生成与呈现组件,其特征在于:所述数据采集与处理组件从互联网或其他数据源中采集、整理和处理相关的知识和数据,并将其存储在知识图谱中,数据包括结构化数据和非结构化数据,所述结构化数据通过公开的数据集、网站的api等途径获得,所述非结构化数据可以通过爬虫等方式获取。2.根据权利要求1所述的一种基于岭南建筑知识图谱的问答系统,其特征在于:所述知识图谱组件用于存储和管理知识图谱的数据,所述语义理解组件负责对用户的输入进行语义理解和分析,将其转化为知识图谱中的实体和关系。3.根据权利要求1所述的一种基于岭南建筑知识图谱的问答系统,其特征在于:所述知识推理组件根据用户的问题,在知识图谱中进行推理和计算,找到相关的实体和关系,并生成相应的答案,所述答案生成与呈现组件将答案生成并呈现给用户。4.根据权利要求1所述的一种基于岭南建筑知识图谱的问答系统,其特征在于:关系抽取是指从文本中抽取实体之间的关系,所述关系抽取包括建筑间的前身、建筑间的现址、建筑间的包含、隶属关系、人物代表建筑和代表著作关系。5.根据权利要求1所述的一种基于岭南建筑知识图谱的问答系统,其特征在于:智能问答包括知识储存、知识获取和知识融合加工,所述知识获取包括馆藏文本数据、网络爬虫以及网页和表格数据,所述网页和表格数据由mysql数据库获得,所述知识融合加工包括实体识别、关系抽取和实体融合。6.根据权利要求5所述的一种基于岭南建筑知识图谱的问答系统,其特征在于:所述智能问答流程包括用户输入问题、通过自然语言理解技术转换成结构化查询语句、检索信息、通过自然语言生成技术转换成自然语言形式和答案呈现。7.根据权利要求1所述的一种基于岭南建筑知识图谱的问答系统,其特征在于:所述知识图谱组件构建过程包括数据预处理、模型架构、模型训练、模型评估和模型应用,所述数据预处理将原始文本转换为模型输入所需的格式,所述模型架构结合了基于注意力机制的编码器和解码器,用于同时识别实体和关系。8.根据权利要求7所述的一种基于岭南建筑知识图谱的问答系统,其特征在于:所述模型训练是指使用标注的训练数据来训练模型,所述模型评估使用标注的测试数据来评估模型的性能,所述模型应用使用训练好的模型对新文本进行实体关系联合抽取。9.一种基于岭南建筑知识图谱的问答方法,其特征在于,所述包括如下步骤:步骤一:数据收集与清洗,在进行知识图谱的构建前,先收集相关建筑领域的数据;步骤二:实体识别与关系抽取,在知识图谱中,实体是构建知识图谱的基础,实体识别是指从文本中识别出实体,关系抽取是指从文本中抽取实体之间的关系,这一步骤需要使用自然语言处理技术,包括命名实体识别和关系抽取算法;步骤三:知识图谱构建,将实体和关系以图谱的形式进行表示,这一步骤需要确定图谱的模式和架构,选择合适的图谱存储方式,如图数据库;步骤四:问答系统设计,在完成知识图谱的构建后,需要设计一个智能问答系统来应用知识图谱;步骤五:模型训练与优化,在完成问答系统的设计后,需要使用机器学习技术对模型进行训练和优化,这一步骤需要使用大量的样本数据进行训练,同时,需要对模型进行不断的
优化和调整,以提高模型的准确性和效率;步骤六:部署和上线,在模型训练和优化完成后,需要将问答系统部署到服务器上,并进行测试和上线,需要不断收集用户的反馈和数据,对模型进行不断的更新和迭代,以提高问答系统的效果和用户体验。
技术总结
本发明涉及问答系统技术领域,具体的说是一种基于岭南建筑知识图谱的问答系统及其方法,包括数据采集与处理组件、知识图谱组件、语义理解组件、知识推理组件和答案生成与呈现组件,数据采集与处理组件从互联网或其他数据源中采集、整理和处理相关的知识和数据,并将其存储在知识图谱中,数据包括结构化数据和非结构化数据,结构化数据通过公开的数据集、网站的API等途径获得,非结构化数据可以通过爬虫等方式获取,本发明具有提高答案的覆盖率和质量的优点,同时问答系统具备较高的灵活性和可扩展性,且嵌入虚拟数字人进行智能交互,可以满足用户不同的需求和偏好,提高系统的用户体验和可用性。验和可用性。验和可用性。
技术研发人员:肖翔 陈泽齐 方少冲 冯涛 李文朋
受保护的技术使用者:广州凡拓数字创意科技股份有限公司
技术研发日:2023.05.08
技术公布日:2023/8/24
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
