一种建筑环境知识图谱构建方法及装置
未命名
08-15
阅读:118
评论:0
1.本技术涉及计算机信息处理技术领域,尤其涉及一种建筑环境知识图谱构建方法及装置。
背景技术:
2.近年来,随着现代设计和施工技术的快速发展,建筑环境中的实践已经变得更加数字化。然而,从业者或学者在建筑环境中收集复杂的专业知识的要求尚未得到满足,而缺乏适当的知识可视化工具已成为提高建筑环境类项目管理水平和效率的一个关键障碍。
3.由于构建环境领域的大量知识仍然是非结构化数据格式的,不能直接使用,依靠基于规则的系统和专家干预等传统方法从大量数据中提取有价值的信息并将其转换为结构化数据,需要大量的时间和劳动力,无法满足不断增长的业务需求。
技术实现要素:
4.本技术提供了一种建筑环境知识图谱构建方法及装置,用于解决现有的建筑环境知识图谱构建效率低,无法满足不断增长的业务需求的技术问题。
5.为解决上述技术问题,本技术第一方面提供了一种建筑环境知识图谱构建方法,包括:
6.采集建筑环境类的文本数据;
7.通过文本识别算法,对所述文本数据进行预处理,识别所述文本数据中的实体对象,并结合与所述实体对象关联的上下文信息,得到所述实体对象的三元组数据;
8.通过自然语言处理方式和聚类算法,按照各个实体对象的语义,对各个三元组数据进行聚类,根据聚类结果更新各个三元组数据,形成知识图框架;
9.获取带注释信息的实例数据集,以所述知识图框架作为参照信息,对所述实例数据集进行过滤,其中,所述实例数据集中的每个实例均包含一对实体以及所述实体间的关系;
10.通过过滤后的实例数据集训练基于bert的命名实体识别模型与实体关系分类模型,以利用所述命名实体识别模型与所述实体关系分类模型,提取所述文本数据中的实体对象以及实体关系,形成建筑环境知识图谱。
11.优选地,通过自然语言处理方式和聚类算法,按照各个实体对象的语义,对各个三元组数据进行聚类,根据聚类结果更新各个三元组数据,形成知识图框架具体包括:
12.通过自然语言处理方式和聚类算法,按照各个实体对象的语义,将实体对象语义相似的三元组数据进行聚类,形成多个实体集群;
13.更新各个实体集群中各个三元组数据的实体对象,将更新后的三元组数据转换为嵌入三元组;
14.按照所述嵌入三元组中的实体对象,通过所述聚类算法,对所述嵌入三元组进行聚类,形成知识图框架。
15.优选地,通过文本识别算法,对所述文本数据进行预处理,识别所述文本数据中的实体对象,并结合与所述实体对象关联的上下文信息,得到所述实体对象的三元组数据具体包括:
16.通过文本识别算法,对所述文本数据进行预处理,识别所述文本数据中实体对象的三元组数据;
17.将所述实体对象关联的上下文信息,添加到所述三元组数据中,得到所述实体对象的三元组数据。
18.优选地,所述命名实体识别模型的表达式具体包括:
[0019][0020]
式中,pred为所述命名实体识别模型的正向输出结果,b表示bert模型,d和l分别表示dropout层和线性层,c
decode
为维特比算法,emission表示线性层输出,s表示softmax层,c表示crf层。
[0021]
优选地,所述实体关系分类模型的表达式具体包括:
[0022][0023]
式中,o
pred
表示所预测的标签的得分,bp表示bert-pair模型,表示支持集s中第n个类的第j个实例,yr表示查询集q中与支持集s中的实例相对应的不同实例。
[0024]
本技术第二方面提供了一种建筑环境知识图谱构建装置,包括:
[0025]
文本数据采集单元,用于采集建筑环境类的文本数据;
[0026]
三元组数据提取单元,用于通过文本识别算法,对所述文本数据进行预处理,识别所述文本数据中的实体对象,并结合与所述实体对象关联的上下文信息,得到所述实体对象的三元组数据;
[0027]
知识图框架构建单元,用于通过自然语言处理方式和聚类算法,按照各个实体对象的语义,对各个三元组数据进行聚类,根据聚类结果更新各个三元组数据,形成知识图框架;
[0028]
实例数据筛选单元,用于获取带注释信息的实例数据集,以所述知识图框架作为参照信息,对所述实例数据集进行过滤,其中,所述实例数据集中的每个实例均包含一对实体以及所述实体间的关系;
[0029]
模型训练单元,用于通过过滤后的实例数据集训练基于bert的命名实体识别模型与实体关系分类模型,以利用所述命名实体识别模型与所述实体关系分类模型,提取所述文本数据中的实体对象以及实体关系,形成建筑环境知识图谱。
[0030]
优选地,知识图框架构建单元具体用于:
[0031]
通过自然语言处理方式和聚类算法,按照各个实体对象的语义,将实体对象语义相似的三元组数据进行聚类,形成多个实体集群;
[0032]
更新各个实体集群中各个三元组数据的实体对象,将更新后的三元组数据转换为嵌入三元组;
[0033]
按照所述嵌入三元组中的实体对象,通过所述聚类算法,对所述嵌入三元组进行
聚类,形成知识图框架。
[0034]
优选地,三元组数据提取单元具体用于:
[0035]
通过文本识别算法,对所述文本数据进行预处理,识别所述文本数据中实体对象的三元组数据;
[0036]
将所述实体对象关联的上下文信息,添加到所述三元组数据中,得到所述实体对象的三元组数据。
[0037]
优选地,所述命名实体识别模型的表达式具体包括:
[0038][0039]
式中,pred为所述命名实体识别模型的正向输出结果,b表示bert模型,d和l分别表示dropout层和线性层,c
decode
为维特比算法,emission表示线性层输出,s表示softmax层,c表示crf层。
[0040]
优选地,所述实体关系分类模型的表达式具体包括:
[0041][0042]
式中,o
pred
表示所预测的标签的得分,bp表示bert-pair模型,表示支持集s中第n类的第j个实例,yr表示查询集q中与支持集s中的实例相对应的不同实例。
[0043]
从以上技术方案可以看出,本技术具有以下优点:
[0044]
本技术提供的建筑环境知识图谱构建方法,通过大量的建筑环境类的文本数据初步提取出大量的三元组数据,然后通过自然语言处理方式和聚类算法,将这些三元组数据进行聚合,形成建筑环境类的知识图框架,以知识图框架为参照信息,对带注释的实例数据进行过滤修正,再利用过滤后的实例数据训练命名实体识别模型与实体关系分类模型,利用训练好的模型对建筑环境类的文本数据中的实体对象以及对象关系进行提取,即可得到大量结构化的建筑环境类实体对象以及对象关系,从而形成建筑环境知识图谱,有效提高了建筑环境知识图谱的构建效率。
附图说明
[0045]
为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
[0046]
图1为本技术提供的一种建筑环境知识图谱构建方法实施例的流程示意图。
[0047]
图2为本技术提供的一种建筑环境知识图谱构建方法另一个实施例的流程示意图。
[0048]
图3为本技术提供的一种建筑环境知识图谱构建方法中知识图框架的构建过程框图。
[0049]
图4为本技术提供的一种建筑环境知识图谱构建方法中命名实体识别的可视化效
果示意图。
[0050]
图5为本技术提供的一种建筑环境知识图谱构建方法中实体关系分类模型在训练期间的支持集和查询集的“5-way 1-shot 1-query”设置的演示示意图。
[0051]
图6为本技术提供的一种建筑环境知识图谱构建装置实施例的结构示意图。
具体实施方式
[0052]
本技术实施例提供了一种建筑环境知识图谱构建方法及装置,用于解决现有的建筑环境知识图谱构建效率低,无法满足不断增长的业务需求的技术问题
[0053]
为使得本技术的发明目的、特征、优点能够更加的明显和易懂,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本技术一部分实施例,而非全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
[0054]
首先是本技术提供的一种建筑环境知识图谱构建方法实施例的详细说明,具体如下:
[0055]
请参阅图1,本实施例提供的一种建筑环境知识图谱构建方法,包括:
[0056]
步骤101、采集建筑环境类的文本数据。
[0057]
需要说明的是,采集建筑环境类的文本数据,建筑环境领域的出版物揭示了对该领域的研究工作的重要见解,摘要是期刊论文的重要组成部分,具体可以选择摘要数据作为bekg开发的语料库。建筑环境领域的期刊论文摘要可以通过微软学术图谱(mag)数据库收集,该杂志包含了166,192,182篇具有丰富属性的论文,如摘要、作者、标题、期刊等。也可以从微软学术图谱的azure api中获得了54种著名期刊上的约85,000篇摘要。这些都是从澳大利亚研究委员会提供的澳大利亚卓越研究中心(era)2018年期刊列表中挑选出来的顶级期刊,所有选定的期刊均属于1202(建筑)或1205(城市和区域规划)的研究领域(for)。除上述数据外,标题和作者也从mag中检索到,从mag中收集的抽象数据采用压缩格式。因此,在解压缩后获得了原始的摘要数据。同时还采用了一些数据清理方法来删除转义字符和冗余的标点符号或字符,以保证摘要数据的质量
[0058]
步骤102、通过文本识别算法,对文本数据进行预处理,识别文本数据中的实体对象,并结合与实体对象关联的上下文信息,得到实体对象的三元组数据。
[0059]
需要说明的是,在获取到构建知识图谱所需的文本数据后,需要进行预提取来弥合这些数据与数据集之间的差距,以便进行后续的模型训练。在预提取过程中,因本实施例提供的是预处理示例只要为英文素材,因此本实施例的文本识别算法工具会优选采用具有较高的英文文献处理效率的ollie,用于从英语句子中自动识别和提取实体和关系,得到大量的三元组数据。
[0060]
更具体地,如图2所示,本实施例提到的步骤102,其步骤过程具体包括:
[0061]
步骤1021、通过文本识别算法,对文本数据进行预处理,识别文本数据中实体对象的三元组数据;
[0062]
步骤1022、将实体对象关联的上下文信息,添加到三元组数据中,得到实体对象的三元组数据。
[0063]
需要说明的是,根据获取到文本数据,可以先从整个数据中随机抽取10,000个清理过的摘要,以确保知识图框架的泛化。然后,将摘要中的每一个句子发送到ollie,通过从学习的模式模板中提取名词、形容词等介导的关系来检索大量的三元组。然后,进行上下文分析模块,将句子中的上下文信息添加到这些三元组中。最后,还可选地用置信函数给出每个三元组的置信分数。
[0064]
步骤103、通过自然语言处理方式和聚类算法,按照各个实体对象的语义,对各个三元组数据进行聚类,根据聚类结果更新各个三元组数据,形成知识图框架。
[0065]
需要说明的是,由于预提取的实体和关系较为冗余,尚不能直接用于模型的训练和实现。因此,本实施例先通过步骤103所记载的处理手段构建起一个知识图框架。然后按照步骤104基于这个框架作为参照信息,对带注释的实例数据集进行过滤,得到适合用于模型训练的实例数据集。
[0066]
更具体地,如图2所示,本实施例中的步骤103,其步骤过程具体包括:
[0067]
步骤1031、通过自然语言处理方式和聚类算法,按照各个实体对象的语义,将实体对象语义相似的三元组数据进行聚类,形成多个实体集群;
[0068]
步骤1032、更新各个实体集群中各个三元组数据的实体对象,将更新后的三元组数据转换为嵌入三元组;
[0069]
步骤1033、按照嵌入三元组中的实体对象,通过聚类算法,对嵌入三元组进行聚类,形成知识图框架。
[0070]
需要说明的是,构建知识图框架的过程如图3所示,本实施例采用了nlp工具和聚类算法,nlp工具用于计算文本嵌入,将文本从高维空间转换为低维向量进行聚类计算;在获得在ollie三组结果中嵌入实体的结果后,采用聚类算法将语义相似的不同实体集合到一个聚类中,然后根据聚类结果对原始ollie三元组中的实体进行更新;最后,将更新后的ollie三元组转换为嵌入三元组,并再次进行聚类,便可获得知识图框架。
[0071]
步骤104、获取带注释信息的实例数据集,以知识图框架作为参照信息,对实例数据集进行过滤。
[0072]
其中,实例数据集中的每个实例均包含一对实体以及实体间的关系。
[0073]
步骤105、通过过滤后的实例数据集训练基于bert的命名实体识别模型与实体关系分类模型,以利用命名实体识别模型与实体关系分类模型,提取文本数据中的实体对象以及实体关系,形成建筑环境知识图谱。
[0074]
再接着,利用上一步骤处理得到的实例数据集,对基于bert的命名实体识别模型与实体关系分类模型进行训练,以便通过训练好的命名实体识别模型与实体关系分类模型,提取建筑环境类文本数据中的实体对象以及实体关系,形成建筑环境知识图谱。
[0075]
其中,命名实体识别是指识别输入句子中的实体的任务,命名实体识别模型可以使用一个“bio”集来注释句子中的每个标记,“b”表示该实体的开始标记,“i”表示实体内部的标记,“o”表示实体中的最后一个标记或不属于任何实体的标记。
[0076]
本实施例的命名实体识别是由bert-crf完成的,bert是一个用于文本表示的大型标记语言预训练模型,crf是一个结构化输出预测的目标。bert-crf的正向可表达为如下等式:
[0077]
pred=c
decode
(l(d(b(x))))
[0078]
其中b表示bert模型,d和l分别表示dropout层和线性层,线性层输出“bio”标签的输入序列中的每个标记的发射分数,c
decode
表示在给定一个发射分数张量时,寻找最佳标签序列的维特比算法。
[0079]
bert-crf被训练为使正确标签序列的对数概率最大化。因此,本实施例将该模型的损失函数设计为如下等式:
[0080]
l=-c(log(s(emission)))
[0081]
其中,emission表示线性层输出,s表示softmax层,c表示crf层。
[0082]
图4显示了bert-crf将标记化的句子作为输入和输出每个标记的“bio”注释的方式。
[0083]
另外关于本实施例的关系分类,本实施例采用将bert-pair作为基于关系提取任务的少样本学习的模型。在少样本学习过程中,需要一个支持集和一些查询集,通常采用“n-way k-shot q-query”设置来构建支持集和查询集。参数表明,将在数据集中所有类中选择n个类,然后,得到每个类的k个实例来构建一个支持集s,它可以表示为如下等式:
[0084][0085]
其中rn表示第n类,表示支持集中第n个类的第k个实例,然后,从每个选定类的训练实例中选择q个实例,不包括为支持集选择来构建n个查询集的实例。它可以表示为如下等式:
[0086][0087]
其中y表示与支持集中的实例不同的实例,表示支持集中第n个类的第q个实例。为了说明这两个集合,图5显示了构建一个“5-way 1-shot 1-query”设置的演示。
[0088]
为了获得支持集和查询集,首先对每个查询集和支持实例进行标记化,然后计算每个标记的嵌入情况。每个标记化查询实例的嵌入都与每个支持实例的标记化嵌入连接起来。采用基于bert序列分类模型的bert-pair模型,计算每个连接嵌入中最大长度为128的两个28个实例之间的关系相似度。每个查询过程中相似度计算的整个过程都可以表示为如下等式:
[0089][0090]
其中,o
pred
表示所预测的标签的得分,bp表示bert-pair模型,在模型训练阶段,bert-crf和bert-pair模型都在titan xp上进行了训练。在bert-crf训练期间,批大小被设置为16,学习速率从5e-8开始并且采用adam优化器进行模型优化。
[0091]
为了验证本专利提出方法模型的有效性,在命名实体识别(ner)模型的训练过程中,除了bert-crf外,本实施例还对其他常见的命名实体识别方法进行了训练和评估,采用
了4个指标用于评估验证集在不同维度上的性能。结果如表1所示,bert-span的准确性是空的,因为它的特定的输出格式不适合命名实体识别(ner)问题,作为最后一层添加到bert中的crf层在几乎所有四个指标的验证集上都优于其他方法。
[0092]
表1不同ner方法在验证集上的准确性比较
[0093][0094]
在关系分类方面,本实施例分别在训练阶段和大规模提取阶段通过两种方法进行评价,验证和测试集用于评估模型训练的性能,以防止过拟合。各组指标的评价结果如表2所示。
[0095]
表2在训练阶段的关系分类的准确性
[0096]
validation settest set85.51%86.3%
[0097]
此外,本实施例对关系分类任务也进行了5倍交叉验证。每个折叠中的训练、验证和测试集之间的划分重复使用前一个折叠的分配和四个关系的右旋转,确保每个关系被部署用于验证或测试集。原始数据集的分配是1倍的初始设置。经过1000次的验证和测试集的结果,如表3所示,验证集和测试集的平均精度均接近表2中的精度。
[0098]
表3使用5倍交叉验证的验证集和测试集上的关系分类结果
[0099] fold-1fold-2fold-3fold-4fold-5averagestdval85.03%76.24%95.32%92.16%87.68%87.29%7.34%test89.98%90.70%89.56%81.42%70.46%84.42%8.67%
[0100]
以上内容便是关于本技术提供的一种建筑环境知识图谱构建方法的一个实施例的详细说明,下面为本技术提供的一种建筑环境知识图谱构建装置的一个实施例的详细说明。
[0101]
请参阅图6,本实施例提供了一种建筑环境知识图谱构建装置,包括:
[0102]
文本数据采集单元201,用于采集建筑环境类的文本数据;
[0103]
三元组数据提取单元202,用于通过文本识别算法,对文本数据进行预处理,识别文本数据中的实体对象,并结合与实体对象关联的上下文信息,得到实体对象的三元组数据;
[0104]
知识图框架构建单元203,用于通过自然语言处理方式和聚类算法,按照各个实体对象的语义,对各个三元组数据进行聚类,根据聚类结果更新各个三元组数据,形成知识图框架;
[0105]
实例数据筛选单元204,用于获取带注释信息的实例数据集,以知识图框架作为参照信息,对实例数据集进行过滤,其中,实例数据集中的每个实例均包含一对实体以及实体间的关系;
[0106]
模型训练单元205,用于通过过滤后的实例数据集训练基于bert的命名实体识别模型与实体关系分类模型,以利用命名实体识别模型与实体关系分类模型,提取文本数据中的实体对象以及实体关系,形成建筑环境知识图谱。
[0107]
进一步地,知识图框架构建单元203具体用于:
[0108]
通过自然语言处理方式和聚类算法,按照各个实体对象的语义,将实体对象语义相似的三元组数据进行聚类,形成多个实体集群;
[0109]
更新各个实体集群中各个三元组数据的实体对象,将更新后的三元组数据转换为嵌入三元组;
[0110]
按照嵌入三元组中的实体对象,通过聚类算法,对嵌入三元组进行聚类,形成知识图框架。
[0111]
进一步地,三元组数据提取单元202具体用于:
[0112]
通过文本识别算法,对文本数据进行预处理,识别文本数据中实体对象的三元组数据;
[0113]
将实体对象关联的上下文信息,添加到三元组数据中,得到实体对象的三元组数据。
[0114]
进一步地,命名实体识别模型的表达式具体包括:
[0115][0116]
式中,pred为命名实体识别模型的正向输出结果,b表示bert模型,d和l分别表示dropout层和线性层,c
decode
为维特比算法,emission表示线性层输出,s表示softmax层,c表示crf层。
[0117]
进一步地,实体关系分类模型的表达式具体包括:
[0118][0119]
式中,o
pred
表示所预测的标签的得分,bp表示bert-pair模型,表示支持集s中第n类的第j个实例,yr表示查询集q中与支持集s中的实例相对应的不同实例。
[0120]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的终端,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0121]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的
相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0122]
本技术的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例,例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0123]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0124]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0125]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0126]
以上所述,以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
技术特征:
1.一种建筑环境知识图谱构建方法,其特征在于,包括:采集建筑环境类的文本数据;通过文本识别算法,对所述文本数据进行预处理,识别所述文本数据中的实体对象,并结合与所述实体对象关联的上下文信息,得到所述实体对象的三元组数据;通过自然语言处理方式和聚类算法,按照各个实体对象的语义,对各个三元组数据进行聚类,根据聚类结果更新各个三元组数据,形成知识图框架;获取带注释信息的实例数据集,以所述知识图框架作为参照信息,对所述实例数据集进行过滤,其中,所述实例数据集中的每个实例均包含一对实体以及所述实体间的关系;通过过滤后的实例数据集训练基于bert的命名实体识别模型与实体关系分类模型,以利用所述命名实体识别模型与所述实体关系分类模型,提取所述文本数据中的实体对象以及实体关系,形成建筑环境知识图谱。2.根据权利要求1所述的一种建筑环境知识图谱构建方法,其特征在于,通过自然语言处理方式和聚类算法,按照各个实体对象的语义,对各个三元组数据进行聚类,根据聚类结果更新各个三元组数据,形成知识图框架具体包括:通过自然语言处理方式和聚类算法,按照各个实体对象的语义,将实体对象语义相似的三元组数据进行聚类,形成多个实体集群;更新各个实体集群中各个三元组数据的实体对象,将更新后的三元组数据转换为嵌入三元组;按照所述嵌入三元组中的实体对象,通过所述聚类算法,对所述嵌入三元组进行聚类,形成知识图框架。3.根据权利要求1所述的一种建筑环境知识图谱构建方法,其特征在于,通过文本识别算法,对所述文本数据进行预处理,识别所述文本数据中的实体对象,并结合与所述实体对象关联的上下文信息,得到所述实体对象的三元组数据具体包括:通过文本识别算法,对所述文本数据进行预处理,识别所述文本数据中实体对象的三元组数据;将所述实体对象关联的上下文信息,添加到所述三元组数据中,得到所述实体对象的三元组数据。4.根据权利要求1所述的一种建筑环境知识图谱构建方法,其特征在于,所述命名实体识别模型的表达式具体包括:式中,pred为所述命名实体识别模型的正向输出结果,b表示bert模型,d和l分别表示dropout层和线性层,c
decode
为维特比算法,emission表示线性层输出,s表示softmax层,c表示crf层。5.根据权利要求1所述的一种建筑环境知识图谱构建方法,其特征在于,所述实体关系分类模型的表达式具体包括:
式中,o
pred
表示所预测的标签的得分,bp表示bert-pair模型,x
r
j表示支持集s中第n个类的第j个实例,y
r
表示查询集q中与支持集s中的实例相对应的不同实例。6.一种建筑环境知识图谱构建装置,其特征在于,包括:文本数据采集单元,用于采集建筑环境类的文本数据;三元组数据提取单元,用于通过文本识别算法,对所述文本数据进行预处理,识别所述文本数据中的实体对象,并结合与所述实体对象关联的上下文信息,得到所述实体对象的三元组数据;知识图框架构建单元,用于通过自然语言处理方式和聚类算法,按照各个实体对象的语义,对各个三元组数据进行聚类,根据聚类结果更新各个三元组数据,形成知识图框架;实例数据筛选单元,用于获取带注释信息的实例数据集,以所述知识图框架作为参照信息,对所述实例数据集进行过滤,其中,所述实例数据集中的每个实例均包含一对实体以及所述实体间的关系;模型训练单元,用于通过过滤后的实例数据集训练基于bert的命名实体识别模型与实体关系分类模型,以利用所述命名实体识别模型与所述实体关系分类模型,提取所述文本数据中的实体对象以及实体关系,形成建筑环境知识图谱。7.根据权利要求6所述的一种建筑环境知识图谱构建装置,其特征在于,知识图框架构建单元具体用于:通过自然语言处理方式和聚类算法,按照各个实体对象的语义,将实体对象语义相似的三元组数据进行聚类,形成多个实体集群;更新各个实体集群中各个三元组数据的实体对象,将更新后的三元组数据转换为嵌入三元组;按照所述嵌入三元组中的实体对象,通过所述聚类算法,对所述嵌入三元组进行聚类,形成知识图框架。8.根据权利要求6所述的一种建筑环境知识图谱构建装置,其特征在于,三元组数据提取单元具体用于:通过文本识别算法,对所述文本数据进行预处理,识别所述文本数据中实体对象的三元组数据;将所述实体对象关联的上下文信息,添加到所述三元组数据中,得到所述实体对象的三元组数据。9.根据权利要求6所述的一种建筑环境知识图谱构建装置,其特征在于,所述命名实体识别模型的表达式具体包括:式中,pred为所述命名实体识别模型的正向输出结果,b表示bert模型,d和l分别表示dropout层和线性层,c
decode
为维特比算法,emission表示线性层输出,s表示softmax层,c表示crf层。
10.根据权利要求6所述的一种建筑环境知识图谱构建装置,其特征在于,所述实体关系分类模型的表达式具体包括:式中,o
pred
表示所预测的标签的得分,bp表示bert-pair模型,表示支持集s中第n类的第j个实例,y
r
表示查询集q中与支持集s中的实例相对应的不同实例。
技术总结
本申请公开了一种建筑环境知识图谱构建方法及装置,本申请提供的建筑环境知识图谱构建方法,通过大量的建筑环境类的文本数据初步提取出大量的三元组数据,然后通过自然语言处理方式和聚类算法,将这些三元组数据进行聚合,形成建筑环境类的知识图框架,以知识图框架为参照信息,对带注释的实例数据进行过滤修正,再利用过滤后的实例数据训练命名实体识别模型与实体关系分类模型,利用训练好的模型对建筑环境类的文本数据中的实体对象以及对象关系进行提取,即可得到大量结构化的建筑环境类实体对象以及对象关系,从而形成建筑环境知识图谱,有效提高了建筑环境知识图谱的构建效率。率。率。
技术研发人员:杨晓君 王正东 钟浩宇 林浩申 闵海波 周齐
受保护的技术使用者:广东工业大学
技术研发日:2023.05.22
技术公布日:2023/8/14
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
