一种反恐数据全局知识图谱构建及系统实现的方法

未命名 09-13 阅读:217 评论:0


1.本发明属于大数据分析技术领域,具体涉及一种反恐数据全局知识图谱构建及系统实现的方法。


背景技术:

2.知识图谱,也称作知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互关系。知识图谱是三元组的集合,其中三元组的形式是(主语,谓词,宾语),主语和宾语是实体,谓词是关系。每个三元组(例如(姓名,出生地,檀香山))表示一个事实。知识图谱可以应用于许多场景,比如在信息推荐系统中基于知识图谱进行信息推荐,或是在文本分类过程中基于知识图谱进行分类等,是当前各行各业处理各类数据的一种新兴的、重要的智能方法。知识图谱分为通用知识图谱和领域知识图谱,其中领域知识图谱汇集了一个领域内的专业知识,通过领域知识图谱,可以构建出一个领域内处理特定问题的智能系统。反恐数据全局知识图谱是一种由马里兰全球反恐数据库与自定义数据库库融合优化,结合知识图谱补全技术进行补全,所构建的一个领域知识图谱。不同于其他领域知识图谱,反恐数据知识图谱更为复杂,具体来讲,结构复杂,不同反恐数据间存在潜在关联,信息隐藏度高,有效信息提取难、精准度低。
3.相关技术中,现有的依据反恐数据知识图谱建立反恐数据全局知识图谱在补全和应用方面缺少相应的方法,导致反恐数据知识图谱精确度低,判断速度慢,难以满足当前的使用需求。


技术实现要素:

4.有鉴于此,本发明的目的在于克服现有技术的不足,提供一种反恐数据全局知识图谱构建及系统实现的方法,以解决现有技术中反恐数据知识图谱精确度低、判断速度慢,难以满足当前的使用需求的问题。
5.为实现以上目的,本发明采用如下技术方案:一种反恐数据全局知识图谱构建及系统实现的方法,包括:
6.利用基于反恐数据库中的数据源,基于预设实体词抽取所述数据源,得到与所述实体词相关的三元组;
7.利用所述三元组融合所述反恐数据库与自定义数据库建立全局数据库,利用所述全局数据库得到全局知识图谱,并基于所述全局知识图谱提取资源描述框架三元组;
8.将所述资源描述框架三元组嵌入语义空间,并基于所述语义空间建立训练集,利用所述训练集对深度学习网络进行训练,得到多任务联合学习模型;所述多任务联合学习模型用于识别资源描述框架三元组;
9.将待识别词向量空间输入所述多任务联合学习模型,得到新的资源描述框架三元组,将新的资源描述框架三元组补入所述全局知识图谱中。
10.进一步的,所述数据源包括:
11.结构化数据、半结构化数据和非结构化数据。
12.进一步的,所述基于预设实体词抽取所述数据源,包括:
13.对于结构化数据,采用d2r方法从所述结构化数据抽取知识或使用图映射的方法从链接数据抽取知识;
14.对于半结构化数据,则使用包装器从所述半结构化数据中抽取知识;
15.对于非结构化数据,则使用信息抽取的方法从自由文本中抽取知识。
16.进一步的,基于所述全局知识图谱提取资源描述框架三元组,包括:
17.计算全局数据库中的实体字符串的汉明距离;
18.根据所述汉明距离相似度,筛选出所述反恐数据库与自定义数据库匹配的实体对,并构建实体间的等价映射;
19.根据筛选出的实体对,基于反恐全局数据库进行广度优先搜索,获得与筛选出的实体对相关的实体;
20.依据获得的实体,提取资源描述框架三元组。
21.进一步的,所述将待识别词向量空间输入所述多任务联合学习模型,得到新的资源描述框架三元组,包括:
22.将映射至词向量空间的资源描述框架三元组输入至多任务联合学习模型,将嵌入到词向量矩阵空间中的知识重新映射到文字表示的资源描述框架三元组,从而得到新的资源描述框架三元组。
23.进一步的,新的资源描述框架三元组包括多个,得到新的资源描述框架三元组之后,还包括:
24.将新生成的资源描述框架三元组进行整理合并。
25.进一步的,还包括:
26.对反恐全局数据库中的字符串规范化处理。
27.本技术实施例提供一种反恐数据全局知识图谱构建及系统实现的装置,包括:
28.抽取模块,用于利用基于反恐数据库中的数据源,基于预设实体词抽取所述数据源,得到与所述实体词相关的三元组;
29.建立模块,利用所述三元组融合所述反恐数据库与自定义数据库建立全局数据库,利用所述全局数据库得到全局知识图谱,并基于所述全局知识图谱提取资源描述框架三元组;
30.训练模块,用于将所述资源描述框架三元组嵌入语义空间,并基于所述语义空间建立训练集,利用所述训练集对深度学习网络进行训练,得到多任务联合学习模型;所述多任务联合学习模型用于识别资源描述框架三元组;
31.补全模块,用于将待识别词向量空间输入所述多任务联合学习模型,得到新的资源描述框架三元组,将新的资源描述框架三元组补入所述全局知识图谱中。
32.本发明采用以上技术方案,能够达到的有益效果包括:
33.本发明提供一种反恐数据全局知识图谱构建及系统实现的方法,本技术将马里兰全球反恐数据库与自定义数据库进行融合优化,得到全局数据库,基于全局数据库得到全局知识图谱,并基于所述全局知识图谱提取资源描述框架三元组;将资源描述框架三元组
嵌入语义空间,通过语义空间对深度学习网络进行训练,得到多任务联合学习模型;将待识别词向量空间输入多任务联合学习模型,得到新的资源描述框架三元组,将新的资源描述框架三元组补入全局知识图谱中。本发明利用了全局知识图谱,使得在训练、测试和查询中的知识库规模大幅缩小,精准度大幅提高,还自动挖掘反恐数据全局知识图谱中的隐藏知识,填补了基于知识图谱的反恐数据全局知识图谱补全方法的空白,同时,反恐数据分析系统的实现可以最大限度、最快速的从海量零散的数据中挖掘有价值的信息,利用事物的相关关系,快速判断、分析恐怖情况,极大的满足了当前的应用需求。
附图说明
34.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
35.图1为本发明反恐数据全局知识图谱构建及系统实现的方法的步骤示意图;
36.图2为本发明反恐数据全局知识图谱构建及系统实现的装置的结构示意图。
具体实施方式
37.为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
38.恐怖主义,是指通过暴力、破坏、恐吓等手段,制造社会恐慌、危害公共安全、侵犯人身财产,或者胁迫国家机关、国际组织,以实现其政治、意识形态等目的的主张和行为。恐怖主义已经成为危害社会稳定和国家安全的最大难题,也逐渐从一国一地扩散到世界各国,升级成一个国际问题。在互联网时代,恐怖分子借助网络进行传输各种信息。在传输过程中,总会留下许多信息,掌握这些信息,可以对恐怖组织的基本情况及恐怖分子的活动实时进行监测,动态掌握恐怖组织内外变化情况,研究其组织规律,摸清其活动规律,发出早期预警,对相关攻击目标或基础设施进行提前防护,做好准备。在这样的背景下,借助知识图谱技术,利用反恐数据全局知识图谱来预防与打击恐怖主义将是反恐研究的一个重要方向,也是获取反恐情报的重要手段。全局知识图谱可以深入了解恐怖组织网络的演化、分析其网络结构特征等,这些都将为反恐提供技术支撑。
39.下面结合附图介绍本技术实施例中提供的一个具体的反恐数据全局知识图谱构建及系统实现的方法。
40.如图1所示,本技术实施例中提供的反恐数据全局知识图谱构建及系统实现的方法,包括:
41.s101,利用基于反恐数据库中的数据源,基于预设实体词抽取所述数据源,得到与所述实体词相关的三元组;
42.s102,利用所述三元组融合所述反恐数据库与自定义数据库建立全局数据库,利用所述全局数据库得到全局知识图谱,并基于所述全局知识图谱提取资源描述框架三元
组;
43.s103,将所述资源描述框架三元组嵌入语义空间,并基于所述语义空间建立训练集,利用所述训练集对深度学习网络进行训练,得到多任务联合学习模型;所述多任务联合学习模型用于识别资源描述框架三元组;
44.深度学习网络的输入数据是已知三元组的集合,或者说是定义的二进制张量a[1:|r|]。而对于关系事实抽取模型,输入数据是提及到各个实体对的句子,每条句子还具有自己内部结构,且各种元素的共现附带有频率信息。因此,两者的输入数据是异质性(heterogenous)的。
[0045]
多任务联合学习模型从已有的知识图谱中,为每一个实体,学习得到一个固定维度的连续表示。这些连续表示将被用于进行推理的计算。反观关系事实抽取模型,既可以使用手工设计的传统特征,也可以使用深度学习模型配合词向量等嵌入表示对句子进行编码。两者在特征的层面也具有非常大的差异。
[0046]
多任务联合学习模型的学习一般是通过优化一个基于间隔的排序准则,在优化过程中模型不断将一个三元组(h,r,t)的正确实体(头或者尾均可)与错误的实体进行判别。而对于关系事实抽取,通常使用概率模型,优化最大似然,且判别的对象是各种不同关系。所以两者在使用的模型上也具有很大差异。
[0047]
s104,将待识别词向量空间输入所述多任务联合学习模型,得到新的资源描述框架三元组,将新的资源描述框架三元组补入所述全局知识图谱中。
[0048]
反恐数据全局知识图谱构建及系统实现的方法的工作原理为:本技术将马里兰全球反恐数据库与自定义数据库进行融合优化,得到全局数据库,基于全局数据库得到全局知识图谱,并基于所述全局知识图谱提取资源描述框架三元组;将资源描述框架三元组嵌入语义空间,通过语义空间对深度学习网络进行训练,得到多任务联合学习模型;将待识别词向量空间输入多任务联合学习模型,得到新的资源描述框架三元组,将新的资源描述框架三元组补入全局知识图谱中。
[0049]
需要说明的是,知识图谱补全是向一个已有的知识图谱中增加新的三元组,且加入的三元组必须是客观事实。主要有两个渠道的信息可以用于补全知识图谱:1.从一个知识图谱已有的三元组来推理新的三元组。2.从文本中抽取新的实体和新的三元组。对比分析二者的优劣,提出了一个多任务联合学习框架下的模型用于将知识图谱中的实体与语料中的词嵌入到同一个向量空间中,提出该模型的目的是为解决合并知识图谱嵌入模型与关系事实抽取模型所需要解决的若干困难与挑战,最终致力于解决反恐数据全局知识图谱补全。多任务联合学习模型可以分解为三部分:知识模型(knowledgemodel),文本模型(text model),以及对齐模型,通过定义其中的知识模型与文本模型,给出了统一、相容的、可以联合学习实体嵌入表示与词向量的方法。通过定义其中的对齐模型,解决了将实体的嵌入表示与词向量嵌入到同一个向量空间的难点。多任务联合学习模型能够利用学习得到的向量表示,对实体链接失败的候选三元组也能计算出相应的得分。多任务联合学习框架下的模型,同时学习知识图谱中的实体与文本中的词的嵌入表示。
[0050]
本技术通过构建反恐知识图谱,可以有效拓展数据获取、采集的手段,有效弥补现有情报、监视、信息系统不足,依托数据挖掘和关联分析等技术,可以最大限度的从海量、零散的数据中挖掘有价值的信息,利用事物的相关关系,快速判断、分析恐怖情况。反恐数据
分析系统以马里兰数据库中的数据为基础,构建学院标准的反恐数据库,通过知识体系、知识图谱的构建,从而实现教学、学习、科学研究的目的,进一步扩宽反恐工作的视野,提高效率、研判和预警能力,同时,有效满足当前的应用需求。
[0051]
一些实施例中,所述数据源包括:
[0052]
结构化数据、半结构化数据和非结构化数据。
[0053]
一些实施例中,所述基于预设实体词抽取所述数据源,包括:
[0054]
对于结构化数据,采用d2r方法从所述结构化数据抽取知识或使用图映射的方法从链接数据抽取知识;
[0055]
对于半结构化数据,则使用包装器从所述半结构化数据中抽取知识;
[0056]
对于非结构化数据,则使用信息抽取的方法从自由文本中抽取知识。
[0057]
需要说明的是,本技术中与特定实体词关联的数据源包括:结构化数据、半结构化数据及非结构化数据;相应的,从与特定实体词关联的数据源进行知识抽取,包括:采用与数据源类型相对应的知识抽取方式从与特定实体词关联的数据源进行知识抽取,不同的数据源对应不同的知识抽取方法。若所述数据源类型为结构化数据,则使用d2r方法从关系数据库抽取知识或使用图映射的方法从链接数据抽取知识;若所述数据源类型为半结构化数据,则使用包装器从半结构化数据中抽取知识;若所述数据源类型为非结构化数据,则使用信息抽取的方法从自由文本中抽取知识。
[0058]
一些实施例中,基于所述全局知识图谱提取资源描述框架三元组,包括:
[0059]
计算全局数据库中的实体字符串的汉明距离;
[0060]
根据所述汉明距离相似度,筛选出所述反恐数据库与自定义数据库匹配的实体对,并构建实体间的等价映射;
[0061]
根据筛选出的实体对,基于反恐全局数据库进行广度优先搜索,获得与筛选出的实体对相关的实体;
[0062]
依据获得的实体,提取资源描述框架三元组。
[0063]
具体的,依据马里兰全球反恐数据库与自定义数据库之间相同实体及关联实体部分建立全局数据库,将反恐全局数据库中的字符串规范化处理;计算反恐全局数据库中的实体字符串的汉明距离,根据汉明距离相似度,筛选出马里兰全球反恐数据库与自定义数据库匹配的实体对,构建实体间的等价映射;根据筛选出的实体对,基于反恐全局数据库进行广度优先搜索,获得与筛选出的实体对相关的实体;依据获得的实体,提取资源描述框架三元组。
[0064]
所述将待识别词向量空间输入所述多任务联合学习模型,得到新的资源描述框架三元组,包括:
[0065]
将映射至词向量空间的资源描述框架三元组输入至多任务联合学习模型,将嵌入到词向量矩阵空间中的知识重新映射到文字表示的资源描述框架三元组,从而得到新的资源描述框架三元组。
[0066]
其中,作为一种实施方式,新的资源描述框架三元组包括多个,得到新的资源描述框架三元组之后,还包括:
[0067]
将新生成的资源描述框架三元组进行整理合并。
[0068]
可以理解的是,深度学习网络的具体训练过程为,将反恐数据全局知识图谱中的
资源描述框架三元组嵌入模型进行训练,依照嵌入映射规则,将反恐数据全局知识图谱中的资源描述框架三元组进行词映射;将反恐数据全局知识图谱中的实体作为头实体,对于反恐数据全局知识图谱已出现的所有关系,生成尾实体,通过头实体和尾实体之间的向量空间上的位置关系,确定变量之间的联系。
[0069]
最后,对全局知识图谱进行反补的过程为,将映射至词向量空间的资源描述框架三元组投放至已训练的多任务联合学习模型,将嵌入到词向量矩阵空间中的知识重新映射到文字表示的资源描述框架三元组,从而得到新的资源描述框架三元组;将新生成的资源描述框架三元组重新整理并合并,并补入未补全的反恐数据全局知识图谱,得到补全后的反恐数据全局知识图谱。
[0070]
如图2所示,本技术实施例提供一种反恐数据全局知识图谱构建及系统实现的装置,包括:
[0071]
抽取模块201,用于利用基于反恐数据库中的数据源,基于预设实体词抽取所述数据源,得到与所述实体词相关的三元组;
[0072]
建立模块202,利用所述三元组融合所述反恐数据库与自定义数据库建立全局数据库,利用所述全局数据库得到全局知识图谱,并基于所述全局知识图谱提取资源描述框架三元组;
[0073]
训练模块203,用于将所述资源描述框架三元组嵌入语义空间,并基于所述语义空间建立训练集,利用所述训练集对深度学习网络进行训练,得到多任务联合学习模型;所述多任务联合学习模型用于识别资源描述框架三元组;
[0074]
补全模块204,用于将待识别词向量空间输入所述多任务联合学习模型,得到新的资源描述框架三元组,将新的资源描述框架三元组补入所述全局知识图谱中。
[0075]
本技术提供的反恐数据全局知识图谱构建及系统实现的装置的工作原理为,抽取模块201利用基于反恐数据库中的数据源,基于预设实体词抽取所述数据源,得到与所述实体词相关的三元组;建立模块202所述三元组融合所述反恐数据库与自定义数据库建立全局数据库,利用所述全局数据库得到全局知识图谱,并基于所述全局知识图谱提取资源描述框架三元组;训练模块203将所述资源描述框架三元组嵌入语义空间,并基于所述语义空间建立训练集,利用所述训练集对深度学习网络进行训练,得到多任务联合学习模型;所述多任务联合学习模型用于识别资源描述框架三元组;补全模块204将待识别词向量空间输入所述多任务联合学习模型,得到新的资源描述框架三元组,将新的资源描述框架三元组补入所述全局知识图谱中。
[0076]
在上述全局只是图谱的基础上,构建一个反恐数据分析系统,系统包括进入端、客户端、unix、linux、windows nt等平台。主要采用java程序设计语言开发,基于分布式计算和存储系统进行构建。采用分布式微服务构架及相关组件建立核心支撑系统,保证各业务对应的服务可以独立的编译及部署,通过服务接口方式相互通讯,无条件支持数据抽取和推送,不限制用户数或并发数。数据库内容以反恐数据全局知识库为主。具有数据采集、数据编辑、数据管理、用户管理、权限管理、可视化界面管理、接口管理等功能模块。
[0077]
反恐数据分析系统的进入端为http协议访问,在unix服务器配置对应的端口,等待客户端连接。
[0078]
需要说明的是,客户端的操作步骤如下:
[0079]
第一步,登陆页面:输入账户和密码,点击后台登录,进行登录操作。后台主页,主要显示了服务器基本信息与虚拟机基本信息。
[0080]
第二步,先从左侧菜单栏中,选定一个模块,然后选择对应的操作:如反恐知识图谱模块;
[0081]
第三步,点击属性管理:管理员可以进行属性标签的管理进行相应的修改操作;
[0082]
第四步,点击关系管理:管理员可以进行关联关系名称的修改操作;
[0083]
第五步,点击三元组:管理员可以根据开始节点结束节点添加修改查询相关数据;
[0084]
第六步,点击图谱检索:管理员可以根据查询事件查询出关系图谱和事件简介。
[0085]
第七步,面向不同用户、不同需求,通过从国家、犯罪集团、行政区划、目标类型、武器类型、攻击类型、伤亡情况等不同维度的分析,形成相应的反恐知识图谱并生成相应的报告,以供用户查阅。
[0086]
其中,客户端包括:基础数据模块、大屏管理模块、业务数据模块、反恐知识图谱模块、报告管理模块、系统设置模块、权限管理模块、日志管理模块;
[0087]
基础数据模块主要包括:(1)国家:管理员可以进行各个国家的中文名称及英文名称查询。(2)犯罪集团:管理员可以在该页面添加删除修改犯罪集团的信息。(3)行政区划:管理员可在该页面进行行政区域信息的添加删除修改查询操作。(4)课程管理:管理员可以在该页面进行课程得到添加查询操作。(5)目标类型:管理员可以对于基础目标类型进行添加删除修改查询操作。(6)武器类型:管理员可在该页面进行基础武器类型的添加删除修改查询操作。(7)攻击类型:管理员可在该页面进行基础攻击类型的添加修改删除查询操作。(8)区域:管理员可以进行区域的中/英文添加修改删除查询操作。(9)作战类型:管理员可在该页面进行基础作战类型的添加修改删除查询操作
[0088]
大屏管理模块主要包括:(1)大屏后台管理:管理员可以添加屏幕模块,根据每块屏幕上传背景图片,修改颜色等操作。(2)标签管理:管理员可进行整个系统的标签管理进行增加修改删除查询操作。(3)资料显示:管理员可以根据数据类型显示环形图、折线图,根据年份形成部分文字报告。
[0089]
业务数据模块主要包括:(1)内部案例:管理员可以进行内部案例相关数据的添加修改删除查询操作。(2)马里兰数据:管理员可以进行数据的添加修改删除查询操作,可以导出所需要的excel报告。
[0090]
反恐知识图谱模块主要包括:(1)属性管理:管理员可以进行属性标签的管理进行相应的修改操作。(2)关系管理:管理员可以进行关联关系名称的修改操作。(3)三元组:管理员可以根据开始节点结束节点添加修改查询相关数据。(4)图谱检索:管理员可以根据查询事件查询出关系图谱和事件简介。
[0091]
报告管理模块主要包括:报告:管理员可以上传pdf文件根据标题,标签预览及添加修改查询操作。
[0092]
系统设置模块主要包括:(1)菜单管理:管理员可以根据该页面进行各个模块的调整;(2)定时任务:管理员可以定时同步知识图谱数据
[0093]
权限管理模块主要包括:(1)用户管理:管理员可以添加使用此系统的成员。(2)部门管理:管理员可以添加使用此系统的部门(3)角色管理:管理员添加后台登陆的用户并且设置权限。
[0094]
日志管理模块主要包括:(1)登录日志:后台用户的登陆和退出记录(2)操作日志:后台用户查看了哪些模块记录,及使用报告导出excel。(3)异常日志:后台用户使用系统出现的异常情况。
[0095]
本技术提供的反恐数据分析系统,包括进入端、客户端、unix、linux、windows nt等平台,主要采用java程序设计语言开发,基于分布式计算和存储系统进行构建。采用分布式微服务构架及相关组件建立核心支撑系统,保证各业务对应的服务可以独立的编译及部署,通过服务接口方式相互通讯。各系统是全开放系统,无条件支持数据抽取和推送,不限制用户数或并发数。数据库内容以反恐数据全局知识库为主。面向不同用户、不同需求,通过从国家、犯罪集团、行政区划、目标类型、武器类型、攻击类型、伤亡情况等不同维度的分析,形成相应的反恐知识图谱并生成相应的报告,以供用户查阅。客户端包括:基础数据模块、大屏管理模块、业务数据模块、反恐知识图谱模块、报告管理模块、系统设置模块、权限管理模块、日志管理模块。
[0096]
综上所述,本发明提供一种反恐数据全局知识图谱构建及系统实现的方法,本技术将马里兰全球反恐数据库与自定义数据库进行融合优化,得到全局数据库,基于全局数据库得到全局知识图谱,并基于所述全局知识图谱提取资源描述框架三元组;将资源描述框架三元组嵌入语义空间,通过语义空间对深度学习网络进行训练,得到多任务联合学习模型;将待识别词向量空间输入多任务联合学习模型,得到新的资源描述框架三元组,将新的资源描述框架三元组补入全局知识图谱中。本发明利用了全局知识图谱,使得在训练、测试和查询中的知识库规模大幅缩小,精准度大幅提高,还自动挖掘反恐数据全局知识图谱中的隐藏知识,填补了基于知识图谱的反恐数据全局知识图谱补全方法的空白,同时,反恐数据分析系统的实现可以最大限度、最快速的从海量零散的数据中挖掘有价值的信息,利用事物的相关关系,快速判断、分析恐怖情况,极大的满足了当前的应用需求。
[0097]
可以理解的是,上述提供的方法实施例与上述的装置实施例对应,相应的具体内容可以相互参考,在此不再赘述。
[0098]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0099]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0100]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品,该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0101]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0102]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

技术特征:
1.一种反恐数据全局知识图谱构建及系统实现的方法,其特征在于,包括:利用基于反恐数据库中的数据源,基于预设实体词抽取所述数据源,得到与所述实体词相关的三元组;利用所述三元组融合所述反恐数据库与自定义数据库建立全局数据库,利用所述全局数据库得到全局知识图谱,并基于所述全局知识图谱提取资源描述框架三元组;将所述资源描述框架三元组嵌入语义空间,并基于所述语义空间建立训练集,利用所述训练集对深度学习网络进行训练,得到多任务联合学习模型;所述多任务联合学习模型用于识别资源描述框架三元组;将待识别词向量空间输入所述多任务联合学习模型,得到新的资源描述框架三元组,将新的资源描述框架三元组补入所述全局知识图谱中。2.根据权利要求1所述的方法,其特征在于,所述数据源包括:结构化数据、半结构化数据和非结构化数据。3.根据权利要求2所述的方法,其特征在于,所述基于预设实体词抽取所述数据源,包括:对于结构化数据,采用d2r方法从所述结构化数据抽取知识或使用图映射的方法从链接数据抽取知识;对于半结构化数据,则使用包装器从所述半结构化数据中抽取知识;对于非结构化数据,则使用信息抽取的方法从自由文本中抽取知识。4.根据权利要求1所述的方法,其特征在于,基于所述全局知识图谱提取资源描述框架三元组,包括:计算全局数据库中的实体字符串的汉明距离;根据所述汉明距离相似度,筛选出所述反恐数据库与自定义数据库匹配的实体对,并构建实体间的等价映射;根据筛选出的实体对,基于反恐全局数据库进行广度优先搜索,获得与筛选出的实体对相关的实体;依据获得的实体,提取资源描述框架三元组。5.根据权利要求4所述的方法,其特征在于,所述将待识别词向量空间输入所述多任务联合学习模型,得到新的资源描述框架三元组,包括:将映射至词向量空间的资源描述框架三元组输入至多任务联合学习模型,将嵌入到词向量矩阵空间中的知识重新映射到文字表示的资源描述框架三元组,从而得到新的资源描述框架三元组。6.根据权利要求5所述的方法,其特征在于,新的资源描述框架三元组包括多个,得到新的资源描述框架三元组之后,还包括:将新生成的资源描述框架三元组进行整理合并。7.根据权利要求4所述的方法,其特征在于,还包括:对反恐全局数据库中的字符串规范化处理。8.一种反恐数据全局知识图谱构建及系统实现的装置,其特征在于,包括:抽取模块,用于利用基于反恐数据库中的数据源,基于预设实体词抽取所述数据源,得到与所述实体词相关的三元组;
建立模块,利用所述三元组融合所述反恐数据库与自定义数据库建立全局数据库,利用所述全局数据库得到全局知识图谱,并基于所述全局知识图谱提取资源描述框架三元组;训练模块,用于将所述资源描述框架三元组嵌入语义空间,并基于所述语义空间建立训练集,利用所述训练集对深度学习网络进行训练,得到多任务联合学习模型;所述多任务联合学习模型用于识别资源描述框架三元组;补全模块,用于将待识别词向量空间输入所述多任务联合学习模型,得到新的资源描述框架三元组,将新的资源描述框架三元组补入所述全局知识图谱中。

技术总结
本发明涉及一种反恐数据全局知识图谱构建及系统实现的方法,所述方法包括将马里兰全球反恐数据库与自定义数据库进行融合优化,得到全局数据库,并得到全局知识图谱,提取资源描述框架三元组;将资源描述框架三元组嵌入语义空间,通过语义空间对深度学习网络进行训练,得到多任务联合学习模型;将待识别词向量空间输入多任务联合学习模型,得到新的资源描述框架三元组,将新的资源描述框架三元组补入全局知识图谱中。本发明利用了全局知识图谱,使得在训练、测试和查询中的知识库规模大幅缩小,精准度大幅提高,还能够填补全局知识图谱,本申请提供的技术方案利用事物的相关关系,快速判断、分析恐怖情况,极大的满足了当前的应用需求。用需求。用需求。


技术研发人员:杜波 俞昭君 袁琛
受保护的技术使用者:中国人民武装警察部队工程大学
技术研发日:2023.06.02
技术公布日:2023/9/12
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐