一种知识图谱构建方法及系统与流程
未命名
07-13
阅读:80
评论:0
1.本发明属于知识图谱技术领域,具体涉及一种知识图谱方法及系统。
背景技术:
2.知识图谱是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱通常是由节点和边组成的,每个节点表示一个实体,连接节点的边为实体与实体之间的关系,即实体的属性。
3.现有技术在建立知识产权图谱时,需要从互联网中手机相关的内容组成知识图谱;而互联网的内容时刻在更新,为了同时对知识图谱进行更新,需要人为筛选出更新的互联网内容提供给知识图谱;并且一些互联网内容中包括多个实体的描述,导致知识图谱在提取互联网内容时无法准确获得多个实体之间的属性,提取准确性低。
技术实现要素:
4.本发明旨在解决现有技术中存在的技术问题,提供一种产业知识图谱构建方法,在提取包括多个实体的内容,获取实体之间的属性时,提高提取准确率。
5.为了实现本发明的上述目的,根据本发明的第一个方面,本发明提供了一种知识图谱构建方法,包括以下步骤:提取网页链接中的实体词组和关键字,根据关键字对实体词组进行过滤获得过滤实体;获取过滤实体中的名词短语,计算名词短语的一元语法的出现概率和二元语法的出现概率;根据一元语法的出现概率和二元语法的出现概率获取名词短语的配对概率;根据配对概率对过滤实体中的名词短语进行筛选获得关键实体;计算关键实体中各名词短语的特征词向量,根据特征词向量对名词短语进行聚类分析获得该名词短语的属性,设置各个属性的正则表达式;根据自举法以关键实体中的单个实体为中心进行迭代,分别提取每个实体的关系内容组成知识图谱。
6.进一步地,计算名词短语的一元语法的出现概率和二元语法的出现概率的步骤具体为:根据一元公式计算名词短语的一元语法的出现概率,根据二元公式计算名词短语的二元语法的出现概率;一元公式如下:二元公式如下:其中,pa(wi)表示一元语法的出现概率,pb(wi)表示二次语法的出现概率,wi表示过滤实体中第i个名词短语,n表示名词短语在网页连接中出现的次数;n表示过滤实体中的名词短语总数,m∈n。
7.进一步地,名词短语的配对概率的计算过程如下:p=λ1pa+λ2pb;其中,p表示配对概率,λ1表示一元语法的权重,pa表示一元语法的出现频率,λ2表示二元语法的权重,pb表示二元语法的出现频率。
8.进一步地,提取网页链接中的实体词组和关键字的步骤之前还包括网页库的生成步骤;提取网页链接中的实体词组和关键字的步骤具体为:获取网页库中的网页链接,提取
网页链接的实体词组和关键字;网页库的生成步骤包括:步骤s1:指定需要创建知识图谱的产业信息,创建该产业信息的网页库;步骤s2:获取新的链接站点,根据爬取程序获取链接站点的元素信息,计算元素信息与产业信息的相关性,若链接站点的相关性小于设定阈值,则舍弃该链接站点;若链接站点的相关性大于设定阈值,则执行步骤s3;步骤s3:将该链接站点加入网页库。
9.进一步地,步骤s3还包括:爬取并存储该链接站点中的文章内容,分析文章内容中是否有外部链接,若有外部链接,将外部链接作为新的链接站点放入步骤s2中。
10.进一步地,提取网页链接中的实体词组和关键字的步骤之前还包括网页链接更新判断步骤;提取网页链接中的实体词组和关键字的步骤具体为:获取网页库中的已更新的网页链接,提取网页链接的实体词组和关键字;网页链接更新判断步骤具体为:通过轮询对网页库中的网页链接进行轮询,根据存储的该网页链接的文章内容、该网页链接的网页类型和判断依据判断该网页链接是否更新。
11.进一步地,网页类型包括新闻性网站和内容型网站;新闻性网站的判断依据包括文章内容中是否具有新增链接;内容型网站包括最新发布时间、评论时间和数据指纹。
12.为了实现本发明的上述目的,根据本发明的第二个方面,本发明提供了一种知识图谱构建系统,在执行过程中使用了第一方面所述的一种知识图谱构建方法;该系统包括输入模块、提取模块、计算模块和迭代模块;提取模块用于提取网页库中网页链接的实体词组和关键字,并过滤获得过滤实体;计算模块还用于计算一元语法的出现概率、二元语法的出现概率和配对概率;提取模块还用于根据配对概率从过滤实体中提取关键实体;计算模块还用于计算关键实体中各名词短语的特征词向量,分析获得该名词短语的属性;输入模块用于根据名词短语的属性设置正则表达式;迭代模块用于根据自举法以关键实体中的单个实体为中心进行迭代并提取单个实体的关系内容组成知识图谱。
13.进一步地,输入模块还用于输入需要创建知识图谱的产业信息和设定阈值;还包括存储模块、分析模块和判断模块;存储模块用于存储各产业信息对应的网页库;分析模块用于获取新的链接站点并获取元素信息;计算模块还用于计算链接站点的元素信息与产业信息的相关性;判断模块用于判断链接站点的相关性若大于设定阈值,则将该链接站点加入网页库;判断链接站点的相关性若小于设定阈值,则舍弃该链接站点。
14.进一步地,存储模块还用于爬取首次存入网页库的网页链接的文章内容并进行存储;判断模块还用于获取网页库的网页链接的文章内容,判断文章内容中若有外部链接,则将外部链接发送至计算模块进行相关性计算;还包括更新模块;更新模块用于对网页库中的网页链接进行轮询判断该网页链接是否更新;提取模块用于提取网页库中已更新的网页链接的实体词组和关键字。
15.本发明的技术原理及有益效果:本方案通过获取网页连接中的多个实体词组,通过对实体词组进行配对概率计算,舍弃配对概率较低的名词短语,即非属性描述的名词短语,避免提取过程中实体词较多导致提取准确率低的问题;现有技术中通常使用一元语法和二元语法进行语义识别,本方案结合一元语法和二元语法的获得名词短语的属性配对概率;筛选出属性配对概率高的名词短语,提高网页链接的内容提取准确性。
附图说明
16.图1是本发明所述的一种知识图谱构建方法的流程示意图;
17.图2是本发明网页库的建立及更新的流程示意图;
18.图3是本发明判断网页库是否更新的流程示意图;
19.图4是本发明所述的一种知识图谱构建系统的结构示意图。
具体实施方式
20.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
21.本发明提供了一种知识图谱构建方法,识别并爬取互联网上关于产业信息相关的文章,通过对文章中的内容进行过滤,获取文章中与产业信息相关的属性,包括注册资本、融资情况、占地面积、生产规模、员工人数、污染情况和上下游关系,通过这些属性建立产业信息上下游的知识图谱;通过知识图谱即能对该产业信息的有详细充分的了解,协助金融机构做好企业风险控制。
22.如附图1所示,本发明提供的一种知识图谱构建方法包括以下步骤:
23.提取网页链接中的实体词组e(e1,e2,e3,
…
,en)和关键字k(k1,k2,k3,
…
,k
x
),根据关键字对实体词组进行过滤获得过滤实体r,r=k∩e;本实施例中,关键字的优选个数为10个,即x=10。
24.获取过滤实体中的名词短语w(w1,w2,w3,
…
,wn),计算名词短语的一元语法的出现概率和二元语法的出现概率pa;根据一元语法的出现概率和二元语法pb的出现概率获取名词短语的配对概率;
25.根据配对概率对过滤实体中的名词短语进行筛选获得关键实体;计算关键实体中各名词短语的特征词向量,根据特征词向量对名词短语进行聚类分析获得该名词短语的属性attr(a1,a2,a3,
…
,an),设置各个属性的正则表达式;具体地,本实施例中,通过word2vector算法计算关键实体中各名词短语的特征词向量,即每个名词短语的同类短语。
26.根据自举法以关键实体中的第i个实体ri为中心进行迭代,分别提取每个实体的关系内容组成知识图谱;本实施例中,自举法优选bootstrapping算法。
27.优选地,计算名词短语的一元语法的出现概率和二元语法的出现概率的步骤具体为:根据一元公式计算名词短语的一元语法的出现概率,根据二元公式计算名词短语的二元语法的出现概率;
28.一元公式如下:
[0029][0030]
二元公式如下:
[0031][0032]
其中,pa(wi)表示一元语法的出现概率,pb(wi)表示二次语法的出现概率,wi表示过
滤实体中第i个名词短语,n表示名词短语在网页连接中出现的次数;n表示过滤实体中的名词短语总数,m∈n。
[0033]
名词短语的配对概率的计算过程如下:
[0034]
p=λ1pa+λ2pb[0035]
其中,p表示配对概率,λ1表示一元语法的权重,pa表示一元语法的出现频率,λ2表示二元语法的权重,pb表示二元语法的出现频率。本实际实时过程中,一元语法的权重λ1和二元语法的权重λ2根据已有样本通过em算法(期望最大化算法)迭代插值计算获得;
[0036]
本实施例中,为了提高识别和爬取文章的速度,提取网页链接中的实体词组和关键字的步骤之前还包括网页库的生成步骤;通过网页库的生成步骤,筛选出与产业信息有关联的网页链接,舍弃与产业信息不相关的网页链接,则不需要对不相关的网页链接进行文章识别和爬取步骤,提高文章识别和爬取效率;
[0037]
提取网页链接中的实体词组和关键字的步骤具体为:获取网页库中的网页链接,提取网页链接的实体词组和关键字;
[0038]
如附图2所示,本实施例中,网页库的生成步骤包括:
[0039]
步骤s1:指定需要创建知识图谱的产业信息,创建该产业信息的网页库;
[0040]
步骤s2:获取新的链接站点,根据爬取程序深度或广度地遍历搜索获取链接站点的元素信息,判断元素信息和产业信息是否具有相关性,若元素信息和产业信息不具有相关性,则舍弃该链接站点;若元素信息和产业信息具有相关性,则执行步骤s3;
[0041]
步骤s3:将该链接站点加入网页库。
[0042]
本实施例中元素信息包括链接站点的标签、摘要和网页内容;具体地,通过相关性分析算法分析元素信息与产业信息是否具有相关性,相关性分析算法包括以关键词向量为基础的余弦相似度算法以及其他的相似度算法,关键词向量根据栏目数据模型生成。
[0043]
本实施例中,网页库的生成步骤还包括:设定数据需求,根据数据需求定向地采集某一主题的网页链接,数据需求可以为某个行业的关键词,或者对某个领域进行描述。将这一主题的网页链接作为新的链接站点,利用深度及广度优先算法获取这些新的链接站点,这些新的链接站点是还没有成批下载之前或者下载之后需要确定是否符合数据需求的对象页,此时这些链接站点为存储在磁盘空间,需求通过深度及广度优先算法返回选定的链接站点以及监控站点根节点。选定的链接站点组成该数据需求所对应的网页库。
[0044]
本实施例中,由于一些链接站点中包括相关性较强的外部连接,因此为了对链接站点进行深度提取,还需要判断链接是否存在外部链接,因此步骤s3还包括:爬取并存储该链接站点中的文章内容,分析文章内容中是否有外部链接,若有外部链接,将外部链接作为新的链接站点放入步骤s2中。
[0045]
如附图3所示,提取网页链接中的实体词组和关键字的步骤之前还包括网页链接更新判断步骤;
[0046]
提取网页链接中的实体词组和关键字的步骤具体为:获取网页库中的已更新的网页链接,提取网页链接的实体词组和关键字;
[0047]
网页链接更新判断步骤具体为:通过轮询对网页库中的网页链接进行轮询,根据存储的该网页链接的文章内容、该网页链接的网页类型和判断依据判断该网页链接是否更新;具体地,更新是指各个网页链接对新对象内容发布的操作;当轮询后判断网页库中有网
页链接更新后,启动网页链接提取和爬取步骤。
[0048]
若不进行更新判断,则需要定期对网页库中的所有网页链接进行爬取,爬取过程需要耗费大量的时间和网络资源,同时爬取程序会盲目采集网页链接中的信息或者不知所从;通过更新判断步骤,定期轮询判断更新步骤比爬取过程更加简单快速,使爬取程序能够更快地获取网页链接中所更新的信息,提高爬取速率,节约时间和网络资源。
[0049]
网页类型包括新闻性网站和内容型网站;本实施例中根据不同的网站类型,采用的判断依据具体如下:若为新闻性网站,根据是否有新增链接决定是否更新;若为内容性网站,根据发布时间、评论时间以及网站的数据指纹决定是否更新,其中数据指纹表示网页链接或者文章内容的唯一性标识,一般是网页链接或者文章内容通过哈希算法之后获得。具体地,新闻性网站主要指经常动态增加网页链接的网站,如公司官网、新闻网站;内容性网站主要指互动性比较强的一些问答网站,比如知乎、天涯以及其它一些论坛网站。
[0050]
如附图4所示,本发明还公开了一种知识图谱构建系统,在执行过程中使用了上述的一种知识图谱构建方法;该系统包括输入模块、提取模块、计算模块和迭代模块;
[0051]
提取模块用于提取网页库中网页链接的实体词组和关键字,并过滤获得过滤实体;提取模块还用于根据配对概率从过滤实体中提取关键实体;
[0052]
计算模块还用于计算一元语法的出现概率、二元语法的出现概率和配对概率;
[0053]
计算模块还用于计算关键实体中各名词短语的特征词向量,分析获得该名词短语的属性;
[0054]
输入模块用于根据名词短语的属性设置正则表达式;
[0055]
迭代模块用于根据自举法以关键实体中的单个实体为中心进行迭代并提取单个实体的关系内容组成知识图谱。
[0056]
输入模块还用于输入需要创建知识图谱的产业信息和设定阈值;
[0057]
还包括存储模块、分析模块和判断模块;
[0058]
存储模块用于存储各产业信息对应的网页库;
[0059]
分析模块用于获取新的链接站点并获取元素信息,分析元素信息与产业信息的相关性;
[0060]
判断模块用于判断链接站点的相关性若大于设定阈值,则将该链接站点加入网页库;判断链接站点的相关性若小于设定阈值,则舍弃该链接站点。
[0061]
存储模块还用于爬取首次存入网页库的网页链接的文章内容并进行存储;
[0062]
本实施例中,分析模块包括相关性分析模块和定向采集模块,相关性分析模块用于获取新的链接站点并获取元素信息,分析元素信息与产业信息的相关性,定向采集模块用于指定数据需求,并根据数据需求定向采集某一主题的链接站点,通过深度及广度优先算法筛选出符合数据需求的链接站点。
[0063]
判断模块还用于获取网页库的网页链接的文章内容,判断文章内容中若有外部链接,则将外部链接发送至计算模块进行相关性计算;
[0064]
还包括更新模块;更新模块用于对网页库中的网页链接进行轮询判断该网页链接是否更新;本实施例中,当更新模块判断网页库中有网页链接已更新时,通知提取模块进行提取动作,通知方法可采用socket通信和用公共数据结构投递等方法
[0065]
提取模块用于提取网页库中已更新的网页链接的实体词组和关键字。
[0066]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0067]
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
技术特征:
1.一种知识图谱构建方法,其特征在于,包括以下步骤:提取网页链接中的实体词组和关键字,根据关键字对实体词组进行过滤获得过滤实体;获取过滤实体中的名词短语,计算名词短语的一元语法的出现概率和二元语法的出现概率;根据一元语法的出现概率和二元语法的出现概率获取名词短语的配对概率;根据配对概率对过滤实体中的名词短语进行筛选获得关键实体;计算关键实体中各名词短语的特征词向量,根据特征词向量对名词短语进行聚类分析获得该名词短语的属性,设置各个属性的正则表达式;根据自举法以关键实体中的单个实体为中心进行迭代,分别提取每个实体的关系内容组成知识图谱。2.如权利要求1所述的一种知识图谱构建方法,其特征在于,计算名词短语的一元语法的出现概率和二元语法的出现概率的步骤具体为:根据一元公式计算名词短语的一元语法的出现概率,根据二元公式计算名词短语的二元语法的出现概率;一元公式如下:二元公式如下:其中,p
a
(w
i
)表示一元语法的出现概率,p
b
(w
i
)表示二次语法的出现概率,w
i
表示过滤实体中第i个名词短语,n表示名词短语在网页连接中出现的次数;n表示过滤实体中的名词短语总数,m∈n。3.如权利要求1或2所述的一种知识图谱构建方法,其特征在于,名词短语的配对概率的计算过程如下:p=λ1p
a
+λ2p
b
其中,p表示配对概率,λ1表示一元语法的权重,p
a
表示一元语法的出现频率,λ2表示二元语法的权重,p
b
表示二元语法的出现频率。4.如权利要求1或2所述的一种知识图谱构建方法,其特征在于,提取网页链接中的实体词组和关键字的步骤之前还包括网页库的生成步骤;提取网页链接中的实体词组和关键字的步骤具体为:获取网页库中的网页链接,提取网页链接的实体词组和关键字;网页库的生成步骤包括:步骤s1:指定需要创建知识图谱的产业信息,创建该产业信息的网页库;步骤s2:获取新的链接站点,根据爬取程序获取链接站点的元素信息,计算元素信息与产业信息的相关性,若链接站点的相关性小于设定阈值,则舍弃该链接站点;若链接站点的相关性大于设定阈值,则执行步骤s3;步骤s3:将该链接站点加入网页库。5.如权利要求4所述的一种知识图谱构建方法,其特征在于,步骤s3还包括:爬取并存
储该链接站点中的文章内容,分析文章内容中是否有外部链接,若有外部链接,将外部链接作为新的链接站点放入步骤s2中。6.如权利要求5所述的一种知识图谱构建方法,其特征在于,提取网页链接中的实体词组和关键字的步骤之前还包括网页链接更新判断步骤;提取网页链接中的实体词组和关键字的步骤具体为:获取网页库中的已更新的网页链接,提取网页链接的实体词组和关键字;网页链接更新判断步骤具体为:通过轮询对网页库中的网页链接进行轮询,根据存储的该网页链接的文章内容、该网页链接的网页类型和判断依据判断该网页链接是否更新。7.如权利要求6所述的一种知识图谱构建方法,其特征在于,网页类型包括新闻性网站和内容型网站;新闻性网站的判断依据包括文章内容中是否具有新增链接;内容型网站包括最新发布时间、评论时间和数据指纹。8.一种知识图谱构建系统,其特征在于,在执行过程中使用了权利要求1所述的一种知识图谱构建方法;该系统包括输入模块、提取模块、计算模块和迭代模块;提取模块用于提取网页库中网页链接的实体词组和关键字,并过滤获得过滤实体;计算模块还用于计算一元语法的出现概率、二元语法的出现概率和配对概率;提取模块还用于根据配对概率从过滤实体中提取关键实体;计算模块还用于计算关键实体中各名词短语的特征词向量,分析获得该名词短语的属性;输入模块用于根据名词短语的属性设置正则表达式;迭代模块用于根据自举法以关键实体中的单个实体为中心进行迭代并提取单个实体的关系内容组成知识图谱。9.如权利要求8所述的一种知识图谱构建方法,其特征在于,输入模块还用于输入需要创建知识图谱的产业信息和设定阈值;还包括存储模块、分析模块和判断模块;存储模块用于存储各产业信息对应的网页库;分析模块用于获取新的链接站点并获取元素信息;计算模块还用于计算链接站点的元素信息与产业信息的相关性;判断模块用于判断链接站点的相关性若大于设定阈值,则将该链接站点加入网页库;判断链接站点的相关性若小于设定阈值,则舍弃该链接站点。10.如权利要求9所述的一种知识图谱构建方法,其特征在于,存储模块还用于爬取首次存入网页库的网页链接的文章内容并进行存储;判断模块还用于获取网页库的网页链接的文章内容,判断文章内容中若有外部链接,则将外部链接发送至计算模块进行相关性计算;还包括更新模块;更新模块用于对网页库中的网页链接进行轮询判断该网页链接是否更新;提取模块用于提取网页库中已更新的网页链接的实体词组和关键字。
技术总结
本发明提供了一种知识图谱构建方法,包括:提取网页链接中的实体词组和关键字,根据关键字对实体词组进行过滤获得过滤实体;获取过滤实体中的名词短语,计算名词短语的一元语法的出现概率和二元语法的出现概率;根据一元语法、二元语法的出现概率获取名词短语的配对概率;根据配对概率对过滤实体中的名词短语进行筛选获得关键实体;计算关键实体中各名词短语的特征词向量,根据特征词向量对名词短语进行聚类分析获得该名词短语的属性,设置各个属性的正则表达式;根据自举法以关键实体中的单个实体为中心进行迭代,分别提取每个实体的关系内容组成知识图谱。本发明能够在提取包括多个实体的内容,获取实体之间的属性时,提高提取准确率。取准确率。取准确率。
技术研发人员:朱楠
受保护的技术使用者:深圳宏鹏数字供应链管理有限公司
技术研发日:2023.03.23
技术公布日:2023/7/12
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
