用于将数量事实添加到知识库的设备和计算机实现的方法与流程
未命名
08-25
阅读:125
评论:0
1.本发明涉及一种用于将数量事实添加到知识库的设备和计算机实现的方法。
背景技术:
2.ho,v.t.,ibrahim,y.,pal,k.,berberich,k.,weikum,g.:qsearch:answering quantity queries from text(载于the semantic web-iswc 2019-18th international semantic web conference,auckland,new zealand,october 26-30,2019,proceedings,part i.lecture notes in computer science,vol.11778.springer(2019))公开了在文本数据中检测具有单位的数值表达式。
3.qsearch提供了一种用于回答数量-过滤查询的方法,诸如“高于100m的建筑”,并且也可以针对从大量文档集合中提取数量事实而进行调整。然而,仅qsearch作为对数量-过滤查询的响应而产生的排名靠前的事实具有高精度。除了排名靠前的事实之外,它的精度因设计而下降。
技术实现要素:
4.根据独立权利要求1的计算机实现的方法实现了具有高精度和高召回率二者的数量事实的提取,以便利用数量事实填充高质量知识库中的特定空隙的目的。
5.用于将数量事实添加到知识库、特别是知识图的计算机实现的方法包括:提供知识库,提供文本资源,从知识库提供实体,从知识库提供关系,提供不同单位集,取决于实体、关系和不同单位集确定包括文本资源内在不同单位集内的单位的数量,确定包括实体、关系、数量和单位的数量事实,以及将数量事实添加到知识库。
6.确定事实的数量的数值表示可以包括:确定数量包括:取决于单位找到包括至少一个数量的文本资源区段;确定该区段内的单位的上下文;确定多个元组,其中多个元组中的每个元组包括实体、至少一个数量之一、单位和上下文;以及取决于上下文从多个元组中的一个元组中选择数量。上下文提供了附加信息,例如用于对元组针对彼此排名。
7.该方法可以包括提供针对多个元组中的每个元组的引用,确定多个元组中的至少一个元组与针对该元组的引用的相似性,从多个元组中选择元组,所述元组包括与其引用比多个元组中的至少一个其他元组中的上下文与其引用更相似的上下文。该引用表示目标查询。上下文与引用越相似,用于确定数量事实的元组与查询的匹配就越好。
8.提供针对每个元组的引用可以包括提供用于知识库的引用谓语域,从知识库提供引用实体,以及从单位集提供引用单位集。这些引用改进了查询。
9.确定相似性可以包括确定至少一个元组的实体的数值表示是否被引用谓语的数值表示映射到在到引用实体的数值表示的预定距离内的数值表示,以及确定至少一个元组的单位是否在引用单位集内,以及确定从多个元组中的至少一个元组到针对多个元组中的至少一个元组的引用的上下文之间的相似性,因为该至少一个元组的实体的数值表示被引用谓语的数值表示映射到在到引用实体的数值表示的预定距离内的数值表示,并且因为该
至少一个元组的单位在引用单位集内。数值表示表示嵌入空间中的实体和引用。这减少了填充知识库所需的计算资源,因为如果距离与嵌入空间中的查询太远,则不考虑元组。
10.提供针对每个元组的引用可以包括针对多个元组中的一个元组确定与该元组中的上下文比与多个元组中的至少一个其他元组中的上下文更相似的引用。上下文可能是单词袋。查询可以表示几个不同的单词袋,每个单词袋表示一个谓语。表示最相似谓语的单词袋被选择为引用。
11.该方法可以包括针对多个元组中的至少一个元组取决于与其引用的相似性来确定第一评分,其中第一评分指示该至少一个元组可选择用于确定数量事实的置信度,以及当第一评分指示该至少一个元组可选择用于确定数量事实的置信度高于第一阈值时,将该至少一个元组添加到元组的组,其中确定数量事实包括从元组的组中选择元组。这减少了填充知识库所需的计算资源,因为如果置信度太低,则不考虑元组。
12.该方法可以包括如果第一评分指示至少一个元组可选择为事实的置信度低于第二阈值,则该方法包括确定多个元组中不在候选事实的数值表示集中并且具有与候选事实集的元组相同的实体的元组,取决于多个元组中的该元组中的数量和候选事实的数值表示集中的该元组中的数量来确定相似性,如果相似性大于第四阈值,则选择多个元组中的该元组中的上下文作为针对另一引用的候选。这减少了填充知识库所需的计算资源,因为如果似然性太低,则不考虑元组。
13.该方法可以包括,如果第一评分指示至少一个元组可选择为事实的置信度低于第二阈值,则该方法包括确定多个元组中不在候选事实的数值表示集中并且具有与候选事实的数值表示集的元组相同的实体数值表示的元组,取决于多个元组中的该元组中的数量的数值表示和候选事实的数值表示集中的该元组中的数量的数值表示来确定相似性,如果相似性大于第四阈值,则选择多个元组中的该元组中的上下文的数值表示作为针对另一引用的候选。
14.该方法可以包括取决于至少一个元组中的数量的归一化来确定相似性,其中取决于这些元组中的一个和/或这些元组中的二者中的单位来确定归一化。这样,相同数量的不同单位具有可比性。这允许更高效地将数量事实添加到知识库。
15.根据另一独立权利要求的设备使能以高精度和高召回率二者提取数量事实,以便利用数量事实填充在高质量知识库中的特定空隙。用于填充知识库、特别是知识图的设备包括至少一个处理器和至少一个存储器,其中至少一个存储器能够存储知识库嵌入和文本资源的数值表示,并且包括指令,所述指令当由至少一个处理器执行时,使得设备利用计算机实现的方法将事实添加到知识库嵌入。
16.用于该目的的计算机程序包括计算机可读指令,所述计算机可读指令当由计算机执行时,使得计算机执行所述方法。
附图说明
17.从下面的描述和附图中可得出另外的实施例。在附图中:
18.图1示意性地描绘了用于填充知识库的设备,
19.图2描绘了用于填充知识库的方法中的步骤,
20.图3描绘了用于填充知识库的方法中的另外步骤。
具体实施方式
21.图1示意性地描绘了用于填充知识库的设备100。知识库包括例如知识图。
22.设备100包括至少一个处理器102和至少一个存储器104。
23.该示例中的至少一个存储器104存储表示知识库的知识库106和文本资源108。
24.至少一个存储器104包括指令110,指令110当由至少一个处理器102执行时,使得设备100利用将在下面描述的计算机实现的方法将数量事实添加到知识库106。
25.当指令110由至少一个处理器102执行时,示例中的指令110使得设备100确定知识图。
26.知识图表示事实信息(即事实)的相互链接的集合。在该示例中事实被编码为三元组。该示例中的三元组包括几个元素。
27.该示例中的知识图被配置为包括事实,该事实包括实体、关系和宾语。这些事实例如是<主语;谓语;宾语》的三元组或列表。
28.在该示例中,在事实中,主语和宾语是知识图的实体,并且谓语是知识图中这些实体之间的关系。
29.该示例中的知识图被配置为包括数量事实,该数量事实包括实体、关系、数量和单位。在一个示例中,数量事实以<主语;谓语;数量:单位》的形式。在示例中,在数量事实中,主语是知识图的实体,谓语是实体与数量和单位之间的关系。
30.在一个示例中,数量事实是实体、关系和数量的三元组或列表,其中数量具有值和单位。数量事实例如是<主语;谓语;宾语》的三元组,该三元组包括其宾语中的数量和单位。在一个示例中,数量事实是实体、关系、值和单位的元组或列表。
31.下面参考图2描述了用于填充知识库106的计算机实现的方法。
32.在该方法的描述中,在一些示例中使用单词、数字和单位缩写来描述该方法的原理。在该方法中,这些单词、数字和/或缩写由其字母数值或数值表示来表示,例如嵌入在嵌入空间或唯一标识符中。
33.对该方法的输入在该示例中是给定的知识库106。该示例是针对给定的知识图、将充当要从文本资源108中提取的数量事实的主语的实体集、可以从知识库106中采样或由用户作为输入给出的感兴趣的关系以及相关性单位集来描述的。
34.该方法从大规模文本中提取数量事实,其输出可以直接添加到知识库106。
35.例如,给定材料名称集(例如水;氯)、感兴趣的关系(例如,具有黏性)和感兴趣的单位(例如毫帕斯卡每秒),该方法从大科学文献和/或出版物集合提取描述材料的黏性性质的事实。例如,该方法的输出包括三元组《水;具有_黏性;1∶0016∶mlpsi》。
36.在下文中,将针对包括三元组的知识图来描述该方法,该三元组提供关于如下各项的信息:表示作为主语的建筑的实体的类型,其中“类型”关系作为对于表示作为宾语的类型“建筑”的实体的三元组谓语,以及表示建筑的实体的地理位置,其中“位于_中”关系作为对于表示地理位置的宾语的谓语:
37.《埃菲尔铁塔;位于_中;巴黎》
38.《埃菲尔铁塔;类型;建筑》
39.《悉尼塔;位于_中;悉尼》
40.《悉尼塔;类型;建筑》
41.《哈利法塔;位于_中;巴黎》
42.《哈利法塔;类型;建筑》。
43.这些是三元组中数值表示的知识图的事实。
44.将针对可以用于确定事实的感兴趣的关系“高度”来描述该方法的各方面,即,将表示作为主语的建筑的实体与包括建筑高度的数量和高度的单位的宾语相关联的三元组。将针对可以用于确定事实的感兴趣的关系“成本”来描述该方法的各方面,即,将表示作为主语的建筑的实体与包括建筑的成本数量和提供成本的货币单位的宾语相关联的三元组。在该示例中,感兴趣的关系被数值表示为与知识库106的事实中的谓语相同维度的张量、特别是向量。
45.将利用表示关于建筑的知识的文本资源108的数值表示来描述该方法。
46.所描述的方法的输出例如是事实《埃菲尔铁塔;高度;1063:英尺》或事实《埃菲尔铁塔;成本;1500000:$>的数值表示。
47.该方法在迭代中执行。
48.该方法包括步骤202。
49.步骤202包括提供知识库106。在该示例中,知识库106包括事实、特别是知识图的事实。
50.在第一次迭代中,事实被给予知识库106的事实。在下面的迭代中,知识库106包括利用如下面将描述的方法确定的数量事实。
51.该方法包括步骤204。
52.步骤204包括提供文本资源108。文本资源108是大规模的文本(例如文本语料库),其包括关于建筑的信息。在迭代中可以使用相同的文本资源108。不同的文本资源也可以在不同的迭代中使用。
53.该方法包括步骤206。
54.步骤206包括从知识库106提供实体。在迭代中可以选择相同的实体。也可以在不同的迭代中选择不同的实体。
55.示例中的实体是表示主语的实体,例如埃菲尔铁塔、悉尼塔、哈利法塔。
56.该方法包括步骤208。
57.步骤208包括从知识库106提供感兴趣的关系。可以在迭代中选择相同的感兴趣的关系。也可以在不同的迭代中选择不同的感兴趣的关系。
58.在一个示例中,感兴趣的关系是“高度”。在一个示例中,感兴趣的关系是“成本”。可以取而代之使用知识库106中可用的任何其他感兴趣的关系。
59.该方法包括步骤210。
60.步骤210包括提供不同单位集。
61.在一个示例中,高度的不同单位由例如{米,英尺}或{m,ft}之类的集表示。在一个示例中,成本的不同货币单位由例如{美元,欧元}或之类的集表示。
62.可以取而代之使用知识库106中可用的感兴趣的关系的任何其他单位。
63.该方法包括步骤212。
64.步骤212包括确定包括在文本资源108内的不同单位集内的单位的数量。这些取决于实体、关系和不同单位集来确定。
65.在步骤212中,该方法从文本资源108中提取至少一个数量。
66.在一个示例中确定数量的步骤212包括另外的步骤212-1,...,212-19,这些在下面参考图3进行描述。
67.之后,执行步骤214。
68.步骤214包括确定包括实体、关系、数量和单位的数量事实。
69.在步骤214中,该方法确定用于添加到知识库106的数量事实。
70.在一个示例中,确定数量事实包括从元组的组中选择元组。在下面描述了确定元组的组。
71.在一个示例中,确定数量事实包括从候选事实集中选择元组。在下面描述了确定候选事实。
72.在一个示例中,该方法包括选择在元组的组中的元组次序中或在候选事实集中具有最高排名的元组。
73.之后,执行步骤216。
74.步骤216包括将数量事实添加到知识库。
75.之后,该方法可以继续步骤202或结束。
76.参考图3描述另外的步骤。
77.另外的步骤可以在迭代中执行。
78.步骤212-1包括找到包括该数量的文本资源108的至少一个区段。例如,取决于单位搜索并且找到该区段。在一个示例中,在文本资源108中搜索该单位,并且找到的区段包括该单位或者包括针对该数量的单位。
79.在一个示例中,步骤212-1包括通过如下预处理文本资源108来确定文本资源108的预处理嵌入:
80.利用例如在以下文献中所描述的open ie来处理文本资源108、例如文本语料库:
81.saha,s.,mausam:open information extraction from conjunctive sentences.(载于bender,e.m.,derczynski,l.,isabelle,p.(eds.)proceedings of the 27th international conference on computational linguistics,coling 2018,santa fe,new mexico,usa,august 20-26,2018.pp.2288-2299.association for computational linguistics(2018),https://www.aclweb.org/anthology/c18-1194/)。
82.saha,s.,pal,h.,mausam:bootstrapping for numerical open ie(载于proceedings of the 55th annual meeting of the association for computational linguistics,acl 2017,vancouver,canada,july 30-august 4,volume 2:short papers(2017))。
83.针对实体链接来识别命名实体并使其消除歧义,例如,如在以下文献中描述的:
84.hoffart,j.,yosef,m.a.,bordino,i.,f
ü
rstenau,h.,pinkal,m.,spaniol,m.,taneva,b.,thater,s.,weikum,g.:robust disambiguation of named entities in text.(载于proceedings of the 2011conference on empirical methods in natural language processing,emnlp 2011,27-31july 2011,john mcintyre conference centre,edinburgh,uk,a meeting of sigdat,a special interest group of the acl(2011))。
85.针对共指关系解决来识别命名实体并使其消除歧义,例如,如在以下文献中描述的:
86.lee,k.,he,l.,zettlemoyer,l.:higher-order coreference resolution with coarse-to-fine inference.(载于walker,m.a.,ji,h.,stent,a.(eds.)proceedings of the 2018conference of the north american chapter of the association for computational linguistics:human language technologies,naacl-hlt,new orleans,louisiana,usa,june 1-6,2018,volume 2(short papers).pp.687-692.association for computational linguistics(2018),https://doi.org/10.18653/v1/n18-2108)。
87.在该示例中,在文本资源108的预处理嵌入中找到包括该数量的文本资源108的至少一个区段。
88.之后,执行步骤212-2。
89.步骤212-2包括取决于单位的数值表示确定在区段的数值表示内单位的上下文x。
90.之后,执行步骤212-3。
91.步骤212-3包括确定多个元组,每个元组包括实体、数量、单位和上下文x。
92.在一个示例中,步骤212-1的输出在步骤212-2和212-3中被铸造成表示qsearch之后的qfact的元组。
93.qfact是f=(e,q,x)形式的元组,其中e是知识库106的实体,q包括来自知识库106的数量(即数值)以及该数量的单位。上下文x以提示词集的形式捕获上下文,所述提示词集为理解实体e和数量q之间的关系提供信息。在该方法中,处理qfact的数值表示,其包括实体e、数量q(即值和单位)以及上下文x。
94.示例1:
95.给定文本片段“埃菲尔铁塔是1063ft高,并且构造起来成本大约$150万。”,其具有消除歧义的实体:“埃菲尔铁塔
”→
《埃菲尔铁塔》和数量:“1063ft
”→
《1063英尺》和“$150万
”→
《1500000,$》;open ie生成两个元组《埃菲尔铁塔;是;1063ft高》和《埃菲尔铁塔;成本;大约$150万;构造起来》。将它们与实体和数量进行映射,并丢弃所有停用词,该方法获得:
96.f1:e=《埃菲尔铁塔》;q=(1062,英尺);x=“高
97.f2:e=《埃菲尔铁塔》;q=(1500000,$);x=“成本构造”。
98.在一个示例中,该方法从多个元组中收集候选元组集,称为候选qfact。如下所述,这些候选元组可选地通过以谓语为目标的查询进行过滤和排名。在一个示例中,取决于知识库106的模式,针对作为谓语的感兴趣的关系(例如“高度”)生成以谓语为目标的查询。
99.例如,以谓语为目标的查询p是元组t(p)=(pu,pu,px),其中
100.pd是来自知识库106的模式的谓语域,例如建筑,
101.pu是用于谓语值的可能单位集,例如米、英尺,
102.px={px0,px1,...}是查询上下文,在示例中是多重集,其中每个pxi是表达一个谓语p的上下文的单词袋,例如“高度”、“高大耸立”。
103.在该方法中,处理以谓语为目标的查询,其包括谓语域pd、可能单位集pu和多重集px。
104.为此,该方法可以包括可选步骤212-4。
105.步骤212-4包括提供针对多个元组中的至少一个元组的引用。
106.提供针对至少一个元组的引用pxi可以包括提供针对知识库106的引用谓语域pd。
107.提供针对至少一个元组的引用pxi可以包括从知识库106提供引用实体e。
108.提供针对至少一个元组的引用pxi可以包括从该单位集提供引用单位集pu。
109.提供引用pxi可以包括针对多个元组中的至少一个元组确定引用pxi,该引用pxi与该元组中的上下文x比与多个元组中的至少一个其他元组中的上下文更相似。
110.在示例中,引用pxi是单词袋。
111.在初始迭代i=0中,初始目标查询t0(p)可以利用固定域pd、从知识库106的模式取得的单位pu以及仅包括px={px0}的上下文来构造,其中px0是知识库106中谓语的标签,例如表示感兴趣的关系的“高度”。在另外的迭代中,可以如下所述确定目标查询ti(p)。
112.之后,执行步骤212-5。
113.步骤212-5包括确定多个元组中的至少一个元组与针对多个元组中的至少一个元组的引用pxi的相似性。这意味着确定候选qfact集中的至少一个qfact与其引用的相似性。
114.确定相似性可以包括确定多个元组中的至少一个元组中的上下文与引用pxi的相似性。相似性表示qfact与其引用的语义相关性。
115.可以针对多个元组中的元组确定相似性。如在该示例中,仅当至少一个元组的实体的数值表示被引用谓语的数值表示映射到在到引用实体的数值表示的预定距离内的数值表示并且仅当至少一个元组的单位在引用单位集内,才可以针对多个元组中的至少一个元组确定相似性。这些数值表示可以在嵌入空间中。例如,基于上下文化的bert嵌入的上下文嵌入距离可以如针对qsearch所描述的那样被确定。
116.之后,执行步骤212-6。
117.步骤212-6包括取决于到其引用pxi的距离来确定针对多个元组中的至少一个元组的第一评分,其中该评分指示该元组可选择用于确定数量事实的置信度。
118.一个示例中的第一评分是如下根据关于目标查询ti(p)=(pd,pu,px)的qfact f=(e,q,x)确定的:
[0119][0120]
其中
[0121]
sim标示两个单词袋之间的语义相似性。虽然存在sim选择的各种选项,但是在该示例中,根据qsearch的上下文嵌入距离是基于上下文化的bert嵌入来使用的,并且
[0122]
rel标示基于所有qfact的上下文x和查询pxi中的最佳匹配上下文之间的语义嵌入距离,对所有qfact进行排名的相关性评分,所有qfact的实体和数量与目标谓语的域和单位相匹配,所述目标谓语即表示感兴趣的关系的谓语。
[0123]
在一个示例中,步骤212-6的输出是元组的排名列表。这意味着qfact的排名列表被确定。在一个示例中,目标查询ti(p)用于依据多个元组中的元组的语义相关性对它们进行排名。这意味着,候选qfact依据其语义相关性来排名。
[0124]
在一个示例中,在步骤212-7中,确定了元组的排名列表中的至少一个元组的第一评分指示该元组可选择用于确定数量事实的置信度是否高于第一阈值。
[0125]
对于具有指示该元组可选择为数量事实的置信度高于第一阈值的第一评分的元
组,执行步骤212-8。
[0126]
在步骤212-7中,确定元组的排名列表中的至少一个元组的第一评分指示该元组可选择用于确定数量事实的置信度是否低于第二阈值。
[0127]
对于具有指示该元组可选择为数量事实的置信度低于第二阈值的第一评分的元组,执行步骤212-9。
[0128]
第一阈值例如是置信度阈值参数γ。在一个示例中,在qfact的排名列表中确定高置信度组h。高置信度组h包括具有评分rel(f,t(p))≥γ的qfact。在一个示例中,在qfact的排名列表中确定低置信度组l。低置信度组l包括具有评分rel(f,t(p))<γ的qfact。
[0129]
为了以有原则的方式设置γ,该方法可以采用具有高斯拟合的深度开放分类(deep open classification,doc)方法,该方法使用来自根据以下文献从维基数据提取的目标谓语的基准真值事实集的远程监督:
[0130]
shu,l.,xu,h.,liu,b.:doc:deep open classification of text documents.(载于proceedings of the 2017 conference on empirical methods in natural language processing,emnlp 2017,copenhagen,denmark,september 9-11,2017.pp.2911-2916(2017))。
[0131]
步骤212-8包括将具有第一评分的至少一个元组添加到元组的组,该第一评分指示该元组可选择用于确定数量事实的置信度高于第一阈值。元组的组表示高置信度组h中的qfact。
[0132]
之后,执行可选步骤212-10。
[0133]
步骤212-10包括针对元组的组中的至少一个元组取决于该元组中的数量确定第二评分,其中第二评分指示该元组可选择为事实的似然性。
[0134]
假设高置信度组h中的大多数qfact可能是正确的,即捕获目标谓语并具有合理的数量值。然而,一小部分仍然可能是虚假的。为了滤除这些,该方法可以包括基于表征高置信度组h的值分布来设计去噪技术。去噪技术和第二评分在下面描述。想法是为了找出可能不正确的异常值,诸如具有1米或5km高度的建筑。这样,该方法消除了许多假肯定。
[0135]
之后,执行步骤212-11。
[0136]
步骤212-11包括确定针对候选事实集的至少一个元组,该元组包括实体、数量、单位和上下文x。候选事实表示用于确定数量事实的qfact候选。
[0137]
步骤212-11包括例如从元组的组中选择元组,并且将该元组添加到候选事实集,或者不将该元组添加到候选事实集。
[0138]
步骤212-11可以包括确定针对从元组的组中选择的元组的第二评分指示该元组可选择为事实的似然性是否高于第三阈值。
[0139]
步骤212-11可以包括如果第二评分指示该元组可选择用于确定数量事实的似然性高于第三阈值,则将该元组添加到候选事实集,并且否则不选择该元组。
[0140]
可以重复步骤212-11,直到添加了至少一个元组或者处理了元组的组中的元组。
[0141]
之后,执行步骤212-12。
[0142]
步骤212-12包括取决于其上下文x从候选事实集中的至少一个元组中选择数量作为针对事实数量的候选,或者不选择。
[0143]
先前的步骤可能例如由于以下各项留下一些不正确或不准确的qfact候选:
[0144]
1)对于相同的实体,不同的数量可以在不同的精度水平下被陈述(例如,302m,ca.300m,多于300m);
[0145]
2)不同的单位可能引起换算之后的偏差(例如1063ft
→
320m);
[0146]
3)文本资源108中的原始文本中的错误陈述;
[0147]
4)时变的值或以其他方式上下文相关的值差异,例如某一年或某一季度或某一销售区域的公司收入。
[0148]
为了解决这些种类的噪声和冲突,该方法可以包括通过时间范围对相同实体-谓语对的qfact进行分组,该时间范围从文本资源108的文本段落或文档时间戳(如果可用的话)中获得,例如对于新闻文章。在这些组的每一个内,该方法可以选择最频繁的值。所得的qfact是针对确定数量事实的候选。
[0149]
步骤212-12可以包括从多个元组中选择至少一个元组,该元组包括与其引用pxi比多个元组中的第二元组中的上下文与其引用更相似的上下文。在该示例中,选择具有与其引用pxi最相似的上下文的元组。在该示例中,该元组是从候选事实集中选择的。
[0150]
在步骤212-9中,该方法重新考虑qfact候选的低置信度组l。该组可能包含一些另外的相关陈述。
[0151]
在一个示例中,步骤212-9包括确定多个元组中与来自高置信度组h的至少一个元组具有相同实体的元组。
[0152]
步骤212-9可以包括取决于表示来自低置信度组l的qfact的至少一个元组中的数量和表示高置信度组h的qfact的至少一个元组中的数量来确定相似性。
[0153]
该过程基于其与表示来自高置信度组h的qfact的至少一个元组的相似性来检测低置信度组l中的肯定实例。
[0154]
步骤212-9可以包括取决于至少一个元组中的数量的归一化来确定相似性。在一个示例中,取决于元组之一中的单位来确定归一化。在一个示例中,取决于这两个元组中的单位来确定归一化。
[0155]
步骤212-9可以包括归一化数量,例如如以下文献中描述的:roy,s.,vieira,t.,roth,d.:reasoning about quantities in natural language.transactions of the association for computational linguistics 3(2015)。
[0156]
之后,执行步骤212-13。
[0157]
步骤212-13包括如果相似性大于第四阈值,则选择上下文x作为针对另一引用pxi的候选。
[0158]
这自动地利用附加的相关短语扩展谓语上下文px。下面描述了利用附加的相关短语自动扩展谓语上下文px。
[0159]
示例2
[0160]
如果利用该方法将(埃菲尔铁塔,高度,324m)添加到知识库106,并且(埃菲尔铁塔,324m,“高大耸立”)是来自低置信度组l的qfact,则上述查询扩展机制收集令牌“高大耸立”作为目标谓语“高度”的释义。初始目标查询t0(p)通过将px设置为px∪{“高大耸立”}来扩展,这产生具有该更新的上下文的t1(p)。
[0161]
例如,重复这些步骤209和212-13,直到满足停止标准。停止标准可以是查询不能进一步扩展。停止标准可以是达到最大迭代次数k。在一个示例中,使用了k=10次迭代。
[0162]
对于去噪,例如在步骤212-10中的去噪技术特别地包括归一化所有数量值。例如,归一化包括将数量值转换成相同的标准单位,例如,针对高度为米。例如,归一化包括将qfact与它们小于阈值的归一化值之间的差异相组合。
[0163]
该阈值例如是百分之5。该差异例如被确定为该数量与相同主语的数量的中值的相对差异,例如,对于表示埃菲尔铁塔的主语,取得像300、302和310米之类的值的中值。
[0164]
在一个示例中,归一化的数量值选自qfact的高置信度组h。在这种情况下,去噪具有基于数量值的分布从高置信度组h中滤除噪声值的目标。在这个方面,该方法可以包括如果从高置信度组h中移除了某个数量值,则确定分布的改变。
[0165]
该方法可以包括针对每个值v∈h确定两个似然性评分:原始似然性评分o_score和一致性似然性评分c_score。
[0166]
o_score是从分布中生成的值v的似然性,该分布从高置信度组h中包括值v的完整数量值集构造。
[0167]
c_score是从多个分布中确定的,所述多个分布从高置信度组h的排除该值v的随机子集构造。
[0168]
c_score例如基于一致性学习技术来确定。例如,在j.yagnik和a.islam的“learning people annotation from the web via consistency learning”(载于proceedings of the 9th acm sigmm international workshop on multimedia information retrieval,mir 2007,augsburg,bavaria,germany,september 24-29,2007,2007)中描述一致性学习。
[0169]
在该示例中,如果该值v的noise_score相差大于阈值μ的量,则该值v被认为是噪声。在该示例中,例如如下取决于o_score和c_score之间的差异来确定noise_score:
[0170][0171]
在该示例中,高置信度组h中具有小于μ的noise_score的所有qfact被滤除。在该上下文中滤除指的是不将这些qfact视为候选事实集中的元组。
[0172]
例如,使用例如核密度估计取决于来自高置信度组h的分布f来确定o_score,其中f是概率密度函数:
[0173][0174]
其中带宽参数为b,并且其中φ是核函数。在该示例中,使用高斯核。例如高斯核被定义为
[0175][0176]
带宽b例如利用用于最佳带宽的自动选择的改进的sheather jones方法来确定。该带宽可以如在z.i.botev,j.f.grotowski,d.p.kroese等人的“kernel density estimation via diffusion”(the annals of statistics,38(5):2916-2957,2010)中描述的那样来确定。
[0177]
在一个示例中,值vεh的o_score是:
[0178][0179]
这意味着,值v作为f在其密度不大于f(v)的所有值之上的积分的似然性。在一个示例中,由于核密度估计可能具有多个局部极值,因此该方法包括利用具有分段的辛普森规则来近似该积分。
[0180]
在一个示例中,确定c_score包括从高置信度组h中随机采样值的小探针集(例如高置信度组h的10%),并使用高置信度组h的剩余值来构造分布。然后,构造的分布用于测量探针集中值的似然性评分。这种采样和交叉验证过程在大量的采样迭代中重复。例如,值v的c_score被计算为平均预测似然性,其在v在探针集中的所有情况下被聚集。
[0181]
在每次采样迭代处,针对c_score的分布构造和值似然性推断如针对o_score所描述的那样确定。仅有的差异是,当计算o_score还用于从高置信度组h的样本子集构造分布时,最佳带宽值b是从h构造的。
[0182]
这种添加的噪声仅改变由样本定义的分布形状,但不改变其由带宽b定义的平滑度。
[0183]
一个示例中的去噪输出肯定结果h+。通过从高置信度组h中移除所有有噪声的qfact,即具有高noise_score≥μ的所有qfact,来确定肯定结果h+。在一个示例中,μ是0.3。在一个示例中,肯定结果h+被认为是添加到知识库的元组的组,并且随后如上所述进行处理。
[0184]
一个示例中的去噪输出来自肯定结果h+的分布f的估计。分布f的估计可以用于自动扩展具有附加相关短语的谓语上下文px,即查询扩展,如在下一章节中描述的。
[0185]
对利用附加相关短语自动扩展谓语上下文px的输入包括肯定结果h+和低置信度组l中以相关性评分rel(f,t(p))排名低的qfact。
[0186]
该自动扩展的目标是实现上述事实提取过程的更好覆盖。具体地,利用在迭代i处的当前以谓语为目标的查询:ti(p)=(pd,pu,px={px0,...,pxi}),该方法包括学习候选上下文px
′
。该方法进一步包括取决于候选上下文px
′
扩展下一迭代i+1的查询上下文。
[0187]
这种查询扩展技术依赖于数据中的冗余,即在肯定结果h+和低置信度组l二者中存在相同的实体和近似相似的数量。
[0188]
这将利用支持的qfact来描述。如果在肯定结果h+中存在qfact f
′
=(e,q
′
,x
′
)使得q≈q
′
,则来自低置信度组l的给定qfact f=e,q,x)是支持的qfact。这意味着,在转换为相同的标准单位之后,qfact f
′
具有与f相同的实体和近似相同的数量。
[0189]
支持的集supp_set(l,h+)是低置信度组l中所有支持的qfact的集。
[0190]
在一个示例中,高置信度组h包括肯定结果h+={埃菲尔铁塔,324m,“高度”),(哈利法塔,2712ft,“达到的高度”)}。在该示例中,支持以下qfact:
[0191]
f1:e=《埃菲尔铁塔》;q=(1062,英尺);x=“高(high)”[0192]
f1:e=《埃菲尔铁塔》;q=(324,m);x=“高大耸立(stand tall)”[0193]
f2:e=《埃菲尔铁塔》;q=(1062,ft);x=“上升(rise)”[0194]
f3:e=《哈利法塔》;q=(2722,ft);x=“原始高大(originally tall)”[0195]
f4:e=《哈利法塔》;q=(828,m);x=“上升高度(rise height)”)。
[0196]
该示例中不支持的是,例如
[0197]
f5:e=《夏德塔》;q=(1017,ft);x=“高大(tall)”[0198]
f6:e=《悉尼塔》;q=(309,m);x=“高处耸立(stand high)”[0199]
f7:e=《埃菲尔铁塔》;q=(328,ft);x=“基宽(base wide)”。
[0200]
f5和f6的实体e没有出现在肯定结果h+中,而f7的数量偏离太多,即多于阈值。给定来自上文的l={f1,
…
,f7},它的支持集如下:supp-set(l,h+)={f1,f2,f3,f4}。
[0201]
该方法可以包括针对出现在低置信度组l中的每个候选上下文px
′
确定具有该上下文的低置信度组l中的多个陈述,所述陈述重述了来自高置信度组h中的肯定结果h+的事实。
[0202]
对于给定的候选上下文px
′
,它的支持是其上下文包括px
′
的l的支持集中的多个qfact:
[0203][0204]
在一个示例中,对于如上所述的f1,...,f7以及高置信度组和低置信度组l中的肯定结果h+,该方法例如确定:
[0205]
supp(
″
stand
″
,l,h+|{f1}|=1,
[0206]
supp(
″
tall
″
,l,h+|{f1,f3}|=2,
[0207]
supp(
″
rise
″
,l,h+|{f2,f4}|=2。
[0208][0209]
候选上下文px
′
不限于单个令牌,例如单词。候选上下文px
′
可以包括多于一个令牌。例如,对于包括两个令牌“上升高度”的候选上下文px
′
,它认为supp(
″
rise height
″
,l,h+)=|{f4}|=1。
[0210]
在一个示例中,例如通过由该方法处理的候选上下文px
″
之中的最高支持值来使支持归一化。候选上下文px
′
的对应相对支持是:
[0211][0212]
在一个示例中,高支持不足以使候选上下文px
′
成为原始谓语p的释义或细化。
[0213]
在一个示例中,通过确定逆文档频率并将它们的逆文档频率与阈值进行比较,滤除也具有高支持的无信息单词,例如“大约”、“期间”、“向上”。阈值例如被设置为大于无信息单词的逆文档频率的值。
[0214]
为了更有效地选择有希望的候选上下文px
′
用于查询扩展,该方法可以包括附加地考虑相应陈述的数量。在一个示例中,确定候选上下文px
′
的扩展集exp_set(px
′
,l),该扩展集包括其上下文包含px
′
的低置信度组l中的qfact:
[0215][0216]
对于如上所述的低置信度组l,这导致
[0217]
exp_set(
″
stand
″
,l)={f1,f6}
[0218]
exp_set(
″
tall
″
,l)={f1,f3,f5}
[0219]
exp_set(
″
rise
″
,l)={f2,f4}。
[0220]
扩展集包括低置信度组中包含px
′
的qfact,而不管它们是否被高置信度组h中的
任何事实支持。如果选择px
′
来扩展查询,则这些qfact是可以添加到高置信度组h的陈述。
[0221]
在一个示例中,扩展集的质量是通过确定其qfact的数量值t、值分布f来确定的。
[0222]
分布置信度例如被确定为由从高置信度组h+的肯定结果h+构造的分布f生成的扩展集中数量值的平均似然性:
[0223][0224]
其中p(f
→
q)是上述的积分函数。
[0225]
因此,用于释义或细化原始谓语p的好的候选上下文应该具有扩展集,其数量遵照引用分布。
[0226]
作为对扩展集的适合性进行评分的第二信号,该方法可以使用其qfact的原始相关性评分。
[0227]
查询置信度q_conf(px
′
l)例如被确定为在给定迭代i处与以谓语为目标的查询ti(p)相关的扩展集中qfact的平均相关性评分:
[0228][0229]
可以根据相对支持、查询置信度和分布置信度中的任何单独一个来对候选上下文px
′
排名。
[0230]
在一个示例中,候选上下文px
′
的适合性,例如expansion_score(px
′
,l,h+),该方法可以包括确定相对支持、查询置信度和分布置信度的加权和:
[0231]
expansion_score(px
′
,l,h+)
[0232]
=w1r_supp(px
′
,l,h+)+w2d_conf(px
′
,l,h+)+w3q_conf(px
′
,l,h+)
[0233]
其中选择或给定权重w1,...,w3。候选上下文px
′
可以根据它们的适合性来排名,所述适合性例如是在这种情况下的expansion_score(px
′
,l,h+)。
[0234]
在示例性方法中,第二评分可以是相对支持、查询置信度和分布置信度中的任何单个一个,或者可以是它们的加权和expansion_score。
技术特征:
1.一种用于将数量事实添加到知识库(106)、特别是知识图的计算机实现的方法,其特征在于提供(202)知识库(106),提供(204)文本资源(108),从知识库(106)提供(206)实体,从知识库(106)提供(208)关系,提供(210)不同单位集,取决于实体、关系和不同单位集确定(212)包括文本资源(108)内的不同单位集内的单位的数量,确定(214)包括实体、关系、数量和单位的数量事实,以及将数量事实添加(216)到知识库(106)。2.根据权利要求1所述的方法,其特征在于,确定(212)所述数量包括取决于单位找到(212-1)包括至少一个数量的文本资源区段,确定(212-2)所述区段内的所述单位的上下文,确定(212-3)多个元组,其中所述多个元组中的每个元组包括所述实体、所述至少一个数量之一、所述单位和所述上下文,以及取决于所述上下文从所述多个元组中的一个元组中选择(212-7)所述数量。3.根据权利要求2所述的方法,其特征在于,提供(212-4)针对所述多个元组中的每个元组的引用,确定(212-5)所述多个元组中的至少一个元组与针对该元组的引用的相似性,从所述多个元组中选择(212-7)元组,所述元组包括与其引用比所述多个元组中的至少一个其他元组中的上下文与其引用更相似的上下文。4.根据权利要求3所述的方法,其特征在于,提供(212-4)针对每个元组的引用包括提供用于知识库(106)的引用谓语域,从知识库(106)提供引用实体,以及从单位集提供引用单位集。5.根据权利要求4所述的方法,其特征在于,确定(212-5)所述相似性包括确定所述至少一个元组的实体的数值表示是否被所述引用谓语的数值表示映射到在到引用实体的数值表示的预定距离内的数值表示,以及确定所述至少一个元组的单位是否在引用单位集内,以及确定从所述多个元组中的至少一个元组到针对所述多个元组中的至少一个元组的引用的上下文之间的相似性,因为该至少一个元组的实体的数值表示被引用谓语的数值表示映射到在到引用实体的数值表示的预定距离内的数值表示,并且因为该至少一个元组的单位在引用单位集内。6.根据权利要求3至5所述的方法,其特征在于,提供(212-4)针对每个元组的引用包括针对所述多个元组中的一个元组确定与该元组中的上下文比与所述多个元组中的至少一个其他元组中的上下文更相似的引用。7.根据权利要求3至6中的一项所述的方法,其特征在于,针对所述多个元组中的至少一个元组取决于与其引用的相似性来确定(212-6)第一评分,其中,第一评分指示该至少一个元组可选择用于确定数量事实的置信度,以及当第一评分指示该至少一个元组可选择用于确定数量事实的置信度高于第一阈值(212-7)时,将该至少一个元组添加(212-8)到元组的组,其中确定(214)数量事实包括从元组的组中选择元组。8.根据权利要求7所述的方法,其特征在于,针对元组的组中的元组取决于该元组中的数量来确定(212-10)第二评分,其中第二评分指示该元组可选择用于确定数量事实的似然性,以及如果第二评分指示该元组可选择用于确定数量事实的似然性高于第三阈值,则将该元组添加(212-11)到候选事实集,或者否则不将该元组添加到候选事实集,其中确定(214)事实包括从候选事实集中选择元组。9.根据权利要求8所述的方法,其特征在于,如果第一评分指示所述至少一个元组可选择为事实的置信度低于第二阈值(212-7),则所述方法包括(212-12)确定所述多个元组中
不在所述候选事实集中并且具有与所述候选事实集的元组相同的实体的元组,取决于所述多个元组中的该元组中的数量和候选事实集中的该元组中的数量来确定相似性,如果相似性大于第四阈值,则选择所述多个元组中的该元组中的上下文作为针对另一引用的候选。10.根据权利要求3至9中的一项所述的方法,其特征在于,取决于至少一个元组中的数量的归一化来确定相似性,其中,取决于这些元组中的一个和/或这些元组中的二者中的单位来确定归一化。11.一种用于填充知识库、特别是知识图的设备(100),其特征在于,所述设备(100)包括至少一个处理器(102)和至少一个存储器(104),其中所述至少一个存储器(104)能够存储知识库(106)和文本资源(108)的嵌入,并且包括指令,所述指令当由所述至少一个处理器(102)执行时,使得所述设备(100)利用根据权利要求1至10中的一项的计算机实现的方法将事实添加到知识库(106)。12.一种计算机程序,其特征在于,所述计算机程序包括计算机可读指令,所述计算机可读指令当由计算机执行时,使得计算机执行根据权利要求1至10中的一项的方法。
技术总结
提供了用于将数量事实添加到知识库的设备和计算机实现的方法。一种用于将数量事实添加到知识库(106)、特别是知识图的设备(100)和计算机实现的方法,其中该方法包括提供(202)知识库(106),提供(204)文本资源(108),从知识库(106)提供(206)实体,从知识库(106)提供(208)关系,提供(210)不同单位集,取决于实体、关系和不同单位集确定(212)包括文本资源(108)内的不同单位集内的单位的数量,确定(214)包括实体、关系、数量和单位的数量事实,以及将数量事实添加(216)到知识库(106)。以及将数量事实添加(216)到知识库(106)。以及将数量事实添加(216)到知识库(106)。
技术研发人员:D
受保护的技术使用者:罗伯特
技术研发日:2023.02.16
技术公布日:2023/8/24
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
