事理溯源图谱构建方法、装置、计算机设备及存储介质与流程

未命名 07-14 阅读:232 评论:0


1.本技术实施例涉及自然语言处理技术领域,特别是涉及一种事理溯源图谱构建方法、装置、计算机设备及存储介质。


背景技术:

2.事件是信息的一种特定的表现形式,事件抽取是自然语言处理中一个重要的研究方向。从自由文本中识别事件的发生并抽取事件的各元素的任务,已成为事理图谱构建的研究难点。
3.其中,事理图谱的构建会事先理解业务场景,定义事件粒度,确定关系类型,其基本流程是:事件抽取、事件对齐、关系链接、可视化等。但目前的图谱构建过程主要有两点难度:一是由于事件定义的高度抽象化,导致事件抽取结果存在一定误差,逐层叠加,直接导致图谱精度不高;二是对于口语化文本,其事件描述通常不能够直接抽取,且因文本噪声严重,其事件抽取多基于生成式的方式构建,但该方式仍存在精度问题和标注难度,也影响着图谱精度。
4.因此,现有的事理图谱构建方法存在着因图谱构建精度不高,而导致事件演化准确率低的技术问题。


技术实现要素:

5.本技术的目的在于提供一种事理溯源图谱构建方法、装置、计算机设备及存储介质,用以构建高精度事理溯源图谱,进而提升事件演化的准确率。
6.第一方面,本技术提供一种事理溯源图谱构建方法,包括:
7.获取待识别文本;
8.将待识别文本输入至已训练的事件关系识别模型,输出待识别文本的事件类型信息和关系类型信息;
9.分析事件类型信息和关系类型信息,以确定待识别文本的识别结果;
10.响应于识别结果为第一识别结果,获取待识别文本的事件权重信息,以根据事件权重信息构建事理溯源图谱。
11.在本技术一些实施例中,已训练的事件关系识别模型包括权重共享网络、相似度模型以及文本语义蕴含模型;其中,将待识别文本输入至已训练的事件关系识别模型,输出待识别文本的事件类型信息和关系类型信息,包括:将待识别文本输入至已训练的事件关系识别模型,通过权重共享网络对待识别文本进行特征提取,得到文本特征值;通过相似度模型,对文本特征值进行事件识别,得到事件类型信息;以及通过文本语义蕴含模型,对文本特征值进行关系识别,得到关系类型信息。
12.在本技术一些实施例中,已训练的事件关系识别模型中预设有目标损失函数;其中,目标损失函数包括第一损失函数、第二损失函数以及预设的经验值;第一损失函数用于供相似度模型分析输出事件类型信息,第二损失函数供文本语义蕴含模型分析输出关系类
型信息;经验值用于叠加至第一损失函数和第二损失函数,得到叠加后的第一损失函数和叠加后的第二损失函数之后,构成目标损失函数。
13.在本技术一些实施例中,在将待识别文本输入至已训练的事件关系识别模型,输出待识别文本的事件类型信息和关系类型信息之前,还包括:构建初始的事件关系识别模型;获取标签数据集,并将标签数据集划分为训练集和测试集,标签数据集中包括多个已标注事件类型和关系类型的事件标签;使用训练集对初始的事件关系识别模型进行初步训练,得到初步训练后的事件关系识别模型;使用测试集对初步训练后的事件关系识别模型进行测试调整,得到已训练的事件关系识别模型。
14.在本技术一些实施例中,分析事件类型信息和关系类型信息,以确定待识别文本的识别结果,包括:将事件类型信息和关系类型信息进行矩阵点乘处理,得到已训练的事件关系识别模型的模型置信度;响应于模型置信度大于预设的经验阈值,确定待识别文本的识别结果为第一识别结果;或者响应于模型置信度小于或等于预设的经验阈值,确定待识别文本的识别结果为第二识别结果。
15.在本技术一些实施例中,响应于识别结果为第一识别结果,获取待识别文本的事件权重信息,以根据事件权重信息构建事理溯源图谱,包括:响应于识别结果为第一识别结果,调用已训练的tf-idf模型;通过已训练的tf-idf模型,对待识别文本进行权重生成,得到事件权重信息;根据事件类型信息、关系类型信息以及事件权重信息,构建事理图谱,得到事理溯源图谱。
16.在本技术一些实施例中,事理溯源图谱构建方法还包括:响应于识别结果为第二识别结果,回传待识别文本至预设的文本输入池中,以迭代更新已训练的事件关系识别模型。
17.第二方面,本技术提供一种事理溯源图谱构建装置,包括:
18.文本获取模块,用于获取待识别文本;
19.文本分析模块,用于将待识别文本输入至已训练的事件关系识别模型,输出待识别文本的事件类型信息和关系类型信息;
20.结果确定模块,用于分析事件类型信息和关系类型信息,以确定待识别文本的识别结果;
21.图谱构建模块,用于响应于识别结果为第一识别结果,获取待识别文本的事件权重信息,以根据事件权重信息构建事理溯源图谱。
22.第三方面,本技术还提供一种计算机设备,包括:
23.一个或多个处理器;
24.存储器;以及一个或多个应用程序,其中的一个或多个应用程序被存储于存储器中,并配置为由处理器执行以实现上述事理溯源图谱构建方法。
25.第四方面,本技术还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器进行加载,以执行事理溯源图谱构建方法中的步骤。
26.第五方面,本技术实施例提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面提供的方法。
27.上述事理溯源图谱构建方法、装置、计算机设备及存储介质,服务器通过获取待识别文本,并将待识别文本输入至已训练的事件关系识别模型,可使模型输出得到待识别文本的事件类型信息和关系类型信息,进而分析事件类型信息和关系类型信息,以确定待识别文本的识别结果,最终响应于识别结果为第一识别结果,获取待识别文本的事件权重信息,以根据事件权重信息构建事理溯源图谱。基于本方法提出的双塔型交互式网络分析文本用以构建图谱,不仅可提高事件抽取精度,进而避免误差传递问题,还可进一步提升事件的演化准确率。
附图说明
28.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
29.图1为本技术实施例中提供的事理溯源图谱构建方法的场景示意图;
30.图2为本技术实施例中提供的事理溯源图谱构建方法的流程示意图;
31.图3为本技术实施例中提供的事理溯源图谱构建方法的具体流程示意图;
32.图4是本技术实施例中提供的事理溯源图谱构建装置的结构示意图;
33.图5是本技术实施例中提供的计算机设备的结构示意图。
具体实施方式
34.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
35.在本技术的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
36.在本技术的描述中,术语“例如”一词用来表示“用作例子、例证或说明”。本技术中被描述为“例如”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本发明。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本发明的描述变得晦涩。因此,本发明并非旨在限于所示的实施例,而是与符合本技术所公开的原理和特征的最广范围相一致。
37.在本技术实施例中,本技术实施例提供的包含多行文本的图像识别方法主要涉及人工智能(artificial intelligence,ai)中的自然语言处理(neutral language process,nlp)。其中,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系
统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
38.自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
39.在本技术实施例中,本技术实施例提供的事理溯源图谱构建方法,可以应用于如图1所示的事理溯源图谱构建系统中。其中,该事理溯源图谱构建系统包括终端102和服务器104。终端102可以是既包括接收和发射硬件的设备,即具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备。终端102具体可以是台式终端或移动终端,终端102具体还可以是手机、平板电脑、笔记本电脑中的一种。服务器104可以是独立的服务器,也可以是服务器组成的服务器网络或服务器集群,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中,云服务器由基于云计算(cloud computing)的大量计算机或网络服务器构成。此外,终端102与服务器104之间通过网络建立通信连接,网络具体可以是广域网、局域网、城域网中的任意一种。
40.本领域技术人员可以理解,图1中示出的应用环境,仅仅是适用于本技术方案的一种应用场景,并不构成对本技术方案应用场景的限定,其他的应用环境还可以包括比图1中所示更多或更少的设备。例如,图1中仅示出1个服务器。可以理解的是,该事理溯源图谱构建系统还可以包括一个或多个其他设备,具体此处不作限定。另外,如图1所示,该事理溯源图谱构建系统还可以包括存储器,用于存储数据,如存储待识别的文本。
41.需要说明的是,图1所示的事理溯源图谱构建系统的场景示意图仅仅是一个示例,本发明实施例描述的事理溯源图谱构建系统以及场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域普通技术人员可知,随着事理溯源图谱构建系统的演变和新业务场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。
42.参阅图2,本技术实施例提供了一种事理溯源图谱构建方法,本实施例主要以该方法应用于上述图1中的服务器104来举例说明,该方法包括步骤s201至s204,具体如下:
43.s201,获取待识别文本。
44.其中,待识别文本可以是指某业务场景内需要构建事理图谱的文字内容,业务场景包括但不局限于:物流、电商、房地产等。事理图谱中的知识是一个包含《事件、论元集合、逻辑关系》的多元组,知识逻辑是不确定的,存在一种转移概率,所要描绘的是一个逻辑社会,研究对象是谓词性事件及其内外联系。
45.具体而言,事理逻辑的几种类型主要包括:因果事理、条件事理、反转事理、顺承事理、上下位事理、组成事理、并发事理等七类事理。其中,因果事理的含义为:某一事件导致某一事件发生,例如,《地震,房屋倒塌》;条件事理的含义为:某事件条件下另一事件发生,
例如,《限制放宽,立即增产》;反转事理的含义为:某事件与另一事件形成对立,例如,《起步晚,发展快》;顺承事理的含义为:某事件紧接着另一事件发生,例如,《去旅游,买火车票》;上下位事理的含义为:某事件是另一事件的上位或下位事件,例如,《地震,地质灾害》;组成事理的含义为:某事件是另一事件的组成部分,例如,《灭火,火灾救援》;并发事理的含义为:某事件与另一事件同时发生,例如,《睡觉,闭眼》。
46.具体实现中,服务器104可针对需要构建事理图谱的业务场景,获取图谱构建基础——待识别文本,该待识别文本可以是服务器104主动获取的,也可是服务器104被动接收的。具体而言,服务器104可采用如下几种方式之一,获取待识别文本,例如:(1)从终端102或其他设备处获取待识别文本;(2)从其他区块链节点服务器处同步获取得到待识别文本;(3)从上级服务器请求得到,或是从下级服务器轮询得到待识别文本。除此之外,待识别文本不仅可以是原始文本数据,还可以是预处理后的文本处理,预处理包括但不局限于:字符清洗、格式转换等。
47.s202,将待识别文本输入至已训练的事件关系识别模型,输出待识别文本的事件类型信息和关系类型信息。
48.其中,事件类型信息可以是针对不同业务场景,按业务需求划分的事件。例如,在电商场景中,事件包括“购买事件”、“退货事件”、“异常事件”等类型;在物流场景中,事件包括“在途事件”、“退款事件”、“异常事件”等类型。关系类型如上文所述可以包括七种事件的类型,在此不再赘述。
49.具体实现中,服务器104获取到待识别文本之后,可调用已训练的事件关系识别模型,并将待识别文本输入至该已训练的事件关系识别模型,以使模型基于前期训练所学功能,对待识别文本进行事件关系识别,进而输出待识别文本的事件类型信息和关系类型信息,作为后续分析依据,其中,本实施例中的模型训练步骤和模型应用步骤将在下文详细说明。
50.在一个实施例中,本步骤之前还包括:构建初始的事件关系识别模型;获取标签数据集,并将标签数据集划分为训练集和测试集,标签数据集中包括多个已标注事件类型和关系类型的事件标签;使用训练集对初始的事件关系识别模型进行初步训练,得到初步训练后的事件关系识别模型;使用测试集对初步训练后的事件关系识别模型进行测试调整,得到已训练的事件关系识别模型。
51.其中,已训练的事件关系识别模型由权重共享网络、相似度模型以及文本语义蕴含模型,权重共享网络可以依据业务需求设置为卷积神经网络(convolutional neural networks,cnn)、循环神经网络(recurrent neural networks,rnn)以及深度神经网络(deep neural networks,dnn)中的任意一种。相似度模型表示为similarity模型。文本语义蕴含模型表示为entailment模型。可以理解的是,上述权重共享网络还可设置为其他类型或具体型号的网络结构,本技术不做具体限定。
52.具体实现中,服务器104可以在执行事件关系识别之前执行模型训练操作,也可在获取待识别文本之前执行模型训练操作,具体何时执行模型训练操作本技术实施例不做具体限定,但可以确定的是需要在调用已训练模型之前执行完模型训练任务。此外,模型训练任务的执行可以是由服务器104执行,也可以是由与服务器104建立有通信连接的其他设备,如终端102执行。如此,已训练的事件关系识别模型可以装载于服务器104,也可以装载
于其他设备,只需在服务器104使用时能够进行模型调用即可,即预设模型调用协议、链接等。
53.进一步地,要获取已训练的事件关系识别模型以供后续步骤使用,首先需构建初始的事件关系识别模型。然后,负责执行模型训练任务的服务器104或其他设备,还可获取用于训练模型的事件标签,构成标签数据集。此时,服务器104或其他设备可获取少量标注事件类型和关系类型的事件标签。然后,对事件标签进行数据扩增,获取大量标签数据,作为后续模型训练所需的标签数据集。
54.更进一步地,标签数据集可用于训练模型,包括但不局限于预训练和初步训练,标签数据集还可用于调试模型,包括但不局限于测试调整。其中,若有初步训练和测试调整的需求,则可在得到标签数据集之后,将标签数据集划分为训练集和测试集,以便使用训练集对初始的事件关系识别模型进行初步训练,进而使用测试集对初步训练后的事件关系识别模型进行测试调整,得到已训练的事件关系识别模型。
55.需要说明的是,本领域技术人员可选择的模型训练停止条件包括以下至少一项:(1)误差小于某个预先设定的较小的值;(2)两次迭代之间的权值变化已经很小,可设定一个阈值,当小于这个阈值后,就停止训练;(3)设定最大迭代次数,当迭代超过最大次数就停止训练,例如“200个周期”;(4)识别准确率达到某个预先设定的较大的值。
56.在一个实施例中,已训练的事件关系识别模型包括权重共享网络、相似度模型以及文本语义蕴含模型,本步骤包括:将待识别文本输入至已训练的事件关系识别模型,通过权重共享网络对待识别文本进行特征提取,得到文本特征值;通过相似度模型,对文本特征值进行事件识别,得到事件类型信息;以及通过文本语义蕴含模型,对文本特征值进行关系识别,得到关系类型信息。
57.具体实现中,可参阅图3,为本技术实施例中提供的事理溯源图谱构建方法的具体流程示意图,其中显示有事件关系识别模型的模型架构,事件关系识别模型表示为multi-task模型,其基于交互式的双塔结构搭建,即基于交互式的相似度(similarity)模型和文本语义蕴含(entailment)模型构建。服务器104获取到待识别文本并调用了已训练的事件关系识别模型之后,可将待识别文本输入至已训练的事件关系识别模型,已训练的事件关系识别模型即可首先通过权重共享网络对待识别文本进行特征提取,得到文本特征值。可以理解的是,所谓的权重共享就是说输入一张图片或一个文本,这张图片或这个文本在用一个过滤器“filter”进行卷积操作的时候,图片或文本中的每一个位置都被同一个“filter”进行卷积,所以权重是一样的,也就是共享。
58.进一步地,在事件关系识别模型中,考虑到标签会随着业务量的增加而增加,并且标签数量较大,而一般的多分类器模型不能够使用标签的扩展,故本技术实施例提出采用similarity模型执行事件标签识别任务。同时,针对于关系识别任务,考虑到关系类型的有限,使用多分类模型更容易保证其精度,故本技术实施例提出采用多分类模型来处理关系识别任务,即使用entailment模型执行关系识别任务。如此,即可使得similarity模型输出事件类型信息,使得entailment模型输出关系类型信息。
59.在一个实施例中,已训练的事件关系识别模型中预设有目标损失函数;其中,目标损失函数包括第一损失函数、第二损失函数以及预设的经验值;第一损失函数用于供相似度模型分析输出事件类型信息,第二损失函数供文本语义蕴含模型分析输出关系类型信
息;经验值用于叠加至第一损失函数和第二损失函数,得到叠加后的第一损失函数和叠加后的第二损失函数之后,构成目标损失函数。
60.具体实现中,第一损失函数“l
s”和第二损失函数“l
e”可分别表示为:
[0061][0062][0063]
其中,“y
i”为文本数据权重共享网络后的特征值,为文本样本对应的标签的特征值,为权重共享网络后的特征值,为第“c
′”
个样本的特征值,“exp”为指数函数,“log”表示以“e”为底的自然对数。
[0064]
进一步地,预设的经验值在本技术实施例中可表示为“λ”,目标损失函数“l”可表示为:
[0065]
l=(1-λ)ls+λle[0066]
如此,采用similarity模型和entailment模型构建事件关系识别模型,以利用双塔型的交互式网络分析事件,进而构建事理溯源图谱,能够有效解决误差传递的问题,并提高识别精度。
[0067]
s203,分析事件类型信息和关系类型信息,以确定待识别文本的识别结果。
[0068]
具体实现中,服务器104分析得到事件类型信息和关系类型信息之后,可综合分析事件类型信息和关系类型信息,以确定待识别文本的识别结果。
[0069]
在一个实施例中,本步骤包括:将事件类型信息和关系类型信息进行矩阵点乘处理,得到已训练的事件关系识别模型的模型置信度;响应于模型置信度大于预设的经验阈值,确定待识别文本的识别结果为第一识别结果;或者响应于模型置信度小于或等于预设的经验阈值,确定待识别文本的识别结果为第二识别结果。
[0070]
具体实现中,可参阅图3,事件类型信息和关系类型信息均通过特征向量展示,服务器104通过将事件类型信息和关系类型信息进行矩阵点乘处理,可得到模型置信度。此时,若模型置信度大于预设的经验阈值“x”,则表示模型预测的结果正确(第一识别结果);若模型置信度小于或等于预设的经验阈值“x”,则表示模型预测的结果不确定(第二识别结果)。
[0071]
例如,若模型置信度为“0.8”,此时经验阈值“x=0.5”,则确定待识别文本的识别结果为第一识别结果,但若模型置信度为“0.3”,则确定待识别文本的识别结果为第二识别结果。
[0072]
s204,响应于识别结果为第一识别结果,获取待识别文本的事件权重信息,以根据事件权重信息构建事理溯源图谱。
[0073]
具体实现中,服务器104分析确定了待识别文本的识别结果,可在识别结果为第一识别结果的情况下,进一步分析获取待识别文本的事件权重信息,事件权重信息的分析方式可基于预置的模型,以根据事件权重信息、事件类型信息以及关系类型信息,构建出待识别文本所属业务场景下的事理溯源图谱。
[0074]
在一个实施例中,本步骤包括:响应于识别结果为第一识别结果,调用已训练的
tf-idf模型;通过已训练的tf-idf模型,对待识别文本进行权重生成,得到事件权重信息;根据事件类型信息、关系类型信息以及事件权重信息,构建事理图谱,得到事理溯源图谱。
[0075]
其中,tf-idf(term frequency

inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。tf-idf是一种统计方法,用以评估一字词对于一个文件集或一份文件对于所在的一个语料库中的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
[0076]
具体实现中,tf-idf模型的主要思想是:如果词“w”在一篇文档“d”中出现的频率高,并且在其他文档中很少出现,则认为词“w”具有很好的区分能力,适合用来把文章“d”和其他文章区分开来。该模型主要包含了两个因素:一是词“w”在文档“d”中的词频“tf”(term frequency),即词“w在文档“d”中出现次数count(w,d)和文档“d”中总词数size(d)的比值:tf(w,d)=count(w,d)/size(d);二是词“w”在整个文档集合中的逆向文档频率“idf”(inverse document frequency),即文档总数“n”与词“w”所出现文件数docs(w,d)比值的对数:idf=log(n/docs(w,d))。tf-idf模型根据上述所得“tf”和“idf”,为每一个文档“d”和由关键词w[1]

w[k]组成的查询串“q”计算一个权值,可用于表示查询串“q”与文档“d”的匹配度。基于该方法,本技术实施例可利用tf-idf模型生成一个或多个待识别文本中各个事件之间的权重,得到事件权重信息,以此构建得到事理溯源图谱。
[0077]
在一个实施例中,事理溯源图谱构建方法还包括:响应于识别结果为第二识别结果,回传待识别文本至预设的文本输入池中,以迭代更新已训练的事件关系识别模型。
[0078]
具体实现中,在上述实施例基础上,可参阅图3,若是检测到识别结果为第二识别结果,则可将对应的待识别文本回传至文本输入池中,不仅可重新识别,还可用于迭代更新模型,使模型识别精度更高。
[0079]
上述实施例中事理溯源图谱构建方法,服务器通过获取待识别文本,并将待识别文本输入至已训练的事件关系识别模型,可使模型输出得到待识别文本的事件类型信息和关系类型信息,进而分析事件类型信息和关系类型信息,以确定待识别文本的识别结果,最终响应于识别结果为第一识别结果,获取待识别文本的事件权重信息,以根据事件权重信息构建事理溯源图谱。基于本方法提出的双塔型交互式网络分析文本用以构建图谱,不仅可提高事件抽取精度,进而避免误差传递问题,还可进一步提升事件的演化准确率。
[0080]
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0081]
为了更好实施本技术实施例提供的事理溯源图谱构建方法,在本技术实施例所提出的事理溯源图谱构建方法的基础之上,本技术实施例中还提供了一种事理溯源图谱构建装置,如图4所示,该事理溯源图谱构建装置400包括:
[0082]
文本获取模块410,用于获取待识别文本;
[0083]
文本分析模块420,用于将待识别文本输入至已训练的事件关系识别模型,输出待识别文本的事件类型信息和关系类型信息;
[0084]
结果确定模块430,用于分析事件类型信息和关系类型信息,以确定待识别文本的识别结果;
[0085]
图谱构建模块440,用于响应于识别结果为第一识别结果,获取待识别文本的事件权重信息,以根据事件权重信息构建事理溯源图谱。
[0086]
在一个实施例中,已训练的事件关系识别模型包括权重共享网络、相似度模型以及文本语义蕴含模型;文本分析模块420还用于将待识别文本输入至已训练的事件关系识别模型,通过权重共享网络对待识别文本进行特征提取,得到文本特征值;通过相似度模型,对文本特征值进行事件识别,得到事件类型信息;以及通过文本语义蕴含模型,对文本特征值进行关系识别,得到关系类型信息。
[0087]
在一个实施例中,已训练的事件关系识别模型中预设有目标损失函数;其中,目标损失函数包括第一损失函数、第二损失函数以及预设的经验值;第一损失函数用于供相似度模型分析输出事件类型信息,第二损失函数供文本语义蕴含模型分析输出关系类型信息;经验值用于叠加至第一损失函数和第二损失函数,得到叠加后的第一损失函数和叠加后的第二损失函数之后,构成目标损失函数。
[0088]
在一个实施例中,事理溯源图谱构建装置400还包括模型训练模块,用于构建初始的事件关系识别模型;获取标签数据集,并将标签数据集划分为训练集和测试集,标签数据集中包括多个已标注事件类型和关系类型的事件标签;使用训练集对初始的事件关系识别模型进行初步训练,得到初步训练后的事件关系识别模型;使用测试集对初步训练后的事件关系识别模型进行测试调整,得到已训练的事件关系识别模型。
[0089]
在一个实施例中,结果确定模块430还用于将事件类型信息和关系类型信息进行矩阵点乘处理,得到已训练的事件关系识别模型的模型置信度;响应于模型置信度大于预设的经验阈值,确定待识别文本的识别结果为第一识别结果;或者响应于模型置信度小于或等于预设的经验阈值,确定待识别文本的识别结果为第二识别结果。
[0090]
在一个实施例中,图谱构建模块440还用于响应于识别结果为第一识别结果,调用已训练的tf-idf模型;通过已训练的tf-idf模型,对待识别文本进行权重生成,得到事件权重信息;根据事件类型信息、关系类型信息以及事件权重信息,构建事理图谱,得到事理溯源图谱。
[0091]
在一个实施例中,事理溯源图谱构建装置400还包括数据回传模块,用于响应于识别结果为第二识别结果,回传待识别文本至预设的文本输入池中,以迭代更新已训练的事件关系识别模型。
[0092]
上述实施例中,基于本技术实施例提出的双塔型交互式网络,分析文本用以构建图谱,不仅可提高事件抽取精度,进而避免误差传递问题,还可进一步提升事件的演化准确率。
[0093]
需要说明的是,关于事理溯源图谱构建装置的具体限定可以参见上文中对于事理溯源图谱构建方法的限定,在此不再赘述。上述事理溯源图谱构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中,也可以以软件形式存储于电子设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0094]
在一个实施例中,事理溯源图谱构建装置400可以实现为一种计算机程序的形式,
计算机程序可在如图5所示的计算机设备上运行。计算机设备的存储器中可存储组成该事理溯源图谱构建装置400的各个程序模块,比如,图5所示的文本获取模块410、文本分析模块420、结果确定模块430以及图谱构建模块440;各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本技术各个实施例的事理溯源图谱构建方法中的步骤。例如,图5所示的计算机设备可以通过如图4所示的事理溯源图谱构建装置400中的文本获取模块410执行步骤s201。计算机设备可通过文本分析模块420执行步骤s202。计算机设备可通过结果确定模块430执行步骤s203。计算机设备可通过图谱构建模块440执行步骤s204。其中,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的计算机设备通过网络连接通信。该计算机程序被处理器执行时以实现一种事理溯源图谱构建方法。
[0095]
本领域技术人员可以理解,图5中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0096]
在一个实施例中,提供了一种计算机设备,包括一个或多个处理器;存储器;以及一个或多个应用程序,其中的一个或多个应用程序被存储于存储器中,并配置为由处理器执行上述事理溯源图谱构建方法的步骤。此处事理溯源图谱构建方法的步骤可以是上述各实施例的事理溯源图谱构建方法中的步骤。
[0097]
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器进行加载,使得处理器执行上述事理溯源图谱构建方法的步骤。此处事理溯源图谱构建方法的步骤可以是上述各个实施例的事理溯源图谱构建方法中的步骤。
[0098]
本邻域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
[0099]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0100]
以上对本技术实施例提供的一种事理溯源图谱构建方法、装置、计算机设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

技术特征:
1.一种事理溯源图谱构建方法,其特征在于,包括:获取待识别文本;将所述待识别文本输入至已训练的,输出所述待识别文本的事件类型信息和关系类型信息;分析所述事件类型信息和所述关系类型信息,以确定所述待识别文本的识别结果;响应于所述识别结果为第一识别结果,获取所述待识别文本的事件权重信息,以根据所述事件权重信息构建事理溯源图谱。2.如权利要求1所述的方法,其特征在于,所述已训练的事件关系识别模型包括权重共享网络、相似度模型以及文本语义蕴含模型;其中,所述将所述待识别文本输入至已训练的事件关系识别模型,输出所述待识别文本的事件类型信息和关系类型信息,包括:将所述待识别文本输入至所述已训练的事件关系识别模型,通过所述权重共享网络对所述待识别文本进行特征提取,得到文本特征值;通过所述相似度模型,对所述文本特征值进行事件识别,得到所述事件类型信息;以及通过所述文本语义蕴含模型,对所述文本特征值进行关系识别,得到所述关系类型信息。3.如权利要求2所述的方法,其特征在于,所述已训练的事件关系识别模型中预设有目标损失函数;其中,所述目标损失函数包括第一损失函数、第二损失函数以及预设的经验值;所述第一损失函数用于供所述相似度模型分析输出所述事件类型信息,所述第二损失函数供所述文本语义蕴含模型分析输出所述关系类型信息;所述经验值用于叠加至所述第一损失函数和所述第二损失函数,得到叠加后的第一损失函数和叠加后的第二损失函数之后,构成所述目标损失函数。4.如权利要求1至3中任一项所述的方法,其特征在于,在所述将所述待识别文本输入至已训练的事件关系识别模型,输出所述待识别文本的事件类型信息和关系类型信息之前,还包括:构建初始的事件关系识别模型;获取标签数据集,并将所述标签数据集划分为训练集和测试集,所述标签数据集中包括多个已标注事件类型和关系类型的事件标签;使用所述训练集对所述初始的事件关系识别模型进行初步训练,得到初步训练后的事件关系识别模型;使用所述测试集对所述初步训练后的事件关系识别模型进行测试调整,得到所述已训练的事件关系识别模型。5.如权利要求1所述的方法,其特征在于,所述分析所述事件类型信息和所述关系类型信息,以确定所述待识别文本的识别结果,包括:将所述事件类型信息和所述关系类型信息进行矩阵点乘处理,得到所述已训练的事件关系识别模型的模型置信度;响应于所述模型置信度大于预设的经验阈值,确定所述待识别文本的识别结果为所述第一识别结果;或者
响应于所述模型置信度小于或等于预设的经验阈值,确定所述待识别文本的识别结果为第二识别结果。6.如权利要求1或5所述的方法,其特征在于,所述响应于所述识别结果为第一识别结果,获取所述待识别文本的事件权重信息,以根据所述事件权重信息构建事理溯源图谱,包括:响应于所述识别结果为第一识别结果,调用已训练的tf-idf模型;通过所述已训练的tf-idf模型,对所述待识别文本进行权重生成,得到事件权重信息;根据所述事件类型信息、所述关系类型信息以及所述事件权重信息,构建事理图谱,得到所述事理溯源图谱。7.如权利要求6所述的方法,其特征在于,所述方法还包括:响应于所述识别结果为第二识别结果,回传所述待识别文本至预设的文本输入池中,以迭代更新所述已训练的事件关系识别模型。8.一种事理溯源图谱构建装置,其特征在于,包括:文本获取模块,用于获取待识别文本;文本分析模块,用于将所述待识别文本输入至已训练的事件关系识别模型,输出所述待识别文本的事件类型信息和关系类型信息;结果确定模块,用于分析所述事件类型信息和所述关系类型信息,以确定所述待识别文本的识别结果;图谱构建模块,用于响应于所述识别结果为第一识别结果,获取所述待识别文本的事件权重信息,以根据所述事件权重信息构建事理溯源图谱。9.一种计算机设备,其特征在于,所述计算机设备包括:一个或多个处理器;存储器;以及一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现权利要求1至7中任一项所述的事理溯源图谱构建方法。10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1至7任一项所述的事理溯源图谱构建方法中的步骤。

技术总结
本申请提供一种事理溯源图谱构建方法、装置、计算机设备及存储介质,方法包括:获取待识别文本;将待识别文本输入至已训练的事件关系识别模型,输出待识别文本的事件类型信息和关系类型信息;分析事件类型信息和关系类型信息,以确定待识别文本的识别结果;响应于识别结果为第一识别结果,获取待识别文本的事件权重信息,以根据事件权重信息构建事理溯源图谱。采用本方法,可通过提高事件抽取精度来提升事件的演化准确率。升事件的演化准确率。升事件的演化准确率。


技术研发人员:占小杰
受保护的技术使用者:顺丰科技有限公司
技术研发日:2021.12.28
技术公布日:2023/7/13
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐