一种信息抽取方法、装置、设备及存储介质与流程

未命名 09-22 阅读:104 评论:0


1.本发明涉及自然语言处理领域,特别涉及一种信息抽取方法、装置、设备及存储介质。


背景技术:

2.信息抽取技术是当前领域内的一个重要研究方向,主要致力于从非结构化文本数据中提取结构化信息。信息抽取技术的主要任务包括实体识别、关系抽取和事件抽取等抽取任务。实体识别是从文本中识别并分类出有意义的实体,例如人名、时间、机构等。关系抽取旨在从文本中识别出实体间的关系。事件抽取关注的是从文本中抽取具体事件,包括事件的各种属性。
3.目前信息抽取技术主要基于规则、基于统计或基于深度学习模型来进行信息抽取。但基于规则的信息抽取方法对于非结构化文本或则复杂的抽取任务,无法配置规则模板;基于统计的信息抽取方法通常依赖于大量的手动标注数据进行训练,对于一些特定的任务或领域,获取大量高质量标注数据成本较高,不仅需要大量的领域知识和经验,并且手动设计的特征可能不能完全捕捉到文本中的复杂信息,模型泛化性较差;基于深度学习模型的信息抽取方法虽克服了以上两种方法的缺点,但存在准确率低以及召回率低的问题,可靠性差。


技术实现要素:

4.有鉴于此,本发明的目的在于提供一种信息抽取方法、装置、设备及存储介质,能够有效提高信息抽取的效率以及可靠性。其具体方案如下:第一方面,本技术提供了一种信息抽取方法,包括:基于预设清洗规则对获取到的与目标事件对应的若干个待处理文本信息执行相应的文本清洗操作,得到清洗后的各所述待处理文本信息;利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作;在执行所述信息抽取操作的过程中,通过利用预设指代消解模型对抽取到的各文本段执行相应的实体聚类操作来确定与所述目标事件对应的若干个目标文本段,以基于预设实体链接规则以及所述若干个目标文本段执行相应的实体链接操作。
5.可选的,所述基于预设清洗规则对获取到的与目标事件对应的若干个待处理文本信息执行相应的文本清洗操作之后,还包括:当存在满足预设长文本条件的清洗后的所述待处理文本信息时,基于预设标点优先级执行相应的文本切分操作,以得到相应的不同优先级的清洗后的待处理文本片段。
6.可选的,所述利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作,包括:针对所述不同优先级的清洗后的待处理文本片段,基于预设抽取模型并分别根据
对应的预设滑动窗口执行相应的信息抽取操作。
7.可选的,所述利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作之前,还包括:基于预先开发的提示模板对通用信息抽取模型进行相应的小样本训练操作,以得到所述预设抽取模型。
8.可选的,所述通过利用预设指代消解模型对抽取到的各文本段执行相应的实体聚类操作来确定与所述目标事件对应的若干个目标文本段,包括:利用基于跨度的预训练模型对抽取到的各文本段执行相应的预处理以及跨度信息提取操作,得到与各所述文本段分别对应的跨度信息;利用所述基于跨度的预训练模型以及所述跨度信息确定与各所述文本段对应的指代实体相似度信息,以根据所述指代实体相似度信息完成相应的实体聚类操作,得到与所述目标事件对应的若干个目标文本段。
9.可选的,所述基于预设实体链接规则以及所述若干个目标文本段执行相应的实体链接操作,包括:基于与所述目标事件对应的机构全称以及所述若干个目标文本段执行相应的实体链接操作。
10.第二方面,本技术提供了一种信息抽取装置,包括:文本清洗模块,用于基于预设清洗规则对获取到的与目标事件对应的若干个待处理文本信息执行相应的文本清洗操作,得到清洗后的各所述待处理文本信息;信息抽取模块,用于利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作;目标文本段确定模块,用于在执行所述信息抽取操作的过程中,通过利用预设指代消解模型对抽取到的各文本段执行相应的实体聚类操作来确定与所述目标事件对应的若干个目标文本段,以基于预设实体链接规则以及所述若干个目标文本段执行相应的实体链接操作。
11.可选的,所述信息抽取装置,还包括:文本切分模块,用于当存在满足预设长文本条件的清洗后的所述待处理文本信息时,基于预设标点优先级执行相应的文本切分操作,以得到相应的不同优先级的清洗后的待处理文本片段。
12.第三方面,本技术提供了一种电子设备,包括:存储器,用于保存计算机程序;处理器,用于执行所述计算机程序,以实现前述的信息抽取方法的步骤。
13.第四方面,本技术提供了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现前述的信息抽取方法的步骤。
14.可见,本技术中,首先基于预设清洗规则对获取到的与目标事件对应的若干个待处理文本信息执行相应的文本清洗操作,得到清洗后的各所述待处理文本信息;然后利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作;然后在执行所述信息抽取操作的过程中,通过利用预设指代消解模型对抽取到的各文本段执行相应的实体聚类操作来确定与所述目标事件对应的若干个目标
文本段,以基于预设实体链接规则以及所述若干个目标文本段执行相应的实体链接操作。本技术通过基于预设抽取模型以及预设滑动窗口信息抽取规则进行抽取,并在此过程中利用预设指代消解模型增强抽取效果,完成实体聚类,这样一来,不仅能够有效提高信息抽取的效率和可靠性,还能够同时提高信息抽取和实体链接的精确率和召回率。
附图说明
15.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
16.图1为本技术提供的一种信息抽取方法流程图;图2为本技术提供的一种信息抽取方法流程示意图;图3为本技术提供的一种文本切分示意图;图4为本技术提供的一种滑动窗口信息抽取示意图;图5为本技术提供的一种具体的信息抽取方法流程图;图6为本技术提供的一种信息抽取装置结构示意图;图7为本技术提供的一种电子设备结构图。
具体实施方式
17.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
18.目前信息抽取技术主要基于规则、基于统计或基于深度学习模型来进行信息抽取。但基于规则的信息抽取方法对于非结构化文本或则复杂的抽取任务,无法配置规则模板;基于统计的信息抽取方法通常依赖于大量的手动标注数据进行训练,对于一些特定的任务或领域,获取大量高质量标注数据成本较高,不仅需要大量的领域知识和经验,并且手动设计的特征可能不能完全捕捉到文本中的复杂信息,模型泛化性较差;基于深度学习模型的信息抽取方法虽克服了以上两种方法的缺点,但存在准确率低以及召回率低的问题,可靠性差。为此,本技术提供了一种信息抽取方案,能够有效不仅能够有效提高信息抽取的效率和可靠性,还能够同时提高信息抽取和实体链接的精确率和召回率。
19.参见图1所示,本发明实施例公开了一种信息抽取方法,包括:步骤s11、基于预设清洗规则对获取到的与目标事件对应的若干个待处理文本信息执行相应的文本清洗操作,得到清洗后的各所述待处理文本信息。
20.具体的,结合图2所示,本技术通过各大主流媒体推送的内容来获取与目标事件对应的待处理文本信息。考虑到所获取到的若干个所述待处理文本信息中可能存在广告等垃圾信息,因此在执行进一步处理之前,需要进行相应的清洗操作。也即,基于预设清洗规则对各所述待处理文本信息执行相应的文本清洗操作,这样一来,可以极大地避免由于保留了垃圾信息而导致的抽取不准确的情况的发生。
21.进一步的,考虑到文本的长度不一,因此需要对长文本进行切分。同时为了不破化源文本的语义信息,可基于标点进行划分。也即,所述基于预设清洗规则对获取到的与目标事件对应的若干个待处理文本信息执行相应的文本清洗操作之后,具体还可以包括:当存在满足预设长文本条件的清洗后的所述待处理文本信息时,基于预设标点优先级执行相应的文本切分操作,以得到相应的不同优先级的清洗后的待处理文本片段。其中,所述预设长文本条件可以预先设置为超过所述预设抽取模型的最大输入长度,并且可预先基于标点的多样性设置相应的所述预设标点优先级,在一种具体实施方式中,所述预设标点优先级具体可以为:一级优先级为“!!。??\n”,二级优先级为
“ꢀ
,,;;”,具体切分流程可参见图3所示,最终得到若干个一级的清洗后的待处理文本片段以及若干个二级的清洗后的待处理文本片段。
22.步骤s12、利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作。
23.本实施例中,所述利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作之前,具体还可以包括:基于预先开发的提示模板对通用信息抽取模型进行相应的小样本训练操作,以得到所述预设抽取模型。其中,所述通用信息抽取模型,也即uie(全称为universal information extraction)。这样一来,通过进行相应的小样本训练操作来完成相应的预训练,可以有效节省数据标注时间,从而提高效率,且后续在利用预设抽取模型进行信息抽取时,可通过滑动窗口最大化利用文本信息。
24.进一步的,结合图3、图4所示,本实施例中,为提高召回率,预先设置相应的若干个滑动窗口的固定步长,通过对所述不同优先级的清洗后的待处理文本片段进行窗口滑动预测操作来完成相应的信息抽取操作。具体的,在进行所述窗口滑动预测操作的过程中,优先处理所述一级的清洗后的待处理文本片段,若所述一级的清洗后的待处理文本片段过长,再处理所述二级的清洗后的待处理文本片段。
25.步骤s13、在执行所述信息抽取操作的过程中,通过利用预设指代消解模型对抽取到的各文本段执行相应的实体聚类操作来确定与所述目标事件对应的若干个目标文本段,以基于预设实体链接规则以及所述若干个目标文本段执行相应的实体链接操作。
26.本实施例中,考虑到在基于所述预设抽取模型进行抽取时,可能会发生重复抽取相同含义的实体或者指代词,也即信息重复抽取的情况,因此需要执行相应的实体聚合来应对情况的发生,避免由于信息重复抽取所导致的精确度降低、后续实体链接时易连接错误等不良影响。结合图2所示,本实施例中,在执行所述信息抽取操作的过程中,通过利用预设指代消解模型对抽取到的各文本段执行相应的实体聚类操作来确定与所述目标事件对应的若干个目标文本段。其中,所述预设指代消解模型可以为google research团队提出的预训练模型spanbert(span bidirectional encoder representations from transformer,基于跨度的预训练模型),通过执行相应的指代消解操作来确定文本中多个指代词所代表的实体,以完成相应的实体聚类操作。可以理解的是,抽取到的各所述文本段可能为实体或相应的指代词。
27.进一步的,本实施例中,在确定与所述目标事件对应的若干个目标文本段之后,需要设计相应规则将通过所述实体聚类操作得到的实体块,也即各所述目标文本段指向最终
实体。例如,当针对机构主体信息进行抽取时,可以优先选择机构全称作为链接词进行链接,或者综合考虑比如全部链接并进行投票选择。也就是说,所述基于预设实体链接规则以及所述若干个目标文本段执行相应的实体链接操作,具体可以包括:基于与所述目标事件对应的机构全称以及所述若干个目标文本段执行相应的实体链接操作。
28.由此可见,本技术实施例中,首先基于预设清洗规则对获取到的与目标事件对应的若干个待处理文本信息执行相应的文本清洗操作,得到清洗后的各所述待处理文本信息;然后利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作;然后在执行所述信息抽取操作的过程中,通过利用预设指代消解模型对抽取到的各文本段执行相应的实体聚类操作来确定与所述目标事件对应的若干个目标文本段,以基于预设实体链接规则以及所述若干个目标文本段执行相应的实体链接操作。本技术先对待处理文本信息进行清洗,并对满足预设长文本条件的清洗后的所述待处理文本信息进行切分,然后通过基于预设抽取模型以及预设滑动窗口信息抽取规则进行抽取,并在此过程中利用预设指代消解模型增强抽取效果,完成实体聚类,这样一来,不仅能够有效提高信息抽取的效率和可靠性、解决信息抽取长文本问题以及相同含义信息重复抽取等问题,还能够同时提高信息抽取和实体链接的精确率和召回率。
29.参见图5所示,本发明实施例公开了一种信息抽取方法,包括:步骤s21、基于预设清洗规则对获取到的与目标事件对应的若干个待处理文本信息执行相应的文本清洗操作,得到清洗后的各所述待处理文本信息。
30.步骤s22、利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作。
31.步骤s23、在执行所述信息抽取操作的过程中,利用基于跨度的预训练模型对抽取到的各文本段执行相应的预处理以及跨度信息提取操作,得到与各所述文本段分别对应的跨度信息。
32.本实施例中,基于跨度的预训练模型通过引入两个新的预训练任务来提高跨度表示的质量,从而在指代消解等任务上取得更好的性能。所述预训练任务为跨度边界表示任务(span boundary objective,sbo)以及跨度内部相互信息任务(spanbert masking,sbm)。其中,所述跨度边界表示任务:通过预测跨度的开始和结束位置,以提高模型对跨度边界的理解;所述跨度内部相互信息任务:一种连续跨度掩码策略,通过最大化跨度内部词。具体的,在基于所述基于跨度的预训练模型进行指代消解之前,需要首先进行相应的数据预处理操作,也即将输入的训练数据进行分词,并利用初始的基于跨度的预训练模型进行掩码处理,以得到预处理后的所述训练数据。然后所述初始的基于跨度的预训练模型根据预处理后的所述训练数据执行相应的所述跨度边界表示任务和所述跨度内部相互信息任务来进行训练,得到完成训练的所述基于跨度的预训练模型。本实施例中,具体针对完成训练的所述基于跨度的预训练模型,直接提取与抽取到的各所述文本段对应的跨度信息。
33.步骤s24、利用所述基于跨度的预训练模型以及所述跨度信息确定与各所述文本段对应的指代实体相似度信息,以根据所述指代实体相似度信息完成相应的实体聚类操作,得到与所述目标事件对应的若干个目标文本段,以基于预设实体链接规则以及所述若干个目标文本段执行相应的实体链接操作。
34.本实施例中,通过利用完成训练的所述基于跨度的预训练模型以及所述跨度信息
确定各所述文本段之间的指代实体相似度信息,也即计算各个指代词与其可能指代实体之间的相似度从而基于所述指代实体相似度信息确定最佳的指代关系。进而基于确定的最佳指代关系完成聚类,得到若干个目标文本段。
35.其中,关于上述步骤s21、步骤s22的具体过程可以参考前述实施例公开的相应内容,在此不再进行赘述。
36.由此可见,本技术实施例中,通过将预设指代消解模型,也即基于跨度的预训练模型应用于信息抽取的过程中,可以同时提高信息抽取和实体链接的精确率和召回率。
37.参见图6所示,本技术实施例还相应公开了一种信息抽取装置,包括:文本清洗模块11,用于基于预设清洗规则对获取到的与目标事件对应的若干个待处理文本信息执行相应的文本清洗操作,得到清洗后的各所述待处理文本信息;信息抽取模块12,用于利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作;目标文本段确定模块13,用于在执行所述信息抽取操作的过程中,通过利用预设指代消解模型对抽取到的各文本段执行相应的实体聚类操作来确定与所述目标事件对应的若干个目标文本段,以基于预设实体链接规则以及所述若干个目标文本段执行相应的实体链接操作。
38.其中,关于上述各个模块更加具体的工作过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
39.由此可见,本技术中,首先基于预设清洗规则对获取到的与目标事件对应的若干个待处理文本信息执行相应的文本清洗操作,得到清洗后的各所述待处理文本信息;然后利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作;然后在执行所述信息抽取操作的过程中,通过利用预设指代消解模型对抽取到的各文本段执行相应的实体聚类操作来确定与所述目标事件对应的若干个目标文本段,以基于预设实体链接规则以及所述若干个目标文本段执行相应的实体链接操作。本技术通过基于预设抽取模型以及预设滑动窗口信息抽取规则进行抽取,并在此过程中利用预设指代消解模型增强抽取效果,完成实体聚类,这样一来,不仅能够有效提高信息抽取的效率和可靠性,还能够同时提高信息抽取和实体链接的精确率和召回率。
40.在一些具体实施例中,所述信息抽取装置,具体还可以包括:文本切分模块,用于当存在满足预设长文本条件的清洗后的所述待处理文本信息时,基于预设标点优先级执行相应的文本切分操作,以得到相应的不同优先级的清洗后的待处理文本片段。
41.在一些具体实施例中,所述信息抽取模块12,具体可以包括:信息抽取单元,用于针对所述不同优先级的清洗后的待处理文本片段,基于预设抽取模型并分别根据对应的预设滑动窗口执行相应的信息抽取操作。
42.在一些具体实施例中,所述信息抽取装置,具体还可以包括:抽取模型确定模块,用于基于预先开发的提示模板对通用信息抽取模型进行相应的小样本训练操作,以得到所述预设抽取模型。
43.在一些具体实施例中,所述目标文本段确定模块13,具体可以包括:跨度信息确定单元,用于利用基于跨度的预训练模型对抽取到的各文本段执行相
应的预处理以及跨度信息提取操作,得到与各所述文本段分别对应的跨度信息;指代实体相似度信息确定单元,用于利用所述基于跨度的预训练模型以及所述跨度信息确定与各所述文本段对应的指代实体相似度信息,以根据所述指代实体相似度信息完成相应的实体聚类操作,得到与所述目标事件对应的若干个目标文本段。
44.在一些具体实施例中,所述目标文本段确定模块13,具体可以包括:实体链接单元,用于基于与所述目标事件对应的机构全称以及所述若干个目标文本段执行相应的实体链接操作。
45.进一步的,本技术实施例还公开了一种电子设备,图7是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本技术的使用范围的任何限制。
46.图7为本技术实施例提供的一种电子设备20的结构示意图。该电子设备 20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的信息抽取方法中的相关步骤。另外,本实施例中的电子设备20具体可以为电子计算机。
47.本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本技术技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
48.另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222等,存储方式可以是短暂存储或者永久存储。
49.其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,其可以是windows server、netware、unix、linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的信息抽取方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
50.进一步的,本技术还公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的信息抽取方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
51.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
52.专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
53.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
54.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
55.以上对本技术所提供的技术方案进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。

技术特征:
1.一种信息抽取方法,其特征在于,包括:基于预设清洗规则对获取到的与目标事件对应的若干个待处理文本信息执行相应的文本清洗操作,得到清洗后的各所述待处理文本信息;利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作;在执行所述信息抽取操作的过程中,通过利用预设指代消解模型对抽取到的各文本段执行相应的实体聚类操作来确定与所述目标事件对应的若干个目标文本段,以基于预设实体链接规则以及所述若干个目标文本段执行相应的实体链接操作。2.根据权利要求1所述的信息抽取方法,其特征在于,所述基于预设清洗规则对获取到的与目标事件对应的若干个待处理文本信息执行相应的文本清洗操作之后,还包括:当存在满足预设长文本条件的清洗后的所述待处理文本信息时,基于预设标点优先级执行相应的文本切分操作,以得到相应的不同优先级的清洗后的待处理文本片段。3.根据权利要求2所述的信息抽取方法,其特征在于,所述利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作,包括:针对所述不同优先级的清洗后的待处理文本片段,基于预设抽取模型并分别根据对应的预设滑动窗口执行相应的信息抽取操作。4.根据权利要求1所述的信息抽取方法,其特征在于,所述利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作之前,还包括:基于预先开发的提示模板对通用信息抽取模型进行相应的小样本训练操作,以得到所述预设抽取模型。5.根据权利要求1所述的信息抽取方法,其特征在于,所述通过利用预设指代消解模型对抽取到的各文本段执行相应的实体聚类操作来确定与所述目标事件对应的若干个目标文本段,包括:利用基于跨度的预训练模型对抽取到的各文本段执行相应的预处理以及跨度信息提取操作,得到与各所述文本段分别对应的跨度信息;利用所述基于跨度的预训练模型以及所述跨度信息确定与各所述文本段对应的指代实体相似度信息,以根据所述指代实体相似度信息完成相应的实体聚类操作,得到与所述目标事件对应的若干个目标文本段。6.根据权利要求1至5任一项所述的信息抽取方法,其特征在于,所述基于预设实体链接规则以及所述若干个目标文本段执行相应的实体链接操作,包括:基于与所述目标事件对应的机构全称以及所述若干个目标文本段执行相应的实体链接操作。7.一种信息抽取装置,其特征在于,包括:文本清洗模块,用于基于预设清洗规则对获取到的与目标事件对应的若干个待处理文本信息执行相应的文本清洗操作,得到清洗后的各所述待处理文本信息;信息抽取模块,用于利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作;
目标文本段确定模块,用于在执行所述信息抽取操作的过程中,通过利用预设指代消解模型对抽取到的各文本段执行相应的实体聚类操作来确定与所述目标事件对应的若干个目标文本段,以基于预设实体链接规则以及所述若干个目标文本段执行相应的实体链接操作。8.根据权利要求7所述的信息抽取装置,其特征在于,所述信息抽取装置,还包括:文本切分模块,用于当存在满足预设长文本条件的清洗后的所述待处理文本信息时,基于预设标点优先级执行相应的文本切分操作,以得到相应的不同优先级的清洗后的待处理文本片段。9.一种电子设备,其特征在于,包括:存储器,用于保存计算机程序;处理器,用于执行所述计算机程序以实现如权利要求1至6任一项所述的信息抽取方法。10.一种计算机可读存储介质,其特征在于,用于保存计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的信息抽取方法。

技术总结
本申请公开了一种信息抽取方法、装置、设备及存储介质,涉及自然语言处理领域,包括:基于预设清洗规则对获取到的与目标事件对应的若干个待处理文本信息执行相应的文本清洗操作,得到清洗后的各所述待处理文本信息;利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作;在执行所述信息抽取操作的过程中,通过利用预设指代消解模型对抽取到的各文本段执行相应的实体聚类操作来确定与所述目标事件对应的若干个目标文本段,以基于预设实体链接规则以及所述若干个目标文本段执行相应的实体链接操作。本申请能够有效提高信息抽取的效率以及可靠性。取的效率以及可靠性。取的效率以及可靠性。


技术研发人员:胡丕栋 顾树明 徐杨远翔
受保护的技术使用者:浙江同信企业征信服务有限公司
技术研发日:2023.08.15
技术公布日:2023/9/20
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐