一种基于大规模语言模型的事件模板归纳方法和系统
未命名
07-22
阅读:167
评论:0
1.本发明涉及一种事件模板归纳方法,特别是一种基于大规模语言模型的事件模板归纳方法和系统,属于自然语言处理技术领域。
背景技术:
2.事件是人类理解和体验世界的一个基本单元。一个事件代表一个在某时某地涉及多个参与者的特定发生,例如选举,婚礼等。为了表示事件和建模世界事件知识,事件模板提供了一种概念化的,结构化的,规范化的语言描述事件类别以及相应的事件论元角色。具体的,一个事件模板是一个特定的框架,例如:“类别:爆炸,论元角色:犯罪者,受害者,目标,工具”。事件模板对事件抽取,事件关系理解和事件知识库构建等下游任务十分重要。由于事件模板的重要性,如何自动发现和构建大规模的,高质量的和高覆盖度的事件模板亟待研究。
3.然而,由于事件本体知识的开放,事件自然语言表达的多样性和事件知识的稀疏性,事件模板归纳并不是一个容易解决的任务。首先,在真实世界应用中,事件类型体系庞大,新事件类别层出不穷。为了应对事件本体知识开放挑战,事件模板应当能够被自动化地归纳并在广泛的领域中具有高覆盖度。其次,如图1所示,事件的自然语言表达是多样化的。同一个事件在不同的自然语言中会采用不同的用词和结构进行描述。为了应对事件自然语言表达的多样性挑战,事件模板应当将多样化的描述概念化和结构化为统一的事件模板语言。最后,由于语言的经济性原则,事件表达通常是不完整的。在某一个特定的事件描述中经常会缺省部分事件论元角色。为了应对事件知识的稀缺性挑战,事件模板应当从不同的事件描述中聚合这些散布的事件模板知识。
4.目前,几乎所有的事件模板仍然由人类专家费时费力地手工标注,如muc,ace和kbp。另一方面,传统的自动化事件模板归纳方法仍然无法很好地解决上述开放,多样和稀疏的挑战。具体的,自上而下的概念链接方法首先通过依存句法分析自然语言表达发现事件类别和事件论元角色,再将其与现存的外部概念知识库进行链接,如framenet。这种方法很大程度上受外部概念知识库质量和覆盖度的制约。自下而上的聚类方法首先对事件模板的范围进行限定,如预定义通用的5w1h(why,when,where,who,what,how),主谓宾或预定义事件类别和事件论元角色的数量,再进行聚类。这种方法极大地受预定义地事件模板范围限制。总结来说,如何在开放场景下自动化发现事件模板,概念化多样化的事件表达为统一的事件模板语言,整合散布的事件模板知识仍是亟待解决的问题。
技术实现要素:
5.为了应对事件本体知识的开放,事件自然语言表达的多样性和事件知识的稀疏性的挑战,本发明提供了一种基于大规模语言模型的事件模板归纳方法和系统。
6.本发明采用的技术方案如下:
7.一种基于大规模语言模型的事件模板归纳方法,包括以下步骤:
8.基于上下文生成的文本概念化:通过示例学习充分发挥大规模生成式预训练语言模型的生成能力和类比能力,将多样化的事件自然语言表达转换为统一的概念化事件模板语言;
9.基于置信度衡量的事件模板结构化:利用概念化事件模板语言,通过显著性、可靠性和一致性筛选概念化的事件类别和事件论元角色,从而得到结构化事件模板;
10.基于图的事件模板整合:利用结构化事件模板,通过图分割聚类算法整合同一事件的分散事件模板,得到最终的事件模板。
11.进一步地,利用大规模语言模型在开放场景下强大的上下文生成能力和示例学习类比能力,从大规模语言模型中提取事件模板知识,从而解决自动事件模板归纳存在的事件知识开放挑战和事件自然语言表达多样挑战。
12.进一步地,事件在自然语言表达中通常存在省略的现象,因此通过事件模板整合能够合并描述同一事件的不同分散事件模板,从而获得高质量的,完整的,规范化的事件模板。
13.一种基于大规模语言模型的事件模板归纳系统,其包括:
14.基于上下文生成的文本概念化模块,用于通过示例学习充分发挥大规模生成式预训练语言模型的生成能力和类比能力,将多样化的事件自然语言表达转换为统一的概念化事件模板语言;
15.基于置信度衡量的事件模板结构化模块,用于利用概念化事件模板语言,通过显著性、可靠性和一致性筛选概念化的事件类别和事件论元角色,从而得到结构化事件模板;
16.基于图的事件模板整合模块,用于利用结构化事件模板,通过图分割聚类算法整合同一事件的分散事件模板。
17.与现有技术相比,本发明的有益效果是:
18.1)能够自动化地归纳高质量,高覆盖度的事件模板。
19.2)基于图的事件模板整合显著提升了发现描述相同事件的聚类性能。
20.3)具有很强的泛化性,在多领域,多语言设置下均能很好地发现事件模板。
附图说明
21.图1为从文本到事件模板的归纳概览图。
22.图2为基于大规模语言模型的事件模板归纳方法示意图。
具体实施方式
23.为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
24.本发明公开了一种基于大规模语言模型的事件模板归纳方法和系统。该方法主要包含:基于上下文生成的文本概念化,基于置信度衡量的事件模板结构化和基于图的事件模板整合三个模块。具体的,基于上下文生成的文本概念化通过示例学习充分发挥大规模生成式预训练语言模型的生成能力和类比能力,将多样化的事件自然语言表达转换为统一的概念化事件模板语言;基于置信度衡量的事件模板结构化通过显著性、可靠性和一致性筛选概念化的事件类别和事件论元角色从而结构化事件模板语言;基于图的事件模板整合
通过图分割聚类算法整合同一事件的分散事件模板。本发明能够在开放场景下有效发现高质量、高覆盖度的事件模板。
25.本发明的一种基于大规模语言模型的事件模板归纳方法,其关键步骤包括:
26.1)基于上下文生成的文本概念化:通过示例学习充分发挥大规模生成式预训练语言模型的生成能力和类比能力,将多样化的事件自然语言表达转换为统一的概念化事件模板语言;
27.2)基于置信度衡量的事件模板结构化:通过显著性、可靠性和一致性筛选概念化的事件类别和事件论元角色,从而结构化事件模板语言;
28.3)基于图的事件模板整合:通过图分割聚类算法整合同一事件的分散事件模板。
29.本发明涉及以下所述的关键要素:
30.1.基于上下文生成的文本概念化
31.给定目标文本text和一个大规模预训练语言模型。基于上下文生成的文本概念化将转换过程建模为文本到事件模板的生成过程:
32.[demonstrations;text]
→
schema
[0033]
其中,demonstrations是一连串的示例,用于指导大规模语言模型如何将自然语言描述转化为统一的概念化事件模板语言,schema表示概念化事件模板语言。每个示例为《文本,事件模板》对。事件模板语言以以下结构组成:“类别:t,论元角色:即用t表示类别,表示多个论元角色。
[0034]
上述文本到事件模板的生成过程是无监督的。因此能够有效解决事件本体知识开放的挑战,有效应对层出不穷的新事件类别。通过选择合适的示例,基于上下文生成的文本概念化也能够快速拓展到不同领域,不同语言。
[0035]
有很多方法可以选择合适的示例。为保证示例的质量和多样性,本发明选择直接从现存的人工标注事件数据集中采样对应的《文本,事件模板》对作为示例。具体地,本发明首先将现存的人工标注事件数据集中采样对应的《文本,事件模板》对按照事件类型进行分组,在采样过程中尽可能保证一组示例中的事件类别不相同。
[0036]
最终,为了召回更多的事件本体知识,本发明对每个目标文本text生成n个候选的事件模板语言
[0037]
2.基于置信度衡量的事件模板结构化
[0038]
给定文本概念化后的结果o,其中第j个样本为为生成的n个候选事件模板语言,textj表示事件原始的自然语言文本表达。
[0039]
首先,基于置信度衡量的事件模板结构化用slotsetj表示n个候选事件模板语言中所有的论元角色。为获得高质量的结构化事件模板,本发明通过衡量显著性,可靠性和一致性来筛选生成的事件类别和事件类别角色。具体的:
[0040]
显著性:若一个论元角色在slotsetj中出现频繁,但在所有的样本o中出现频率相对较小,则表明该论元角色能够更好地代表当前事件,因此也更具有显著性。根据tf-idf的思想,本发明定义第j个样本的论元角色s的显著性为:
[0041][0042]
其中,freq(s)j代表论元角色s在slotsetj中出现的频次,|o|代表样本的总数量,k表示第k个示例。
[0043]
可靠性:若一个论元角色在n个候选事件模板语言中频繁和其他论元角色共现,则表明大规模语言模型在不同的候选转换过程中始终选择预测生成该论元角色,因此也更具有可靠性。根据pagerank的思想,本发明定义第j个样本的论元角色s的可靠性为:
[0044][0045]
其中,β为超参数,|slotsetj|为slotsetj中论元角色的总数,中论元角色的总数,中论元角色的总数,代表论元角色s和sk在同一个候选事件模板语言中出现,k表示第k个事件论元角色。本发明设置所有论元角色的初始化可靠性分数为通过t轮的pagerank算法更新,或所有论元角色的可靠性分数变化小于一个阈值,算法停止得到最终的可靠性估计。
[0046]
一致性:由于大规模预训练语言模型在生成过程中可能产生与输入目标文本不相关的事件模板语言。因此,本发明通过估计生成的事件模板语言与原输入目标文本之间的语义相似度作为第j个样本的论元角色s的一致性得分。
[0047][0048]
其中,sim(
·
)为基于wordnet、hownet和bert的语义相似度计算模型,代表论元角色s和事件类别属于同一个候选事件模板语言c。
[0049]
然后,第j个样本的论元角色s的置信度得分由显著性,可靠性和一致性合并得到:
[0050]
score(s)j=(λ1*salience(s)j+λ2*reliability(s)j)*consistency(s)j[0051]
其中,λ1,λ2为两个超参数。
[0052]
最终,对第j个样本,保留n个候选事件模板中一致性得分最高的事件类别作为最终结构化事件模板的类别,保留slotsetj中置信度得分超过特定阈值的论元角色作为最终结构化事件模板的论元角色。
[0053]
3.基于图的事件模板整合
[0054]
基于图的事件模板整合首先将描述同一个事件的分散事件模板聚类,再将同一个聚类簇中的事件模板对应的事件类别和事件论元角色进行整合。本发明基于以下观察:若事件模板拥有相似的目标自然语言文本表达,预测的事件类别相同或是近义词,预测的事件论元角色高度重合,则这些事件模板很大概率上描述相同的事件。
[0055]
基于上述观察,给定结构化的事件模板o’,其中第j个样本为
基于图的事件模板整合首先构建一个图来建模不同样本的事件模板之间的相似度。其中,图中的每一个节点代表一个样本对应的事件模板,每一个边代表两个样本事件模板之间的文本表达相似度,事件类别相似度和论元角色集合相似度:
[0056][0057]
其中,graph[i][j]表示图graph中第i个节点和第j个节点之间的边的权重,λ3,λ4,λ5为三个超参数,sim(
·
)为基于wordnet,hownet,bert的语义相似度计算模型,sim(texti,textj)、sim(slotseti,slotsetj)分别表示文本表达相似度,事件类别相似度和论元角色集合相似度。
[0058]
给定构建好的事件模板图,本发明利用图分割算法louvain将事件模板进行聚类:
[0059][0060]
其中,代表第j个样本的事件模板被划分到了第个聚类簇。每个聚类簇代表一个特定的事件类别。
[0061]
最终,给定一个聚类簇(types,slots),其中types表示所有聚合后的事件类别,slots表示所有聚合后的事件论元角色类别,slots表示所有聚合后的事件论元角色类别,基于图的事件模板整合选择types中显著性最高的事件类别作为这个簇的最终事件类别。针对论元角色,本发明首先使用louvain算法发现slots中的近义词,对每个近义词集合也同样选择显著性最高的论元角色作为代表。最终,被选择的事件类别和事件论元集合作为最终事件模板输出。
[0062]
下面以追踪自然语言文本“jack和jone在周末举行婚礼。”,“jack和jone的婚礼将在周末举行。”,“公司本周要选举一个新的项目经理。”,“jack和jone周末租了一片草坪用于举行婚礼。”,“公司的新项目需要新的项目经理,选举会在本周完成。”为例,对本发明做进一步说明。
[0063]
实施步骤:
[0064]
(一)基于输入自然语言文本,构建基于大规模语言模型的事件模板归纳模型。在本方法中,包括:利用基于上下文生成的文本概念化,利用基于置信度衡量的事件模板结构化和利用基于图的事件模板整合。
[0065]
(二)基于上下文生成的文本概念化将自然语言文本转化为事件模板语言,如对一个自然语言文本可以得到:“type:结婚,slots:新郎;新娘;时间,参加者”,“type:结婚,slots:新郎;新娘,“type:结婚,slots:新郎;新娘;时间”三个候选事件模板语言。
[0066]
(三)利用基于置信度衡量的事件模板结构化将概念化事件模板语言结构化,如将上述三个候选事件模板语言筛选结构化为:“type:结婚,slots:新郎;新娘;时间”。
[0067]
(四)利用基于图的事件模板整合,将不同自然语言对应的事件模板统一整合。如将第一个,第二个和第四个自然语言对应的事件模板整合为“type:结婚,slots:新郎;新娘;地点;时间。
[0068]
本发明的另一实施例提供一种采用上述方法的基于大规模语言模型的事件模板
归纳系统,其包括:
[0069]
基于上下文生成的文本概念化模块,用于通过示例学习充分发挥大规模生成式预训练语言模型的生成能力和类比能力,将多样化的事件自然语言表达转换为统一的概念化事件模板语言;
[0070]
基于置信度衡量的事件模板结构化模块,用于利用概念化事件模板语言,通过显著性、可靠性和一致性筛选概念化的事件类别和事件论元角色,从而得到结构化事件模板;
[0071]
基于图的事件模板整合模块,用于利用结构化事件模板,通过图分割聚类算法整合同一事件的分散事件模板。
[0072]
本发明的另一实施例提供一种计算机设备(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
[0073]
本发明的另一实施例提供一种计算机可读存储介质(如rom/ram、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
[0074]
以上公开的本发明的具体实施例,其目的在于帮助理解本发明的内容并据以实施,本领域的普通技术人员可以理解,在不脱离本发明的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例所公开的内容,本发明的保护范围以权利要求书界定的范围为准。
技术特征:
1.一种基于大规模语言模型的事件模板归纳方法,其特征在于,包括以下步骤:通过示例学习充分发挥大规模生成式预训练语言模型的生成能力和类比能力,将多样化的事件自然语言表达转换为统一的概念化事件模板语言;利用概念化事件模板语言,通过显著性、可靠性和一致性筛选概念化的事件类别和事件论元角色,得到结构化事件模板;利用结构化事件模板,通过图分割聚类算法整合同一事件的分散事件模板,得到最终的事件模板。2.根据权利要求1所述的方法,其特征在于,所述将多样化的事件自然语言表达转换为统一的概念化事件模板语言,包括:给定目标文本text和一个大规模预训练语言模型,将文本概念化转换过程建模为文本到事件模板的生成过程:[demonstrations;text]
→
schema其中,demonstrations是一连串的示例,用于指导大规模语言模型将自然语言描述转化为统一的概念化事件模板语言,schema表示概念化事件模板语言;每个示例为<文本,事件模板>对;事件模板语言的结构组成为:“类别:t,论元角色:文本到事件模板的生成过程是无监督的;对每个目标文本text生成n个候选的事件模板语言3.根据权利要求2所述的方法,其特征在于,所述示例的选择方法为:将现存的人工标注事件数据集中采样对应的<文本,事件模板>对,按照事件类型进行分组,在采样过程中尽可能保证一组示例中的事件类别不相同。4.根据权利要求2所述的方法,其特征在于,给定文本概念化后的结果o,其中第j个样本为为生成的n个候选事件模板语言,用slotset
j
表示n个候选事件模板语言中所有的论元角色,所述显著性、可靠性和一致性的定义如下:显著性:若一个论元角色在slotset
j
中出现频繁,但在所有的样本o中出现频率相对较小,则表明该论元角色能够更好地代表当前事件,因此也更具有显著性;定义第j个样本的论元角色s的显著性为:其中,freq(s)
j
代表论元角色s在slotset
j
中出现的频次,|o|代表样本的总数量,k表示第k个示例;可靠性:若一个论元角色在n个候选事件模板语言中频繁和其他论元角色共现,则表明大规模语言模型在不同的候选转换过程中始终选择预测生成该论元角色,因此也更具有可靠性;定义第j个样本的论元角色s的可靠性为:
其中,β为超参,|slotset
j
|为slotset
j
中论元角色的总数,中论元角色的总数,代表论元角色s和s
k
在同一个候选事件模板语言中出现,k表示第k个事件论元角色;设置所有论元角色的初始化可靠性分数为一致性:通过估计生成的事件模板语言与原输入目标文本之间的语义相似度作为第j个样本的论元角色s的一致性得分:其中,sim(
·
)为基于wordnet、hownet和bert的语义相似度计算模型,代表论元角色s和事件类别属于同一个候选事件模板语言c。5.根据权利要求4所述的方法,其特征在于,由所述显著性、可靠性和一致性合并得到第j个样本的论元角色s的置信度得分:score(s)
j
=(λ1*salience(s)
j
+λ2*reliability(s)
j
)*consistency(s)
j
其中,λ1,λ2为两个超参;对第j个样本,保留n个候选事件模板中一致性得分最高的事件类别作为最终结构化事件模板的类别,保留slotset
j
中置信度得分超过特定阈值的论元角色作为最终结构化事件模板的论元角色。6.根据权利要求1所述的方法,其特征在于,所述通过图分割聚类算法整合同一事件的分散事件模板,首先将描述同一个事件的分散事件模板聚类,再将同一个聚类簇中的事件模板对应的事件类别和事件论元角色进行整合,其步骤包括:给定结构化的事件模板o’,其中第j个样本为构建一个图来建模不同样本的事件模板之间的相似度,图中的每一个节点代表一个样本对应的事件模板,每一个边代表两个样本事件模板之间的文本表达相似度,事件类别相似度和论元角色集合相似度:其中,graph[i][j]表示图graph中第i个节点和第j个节点之间的边的权重,λ3,λ4,λ5为三个超参数,sim(text
i
,text
j
)、sim(slotset
i
,slotset
j
)分别表示文本表达相似度,事件类别相似度和论元角色集合相似度;给定构建好的事件模板图,利用图分割算法将事件模板进行聚类,每个聚类簇代表一个特定的事件类别;给定一个聚类簇(types,slots),其中types表示所有聚合后的事件类别,slots表示所有聚合后的事件论元角色类别,选择types中显著性最高的事件类别作为该聚类簇的最终事件类别;针对论元角色,首先使用图分割算法发现slots中的近义词,对每个近义词集合同样选择显著性最高的论元角色作为代表;被选择的事件类别和事件论元集合作为最终事件模板输出。
7.根据权利要求6所述的方法,其特征在于,所述图分割算法为louvain算法。8.一种基于大规模语言模型的事件模板归纳系统,其特征在于,包括:基于上下文生成的文本概念化模块,用于通过示例学习充分发挥大规模生成式预训练语言模型的生成能力和类比能力,将多样化的事件自然语言表达转换为统一的概念化事件模板语言;基于置信度衡量的事件模板结构化模块,用于利用概念化事件模板语言,通过显著性、可靠性和一致性筛选概念化的事件类别和事件论元角色,得到结构化事件模板;基于图的事件模板整合模块,用于利用结构化事件模板,通过图分割聚类算法整合同一事件的分散事件模板,得到最终的事件模板。9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~7中任一权利要求所述方法的指令。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~7中任一权利要求所述的方法。
技术总结
本发明公开了一种基于大规模语言模型的事件模板归纳方法和系统。该方法主要包含:基于上下文生成的文本概念化,基于置信度衡量的事件模板结构化和基于图的事件模板整合三个模块。具体的,基于上下文生成的文本概念化通过示例学习充分发挥大规模生成式预训练语言模型的生成能力和类比能力,将多样化的事件自然语言表达转换为统一的概念化事件模板语言;基于置信度衡量的事件模板结构化通过显著性、可靠性和一致性筛选概念化的事件类别和事件论元角色从而结构化事件模板语言;基于图的事件模板整合通过图分割聚类算法整合同一事件的分散事件模板。本发明能够在开放场景下有效发现高质量、高覆盖度的事件模板。高覆盖度的事件模板。高覆盖度的事件模板。
技术研发人员:林鸿宇 陆垚杰 唐家龙 李卓群 韩先培 孙乐
受保护的技术使用者:中国科学院软件研究所
技术研发日:2023.04.13
技术公布日:2023/7/20
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
