基于强化学习与人在回路的地质命名实体识别方法及系统

未命名 09-22 阅读：179 评论：0

1.本发明涉及地质文本识别领域，尤其涉及一种基于强化学习与人在回路的地质命名实体识别方法及系统。

背景技术：

2.随着新一代信息技术的研发与部署，全球各单位已经存储了海量的地质文本数据。地质实体是地质信息的重要组成部分，对其进行精准识别可实现非结构地质数据的迅速增值，是地质文本理解与地质知识图谱构建的基础且关键的任务之一。
3.目前命名实体识别主要包括基于字典和规则的方法、基于统计学的机器学习方法以及近几年研究较多的深度学习方法。基于深度学习的方法中大多需要大量的实体标注。通过构建相应的神经网络模型，基于命名实体语料库进行充分训练，可以得到较好的识别效果。
4.但是已标注的语料中存在部分错误的样本实例，这些样本实例在深度学习模型训练过程中将会产生较大影响。
5.另外，传统的深度学习模型训练完成后，在使用过程中无法较好地针对地质研究的深入动态地进行学习与优化，因此导致模型对训练样本中分布稀疏的实体以及新实体识别效果不佳。

技术实现要素：

6.为解决上述技术问题，本发明提供一种基于强化学习与人在回路的地质命名实体识别方法，包括以下步骤：
7.s1：构建基础地质命名的实体识别语料库，将实体识别语料库划分为训练集和测试集；
8.s2：构建地质命名实体识别模型和智能体，通过训练集、测试集和智能体对地质命名实体识别模型进行迭代训练，获得优化后的地质命名实体识别模型；
9.s3：获取待识别数据，通过优化后的地质命名实体识别模型对待识别数据进行识别，获得识别结果；
10.s4：基于人在回路对识别结果进行错误纠正，获得正确的识别结果，将正确的识别结果作为新的测试集返回步骤s2继续训练。
11.优选的，步骤s2具体为：
12.s21：通过地质命名实体识别模型对训练集中的各实体进行预测打分，获得预测结果集合；
13.s22：获取训练集的实际标签集合，通过预测结果集合和实际标签集合构建当前状态；
14.s23：智能体基于当前状态采取可在将来获得更大奖励值的行动，获得训练参数；
15.s24：将训练参数输入地质命名实体识别模型完成一次训练；
16.s25：将完成一次训练后的地质命名实体识别模型通过测试集进行测试，获得测试标签，将测试标签输入智能体计算获得奖励值；
17.s26：构建目标函数，通过奖励值计算获得目标函数的目标值；
18.s27：重复步骤s21-s26，直至目标值大于预设值，获得优化后的地质命名实体识别模型。
19.优选的，t时刻的当前状态s
t
包含预测结果集合s
pt
与实际标签集合s
yt
两个部分，当前状态s
t
的表达式为：s
t
＝(s
pt
,s
yt
)，t表示时刻。
20.优选的，步骤s23具体为：
21.s231：为减小错误标签的影响，将行动a
t
转化为二分类任务，表达式为：
[0022][0023]
当l为预测结果集合s
pt
时行动a
t
取值为0，当l为实际标签集合s
yt
时行动a
t
取值为1，t表示时刻；
[0024]
s232：构建行动选择的策略函数计算获得训练参数，表达式为：
[0025]
π(a
t
|s
t
；θ)＝sigmoid(ws
t
+b)
[0026]
其中，θ＝{w,b}为训练参数，w为权重参数，b为偏置参数，s
t
为当前状态，sigmoid()为激活函数。
[0027]
优选的，奖励值的计算公式为：
[0028][0029]
其中，r为奖励值，test表示测试集，ei表示智能体最终选择的实体i的测试标签，yi表示实体i的实际标签，i表示实体的编号，p()为概率函数。
[0030]
优选的，目标函数的目标值的计算公式为：
[0031][0032]
其中，g(θ)为目标值，r为奖励值，θ为训练参数，π(a
1:n
|s
1:n
；θ)为策略函数，n为含有错误标签的实体样本数量，e()为期望函数。
[0033]
一种基于强化学习与人在回路的地质命名实体识别系统，包括以下模块：
[0034]
语料库构建模块，用于构建基础地质命名的实体识别语料库，将实体识别语料库划分为训练集和测试集；
[0035]
强化学习模块，用于构建地质命名实体识别模型和智能体，通过训练集、测试集和智能体对地质命名实体识别模型进行迭代训练，获得优化后的地质命名实体识别模型；
[0036]
识别结果获取模块，用于获取待识别数据，通过优化后的地质命名实体识别模型对待识别数据进行识别，获得识别结果；
[0037]
人在回路模块，用于基于人在回路对识别结果进行错误纠正，获得正确的识别结果，将正确的识别结果作为新的测试集返回步骤s2继续训练。
[0038]
本发明具有以下有益效果：
[0039]
本发明基于强化学习的思想，通过当前状态、策略函数设计、智能体的行动选择以及延迟奖励机制对地质命名实体识别模型进行迭代训练，该训练过程对数据依赖程度更
低，通过智能体基于当前环境进行试错，依据奖赏机制不断调整参数，不断优化，不断提高地质文本的识别精度；并且在地质命名实体识别模型的优化过程中加入人在回路机制，能够结合专家的智慧，帮助模型在运行过程中实现动态地参数更新与模型优化。
附图说明
[0040]
图1为本发明实施例方法流程图；
[0041]
图2为地质命名实体识别模型训练流程图；
[0042]
本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
[0043]
应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0044]
参照图1，本发明提供一种基于强化学习与人在回路的地质命名实体识别方法，包括以下步骤：
[0045]
s1：构建基础地质命名的实体识别语料库，将实体识别语料库划分为训练集和测试集；
[0046]
s2：构建地质命名实体识别模型和智能体，通过训练集、测试集和智能体对地质命名实体识别模型进行迭代训练，获得优化后的地质命名实体识别模型；
[0047]
s3：获取待识别数据，通过优化后的地质命名实体识别模型对待识别数据进行识别，获得识别结果；
[0048]
s4：基于人在回路对识别结果进行错误纠正，获得正确的识别结果，将正确的识别结果作为新的测试集返回步骤s2继续训练。
[0049]
进一步的，步骤s1中的基础地质命名的实体识别语料库的构建，针对的是常规地质文本，嵌套实体、长实体所占全部地质实体比例较小。收集大量地质文本后，通过bioes方式对文本进行标注，且以min、roc、str、pla、gtm分别表示矿物、岩石、地质构造、地名、地质年代五类实体。
[0050]
进一步的，地质命名实体识别模型的结构为geobert+bilstm+crf，geobert为地质领域预训训练模型，能够对地质文本进行更加准确的表征；bilstm能够基于表征结果进行特征学习；crf能够为预测结果集合s
pt
添加约束，预测结果的可靠性；步骤s2的训练过程为基于强化学习的思想来减小错误标签对模型训练的影响，包含状态构建、策略设计、智能体(agent)的行动选择以及延迟奖励机制；
[0051]
参照图2，步骤s2具体为：
[0052]
s21：通过地质命名实体识别模型对训练集中的各实体进行预测打分，获得预测结果集合；
[0053]
s22：获取训练集的实际标签集合，通过预测结果集合和实际标签集合构建当前状态；
[0054]
s23：智能体基于当前状态采取可在将来获得更大奖励值的行动，获得训练参数；
[0055]
s24：将训练参数输入地质命名实体识别模型完成一次训练；
[0056]
s25：将完成一次训练后的地质命名实体识别模型通过测试集进行测试，获得测试标签，将测试标签输入智能体计算获得奖励值；
[0057]
s26：构建目标函数，通过奖励值计算获得目标函数的目标值；
[0058]
s27：重复步骤s21-s26，直至目标值大于预设值，获得优化后的地质命名实体识别模型。
[0059]
进一步的，t时刻的当前状态s
t
包含预测结果集合s
pt
与实际标签集合s
yt
两个部分，当前状态s
t
的表达式为：s
t
＝(s
pt
,s
yt
)，t表示时刻。
[0060]
进一步的，步骤s23具体为：
[0061]
s231：为减小错误标签的影响，将行动a
t
转化为二分类任务，表达式为：
[0062][0063]
当l为预测结果集合s
pt
时行动a
t
取值为0，当l为实际标签集合s
yt
时行动a
t
取值为1，t表示时刻；
[0064]
s232：模型训练过程中，行动选取的策略也需要不断优化，为此以概率分布函数为行动选择的策略函数，在每一步行动选择时，均选择最高概率的行动；
[0065]
构建行动选择的策略函数计算获得训练参数，表达式为：
[0066]
π(a
t
|s
t
；θ)＝sigmoid(ws
t
+b)
[0067]
其中，θ＝{w,b}为训练参数，w为权重参数，b为偏置参数，s
t
为当前状态，sigmoid()为激活函数。
[0068]
进一步的，本发明设计的奖励属于延迟奖励，即在模型采取行动后对识别模型参数产生影响后，通过对于测试集的数据进行预测，并反馈给智能体，从而得到奖励值；
[0069]
奖励值的计算公式为：
[0070][0071]
其中，r为奖励值，test表示测试集，ei表示智能体最终选择的实体i的测试标签，yi表示实体i的实际标签，i表示实体的编号，p()为概率函数。
[0072]
进一步的，在训练的整个回路中，为帮助策略的不断优化，以n表示含有错误标签的实体样本数量，可建立目标函数进一步优化训练；
[0073]
目标函数的目标值的计算公式为：
[0074][0075]
其中，g(θ)为目标值，r为奖励值，θ为训练参数，π(a
1:n
|s
1:n
；θ)为策略函数，n为含有错误标签的实体样本数量，e()为期望函数。
[0076]
将步骤s2综合起来，参数θ＝{w,b}的迭代更新可表示为：
[0077][0078]
进一步的，通过步骤s4针对易识别错误的实体基于人在回路对模型进行进一步优化，这些实体包括长实体、嵌套实体、以及新的实体。
[0079]
具体的，这些实体在经过优化后的地质命名实体识别模型识别后，将会得到预测值；同时选择地质领域有经验有知识的人类专家对实体进行标注，与人在回路中专家反馈的值共同构成状态；同时，该数据将会更新到测试集；通过新的测试集，重复s2到s3的过程，
完成地质命名实体识别模型在运行时的动态更新。
[0080]
本发明提供一种基于强化学习与人在回路的地质命名实体识别系统，包括以下模块：
[0081]
语料库构建模块，用于构建基础地质命名的实体识别语料库，将实体识别语料库划分为训练集和测试集；
[0082]
强化学习模块，用于构建地质命名实体识别模型和智能体，通过训练集、测试集和智能体对地质命名实体识别模型进行迭代训练，获得优化后的地质命名实体识别模型；
[0083]
识别结果获取模块，用于获取待识别数据，通过优化后的地质命名实体识别模型对待识别数据进行识别，获得识别结果；
[0084]
人在回路模块，用于基于人在回路对识别结果进行错误纠正，获得正确的识别结果，将正确的识别结果作为新的测试集返回步骤s2继续训练。
[0085]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0086]
上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序，可将这些词语解释为标识。
[0087]
以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

技术特征：
1.一种基于强化学习与人在回路的地质命名实体识别方法，其特征在于，包括以下步骤：s1：构建基础地质命名的实体识别语料库，将实体识别语料库划分为训练集和测试集；s2：构建地质命名实体识别模型和智能体，通过训练集、测试集和智能体对地质命名实体识别模型进行迭代训练，获得优化后的地质命名实体识别模型；s3：获取待识别数据，通过优化后的地质命名实体识别模型对待识别数据进行识别，获得识别结果；s4：基于人在回路对识别结果进行错误纠正，获得正确的识别结果，将正确的识别结果作为新的测试集返回步骤s2继续训练。2.根据权利要求1所述的基于强化学习与人在回路的地质命名实体识别方法，其特征在于，步骤s2具体为：s21：通过地质命名实体识别模型对训练集中的各实体进行预测打分，获得预测结果集合；s22：获取训练集的实际标签集合，通过预测结果集合和实际标签集合构建当前状态；s23：智能体基于当前状态采取可在将来获得更大奖励值的行动，获得训练参数；s24：将训练参数输入地质命名实体识别模型完成一次训练；s25：将完成一次训练后的地质命名实体识别模型通过测试集进行测试，获得测试标签，将测试标签输入智能体计算获得奖励值r；s26：构建目标函数，通过奖励值计算获得目标函数的目标值；s27：重复步骤s21-s26，直至目标值大于预设值，获得优化后的地质命名实体识别模型。3.根据权利要求2所述的基于强化学习与人在回路的地质命名实体识别方法，其特征在于，t时刻的当前状态s
t
包含预测结果集合s
pt
与实际标签集合s
yt
两个部分，当前状态s
t
的表达式为：s
t
＝(s
pt
,s
yt
)，t表示时刻。4.根据权利要求3所述的基于强化学习与人在回路的地质命名实体识别方法，其特征在于，步骤s23具体为：s231：为减小错误标签的影响，将行动a
t
转化为二分类任务，表达式为：当l为预测结果集合s
pt
时行动a
t
取值为0，当l为实际标签集合s
yt
时行动a
t
取值为1，t表示时刻；s232：构建行动选择的策略函数计算获得训练参数，表达式为：π(a
t
|s
t
；θ)＝sigmoid(ws
t
+b)其中，θ＝{w,b}为训练参数，w为权重参数，b为偏置参数，s
t
为当前状态，sigmoid()为激活函数。5.根据权利要求2所述的基于强化学习与人在回路的地质命名实体识别方法，其特征在于，奖励值的计算公式为：
其中，r为奖励值，test表示测试集，e
i
表示智能体最终选择的实体i的测试标签，y
i
表示实体i的实际标签，i表示实体的编号，p()为概率函数。6.根据权利要求4所述的基于强化学习与人在回路的地质命名实体识别方法，其特征在于，目标函数的目标值的计算公式为：其中，g(θ)为目标值，r为奖励值，θ为训练参数，π(a
1:n
|s
1:n
；θ)为策略函数，n为含有错误标签的实体样本数量，e()为期望函数。7.一种基于强化学习与人在回路的地质命名实体识别系统，其特征在于，包括以下模块：语料库构建模块，用于构建基础地质命名的实体识别语料库，将实体识别语料库划分为训练集和测试集；强化学习模块，用于构建地质命名实体识别模型和智能体，通过训练集、测试集和智能体对地质命名实体识别模型进行迭代训练，获得优化后的地质命名实体识别模型；识别结果获取模块，用于获取待识别数据，通过优化后的地质命名实体识别模型对待识别数据进行识别，获得识别结果；人在回路模块，用于基于人在回路对识别结果进行错误纠正，获得正确的识别结果，将正确的识别结果作为新的测试集返回步骤s2继续训练。

技术总结
本发明提供一种基于强化学习与人在回路的地质命名实体识别方法及系统，包括：S1：将实体识别语料库划分为训练集和测试集；S2：通过训练集、测试集和智能体对地质命名实体识别模型进行迭代训练，获得优化后的地质命名实体识别模型；S3：通过优化后的地质命名实体识别模型对待识别数据进行识别，获得识别结果；S4：基于人在回路对识别结果进行错误纠正，将正确的识别结果作为新的测试集返回步骤S2继续训练。本发明对数据依赖程度更低，通过智能体基于当前环境进行试错，依据奖赏机制不断调整参数，不断优化，不断提高地质文本的识别精度；加入人在回路机制，能够结合专家的智慧，帮助模型在运行过程中实现动态地参数更新与模型优化。在运行过程中实现动态地参数更新与模型优化。在运行过程中实现动态地参数更新与模型优化。

技术研发人员：邱芹军马凯郑帅谢忠郑诗语陶留锋
受保护的技术使用者：三峡大学
技术研发日：2023.06.02
技术公布日：2023/9/20

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：用粘度控制剂稳定的微胶囊组合物的制作方法 下一篇：一种抑制碱骨料反应的复合掺合料及其制备方法与流程

基于强化学习与人在回路的地质命名实体识别方法及系统

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

基于强化学习与人在回路的地质命名实体识别方法及系统

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表