多语言多模态命名实体识别方法与流程

未命名 07-22 阅读：126 评论：0

1.本发明涉及语言处理技术领域，具体为多语言多模态命名实体识别方法。

背景技术：

2.近年来，人们通过社交网络分享日常生活和表达个人观点的情况持续增多。社交平台，如推特，是一个引人注目的来源，每天提供数亿个具有多模态功能的媒体数据。近年来的研究主要集中在利用深度学习的方法提取和分析海量图像和文本中的信息，其中包括多模态命名实体识别。与传统的命名实体识别不同，多模态命名实体识别还利用了图像信息来辅助文本进行命名实体(人名、地方名、组织名等)的判断，目前已成为命名实体识别的重要研究方向，并有效地应用于带有图文信息的多模态社交帖子的检测中。
3.目前，多语言实体识别和多模态实体识别都是研究的热点，但缺乏多语言和多模态的融合研究。一方面，尚没有公开的大规模多语言、多模态实体识别数据集；另一方面，文本表示和视觉表示尚没有较好地对齐，多模态的融合并不充分，鉴于此，我们提出多语言多模态命名实体识别方法。

技术实现要素：

4.本发明的目的在于提供多语言多模态命名实体识别方法，以解决上述背景技术中提出的问题。
5.为实现上述目的，本发明提供如下技术方案：
6.多语言多模态命名实体识别方法，包括以下方法：
7.多语言、多模态实体识别数据集构建，以公开的多模态实体识别数据集为基础，根据图片url利用爬虫下载图片，同时借助标注人员识别文本中的命名实体(人名、地名、机构名、杂项)，为提高标注的效率，可以借助实体识别工具(例如spacy)自动识别实体，为标注人员提供参考，这里以多语言数据集mbart50[1]为基础，选取一部分数据并将其划分为多个小的子数据集，之后分发给标注人员进行标注；
[0008]
文本编码器，文本编码采用多语言bert[2]编码器，其输入可为任意一种语言的文本句子，编码器内部为12层transformer[3]，其核心为多头自注意力机制；
[0009]
图片编码器，图片与文本相比，图片的数据量更大，需要效率更高的编码器；
[0010]
多模态对齐模块，文本编码和图片编码在不同的表示空间，在融合之前进行对齐，可以让有关联关系的图文表示更加一致，文本表示由文本编码器生成，图片表示由图片编码器生成；
[0011]
多模态交互模块，多模态交互基于transformer设计图片感知的文本交互和文本感知的图片交互两种多模态融合方式；
[0012]
整体框架，整体框架将上述图文编码器和多个模块组合到一起，完成命名实体识别的任务。
[0013]
优选的，所述因为mbart50数据中缺少人名实体，所以这里再补充twitter-2015和
twitter-2017两个多模态数据集，将英文通过翻译api翻译为法语、西班牙语和德语，之后让标注人员进行标注。
[0014]
优选的，所述文本编码器的输出是文本表征向量，代表了文本的特征和语义信息。
[0015]
优选的，所述图片编码器采用基于卷积神经网络的resnet[4]编码器，通过多层的卷积操作，抽取图片的视觉特征，为获取图片的批特征，将图片分割为n个小块，按顺序拼接为一个序列输入到vit模型中，vit模型也是由12层的transformer组成，其输出对应图片的抽象特征。
[0016]
优选的，所述多模态交互模块的输出拼接到一起，通过crf解码器的解码实现对文本的实体预测。
[0017]
优选的，所述多语言编码器可以采用其它模型代替多语言bert，图片编码器可以采用其它模型代替resnet和vit。
[0018]
优选的，所述多模态对齐模块中的对比损失可以使用其它计算公式代替，多模态交互模块可以采用其它的交互方式。
[0019]
与现有技术相比，本发明的有益效果是：
[0020]
1.该多语言多模态命名实体识别方法，首次构建面向多语言、多模态的大规模实体识别数据集，在此基础上利用图片信息辅助文本的命名实体识别，使用多模态对齐与融合增强实体识别效果。采用不同的编码器对文本和图片编码，通过对比损失实现多模态的对齐，通过transformer设计图片感知的文本交互和文本感知的图片交互两种多模态融合方式，本发明将采用不同的图文编码器生成多模态表征，同时进行多模态的对齐和深度融合，进而提升实体识别的准确率。
[0021]
2.该多语言多模态命名实体识别方法，首次将多语言、多模态结合在一起做实体识别任务，通过多语言编码、多模态对齐交互完成了这一具有挑战性的任务，通过图文数据的学习和训练，模型能够结合图片预测文本中的实体。
附图说明
[0022]
图1为本发明的标注后的数据集划分为训练集、验证集和测试集，统计图；
[0023]
图2为本发明中bert模型架构如下图所示；
[0024]
图3为本发明中模块结构图；
[0025]
图4为本发明中整体架构图；
[0026]
图5为本发明中resnet-50的架构图。
具体实施方式
[0027]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0028]
在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于
描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。
[0029]
在本专利的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“设置”应做广义理解，例如，可以是固定相连、设置，也可以是可拆卸连接、设置，或一体地连接、设置。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本专利中的具体含义。
[0030]
此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。
[0031]
请参阅图1-图5所示，本发明提供的一种技术方案：
[0032]
多语言多模态命名实体识别方法，包括以下方法：
[0033]
多语言、多模态实体识别数据集构建，以公开的多模态实体识别数据集为基础，根据图片url利用爬虫下载图片，同时借助标注人员识别文本中的命名实体(人名、地名、机构名、杂项)，为提高标注的效率，可以借助实体识别工具(例如spacy)自动识别实体，为标注人员提供参考，这里以多语言数据集mbart50[1]为基础，选取一部分数据并将其划分为多个小的子数据集，之后分发给标注人员进行标注；
[0034]
文本编码器，文本编码采用多语言bert[2]编码器，其输入可为任意一种语言的文本句子，编码器内部为12层transformer[3]，其核心为多头自注意力机制；
[0035]
图片编码器，图片与文本相比，图片的数据量更大，需要效率更高的编码器；
[0036]
多模态对齐模块，文本编码和图片编码在不同的表示空间，在融合之前进行对齐，可以让有关联关系的图文表示更加一致，文本表示由文本编码器生成，图片表示由图片编码器生成；
[0037]
多模态交互模块，多模态交互基于transformer设计图片感知的文本交互和文本感知的图片交互两种多模态融合方式；
[0038]
整体框架，整体框架将上述图文编码器和多个模块组合到一起，完成命名实体识别的任务。
[0039]
进一步的，因为mbart50数据中缺少人名实体，所以这里再补充twitter-2015和twitter-2017两个多模态数据集，将英文通过翻译api翻译为法语、西班牙语和德语，之后让标注人员进行标注。
[0040]
进一步的，文本编码器的输出是文本表征向量，代表了文本的特征和语义信息。
[0041]
进一步的，图片编码器采用基于卷积神经网络的resnet[4]编码器，通过多层的卷积操作，抽取图片的视觉特征，为获取图片的批特征，将图片分割为n个小块，按顺序拼接为一个序列输入到vit模型中，vit模型也是由12层的transformer组成，其输出对应图片的抽象特征。
[0042]
进一步的，多模态交互模块的输出拼接到一起，通过crf解码器的解码实现对文本的实体预测。
[0043]
进一步的，多语言编码器可以采用其它模型代替多语言bert，图片编码器可以采用其它模型代替resnet和vit。
[0044]
进一步的，多模态对齐模块中的对比损失可以使用其它计算公式代替，多模态交互模块可以采用其它的交互方式。
[0045]
本实施例的多语言多模态命名实体识别方法，首次构建面向多语言、多模态的大规模实体识别数据集，在此基础上利用图片信息辅助文本的命名实体识别，使用多模态对齐与融合增强实体识别效果。采用不同的编码器对文本和图片编码，通过对比损失实现多模态的对齐，通过transformer设计图片感知的文本交互和文本感知的图片交互两种多模态融合方式，首次将多语言、多模态结合在一起做实体识别任务，通过多语言编码、多模态对齐交互完成了这一具有挑战性的任务，通过图文数据的学习和训练，模型能够结合图片预测文本中的实体。
[0046]
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

技术特征：
1.多语言多模态命名实体识别方法，其特征在于，包括以下方法：多语言、多模态实体识别数据集构建，以公开的多模态实体识别数据集为基础，根据图片url利用爬虫下载图片，同时借助标注人员识别文本中的命名实体(人名、地名、机构名、杂项)，为提高标注的效率，可以借助实体识别工具(例如spacy)自动识别实体，为标注人员提供参考，这里以多语言数据集mbart50[1]为基础，选取一部分数据并将其划分为多个小的子数据集，之后分发给标注人员进行标注；文本编码器，文本编码采用多语言bert[2]编码器，其输入可为任意一种语言的文本句子，编码器内部为12层transformer[3]，其核心为多头自注意力机制；图片编码器，图片与文本相比，图片的数据量更大，需要效率更高的编码器；多模态对齐模块，文本编码和图片编码在不同的表示空间，在融合之前进行对齐，可以让有关联关系的图文表示更加一致，文本表示由文本编码器生成，图片表示由图片编码器生成；多模态交互模块，多模态交互基于transformer设计图片感知的文本交互和文本感知的图片交互两种多模态融合方式；整体框架，整体框架将上述图文编码器和多个模块组合到一起，完成命名实体识别的任务。2.根据权利要求1所述的多语言多模态命名实体识别方法，其特征在于：所述因为mbart50数据中缺少人名实体，所以这里再补充twitter-2015和twitter-2017两个多模态数据集，将英文通过翻译api翻译为法语、西班牙语和德语，之后让标注人员进行标注。3.根据权利要求1所述的多语言多模态命名实体识别方法，其特征在于：所述文本编码器的输出是文本表征向量，代表了文本的特征和语义信息。4.根据权利要求1所述的多语言多模态命名实体识别方法，其特征在于：所述图片编码器采用基于卷积神经网络的resnet[4]编码器，通过多层的卷积操作，抽取图片的视觉特征，为获取图片的批特征，将图片分割为n个小块，按顺序拼接为一个序列输入到vit模型中，vit模型也是由12层的transformer组成，其输出对应图片的抽象特征。5.根据权利要求1所述的多语言多模态命名实体识别方法，其特征在于：所述多模态交互模块的输出拼接到一起，通过crf解码器的解码实现对文本的实体预测。6.根据权利要求1所述的多语言多模态命名实体识别方法，其特征在于：所述多语言编码器可以采用其它模型代替多语言bert，图片编码器可以采用其它模型代替resnet和vit。7.根据权利要求1所述的多语言多模态命名实体识别方法，其特征在于：所述多模态对齐模块中的对比损失可以使用其它计算公式代替，多模态交互模块可以采用其它的交互方式。

技术总结
本发明涉及语言处理技术领域，具体为多语言多模态命名实体识别方法，包括以下方法：多语言、多模态实体识别数据集构建，以公开的多模态实体识别数据集为基础，根据图片URL利用爬虫下载图片，同时借助标注人员识别文本中的命名实体(人名、地名、机构名、杂项)，为提高标注的效率，可以借助实体识别工具(例如spaCy)自动识别实体，为标注人员提供参考，这里以多语言数据集mBART50[1]为基础，选取一部分数据并将其划分为多个小的子数据集，之后分发给标注人员进行标注；文本编码器，文本编码采用多语言BERT[2]编码器，其输入可为任意一种语言的文本句子，编码器内部为12层Transformer[3]，其核心为多头自注意力机制。其核心为多头自注意力机制。

技术研发人员：王东升柳泽明范红杰易芸皑
受保护的技术使用者：珠海凤泽信息科技有限公司
技术研发日：2023.04.25
技术公布日：2023/7/20

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

多语言多模态命名实体识别方法与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

多语言多模态命名实体识别方法与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表