基于多模态信息的场景文字特征提取方法、装置及应用

未命名 07-27 阅读：166 评论：0

1.本发明涉及场景图像处理技术领域，具体涉及一种基于多模态信息的场景文字特征提取方法、装置及应用。

背景技术：

2.在场景图像中同时包含场景文字和场景目标物体，自然场景中的文本往往能够传达出一种重要的高级语义信息，比如有商品的购物信息，交通信息等。场景文字理解技术的不断发展让计算机视觉系统开始具有阅读的能力。而现有的场景图像处理任务中大多忽略了场景文字这一重要信息。因此提出一种方法来充分识别利用这些信息非常必要。

技术实现要素：

3.针对上述现有技术存在的问题，本发明提供了一种基于多模态信息的场景文字特征提取方法、装置及应用，结合视觉特征和语义特征，有效增强场景文字特征质量，应用于面向场景文字的场景图像字幕生成等场景图像处理任务中，有效提升场景图像处理任务效果。该技术方案如下：
4.第一方面，提供一种基于多模态信息的场景文字特征提取方法，包括：
5.基于场景图像，获取场景图像中的文本模态数据和文本模态数据对应的图像模态数据，所述图像模态数据为场景图像中所述文本模态数据所在位置的区域图像；
6.基于图像模态数据提取视觉特征，基于文本模态数据提取语义特征；
7.基于所述语义特征和视觉特征进行融合，获取场景文字的融合特征。
8.在一些实施方式中，所述基于图像模态数据提取视觉特征，包括：基于区域图像至少两种图像特征进行第一处理方法得到视觉特征；
9.所述基于文本模态数据提取语义特征，包括：基于文本模态数据的至少两种文本特征进行第二处理方法得到语义特征。
10.在一些实施方式中，所述区域图像的图像特征包括第一图像特征和第二图像特征，
11.所述第一图像特征采用卷积神经网络以区域图像作为输入提取；
12.所述区域图像基于场景图像中文本模态数据的检测框得到，所述区域图像的第二图像特征基于所述检测框坐标信息得到；
13.所述第一处理方法，包括：基于区域图像至少两种图像特征依次进行拼接、线性变换、正则化和激活函数处理。
14.在一些实施方式中，所述文本模态数据的文本特征，包括：phoc特征和fasttext文本特征；所述第二处理方法包括：基于文本模态数据的至少两种文本特征依次进行拼接、线性变换、正则化和激活函数处理。
15.在一些实施方式中，所述场景文字特征提取方法中的至少一个步骤采用神经网络，针对所述场景文字特征提取方法中每个神经网络的网络层模型参数训练方法，包括：
16.损失函数l1基于语义特征和视觉特征的相似度分数矩阵s
vs
与真值目标的相似度矩阵t
vs
的交叉熵函数ce确定，l1＝ce(s
vs
,t
vs
),其中，
17.sc
ij
表征第i个场景文字的视觉特征和第j个场景文字的语义特征的关联度。
18.在一些实施方式中，在一些实施方式中，为第i个场景文字的视觉特征、为第j个场景文字的语义特征。
19.在一些实施方式中，所述基于所述语义特征和视觉特征进行融合，采用语义特征和视觉特征相加进行融合。
20.第二方面，提供一种基于上述场景文字特征提取方法的场景图像处理方法，记所述场景图像处理方法中所述场景文字特征提取方法过程中采用的所有神经网络模块记为第一模块，所述场景图像处理方法中余下所有神经网络模块记为第二模块，所述场景图像处理方法中所有神经网络的训练损失函数为l
total
＝ηl1+l2，其中l1为第一模块对应的损失函数，l2为第二模块对应的损失函数。
21.在一些实施方式中，当所述场景图像处理为场景图像字幕生成时，所述第二模块包括场景图像目标物体特征提取模块、目标物体特征和场景文字特征融合模块、图像字幕生成模块，所述第二模块对应的损失函数l2基于图像字幕生成模块生成的句子中单词的概率分布与目标真值句子中的概率分布的交叉熵函数ce确定。
22.第三方面，提供一种基于多模态信息的场景文字特征提取装置，包括：
23.多模态数据获取单元，用于基于场景图像，获取场景图像中的文本模态数据和文本模态数据对应的图像模态数据，所述图像模态数据为场景图像中所述文本模态数据所在位置的区域图像；
24.多模态特征提取单元，用于基于图像模态数据提取视觉特征，基于文本模态数据提取语义特征；
25.场景文字特征提取单元，用于基于所述语义特征和视觉特征进行融合，获取场景文字的融合特征。
26.第四方面，提供一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时实现上述第一方面所述的场景文字特征提取方法。
27.本发明的一种基于多模态信息的场景文字特征提取方法及装置，具备如下有益效果：本发明对于场景文字数据，考虑其自身同时包含视觉的字符和语义的文字两种模态数据的特性，分别基于图像模态和文本模态进行特征分析提取，充分挖掘场景文字深层信息，有效增强场景文字特征质量，从而模型能更好理解图像中的场景文字，将该场景文字特征提取方法应用于面向场景文字的场景图像字幕生成等场景图像处理任务中，有效提升场景图像处理模型任务效果。
附图说明
28.图1是本技术实施例中基于多模态信息的场景文字特征提取方法的流程示意图；
29.图2是本技术实施例中基于多模态信息的场景文字特征提取装置的结构示意图。
具体实施方式
30.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
31.本技术实施例提供一种基于多模态信息的场景文字特征提取方法，该方法包括：
32.步骤1，基于场景图像，获取场景图像中的文本模态数据和文本模态数据对应的图像模态数据，所述图像模态数据为场景图像中所述文本模态数据所在位置的区域图像；
33.步骤2，基于图像模态数据提取视觉特征，基于文本模态数据提取语义特征；
34.步骤3，基于所述语义特征和视觉特征进行融合，获取场景文字的融合特征。
35.本技术实施例中，对于场景文字数据，考虑其自身同时包含视觉的字符和语义的文字两种模态数据的特性，分别基于图像模态和文本模态进行特征分析提取，充分挖掘场景文字深层信息，有效增强场景文字特征质量，从而模型能更好理解图像中的场景文字，提升场景图像处理模型任务效果。基于场景文字特征提取方法可以应用于多种场景图像处理任务中，例如基于场景图像的视觉问答任务、场景图像的字幕生成任务等。
36.在实施中，基于上述步骤1-3构建整个场景文字特征提取模型，该模型中至少有一个步骤采用神经网络，当然，可以对于上述获取文本模态数据、获取图像模态数据、提取视觉特征、提取语义特征的多个步骤均采用神经网络模型构建，从而形成整体的场景文字特征提取模型，通过样本数据对该场景文字特征提取模型进行迭代训练，获取性能最好的场景文字特征提取模型，进而基于该场景文字特征提取模型进行上述场景文字特征提取方法。
37.在一种实施方式中，上述步骤2中：
38.步骤21，基于图像模态数据提取视觉特征，包括：基于区域图像至少两种图像特征进行第一处理方法得到视觉特征；
39.步骤22，基于文本模态数据提取语义特征，包括：基于文本模态数据的至少两种文本特征进行第二处理方法得到语义特征。
40.考虑到场景文字的图像模态数据是场景文字区域的图片，不同于一般图像，它们的大小尺寸和分辨率变化很大，单一的视觉编码方式无法表征完整的视觉特征，本技术实施例中基于区域图像采用至少两种视觉编码方式提取至少两种图像特征。另外，由于场景图像包含的场景文字不同于一般自然语言，一般是商标、符号等文字，不具有明显的语义，同时场景文字识别的结果还因为文字的方向，字体艺术字等包含不少错误识别的结果。本技术实施例中基于场景文字的文本模态数据提取至少两种文本特征，用于获取场景文字的语义特征。
41.考虑到要结合文本模态数据对应的图像模态数据充分挖掘场景文字深层信息，图像模态信息提取的图像特征需要和文本模态信息提取的语义特征进行关联分析和匹配分
析，本技术实施例中，对多种图像特征和多种文本特征分别单独处理，对于多种图像特征通过第一处理方法得到视觉特征，通过该第一处理方法，实现基于多种图像特征的深层特征挖掘和融合，对于多种文本特征通过第二处理方法得到视觉特征，通过该第二处理方法，实现基于多种文本特征的深层特征挖掘和融合。
42.在一种实施方式中，上述步骤21中：区域图像的图像特征包括第一图像特征和第二图像特征，
43.第一图像特征采用卷积神经网络以区域图像作为输入提取；
44.区域图像基于场景图像中文本模态数据的检测框得到，区域图像的第二图像特征基于所述检测框坐标信息得到；
45.上述步骤21中的第一处理方法，包括：基于区域图像至少两种图像特征依次进行拼接、线性变换、正则化和激活函数处理。
46.本技术实施例中，区域图像至少两种图像特征包括第一图像特征和第二图像特征，其中第一图像特征基于卷积神经网络提取，第二图像特征表征图像的位置坐标特征，在一种实施方式中，第一图像特征和第二图像特征可以基于faster rcnn网络的卷积提取网络和区域生成网络实现，即第一图像特征和第二图像特征基于一个faster rcnn网络实现。
47.在一种实施方式中，上述步骤22中：文本模态数据的文本特征，包括：phoc特征(pyramidal histogram of characters)和fasttext文本特征；第二处理方法包括：基于文本模态数据的至少两种文本特征依次进行拼接、线性变换、正则化和激活函数处理。
48.在一种实施方式中，上述步骤3中：基于所述语义特征和视觉特征进行融合，采用语义特征和视觉特征相加进行融合。
49.在一种实施方式中，上述步骤中的场景文字特征提取方法中的至少一个步骤采用神经网络，针对所述场景文字特征提取方法中每个神经网络的网络层模型参数训练方法，包括：
50.步骤31，损失函数l1基于语义特征和视觉特征的相似度分数矩阵s
vs
与真值目标的相似度矩阵t
vs
的交叉熵函数ce确定，l1＝ce(s
vs
,t
vs
),其中，
51.sc
ij
表征第i个场景文字的视觉特征和第j个场景文字的语义特征的关联度。
52.本技术实施例中，场景文字特征提取方法整个过程中，包括以原始场景图像为输入，用于分别提取多种图像特征的多个图像特征提取模块，用于分别提取多种文本特征的多个文本特征提取模块，用于执行第一处理方法的视觉特征获取模块，用于执行第二处理方法的语义特征获取模块，对于多个图像特征提取模块、多个文本特征提取模块、视觉特征获取模块、语义特征获取模块这些模块的模型参数训练过程，基于视觉特征获取模块和语义特征获取模块分别输出的视觉特征和语义特征，计算相似度分数矩阵s
vs
，并基于s
vs
和预设的真值目标的相似度矩阵t
vs
计算损失函数，本技术实施例中，基于交叉熵函数ce计算损失函数，基于计算的损失函数，经过反向传播进行模型参数迭代优化，进行场景文字特征提取方法的模型训练过程，直至达到预设迭代停止条件，获取训练完成的场景文字特征提取
方法整体模型。
53.具体来说，本技术中基于sc
ij
即场景文字的多模态信息的多模态特征(视觉特征和语义特征)的关联度进行场景文字的多模态信息的多模态特征之间的关联分析和匹配分析，实现结合文本模态数据对应的图像模态数据挖掘场景文字深层信息。可以理解，在理想情况下，场景文字的多模态信息的多模态特征应该具有一致性，即场景图像中同一场景文字数据的多模态信息的多模态特征之间的关联度为1，场景图像中不同场景文字数据的多模态信息的多模态特征之间的关联度为0，例如对于场景图像中的场景文字数据a和场景文字数据b，场景文字数据a的视觉特征和语义特征的关联度为1，场景文字数据a的视觉特征和场景文字数据b的语义特征的关联度为0。
54.在分析矩阵s
vs
与矩阵t
vs
的交叉熵函数ce前，需要先将矩阵s
vs
中的每个数值进行归一化到0-1之间，然后通过不断迭代训练，实现矩阵s
vs
的分布不断趋近矩阵t
vs
。
55.另外，本技术中计算sc
ij
之前，需要将每个场景文字的语义特征和视觉特征经过归一化处理得到d维向量和在训练时，选取数据集里单张图片包含ocr数量的最大值作为矩阵尺寸的固定值进行训练。
56.本技术实施例中，场景文字特征提取过程中，模型采用端到端的方式而非预训练后再进行下游任务微调的方式，训练成本较低。经过基于上述损失函数l1训练过的场景文字特征提取过程的所有神经网络，实现在场景文字特征提取过程中对场景文字的多模态信息的多模态特征(视觉特征和语义特征)的关联分析，进一步实现充分挖掘场景文字深层信息，有效增强场景文字特征质量。
57.上述步骤31的损失函数l1中，第i个场景文字的视觉特征和第j个场景文字的语义特征的关联度sc
ij
可以采用任意关联分析方式，本技术实施例中基于计算，为第i个场景文字的视觉特征、为第j个场景文字的语义特征。
58.基于上述基于多模态信息的场景文字特征提取方法，本技术实施例提供了一种基于多模态信息的场景文字特征提取装置，包括：
59.多模态数据获取单元，用于基于场景图像，获取场景图像中的文本模态数据和文本模态数据对应的图像模态数据，所述图像模态数据为场景图像中所述文本模态数据所在位置的区域图像；
60.多模态特征提取单元，用于基于图像模态数据提取视觉特征，基于文本模态数据提取语义特征；
61.场景文字特征提取单元，用于基于所述语义特征和视觉特征进行融合，获取场景文字的融合特征。
62.需要说明的是：本实施例提供的场景文字特征提取装置在针对场景图像的场景文字进行特征分析时，仅以上述各功能单元的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元完成，即将装置的内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。另外，本实施例提供的场景文字特征提取装置与上述实施例提供的场景文字特征提取方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。
63.本领域普通技术人员可以理解，上述实施例的场景文字特征提取方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。
64.为此，本技术实施例提供一种计算机可读存储介质，存储有可执行指令，可执行指令被处理器执行时实现上述实施例中的场景文字特征提取方法。
65.本技术实施例提供了一种基于上述基于多模态信息的场景文字特征提取方法的场景图像处理方法，记所述场景图像处理方法中所述场景文字特征提取方法过程中采用的所有神经网络模块记为第一模块，所述场景图像处理方法中余下所有神经网络模块记为第二模块，所述场景图像处理方法中所有神经网络的训练损失函数为l
total
＝ηl1+l2，其中l1为第一模块对应的损失函数，l2为第二模块对应的损失函数。
66.具体来说，上述场景图像处理方法中，当场景图像处理为场景图像字幕生成时，第二模块包括场景图像目标物体特征提取模块、目标物体特征和场景文字特征融合模块、图像字幕生成模块，所述第二模块对应的损失函数l2基于图像字幕生成模块生成的句子中单词的概率分布与目标真值句子中的概率分布的交叉熵函数ce确定。
67.本技术实施例中，将上述场景文字特征提取方法应用到场景图像字幕生成这一场景图像处理任务中，对于该应用场景，以下提供在场景图像字幕生成中应用上述场景文字特征提取方法的效果说明。
68.一、确定实验数据集
69.textcaps数据集，该数据集包含28408张图片和对应的约140000个字幕，本实验从数据划分21953张图片作为训练集，3166张图片作为模型验证集，3289张图像作为模型测试集。其中的每张图片大多包含2～15个ocr文字，因此全部数据集有105数量级的ocr文字。
70.二、确定场景图像字幕生成效果评价指标
71.bleu-4值，meteor值，rouge值和cider值，在下文分别记为b4，m，r和c，bleu-4值为精确率；meteor值计算为精确率和召回率的调和平均；rouge值为召回率；cider值为相似性。
72.三、实验过程说明
73.实验所用器材为一张gtx 3060显卡，操作系统为linux系统，数据处理和模型训练等代码以mmf框架为基础修改并进行相关实验。按照textcaps
45.数据集的划分得到训练、验证和测试使用的数据。视觉物体特征和场景文字特征维度均为d＝1000，每一张图片最多计算n＝50个ocr文字之间的相似度。l1的权重η设置为1。当前实验的指标结果选自模型在验证集迭代中效果较好的三次结果的均值。
74.四、实验结果分析
[0075][0076][0077]
表1本发明场景文字特征提取方法与其它模型进行字幕生成任务的性能评价结果
[0078]
参见表1，使用本发明场景文字特征提取方法训练的模型，在所有指标上都取得了提升，其中bleu-4从24.8提升到26.3，rouge从46.8提升到47.4，cider从91.2提升到93.7。模型在特征编码阶段将场景文字的视觉特征和语义特征分开表示，又通过对比学习的方式改善了特征分布与特征表示，各方面指标的提升表明方法对基准模型的有效性。
[0079]
本发明不局限于上述具体的实施方式，本领域的普通技术人员从上述构思出发，不经过创造性的劳动，所做出的种种变换，均落在本发明的保护范围之内。

技术特征：
1.一种基于多模态信息的场景文字特征提取方法，其特征在于，包括如下步骤：基于场景图像，获取场景图像中的文本模态数据和文本模态数据对应的图像模态数据，所述图像模态数据为场景图像中所述文本模态数据所在位置的区域图像；基于图像模态数据提取视觉特征，基于文本模态数据提取语义特征；基于所述语义特征和视觉特征进行融合，获取场景文字的融合特征。2.根据权利要求1所述的一种基于多模态信息的场景文字特征提取方法，其特征在于，所述基于图像模态数据提取视觉特征，包括：基于区域图像至少两种图像特征进行第一处理方法得到视觉特征；所述基于文本模态数据提取语义特征，包括：基于文本模态数据的至少两种文本特征进行第二处理方法得到语义特征。3.根据权利要求2所述的一种基于多模态信息的场景文字特征提取方法，其特征在于，所述区域图像的图像特征包括第一图像特征和第二图像特征，所述第一图像特征采用卷积神经网络以区域图像作为输入提取；所述区域图像基于场景图像中文本模态数据的检测框得到，所述区域图像的第二图像特征基于所述检测框坐标信息得到；所述第一处理方法，包括：基于区域图像至少两种图像特征依次进行拼接、线性变换、正则化和激活函数处理。4.根据权利要求2所述的一种基于多模态信息的场景文字特征提取方法，其特征在于，所述文本模态数据的文本特征，包括：phoc特征和fasttext文本特征；所述第二处理方法包括：基于文本模态数据的至少两种文本特征依次进行拼接、线性变换、正则化和激活函数处理。5.根据权利要求1所述的一种基于多模态信息的场景文字特征提取方法，其特征在于，所述场景文字特征提取方法中的至少一个步骤采用神经网络，针对所述场景文字特征提取方法中每个神经网络的网络层模型参数训练方法，包括：损失函数l1基于语义特征和视觉特征的相似度分数矩阵s
vs
与真值目标的相似度矩阵t
vs
的交叉熵函数ce确定，l1＝ce(s
vs
,t
vs
),其中，sc
ij
表征第i个场景文字的视觉特征和第j个场景文字的语义特征的关联度。6.根据权利要求5所述的一种基于多模态信息的场景文字特征提取方法，其特征在于，6.根据权利要求5所述的一种基于多模态信息的场景文字特征提取方法，其特征在于，为第i个场景文字的视觉特征、为第j个场景文字的语义特征。7.基于权利要求1-6任一所述场景文字特征提取方法的场景图像处理方法，其特征在于，记所述场景图像处理方法中所述场景文字特征提取方法过程中采用的所有神经网络模块记为第一模块，所述场景图像处理方法中余下所有神经网络模块记为第二模块，所述场景图像处理方法中所有神经网络的训练损失函数为l
total
＝ηl1+l2，其中l1为第一模块对应
的损失函数，l2为第二模块对应的损失函数。8.根据权利要求7所述的场景图像处理方法，其特征在于，当所述场景图像处理为场景图像字幕生成时，所述第二模块包括场景图像目标物体特征提取模块、目标物体特征和场景文字特征融合模块、图像字幕生成模块，所述第二模块对应的损失函数l2基于图像字幕生成模块生成的句子中单词的概率分布与目标真值句子中的概率分布的交叉熵函数ce确定。9.一种基于多模态信息的场景文字特征提取装置，其特征在于，包括：多模态数据获取单元，用于基于场景图像，获取场景图像中的文本模态数据和文本模态数据对应的图像模态数据，所述图像模态数据为场景图像中所述文本模态数据所在位置的区域图像；多模态特征提取单元，用于基于图像模态数据提取视觉特征，基于文本模态数据提取语义特征；场景文字特征提取单元，用于基于所述语义特征和视觉特征进行融合，获取场景文字的融合特征。10.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至6任一项所述的场景文字特征提取方法。

技术总结
本发明公开了一种基于多模态信息的场景文字特征提取方法、装置及应用，该方法包括基于场景图像，获取场景图像中的文本模态数据和文本模态数据对应的图像模态数据，所述图像模态数据为场景图像中所述文本模态数据所在位置的区域图像；基于图像模态数据提取视觉特征，基于文本模态数据提取语义特征；基于所述语义特征和视觉特征进行融合，获取场景文字的融合特征。本发明针对场景文字分别基于图像模态和文本模态进行特征分析提取，充分挖掘场景文字深层信息，有效增强场景文字特征质量，从而模型能更好理解图像中的场景文字，提升场景图像处理模型任务效果。图像处理模型任务效果。图像处理模型任务效果。

技术研发人员：吕刚索飞胡珍珍孙怡宁年福东朱茂飞
受保护的技术使用者：池州学院合肥工业大学合肥学院
技术研发日：2023.04.07
技术公布日：2023/7/25

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种除霜方法、除霜系统、车辆以及可读存储介质与流程 下一篇：一种鸡蛋糕制作的工艺的制作方法

基于多模态信息的场景文字特征提取方法、装置及应用

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

基于多模态信息的场景文字特征提取方法、装置及应用

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表