版式信息确定方法、装置、电子设备及存储介质与流程

未命名 07-15 阅读：150 评论：0

1.本公开涉及人工智能技术领域，具体为深度学习、图像处理、大模型、计算机视觉技术领域，可应用于光学字符识别(optical character recognition，ocr)等场景中，尤其涉及一种版式信息确定方法、装置、电子设备及存储介质。

背景技术：

2.人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术，以及机器学习、深度学习、大数据处理技术、知识图谱技术等几大方向。
3.相关技术中，对于版式信息提取任务，是检测出文档中不同版式类别的区域，版式类别包括文本段落、标题、表格、插图以及印章等，将检测到的不同版式类别提供至其他下游任务(例如，版式还原任务)。

技术实现要素：

4.本公开提供了一种版式信息确定方法、装置、电子设备、存储介质及计算机程序产品。
5.根据本公开的第一方面，提供了一种版式信息确定方法，包括：获取文档图像，其中，所述文档图像包括：文本区域图像；获取与所述文本区域图像对应的采样特征图，其中，所述采样特征图包括：至少一个特征点；以及根据所述采样特征图和所述至少一个特征点，确定与所述文本区域图像对应的版式信息。
6.根据本公开的第二方面，提供了一种版式信息确定装置，包括：第一获取模块，用于获取文档图像，其中，所述文档图像包括：文本区域图像；第二获取模块，用于获取与所述文本区域图像对应的采样特征图，其中，所述采样特征图包括：至少一个特征点；以及确定模块，用于根据所述采样特征图和所述至少一个特征点，确定与所述文本区域图像对应的版式信息。
7.根据本公开的第三方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开第一方面实施例的方法。
8.根据本公开的第四方面，提出了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行本公开第一方面实施例的方法。
9.根据本公开的第五方面，提出了一种计算机程序产品，包括计算机程序，当计算机程序由处理器执行时实现本公开第一方面实施例的方法。
10.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
11.附图用于更好地理解本方案，不构成对本公开的限定。其中：
12.图1是根据本公开第一实施例的示意图；
13.图2是根据本公开第二实施例的示意图；
14.图3是根据本公开第三实施例的示意图；
15.图4是根据本公开第四实施例的示意图；
16.图5是本公开实施例中文档版式检测微调阶段模型结构示意图；
17.图6是根据本公开第五实施例的示意图；
18.图7是本公开实施例中通用模型预训练阶段模型结构示意图；
19.图8是根据本公开第六实施例的示意图；
20.图9是根据本公开第七实施例的示意图；
21.图10示出了可以用来实施本公开的实施例的版式信息确定方法的示例电子设备的示意性框图。
具体实施方式
22.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
23.图1是根据本公开第一实施例的示意图。
24.其中，需要说明的是，本实施例的版式信息确定方法的执行主体为版式信息确定装置，该装置可以由软件和/或硬件的方式实现，该装置可以配置在电子设备中，电子设备可以包括但不限于终端、服务器端等。
25.本公开实施例涉及人工智能技术领域，具体为深度学习、图像处理、大模型、计算机视觉技术领域，可应用于光学字符识别(optical character recognition，ocr)等场景中。
26.其中，人工智能(artificial intelligence)，英文缩写为ai。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
27.深度学习，是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。
28.图像处理，是用计算机对图像进行分析，以达到所需结果的技术。又称影像处理。图像处理一般指数字图像处理。数字图像是指用工业相机、摄像机、扫描仪等设备经过拍摄得到的一个大的二维数组，该数组的元素称为像素，其值称为灰度值。图像处理技术一般包括图像压缩，增强和复原，匹配、描述和识别三个部分。
29.大模型，是人工智能迈向通用智能的里程碑技术。ai大模型兼具“大规模”和“预训练”两种属性，面向实际任务建模前需在海量通用数据上进行预先训练，能大幅提升人工智能ai的泛化性、通用性、实用性。
30.计算机视觉，是由计算机模拟人类的视觉过程，具有感受环境的能力和人类视觉
功能的技术。是图像处理、人工智能和模式识别等技术的综合。主要用计算机来模拟人的视觉功能，从客观事物的图像中提取信息，进行处理并加以理解，以用于实际检测、测量和控制。
31.版式信息提取任务，是检测出文档中不同版式类别的区域，版式类别包括文本段落、标题、表格、插图以及印章等，将检测到的不同版式类别提供至其他下游任务(例如，版式还原任务)。
32.相关技术中，基于深度学习的方法大多采用通用目标检测的方法，将文档图像中不同的版式类别作为不同类别的内容检测。但是，对于部分的版式类别而言，生成的视觉特征相似，如标题、页脚、脚注、页码等，仅依靠视觉特征很难准确的区分出来。
33.由此，本公开实施例中正是为了解决上述技术问题，通过获取文档图像，其中，文档图像包括：文本区域图像，并获取与文本区域图像对应的采样特征图，其中，采样特征图包括：至少一个特征点，以及根据采样特征图和至少一个特征点，确定与文本区域图像对应的版式信息，能够有效提高版式信息确定的准确性，对于具有歧义的版式信息能够明显提升检测效果。
34.如图1所示，该版式信息确定方法，包括：
35.s101：获取文档图像，其中，文档图像包括：文本区域图像。
36.其中，待提取版式信息的图像，可以被称为文档图像，该文档图像中可以包括一些具有特定版式信息的文本、图片、印章、签名等内容，对此不做限制。
37.其中，文本区域图像，是指预先对文档图像识别得到的可能包含特定版式信息的文本的局部区域图像。
38.举例而言，如果文档图像中包括一个表格，该表格中包括多行多列文本，则该表格在文档图像中的局部区域图像，可以被称为文本区域图像；如果文档图像中包括一段文本行，该文本行中包括多个文本字符，则该文本行在文档图像中的局部区域图像，也可以被称为文本区域图像，对此不做限制。
39.本公开实施例中，可以预先对文档图像进行初始识别处理，比如ocr识别处理，以从文档图像中识别得到一个或多个文本区域图像，而后，基于文本区域图像进行版式信息识别。
40.本公开实施例中，文档图像可以包括一个或者多个文本区域图像，则也可以直接对文档图像进行整体的检测识别处理，以识别处理与每个文本区域图像对应的特征情况。
41.s102：获取与文本区域图像对应的采样特征图，其中，采样特征图包括：至少一个特征点。
42.其中，文本区域图像具有对应的特征情况，比如，色彩特征、深度特征等。则用于对文本区域图像对应的特征情况进行表征的图像，可以被称为特征图，而采样特征图，是指对特征图采样所得的特征图，每个采样特征图中可以包括若干个像素点，则像素点即可以被视为一个特征点，相应的，本公开实施例中，可以将采样特征图中包含的全部像素点均作为特征点，也可以从全部像素点中抽样得到部分像素点作为特征点，所得特征点，可以用于后续对文本区域的版式信息进行检测判定。
43.一些实施例中，可以对每个文本区域图像进行特征情况识别，得到特征图，而后对特征图进行下采样处理，以得到采样特征图，或者，还可以获取与文本区域图像对应的参考
区域图像(假设文本区域图像与参考区域图像之间的相似度满足条件)，则可以将预先为参考区域图像标注的采样特征图作为与文本区域图像对应的采样特征图，当然，也可以采用其他任意可能的方式实现获取与文本区域图像对应的采样特征图，对此不做限制。
44.举例而言，文档图像维度为(h，w，3)，其中，h表示文档图像的高度，w表示文档图像的宽度，3表示rgb色彩模式中的三个色彩通道，rgb色彩模式是工业界的一种颜色标准，是通过对红(r)、绿(g)、蓝(b)三个颜色通道，可以对文档图像进行下采样(下采样率可以是1/4)处理，得到与每个文本区域图像对应的采样特征图，采样特征图可以表示为(h/4，w/4，128)，其中，采样特征图的高度为h/4，宽度为w/4，128表示128个维度的特征，除了包括rgb色彩模式的色彩特征之外，还可以包含边缘信息特征、深度特征等，对此不做限制。
45.s103：根据采样特征图和至少一个特征点，确定与文本区域图像对应的版式信息。
46.其中，用于描述文本区域图像的版式情况的信息，可以被称为版式信息，版式信息可以例如版式类别，以及文本区域图像在整体文档图像中的位置信息，以有效地扩展下游任务。
47.上述获取文档图像，其中，文档图像包括：文本区域图像，并获取与文本区域图像对应的采样特征图，其中，采样特征图包括：至少一个特征点之后，可以结合采样特征图和至少一个特征点，确定与文本区域图像对应的版式信息。
48.举例而言，可以从采样特征图中解析得到每个特征点所属文本检测框的信息，基于所属文本检测框的信息预测版式信息，或者，也可以基于其他任意可能的方式处理采样特征图和至少一个特征点，以确定与文本区域图像对应的版式信息，比如采用神经网络模型的方式、工程学方式等。
49.本实施例中，通过获取文档图像，其中，文档图像包括：文本区域图像，并获取与文本区域图像对应的采样特征图，其中，采样特征图包括：至少一个特征点，以及根据采样特征图和至少一个特征点，确定与文本区域图像对应的版式信息，能够有效提高版式信息确定的准确性，对于具有歧义的版式信息能够明显提升检测效果。
50.在本公开的一些实施例中，上述与文本区域图像对应的采样特征图中特征点的数量可以是多个，则在执行根据采样特征图和至少一个特征点，确定与文本区域图像对应的版式信息时，可以是根据采样特征图，确定每个特征点所属的候选文本框的版式类别和候选位置信息，并根据采样特征图和候选文本框的候选位置信息，确定特征点与候选文本框之间的位置偏移信息，根据位置偏移信息，从多个候选文本框中确定目标文本框，以及将目标文本框的版式类别和候选位置信息共同作为版式信息，能够实现准确地、快速地识别出与文档图像中每个文本区域图像对应的版式信息，并且，不仅仅能够准确识别出版式类别，还能够准确地识别出文本区域图像在文档图像中的位置信息，能够有效地扩展版式信息确定的下游任务，提升版式信息确定方法的实用性。
51.其中，特征点，可以例如是采样特征图中的一个像素点，特征点所属的候选文本框，可以是基于该特征点的位置信息对其在文档图像中可能属于的文本框预测所得，版式类别，表达该候选文本框可能属于的版式分类，比如标题类、页脚类、脚注类、页码类等，候选位置信息，表达该候选文本框相对于文档图像的位置信息，可以例如，候选文本框的四个顶点的横纵坐标值。
52.特征点，具有相应的位置信息，则特征点与候选文本框之间的相对位置偏移的情
况，可以被称为位置偏移信息，位置偏移信息，可以具体例如特征点到候选文本框的每个顶点之间的距离信息，对此不做限制。
53.上述在确定每个特征点与候选文本框之间的位置偏移信息，则由于存在多个特征点，则相应的，会预测得到多个候选文本框，则可以根据位置偏移信息，从多个候选文本框中确定目标文本框，并且已经预测得到该目标文本框的版式类别和候选位置信息，则可以直接确定出该目标文本框所属文本区域图像的版式信息。
54.其中，根据位置偏移信息，从多个候选文本框中确定目标文本框，可以是参考位置偏移信息，对多个候选文本框进行去重处理，或者也可以择优处理，以从多个候选文本框中确定目标文本框。
55.举例而言，结合采样特征图中每个特征点(即，像素点)的回归值(位置偏移信息)以及版式类别，通过使用非极大值抑制(non-maximum suppression，nms)算法来实现从多个候选文本框中择优确定目标文本框，并将目标文本框的版式类别和候选位置信息作为检测所得文本区域图像的版式信息，如果文本区域图像的数量是多个，则检测结果输出值可以表示为(n，4，2)，其中，n表示目标检测框的数量，4表示目标检测框具有四个顶点，2表示每个顶点的位置信息，可以以两个坐标值表示，比如x坐标值和y坐标值，对此不做限制。
56.图2是根据本公开第二实施例的示意图。
57.如图2所示，该版式信息确定方法，包括：
58.s201：获取文档图像，其中，文档图像包括：文本区域图像。
59.针对s201的描述说明可以具体参见上述实施例，在此不再赘述。
60.s202：将文档图像输入至目标采样网络模型中，并获得目标采样网络模型输出的与文本区域图像对应的采样特征图，其中，目标采样网络模型已在文档版式检测微调阶段学习到文档图像，以及与文档图像中文本区域图像对应的采样特征图之间的映射关系，采样特征图包括：至少一个特征点。
61.其中，目标采样网络模型，可以用于对文档图像中的每个文本区域图像进行下采样处理，以输出得到与文本区域图像对应的采样特征图。
62.本公开实施例中的目标采样网络模型，可以是在文档版式检测微调阶段，基于预训练的骨干网络模型，即视觉特征提取模型，在轻量级的初始骨干网络模型上配置并训练得到，而预训练的骨干网络模型，可以是在通用模型预训练阶段训练得到，具体可以参见下述实施例。
63.其中，文档版式检测微调阶段，表示对目标采样网络模型进行微调的模型训练阶段。
64.例如，可以基于在通用模型预训练阶段确定得到的目标模型参数，对待训练采样网络模型进行初始化，而后在文档版式检测微调阶段，基于较低的学习率对待训练采样网络模型进行微调并迭代训练，以得到目标采样网络模型。
65.由此，由于目标采样网络模型已在文档版式检测微调阶段学习到文档图像，以及与文档图像中文本区域图像对应的采样特征图之间的映射关系，从而当基于目标采样网络模型处理文档图像中的一个或者多个文本区域图像时，能够实现基于微调得到的目标采样网络模型进行采样特征图提取，以支持有效提高后续版式信息提取的准确性，有效提升采样特征图的表达准确性。
66.s203：根据采样特征图和至少一个特征点，确定与文本区域图像对应的版式信息。
67.针对s203的描述说明可以具体参见上述实施例，在此不再赘述。
68.本实施例中，由于目标采样网络模型已在文档版式检测微调阶段学习到文档图像，以及与文档图像中文本区域图像对应的采样特征图之间的映射关系，从而当基于目标采样网络模型处理文档图像中的一个或者多个文本区域图像时，能够实现基于微调得到的目标采样网络模型进行采样特征图提取，以支持有效提高后续版式信息提取的准确性，有效提升采样特征图的表达准确性。能够有效提高版式信息确定的准确性，对于具有歧义的版式信息能够明显提升检测效果。
69.图3是根据本公开第三实施例的示意图。
70.如图3所示，该版式信息确定方法，包括：
71.s301：在文档版式检测微调阶段，获取样本图像，其中，样本图像包括：样本区域图像，样本区域图像具有对应的标注特征图。
72.其中，文档版式检测微调阶段，表示对目标采样网络模型进行微调的模型训练阶段。
73.例如，可以基于在通用模型预训练阶段确定得到的目标模型参数，对初始采样网络模型进行初始化，得到待训练采样网络模型，而后在文档版式检测微调阶段，基于较低的学习率对待训练采样网络模型进行微调并迭代训练，以得到目标采样网络模型。
74.其中，样本区域图像，是指预先对样本图像识别得到的可能包含特定版式信息的文本的局部区域图像，样本区域图像，也可以解释为用于训练得到目标采样网络模型的文档区域图像，样本区域图像可以是从样本图像中识别得到，用于训练得到目标采样网络模型的文档图像，可以被称为样本图像。
75.该样本图像中可以包括一些具有特定版式信息的文本、图片、印章、签名等内容，对此不做限制。
76.其中，用于对待训练采样网络模型进行迭代训练，并确定迭代训练过程中采样网络模型是否收敛，以作为参考的特征图，可以被称为标注特征图。
77.s302：获取待训练采样网络模型。
78.其中，待训练的采样网络模型，可以被称为待训练采样网络模型，采样网络模型具有提取文档图像中视觉特征的功能，该待训练采样网络模型，可以是人工智能中的网络模型，比如机器学习模型，神经网络模型等，对此不做限制。
79.本公开的实施例中，待训练采样网络模型，可以基于在通用模型预训练阶段确定得到的目标模型参数，对初始采样网络模型进行初始化得到。
80.其中，目标模型参数，是指预先确定的较优的网络模型参数，比如网络模型中的权重、连接层个数、池化层数量、卷积层数量等参数，对此不做限制。
81.在本公开的一些实施例中，在执行获取待训练采样网络模型的步骤时，可以获取初始采样网络模型，并获取目标模型参数，其中，目标模型参数是在通用模型预训练阶段基于样本图像确定得到，以及根据目标模型参数配置初始采样网络模型，以得到待训练采样网络模型，从而实现在文档版式检测微调阶段，基于较低的学习率对待训练采样网络模型进行微调，实现为版式信息确定所需的ai模型赋予“大规模”和“预训练”两种属性，能够较大程度提升目标采样网络模型的泛化性、通用性、实用性，实现基于微调得到的目标采样网
络模型进行采样特征图的准确提取。
82.s303：将样本图像输入至待训练采样网络模型中，并获得待训练采样网络模型输出的与样本图像中样本区域图像对应的预测特征图。
83.上述在文档版式检测微调阶段，获取样本图像中的样本区域图像，其中，样本区域图像具有对应的标注特征图，初始化得到待训练采样网络模型之后，还可以将样本图像直接输入至待训练采样网络模型中，并获得待训练采样网络模型输出的预测特征图。
84.举例而言，样本图像维度为(h，w，3)，其中，h表示样本图像的高度，w表示样本图像的宽度，3表示rgb色彩模式中的三个色彩通道，rgb色彩模式是工业界的一种颜色标准，是通过对红(r)、绿(g)、蓝(b)三个颜色通道，可以对样本图像进行下采样(下采样率可以是1/4)处理，得到与每个文本区域图像对应的采样特征图，采样特征图可以表示为(h/4，w/4，128)，其中，采样特征图的高度为h/4，宽度为w/4，128表示128个维度的特征，除了包括rgb色彩模式的色彩特征之外，还可以包含边缘信息特征、深度特征等，对此不做限制。
85.s304：根据标注特征图和预测特征图对待训练采样网络模型进行迭代训练，直至确定迭代训练所得采样网络模型满足收敛条件，将迭代训练所得采样网络模型作为目标采样网络模型。
86.上述在文档版式检测微调阶段，获取样本图像中的样本区域图像，其中，样本区域图像具有对应的标注特征图，初始化得到待训练采样网络模型之后，还可以将样本图像直接输入至待训练采样网络模型中，并获得待训练采样网络模型输出的预测特征图，而后可以根据标注特征图和预测特征图对待训练采样网络模型进行迭代训练。
87.举例而言，可以确定标注特征图和预测特征图之间的损失值，如果损失值小于损失阈值，确定迭代训练所得采样网络模型满足收敛条件，将迭代训练所得采样网络模型作为目标采样网络模型，如果损失值大于或等于损失阈值，确定迭代训练所得采样网络模型不满足收敛条件，则持续地对迭代训练所得采样网络模型的目标模型参数进行微调，直至迭代训练所得采样网络模型满足收敛条件，将迭代训练所得采样网络模型作为目标采样网络模型。
88.由此，本公开实施例中，在文档版式检测微调阶段，获取样本图像，其中，样本图像包括：样本区域图像，样本区域图像具有对应的标注特征图，并获取待训练采样网络模型，将样本图像输入至待训练采样网络模型中，并获得待训练采样网络模型输出的与样本图像中样本区域图像对应的预测特征图，以及根据标注特征图和预测特征图对待训练采样网络模型进行迭代训练，直至确定迭代训练所得采样网络模型满足收敛条件，将迭代训练所得采样网络模型作为目标采样网络模型，能够实现在线上版式信息确定过程中，支持快速地对样本图像进行下采样处理，以确定得到与采样图像中每个文本区域图像对应的采样特征图。还支持在文档版式检测微调阶段，基于较低的学习率对待训练采样网络模型进行微调，从而具有较高的采样网络模型训练效率。
89.s305：获取文档图像，其中，文档图像包括：文本区域图像。
90.s306：将文本区域图像输入至目标采样网络模型中，并获得目标采样网络模型输出的采样特征图，其中，采样特征图包括：至少一个特征点。
91.s307：根据采样特征图和至少一个特征点，确定与文本区域图像对应的版式信息。
92.针对s305-s307的描述说明可以具体参见上述实施例，在此不再赘述。
93.本实施例中，由于目标采样网络模型已在文档版式检测微调阶段，学习到文本区域图像与采样特征图之间的映射关系，从而当基于目标采样网络模型处理文档图像中的一个或者多个文本区域图像时，能够实现基于微调得到的目标采样网络模型进行采样特征图提取，以支持有效提高后续版式信息提取的准确性，有效提升采样特征图的表达准确性。能够有效提高版式信息确定的准确性，对于具有歧义的版式信息能够明显提升检测效果。实现为版式信息确定所需的ai模型赋予“大规模”和“预训练”两种属性，能够较大程度提升目标采样网络模型的泛化性、通用性、实用性，实现基于微调得到的目标采样网络模型进行采样特征图的准确提取。能够实现在线上版式信息确定过程中，支持快速地对样本图像进行下采样处理，以确定得到与采样图像中每个文本区域图像对应的采样特征图。还支持在文档版式检测微调阶段，基于较低的学习率对待训练采样网络模型进行微调，从而具有较高的采样网络模型训练效率。
94.图4是根据本公开第四实施例的示意图。
95.如图4所示，该版式信息确定方法，包括：
96.s401：获取文档图像，其中，文档图像包括：文本区域图像。
97.针对s401的描述说明可以具体参见上述实施例，在此不再赘述。
98.s402：将文档图像输入至目标采样网络模型中，并获得目标采样网络模型输出的与文本区域图像对应的采样特征图，采样特征图包括：多个特征点。
99.其中，目标采样网络模型已在文档版式检测微调阶段学习到文档图像，以及与文档图像中文本区域图像对应的采样特征图之间的映射关系。
100.其中，目标采样网络模型，可以用于对文档图像中的每个文本区域图像进行下采样处理，以输出得到与文本区域图像对应的采样特征图。
101.本公开实施例中的目标采样网络模型，可以是在文档版式检测微调阶段，基于预训练的骨干网络模型，即视觉特征提取模型，在轻量级的初始骨干网络模型上配置并训练得到，而预训练的骨干网络模型，可以是在通用模型预训练阶段训练得到，具体可以参见下述实施例。
102.其中，文档版式检测微调阶段，表示对目标采样网络模型进行微调的模型训练阶段。
103.例如，可以基于在通用模型预训练阶段确定得到的目标模型参数，对待训练采样网络模型进行初始化，而后在文档版式检测微调阶段，基于较低的学习率对待训练采样网络模型进行微调并迭代训练，得到目标采样网络模型。
104.本公开实施例中，还可以为目标采样网络模型添加两个模型分支，包括文本区域预测分支以及文本位置回归分支，其中，每个分支分别表示一个分支模型，则用于文本区域预测的分支模型，可以被称为目标文本区域预测模型，用于文本位置回归的分支模型，可以被称为目标文本位置回归模型。
105.也即是说，本公开实施例中，还支持在文档版式检测微调阶段，联合训练目标采样网络模型及其两个模型分支，训练完成后，可以将目标采样网络模型输出的采样特征图分别输入至不同的模型分支，基于用于文本区域预测的分支模型预测文本区域图像的掩膜(mask)区域(候选文本框)，基于用于文本位置回归的分支模型回归文本框内的特征点到文本框的四个顶点的距离，回归所得距离可以被称为位置偏移信息。
106.本公开实施例中，基于用于文本区域预测的分支模型的模型功能，其可以基于采样特征图预测得到其中每个特征点所属的候选文本框，而在文档版式检测微调阶段，可以向用于文本区域预测的分支模型输入样本特征图，可以将样本特征图中的一块具有标注版式类别的标注检测框进行掩膜(mask)处理，而后将处理所得样本特征图输入至用于文本区域预测的分支模型之中，以基于用于文本区域预测的分支模型，对处理所得样本特征图的掩膜(mask)区域进行预测，得到候选文本框的版式类别和候选位置信息，而后，基于候选文本框的版式类别和候选位置信息，和标注版式类别，以及标注检测框的标注位置信息对用于文本区域预测的分支模型进行迭代训练。
107.s403：将采样特征图输入至目标文本区域预测模型中，并获得目标文本区域预测模型输出的每个特征点所属的候选文本框的版式类别和候选位置信息。
108.其中，目标文本区域预测模型，已学习到采样特征图中每个特征点、所属的候选文本框的版式类别和候选位置信息之间的映射关系。
109.也即是说，可以支持在文档版式检测微调阶段，联合训练目标采样网络模型及其两个模型分支，训练完成后，可以将目标采样网络模型输出的采样特征图分别输入至目标文本区域预测模型中，并获得目标文本区域预测模型输出的每个特征点所属的候选文本框的版式类别和候选位置信息，能够有效提升每个特征点所属的候选文本框的版式类别和候选位置信息的预测效率和准确度，对于具有歧义的版式类别能够明显提高检测效果。
110.举例而言，目标文本区域预测模型可以包含三个重复的单元结构，每个单元结构包括：卷积层-》正则化层-》激活函数(relu，表示一种激活函数的名称)层，其中，不同单元结构中卷积层的通道数分别为64，64，128，最后一层为卷积层，最后一层的卷积层分别连接每个单元结构，最后一层卷积层输出的通道数包括：版式类别数量+1(1表示背景类)，输出特征图维度表示为(h/4，w/4，类别数+1)，携带候选文本框的版式类别和候选位置信息。
111.s404：将采样特征图和候选文本框的候选位置信息输入至目标文本位置回归模型中，并获得目标文本位置回归模型输出的每个特征点与候选文本框之间的位置偏移信息。
112.其中，目标文本位置回归模型，已学习到采样特征图中每个特征点、候选文本框的候选位置信息以及特征点与候选文本框之间的位置偏移信息的映射关系。
113.也即是说，可以支持在文档版式检测微调阶段，联合训练目标采样网络模型及其两个模型分支，训练完成后，可以将目标采样网络模型输出的采样特征图分别输入至目标文本位置回归模型中，并获得目标文本位置回归模型输出的每个特征点与候选文本框之间的位置偏移信息，能够有效提升每个特征点与候选文本框之间的位置偏移信息的预测效率和准确度，使得预测所得位置偏移信息具有较高的参考价值。
114.举例而言，对于目标文本位置回归模型，可以包含三个重复的单元结构，每个单元结构包括：卷积层-》正则化层-》激活函数(relu，表示一种激活函数的名称)层，其中，不同单元结构中卷积层的通道数分别为64，64，128，最后一层为卷积层，最后一层的卷积层分别连接每个单元结构，最后一层卷积层输出的通道数为8(假设候选文本框包含四个顶点，特征点到其中一个顶点的横坐标偏移距离和纵坐标偏移距离，即形成两个偏移距离，相应的，四个顶点，对应八个偏移距离)，输出的特征图维度为(h/4,w/4,8)，包含特征点与候选文本框之间的位置偏移信息。
115.由此可见，本实施例中，在通用模型预训练阶段确定得到的目标模型参数，对初始
采样网络模型进行初始化，得到待训练采样网络模型，而后在文档版式检测微调阶段，基于较低的学习率对待训练采样网络模型进行微调并迭代训练，以得到目标采样网络模型。在文档版式检测微调阶段，联合训练目标采样网络模型及其两个模型分支，训练完成后，可以将目标采样网络模型输出的采样特征图分别输入至不同的模型分支，基于用于文本区域预测的分支模型预测文本区域图像的掩膜(mask)区域(候选文本框)，基于用于文本位置回归的分支模型回归文本框内的特征点到文本框的四个顶点的距离，回归所得距离可以被称为位置偏移信息。该用于文本区域预测的分支模型，其训练标签可以基于样本图像中的文本轮廓生成，文本轮廓内生成版式类别的掩膜值，该分支可以使用交叉熵损失函数进行迭代优化。用于文本位置回归的分支模型，可以只监督正样本的候选文本框(正样本，即表示特征点在其内的候选文本框)的位置回归值(位置偏移信息)，每个特征点输出通道数为8，分别对应该特征点到候选文本框四个顶点的位置偏移信息。
116.s405：根据位置偏移信息，从多个候选文本框中确定目标文本框，并将目标文本框的版式类别和候选位置信息共同作为版式信息。
117.举例而言，结合采样特征图中每个特征点(即，像素点)的回归值(位置偏移信息)以及版式类别，通过使用非极大值抑制(non-maximum suppression，nms)算法来实现从多个候选文本框中择优确定目标文本框，并将目标文本框的版式类别和候选位置信息作为检测所得文本区域图像的版式信息，如果文本区域图像的数量是多个，则检测结果输出值可以表示为(n，4，2)，其中，n表示目标检测框的数量，4表示目标检测框具有四个顶点，2表示每个顶点的位置信息，可以以两个坐标值表示，比如x坐标值和y坐标值，对此不做限制。
118.如图5所示，图5是本公开实施例中文档版式检测微调阶段模型结构示意图。其中，图5中包含文档图像，该文档图像中包含一个或者多个文本区域图像，可以将文档图像输入目标采样网络模型以及两个分支模型中，即目标文本区域预测模型和目标文本位置回归模型，目标采样网络模型处理文档图像得到采样特征图，而后，将采样特征图分别提供至目标文本区域预测模型和目标文本位置回归模型中，由目标文本区域预测模型和目标文本位置回归模型分别处理采样特征图，并融合两个分支模型得到输出的内容，得到与文档图像中每个文本区域图像对应的版式信息。
119.本实施例中，由于目标采样网络模型已在文档版式检测微调阶段，学习到文本区域图像与采样特征图之间的映射关系，从而当基于目标采样网络模型处理文档图像中的一个或者多个文本区域图像时，能够实现基于微调得到的目标采样网络模型进行采样特征图提取，以支持有效提高后续版式信息提取的准确性，有效提升采样特征图的表达准确性。支持在文档版式检测微调阶段，联合训练目标采样网络模型及其两个模型分支，训练完成后，可以将目标采样网络模型输出的采样特征图分别输入至目标文本区域预测模型中，并获得目标文本区域预测模型输出的每个特征点所属的候选文本框的版式类别和候选位置信息，从而能够有效提升每个特征点所属的候选文本框的版式类别和候选位置信息的预测效率和准确度，对于具有歧义的版式类别能够明显提高检测效果。支持在文档版式检测微调阶段，联合训练目标采样网络模型及其两个模型分支，训练完成后，可以将目标采样网络模型输出的采样特征图分别输入至目标文本位置回归模型中，并获得目标文本位置回归模型输出的每个特征点与候选文本框之间的位置偏移信息，能够有效提升每个特征点与候选文本框之间的位置偏移信息的预测效率和准确度，使得预测所得位置偏移信息具有较高的参考
价值。
120.本公开实施例中，还提供了一种在通用模型预训练阶段基于样本图像确定得到目标模型参数的技术方案，所确定目标模型参数用于对文档版式检测微调阶段中的初始采样网络模型进行初始化设置，可以是在通用模型预训练阶段，获取待训练参考模型，并从样本图像中，确定样本文本行信息，其中，样本图像具有对应的标注文本行信息，对样本图像进行分割，得到多个样本图像块，其中，标注文本行信息具有对应的标注图像块信息，以及根据样本文本行信息、多个样本图像块、标注文本行信息以及标注图像块信息对待训练参考模型进行迭代训练，直至迭代训练所得待训练参考模型满足收敛条件，将迭代训练所得待训练参考模型的模型参数作为目标模型参数，实现在通用模型预训练阶段准确地建模得到目标模型参数，并支持后续在文档版式检测微调阶段基于目标模型参数对初始采样网络模型进行初始化设置，有效提升目标模型参数的建模准确性，提升整体的版式信息提取准确率。
121.其中，迭代训练所得待训练参考模型的模型参数，可以例如网络模型中的权重、连接层个数、池化层数量、卷积层数量等参数，对此不做限制。
122.其中，在通用模型预训练阶段所训练的模型，可以被称为待训练参考模型，迭代训练所得待训练参考模型的模型参数可以被作为目标模型参数。
123.其中，样本文本行信息，可以是指样本图像中所包含的文本行相关的信息，比如文本行的序号、尺寸、文本行在样本图像中的位置等信息。
124.其中，样本图像块，是指对样本图像进行分割所得的图像块。
125.其中，标注文本行信息和标注图像块信息，可以是用于确定待训练参考模型的收敛时机的参考用标注信息，标注文本行信息，例如对样本文本行标注所得视觉特征、文本嵌入特征等，标注图像块信息，例如对样本图像块标注所得图像块尺寸、序号、编码、位置等信息。
126.图6是根据本公开第五实施例的示意图。
127.如图6所示，该版式信息确定方法，包括：
128.s601：在通用模型预训练阶段，获取待训练参考模型，其中，待训练参考模型包括：语言识别子模型、视觉特征提取子模型，以及图文对齐子模型。
129.其中，用于确定目标模型参数的待训练的模型，可以被称为待训练参考模型，该待训练参考模型，可以是人工智能中的网络模型，比如机器学习模型，神经网络模型等，对此不做限制。
130.其中，该待训练参考模型可以包括三部分，语言识别子模型、视觉特征提取子模型，以及图文对齐子模型，语言识别子模型用于识别样本图像中与文本行相关的文本特征，视觉特征提取子模型，用于提取样本图像中与文本行相关的视觉特征，而图文对齐子模型，用于对与文本行相关的文本特征和与文本行相关的视觉特征进行对齐处理，对齐所得特征可以被称为目标图文对齐特征。
131.s602：从样本图像中，确定样本文本行信息，其中，样本图像具有对应的标注文本行信息。
132.其中，从样本图像中，识别得到一个或者多个的文本行，可以被称为样本文本行，用于描述样本文本行的信息，可以被称为样本文本行信息，样本文本行信息，可以是指样本
图像中所包含的文本行相关的信息，比如文本行的序号、尺寸、文本行在样本图像中的位置等信息。
133.s603：对样本图像进行分割，得到多个样本图像块，其中，标注文本行信息具有对应的标注图像块信息。
134.其中，样本图像块，是指对样本图像进行分割所得的图像块。标注文本行信息和标注图像块信息，可以是用于确定待训练参考模型的收敛时机的参考用标注信息，标注文本行信息，例如对样本文本行标注所得视觉特征、文本嵌入特征等，标注图像块信息，例如对样本图像块标注所得图像块尺寸、序号、编码、位置等信息。
135.上述从样本图像中，确定样本文本行信息，以及对样本图像进行分割，得到多个样本图像块，可以被用于对齐处理，对齐所得目标图像视觉特征、标注文本行信息以及标注图像块信息，可以被用于对待训练参考模型进行迭代训练。
136.s604：将样本文本行信息输入至语言识别子模型中，并获得语言识别子模型输出的文本嵌入特征。
137.上述在从样本图像中，确定样本文本行信息之后，可以将样本文本行信息输入至语言识别子模型中，并获得语言识别子模型输出的文本嵌入特征，文本嵌入特征，是指基于字符串的实值向量表示的文本特征。
138.其中，对语言识别子模型进行迭代训练的过程，可以被称为掩码语言建模(masked language modeling，mlm)，即样本图像中可以包含部分被掩码处理的文本行，所识别的样本文本行信息，为未被掩码处理的部分，将未被掩码处理的部分输入至语言识别子模型，以使语言识别子模型建模整体样本文本行的文本嵌入特征，而标注文本行信息，包含文档图像中完整样本文本行的信息，从而可以基于语言识别子模型对样本图像中任意样本文本行的文本嵌入特征进行预测的能力进行迭代训练。
139.s605：将样本图像块输入至视觉特征提取子模型中，并获得视觉特征提取子模型输出的初始图像视觉特征。
140.上述在对样本图像进行分割，得到多个样本图像块之后，可以将样本图像块输入至视觉特征提取子模型中，并获得视觉特征提取子模型输出的初始图像视觉特征，初始图像视觉特征，是指对每个样本图像块进行视觉特征提取，得到的图像视觉维度的特征。
141.其中，对视觉特征提取子模型进行迭代训练的过程，可以被称为掩码图像建模(mask image modeling，mim)，即样本图像中可以包含部分被掩码处理的样本图像块，以及未被掩码处理的部分样本图像块，将全部的样本图像块输入至视觉特征提取子模型，以使视觉特征提取子模型建模全部样本图像块的整体的初始图像视觉特征，而标注图像块信息，包含文档图像中全部样本图像块的信息，从而可以基于视觉特征提取子模对样本图像中任意样本图像块的初始图像视觉特征进行预测的能力进行迭代训练。
142.s606：处理文本嵌入特征，得到目标文本特征，并处理初始图像视觉特征，得到目标图像视觉特征。
143.本实施例中，在提取出文本嵌入特征和初始图像视觉特征之后，还可以分别对文本嵌入特征和初始图像视觉特征进行优化处理，以有效扩展文本嵌入特征和初始图像视觉特征的特征表达维度，还可以处理文本嵌入特征，得到目标文本特征，并处理初始图像视觉特征，得到目标图像视觉特征。
144.在本公开的一些实施例中，为了有效扩展文本嵌入特征的特征表达维度，表示出样本文本行的位置情况，在处理文本嵌入特征，得到目标文本特征时，可以是根据样本文本行信息，确定样本文本行的位置编码信息，并对文本嵌入特征和位置编码信息进行拼接，得到目标文本特征。
145.举例而言，可以首先基于ocr技术对文档图像进行识别，以从文档图像中确定样本文本行信息，而后，使用语言识别子模型(bidirectional encoder representation from transformers，bert)处理样本文本行信息，得到高维的文本嵌入特征，在文本嵌入特征添加一维(1dimensional，1d)的位置编码以及二维(2dimensional，2d)的位置编码，1d的位置编码和2d的位置编码被共同作为样本文本行的位置编码信息，其中，1d的位置编码，例如为样本文本行的序列编号，2d的位置编码，例如为样本文本行的几何信息。
146.在本公开的一些实施例中，为了有效扩展样本文本行的初始图像视觉特征的特征表达维度，表示出样本图像块的位置情况，在处理初始图像视觉特征，得到目标图像视觉特征时，还可以确定与样本图像块对应的位置编码信息，并对初始图像视觉特征和位置编码信息进行拼接，得到目标图像视觉特征。
147.举例而言，将文档图像(h，w，3)，切分为(pxp)个切块(patch)，多个样本图像块可以形成序列，使用全连接层得到样本图像块的高维的初始图像视觉特征，为了表示出样本图像块的位置情况，在上述初始图像视觉特征基础上，同时为初始图像视觉特征添加1d的位置坐标(1d的位置坐标，即为样本图像块对应的位置编码信息)。
148.s607：基于图文对齐子模型对目标文本特征和目标图像视觉特征进行对齐，得到目标图文对齐特征。
149.上述在获得目标文本特征和目标图像视觉特征之后，可以基于图文对齐子模型对目标文本特征和目标图像视觉特征进行对齐，并将对齐所得特征作为目标图文对齐特征。
150.其中，对齐，可以例如是将预测所得目标文本特征与视觉维度的目标图像视觉特征进行匹配，使得匹配的目标文本特征和目标图像视觉特征对应相同的文本内容。
151.其中，对图文对齐子模型进行迭代训练的过程，可以被称为文本图像块对齐(word patch alignment，wpa)。
152.s608：根据目标图文对齐特征、标注文本行信息以及标注图像块信息之间的损失值对待训练参考模型进行迭代训练，直至迭代训练所得待训练参考模型满足收敛条件。
153.也即是说，本实施例中，通过对三部分子模型以不同的预训练目标进行迭代训练，在训练过程中可以采用自监督方式，包括：掩码语言建模mlm、掩码图像建模mim，以及文本图像块对齐wpa。
154.举例而言，如图7所示，图7是本公开实施例中通用模型预训练阶段模型结构示意图。包含：掩码语言建模mlm、掩码图像建模mim，以及文本图像块对齐wpa，在通用模型预训练阶段，可以通过三部分自监督方式来学习有效的表征。其中，三部分自监督方式举例说明如下：
155.对于掩码语言建模mlm，随机遮盖样本图像中30％的样本文本行，被遮盖部分样本文本行对应的位置信息，根据未被遮盖的样本文本行及其排版信息还原出被遮盖部分样本文本行的文本嵌入特征。
156.对于掩码图像建模mim，随机遮盖样本图像中40％的样本图像块，根据未被遮盖部
分样本图像块的内容还原出被遮盖的样本图像块对应的符号(token)编码(即初始图像视觉特征)。
157.对于文本图像块对齐wpa，样本图像中的每个样本文本行可以被对齐至一个样本图像块，为了学习文本到图像块的对齐关系，可以由图文对齐子模型预测样本文本行对应的样本图像块是否被掩盖，以学习文本到图像的细粒度对齐特征。
158.s609：在迭代训练所得待训练参考模型满足收敛条件的情况下，将视觉特征提取子模型的模型参数作为目标模型参数。
159.也即是说，本公开实施例中基于预训练模型进行版式信息提取，预训练模型包括：通用模型预训练阶段和文档版式检测微调阶段。在通用模型预训练阶段中，获得具有较强表征能力的视觉特征提取子模型的骨干网络，而后，在文档版式检测微调阶段，加载视觉特征提取子模型的骨干网络的权重参数(即目标模型参数)，实现使用轻量的模型，得到响应速度快且表现效果好的模型。
160.s610：在文档版式检测微调阶段，基于目标模型参数对初始采样网络模型进行初始化设置，其中，初始化设置所得待训练采样网络模型被用于生成目标采样网络模型，目标采样网络模型用于确定与文本区域图像对应的采样特征图。
161.针对s610的描述说明可以具体参见上述实施例，在此不再赘述。
162.本实施例中，基于预训练模型进行版式信息提取，预训练模型包括：通用模型预训练阶段和文档版式检测微调阶段。在通用模型预训练阶段中，获得具有较强表征能力的视觉特征提取子模型的骨干网络，而后，在文档版式检测微调阶段，加载视觉特征提取子模型的骨干网络的权重参数(即目标模型参数)，实现使用轻量的模型，得到响应速度快且表现效果好的模型。基于预训练模型的版式信息确定方法，能够有效提高版式信息提取的准确性，对于具有歧义的版式类别能够明显提高检测效果。本公开实施例中，实现版式信息确定方法的装置，可以被作为图文转换器的内部装置，所提取出的版式信息可以有效支持下游识别任务，也可以作为一个单独的版式信息确定装置，直接进行版式信息提取。本公开实施例中的版式信息确定方法，相对于基于启发式规则方法以及基于深度学习的通用目标检测方法，能够具有更高的召回率以及更好的鲁棒泛化性能。相对于使用多种辅助信息融合的方法，能够具有更少量的模型参数，从而使得模型的响应速度更快，有效提升版式信息确定效率。
163.图8是根据本公开第六实施例的示意图。
164.如图8所示，该版式信息确定装置80，包括：
165.第一获取模块801，用于获取文档图像，其中，文档图像包括：文本区域图像；
166.第二获取模块802，用于获取与文本区域图像对应的采样特征图，其中，采样特征图包括：至少一个特征点；以及
167.确定模块803，用于根据采样特征图和至少一个特征点，确定与文本区域图像对应的版式信息。
168.在本公开的一些实施例中，其中，第二获取模块802，具体用于：
169.将文档图像输入至目标采样网络模型中，并获得目标采样网络模型输出的与文本区域图像对应的采样特征图；
170.其中，目标采样网络模型已在文档版式检测微调阶段学习到文档图像，以及与文
档图像中文本区域图像对应的采样特征图之间的映射关系。
171.在本公开的一些实施例中，特征点的数量是多个；如图9所示，图9是根据本公开第七实施例的示意图，该版式信息确定装置90，包括：第一获取模块901、第二获取模块902，以及确定模块903，其中，确定模块903，包括：
172.第一确定子模块9031，用于根据采样特征图，确定每个特征点所属的候选文本框的版式类别和候选位置信息；
173.第二确定子模块9032，用于根据采样特征图和候选文本框的候选位置信息，确定特征点与候选文本框之间的位置偏移信息；以及
174.第三确定子模块9033，用于根据位置偏移信息，从多个候选文本框中确定目标文本框，并将目标文本框的版式类别和候选位置信息共同作为版式信息。
175.在本公开的一些实施例中，在目标采样网络模型后连接目标文本区域预测模型，目标采样网络模型用于确定与文本区域图像对应的采样特征图；其中，第一确定子模块9031，具体用于：
176.将采样特征图输入至目标文本区域预测模型中，并获得目标文本区域预测模型输出的每个特征点所属的候选文本框的版式类别和候选位置信息；其中，目标文本区域预测模型，已学习到采样特征图中每个特征点、所属的候选文本框的版式类别和候选位置信息之间的映射关系。
177.在本公开的一些实施例中，在目标采样网络模型后还连接目标文本位置回归模型；其中，第二确定子模块9032，具体用于：
178.将采样特征图和候选文本框的候选位置信息输入至目标文本位置回归模型中，并获得目标文本位置回归模型输出的每个特征点与候选文本框之间的位置偏移信息；
179.其中，目标文本位置回归模型，已学习到采样特征图中每个特征点、候选文本框的候选位置信息以及特征点与候选文本框之间的位置偏移信息的映射关系。
180.在本公开的一些实施例中，装置90还包括：
181.第一训练模块904，用于基于以下方式训练得到目标采样网络模型：
182.在文档版式检测微调阶段，获取样本图像，其中，样本图像包括：样本区域图像，样本区域图像具有对应的标注特征图；
183.获取待训练采样网络模型；
184.将样本图像输入至待训练采样网络模型中，并获得待训练采样网络模型输出的与样本图像中样本区域图像对应的预测特征图；以及
185.根据标注特征图和预测特征图对待训练采样网络模型进行迭代训练，直至确定迭代训练所得采样网络模型满足收敛条件，将迭代训练所得采样网络模型作为目标采样网络模型。
186.在本公开的一些实施例中，其中，第一训练模块904，具体用于：
187.获取初始采样网络模型；
188.获取目标模型参数，其中，目标模型参数是在通用模型预训练阶段基于样本图像确定得到；以及
189.根据目标模型参数配置初始采样网络模型，以得到待训练采样网络模型。
190.在本公开的一些实施例中，装置90还包括：
191.第二训练模块905，用于在通用模型预训练阶段，基于以下方式确定得到目标模型参数：
192.在通用模型预训练阶段，获取待训练参考模型；
193.从样本图像中，确定样本文本行信息，其中，样本图像具有对应的标注文本行信息；
194.对样本图像进行分割，得到多个样本图像块，其中，标注文本行信息具有对应的标注图像块信息；
195.根据样本文本行信息、多个样本图像块、标注文本行信息以及标注图像块信息对待训练参考模型进行迭代训练；以及
196.直至迭代训练所得待训练参考模型满足收敛条件，将迭代训练所得待训练参考模型的模型参数作为目标模型参数。
197.在本公开的一些实施例中，其中，待训练参考模型包括：语言识别子模型、视觉特征提取子模型，以及图文对齐子模型；
198.其中，第二训练模块905，具体用于：
199.将样本文本行信息输入至语言识别子模型中，并获得语言识别子模型输出的文本嵌入特征；
200.将样本图像块输入至视觉特征提取子模型中，并获得视觉特征提取子模型输出的初始图像视觉特征；
201.处理文本嵌入特征，得到目标文本特征，并处理初始图像视觉特征，得到目标图像视觉特征；
202.基于图文对齐子模型对目标文本特征和目标图像视觉特征进行对齐，得到目标图文对齐特征；以及
203.根据目标图文对齐特征、标注文本行信息以及标注图像块信息之间的损失值对待训练参考模型进行迭代训练，直至迭代训练所得待训练参考模型满足收敛条件。
204.在本公开的一些实施例中，其中，第二训练模块905，还用于：
205.根据样本文本行信息，确定样本文本行的位置编码信息；
206.对文本嵌入特征和位置编码信息进行拼接，得到目标文本特征。
207.在本公开的一些实施例中，其中，第二训练模块905，还用于：
208.确定与样本图像块对应的位置编码信息；
209.对初始图像视觉特征和位置编码信息进行拼接，得到目标图像视觉特征。
210.在本公开的一些实施例中，其中，第二训练模块905，进一步用于：
211.在迭代训练所得待训练参考模型满足收敛条件的情况下，将视觉特征提取子模型的模型参数作为目标模型参数。
212.需要说明的是，前述对版式信息确定方法的解释说明也适用于本实施例的版式信息确定装置，在此不再赘述。
213.本实施例中，通过获取文档图像，其中，文档图像包括：文本区域图像，并获取与文本区域图像对应的采样特征图，其中，采样特征图包括：至少一个特征点，以及根据采样特征图和至少一个特征点，确定与文本区域图像对应的版式信息，能够有效提高版式信息确定的准确性，对于具有歧义的版式信息能够明显提升检测效果。
214.根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
215.图10示出了可以用来实施本公开的实施例的版式信息确定方法的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
216.如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(rom)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(ram)1003中的计算机程序，来执行各种适当的动作和处理。在ram1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、rom 1002以及ram 1003通过总线1004彼此相连。输入/输出(i/o)接口1005也连接至总线1004。
217.设备1000中的多个部件连接至i/o接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
218.计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如版式信息确定方法。例如，在一些实施例中，版式信息确定方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由rom 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到ram 1003并由计算单元1001执行时，可以执行上文描述的版式信息确定方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行版式信息确定方法。
219.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
220.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件
包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
221.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
222.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
223.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)、互联网及区块链网络。
224.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与vps服务("virtual private server"，或简称"vps")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。
225.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
226.上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

技术特征：
1.一种版式信息确定方法，所述方法包括：获取文档图像，其中，所述文档图像包括：文本区域图像；获取与所述文本区域图像对应的采样特征图，其中，所述采样特征图包括：至少一个特征点；以及根据所述采样特征图和所述至少一个特征点，确定与所述文本区域图像对应的版式信息。2.根据权利要求1所述的方法，其中，所述获取与所述文本区域图像对应的采样特征图，包括：将所述文档图像输入至目标采样网络模型中，并获得所述目标采样网络模型输出的与所述文本区域图像对应的所述采样特征图；其中，所述目标采样网络模型已在文档版式检测微调阶段学习到所述文档图像，以及与所述文档图像中所述文本区域图像对应的所述采样特征图之间的映射关系。3.根据权利要求1所述的方法，所述特征点的数量是多个；其中，所述根据所述采样特征图和所述至少一个特征点，确定与所述文本区域图像对应的版式信息，包括：根据所述采样特征图，确定每个所述特征点所属的候选文本框的版式类别和候选位置信息；根据所述采样特征图和所述候选文本框的候选位置信息，确定所述特征点与所述候选文本框之间的位置偏移信息；以及根据所述位置偏移信息，从多个所述候选文本框中确定目标文本框，并将所述目标文本框的所述版式类别和候选位置信息共同作为所述版式信息。4.根据权利要求3所述的方法，在目标采样网络模型后连接目标文本区域预测模型，所述目标采样网络模型用于确定与所述文本区域图像对应的采样特征图；其中，所述根据所述采样特征图，确定每个所述特征点所属的候选文本框的版式类别和候选位置信息，包括：将所述采样特征图输入至所述目标文本区域预测模型中，并获得所述目标文本区域预测模型输出的每个所述特征点所属的候选文本框的版式类别和候选位置信息；其中，所述目标文本区域预测模型，已学习到所述采样特征图中每个所述特征点、所述所属的候选文本框的版式类别和候选位置信息之间的映射关系。5.根据权利要求4所述的方法，在所述目标采样网络模型后还连接目标文本位置回归模型；其中，所述根据所述采样特征图和所述候选文本框的候选位置信息，确定所述特征点与所述候选文本框之间的位置偏移信息，包括：将所述采样特征图和所述候选文本框的候选位置信息输入至所述目标文本位置回归模型中，并获得所述目标文本位置回归模型输出的每个所述特征点与所述候选文本框之间的位置偏移信息；其中，所述目标文本位置回归模型，已学习到所述采样特征图中每个所述特征点、所述候选文本框的候选位置信息以及所述特征点与所述候选文本框之间的位置偏移信息的映射关系。
6.根据权利要求2-5任一项所述的方法，其中，所述目标采样网络模型是基于以下方式训练得到：在文档版式检测微调阶段，获取样本图像，其中，所述样本图像包括：样本区域图像，所述样本区域图像具有对应的标注特征图；获取待训练采样网络模型；将所述样本图像输入至所述待训练采样网络模型中，并获得所述待训练采样网络模型输出的与所述样本图像中所述样本区域图像对应的预测特征图；以及根据所述标注特征图和所述预测特征图对所述待训练采样网络模型进行迭代训练，直至确定迭代训练所得采样网络模型满足收敛条件，将所述迭代训练所得采样网络模型作为所述目标采样网络模型。7.根据权利要求6所述的方法，其中，所述获取待训练采样网络模型，包括：获取初始采样网络模型；获取目标模型参数，其中，所述目标模型参数是在通用模型预训练阶段基于所述样本图像确定得到；以及根据所述目标模型参数配置所述初始采样网络模型，以得到所述待训练采样网络模型。8.根据权利要求7所述的方法，其中，在通用模型预训练阶段，基于以下方式确定得到所述目标模型参数：在所述通用模型预训练阶段，获取待训练参考模型；从所述样本图像中，确定样本文本行信息，其中，所述样本图像具有对应的标注文本行信息；对所述样本图像进行分割，得到多个样本图像块，其中，所述标注文本行信息具有对应的标注图像块信息；根据所述样本文本行信息、所述多个样本图像块、所述标注文本行信息以及所述标注图像块信息对所述待训练参考模型进行迭代训练；以及直至迭代训练所得待训练参考模型满足收敛条件，将所述迭代训练所得待训练参考模型的模型参数作为所述目标模型参数。9.根据权利要求8所述的方法，其中，所述待训练参考模型包括：语言识别子模型、视觉特征提取子模型，以及图文对齐子模型；其中，所述根据所述样本文本行信息、所述多个样本图像块、所述标注文本行信息以及所述标注图像块信息对所述待训练参考模型进行迭代训练，直至迭代训练所得待训练参考模型满足收敛条件，包括：将所述样本文本行信息输入至所述语言识别子模型中，并获得所述语言识别子模型输出的文本嵌入特征；将所述样本图像块输入至所述视觉特征提取子模型中，并获得所述视觉特征提取子模型输出的初始图像视觉特征；处理所述文本嵌入特征，得到目标文本特征，并处理所述初始图像视觉特征，得到目标图像视觉特征；基于所述图文对齐子模型对所述目标文本特征和所述目标图像视觉特征进行对齐，得
到目标图文对齐特征；以及根据所述目标图文对齐特征、所述标注文本行信息以及所述标注图像块信息之间的损失值对所述待训练参考模型进行迭代训练，直至迭代训练所得待训练参考模型满足收敛条件。10.根据权利要求9所述的方法，其中，所述处理所述文本嵌入特征，得到目标文本特征，包括：根据所述样本文本行信息，确定样本文本行的位置编码信息；对所述文本嵌入特征和所述位置编码信息进行拼接，得到所述目标文本特征。11.根据权利要求9所述的方法，其中，所述处理所述初始图像视觉特征，得到目标图像视觉特征，包括：确定与所述样本图像块对应的位置编码信息；对所述初始图像视觉特征和所述位置编码信息进行拼接，得到所述目标图像视觉特征。12.根据权利要求9-11任一项所述的方法，其中，所述将所述迭代训练所得待训练参考模型的模型参数作为所述目标模型参数，包括：在迭代训练所得待训练参考模型满足收敛条件的情况下，将所述视觉特征提取子模型的模型参数作为所述目标模型参数。13.一种版式信息确定装置，所述装置包括：第一获取模块，用于获取文档图像，其中，所述文档图像包括：文本区域图像；第二获取模块，用于获取与所述文本区域图像对应的采样特征图，其中，所述采样特征图包括：至少一个特征点；以及确定模块，用于根据所述采样特征图和所述至少一个特征点，确定与所述文本区域图像对应的版式信息。14.根据权利要求13所述的装置，其中，所述第二获取模块，具体用于：将所述文档图像输入至目标采样网络模型中，并获得所述目标采样网络模型输出的与所述文本区域图像对应的所述采样特征图；其中，所述目标采样网络模型已在文档版式检测微调阶段学习到所述文档图像，以及与所述文档图像中所述文本区域图像对应的所述采样特征图之间的映射关系。15.根据权利要求13所述的装置，所述特征点的数量是多个；其中，所述确定模块，包括：第一确定子模块，用于根据所述采样特征图，确定每个所述特征点所属的候选文本框的版式类别和候选位置信息；第二确定子模块，用于根据所述采样特征图和所述候选文本框的候选位置信息，确定所述特征点与所述候选文本框之间的位置偏移信息；以及第三确定子模块，用于根据所述位置偏移信息，从多个所述候选文本框中确定目标文本框，并将所述目标文本框的所述版式类别和候选位置信息共同作为所述版式信息。16.根据权利要求15所述的装置，在目标采样网络模型后连接目标文本区域预测模型，所述目标采样网络模型用于确定与所述文本区域图像对应的采样特征图；其中，所述第一确定子模块，具体用于：
将所述采样特征图输入至所述目标文本区域预测模型中，并获得所述目标文本区域预测模型输出的每个所述特征点所属的候选文本框的版式类别和候选位置信息；其中，所述目标文本区域预测模型，已学习到所述采样特征图中每个所述特征点、所述所属的候选文本框的版式类别和候选位置信息之间的映射关系。17.根据权利要求16所述的装置，在所述目标采样网络模型后还连接目标文本位置回归模型；其中，所述第二确定子模块，具体用于：将所述采样特征图和所述候选文本框的候选位置信息输入至所述目标文本位置回归模型中，并获得所述目标文本位置回归模型输出的每个所述特征点与所述候选文本框之间的位置偏移信息；其中，所述目标文本位置回归模型，已学习到所述采样特征图中每个所述特征点、所述候选文本框的候选位置信息以及所述特征点与所述候选文本框之间的位置偏移信息的映射关系。18.根据权利要求14-17任一项所述的装置，所述装置还包括：第一训练模块，用于基于以下方式训练得到所述目标采样网络模型：在文档版式检测微调阶段，获取样本图像，其中，所述样本图像包括：样本区域图像，所述样本区域图像具有对应的标注特征图；获取待训练采样网络模型；将所述样本图像输入至所述待训练采样网络模型中，并获得所述待训练采样网络模型输出的与所述样本图像中所述样本区域图像对应的预测特征图；以及根据所述标注特征图和所述预测特征图对所述待训练采样网络模型进行迭代训练，直至确定迭代训练所得采样网络模型满足收敛条件，将所述迭代训练所得采样网络模型作为所述目标采样网络模型。19.根据权利要求18所述的装置，其中，所述第一训练模块，具体用于：获取初始采样网络模型；获取目标模型参数，其中，所述目标模型参数是在通用模型预训练阶段基于所述样本图像确定得到；以及根据所述目标模型参数配置所述初始采样网络模型，以得到所述待训练采样网络模型。20.根据权利要求19所述的装置，所述装置还包括：第二训练模块，用于在通用模型预训练阶段，基于以下方式确定得到所述目标模型参数：在所述通用模型预训练阶段，获取待训练参考模型；从所述样本图像中，确定样本文本行信息，其中，所述样本图像具有对应的标注文本行信息；对所述样本图像进行分割，得到多个样本图像块，其中，所述标注文本行信息具有对应的标注图像块信息；根据所述样本文本行信息、所述多个样本图像块、所述标注文本行信息以及所述标注图像块信息对所述待训练参考模型进行迭代训练；以及
直至迭代训练所得待训练参考模型满足收敛条件，将所述迭代训练所得待训练参考模型的模型参数作为所述目标模型参数。21.根据权利要求20所述的装置，其中，所述待训练参考模型包括：语言识别子模型、视觉特征提取子模型，以及图文对齐子模型；其中，所述第二训练模块，具体用于：将所述样本文本行信息输入至所述语言识别子模型中，并获得所述语言识别子模型输出的文本嵌入特征；将所述样本图像块输入至所述视觉特征提取子模型中，并获得所述视觉特征提取子模型输出的初始图像视觉特征；处理所述文本嵌入特征，得到目标文本特征，并处理所述初始图像视觉特征，得到目标图像视觉特征；基于所述图文对齐子模型对所述目标文本特征和所述目标图像视觉特征进行对齐，得到目标图文对齐特征；以及根据所述目标图文对齐特征、所述标注文本行信息以及所述标注图像块信息之间的损失值对所述待训练参考模型进行迭代训练，直至迭代训练所得待训练参考模型满足收敛条件。22.根据权利要求21所述的装置，其中，所述第二训练模块，还用于：根据所述样本文本行信息，确定样本文本行的位置编码信息；对所述文本嵌入特征和所述位置编码信息进行拼接，得到所述目标文本特征。23.根据权利要求21所述的装置，其中，所述第二训练模块，还用于：确定与所述样本图像块对应的位置编码信息；对所述初始图像视觉特征和所述位置编码信息进行拼接，得到所述目标图像视觉特征。24.根据权利要求21-23任一项所述的装置，其中，所述第二训练模块，进一步用于：在迭代训练所得待训练参考模型满足收敛条件的情况下，将所述视觉特征提取子模型的模型参数作为所述目标模型参数。25.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-12中任一项所述的方法。26.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-12中任一项所述的方法。27.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-12中任一项所述的方法。

技术总结
本公开提供了一种版式信息确定方法、装置、电子设备及存储介质，涉及人工智能技术领域，具体为深度学习、图像处理、大模型、计算机视觉技术领域，可应用于光学字符识别(Optical Character Recognition，OCR)等场景中。具体实现方案为：获取文档图像，其中，文档图像包括：文本区域图像；获取与文本区域图像对应的采样特征图，其中，采样特征图包括：至少一个特征点；以及根据采样特征图和至少一个特征点，确定与文本区域图像对应的版式信息。能够有效提高版式信息确定的准确性，对于具有歧义的版式信息能够明显提升检测效果。信息能够明显提升检测效果。信息能够明显提升检测效果。

技术研发人员：马伟洪庾悦晨吕鹏原章成全姚锟
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：2022.12.30
技术公布日：2023/7/12

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：卫星网络终端与网关时间同步方法、装置、系统及介质与流程 下一篇：信息搜索方法、装置、电子设备及存储介质与流程

版式信息确定方法、装置、电子设备及存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

版式信息确定方法、装置、电子设备及存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表