文档转换方法、装置、电子设备及介质与流程
未命名
09-22
阅读:104
评论:0
1.本公开涉及人工智能技术领域,尤其涉及文档转换领域,可应用于自然语言处理场景,具体涉及一种文档转换方法。
背景技术:
2.流式文档和版式文档都是文书类电子文件的重要保存格式,流式文档按照流式灌排的方式进行版面计算和绘制得到,支持自由编辑;版式文档是指版式固定,不可编辑的文档。
3.对版式文档进行编辑、修改,需要先将版式文档转换成流式文档。相关技术采用开源的文档转换软件将版式文档转换为流式文档,文档版式的还原效果需要提高,转换得到的流式文档会出现内容堆叠的情况。
技术实现要素:
4.本公开提供了一种文档转换方法、装置、电子设备及介质。
5.根据本公开的一方面,提供了一种文档转换方法,所述方法包括:
6.确定待转换的目标版式文档中的关键要素,并确定关键要素的要素类型和关键要素的版面属性;
7.根据所述关键要素的要素类型和所述关键要素的版面属性,确定关键要素在过渡版式文档中的样式位置,得到与所述目标版式文档所对应的过渡版式文档;
8.将所述过渡版式文档转换为目标流式文档,作为目标版式文档的文档转换结果。
9.根据本公开的另一方面,提供了一种文档转换装置,所述装置包括:
10.版面属性确定模块,用于确定待转换的目标版式文档中的关键要素,并确定关键要素的要素类型和关键要素的版面属性;
11.过渡版式文档确定模块,用于根据所述关键要素的要素类型和所述关键要素的版面属性,确定关键要素在过渡版式文档中的样式位置,得到与所述目标版式文档所对应的过渡版式文档;
12.文档转换模块,用于将所述过渡版式文档转换为目标流式文档,作为目标版式文档的文档转换结果。
13.根据本公开的又一方面,提供了一种电子设备,该电子设备包括:
14.至少一个处理器;以及
15.与所述至少一个处理器通信连接的存储器;其中,
16.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开任一实施例所述的文档转换方法。
17.根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行本公开任一实施例所述的文档转换方法。
18.根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开任一实施例所述的文档转换方法。
19.根据本公开的技术,本公开可以提高文档版式的还原效果,能够避免文档转换结果中出现内容堆叠的情况。
20.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
21.附图用于更好地理解本方案,不构成对本公开的限定。其中:
22.图1是根据本公开实施例提供的一种文档转换方法的流程图;
23.图2是根据本公开实施例提供的另一种文档转换方法的流程图;
24.图3是根据本公开实施例提供的另一种文档转换方法的流程图;
25.图4是根据本公开实施例提供的另一种文档转换方法的流程图;
26.图5是根据本公开实施例提供的一种文档转换装置的结构示意图;
27.图6用来实现本公开实施例的文档转换方法的电子设备的框图。
具体实施方式
28.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
29.图1是根据本公开实施例提供的一种文档转换方法的流程图,本公开实施例适用于将版式文档转换为流式文档的情况。该方法可以由文档转换装置来执行,该装置可以采用软件和/或硬件的方式实现。如图1所示,本实施例的文档转换方法可以包括:
30.s101,确定待转换的目标版式文档中的关键要素,并确定关键要素的要素类型和关键要素的版面属性;
31.s102,根据所述关键要素的要素类型和所述关键要素的版面属性,确定关键要素在过渡版式文档中的样式位置,得到与所述目标版式文档所对应的过渡版式文档;
32.s103,将所述过渡版式文档转换为目标流式文档,作为目标版式文档的文档转换结果。
33.其中,待转换的目标版式文档是指需要进行格式转换的版式文档。关键要素是版式文档中构成文档主体内容的文档要素。可选的,关键要素的要素类型包括:字符要素,直线要素和图像要素。
34.关键要素的版面属性与关键要素的要素类型相关,关键要素的要素类型不同,其所具有的版面属性也存在差异。示例性的,字符要素的版面属性包括字符位置,字符内容,字符类型和字符高度等;直线要素的版面属性可以包括:起止位置,线性信息和线条粗细等;图像要素的版面属性可以包括:图像内容和图像位置等。
35.关键要素的版面属性,可以按照关键要素的要素类型从目标版式文档中提取。示例性的,字符要素的版面属性可以通过对目标版式文档进行文本检测得到。通过对目标版
式文档进行文本检测可以检测并识别目标版式文档中的文本行。直线要素的版面属性可以通过对目标版式文档进行直线检测得到。例如可以采用图像形态学变换,纹理提取以及边缘检测等技术手段,实现对目标版式文档的直线检测。图像要素的版面属性,可以通过对目标版式文档进行版式识别得到。对目标版式图像进行版式识别可以得到目标版式文档的段落类型信息,基于段落类型信息能够在目标版式文档中定位图像要素。
36.值得注意的是,关键要素的版面属性的获取方式不仅与关键要素的要素类型相关,还与目标版式文档的文档格式相关。对于不同格式的目标版式文档,需采用与其对应的获取方式去获取关键要素的版面属性。以字符要素为例进行说明,对于扫描版pdf和文档图像,需要采用ocr算法获取字符要素的版面属性;相对的,对于编辑版pdf采用pdf解析工具对编辑版pdf进行解析,根据得到的解析结果确定字符要素的版面属性。
37.可选的,在确定关键要素的要素类型和版面属性之前,对待转换的目标版式文档进行解密处理,解除对目标版式文档的读取限制以及编辑限制。此外,如果目标版式文档中存在水印,还会对目标版式文档进行去水印操作。
38.基于关键要素的版面属性和要素类型可以确定关键要素在目标版式文档中所呈现的样式位置。基于关键要素在目标版式文档中的样式位置确定进一步可以确定关键要素在过渡版式文档中样式位置。其中,样式位置包括版面样式和版面位置。版面样式包括要素内容以及要素内容的要素样式。版面位置则为关键要素在版式文档中的相对位置。示例性的,字符要素的版面样式包括字符内容,字符颜色,字符字号以及字体信息等。直线要素的版面样式可以直线长短。图像要素的版面样式可以是图像大小和图像内容等。
39.可选的,按照关键要素在目标版式文档中的样式位置,将关键要素写入空白版式文档,即可得到过渡版式文档。关键要素在目标版式文档中的样式位置,根据文档要素的要素类型和版面属性确定。
40.关键要素在过渡版式文档中的样式位置,是对关键要素在目标版式文档中的样式位置的还原。过渡版式文档实现将目标版式文档转换为目标流式文档的数据桥梁。将过渡版式文档转换为目标流式文档,得到的目标流式文档即为目标版式文档的文档转换结果。
41.在一个可选的实施例中,所述目标版式文档为扫描版pdf文档,可编辑pdf文档或者文档图像;所述过渡版式文档为可编辑pdf文档;所述目标流式文档为word文档。
42.其中,扫描版pdf文档是指直接通过扫描仪生成的pdf文档,扫描版pdf文档一般为位图格式。可编辑pdf文档是指可以编辑、增加或删除pdf中的文字或者图像等元素的pdf文档。可编辑pdf文档一般为矢量格式。文档图像是指图像格式的文档。扫描版pdf文档,可编辑pdf文档和文档图像是主流版式文档。word文档是电子文档的一种格式,支持文字内容处理以及版面编辑等操作,是一种主流流式文档。
43.目标版式文档可以是扫描版pdf文档,可编辑pdf文档或者文档图像中的任意一种,或者三者之间的任意组合。也就是说,目标版式文档中的某些页面可以扫描版的,另外一些页面可以是可编辑的。辅助版式文档为可编辑pdf文档。
44.上述技术方案,支持对扫描版pdf文档,可编辑文档以及文档图像进行文档转换,能够将扫描版pdf文档,可编辑文档以及文档图像转换为流式文档,可覆盖主流版式文档的文档转换需求,有利于提高文档转换方法的适用性。
45.可选的,以串行方式逐页地将过渡版式文档转换为目标流式文档。或者,以并行方
式批量地将过渡版式文档转换为目标流式文档。可选的,利用开源的文档转换软件将过渡版式文档转换为目标流式文档。
46.本公开技术方案,通过根据待转换的目标版式文档中关键要素的要素类型和关键要素的版面属性,为目标版式文档构建过渡版式文档,在过渡版式文档中复现关键要素在目标版式文档中的样式位置,将过渡版式文档转换为目标流式文档,得到目标版式文档的文档转换结果。本公开将过渡版式文档作为将目标版式文档转换为目标流式文档的数据桥梁,在过渡版式文档中还原关键要素在目标版式文档中的样式位置,可以提高文档版式的还原效果,能够避免文档转换结果中出现内容堆叠的情况。本公开技术方案在文档转换过程中构建过渡版式文档,可以屏蔽目标版式文档的文档格式对于文档转换的影响,能够支持对多种主流版式文档进行格式转换,有利于提高文档转换方法的适用性。
47.考虑到文档转换效率,在一个可选的实施例中,将所述过渡版式文档转换为目标流式文档,作为目标版式文档的文档转换结果,包括:确定过渡版式文档的文档页数;若所述过渡版式文档的文档页数大于页数阈值,则确定可用的文档转换进程,以及所述文档转换进程对应的页数限制;根据文档转换进程的进程数量以及所述文档转换进程对应的页数限制,对所述过渡版式文档进行拆分;为拆分得到的子文档分配文档转换进程,通过文档转换进程并行对子文档进行转换得到目标流式文档,作为目标版式文档的文档转换结果。
48.其中,页数阈值用于确定是否以并行方式批量地将过渡版式文档转换为目标流式文档。页数阈值根据是实际业务需求预先确定,在这里不作限定。示例性的,页数阈值为2页。
49.确定过渡版式文档的文档页数与页数阈值之间的相对大小关系,根据相对大小关系确定是否以并行方式批量地将过渡版式文转换为目标流式文档。具体的,若过渡版式文档的文档页数大于页面阈值,则以并行方式批量地将过渡版式文转换为目标流式文档,否则,以串行方式逐页地将过渡版式文档转换为目标流式文档。
50.以并行方式批量地将过渡版式文转换为目标流式文档。具体的,确定可用的文档转换进程,以及所述文档转换进程对应的页数限制,其中,可用的文档转换进程,是指能够执行文档转换任务的进程。文档转换进程对应的页数限制是指文档转换进程一次性可以转换的文档页数,用于量化文档转换进程的文档转换能力。
51.根据文档转换进程的进程数量以及文档转换进程对应的页数限制,对过渡版式文档进行拆分,将过渡版式文档拆分为至少两组子文档,为拆分得到的子文档分配文档转换进程。
52.可选的,根据文档转换进程的进程数量以及文档转换进程对应的页数限制,确定文档转换进程可处理的文档总数。根据过渡版式文档的文档页数,与文档转换进程可处理的文档总数之间的相对大小关系,拆分过渡版式文档。具体的,若过渡版式文档的文档页数大于等于文档转换进程可处理的文档总数,则按照文档转换进程对应的页数限制,拆分过渡版式文档。为拆分得到的子文档分配文档转换进程。否则,按照文档转换进程的进程数量,拆分过渡版式文档。为拆分得到的子文档分配文档转换进程。
53.不同文档转换进程对应的页数限制可能相同,也可能不同,具体的根据文档转换进程的文档转换能力确定。为了避免超出文档转换进程的处理能力,按照文档转换进程对应的页数限制,为子文档分配文档转换进程。
54.通过文档转换进程并行对子文档进行转换得到目标流式文档,作为目标版式文档的文档转换结果。
55.上述技术方案,在过渡版式文档的文档页数大于页数阈值的情况下,采用并行方式通过文档转换进程,批量地对将过渡版式文档转换为目标流式文档,提高了文档转换效率。上述技术方案在利用文档转换进程进行文档转换的过程中,充分考虑了文档转换进程的转换能力,保证了文档转换方法的可用性和稳定性。
56.图2是根据本公开实施例提供的另一种文档转换方法的流程图;本实施例是在上述实施例的基础上提出的一种可选方案。
57.参见图2,本实施例提供的文档转换方法包括:
58.s201,确定待转换的目标版式文档中的关键要素,并确定关键要素的要素类型和关键要素的版面属性;
59.可选的,关键要素包括字符要素,直线要素和图像要素。
60.s202,在所述关键要素为字符要素的情况下,根据所述目标版式文档中的文本切分标识以及字符类型,将所述目标版式文档切分为文本块;
61.其中,文本切分标识用于定位文本切分位置。示例性的,文本切分标识为空格符。字符类型包括中文字符,外文字符和标点符号。可选的,基于目标版式文档中的文本切分标识对目标版式文档进行初步切分,得到文本块,然后在根据字符类型对初步切分得到的文本块进行精细切分,使得同一文本块中字符要素的字符类型相同。也就是说,文本块a中仅可包括中文字符,不可同时包括标点符号或者外文字符。
62.值得注意的是,在字符要素的版面属性包括字符颜色的情况下,还可以将字符类型与字符颜色结合,作为将目标版式文档切分为文本块的数据依据。将类型相同,且颜色统一的字符要素切分到同一文本块。基于参考字符颜色拆分得到的文本块构建过渡版式文档的情况下,过渡版式文档中字符要素的样式位置也会包括字符颜色。这样可以在过渡版式文档中还原字符颜色,进一步提高文档版式的还原效果。
63.至于字符要素的版面属性中是否包括字符颜色,与目标版式文档的文档格式相关,示例性的,目标版式文档为可编辑pdf文档的情况下可以得到字符要素的字符颜色;目标版式文档为扫描版pdf文档或者文档图像的情况下,则无法得到字符要素的字符颜色。
64.s203,根据所述文本块中字符要素的字符高度,字符类型以及字符要素在文本块中的相对位置,确定字符要素所属文本块在过渡版式文档中的样式位置;
65.在构建过渡版式文档的过程中,字符要素是以文本块的粒度写入过渡版式文档中。
66.确定字符要素在过渡版式文档中的样式位置,实际上是确定字符要素所属文本块在过渡版式文档中的样式位置。
67.其中,字符要素的字符高度以及字符要素在文本块中的相对位置,会影响文本块的块体高度,文本块中字符要素的字符类型会影响文本块的块体宽度。根据文本块中字符要素的字符高度以及字符要素在文本块中的相对位置,可以确定文本块中字符要素的字号大小。文本块中字符类型可以确定文本块中字符要素的占位宽度。这是因为字号相同的情况下,不同类型的字符要素所需版面宽度是不同的,示例性的,相同字号的中文字符所需版面宽度大于同样字号的英文字符,大于同样字号的标点符号。
68.在将版式文档转换为流式文档的过程中,字符要素最易引起文档转换结果中出现内容堆叠。根据所述文本块中字符要素的字符高度,字符类型以及字符要素在文本块中的相对位置,确定字符要素所属文本块在过渡版式文档中的样式位置,充分考虑不同文本块之间的间距,避免文本块之间的遮挡。
69.s204,基于字符要素所属文本块在过渡版式文档中的样式位置,将字符要素所属文本块写入所述过渡版式文档的文字层,得到与所述目标版式文档所对应的过渡版式文档。
70.其中,过渡版式文档包括文字层和图像层。文字层用于写入字符要素。图像层用于写入图像要素和直线要素。
71.基于字符要素所属文本块在过渡版式文档中的样式位置,将字符要素写入过渡版式文档的文字层。在过渡版式文档的文字层还原字符要素在目标版式文档中的样式位置。
72.s205,将所述过渡版式文档转换为目标流式文档,作为目标版式文档的文档转换结果。
73.在将版式文档转换为流式文档的过程中,字符要素最易引起文档转换结果中出现内容堆叠。本公开技术方案,根据文本块中字符要素的字符高度,字符类型以及字符要素在文本块中的相对位置,确定字符要素所属文本块在过渡版式文档中的样式位置,在过渡版式文档的文字层还原字符要素在目标版式文档中的样式位置。充分考虑不同文本块之间的间距,避免文本块之间的遮挡。提高了文档版式的还原效果,能够避免文档转换结果中出现字符堆叠的情况。
74.在一个可选的实施例中,根据所述文本块中字符要素的字符高度,字符类型以及字符要素在文本块中的相对位置,确定字符要素所属文本块在过渡版式文档中的样式位置,包括:根据所述文本块中字符要素的字符高度以及字符要素在文本块中的相对位置,确定字符要素所属文本块在过渡版式文档中的相对高度;根据所述文本块中字符要素的字符类型以及字符要素在文本块中的相对位置,确定字符要素所属文本块在过渡版式文档中的相对宽度;基于字符要素所属文本块在过渡版式文档中的相对高度和相对宽度,确定字符要素所属文本块在过渡版式文档中的样式位置。
75.根据文本块中字符要素的字符高度,确定文本块的块体高度。可选的,将文本块中字符要素的平均高度确定为文本块的块体高度。根据字符要素在文本块中的相对位置,确定文本块中的首个字符。根据文本块中首个字符的字符高度对文本块的块体高度进行调整。可选的,比较文本块中首个字符的字符高度和文本块的块体高度之间的相对大小关系,从中选择高度较高的一个更新文本块的块体高度。基于更新后的文本块的块体高度,确定字符要素所属文本块在过渡版式文档中的相对高度。这样做可以避免处于相对上下位置的文本块相互遮挡。
76.根据文本块中字符要素的字符类型以及字符要素在文本块中的相对位置,确定字符要素所属文本块在过渡版式文档中的相对宽度。可选的,根据字符要素在文本块中的相对位置,确定文本块的块体宽度。具体的,根据文本块中末尾字符的右上角横坐标和文本块中首个字符的左上角横坐标之差,确定文本块的块体宽度。根据文本块中字符要素的要素类型对文本块的块体宽度进行调整。
77.可选的,针对于占位宽度较大的字符类型如中文字符,为包括这类字符要素的文
本块确定更大的相对宽度。针对于占位宽度较小的字符类型如标点符号,为包括这类字符要素的文本块确定更小的相对宽度。这样做可以避免处于相对左右位置的文本块相互遮挡。
78.基于字符要素所属文本块在过渡版式文档中的相对高度和相对宽度,确定字符要素所属文本块在过渡版式文档中的样式位置。
79.上述技术方案,针对于字符要素,提供一种切实可行的样式位置确定方法,可以在过渡版式文档的文字层还原字符要素在目标版式文档中的样式位置,为避免文档转换结果中出现字符堆叠的情况提供了技术支持。
80.在一个可选的实施例中,根据所述文本块中字符要素的字符高度,字符类型以及字符要素在文本块中的相对位置,确定字符要素所属文本块在过渡版式文档中的样式位置,包括:根据所述字符要素在所述目标版式文档中所使用的目标字体,以及目标版式文档和过渡版式文档之间的字体映射关系,确定与所述目标字体对应的过渡字体;根据所述文本块中字符要素的字符高度,字符类型、字符要素在文本块中的相对位置和所述过渡字体,确定字符要素所属文本块在过渡版式文档中的样式位置。
81.其中,目标字体是指字符要素在目标版式文档中所使用的字体。过渡字体是指字符要素在过渡版式文档中所使用的字体。每个目标字体均存在对应的过渡字体。目标版式文档和过渡版式文档之间的字体映射关系记录了目标字体和过渡字体之间的对应关系。目标版式文档和过渡版式文档之间的字体映射关系,基于实际业务需求预先确定,在这里不作限定。
82.根据文本块中字符要素的字符高度,字符类型、字符要素在文本块中的相对位置和过渡字体,确定字符要素所属文本块在过渡版式文档中的样式位置。
83.上述技术方案,考虑了字体版权对文档转换的影响,可以在过渡版式文档的文字层最大程度还原字符要素在目标版式文档中的样式位置,为提高文档版式还原效果提供了技术支持。
84.图3是根据本公开实施例提供的另一种文档转换方法的流程图,本实施例是在上述实施例的基础上提出的一种可选方案。如图3所示,本实施例的文档转换方法可以包括:
85.s301,确定待转换的目标版式文档中的关键要素,并确定关键要素的要素类型和关键要素的版面属性;
86.s302,在所述关键要素为直线要素的情况下,根据所述直线要素在目标版式文档中的起止位置,对所述目标版式文档中的直线要素进行筛选得到有效直线;
87.其中,有效直线是指目标版式文档中的样式位置有效的直线元素。可以知道的是,在将版式文档转换为流式文档的过程中,直线要素最易引起文档转换结果中出现内容缺失。将目标版式文档中可能引起文档转换结果中出现内容缺失的直线要素筛选出去,将保留下来的直线要素作为有效直线。
88.有效直线根据直线要素在目标版式文档中的起止位置。可选的,直线要素的起止位置根据直线要素的开始坐标和终止坐标确定。
89.s303,根据所述有效直线在所述目标版式文档中的起止位置,确定所述有效直线在过渡版式文档中的样式位置;
90.其中,有效直线在过渡版式文档中的样式位置包括直线长短和直线位置。有效直
线在过渡版式文档中的样式位置基于有效直线在所述目标版式文档中的起止位置确定。有效直线在目标版式文档中的开始坐标和终止坐标可以确定直线长短,以及有效直线在目标版式文档中的相对位置。
91.s304,根据所述有效直线在过渡版式文档中的样式位置,将所述直线要素写入所述过渡版式文档的图像层,得到与所述目标版式文档所对应的过渡版式文档。
92.可选的,根据有效直线在过渡版式文档中的样式位置,将有效直线写入过渡版式文档的图像层。
93.s305,将所述过渡版式文档转换为目标流式文档,作为目标版式文档的文档转换结果。
94.在将版式文档转换为流式文档的过程中,直线要素最易引起文档转换结果中出现内容缺失。本公开技术方案,根据直线要素在目标版式文档中的起止位置,将目标版式文档中可能引起文档转换结果中出现内容缺失的直线要素筛选出去,将保留下来的直线要素作为有效直线。将根据有效直线构建的过渡版式文档用于文档格式转换,提高了文档版式的还原效果,避免文档转换结果中出现内容缺失,保证了文档内容的还原度。
95.在一个可选的实施例中,根据所述直线要素在目标版式文档中的起止位置,对所述目标版式文档中的直线要素进行筛选得到有效直线,包括:根据所述直线要素在目标版式文档中的起止位置,确定所述直线要素在所述目标版式文档中所处的版面区域;基于预设有效区域和所述直线要素在所述目标版式文档中所处的版面区域,对所述目标版式文档中的直线要素进行筛选得到有效直线。
96.其中,预设有效区域用于确定直线要素的有效性。预设有效区域根据实际业务需求确定,在这里不作限定。
97.可选的,确定直线要素在目标版式文档中所处的版面区域,若直线要素落入预设有效区域内,则将其确定为有效直线予以保留;相对的,若直线要素落入预设有效区域外,则将其确定为无效直线予以删除。
98.上述技术方案,提供了一种切实可行的有效直线确定方法,通过设置预设有效区域,保留预设有效区域内的直线要素作为有效直线,降低了文档转换结果中出现内容缺失的风险,保证了文档内容的还原度。
99.在一个可选的实施例中,根据所述直线要素在目标版式文档中的起止位置,对所述目标版式文档中的直线要素进行筛选得到有效直线,包括:根据所述直线要素在目标版式文档中的起止位置,确定所述目标版式文档中是否存在表格;若所述目标版式文档中不存在表格,则根据所述目标版式文档中直线要素的起止位置,确定所述直线要素的延伸方向;根据所述直线要素的延伸方向,对所述目标版式文档中的直线要素进行筛选得到有效直线。
100.其中,表格是指由直线要素形成的封闭区域。根据直线要素的起止位置,可以确定直线要素是否属于表格。若目标版式文档中存在直线要素构成的封闭区域可以确定目标版式文档中存在表格,否则,可以确定目标版式文档中不存在表格。在目标版式文档中不存在表格的情况下,根据直线要素的起止位置确定直线要素的延伸方向。其中,直线要素的延伸方向包括横向和纵向。
101.根据直线要素的延伸方向,对目标版式文档中的直线要素进行筛选,可选的,将延
伸方向为竖向的直线要素剔除,保留延伸方向为横向的直线作为有效直线。这是因为在将版式文档转换为流式文档的过程中,直线要素中的竖线要素最易引起文档转换结果中的内容出现空白。
102.上述技术方案,在目标版式文档中不存在表格的情况下,根据目标版式文档中直线要素的延伸方向,对目标版式文档中的直线要素进行筛选得到有效直线。将根据有效直线构建的过渡版式文档用于文档格式转换,提高了文档版式的还原效果,避免文档转换结果中的内容出现空白,保证了文档中表格的还原度。
103.图4是根据本公开实施例提供的另一种文档转换方法的流程图,本实施例是在上述实施例的基础上提出的一种可选方案。如图3所示,本实施例的文档转换方法可以包括:
104.s401,确定待转换的目标版式文档中的关键要素,并确定关键要素的要素类型和关键要素的版面属性;
105.s402,在所述关键要素为图像要素的情况下,基于所述图像要素在所述目标版式文档中的图像位置,确定所述目标版式文档中的图像区域;
106.其中,图像区域是指目标版式文档中图像要素所在的区域。在关键要素为图像要素的情况下,基于图像要素在目标版式文档中的图像位置,确定图像要素在目标版式文档所在的区域。
107.s403,从所述目标版式文档中的图像区域截取文档图像;
108.可以知道的是,在将版式文档图像转换为流式文档的过程中,图像要素的图像底色最易引起文档转换结果中的图像内容缺失。具体的,图像底色透明的图像要素,在文档转换结果中表现为黑色会出现图像内容缺失的情况。
109.定位到目标版式文档中的图像区域以后,从目标版式文档中的图像区域截取文档图像。文档图像的图像大小和图像内容一致。可选的,从目标版式图像中截取文档图像的过程中,调整文档图像的清晰度,使其尽可能与图像要素在目标版式文档中的清晰度保持一致。
110.s404,基于所述图像要素在所述目标版式文档中的图像位置,确定图像要素在过渡版式文档中的样式位置。
111.基于图像要素在目标版式文档中的图像位置,确定图像要素的图像大小,以及图像要素在过渡版式文档中的相对位置。将图像要素的图像大小以及图像要素在过渡版式文档中的相对位置,确定为图像要素在过渡版式文档中的样式位置。
112.s405,基于图像要素在过渡版式文档中的样式位置,将截取到的文档图像写入所述过渡版式文档的图像层,得到与所述目标版式文档所对应的过渡版式文档。
113.基于图像要素在过渡版式文档中的样式位置,将截取到的文档图像写入所述过渡版式文档的图像层,在过渡版式文档的图像层还原图像要素的样式位置。
114.s406,将所述过渡版式文档转换为目标流式文档,作为目标版式文档的文档转换结果。
115.在将版式文档转换为流式文档的过程中,图像要素的图像底色最易引起文档转换结果中的图像内容缺失。本公开技术方案,基于所述图像要素在所述目标版式文档中的图像位置,确定所述目标版式文档中的图像区域,从所述目标版式文档中的图像区域截取文档图像,基于所述图像要素在所述目标版式文档中的图像位置,确定图像要素在过渡版式
文档中的样式位置,基于图像要素在过渡版式文档中的样式位置,将截取到的文档图像写入所述过渡版式文档的图像层,得到与所述目标版式文档所对应的过渡版式文档,将所述过渡版式文档转换为目标流式文档。提高了文档版式的还原效果,避免文档转换结果中图像变为全黑,造成图像内容缺失的情况出现,保证了文档内容的还原度。
116.在一个可选的实施例中,将所述过渡版式文档转换为目标流式文档之前,所述方法还包括:根据字符要素在过渡版式文档中文字层的样式位置,以及图像要素在过渡版式文档中图像层的样式位置,确定所述字符要素与所述图像要素之间的公共位置;从过渡版式文档的文字层中删除处于所述公共位置的字符要素,以更新所述过渡版式文档。
117.过渡版式文档包括文字层和图像层。过渡版式文档的文字层用于写入字符要素;过渡版式文档的图像层用于写入图像要素和直线要素。可以理解的是,一些图像要素的图像内容中包括字符要素,再将图像要素写入过渡版式文档的图像层的同时,图像内容中包括的这些字符要素会写入过渡版式文档的文字层,这使得在将版式文档转换为流式文档的过程中,文档转换结果中会出现内容重复的问题。
118.根据字符要素在过渡版式文档中文字层样式位置,可以确定字符要素在目标版式文档中的相对位置,作为字符位置;相应的,根据图像要素在过渡版式文档中图像层的样式位置,可以确定图像要素在过渡版式文档中的相对位置,作为图像位置。基于字符位置和图像位置,确定字符要素和图像要素之间的公共位置。公共位置是指字符要素与图像要素重合的文档位置。公共位置所属的文档区域是过渡版式文档中容易发生内容重复的文档区域。基于公共位置可以确定字符要素是否落入过渡版式文档中的图像区域。为了避免过渡版式文档中出现内容重复的情况,从过渡版式文档的文字层中删除处于公共位置的字符要素,也就是,将从过渡版式文档中落入图像区域的字符要素从文字层删除,然后更新过渡版式文档。
119.上述技术方案,通过确定字符要素与图像要素之间的公共位置,从过渡版式文档的文字层中删除处于公共位置的字符要素,避免了过渡版式文档中出现内容重复的情况,保证了过渡版式文档的准确性,有利于提高文档版式的还原效果。
120.图5是根据本公开实施例提供的一种文档转换装置的结构示意图。本公开实施例适用于将版式文档转换为流式文档的情况。该装置可以采用软件和/或硬件来实现,该装置可以实现本公开任意实施例所述的文档转换方法。
121.如图5所示,该文档转换装置500包括:
122.版面属性确定模块501,用于确定待转换的目标版式文档中的关键要素,并确定关键要素的要素类型和关键要素的版面属性;
123.过渡版式文档确定模块502,用于根据所述关键要素的要素类型和所述关键要素的版面属性,确定关键要素在过渡版式文档中的样式位置,得到与所述目标版式文档所对应的过渡版式文档;
124.文档转换模块503,用于将所述过渡版式文档转换为目标流式文档,作为目标版式文档的文档转换结果。
125.本公开技术方案,通过根据待转换的目标版式文档中关键要素的要素类型和关键要素的版面属性,为目标版式文档构建过渡版式文档,在过渡版式文档中复现关键要素在目标版式文档中的样式位置,将过渡版式文档转换为目标流式文档,得到目标版式文档的
文档转换结果。本公开将过渡版式文档作为将目标版式文档转换为目标流式文档的数据桥梁,在过渡版式文档中还原关键要素在目标版式文档中的样式位置,可以提高文档版式的还原效果,能够避免文档转换结果中出现内容堆叠的情况。本公开技术方案在文档转换过程中构建过渡版式文档,可以屏蔽目标版式文档的文档格式对于文档转换的影响,能够支持对多种主流版式文档进行格式转换,有利于提高文档转换方法的适用性。
126.可选的,过渡版式文档确定模块502,包括:文本块切分子模块,用于在所述关键要素为字符要素的情况下,根据所述目标版式文档中的文本切分标识以及字符类型,将所述目标版式文档切分为文本块;字符样式位置确定子模块,用于根据所述文本块中字符要素的字符高度,字符类型以及字符要素在文本块中的相对位置,确定字符要素所属文本块在过渡版式文档中的样式位置;字符要素写入子模块,用于基于字符要素所属文本块在过渡版式文档中的样式位置,将字符要素所属文本块写入所述过渡版式文档的文字层,得到与所述目标版式文档所对应的过渡版式文档。
127.可选的,字符样式位置确定子模块,包括:相对高度确定单元,用于根据所述文本块中字符要素的字符高度以及字符要素在文本块中的相对位置,确定字符要素所属文本块在过渡版式文档中的相对高度;相对宽度确定单元,用于根据所述文本块中字符要素的字符类型以及字符要素在文本块中的相对位置,确定字符要素所属文本块在过渡版式文档中的相对宽度;第一字符样式位置确定单元,用于基于字符要素所属文本块在过渡版式文档中的相对高度和相对宽度,确定字符要素所属文本块在过渡版式文档中的样式位置。
128.可选的,字符样式位置确定子模块,包括:过渡字体确定单元,用于根据所述字符要素在所述目标版式文档中所使用的目标字体,以及目标版式文档和过渡版式文档之间的字体映射关系,确定与所述目标字体对应的过渡字体;第二字符样式确定单元,用于根据所述文本块中字符要素的字符高度,字符类型、字符要素在文本块中的相对位置和所述过渡字体,确定字符要素所属文本块在过渡版式文档中的样式位置。
129.可选的,过渡版式文档确定模块502,包括:有效直线确定子模块,用于在所述关键要素为直线要素的情况下,根据所述直线要素在目标版式文档中的起止位置,对所述目标版式文档中的直线要素进行筛选得到有效直线;起止位置确定子模块,用于根据所述有效直线在所述目标版式文档中的起止位置,确定所述有效直线在过渡版式文档中的样式位置;直线要素写入子模块,用于根据所述有效直线在过渡版式文档中的样式位置,将所述直线要素写入所述过渡版式文档的图像层,得到与所述目标版式文档所对应的过渡版式文档。
130.可选的,有效直线确定子模块,包括:版面区域确定单元,用于根据所述直线要素在目标版式文档中的起止位置,确定所述直线要素在所述目标版式文档中所处的版面区域;第一直线筛选单元,用于基于预设有效区域和所述直线要素在所述目标版式文档中所处的版面区域,对所述目标版式文档中的直线要素进行筛选得到有效直线。
131.可选的,有效直线确定子模块,包括:表格确定单元,用于根据所述直线要素在目标版式文档中的起止位置,确定所述目标版式文档中是否存在表格;延伸方向确定单元,用于若所述目标版式文档中不存在表格,则根据所述目标版式文档中直线要素的起止位置,确定所述直线要素的延伸方向;第二直线筛选单元,用于根据所述直线要素的延伸方向,对所述目标版式文档中的直线要素进行筛选得到有效直线。
132.可选的,过渡版式文档确定模块502,包括:图像区域确定子模块,用于在所述关键要素为图像要素的情况下,基于所述图像要素在所述目标版式文档中的图像位置,确定所述目标版式文档中的图像区域;文档图像截取子模块,用于从所述目标版式文档中的图像区域截取文档图像;图像样式位置确定子模块,用于基于所述图像要素在所述目标版式文档中的图像位置,确定图像要素在过渡版式文档中的样式位置;图像要素写入子模块,用于基于图像要素在过渡版式文档中的样式位置,将截取到的文档图像写入所述过渡版式文档的图像层,得到与所述目标版式文档所对应的过渡版式文档。
133.可选的,所述装置还包括:公共位置确定模块,用于将所述过渡版式文档转换为目标流式文档之前,根据字符要素在过渡版式文档中文字层的样式位置,以及图像要素在过渡版式文档中图像层的样式位置,确定所述字符要素与所述图像要素之间的公共位置;过渡版式文档更新模块,用于从过渡版式文档的文字层中删除处于所述公共位置的字符要素,以更新所述过渡版式文档。
134.可选的,文档转换模块503,包括:文档页数确定子模块,用于确定过渡版式文档的文档页数;文档转换进程确定子模块,用于若所述过渡版式文档的文档页数大于页数阈值,则确定可用的文档转换进程,以及所述文档转换进程对应的页数限制;文档拆分子模块,用于根据文档转换进程的进程数量以及所述文档转换进程对应的页数限制,对所述过渡版式文档进行拆分;文档转换子模块,用于为拆分得到的子文档分配文档转换进程,通过文档转换进程并行对子文档进行转换得到目标流式文档,作为目标版式文档的文档转换结果。
135.可选的,所述目标版式文档为扫描版pdf文档,可编辑pdf文档或者文档图像;所述过渡版式文档为可编辑pdf文档;所述目标流式文档为word文档。
136.本公开实施例所提供的文档转换装置可执行本公开任意实施例所提供的文档转换方法,具备执行文档转换方法相应的功能模块和有益效果。
137.本公开的技术方案中,所涉及的用户信息,语音控制指令的收集、存储、使用、加工、传输、提供和公开等,均符合相关法律法规的规定,且不违背公序良俗。
138.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
139.图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
140.如图6所示,电子设备600包括计算单元601,其可以根据存储在只读存储器(rom)602中的计算机程序或者从存储单元608加载到随机访问存储器(ram)603中的计算机程序,来执行各种适当的动作和处理。在ram 603中,还可存储电子设备600操作所需的各种程序和数据。计算单元601、rom 602以及ram 603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
141.电子设备600中的多个部件连接至i/o接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以
及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
142.计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如文档转换方法。例如,在一些实施例中,文档转换方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由rom 602和/或通信单元609而被载入和/或安装到电子设备600上。当计算机程序加载到ram 603并由计算单元601执行时,可以执行上文描述的文档转换方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文档转换方法。
143.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
144.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程文档转换装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
145.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
146.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
147.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
148.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
149.人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。
150.云计算(cloud computing),指的是通过网络接入弹性可扩展的共享物理或虚拟资源池,资源可以包括服务器、操作系统、网络、软件、应用和存储设备等,并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术,可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。
151.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
152.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
技术特征:
1.一种文档转换方法,所述方法包括:确定待转换的目标版式文档中的关键要素,并确定关键要素的要素类型和关键要素的版面属性;根据所述关键要素的要素类型和所述关键要素的版面属性,确定关键要素在过渡版式文档中的样式位置,得到与所述目标版式文档所对应的过渡版式文档;将所述过渡版式文档转换为目标流式文档,作为目标版式文档的文档转换结果。2.根据权利要求1所述的方法,其中,根据所述关键要素的要素类型和所述关键要素的版面属性,确定关键要素在过渡版式文档中的样式位置,得到与所述目标版式文档所对应的过渡版式文档,包括:在所述关键要素为字符要素的情况下,根据所述目标版式文档中的文本切分标识以及字符类型,将所述目标版式文档切分为文本块;根据所述文本块中字符要素的字符高度,字符类型以及字符要素在文本块中的相对位置,确定字符要素所属文本块在过渡版式文档中的样式位置;基于字符要素所属文本块在过渡版式文档中的样式位置,将字符要素所属文本块写入所述过渡版式文档的文字层,得到与所述目标版式文档所对应的过渡版式文档。3.根据权利要求2所述的方法,其中,根据所述文本块中字符要素的字符高度,字符类型以及字符要素在文本块中的相对位置,确定字符要素所属文本块在过渡版式文档中的样式位置,包括:根据所述文本块中字符要素的字符高度以及字符要素在文本块中的相对位置,确定字符要素所属文本块在过渡版式文档中的相对高度;根据所述文本块中字符要素的字符类型以及字符要素在文本块中的相对位置,确定字符要素所属文本块在过渡版式文档中的相对宽度;基于字符要素所属文本块在过渡版式文档中的相对高度和相对宽度,确定字符要素所属文本块在过渡版式文档中的样式位置。4.根据权利要求2所述的方法,其中,根据所述文本块中字符要素的字符高度,字符类型以及字符要素在文本块中的相对位置,确定字符要素所属文本块在过渡版式文档中的样式位置,包括:根据所述字符要素在所述目标版式文档中所使用的目标字体,以及目标版式文档和过渡版式文档之间的字体映射关系,确定与所述目标字体对应的过渡字体;根据所述文本块中字符要素的字符高度,字符类型、字符要素在文本块中的相对位置和所述过渡字体,确定字符要素所属文本块在过渡版式文档中的样式位置。5.根据权利要求1所述的方法,其中,根据所述关键要素的要素类型和所述关键要素的版面属性,确定关键要素在过渡版式文档中的样式位置,得到与所述目标版式文档所对应的过渡版式文档,包括:在所述关键要素为直线要素的情况下,根据所述直线要素在目标版式文档中的起止位置,对所述目标版式文档中的直线要素进行筛选得到有效直线;根据所述有效直线在所述目标版式文档中的起止位置,确定所述有效直线在过渡版式文档中的样式位置;根据所述有效直线在过渡版式文档中的样式位置,将所述直线要素写入所述过渡版式
文档的图像层,得到与所述目标版式文档所对应的过渡版式文档。6.根据权利要求5所述的方法,其中,根据所述直线要素在目标版式文档中的起止位置,对所述目标版式文档中的直线要素进行筛选得到有效直线,包括:根据所述直线要素在目标版式文档中的起止位置,确定所述直线要素在所述目标版式文档中所处的版面区域;基于预设有效区域和所述直线要素在所述目标版式文档中所处的版面区域,对所述目标版式文档中的直线要素进行筛选得到有效直线。7.根据权利要求5所述的方法,其中,根据所述直线要素在目标版式文档中的起止位置,对所述目标版式文档中的直线要素进行筛选得到有效直线,包括:根据所述直线要素在目标版式文档中的起止位置,确定所述目标版式文档中是否存在表格;若所述目标版式文档中不存在表格,则根据所述目标版式文档中直线要素的起止位置,确定所述直线要素的延伸方向;根据所述直线要素的延伸方向,对所述目标版式文档中的直线要素进行筛选得到有效直线。8.根据权利要求1所述的方法,其中,根据所述关键要素的要素类型和所述关键要素的版面属性,确定关键要素在过渡版式文档中的样式位置,得到与所述目标版式文档所对应的过渡版式文档,包括:在所述关键要素为图像要素的情况下,基于所述图像要素在所述目标版式文档中的图像位置,确定所述目标版式文档中的图像区域;从所述目标版式文档中的图像区域截取文档图像;基于所述图像要素在所述目标版式文档中的图像位置,确定图像要素在过渡版式文档中的样式位置;基于图像要素在过渡版式文档中的样式位置,将截取到的文档图像写入所述过渡版式文档的图像层,得到与所述目标版式文档所对应的过渡版式文档。9.根据权利要求1所述的方法,将所述过渡版式文档转换为目标流式文档之前,所述方法还包括:根据字符要素在过渡版式文档中文字层的样式位置,以及图像要素在过渡版式文档中图像层的样式位置,确定所述字符要素与所述图像要素之间的公共位置;从过渡版式文档的文字层中删除处于所述公共位置的字符要素,以更新所述过渡版式文档。10.根据权利要求1所述的方法,其中,将所述过渡版式文档转换为目标流式文档,作为目标版式文档的文档转换结果,包括:确定过渡版式文档的文档页数;若所述过渡版式文档的文档页数大于页数阈值,则确定可用的文档转换进程,以及所述文档转换进程对应的页数限制;根据文档转换进程的进程数量以及所述文档转换进程对应的页数限制,对所述过渡版式文档进行拆分;为拆分得到的子文档分配文档转换进程,通过文档转换进程并行对子文档进行转换得
到目标流式文档,作为目标版式文档的文档转换结果;其中,所述目标版式文档为扫描版pdf文档,可编辑pdf文档或者文档图像;所述过渡版式文档为可编辑pdf文档;所述目标流式文档为word文档。11.一种文档转换装置,所述装置包括:版面属性确定模块,用于确定待转换的目标版式文档中的关键要素,并确定关键要素的要素类型和关键要素的版面属性;过渡版式文档确定模块,用于根据所述关键要素的要素类型和所述关键要素的版面属性,确定关键要素在过渡版式文档中的样式位置,得到与所述目标版式文档所对应的过渡版式文档;文档转换模块,用于将所述过渡版式文档转换为目标流式文档,作为目标版式文档的文档转换结果。12.根据权利要求11所述的装置,其中,过渡版式文档确定模块,包括:文本块切分子模块,用于在所述关键要素为字符要素的情况下,根据所述目标版式文档中的文本切分标识以及字符类型,将所述目标版式文档切分为文本块;字符样式位置确定子模块,用于根据所述文本块中字符要素的字符高度,字符类型以及字符要素在文本块中的相对位置,确定字符要素所属文本块在过渡版式文档中的样式位置;字符要素写入子模块,用于基于字符要素所属文本块在过渡版式文档中的样式位置,将字符要素所属文本块写入所述过渡版式文档的文字层,得到与所述目标版式文档所对应的过渡版式文档。13.根据权利要求12所述的装置,其中,字符样式位置确定子模块,包括:相对高度确定单元,用于根据所述文本块中字符要素的字符高度以及字符要素在文本块中的相对位置,确定字符要素所属文本块在过渡版式文档中的相对高度;相对宽度确定单元,用于根据所述文本块中字符要素的字符类型以及字符要素在文本块中的相对位置,确定字符要素所属文本块在过渡版式文档中的相对宽度;第一字符样式位置确定单元,用于基于字符要素所属文本块在过渡版式文档中的相对高度和相对宽度,确定字符要素所属文本块在过渡版式文档中的样式位置。14.根据权利要求12所述的装置,其中,字符样式位置确定子模块,包括:过渡字体确定单元,用于根据所述字符要素在所述目标版式文档中所使用的目标字体,以及目标版式文档和过渡版式文档之间的字体映射关系,确定与所述目标字体对应的过渡字体;第二字符样式确定单元,用于根据所述文本块中字符要素的字符高度,字符类型、字符要素在文本块中的相对位置和所述过渡字体,确定字符要素所属文本块在过渡版式文档中的样式位置。15.根据权利要求11所述的装置,其中,过渡版式文档确定模块,包括:有效直线确定子模块,用于在所述关键要素为直线要素的情况下,根据所述直线要素在目标版式文档中的起止位置,对所述目标版式文档中的直线要素进行筛选得到有效直线;起止位置确定子模块,用于根据所述有效直线在所述目标版式文档中的起止位置,确
定所述有效直线在过渡版式文档中的样式位置;直线要素写入子模块,用于根据所述有效直线在过渡版式文档中的样式位置,将所述直线要素写入所述过渡版式文档的图像层,得到与所述目标版式文档所对应的过渡版式文档。16.根据权利要求15所述的装置,其中,有效直线确定子模块,包括:版面区域确定单元,用于根据所述直线要素在目标版式文档中的起止位置,确定所述直线要素在所述目标版式文档中所处的版面区域;第一直线筛选单元,用于基于预设有效区域和所述直线要素在所述目标版式文档中所处的版面区域,对所述目标版式文档中的直线要素进行筛选得到有效直线。17.根据权利要求15所述的装置,其中,有效直线确定子模块,包括:表格确定单元,用于根据所述直线要素在目标版式文档中的起止位置,确定所述目标版式文档中是否存在表格;延伸方向确定单元,用于若所述目标版式文档中不存在表格,则根据所述目标版式文档中直线要素的起止位置,确定所述直线要素的延伸方向;第二直线筛选单元,用于根据所述直线要素的延伸方向,对所述目标版式文档中的直线要素进行筛选得到有效直线。18.根据权利要求11所述的装置,其中,过渡版式文档确定模块,包括:图像区域确定子模块,用于在所述关键要素为图像要素的情况下,基于所述图像要素在所述目标版式文档中的图像位置,确定所述目标版式文档中的图像区域;文档图像截取子模块,用于从所述目标版式文档中的图像区域截取文档图像;图像样式位置确定子模块,用于基于所述图像要素在所述目标版式文档中的图像位置,确定图像要素在过渡版式文档中的样式位置;图像要素写入子模块,用于基于图像要素在过渡版式文档中的样式位置,将截取到的文档图像写入所述过渡版式文档的图像层,得到与所述目标版式文档所对应的过渡版式文档。19.根据权利要求11所述的装置,所述装置还包括:公共位置确定模块,用于将所述过渡版式文档转换为目标流式文档之前,根据字符要素在过渡版式文档中文字层的样式位置,以及图像要素在过渡版式文档中图像层的样式位置,确定所述字符要素与所述图像要素之间的公共位置;过渡版式文档更新模块,用于从过渡版式文档的文字层中删除处于所述公共位置的字符要素,以更新所述过渡版式文档。20.根据权利要求11所述的装置,其中,文档转换模块,包括:文档页数确定子模块,用于确定过渡版式文档的文档页数;文档转换进程确定子模块,用于若所述过渡版式文档的文档页数大于页数阈值,则确定可用的文档转换进程,以及所述文档转换进程对应的页数限制;文档拆分子模块,用于根据文档转换进程的进程数量以及所述文档转换进程对应的页数限制,对所述过渡版式文档进行拆分;文档转换子模块,用于为拆分得到的子文档分配文档转换进程,通过文档转换进程并行对子文档进行转换得到目标流式文档,作为目标版式文档的文档转换结果;
其中,所述目标版式文档为扫描版pdf文档,可编辑pdf文档或者文档图像;所述过渡版式文档为可编辑pdf文档;所述目标流式文档为word文档。21.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行根据权利要求1-10中任一项所述的文档转换方法。22.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-10中任一项所述的文档转换方法。23.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-10中任一项所述的文档转换方法。
技术总结
本公开提供了一种文档转换方法、装置、电子设备及介质,涉及人工智能技术领域,尤其涉及文档处理领域,可应用于自然语言处理场景。本公开提供的文档转换方法,包括:确定待转换的目标版式文档中的关键要素,并确定关键要素的要素类型和关键要素的版面属性;根据所述关键要素的要素类型和所述关键要素的版面属性,确定关键要素在过渡版式文档中的样式位置,得到与所述目标版式文档所对应的过渡版式文档;将所述过渡版式文档转换为目标流式文档,作为目标版式文档的文档转换结果。本公开可以提高文档版式的还原效果,能够避免文档转换结果中出现内容堆叠的情况。出现内容堆叠的情况。出现内容堆叠的情况。
技术研发人员:王乐义 何烩烩 刘明浩
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:2023.06.26
技术公布日:2023/9/20
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
