文本处理方法、装置及存储介质与流程
未命名
09-07
阅读:159
评论:0
1.本技术涉及图像处理技术领域:
:,尤其涉及一种文本处理方法、装置及存储介质。
背景技术:
::2.便携式文档格式(portabledocumentformat,pdf)可以将文字、格式和图像等封装在一个文件中,且pdf文件还具有不可编辑的特点,因此,在需要修改pdf文件,先要对pdf文件中进行文本识别,再进行内容修改。3.现有技术中是通过光学字符识别(opticalcharacterrecognition,ocr)技术对pdf文件进行识别。具体地,其是通过easyocr技术,采用多种深度学习模型进行文本检测,字符识别和文本识别等操作。而该easyocr技术虽然在ocr领域取得了很好的成果,但在面对中文中常见的错别字时,easyocr无法进行有效的纠正。同时,由于中文存在的语义和语法的复杂性,easyocr在中文文本的处理上也会受到一些限制,导致对pdf文件的文本识别准确性较低。技术实现要素:4.本技术提供一种文本处理方法、装置及存储介质,能够解决文本识别准确度较低的问题。5.为达到上述目的,本技术采用如下技术方案:6.第一方面,本技术提供一种文本处理方法,该方法包括:获取目标文件的初始文本信息,该初始文本信息包括上述目标文件中的所有文字内容;对上述初始文本信息进行语法和句法分析,生成目标文本信息,该目标文本信息包含上述文字内容间的语法和句法;根据上述目标文本信息,对上述初始文本信息进行纠错,生成目标文本数据。7.基于上述技术方案,本技术实施例提供的文本处理方法,可以先获取到目标文件的初始文本信息,再对初始文本信息进行语法和句法分析,得到目标文本信息,以提供更加精准的分析结果;最后根据目标文本信息对初始文本信息纠错,得到最终的目标文本数据。由于上述对初始文本信息进行语法和句法分析,可以将目标文件中的所有文字内容,按照中文的语法和句法进行分析处理,以使得到的目标文本信息更能精确的表达目标文件中的真实含义,从而提高了文本识别的准确度。8.在第一方面的第一种可能的实现方式中,上述获取目标文件的初始文本信息之前,上述方法还包括:对上述目标文件中的每个页面进行图片截取,得到n张图像,一个页面对应一张图像,n为正整数;对上述n张图像进行降噪和像素增强,得到n张目标图像,该n张目标图像包含上述目标文件中的所有文字内容的坐标信息。9.在第一方面的第二种可能的实现方式中,上述获取目标文件的初始文本信息,包括:采用easyocr技术,识别上述n张目标图像中的文字内容,得到n个文本内容,一张目标图像对应一个文本内容;将该n个文本内容按照上述n张目标图像的先后顺序拼接,生成上述初始文本信息。10.在第一方面的第三种可能的实现方式中,上述对上述初始文本信息进行语法和句法分析,生成目标文本信息,包括:在上述初始文本信息的语法与预设语法匹配,且所述初始文本信息的句法与预设句法匹配的情况下,生成上述目标文本信息;在上述初始文本信息的语法与所述预设语法匹配,且所述初始文本信息的句法与预设句法不匹配的情况下,生成错误文本信息;根据该错误文本信息的坐标信息,对该错误文本信息对应的目标图像进行数据增强处理,得到第一目标图像;其中,上述n张目标图像包括上述第一目标图像。11.在第一方面的第四种可能的实现方式中,上述在对初始文本信息进行语法和句法分析通过的情况下,生成上述目标文本信息,包括:对上述初始文本信息进行关键词提取,得到m个关键词,m为正整数;基于该m个关键词,对上述初始文本信息进行分词和实体命名,得到上述目标文本信息。12.第二方面,本技术提供一种文本处理装置,该装置包括:获取单元、生成单元和处理单元,其中:上述获取单元,用于获取目标文件的初始文本信息,该初始文本信息包括上述目标文件的所有文字内容;上述生成单元,用于对上述初始文本信息进行语法和句法分析,生成目标文本信息,该目标文本信息包含上述文字内容间的语法和句法;上述处理单元,用于根据上述目标文本信息,对上述初始文本信息进行纠错,生成目标文本数据。13.在第二方面的第一种可能的实现方式中,上述处理单元,还用于:在上述获取目标文件的初始文本信息之前,对上述目标文件中的每个页面进行图片截取,得到n张图像,一个页面对应一张图像,n为正整数;对上述n张图像进行降噪和像素增强,得到n张目标图像,该n张目标图像包含上述目标文件中的所有文字内容的坐标信息。14.在第二方面的第二种可能的实现方式中,上述获取单元,具体用于:采用easyocr技术,识别上述n张目标图像中的文字内容,得到n个文本内容,一张目标图像对应一个文本内容;将该n个文本内容按照上述n张目标图像的先后顺序拼接,生成上述初始文本信息。15.在第二方面的第三种可能的实现方式中,上述生成单元,具体用于:在上述初始文本信息的语法与预设语法匹配,且所述初始文本信息的句法与预设句法匹配的情况下,生成上述目标文本信息;在对上述初始文本信息的语法与预设语法匹配,且所述初始文本信息的句法与预设句法不匹配的情况下,生成错误文本信息;根据该错误文本信息的坐标信息,对该错误文本信息对应的目标图像进行数据增强处理,得到第一目标图像;其中,上述n张目标图像包括上述第一目标图像。16.在第二方面的第四种可能的实现方式中,上述生成单元,具体用于:对上述初始文本信息进行关键词提取,得到m个关键词,m为正整数;基于该m个关键词,对上述初始文本信息进行分词和实体命名,得到上述目标文本信息。17.第三方面,本技术提供了一种文本处理装置,该装置包括:处理器和通信接口;通信接口和处理器耦合,处理器用于运行计算机程序或指令,以实现如第一方面和第一方面的任一种可能的实现方式中所描述的文本处理方法。18.第四方面,本技术提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在终端上运行时,使得终端执行如第一方面和第一方面的任一种可能的实现方式中描述的文本处理方法。19.第五方面,本技术实施例提供一种包含指令的计算机程序产品,当计算机程序产品在文本处理装置上运行时,使得文本处理装置执行如第一方面和第一方面的任一种可能的实现方式中所描述的文本处理方法。20.第六方面,本技术实施例提供一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行计算机程序或指令,以实现如第一方面和第一方面的任一种可能的实现方式中所描述的文本处理方法。21.具体的,本技术实施例中提供的芯片还包括存储器,用于存储计算机程序或指令。附图说明22.图1为本技术实施例提供的一种系统结构图;23.图2为本技术实施例提供的一种文本处理方法的方法流程图之一;24.图3为本技术实施例提供的一种文本处理方法的方法流程图之二;25.图4为本技术实施例提供的一种文本处理方法的方法流程图之三;26.图5为本技术实施例提供的一种文本处理方法的方法流程图之四;27.图6为本技术实施例提供的一种文本处理方法的所应用的示意图之一;28.图7为本技术实施例提供的一种文本处理方法的所应用的示意图之二;29.图8为本技术实施例提供的一种文本处理方法的所应用的示意图之三;30.图9为本技术实施例提供的一种文本处理方法的方法流程图之五;31.图10为本技术实施例提供的一种文本处理方法的内部流程图;32.图11为本技术实施例提供的一种文本处理装置的结构示意图;33.图12为本技术实施例提供的另一种文本处理装置的结构示意图。具体实施方式34.下面结合附图对本技术实施例提供的文本处理方法、装置及存储介质进行详细地描述。35.本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。36.本技术的说明书以及附图中的术语“第一”和“第二”等是用于区别不同的对象,或者用于区别对同一对象的不同处理,而不是用于描述对象的特定顺序。37.此外,本技术的描述中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。38.需要说明的是,本技术实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本技术实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。39.在本技术的描述中,除非另有说明,“多个”的含义是指两个或两个以上。40.目前,pdf文件可以将文字、格式、和图形图像等封装在一个文件中。近年来,随着深度学习技术的不断发展和应用,基于深度学习的ocr技术得到了广泛的应用和研究。41.现有技术中,传统的ocr技术主要基于图像处理和模式识别,通过对图像进行分析和处理,将图像中的文本信息转化为计算机可读的文本数据。但在面对一些特殊的文本场景(如低分辨率、噪声、字体变形、倾斜等)时,往往存在识别错误率高、处理速度慢等问题。新提出的easyocr作为一种基于深度学习的ocr技术,以其快速、准确和易用的特点,受到了越来越多的关注和应用。该easyocr使用了多种深度学习模型来解决文本检测、字符识别和文本识别等问题,并在多个数据集上取得了较好的性能表现。42.然而,虽然easyocr在ocr领域取得了很好的成果,但在中文文本处理方面仍然存在一些问题,例如,对于中文中常见的错别字,easyocr往往无法进行有效的纠正。此外,由于中文中存在的语义和语法的复杂性,easyocr在中文文本的处理上可能会受到一些限制,导致处理效率较低。43.示例性地,现有的pdf文件识别方法主要包括以下a至c三种:44.a、基于ocr识别的pdf识别方法。调用多种ocr识别技术对目标pdf文档的每个字节进行识别,得到各种ocr识别技术对目标pdf文档中每个字节识别出的字符串;根据预设选择策略,从多种ocr识别技术对目标pdf文档的第i个字节识别出的字符串中确定出目标pdf文档的第i个字节对应的最优字节字符串;将目标pdf文档的所有字节各自对应的最优字节字符串按照目标pdf文档的字节顺序输出,得到目标pdf文档的识别结果。45.然而,该方法是通过结合各类ocr技术对同一份pdf文件进行识别,其中字符串匹配规则较为繁琐,且对于英文文档进行文字匹配效率低下,准确率降低;且循环检测最优字符串,对于批量识别pdf文件耗时久;同时,若pdf文件上传不清晰,也没有对该文件进行图片增强手段,识别准确率低;此外,该方法未加入自然语言处理(naturallanguageprocessing,nlp)自动识别ocr结果,容易对文字识别产生误差。46.b、一种pdf文档识别方法。解析pdf文档中的路径对象,识别pdf文档中的表格;解析pdf文档中表格区域以外的文本对象,识别pdf文档中的文字内容;将识别结果写入临时文件,或将其以附件的形式写入pdf文件。47.c、一种基于图像识别的pdf表格结构识别方法。将pdf文档转为图像,对每一张输入的图像,识别出表格的位置,截取出表格区域,对表格区域识别文字blob块,对每个blob找到邻近的blob,对blob与每一个邻近blob之间的关系进行预测,最后通过这些关系得到表格的结构。48.然而,上述b和c两种方法,仅是针对于表格方面的识别,通过不停衡量pdf文件中的线条信息来获取数据,而这种识别pdf格式需要有严格的要求,否则数据识别准确度有所下降;同上,若pdf文件上传不清晰,其也没有对该文件进行图片增强的手段,识别准确率低;并且,采用blob搜索手段进行文本识别,没有考虑到如果数据识别出的结果有问题,无法对错误结果进行校验和修正。49.为了解决现有技术中,pdf文本识别准确度较低的问题,本技术提供了一种文本处理方法,可以先获取到目标文件的初始文本信息,再对初始文本信息进行语法和句法分析,得到目标文本信息,以提供更加精准的分析结果;最后根据目标文本信息对初始文本信息纠错,得到最终的目标文本数据。由于上述对初始文本信息进行语法和句法分析,可以将目标文件中的所有文字内容,按照中文的语法和句法进行分析处理,以使得到的目标文本信息更能精确的表达目标文件中的真实含义,从而提高了文本识别的准确度。50.如图1所示,为本技术实施例提供的一种系统架构图,该架构图包括电子设备10和与电子设备10通过通信网络连接的服务器20。本技术实施例提供的文本处理方法可以由电子设备执行,也可以由电子设备的部件(如处理器、芯片等)执行。51.如图2所示,为本技术实施例提供的文本处理方法的流程图,该方法包括以下步骤s101至步骤s103:52.s101、获取目标文件的初始文本信息。53.在本技术实施例中,上述初始文本信息包括上述目标文件中的所有文字内容。54.示例性地,上述目标文件的所有文字内容为目标文件中显示的所有文字。55.示例性地,上述目标文件可以为pdf文件、也可以为表格文件(如excel)、幻灯片文件(如powerpoint)。56.s102、对初始文本信息进行语法和句法分析,生成目标文本信息。57.在本技术实施例中,上述目标文本信息包含上述文字内容间的语法和句法。58.在本技术实施例中,上述hanlp是一种基于深度学习的中文自然语言处理工具,它可以支持中文分词、词性标注、命名实体识别、依存句法分析等多种中文自然语言处理任务。具体的,hanlp使用了多种深度学习模型来解决中文自然语言处理的问题,并在多个数据集上取得了较好的性能表现。59.在本技术实施例中,上述目标文本信息的精确度高于上述初始文本信息的精确度。60.s103、根据目标文本信息,对初始文本信息进行纠错,生成目标文本数据。61.在本技术实施例中,在得到上述精确度较高的目标文本信息后,可以将该目标文本信息和上述初始文本信息相比较,剔除初始文本信息中的错误文本,形成最终的文本数据。62.示例性地,可以根据目标文本信息中的正确识别文本,确定上述初始文本信息中对应位置的错误文本,然后修改该错误文本。63.可选地,在本技术实施例中,上述得到目标文本数据后,还可以根据用户需求,对目标文本数据进行各种分析,包括文本分类、主题分析、情感分析,生成并输出结果报告。64.示例性地,上述结果报告包括原始文本、处理后的文本数据、分析结果报告。65.在本技术实施例中,还可以将上述结果报告输出为数据库结构化数据或其他形式数据。66.在本技术实施例提供的文本处理方法中,可以在先获取到目标文件的初始文本信息,再对初始文本信息进行语法和句法分析,得到目标文本信息,以提供更加精准的分析结果;最后根据目标文本信息对初始文本信息纠错,得到最终的目标文本数据。由于上述对初始文本信息进行语法和句法分析,可以将目标文件中的所有文字内容,按照中文的语法和句法进行分析处理,以使得到的目标文本信息更能精确的表达目标文件中的真实含义,从而提高了文本识别的准确度。67.可选地,在本技术实施例中,如图3所示,上述步骤s101之前,本技术实施例提供的文本处理方法还可以包括如下步骤s301和步骤s302:68.s301、对目标文件中的每个页面进行图片截取,得到n张图像。69.其中,n为正整数。70.在本技术实施例中,一个页面对应一张图像。71.在本技术实施例中,上述目标文件可以包括多页内容。72.示例性地,可以对目标文件中的每页内容均进行截图,固定每张图像的信息内容,便于后续纠错定位。73.s302、对n张图像进行降噪和像素增强,得到n张目标图像。74.在本技术实施例中,上述降噪用于减少上述图像中的颗粒和变色,避免图像质量下降。75.示例性地,上述降噪可以为去除图像的背景噪声。76.在本技术实施例中,上述像素增强用于提高上述图像的清晰度,扩大图像中不同物体特征之间的差距,提高图像视觉效果。77.示例性地,上述像素增强可以为调整图像亮度、对比度等。78.在本技术实施例中,上述n张目标图像包含上述目标文件中的所有文字内容的坐标信息。79.示例性地,上述坐标信息用于指示目标文件中各个信息内容对应的目标图像。80.在本技术实施例中,可以将需要解析的文档类型的目标文件转换为图片文件,以便后续基于图片进行文字识别。81.如此,通过对ocr识别前的目标文本进行预处理(如去除背景噪声、调整亮度、对比度等),以提高ocr识别的准确性。82.可选地,在本技术实施例中,如图4所示,上述步骤s101可以包括如下步骤s101a和步骤s101b:83.s101a、采用easyocr技术,识别n张目标图像中的文字内容,得到n个文本内容。84.在本技术实施例中,可以采用easyocr技术,分别对n张目标图像进行文本识别,将目标图像对应的目标文件内的所有内容均转化为文本内容。85.需要说明的是,上述一张目标图像对应一个文本内容。86.在本技术实施例中,上述对n张图像进行文本识别可以同时进行,也可以依次按顺序进行。87.s101b、将n个文本内容按照n张目标图像的先后顺序拼接,生成初始文本信息。88.在本技术实施例中,在得到上述n张图像各自对应的文本内容后,可以根据n张图像,在原始目标文件中对应的页数进行排序,以得到完整的初始文本信息。89.示例性地,可以根据页数从小到大的顺序进行排序。90.如此,通过将easyocr技术识别得到的n个文本内容进行排序,提高了后续对文本纠错、文本排版的便捷性。91.可选地,在本技术实施例中,如图5所示,上述步骤s102可以包括如下步骤s102a至步骤s102c:92.s102a、在初始文本信息的语法与预设语法匹配,且初始文本信息的句法与预设句法匹配的情况下,生成目标文本信息。93.在本技术实施例中,可以采用hanlp技术对上述初始文本信息进行校验,从句子纠错方面识别初始文本信息。94.示例性地,上述句子纠错的方法可以采用隐马尔可夫模型(hiddenmarkovmodel,hmm)。95.需要说明的是,该hmm模型的原理为:输入文本信息序列$w={w_1,w_2,...,w_n},其中$w_i表示第i个单词。其中,该hmm模型还包括两个核心部分:状态序列:$q={q_1,q_2,...,q_n},观测数列$o={o_1,o_2,...,o_n},其中状态序列表示文本中每个单词的拼写状态。$q_i就表示第i个单词是正确状态还是错误状态,$o_i表示我们目前可看到的第i个文本序列。其核心思想是通过寻找最正确的文本$w与对应的$q,即p(c,s|w)=argmax{c,s}p(c,s),其中$p(w|c,s)为生成模型,表示在给定正确文本序列和状态序列的情况下,产生观测文本序列的概率,可以使用语言模型来估计。96.在本技术实施例中,可以根据上述句子纠错方法,检验上述初始文本信息是否符合语法、句法,在检验符合预设语法、句法的情况下,将该初始文本信息确定为目标文本信息。97.s102b、在初始文本信息的语法与预设语法不匹配,且初始文本信息的句法与预设句法不匹配的情况下,生成错误文本信息。98.在本技术实施例中,对上述初始文本信息信息进行hanlp处理时,如果初始文本信息的语法和句法,与预设语法和句法不匹配时,则会生成错误文本信息。99.示例性地,如果原始目标文件中是“通货膨胀”,但文本识别得到的结果为“通货膨张”,此时在进行语法和句法分析时,便可以检测到错误文本“张”。100.s102c、根据错误文本信息的坐标信息,对错误文本信息对应的目标图像进行数据增强处理,得到第一目标图像。101.在本技术实施例中,上述第一目标图像即为上述n张目标图像中的图像。102.在本技术实施例中,由于上述目标图像包含目标文件中所有文字内容的坐标信息,因此上述生成的错误文本信息也携带有相应的坐标信息。103.示例性地,可以根据错误文本信息的坐标信息,定位该错误文本对应的目标图像,然后对该目标图像进行数据增强处理,以得到更为清晰的图像。104.示例性地,上述数据增强处理可以通过卷积神经网络(convolutionalneuralnetworks,cnn)完成。105.示例性地,上述数据增强处理包括文本去噪处理、文本灰度处理、文本二值处理等。106.示例性地,上述文本去噪处理用于去除文本中的表情、标点等非文字内容。107.示例性地,上述文本灰度处理用于将彩色图像转化为灰度图像。108.示例性地,上述文本二值处理用于将图像中的每个像素转化为黑白两色。109.在本技术实施例中,在得到上述第一目标图像后,可以对该第一目标图像重复上述步骤s101与步骤s102的操作,直至生成正确的目标文本信息。110.示例性地,以上述目标图像为图6为例,图6中包含“卷存清单号”文字,在采用hanlp识别后,如图7所示,识别得到的“卷奁清单号”不符合常规名词命名,根据该错误文字的定位坐标([[0,3],[416,3],[416,52],[0,52]],‘卷奁清单号:120120422057012’,0.2044581662762789),定位得到对应图像,并对该图像进行cnn像素增强后,进行第二轮文本识别,识别结果如图8所示,成功识别到“卷存清单号”文字。[0111]如此,在采用hanlp技术进行语法和句法校验的过程中,针对与预设语法和句法不匹配的情况,对不匹配的文本信息对应的图像进行数据增强处理,然后重复进行easyocr识别和hanlp识别,以得到正确的文本信息,提高了文本识别的精确度。[0112]可选地,在本技术实施例中,如图9所示,上述步骤s102a可以包括如下步骤s102a1和步骤s102a2:[0113]s102a1、对初始文本信息进行关键词提取,得到m个关键词。[0114]其中,m为正整数[0115]在本技术实施例中,可以采用hanlp技术,根据中文语义和语法,先从上述初始文本信息中提取至少一个关键词。[0116]在本技术实施例中,上述关键词可以为上述目标文件中出现次数较多的词语。[0117]示例性地,上述关键词可以为出现次数超过预设阈值的词语。[0118]s102a2、基于m个关键词,对初始文本信息进行分词和实体命名,得到目标文本信息。[0119]在本技术实施例中,可以根据上述关键词,将目标文件的所有文字内容,分解为以字词为单位的数据结构,然后对分词得到的字词进行实体识别,并对其进行命名。[0120]示例性地,先对分词结果依存句法进行分析,再进行实体识别,以提取实体、关系等相关信息,从而进行进一步语义分析。[0121]如此,通过使用hanlp技术,对文本信息进行关键词提取和实体识别等,深入分析目标文件中的信息,以提供更加精准的分析结果。[0122]可选地,在本技术实施例中,以上述目标文件为pdf文件为例,如图10所示,本技术实施例提供的文本处理方法还可以通过如下步骤s1至s5实现:[0123]s1、获取pdf文件,对pdf文件进行图像处理。[0124]示例性地,可以采用python将pdf文件中的每一页数据进行截图定位,分割每张图片中包含的信息。[0125]s2、采用esayocr技术,对每张图像照片识别,获取所有照片内的字符串信息。[0126]示例性地,可以采用easyocr进行初步识别,生成初版文档。[0127]s3、采用hanlp技术,对上述字符串信息进行识别。[0128]示例性地,采用hanlp,对初版文档进行语法,词法,句法提炼,进行初步异常检测。[0129]s4、若识别通过,则根据用户规则,整合源数据,输出结果。[0130]s5、若识别不通过,则采用计算机视觉库(computervisionlibrary,cv)技术对原始图像进行数据增强,生成更清晰的照片信息。[0131]示例性地,在生成更清晰的照片信息后,重复进行上述步骤s2和s3,直至识别准确。[0132]如此,通过采用深度学习技术结合图像识别技术的方法,可以自动化处理海量pdf数据,并整理成可编辑数据;同时对于hanlp自然语言框架,可以更换语料库,以进行多语言pdf文件识别,提高了pdf文本处理的效率和准确性。[0133]本技术实施例可以根据上述方法示例对文本处理装置进行功能模块或者功能单元的划分,例如,可以对应各个功能划分各个功能模块或者功能单元,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块或者功能单元的形式实现。其中,本技术实施例中对模块或者单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。[0134]如图11所示,为本技术实施例提供的一种文本处理装置的结构示意图,该装置包括:获取单元201、生成单元202、处理单元203。[0135]其中,上述获取单元201,用于获取目标文件的初始文本信息,该初始文本信息包括上述目标文件的所有文字内容;上述生成单元202,用于对上述初始文本信息进行语法和句法分析,生成目标文本信息,该目标文本信息包含上述文字内容间的语法和句法;上述处理单元203,用于根据上述目标文本信息,对上述初始文本信息进行纠错,生成目标文本数据。[0136]可选地,在本技术实施例中,上述处理单元203,还用于:在上述获取目标文件的初始文本信息之前,对上述目标文件中的每个页面进行图片截取,得到n张图像,一个页面对应一张图像,n为正整数;对上述n张图像进行降噪和像素增强,得到n张目标图像,该n张目标图像包含上述目标文件中的所有文字内容的坐标信息。[0137]可选地,在本技术实施例中,上述获取单元201,具体用于:采用easyocr技术,识别上述n张目标图像中的文字内容,得到n个文本内容,一张目标图像对应一个文本内容;将该n个文本内容按照上述n张目标图像的先后顺序拼接,生成上述初始文本信息。[0138]可选地,在本技术实施例中,上述生成单元202,具体用于:在上述初始文本信息的语法与预设语法匹配,且所述初始文本信息的句法与预设句法匹配的情况下,生成上述目标文本信息;在上述初始文本信息的语法与预设语法不匹配,且所述初始文本信息的句法与预设句法不匹配的情况下,生成错误文本信息;根据该错误文本信息的坐标信息,对该错误文本信息对应的目标图像进行数据增强处理,得到第一目标图像;其中,上述n张目标图像包括上述第一目标图像。[0139]可选地,在本技术实施例中,上述生成单元202,具体用于:对上述初始文本信息进行关键词提取,得到m个关键词,m为正整数;基于该m个关键词,对上述初始文本信息进行分词和实体命名,得到上述目标文本信息。[0140]在本技术实施例提供的文本处理装置中,可以先获取到目标文件的初始文本信息,再对初始文本信息进行语法和句法分析,得到目标文本信息,以提供更加精准的分析结果;最后根据目标文本信息对初始文本信息纠错,得到最终的目标文本数据。由于上述对初始文本信息进行语法和句法分析,可以将目标文件中的所有文字内容,按照中文的语法和句法进行分析处理,以使得到的目标文本信息更能精确的表达目标文件中的真实含义,从而提高了文本识别的准确度。[0141]图12示出了上述实施例中所涉及的文本处理装置的又一种可能的结构示意图。该文本处理装置包括:处理器302和通信接口303。处理器302用于对文本处理装置的动作进行控制管理,例如,执行上述获取单元201、生成单元202和处理单元203执行的步骤,和/或用于执行本文所描述的技术的其它过程。通信接口303用于支持文本处理装置与其他网络实体的通信。文本处理装置还可以包括存储器301和总线304,存储器301用于存储文本处理装置的程序代码和数据。[0142]其中,存储器301可以是文本处理装置中的存储器等,该存储器可以包括易失性存储器,例如随机存取存储器;该存储器也可以包括非易失性存储器,例如只读存储器,快闪存储器,硬盘或固态硬盘;该存储器还可以包括上述种类的存储器的组合。[0143]上述处理器302可以是实现或执行结合本技术公开内容所描述的各种示例性的逻辑方框,模块和电路。该处理器可以是中央处理器,通用处理器,数字信号处理器,专用集成电路,现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本技术公开内容所描述的各种示例性的逻辑方框,模块和电路。该处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等。[0144]总线304可以是扩展工业标准结构(extendedindustrystandardarchitecture,eisa)总线等。总线304可以分为地址总线、数据总线、控制总线等。为便于表示,图12中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。[0145]通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。[0146]本技术实施例提供一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得该计算机执行上述方法实施例中的文本处理方法。[0147]本技术实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当该指令在计算机上运行时,使得该计算机执行上述方法实施例所示的方法流程中的文本处理方法。[0148]其中,计算机可读存储介质,例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(randomaccessmemory,ram)、只读存储器(read-onlymemory,rom)、可擦式可编程只读存储器(erasableprogrammablereadonlymemory,eprom)、寄存器、硬盘、光纤、便携式紧凑磁盘只读存储器(compactdiscread-onlymemory,cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合、或者本领域熟知的任何其它形式的计算机可读存储介质。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于特定用途集成电路(applicationspecificintegratedcircuit,asic)中。在本技术实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。[0149]本发明的实施例提供一种包含指令的计算机程序产品,当指令在计算机上运行时,使得计算机执行如图2至图10中所述的文本处理方法。[0150]由于本发明的实施例中的文本处理装置、计算机可读存储介质、计算机程序产品可以应用于上述方法,因此,其所能获得的技术效果也可参考上述方法实施例,本发明实施例在此不再赘述。[0151]在本技术所提供的几个实施例中,应该理解到,所揭露的系统、设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。[0152]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。[0153]另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。[0154]以上,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何在本技术揭露的技术范围内的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应该以权利要求的保护范围为准。当前第1页12当前第1页12
技术特征:
1.一种文本处理方法,其特征在于,所述方法包括:获取目标文件的初始文本信息,所述初始文本信息包括所述目标文件中的所有文字内容;对所述初始文本信息进行语法和句法分析,生成目标文本信息,所述目标文本信息包含所述文字内容间的语法和句法;根据所述目标文本信息,对所述初始文本信息进行纠错,生成目标文本数据。2.根据权利要求1所述的方法,其特征在于,所述获取目标文件的初始文本信息之前,所述方法还包括:对所述目标文件中的每个页面进行图片截取,得到n张图像,一个页面对应一张图像,n为正整数;对所述n张图像进行降噪和像素增强,得到n张目标图像,所述n张目标图像包含所述目标文件中的所有文字内容的坐标信息。3.根据权利要求2所述的方法,其特征在于,所述获取目标文件的初始文本信息,包括:采用easyocr技术,识别所述n张目标图像中的文字内容,得到n个文本内容,一张目标图像对应一个文本内容;将所述n个文本内容按照所述n张目标图像的先后顺序拼接,生成所述初始文本信息。4.根据权利要求2或3所述的方法,其特征在于,所述对所述初始文本信息进行语法和句法分析,生成目标文本信息,包括:在所述初始文本信息的语法与预设语法匹配,且所述初始文本信息的句法与预设句法匹配的情况下,生成所述目标文本信息;在所述初始文本信息的语法与所述预设语法不匹配,且所述初始文本信息的句法与预设句法不匹配的情况下,生成错误文本信息;根据所述错误文本信息的坐标信息,对所述错误文本信息对应的目标图像进行数据增强处理,得到第一目标图像;其中,所述n张目标图像包括所述第一目标图像。5.根据权利要求4所述的方法,其特征在于,所述生成所述目标文本信息,包括:对所述初始文本信息进行关键词提取,得到m个关键词,m为正整数;基于所述m个关键词,对所述初始文本信息进行分词和实体命名,得到所述目标文本信息。6.一种文本处理装置,其特征在于,所述装置包括:获取单元、生成单元和处理单元,其中:所述获取单元,用于获取目标文件的初始文本信息,所述初始文本信息包括所述目标文件中的所有文字内容;所述生成单元,用于对所述初始文本信息进行语法和句法分析,生成目标文本信息,所述目标文本信息包含所述文字内容间的语法和句法;所述处理单元,用于根据所述目标文本信息,对所述初始文本信息进行纠错,生成目标文本数据。7.根据权利要求6所述的装置,其特征在于,所述处理单元,还用于:
在所述获取目标文件的初始文本信息之前,对所述目标文件中的每个页面进行图片截取,得到n张图像,一个页面对应一张图像,n为正整数;对所述n张图像进行降噪和像素增强,得到n张目标图像,所述n张目标图像包含所述目标文件中的所有文字内容的坐标信息。8.根据权利要求7所述的装置,其特征在于,所述获取单元,具体用于:采用easyocr技术,识别所述n张目标图像中的文字内容,得到n个文本内容,一张目标图像对应一个文本内容;将所述n个文本内容按照所述n张目标图像的先后顺序拼接,生成所述初始文本信息。9.根据权利要求7或8所述的装置,其特征在于,所述生成单元,具体用于:在所述初始文本信息的语法与预设语法匹配,且所述初始文本信息的句法与预设句法匹配的情况下,生成所述目标文本信息;在所述初始文本信息的语法与预设语法不匹配,且所述初始文本信息的句法与预设句法不匹配的情况下,生成错误文本信息;根据所述错误文本信息的坐标信息,对所述错误文本信息对应的目标图像进行数据增强处理,得到第一目标图像;其中,所述n张目标图像包括所述第一目标图像。10.根据权利要求9所述的装置,其特征在于,所述生成单元,具体用于:对所述初始文本信息进行关键词提取,得到m个关键词,m为正整数;基于所述m个关键词,对所述初始文本信息进行分词和实体命名,得到所述目标文本信息。11.一种文本处理装置,其特征在于,包括:处理器和通信接口;所述通信接口和所述处理器耦合,所述处理器用于运行计算机程序或指令,以实现如权利要求1-5中任一项所述的文本处理方法。12.一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当计算机执行该指令时,该计算机执行上述权利要求1-5中任一项所述的文本处理方法。
技术总结
本申请提供一种文本处理方法、装置及存储介质,涉及图像处理技术领域,能够解决文本识别准确度较低的问题。该方法包括:获取目标文件的初始文本信息,初始文本信息包括目标文件的所有文字内容;对初始文本信息进行语法和句法分析,生成目标文本信息,目标文本信息包含所述所有文字内容间的语法和句法;根据目标文本信息,对初始文本信息进行纠错,生成目标文本数据。本申请实施例用于对文件中的文本内容进行识别的过程中。进行识别的过程中。进行识别的过程中。
技术研发人员:王利 徐锐 张润民 王焕珑 陆文斌 郝宝亚 董博 董群吉
受保护的技术使用者:中国联合网络通信集团有限公司
技术研发日:2023.06.09
技术公布日:2023/9/6
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
