一种文档中数学公式识别方法及系统
未命名
07-15
阅读:103
评论:0
1.本发明属于计算机技术领域,尤其涉及一种文档中数学公式识别方法及系统。
背景技术:
2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
3.随着时代的发展,越来越多的论文、申请书、报告等文档出现在生活中,它们也经常以图片的形式展示、交流或者存储。公式往往是论文、申请书中非常重要的部分,当要对公式进行识别或者进行编辑的时候,精准地判断出图片中哪部分是公式图像区域是一个非常重要的环节。针对上述问题,很多专家及学者进行了较为深入的研究。传统的方法往往没有充分考虑公式图像区域的特点,导致了设计的识别方法没有针对性,对于公式图像区域的识别无法保持较高的精度。同时,很多传统方法中都采用了较为复杂的算法或者需要较多的训练样本,极大地增加了计算资源的消耗。因此,如何找到一种针对性强的简易公式图像区域识别方法,能够提高识别精度一项亟待解决且非常有意义的工作。
技术实现要素:
4.为克服上述现有技术的不足,本发明提供了一种文档中数学公式识别方法及系统,对各个公式分别进行验证,提高了公式识别的准确性,提高了文档识别效率。
5.为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:一种文档中数学公式识别方法,包括:
6.获取原文档中待识别的多个公式并分别进行验证,得到多个验证通过公式和多个验证不通过公式;
7.分析所述验证不通过公式中是否存在与所述验证通过公式中相同的参数;
8.若存在时,则将具有相同参数的验证通过公式带入当前验证不通过公式中进行求解,若求解成功,则当前验证不通过公式作为验证通过公式;
9.若求解不成功,则判断当前验证不通过公式中是否存在与其他验证不通过公式中相同的参数,若存在相同参数,则对当前验证不通过公式中带入具有相同参数的其他验证不通过公式,得到新的公式;
10.将所述新的公式带入具有相同参数的其他验证不通过公式进行求解,若求解成功,则将新公式作为验证通过公式,直至所有公式验证成功,将所有验证成功的公式生成新的文档。
11.第二个方面,本发明实施例提供一种文档中数学公式识别方法系统,包括:
12.获取模块:获取原文档中待识别的多个公式并分别进行验证,得到多个验证通过公式和多个验证不通过公式;
13.第一参数判断模块:分析所述验证不通过公式中是否存在与所述验证通过公式中相同的参数;
14.第一求解模块:若存在时,则将具有相同参数的验证通过公式带入当前验证不通过公式中进行求解,若求解成功,则当前验证不通过公式作为验证通过公式;
15.第二参数判断模块:若求解不成功,则判断当前验证不通过公式中是否存在与其他验证不通过公式中相同的参数,若存在相同参数,则对当前验证不通过公式中带入具有相同参数的其他验证不通过公式,得到新的公式;
16.第二求解模块:将所述新的公式带入具有相同参数的其他验证不通过公式进行求解,若求解成功,则将新公式作为验证通过公式,直至所有公式验证成功,将所有验证成功的公式生成新的文档。
17.第三方面,本发明实施例提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述一种文档中数学公式识别方法的步骤。
18.第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上述一种文档中数学公式识别方法的步骤。
19.以上一个或多个技术方案存在以下有益效果:
20.在本发明中,通过识别原文档中的多个公式,并对各个公式分别进行验证,判断不同公式是否具有原理错误,从而获取识别正确的验证通过公式,并获取待确认识别是否正确的验证不通过公式;通过识别各个验证不同公式是否存在与验证通过公式相同的参数,判断其中参数识别是否完整,从而识别公式的相邻字段对不完整的公式进行更正,解决了由于分段造成公式识别不完全的问题。
21.本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
22.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
23.图1为本发明实施例一中数学公式识别方法的流程图;
24.图2为本发明实施例一中相邻字段识别的流程图;
25.图3为本发明实施例一中错误参数更正的流程图;
26.图4为本发明实施例一中完整参数更正的流程图。
具体实施方式
27.应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
28.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
29.在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
30.实施例一
31.如图1-图4所示,本实施例公开了一种文档中数学公式识别方法,包括:
32.获取原文档中待识别的多个公式并分别进行验证,得到多个验证通过公式和多个验证不通过公式;
33.分析验证不通过公式中是否存在与验证通过公式中相同的参数;
34.若存在时,则将具有相同参数的验证通过公式带入当前验证不通过公式中进行求解,若求解成功,则当前验证不通过公式作为验证通过公式;
35.若求解不成功,则判断当前验证不通过公式中是否存在与其他验证不通过公式中相同的参数,若存在相同参数,则对当前验证不通过公式中带入具有相同参数的其他验证不通过公式,得到新的公式;
36.将新的公式带入具有相同参数的其他验证不通过公式进行求解,若求解成功,则将新公式作为验证通过公式,直至所有公式验证成功,将所有验证成功的公式生成新的文档。
37.在本实施例中,参数是指公式中参与运算的多个值和运算结果,可以是变量,也可以是变量和常数数值的组合。其中变量可以用英文字母、文字和符号中的任意一种或多种进行表示。公式求解是若当前公式中若存在与其他公式相同的参数,则将其他公式中表示同一参数的值代入该公式中,利用对应参数对公式进行求解,从而验证通过图像识别技术识别文档中的公式是否准确。比如,公式ax+by=cz中,a,b和c均为常数,x,y和z均为变量,其中参数表达式为变量x,y和z,也可以表示为变量和常数的组合,即ax,by和cz。当其他公式中存在相同参数时比如x=2a,可以直接代入该公式进行求解。可选的,x,y和z可以替换为文字、英文字符和符号中的任意一种或多种组合进行表示。
38.在本实施例中,通过识别原文档中的多个公式,并对各个公式分别进行验证,判断不同公式是否具有原理错误,从而获取识别正确的验证通过公式,并获取待确认识别是否正确的验证不通过公式。
39.具体的,原理错误的公式指的就是缺少运算符号的公式,以及不符合数学公理,定律的数学公式,其中运算符号的识别是通过文档的修复功能进行识别的,数学公理及定律需要先行存储一个机制,如在分式算式的识别中,分母不能为0等。
40.使用文字检测加文字识别两步法可以实现场景文字的识别,融合两个步骤的结果时需使用大量的手工知识。其中,基于ocr识别提取图片中文字原理,预处理:对包含文字的图像进行处理以便后续进行特征提取、学习。这个过程的主要目的是减少图像中的无用信息,以便方便后面的处理。在这个步骤通常有:灰度化(如果是彩色图像)、降噪、二值化、字符切分以及归一化这些子步骤。特征提取和降维:特征是用来识别文字的关键信息,每个不同的文字都能通过特征来和其他文字进行区分。分类器设计、训练和实际识别:分类器是用来进行识别的,就是对于第二步,对一个文字图像,提取出特征给,丢给分类器,分类器就对其进行分类。后处理:后处理是用来对分类结果进行优化,告诉你这个特征该识别成哪个文字。
41.在本实施例中,具体包括:
42.s1:分析验证不通过公式中是否存在与验证通过公式中相同的参数,当不存在时,识别相邻字段以判断各公式的参数是否完整,当不完整时进行更正;
43.s2:当验证不通过公式中与验证通过公式中存在相同的参数时,将一个或多个验证通过公式代入到具有对应参数的验证不通过公式中进行求解,若求解成功,则将当前验证不通过公式作为验证通过公式;
44.s3:当公式求解失败则识别该公式(即存在与验证通过公式相同的参数,但是又求解失败的验证不通过公式)与各验证不通过公式之间是否存在相同参数,当存在相同参数时,将求解失败的公式代入各验证不通过公式,更新获取新的公式;
45.s4:在所获取的新公式中的参数与未更新前的验证不通过公式(即得到新公式之前的所有验证不通过公式)的参数中,寻找共同的参数,将所获取的新公式代入具有相同参数的未更新前的验证不通过公式中进行求解,当未更新前的验证不通过公式求解成功后作为验证通过公式;
46.s5:否则,判断s3中验证不通过公式(即存在与验证通过公式相同的参数,但是又求解失败的验证不通过公式)中的参数是否不存在于其他验证通过公式和验证不通过公式中,当判定为是时对不存在参数进行更正;更正为其他验证通过公式中存在的参数即替换为验证通过公式中全部都同时存在的参数。其中,当全部都存在的参数个数为多个时,选择出现次数最多的参数进行替换,依据是,对于文档中重复出现的参数一般为文章的研究对象,比如“一次测量恢复分段常数电导率和内核的唯一性”这篇文章中反复出现的“k”这个参数就是文章的研究对象。
47.s6:对更正后将更新后的具有相同参数的验证通过公式和/或验证不通过公式代入该公式(即步骤s5中的验证不通过公式)中进行求解,当验证不通过公式求解成功后作为验证通过公式;当求解不成功时对验证不通过公式中不存在的参数再次进行更正即验证通过公式中全部都同时存在的参数,直到所有公式求解成功;按照求解后的所有公式重新生成原文档,并对各公式的格式进行调整。
48.在本实施例s1中,分析验证不通过公式中是否存在与验证通过公式中相同的参数,当不存在时,识别相邻字段以判断各公式的参数是否完整,当不完整时进行更正,具体为:
49.通过参数的起始字符的前一个或多个字段,以及参数的末尾字符的后一个或多个字段识别各公式的相邻字段是否完整。通过参数的起始字符识别前一个或多个相邻字段,通过参数的末尾字符识别后一个或多个相邻字段,使用文档识别功能对字符补充完整。其中,识别的相邻字段数量可以根据相邻字段类型是否相同或相似进行判断,字符类型可以包括字母、文字、字符符号和标点符号。
50.比如3x+5=90-9y这个公式,以3为第一个起始字符,y为参数的末尾字符,中间的字符就是多个字段所在的位置。完整字段的定义就是公式的数字部分与符号部分全都存在,不完整的定义就是缺少运算符号。
51.当相邻字段的字符笔画数相同或者笔画数值差在1-2之内时,就判定这两个相邻的字符类型相同或者相似。其中,基于ocr识别提取图片中文字原理的特征提取和降维,相邻字段文字的笔画数对应不同的特征值,可据此判断。
52.其中,文档识别修复功能是基于用户数据流扇区结构的文档修复方案对不完整的地方进行补充。用户数据流扇区一般指的是在生成文件时,因用户对文档的增删改等操作而改变的文档中存储的数据流扇区被破坏的情况下,对这部分扇区内容进行修复处理。对
于这部分数据,需要结合doc文件结构来确定文档中存储这些结构的扇区位置,然后判断是其中的哪些结构错误或缺失造成文件被破坏(也就是公式的不完整),再针对被破坏结构结合其中存储的固定信息内容进行修复处理。
53.当识别相邻字段后重新生成的参数在多个验证通过公式中不存在时,依据验证未通过公式中已有参数进行手动更正为验证通过公式中存在的参数。其中可以将已有参数直接作为识别结果,也可以将已有参数的部分作为识别结果。
54.在本实施例s1中,当验证通过公式和验证未通过公式中均不存在相同参数时,根据相似的已有参数进行更正。当所有公式中不存在与识别结果相同的参数时,根据相似的已有参数对识别结果进行更正。其中可以根据相似的已有参数选择对应的识别结果,也可以直接将识别结果替换为已有参数,从而解决了公式中存在参数以各自的缩写或别称命名的情况。
55.其中,相似的已有参数字符为字符笔画数差值在1-2之内的字符,根据此标准判断两个参数是否相似。
56.在本实施例s6中,将不完整的参数进行更正后,分析验证不通过公式中是否存在与验证通过公式相同的参数,若不存在相同参数时,再次识别原文档的求解失败公式,判断不存在的参数是否为识别错误并更正错误。将不完整的参数进行更正后,首次验证公式中是否存在验证不通过公式中不存在的参数,从而判断该参数是否识别错误,造成公式无法求解。从而减少在生成新的公式后第二次识别相同参数时,减少参数识别错误的情况。
57.在本实施例s6中,通过标号和分段对各公式的格式进行调整。其中,当多个公式缺少标号对各个公式进行标号,或者当标号错误时对标号进行调整。当原文档中分段方式错误,比如公式与文本之间的排列造成公式被分段时,或者公式被空格断开时对公式进行调整。
58.实施例二
59.本实施例公开一种文档中数学公式识别方法系统,包括:
60.获取模块:获取原文档中待识别的多个公式并分别进行验证,得到多个验证通过公式和多个验证不通过公式;
61.第一参数判断模块:分析所述验证不通过公式中是否存在与所述验证通过公式中相同的参数;
62.第一求解模块:若存在时,则将具有相同参数的验证通过公式带入当前验证不通过公式中进行求解,若求解成功,则当前验证不通过公式作为验证通过公式;
63.第二参数判断模块:若求解不成功,则判断当前验证不通过公式中是否存在与其他验证不通过公式中相同的参数,若存在相同参数,则对当前验证不通过公式中带入具有相同参数的其他验证不通过公式,得到新的公式;
64.第二求解模块:将所述新的公式带入具有相同参数的其他验证不通过公式进行求解,若求解成功,则将新公式作为验证通过公式,直至所有公式验证成功,将所有验证成功的公式生成新的文档。
65.实施例三
66.本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
67.实施例四
68.本实施例的目的是提供一种计算机可读存储介质。
69.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行上述方法的步骤。
70.以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
71.本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
72.上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
技术特征:
1.一种文档中数学公式识别方法,其特征在于,包括:获取原文档中待识别的多个公式并分别进行验证,得到多个验证通过公式和多个验证不通过公式;分析所述验证不通过公式中是否存在与所述验证通过公式中相同的参数;若存在时,则将具有相同参数的验证通过公式带入当前验证不通过公式中进行求解,若求解成功,则当前验证不通过公式作为验证通过公式;若求解不成功,则判断当前验证不通过公式中是否存在与其他验证不通过公式中相同的参数,若存在相同参数,则对当前验证不通过公式中带入具有相同参数的其他验证不通过公式,得到新的公式;将所述新的公式带入具有相同参数的其他验证不通过公式进行求解,若求解成功,则将新公式作为验证通过公式,直至所有公式验证成功,将所有验证成功的公式生成新的文档。2.如权利要求1所述的一种文档中数学公式识别方法,其特征在于,获取原文档中待识别的多个公式并分别进行验证,通过判断是否具有原理错误,得到多个验证通过公式和多个验证不通过公式。3.如权利要求1所述的一种文档中数学公式识别方法,其特征在于,当验证不通过公式中不存在与所述验证通过公式中相同的参数,则识别当前验证不通过公式中相邻字段判断该验证不通过公式是否参数完整,当不完整时进行更正。4.如权利要求3所述的一种文档中数学公式识别方法,其特征在于,当不完整时进行更正具体为:根据当前验证不通过公式中的参数的起始字符的前一个或多个相邻字段,以及参数的末尾字符的后一个或多个相邻字段,使用文档识别功能对不完整字符补充完整。5.如权利要求1所述的一种文档中数学公式识别方法,其特征在于,将所述新的公式带入具有相同参数的其他验证不通过公式进行求解,若求解不成功,则判断当前验证不通过公式是否不存在与其他验证通过公式和验证不通过公式中相同的参数,若是,则对该不存在的参数进行更正,更正为其他验证通过公式中存在的参数即替换为验证通过公式中全部都同时存在的参数。6.如权利要求5所述的一种文档中数学公式识别方法,其特征在于,对该不存在的参数进行更正为将不存在的参数替换为所有验证通过公式中均存在的参数。7.如权利要求1所述的一种文档中数学公式识别方法,其特征在于,所述参数指公式中参与运算的多个值和运算结果。8.一种文档中数学公式识别方法系统,其特征在于,包括:获取模块:获取原文档中待识别的多个公式并分别进行验证,得到多个验证通过公式和多个验证不通过公式;第一参数判断模块:分析所述验证不通过公式中是否存在与所述验证通过公式中相同的参数;第一求解模块:若存在时,则将具有相同参数的验证通过公式带入当前验证不通过公式中进行求解,若求解成功,则当前验证不通过公式作为验证通过公式;第二参数判断模块:若求解不成功,则判断当前验证不通过公式中是否存在与其他验证不通过公式中相同的参数,若存在相同参数,则对当前验证不通过公式中带入具有相同
参数的其他验证不通过公式,得到新的公式;第二求解模块:将所述新的公式带入具有相同参数的其他验证不通过公式进行求解,若求解成功,则将新公式作为验证通过公式,直至所有公式验证成功,将所有验证成功的公式生成新的文档。9.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一项所述的一种文档中数学公式识别方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一项所述的一种文档中数学公式识别方法的步骤。
技术总结
本发明提出了一种文档中数学公式识别方法及系统,通过对各个公式分别进行验证,判断不同公式是否具有原理错误,从而获取识别正确的验证通过公式,并获取待确认识别是否正确的验证不通过公式;通过识别各个验证不同公式是否存在与验证通过公式相同的参数,判断其中参数识别是否完整,从而识别公式的相邻字段对不完整的公式进行更正,提高了公式识别的准确性,提高了文档识别效率。提高了文档识别效率。提高了文档识别效率。
技术研发人员:赵琳琳 李金红 胡双霞 张楠 张瀚青 王岩
受保护的技术使用者:齐鲁工业大学(山东省科学院)
技术研发日:2023.03.21
技术公布日:2023/7/12
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
