电子档案生成方法、装置、设备和介质与流程
未命名
07-13
阅读:103
评论:0
1.本技术涉及数据处理的技术领域,尤其是涉及一种电子档案生成方法、装置、设备和介质。
背景技术:
2.档案是指人们在各项社会活动中直接形成的各种形式的具有保存价值的原始记录,对社会发展和人类生活的利用价值是档案能够满足社会需求的重要表现所在。因此,档案的保存也具有重要意义。
3.为了方便档案的存储,现有技术利用ocr(optical character recognition,光学字符识别)技术对手写档案进行扫描识别,根据识别后的内容生成电子文档,但是由于手写档案的文字可能会存在连笔、书写不标准的情况,容易导致对手写字符识别并不准确的问题,进而导致生成的电子档案并不准确。
4.因此,如何准确识别手写档案的内容,生成准确的电子档案,是本领域技术人员亟待解决的技术问题。
技术实现要素:
5.为了更准确地生成电子档案,本技术提供一种电子档案生成方法、装置、设备和介质。
6.第一方面,本技术提供一种电子档案生成方法,采用如下的技术方案:一种电子档案生成方法,包括:获取待处理档案对应的图像,其中,所述待处理档案对应的图像至少包括档案目录页图像与档案内容页图像,档案内容页图像包括多个档案内容页字符图像;根据所述档案目录页图像确定记录人信息,并根据所述记录人信息确定所述记录人信息对应的目标笔迹信息,其中,所述目标笔迹信息包括目标偏旁撰写库;对所述档案内容页字符图像进行拆分,得到档案内容页字符图像的偏旁图像;根据所述偏旁图像与所述目标偏旁撰写库进行匹配,确定所述偏旁图像对应的目标偏旁;根据所述档案内容页字符图像对应的目标偏旁,确定所述档案内容页字符图像对应的目标字符;并基于所述多个档案内容页字符图像各自对应的目标字符与所述记录人信息,生成电子档案。
7.本技术在一较佳示例中可以进一步配置为:所述基于所述多个档案内容页字符图像各自对应的目标字符与所述记录人信息,生成电子档案,包括:根据所述档案目录页图像进行档案类型识别,确定所述待处理档案对应的档案种类,并根据所述档案种类确定目标电子模板;根据所述多个档案内容页字符图像各自对应的目标字符,生成目标档案内容;将所述目标档案内容以及所述记录人信息按照所述目标电子模板进行内容填写,
生成所述电子档案。
8.本技术在一较佳示例中可以进一步配置为:所述档案内容页字符图像携带与所述档案内容页字符图像排列顺序相关的字符编码,目标字符和目标字符对应的档案内容页字符图像携带的字符编码一一对应,所述根据所述多个档案内容页字符图像各自对应的目标字符,生成目标档案内容,包括:在全部目标字符中进行标点识别,得到全部目标标点符号;并将所述全部目标标点符号各自对应的字符编码按大小排列,确定所述全部目标标点符号各自对应的标点编码;根据全部标点编码对全部字符编码进行分组,确定多个字符编码组;针对每一字符编码组,根据标点编码确定字符编码组对应编码;并依次排列字符编码组中字符编码对应目标字符,得到目标句;根据全部目标句各自对应字符编码组对应编码,依次排列全部目标句,得到目标档案内容。
9.本技术在一较佳示例中可以进一步配置为:所述将所述目标档案内容以及所述记录人信息按照所述目标电子模板进行内容填写,生成所述电子档案,包括:按照所述目标电子模板对所述目标档案内容,进行档案小类内容拆分,确定每一档案小类对应的子内容以及子内容的格式信息;获取所述目标电子模板中每一档案小类对应的标准格式信息;针对每一档案小类,判断档案小类对应的子内容的格式信息是否符合标准格式信息;若不符合,则根据标准格式信息,利用语义分析确定与所述子内容相近的相似内容,并根据所述相似内容进行子内容替换,得到替换后的子内容,作为目标子内容;若符合,则档案小类对应的子内容作为目标子内容;根据所述目标档案内容对应的所有目标子内容与所述记录人信息,按照目标电子模板进行内容填写,生成所述电子档案。
10.本技术在一较佳示例中可以进一步配置为:所述根据所述档案内容页字符图像对应的目标偏旁,确定所述档案内容页字符图像对应的目标字符,包括:根据所述档案内容页字符图像对应的目标偏旁,确定与所述档案内容页字符图像对应的至少两个初始目标字符;针对每一初始目标字符,获取所述目标字符对应的档案内容页字符图像的相邻字符;并根据所述目标字符与所述相邻字符,确定初始词;从所述至少两个初始词中,确定有效词;并将所有有效词对应的初始目标字符作为所述档案内容页字符图像对应的目标字符。
11.本技术在一较佳示例中可以进一步配置为:所述根据所述档案内容页字符图像对应的目标偏旁,确定所述档案内容页字符图像对应的目标字符,包括:根据所述档案内容页字符图像,确定字符的字体结构;
根据所述字体结构、所述档案内容页字符图像对应的目标偏旁进行字符组合,得到所述档案内容页字符图像对应的目标字符。
12.本技术在一较佳示例中可以进一步配置为:在所述根据所述档案内容页字符图像,确定字符的字体结构之前,还包括:将目标偏旁进行字符组合,得到至少一个初始字符;判断初始字符的数量是否大于1;若否,则将初始字符作为目标字符;相应的,所述根据所述档案内容页字符图像,确定字符的字体结构,包括:若是,则根据所述档案内容页字符图像,确定字符的字体结构。
13.第二方面,本技术提供一种电子档案生成装置,采用如下的技术方案:一种电子档案生成装置,包括:待处理档案图像获取模块,用于获取待处理档案对应的图像,其中,所述待处理档案对应的图像至少包括档案目录页图像与档案内容页图像,档案内容页图像包括多个档案内容页字符图像;目标笔迹信息确定模块,用于根据所述档案目录页图像确定记录人信息,并根据所述记录人信息确定所述记录人信息对应的目标笔迹信息,其中,所述目标笔迹信息包括目标偏旁撰写库;偏旁确定模块,用于对所述档案内容页字符图像进行拆分,得到档案内容页字符图像的偏旁图像;根据所述偏旁图像与所述目标偏旁撰写库进行匹配,确定所述偏旁图像对应的目标偏旁;电子档案生成模块,用于根据所述档案内容页字符图像对应的目标偏旁,确定所述档案内容页字符图像对应的目标字符;并基于所述多个档案内容页字符图像各自对应的目标字符与所述记录人信息,生成电子档案。
14.第三方面,本技术提供一种电子设备,采用如下的技术方案:至少一个处理器;存储器;至少一个应用程序,其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行,所述至少一个应用程序配置用于:执行如第一方面任一项所述的电子档案生成方法。
15.第四方面,本技术提供一种计算机可读存储介质,采用如下的技术方案:一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令所述计算机执行如第一方面任一项所述的电子档案生成方法。
16.综上所述,本技术至少包括以下有益技术效果:在本技术实施例中,相较于相关技术中直接利用ocr技术识别手写档案时,由于手写档案的文字可能会存在连笔、书写不标准的情况,可能出现手写字符识别并不准确而导致生成的电子档案并不准确的问题;本方案通过获取待处理档案对应的图像,得到待处理档案中的手写内容;由于不同人员的撰写习惯不同,对同一字符的撰写方式不同,通过获取记录人信息对应的目标笔迹信息来确定记录人对应撰写习惯,可以提升基于目标笔迹信息中目标偏旁撰写库确定的目标偏旁的准确度;通过提升由目标偏旁确定的目标字符的准确
度,以准确识别手写档案的内容;基于多个档案内容页字符图像各自对应的目标字符与记录人信息,以准确生成电子档案。
附图说明
17.图1为本技术实施例提供的一种电子档案生成方法的应用场景示意图。
18.图2为本技术实施例提供的一种电子档案生成方法的流程示意图。
19.图3为本技术实施例提供的一种电子档案生成装置的结构示意图。
20.图4为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
21.以下结合附图1至附图4对本技术作进一步详细说明。
22.本具体实施例仅仅是对本技术的解释,其并不是对本技术的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本技术的范围内都受到专利法的保护。
23.为使本技术实施例的目的、技术方案和优点更加清楚,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
24.另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
25.下面结合说明书附图对本技术实施例作进一步详细描述。
26.本技术实施例提供了一种电子档案生成方法,由电子设备执行,该电子设备可以为服务器也可以为终端设备,其中,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此,该终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本技术实施例在此不做限制。
27.如图1所示,用户利用终端向电子设备发送携带有待处理档案图像的电子档案生成请求,电子设备中设置有上述电子档案生成方法,从而能够基于电子档案生成请求中的待处理档案图像处理得到电子档案。
28.如图2所示,该方法包括步骤s101至步骤s104,其中:步骤s101:获取待处理档案对应的图像,其中,待处理档案对应的图像至少包括档案目录页图像与档案内容页图像,档案内容页图像包括多个档案内容页字符图像。
29.通过摄像设备采集待处理档案对应的图像,或,电子设备通过终端获取用户上传的待处理档案对应的图像。
30.在上述通过摄像设备采集待处理当前对应图像的实现方式中,步骤s101,具体可以包括:终端提示用户将待处理档案以预设放置方式将待处理档案的目标页面放置在目标位置,其中,获取档案目录页图像与档案内容页图像时预设放置方式、目标页面均不相同,
目标位置相同,当获取档案目录页图像时目标页面为档案目录页,当获取档案内容页时目标页面为档案内容页;摄像设备采集目标页面的初始图像并回传至电子设备;电子设备通过识别目标页面图像中目标页面的边缘,确定目标页面对应的目标识别范围,并基于目标识别范围裁剪初始图像,得到目标页面对应的图像。
31.其中,档案目录页图像包括记录人标识信息、档案名称、记录时间、档案内文件目录等信息,记录人标识信息可以为记录人编号、记录人姓名等任一可以表示记录人身份的标识信息;档案内容页图像包括文件名称、文件内容等信息。记录人标识信息、档案名称、记录时间、档案内文件目录、文件名称、文件内容均包括多个字符图像,字符图像可以为手写字符图像或印刷版字符图像。
32.步骤s102:根据档案目录页图像确定记录人信息,并根据记录人信息确定记录人信息对应的目标笔迹信息,其中,目标笔迹信息包括目标偏旁撰写库。
33.不同记录人的写字方式不同,当记录人不同时,手写档案中的手写笔迹不同,对于同一字符不同手写笔迹的标准呈现样式存在不同、相同标准呈现样式对应的字符可能存在不同,故,本方案通过确定记录人身份,来确定待处理档案中出现手写笔迹的标准呈现样式,可以降低由于手写笔迹的标准呈现样式导致识别得到的字符错误的问题,可以提升识别字符的准确性。每一字符的标准呈现样式为该记录人在手写该字符时的常用样式,可通过采集该记录人的大量手写文件并识别得到,且,可预先存储于电子设备中。
34.根据记录人信息确定记录人信息对应的目标笔迹信息,具体可以通过匹配实现。其中,目标偏旁撰写库为手写偏旁图像与手写笔迹的标准呈现样式之间的对应关系,手写偏旁图像与对应的手写笔迹的标准呈现样式对应唯一偏旁字符。
35.步骤s103:对档案内容页字符图像进行拆分,得到档案内容页字符图像的偏旁图像;根据偏旁图像与目标偏旁撰写库进行匹配,确定偏旁图像对应的目标偏旁。
36.根据偏旁图像与目标偏旁撰写库进行匹配,确定偏旁图像对应的目标偏旁,具体可以包括:将偏旁图像与目标偏旁撰写库进行匹配,得到偏旁图像与每一手写笔迹的标准呈现样式的相似度;将相似度最大的手写笔迹的标准呈现样式作为目标标准呈现样式,其中,目标标准呈现样式对应的偏旁字符为目标偏旁。
37.需要注意的是,针对同一档案内容页字符图像,若存在大于一个偏旁图像各自对应的目标偏旁相同,则档案内容页字符图像对应偏旁中包括至少两个相同的目标偏旁。
38.步骤s104:根据档案内容页字符图像对应的目标偏旁,确定档案内容页字符图像对应的目标字符;并基于多个档案内容页字符图像各自对应的目标字符与记录人信息,生成电子档案。
39.在本技术实施例中,相较于相关技术中直接利用ocr技术识别手写档案时,由于手写档案的文字可能会存在连笔、书写不标准的情况,可能出现手写字符识别并不准确而导致生成的电子档案并不准确的问题;本方案通过获取待处理档案对应的图像,得到待处理档案中的手写内容;由于不同人员的撰写习惯不同,对同一字符的撰写方式不同,通过获取记录人信息对应的目标笔迹信息来确定记录人对应撰写习惯,可以提升基于目标笔迹信息中目标偏旁撰写库确定的目标偏旁的准确度;在更加准确的目标偏旁中可以得到准确性较高的目标;通过提升由目标和目标偏旁确定的目标字符的准确度,以准确识别手写档案的内容;基于多个档案内容页字符图像各自对应的目标字符与记录人信息,以准确生成电子
档案。
40.本技术实施例的一种可能的实现方式,步骤s104,基于多个档案内容页字符图像各自对应的目标字符与记录人信息,生成电子档案,具体可以包括步骤sa1至步骤sa3(图中未示出),其中:步骤sa1:根据档案目录页图像进行档案类型识别,确定待处理档案对应的档案种类,并根据档案种类确定目标电子模板。
41.基于不同规则,不同档案可被划分为不同类型,本技术实施例不再对划分规则进行限定,技术人员可根据实际需求设定划分规则,将多种档案类型及对应的划分规则预先存储于电子设备中。
42.具体的,识别档案目录页图像中预设档案名称识别范围内的字符,得到档案名称,预设档案名称识别范围可由技术人员根据历史档案名称常见范围预先设定并存储于电子设备中;在档案名称中提取关键词,得到目标关键词,其中,目标关键词可以为资料或人员等关键词;在预设档案类型与关键词的对应关系中确定目标关键词对应档案类型,预设档案类型与关键词的对应关系遵从上述设定规则;将目标关键词对应档案类型作为档案种类;在全部电子模板中,确定档案种类对应的目标电子模板。
43.步骤sa2:根据多个档案内容页字符图像各自对应的目标字符,生成目标档案内容。
44.目标档案内容包括依次排列的多个板块名称和各自对应的板块内容。针对每一板块名称和对应的板块内容,二者相邻,且,排列方式为板块名称在前、板块内容在后。
45.步骤sa3:将目标档案内容以及记录人信息按照目标电子模板进行内容填写,生成电子档案。
46.在本技术实施例中,通过得到待处理档案对应的档案种类,以确定待处理档案对应的目标电子模板;由全部目标字符生成目标档案内容后,将目标档案内容以及记录人信息按照目标电子模板进行内容填写,生成电子档案,相较于无规则填写目标档案内容,本方案得到的电子档案规范性更高。
47.本技术实施例的一种可能的实现方式,档案内容页字符图像携带与档案内容页字符图像排列顺序相关的字符编码,目标字符和目标字符对应的档案内容页字符图像携带的字符编码一一对应,步骤sa2,具体可以包括步骤sa2-1至步骤sa2-4(图中未示出),其中:步骤sa2-1:在全部目标字符中进行标点识别,得到全部目标标点符号;并将全部目标标点符号各自对应的字符编码按大小排列,确定全部目标标点符号各自对应的标点编码。
48.标点编码表征标点编码对应目标标点符号在全部目标标点符号中的出现顺序。
49.例如,全部目标字符为“你”、“好”、“,”、“很”、“开”、“心”、“认”、“识”、“你”、“。”;“你”对应字符编码1,“好”对应字符编码2,“,”对应字符编码3,“很”对应字符编码4,“开”对应字符编码5,“心”对应字符编码6,“认”对应字符编码7,“识”对应字符编码8,“你”对应字符编码9,“。”对应字符编码10;“,”和“。”为目标标点符号,“,”对应标点编码1,“。”对应标点编码2。
50.步骤sa2-2:根据全部标点编码对全部字符编码进行分组,确定多个字符编码组。
51.具体的,将不大于第一字符编码的字符编码作为第一字符编码组,其中,第一字符
编码为标点编码最小的目标标点符号对应的字符编码;将两个相邻的标点编码各自对应的字符编码之间的字符编码、上述两个相邻的标点编码中较小的字符编码,作为第二字符编码组。
52.字符编码组包括第一字符编码组和/或第二字符编码组。当档案内容只有一个句子时,字符编码组有唯一第一字符编码组,出现标点即为一短句,每一字符编码组对应每一短句。
53.例如,“你”、“好”、“,”、“很”、“开”、“心”、“认”、“识”、“你”、“。”中,“,”为标点编码最小的目标标点符号,“,”对应字符编码3,字符编码1、字符编码2、字符编码3为第一字符编码组;字符编码3和字符编码10为两个相邻的标点编码各自对应的字符编码之间的字符编码,字符编码4至字符编码10为第二字符编码组。
54.步骤sa2-3:针对每一字符编码组,根据标点编码确定字符编码组对应编码;并依次排列字符编码组中字符编码对应目标字符,得到目标句。
55.具体的,将标点编码作为字符编码组对应编码,字符编码组对应编码表征短句在档案内容中的排列次序;以字符编码为标准,依次排列字符编码组中目标字符,得到目标句。
56.例如,“你”、“好”、“,”、“很”、“开”、“心”、“认”、“识”、“你”、“。”中,第一字符编码组对应编码为1,第二字符编码组对应编码为2;按照第一字符编码组排列字符,得到目标句“你好,”,同理得到目标句“很开心认识你。”。
57.步骤sa2-4:根据全部目标句各自对应字符编码组对应编码,依次排列全部目标句,得到目标档案内容。
58.例如,“你”、“好”、“,”、“很”、“开”、“心”、“认”、“识”、“你”、“。”中,将字符编码组对应编码为1的目标句排列在前,将字符编码组对应编码为2的目标句排列在后,得到“你好,很开心认识你。”。
59.在本技术实施例中,相较于当目标字符数量较大时,直接根据字符编码依次排列每一目标字符得到目标档案内容的过程耗时较长;本方案通过对全部字符编码进行分组,以得到将组成同一句子的目标字符对应的字符编码组;再针对每一字符编码组,依次排列字符编码组中字符编码对应目标字符,得到目标句,以同时排列得到多个目标句,可以节省得到全部目标句子的总时长;依次排列全部目标句,得到目标档案内容,以更快地得到目标档案内容。
60.本技术实施例的一种可能的实现方式,步骤sa3,将目标档案内容以及记录人信息按照目标电子模板进行内容填写,生成电子档案,具体可以包括步骤sa3-1至步骤sa3-6(图中未示出),其中:步骤sa3-1:按照目标电子模板对目标档案内容,进行档案小类内容拆分,确定每一档案小类对应的子内容以及子内容的格式信息。
61.目标电子模板包括多个预设板块,每一预设板块至少包括预设板块名称和预设板块内容填写位置,预设板块名称存在对应预设格式信息,预设格式信息包括字体格式、段落格式、字数等信息。
62.具体的,将目标档案内容中与板块名称位置相邻且相对位置在后的板块内容,作为板块名称对应的板块内容;将板块名称对应的板块内容作为子内容,并识别每一子内容
的格式信息。
63.预设板块等同于档案小类。
64.步骤sa3-2:获取目标电子模板中每一档案小类对应的标准格式信息。
65.具体的,确定每一板块名称对应的目标预设板块名称,并将目标预设板块名称对应的预设格式信息作为子内容的标准格式信息。
66.步骤sa3-3:针对每一档案小类,判断档案小类对应的子内容的格式信息是否符合标准格式信息。
67.其中,相同为符合,不同为不符合。
68.步骤sa3-4:若不符合,则根据标准格式信息,利用语义分析确定与子内容相近的相似内容,并根据相似内容进行子内容替换,得到替换后的子内容,作为目标子内容。
69.其中,不符合标准格式信息表征档案小类对应的子内容需要调整格式;相近表征语义相近,即语义相似度大于预设语义相似度,预设语义相似度可由大量语义分析的历史数据确定;相似内容的字数需要符合预设字数要求。
70.具体的,若不符合,则通过语义分析确定与子内容相近的相似内容,并将相似内容的字数控制在预设字数范围内;将预设字数范围内的相似内容的格式转换为预设格式,得到符合标准格式信息的相似内容;将相似内容替换相似内容对应子内容作为目标子内容。
71.步骤sa3-5:若符合,则档案小类对应的子内容作为目标子内容。
72.其中,符合标准格式信息表征档案小类对应的子内容不需要调整格式。
73.步骤sa3-6:根据目标档案内容对应的所有目标子内容与记录人信息,按照目标电子模板进行内容填写,生成电子档案。
74.在本技术实施例中,针对每一档案小类,通过确定目标档案内容中每一档案小类对应的子内容的格式信息均符合标准格式信息,以保证子内容在格式方面的准确性;利用由格式准确的子内容组成的目标档案内容与记录人信息,填写目标电子模板,可以得到格式更加规范的电子档案。
75.可以理解的是当目标偏旁的数量不小于3时,档案内容页字符图像对应的初始目标字符的数量至少为两个,本技术实施例的一种可能的实现方式,步骤s104中,根据档案内容页字符图像对应的目标偏旁与目标,确定档案内容页字符图像对应的目标字符,具体可以包括步骤s1041a(图中未示出)、步骤s1042a(图中未示出)以及步骤s1043a(图中未示出),其中:步骤s1041a:根据档案内容页字符图像对应的目标偏旁,确定与档案内容页字符图像对应的至少两个初始目标字符。
76.例如,目标偏旁为“口”、“口”,至少两个初始目标字符分别为“吕”、“吅”、“回”等。
77.步骤s1042a:针对每一初始目标字符,获取目标字符对应的档案内容页字符图像的相邻字符;并根据目标字符与相邻字符,确定初始词。
78.步骤s1043a:从至少两个初始词中,确定有效词;并将所有有效词对应的初始目标字符作为档案内容页字符图像对应的目标字符。
79.具体的,从至少两个初始词中,确定有效词,可以包括:获取每一初始词的历史出现次数,并将历史出现次数较大的初始词作为有效词,历史出现次数可以通过电子设备中已有电子档案的档案内容确定。
80.在本技术实施例中,通过确定与档案内容页字符图像对应的至少两个初始目标字符,相较于直接确定唯一目标字符,本方案可以确定档案内容页字符图像对应手写字符的多种可能字符,降低由于直接确定失误导致的目标字符确定错误的概率;为每一初始目标字符,确定与初始目标字符相邻字符相关的初始词后,从至少两个初始词中,确定有效词,可以利用前后文之间的语义关系,选择合理性更高的初始词为有效词,以实现降低目标字符确定错误的概率。
81.本技术实施例的一种可能的实现方式,步骤s104中,根据档案内容页字符图像对应的目标偏旁,确定档案内容页字符图像对应的目标字符,具体可以包括s1041b(图中未示出)以及步骤s1042b(图中未示出),其中:步骤s1041b:根据档案内容页字符图像,确定字符的字体结构。
82.具体的,确定目标偏旁在档案内容页字符图像中的目标相对位置,其中,目标相对位置包括互为上下、互为左右等;在预设相对位置与字体结构的对应关系中确定目标相对位置对应的字体结构,并将目标相对位置对应的字体结构作为字符的字体结构,其中,预设相对位置与字体结构的对应关系可由技术人员根据字体书写规范预先存储于电子设备中。
83.步骤s1042b:根据字体结构、档案内容页字符图像对应的目标偏旁进行字符组合,得到档案内容页字符图像对应的目标字符。
84.具体的,根据字体结构为每一目标偏旁确定放置位置;基于全部放置位置进行字符组合,确定目标字符。
85.在本技术实施例中,相较于无规则组合目标偏旁以及目标时可能出现得到的目标字符错误率较大的问题;本方案通过字符的字体结构,组合目标偏旁,可以更加快速、准确地得到目标字符。
86.本技术实施例的一种可能的实现方式,在步骤s1041b之前,具体还可以包括步骤sb1至步骤sb3(图中未示出),其中:步骤sb1:将目标偏旁进行字符组合,得到至少一个初始字符。
87.具体的,将目标偏旁根据每一预设字体结构进行组合,得到每一字体结构对应的初始参考字符;筛除不存在的初始参考字符,得到至少一个初始字符。
88.步骤sb2:判断初始字符的数量是否大于1。
89.步骤sb3:若否,则将初始字符作为目标字符。
90.相应的,步骤s1041b,根据档案内容页字符图像,确定字符的字体结构,具体可以包括:若是,则根据档案内容页字符图像,确定字符的字体结构。
91.在本技术实施例中,通过在根据字体结构组合目标偏旁之前,判断初始字符的数量是否大于1;可以减少当目标偏旁只存在一种组合时,仍要按照字体结构得到目标字符过程耗费的时间。
92.本技术实施例的一种可能的实现方式,在步骤s104,基于多个档案内容页字符图像各自对应的目标字符与记录人信息,生成电子档案之后,具体还可以包括步骤sc1(图中未示出)以及步骤sc2(图中未示出),其中:步骤sc1:获取携带有档案编号以及更新要求的更新指令。
93.步骤sc2:根据档案编号确定目标电子档案,并根据更新要求对目标电子档案进行
更新。
94.具体的,通过检索档案编号,得到档案编号对应档案的存储位置信息;将存储位置信息对应位置存储的内容作为目标电子档案;将由手写档案识别并自动生成的电子档案替换至储存位置信息对应位置,以完成档案更新。
95.在本技术实施例中,通过自动生成手写档案的电子档案,再将成功生成电子档案的手写档案的内容,自动更新至目标电子档案,可以降低人工干预度,提升目标电子档案的更新效率。
96.上述实施例从方法流程的角度介绍一种电子档案生成方法,下述实施例从虚拟模块或者虚拟单元的角度介绍了一种电子档案生成装置,具体详见下述实施例。
97.本技术实施例提供一种电子档案生成装置,如图3所示,该电子档案生成装置具体可以包括:待处理档案图像获取模块201,用于获取待处理档案对应的图像,其中,待处理档案对应的图像至少包括档案目录页图像与档案内容页图像,档案内容页图像包括多个档案内容页字符图像;目标笔迹信息确定模块202,用于根据档案目录页图像确定记录人信息,并根据记录人信息确定记录人信息对应的目标笔迹信息,其中,目标笔迹信息包括目标偏旁撰写库;偏旁确定模块203,用于对档案内容页字符图像进行拆分,得到档案内容页字符图像的偏旁图像;根据偏旁图像与目标偏旁撰写库进行匹配,确定偏旁图像对应的目标偏旁;电子档案生成模块204,用于根据档案内容页字符图像对应的目标偏旁,确定档案内容页字符图像对应的目标字符;并基于多个档案内容页字符图像各自对应的目标字符与记录人信息,生成电子档案。
98.本技术实施例的一种可能的实现方式,电子档案生成模块204,在执行基于多个档案内容页字符图像各自对应的目标字符与记录人信息,生成电子档案时,具体用于:根据档案目录页图像进行档案类型识别,确定待处理档案对应的档案种类,并根据档案种类确定目标电子模板;根据多个档案内容字符图像各自对应的目标字符,生成目标档案内容;将目标档案内容以及记录人信息按照目标电子模板进行内容填写,生成电子档案。
99.本技术实施例的一种可能的实现方式,档案内容页字符图像携带与档案内容页字符图像排列顺序相关的字符编码,目标字符和目标字符对应的档案内容页字符图像携带的字符编码一一对应,电子档案生成模块204,在执行根据多个档案内容字符图像各自对应的目标字符,生成目标档案内容时,具体用于:在全部目标字符中进行标点识别,得到全部目标标点符号;并将全部目标标点符号各自对应的字符编码按大小排列,确定全部目标标点符号各自对应的标点编码;根据全部标点编码对全部字符编码进行分组,确定多个字符编码组;针对每一字符编码组,根据标点编码确定字符编码组对应编码;并依次排列字符编码组中字符编码对应目标字符,得到目标句;根据全部目标句各自对应字符编码组对应编码,依次排列全部目标句,得到目标档案内容。
100.本技术实施例的一种可能的实现方式,电子档案生成模块204,在执行将目标档案内容以及记录人信息按照目标电子模板进行内容填写,生成电子档案时,具体用于:按照目标电子模板对目标档案内容,进行档案小类内容拆分,确定每一档案小类对应的子内容以及子内容的格式信息;获取目标电子模板中每一档案小类对应的标准格式信息;针对每一档案小类,判断档案小类对应的子内容的格式信息是否符合标准格式信息;若不符合,则根据标准格式信息,利用语义分析确定与子内容相近的相似内容,并根据相似内容进行子内容替换,得到替换后的子内容,作为目标子内容;若符合,则档案小类对应的子内容作为目标子内容;根据目标档案内容对应的所有目标子内容与记录人信息,按照目标电子模板进行内容填写,生成电子档案。
101.本技术实施例的一种可能的实现方式,电子档案生成模块204,在执行根据档案内容页字符图像对应的目标偏旁,确定档案内容页字符图像对应的目标字符时,具体用于:根据档案内容页字符图像对应的目标偏旁,确定与档案内容页字符图像对应的至少两个初始目标字符;针对每一初始目标字符,获取目标字符对应的档案内容页字符图像的相邻字符;并根据目标字符与相邻字符,确定初始词;从至少两个初始词中,确定有效词;并将所有有效词对应的初始目标字符作为档案内容页字符图像对应的目标字符。
102.本技术实施例的一种可能的实现方式,电子档案生成模块204,在执行根据档案内容页字符图像对应的目标偏旁,确定档案内容页字符图像对应的目标字符时,还包括:字体结构确定单元,用于根据档案内容页字符图像,确定字符的字体结构;目标字符确定单元,用于根据字体结构、档案内容页字符图像对应的目标偏旁进行字符组合,得到档案内容页字符图像对应的目标字符。
103.本技术实施例的一种可能的实现方式,电子档案生成装置,还包括:初始字符确定模块,用于将目标偏旁进行字符组合,得到至少一个初始字符;初始字符数量判断模块,用于判断初始字符的数量是否大于1;当初始字符的数量不大于1时,触发直接确定模块;当初始字符的数量不大于1时,触发字体结构确定单元;直接确定模块,用于将初始字符作为目标字符。
104.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的一种电子档案生成装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
105.本技术实施例中提供了一种电子设备,如图4所示,图4所示的电子设备300包括:处理器301和存储器303。其中,处理器301和存储器303相连,如通过总线302相连。可选地,电子设备还可以包括收发器304。需要说明的是,实际应用中收发器304不限于一个,该电子设备的结构并不构成对本技术实施例的限定。
106.处理器301可以是cpu(central processing unit,中央处理器),通用处理器,dsp(digital signal processor,数据信号处理器),asic(application specific integrated circuit,专用集成电路),fpga(field programmable gate array,现场可编
程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本技术公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器301也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等。
107.总线302可包括一通路,在上述组件之间传送信息。总线302可以是pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。总线302可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一型的总线。
108.存储器303可以是rom(read only memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,ram(random access memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom(electrically erasable programmable read only memory,电可擦可编程只读存储器)、cd-rom(compact disc read only memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
109.存储器303用于存储执行本技术方案的应用程序代码,并由处理器301来控制执行。处理器301用于执行存储器303中存储的应用程序代码,以实现前述方法实施例所示的内容。
110.其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。还可以为服务器等。图4示出的电子设备仅仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
111.本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与相关技术相比,本技术实施例相较于相关技术中直接利用ocr技术识别手写档案时,由于手写档案的文字可能会存在连笔、书写不标准的情况,可能出现手写字符识别并不准确而导致生成的电子档案并不准确的问题;本方案通过获取待处理档案对应的图像,得到待处理档案中的手写内容;由于不同人员的撰写习惯不同,对同一字符的撰写方式不同,通过获取记录人信息对应的目标笔迹信息来确定记录人对应撰写习惯,可以提升基于目标笔迹信息中目标偏旁撰写库确定的目标偏旁的准确度;通过提升由目标偏旁确定的目标字符的准确度,以准确识别手写档案的内容;基于多个档案内容页字符图像各自对应的目标字符与记录人信息,以准确生成电子档案。
112.应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他
步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
113.以上仅是本技术的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。
技术特征:
1.一种电子档案生成方法,其特征在于,包括:获取待处理档案对应的图像,其中,所述待处理档案对应的图像至少包括档案目录页图像与档案内容页图像,档案内容页图像包括多个档案内容页字符图像;根据所述档案目录页图像确定记录人信息,并根据所述记录人信息确定所述记录人信息对应的目标笔迹信息,其中,所述目标笔迹信息包括目标偏旁撰写库;对所述档案内容页字符图像进行拆分,得到档案内容页字符图像的偏旁图像;根据所述偏旁图像与所述目标偏旁撰写库进行匹配,确定所述偏旁图像对应的目标偏旁;根据所述档案内容页字符图像对应的目标偏旁,确定所述档案内容页字符图像对应的目标字符;并基于所述多个档案内容页字符图像各自对应的目标字符与所述记录人信息,生成电子档案。2.根据权利要求1所述的电子档案生成方法,其特征在于,所述基于所述多个档案内容页字符图像各自对应的目标字符与所述记录人信息,生成电子档案,包括:根据所述档案目录页图像进行档案类型识别,确定所述待处理档案对应的档案种类,并根据所述档案种类确定目标电子模板;根据所述多个档案内容页字符图像各自对应的目标字符,生成目标档案内容;将所述目标档案内容以及所述记录人信息按照所述目标电子模板进行内容填写,生成所述电子档案。3.根据权利要求2所述的电子档案生成方法,其特征在于,所述档案内容页字符图像携带与所述档案内容页字符图像排列顺序相关的字符编码,目标字符和目标字符对应的档案内容页字符图像携带的字符编码一一对应,所述根据所述多个档案内容页字符图像各自对应的目标字符,生成目标档案内容,包括:在全部目标字符中进行标点识别,得到全部目标标点符号;并将所述全部目标标点符号各自对应的字符编码按大小排列,确定所述全部目标标点符号各自对应的标点编码;根据全部标点编码对全部字符编码进行分组,确定多个字符编码组;针对每一字符编码组,根据标点编码确定字符编码组对应编码;并依次排列字符编码组中字符编码对应目标字符,得到目标句;根据全部目标句各自对应字符编码组对应编码,依次排列全部目标句,得到目标档案内容。4.根据权利要求2所述的电子档案生成方法,其特征在于,所述将所述目标档案内容以及所述记录人信息按照所述目标电子模板进行内容填写,生成所述电子档案,包括:按照所述目标电子模板对所述目标档案内容,进行档案小类内容拆分,确定每一档案小类对应的子内容以及子内容的格式信息;获取所述目标电子模板中每一档案小类对应的标准格式信息;针对每一档案小类,判断档案小类对应的子内容的格式信息是否符合标准格式信息;若不符合,则根据标准格式信息,利用语义分析确定与所述子内容相近的相似内容,并根据所述相似内容进行子内容替换,得到替换后的子内容,作为目标子内容;若符合,则档案小类对应的子内容作为目标子内容;根据所述目标档案内容对应的所有目标子内容与所述记录人信息,按照目标电子模板
进行内容填写,生成所述电子档案。5.根据权利要求1至4任一项所述的电子档案生成方法,其特征在于,所述根据所述档案内容页字符图像对应的目标偏旁,确定所述档案内容页字符图像对应的目标字符,包括:根据所述档案内容页字符图像对应的目标偏旁,确定与所述档案内容页字符图像对应的至少两个初始目标字符;针对每一初始目标字符,获取所述目标字符对应的档案内容页字符图像的相邻字符;并根据所述目标字符与所述相邻字符,确定初始词;从所述至少两个初始词中,确定有效词;并将所有有效词对应的初始目标字符作为所述档案内容页字符图像对应的目标字符。6.根据权利要求1所述的电子档案生成方法,其特征在于,所述根据所述档案内容页字符图像对应的目标偏旁,确定所述档案内容页字符图像对应的目标字符,包括:根据所述档案内容页字符图像,确定字符的字体结构;根据所述字体结构、所述档案内容页字符图像对应的目标偏旁进行字符组合,得到所述档案内容页字符图像对应的目标字符。7.根据权利要求6所述的电子档案生成方法,其特征在于,在所述根据所述档案内容页字符图像,确定字符的字体结构之前,还包括:将目标偏旁进行字符组合,得到至少一个初始字符;判断初始字符的数量是否大于1;若否,则将初始字符作为目标字符;相应的,所述根据所述档案内容页字符图像,确定字符的字体结构,包括:若是,则根据所述档案内容页字符图像,确定字符的字体结构。8.一种电子档案生成装置,其特征在于,包括:待处理档案图像获取模块,用于获取待处理档案对应的图像,其中,所述待处理档案对应的图像至少包括档案目录页图像与档案内容页图像,档案内容页图像包括多个档案内容页字符图像;目标笔迹信息确定模块,用于根据所述档案目录页图像确定记录人信息,并根据所述记录人信息确定所述记录人信息对应的目标笔迹信息,其中,所述目标笔迹信息包括目标偏旁撰写库;偏旁确定模块,用于对所述档案内容页字符图像进行拆分,得到档案内容页字符图像的偏旁图像;根据所述偏旁图像与所述目标偏旁撰写库进行匹配,确定所述偏旁图像对应的目标偏旁;电子档案生成模块,用于根据所述档案内容页字符图像对应的目标偏旁,确定所述档案内容页字符图像对应的目标字符;并基于所述多个档案内容页字符图像各自对应的目标字符与所述记录人信息,生成电子档案。9.一种电子设备,其特征在于,包括:至少一个处理器;存储器;至少一个应用程序,其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行,所述至少一个应用程序配置用于:执行权利要求1~7任一项所述的电子档案
生成方法。10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令所述计算机执行权利要求1~7任一项所述的电子档案生成方法。
技术总结
本申请涉及数据处理领域,尤其涉及一种电子档案生成方法、装置、设备和介质,方法包括:获取待处理档案对应的图像;根据档案目录页图像确定记录人信息,并根据记录人信息确定记录人信息对应的目标笔迹信息;对档案内容页字符图像进行拆分,得到档案内容页字符图像的偏旁图像;根据偏旁图像与目标偏旁撰写库进行匹配,确定偏旁图像对应的目标偏旁;根据档案内容页字符图像对应的目标偏旁,确定档案内容页字符图像对应的目标字符;并基于多个档案内容页字符图像各自对应的目标字符与记录人信息,生成电子档案。本申请具有准确生成电子档案的效果。效果。效果。
技术研发人员:刘鹏 郑蔚
受保护的技术使用者:北京量子伟业信息技术股份有限公司
技术研发日:2023.06.12
技术公布日:2023/7/12
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种命名实体识别方法 下一篇:一种聚酰亚胺薄膜的加工装置及其控制方法与流程
