一种电子公文处理方法及系统与流程
未命名
10-16
阅读:113
评论:0
1.本发明涉及数据处理技术领域,具体涉及一种电子公文处理方法及系统。
背景技术:
2.随着信息技术的迅速发展,电子公文的处理和管理成为了现代办公环境中的重要问题。传统的纸质公文处理方式存在着许多问题,如信息传递效率低、存储和检索困难、易丢失等。因此,开发一种高效、安全、可靠的电子公文处理方法和系统成为了迫切需求。
3.现有技术通过算术编码对电子公文数据进行压缩,传统的算术编码在对数据进行编码前统计数据中任意一类字符的出现频率并根据字符频率为字符分配概率区间进行编码。然而电子公文有着明确的主题,有较多关键词在公文内容中都被较多提及,且在整篇公文内容中的提及频率相近。通过分段的方式使数据段中字符分布的均匀程度较低,对数据进行分段算术编码,由于对数据进行分段后的每个数据段都需要额外存储编码表造成额外的存储开销,分段过多会导致较低的压缩率甚至是负压缩,分段过少又难以使数据段内字符的分布不均匀。因此需要对电子公文数据的分段方法进行改进,对数据进行自适应分段。
技术实现要素:
4.本发明提供一种电子公文处理方法及系统,以解决现有的问题。
5.本发明的一种电子公文处理方法及系统采用如下技术方案:本发明一个实施例提供了一种电子公文处理方法,该方法包括以下步骤:采集电子公文数据,根据电子公文数据得到原数据,预设初始分段长度l,从原数据最左侧开始在原数据上截取长度为l的数据段记为第一数据段;根据原数据得到原数据的字符序列,根据原数据的字符序列得到原数据的字符频率序列,根据原数据的字符频率序列中每一个字符的出现频率得到原数据的混乱程度;根据第一数据段得到第一数据段的字符序列,根据第一数据段的字符序列得到第一数据段的字符频率序列,根据第一数据段的字符频率序列中每一个字符的出现频率得到第一数据段的混乱程度;根据第一数据段的字符频率序列得到第一字符频率序列,根据第一字符频率序列得到高频字符索引序列,根据高频字符索引序列中每一个字符索引值得到第一数据段的混乱程度的权重;将第一数据段的混乱程度的权重与第一数据段的混乱程度的乘积作为第一数据段的加权混乱程度,根据第一数据段的加权混乱程度和原数据的混乱程度差异得到第一数据段的分段必要性;根据第一数据段的分段必要性得到第一个最终数据段,从第一最终数据段的最右侧开始,在原数据上依次截取出若干个最终数据段;将所有最终数据段按照先后顺序利用算术编码分别进行压缩并存储。
6.进一步地,所述根据电子公文数据得到原数据,包括的具体步骤如下:
利用unicode编码将电子公文数据进行编码,将电子公文数据全部编码为unicode编码中存在的字符,得到电子公文数据的编码数据,记为原数据。
7.进一步地,所述根据原数据得到原数据的字符序列,根据原数据的字符序列得到原数据的字符频率序列,包括的具体步骤如下:获取原数据中出现的字符种类,将原数据中出现的字符种类按照unicode字符数据库中字符顺序进行排序,得到原数据的字符序列;获取原数据的字符序列中每一个字符在原数据中的出现频率,将原数据的字符序列中每一个字符在原数据中的出现频率按照字符顺序进行排列,得到原数据的字符频率序列。
8.进一步地,所述根据第一数据段的字符频率序列中每一个字符的出现频率得到第一数据段的混乱程度,包括的具体步骤如下:式中,为原数据的字符频率序列中第i个字符的出现频率,为原数据的字符频率序列中字符总个数,为以为底的对数函数,为原数据的混乱程度。
9.进一步地,所述根据第一数据段得到第一数据段的字符序列,根据第一数据段的字符序列得到第一数据段的字符频率序列,包括的具体步骤如下:获取第一数据段中出现的字符种类,将第一数据段中出现的字符种类按照unicode字符数据库中字符顺序进行排序,得到第一数据段的字符序列;获取第一数据段的字符序列中每一个字符在第一数据段中的出现频率,将第一数据段的字符序列中每一个字符在第一数据段中的出现频率按照字符顺序进行排列,得到第一数据段的字符频率序列。
10.进一步地,所述根据第一数据段的字符频率序列得到第一字符频率序列,根据第一字符频率序列得到高频字符索引序列,包括的具体步骤如下:将第一数据段的字符频率序列中字符的出现频率按照从大到小的顺序进行排列,得到第一字符频率序列,预设数量阈值m,获取第一字符频率序列中前m个字符对应在第一数据段的字符序列中的字符索引值,得到高频字符索引序列。
11.进一步地,所述根据高频字符索引序列中每一个字符索引值得到第一数据段的混乱程度的权重,包括的具体步骤如下:式中,为第一数据段的字符频率序列中字符总个数,为高频字符索引序列中字符索引值的总个数,为高频字符索引序列中第j个字符索引值,为第一数据段的混乱程度的权重。
12.进一步地,所述根据第一数据段的加权混乱程度和原数据的混乱程度差异得到第一数据段的分段必要性,包括的具体步骤如下:
式中,为第一数据段的字符频率序列中字符总个数,为反正切函数,为第一数据段的加权混乱程度,为原数据的混乱程度,表示第一数据段的加权混乱程度和原数据的混乱程度差异,为自然常数e为底的指数函数,为第一数据段的分段必要性。
13.进一步地,所述根据第一数据段的分段必要性得到第一个最终数据段,从第一最终数据段的最右侧开始,在原数据上依次截取出若干个最终数据段,包括的具体步骤如下:预设一个分段必要性阈值,记为,将第一数据段的分段必要性与进行比较,若,为第一数据段的分段必要性,则从原数据中将第一数据段之后的第一个字符纳入到第一数据段中,得到新的第一数据段,记为目标数据段,获取目标数据段的分段必要性并与进行比较,若目标数据段的分段必要性仍小于等于,则继续从原数据中将目标数据段之后的第一个字符纳入到目标数据段中,以此类推,直至数据段的分段必要性大于,将分段必要性大于的数据段记为第一个最终数据段;从第一个最终数据段的最右侧开始,在原数据上截取长度为l的数据段,记为第二数据段,并获取第二数据段的分段必要性与进行比较,最终获得第二个最终数据段,从第二个最终数据段的最右侧开始,在原数据上截取长度为l的数据段,记为第三数据段,并获取第三数据段的分段必要性与进行比较,最终获得第三个最终数据段,以此类推,直至无法再次截取时停止,最终得到原数据的若干个最终数据段。
14.本发明还提出了一种电子公文处理系统,包括存储器和处理器,所述处理器执行所述存储器存储的计算机程序,以实现前述所述方法的步骤。
15.本发明的技术方案的有益效果是:在电子公文不同部分的侧重点有所不同,故公文内容中的字符频率分布会有所不均。本发明通过对电子公文数据的分段方法进行改进,对数据进行自适应分段,根据数据段的混乱程度与原数据混乱程度的差异获取分段对压缩编码的优化效果,根据该优化效果获取数据段的分段必要性对数据进行分段并压缩。
16.通过对电子公文数据在压缩过程中由于多个关键词在公文内容中的出现频率相近导致对电子公文数据压缩信息熵较大的问题,本方案通过对数据进行分段的操作,使各数据段的信息熵尽可能小,从而达到增大数据压缩率。
附图说明
17.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
18.图1为本发明一个实施例所提供的一种电子公文处理方法的步骤流程图。
具体实施方式
19.为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种电子公文处理方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
20.除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
21.下面结合附图具体的说明本发明所提供的一种电子公文处理方法的具体方案。
22.请参阅图1,其示出了本发明一个实施例提供的一种电子公文处理方法的步骤流程图,该方法包括以下步骤:步骤s001、采集电子公文数据并进行编码得到原数据。
23.需要说明的是,本实施例是一种电子公文处理方法,首先需要采集相关的电子公文数据,并进行一定的预处理。
24.具体的,从存储电子公文数据的存储系统中采集电子公文数据。需要说明的是,电子公文数据是指电子文档中存在的文档信息、正文内容以及附件信息,收集这些信息以供在办公过程中进行信息管理等目的。电子公文数据包括但不限于:文档具体内容、文档标题、文档编号、文档版本号、创建日期等。由于电子公文数据中包含很多的文字信息,为了偏于存储需要进行一定的编码处理,利用unicode编码将电子公文数据进行编码,将电子公文数据全全部编码为unicode编码中存在的字符,得到电子公文数据的编码数据,记为原数据。需要说明的是,原数据是一个一维的字符数据。
25.至此,得到原数据。
26.步骤s002、预设一个初始分段长度,根据初始分段长度和原数据得到第一数据段。
27.需要说明的是,在电子公文数据中,由于其内容均是围绕某一主题或几个关键词进行叙述的,故公文内容整体中多个关键词的出现频率较高且相近,导致该频率计算出的信息熵较小,使用传统算术编码通过全局频率对原数据进行压缩的压缩率较低。然而在电子公文数据中,局部叙述围绕单独一个关键词,会导致局部字符出现频率与整体频率有较大差异,且局部各类字符出现频率极不均匀,其信息熵较低,根据局部字符频率进行算术编码压缩获得的压缩率也较高,因此需要根据字符频率对原数据进行分段。
28.需要说明的是,本实施例通过计算数据段的分段必要性进行数据段的划分,而分段必要性的计算需要有一定的数据支持,故需要通过设置初始分段长度,保证分段必要性能够准确计算的,数据段也不应过长导致数据段划分失去意义,分段长度应使数据段中尽量包含更多的字符,又应使数据段中各类字符的出现频率能够有较大的差距。
29.具体的,预设一个初始分段长度,记为l,本实施例中以初始分段长度l=30进行叙述,具体实施时可以设置为其他值,利用l对原数据按照从左到右的顺序进行均匀分段,得到若干数据段。需要说明的是,当分段进行到最后时,可能存在数据段的长度和l不等长的情况,此时直接将最后一段的部分原数据作为一个数据段。将第一次分段得到的数据段记为第一数据段。
30.至此,得到第一数据段。
31.步骤s003、根据原数据得到原数据的字符序列,根据原数据的字符序列得到原数据的字符频率序列,根据原数据的字符频率序列中每一个字符的出现频率得到原数据的混乱程度,根据第一数据段得到第一数据段的字符序列,根据第一数据段的字符序列得到第一数据段的字符频率序列,根据第一数据段的字符频率序列中每一个字符的出现频率得到第一数据段的混乱程度。
32.需要说明的是,由于原数据中字符的整体频率均匀而局部频率不均匀的特性,对原数据进行分段压缩会产生一定的压缩优化,而在对原数据进行分段压缩的过程中,由于对每一段数据进行单独压缩还需要为数据段存储字符频率表而产生额外的存储需求,故需要综合分析数据段的影响。
33.需要说明的是,在电子公文数据中,公文内容整体与关键词相关种类的字符的出现频率较高且频率相近,会导致数据信息熵较高,而局部字符的出现频率并不均匀,某些关键词相关的字符仅会在使用该关键词的时候才会被高频率使用。故对原数据进行均匀分段后,应使得数据段中各类字符的出现频率混乱,对数据段进行算术编码压缩可以获取较高的压缩率。混乱程度越大,原数据通过算术编码的编码长度越小,故通过计算原数据与原数据分段后的混乱程度获取第一数据段分段后是否产生编码优化。
34.具体的,获取原数据中出现的字符种类,将原数据中出现的字符种类按照unicode字符数据库中字符顺序进行排序,得到原数据的字符序列;获取原数据的字符序列中每一个字符在原数据中的出现频率,将原数据的字符序列中每一个字符在原数据中的出现频率按照字符顺序进行排列,得到原数据的字符频率序列,其中原数据的字符频率序列中包含若干字符的出现频率。
35.具体的,其中出现频率可通过如下方法获得:对于原数据的字符序列中的第i个字符,获取第i个字符在原数据中出现的次数,记为at,获取原数据中所有字符出现的总次数,记为ag,将at与ag的比值记为第i个字符在原数据中的出现频率,同理可以获得每一个字符在原数据中的出现频率。
36.进一步地,根据原数据的字符频率序列中每一个字符的出现频率得到原数据的混乱程度,具体如下:式中,为原数据的字符频率序列中第i个字符的出现频率,为原数据的字符频率序列中字符总个数,为以为底的对数函数,为原数据的混乱程度。
37.需要说明的是,对于算术编码来说,原数据中字符的平均编码长度即原数据的混乱程度,因此根据原数据中各类字符的出现频率计算原数据的混乱程度,原数据的混乱程度可以更好的进行分段必要性的判断。
38.具体的,获取第一数据段中出现的字符种类,将第一数据段中出现的字符种类按照unicode字符数据库中字符顺序进行排序,得到第一数据段的字符序列;获取第一数据段的字符序列中每一个字符在第一数据段中的出现频率,将第一数据段的字符序列中每一个字符在第一数据段中的出现频率按照字符顺序进行排列,得到第一数据段的字符频率序
列,其中第一数据段的字符频率序列中包含若干字符的出现频率。需要说明的是,出现频率的获取在上述已详细进行说明,这里不再进行具体赘述,特别的是,上述是对原数据进行分析,这里只需将原数据换为第一数据段即可。
39.进一步地,根据第一数据段的字符频率序列中每一个字符的出现频率得到第一数据段的混乱程度,具体如下:式中,为第一数据段的字符频率序列中第k个字符的出现频率,为第一数据段的字符频率序列中字符总个数,为以为底的对数函数,为第一数据段的混乱程度。
40.至此,得到原数据的混乱程度和第一数据段的混乱程度。
41.步骤s004、根据第一数据段的字符频率序列得到第一字符频率序列,根据第一字符频率序列得到高频字符索引序列,根据高频字符索引序列中每一个字符索引值得到第一数据段的混乱程度的权重,根据第一数据段的混乱程度的权重和第一数据段的混乱程度,得到第一数据段的加权混乱程度,根据第一数据段的加权混乱程度和原数据的混乱程度差异得到第一数据段的分段必要性。
42.需要说明的是,对于任意一个数据段,其中高频率字符在数据段中越靠前,说明高频率字符在数据段后面出现的概率更低,对这样的数据段继续从原数据中添加字符会使高频率字符的频率更低,降低数据段中字符出现的混乱程度,故数据段的分段必要性较高。需要对数据段中高频率字符的出现索引进行判断。
43.具体的,将第一数据段的字符频率序列中字符的出现频率按照从大到小的顺序进行排列,得到第一字符频率序列,预设数量阈值,预设数量阈值可通过如下方法获得:若第一字符频率序列中前m个字符的出现频率之和大于0.3,而前m-1个字符的出现频率之和小于等于0.3,则将m作为预设数量阈值,获取第一字符频率序列中前m个字符对应在第一数据段的字符序列中的字符索引值,得到高频字符索引序列。需要说明的是,字符索引值为字符在第一数据段的字符序列中的次序,例如第一数据段的字符序列中第u个字符的索引值为u。
44.进一步地,根据高频字符索引序列中每一个字符索引值得到第一数据段的混乱程度的权重,具体如下:式中,为第一数据段的字符频率序列中字符总个数,为高频字符索引序列中字符索引值的总个数,为高频字符索引序列中第j个字符索引值,为第一数据段的混乱程度的权重。
45.需要说明的是,通过高频字符索引序列平均值获取高频率字符的大致集中位置,
将高频字符索引序列的索引平均值与第一数据段中心索引进行比较,索引平均值大于中心索引说明第一数据段中高频率字符集中在数据段靠后的位置,则数据段分段不准确,该数据段混乱程度的权值也就越小。
46.具体的,根据第一数据段的混乱程度的权重和第一数据段的混乱程度,得到第一数据段的加权混乱程度,具体如下:式中,为第一数据段的混乱程度的权重,为第一数据段的混乱程度,为第一数据段的加权混乱程度。
47.需要说明的是,数据段的混乱程度应大于原数据才能说明数据分段后的压缩率高于原数据,且数据段的混乱程度高出原数据越多,该数据段对于编码的优化程度也就越大,数据段的分段必要性就越高。
48.进一步地,根据第一数据段的加权混乱程度和原数据的混乱程度差异得到第一数据段的分段必要性,具体如下:式中,为第一数据段的字符频率序列中字符总个数,为反正切函数,为第一数据段的加权混乱程度,为原数据的混乱程度,表示第一数据段的加权混乱程度和原数据的混乱程度差异,为自然常数e为底的指数函数,为第一数据段的分段必要性。
49.需要说明的是,分段必要性主要与第一数据段和原数据的混乱程度之差有关,混乱程度差值越大,数据段的分段必要性就越高,而且差值较大的时候,分段必要性的增长也更快。通过自然常数为底的指数函数对混乱程度之差起到放大的作用,使混乱程度差值较大的时候数据段拥有更高的分段必要性。
50.需要说明的是,同时,数据段中包含的字符数量越多,会使数据分段越少,数据分段产生的编码程度消耗也会越少,故包含字符越多的数据段的分段必要性也就越高。通过数据段中包含字符个数的反正切函数作为权值的方式为混乱程度差值的自然常数指数函数进行加权获取第一数据段的分段必要性。并且,通过数据段长度加权的方式,使数据段的分段必要性随着数据段中包含字符个数增多呈现递增的走势,方便后续的计算。
51.至此,得到第一数据段的分段必要性。
52.步骤s005、根据第一数据段的分段必要性得到第一个最终数据段,根据原数据获取第二数据段,获取第二数据段的分段必要性,根据第二数据段的分段必要性得到第二个最终数据段,最终得到若干个最终数据段,将所有最终数据段按照先后顺序利用算术编码分别进行压缩并存储。
53.需要说明的是,根据原数据确定的初始分段长度是根据数据中包含的字符种类数直接确定的,根据该长度对原数据进行分段可能会使数据段的分段必要性较低,分段可能带来负优化。故通过将数据段延长的方式检验更长的数据段是否能够带来更高的分段必要性的方式来对原数据进行自适应分段。
54.具体的,预设一个分段必要性阈值,记为,本实施例以分段必要性阈值为15进行
叙述。将第一数据段的分段必要性与进行比较,若,为第一数据段的分段必要性,则从原数据中将第一数据段之后的第一个字符纳入到第一数据段中,得到新的第一数据段,记为目标数据段,获取目标数据段的分段必要性并与进行比较,若目标数据段的分段必要性仍小于等于,则继续从原数据中将目标数据段之后的第一个字符纳入到目标数据段中,以此类推,直至数据段的分段必要性大于,将分段必要性大于的数据段记为第一个最终数据段。
55.进一步地,从第一个最终数据段的最右侧开始,在原数据上截取长度为l的数据段,记为第二数据段,l为预设的初始分段长度,并获取第二数据段的分段必要性与进行比较,最终获得第二个最终数据段,从第二个最终数据段的最右侧开始,在原数据上截取长度为l的数据段,记为第三数据段,并获取第三数据段的分段必要性与进行比较,最终获得第三个最终数据段,以此类推,直至无法再次截取时停止,最终得到原数据的若干个最终数据段。需要说明的是,若最后截取的数据段不满足与lx的大小关系,此时直接将最后截取的数据段作为一个最终数据段。
56.进一步地,将原数据的所有最终数据段按照先后顺序利用算术编码分别进行压缩,每个最终数据段对应得到一个压缩结果,将所有最终数据段对应的压缩结果进行存储。需要说明的是,由于最终数据段划分所获取的数据段为原数据的局部数据,其中各类字符的出现频率不均匀,因此根据算术编码进行分段压缩的压缩率要优于直接对原数据整体进行压缩,提高了对数据进行压缩时的压缩效率。
57.通过以上步骤,完成一种电子公文处理方法。
58.本发明的另一个实施例提供了一种电子公文处理系统,所述系统包括存储器和处理器,所述处理器执行所述存储器存储的计算机程序时,执行以下操作:采集电子公文数据,根据电子公文数据得到原数据,预设初始分段长度l,从原数据最左侧开始在原数据上截取长度为l的数据段记为第一数据段;根据原数据得到原数据的字符序列,根据原数据的字符序列得到原数据的字符频率序列,根据原数据的字符频率序列中每一个字符的出现频率得到原数据的混乱程度;根据第一数据段得到第一数据段的字符序列,根据第一数据段的字符序列得到第一数据段的字符频率序列,根据第一数据段的字符频率序列中每一个字符的出现频率得到第一数据段的混乱程度;根据第一数据段的字符频率序列得到第一字符频率序列,根据第一字符频率序列得到高频字符索引序列,根据高频字符索引序列中每一个字符索引值得到第一数据段的混乱程度的权重;将第一数据段的混乱程度的权重与第一数据段的混乱程度的乘积作为第一数据段的加权混乱程度,根据第一数据段的加权混乱程度和原数据的混乱程度差异得到第一数据段的分段必要性;根据第一数据段的分段必要性得到第一个最终数据段,从第一最终数据段的最右侧开始,在原数据上依次截取出若干个最终数据段;将所有最终数据段按照先后顺序利用算术编码分别进行压缩并存储。
59.以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种电子公文处理方法,其特征在于,该方法包括以下步骤:采集电子公文数据,根据电子公文数据得到原数据,预设初始分段长度l,从原数据最左侧开始在原数据上截取长度为l的数据段记为第一数据段;根据原数据得到原数据的字符序列,根据原数据的字符序列得到原数据的字符频率序列,根据原数据的字符频率序列中每一个字符的出现频率得到原数据的混乱程度;根据第一数据段得到第一数据段的字符序列,根据第一数据段的字符序列得到第一数据段的字符频率序列,根据第一数据段的字符频率序列中每一个字符的出现频率得到第一数据段的混乱程度;根据第一数据段的字符频率序列得到第一字符频率序列,根据第一字符频率序列得到高频字符索引序列,根据高频字符索引序列中每一个字符索引值得到第一数据段的混乱程度的权重;将第一数据段的混乱程度的权重与第一数据段的混乱程度的乘积作为第一数据段的加权混乱程度,根据第一数据段的加权混乱程度和原数据的混乱程度差异得到第一数据段的分段必要性;根据第一数据段的分段必要性得到第一个最终数据段,从第一最终数据段的最右侧开始,在原数据上依次截取出若干个最终数据段;将所有最终数据段按照先后顺序利用算术编码分别进行压缩并存储。2.根据权利要求1所述一种电子公文处理方法,其特征在于,所述根据电子公文数据得到原数据,包括的具体步骤如下:利用unicode编码将电子公文数据进行编码,将电子公文数据全部编码为unicode编码中存在的字符,得到电子公文数据的编码数据,记为原数据。3.根据权利要求1所述一种电子公文处理方法,其特征在于,所述根据原数据得到原数据的字符序列,根据原数据的字符序列得到原数据的字符频率序列,包括的具体步骤如下:获取原数据中出现的字符种类,将原数据中出现的字符种类按照unicode字符数据库中字符顺序进行排序,得到原数据的字符序列;获取原数据的字符序列中每一个字符在原数据中的出现频率,将原数据的字符序列中每一个字符在原数据中的出现频率按照字符顺序进行排列,得到原数据的字符频率序列。4.根据权利要求1所述一种电子公文处理方法,其特征在于,所述根据第一数据段的字符频率序列中每一个字符的出现频率得到第一数据段的混乱程度,包括的具体步骤如下:式中,为原数据的字符频率序列中第i个字符的出现频率,为原数据的字符频率序列中字符总个数,为以为底的对数函数,为原数据的混乱程度。5.根据权利要求1所述一种电子公文处理方法,其特征在于,所述根据第一数据段得到第一数据段的字符序列,根据第一数据段的字符序列得到第一数据段的字符频率序列,包括的具体步骤如下:获取第一数据段中出现的字符种类,将第一数据段中出现的字符种类按照unicode字
符数据库中字符顺序进行排序,得到第一数据段的字符序列;获取第一数据段的字符序列中每一个字符在第一数据段中的出现频率,将第一数据段的字符序列中每一个字符在第一数据段中的出现频率按照字符顺序进行排列,得到第一数据段的字符频率序列。6.根据权利要求1所述一种电子公文处理方法,其特征在于,所述根据第一数据段的字符频率序列得到第一字符频率序列,根据第一字符频率序列得到高频字符索引序列,包括的具体步骤如下:将第一数据段的字符频率序列中字符的出现频率按照从大到小的顺序进行排列,得到第一字符频率序列,预设数量阈值m,获取第一字符频率序列中前m个字符对应在第一数据段的字符序列中的字符索引值,得到高频字符索引序列。7.根据权利要求1所述一种电子公文处理方法,其特征在于,所述根据高频字符索引序列中每一个字符索引值得到第一数据段的混乱程度的权重,包括的具体步骤如下:式中,为第一数据段的字符频率序列中字符总个数,为高频字符索引序列中字符索引值的总个数,为高频字符索引序列中第j个字符索引值,为第一数据段的混乱程度的权重。8.根据权利要求1所述一种电子公文处理方法,其特征在于,所述根据第一数据段的加权混乱程度和原数据的混乱程度差异得到第一数据段的分段必要性,包括的具体步骤如下:式中,为第一数据段的字符频率序列中字符总个数,为反正切函数,为第一数据段的加权混乱程度,为原数据的混乱程度,表示第一数据段的加权混乱程度和原数据的混乱程度差异,为自然常数e为底的指数函数,为第一数据段的分段必要性。9.根据权利要求1所述一种电子公文处理方法,其特征在于,所述根据第一数据段的分段必要性得到第一个最终数据段,从第一最终数据段的最右侧开始,在原数据上依次截取出若干个最终数据段,包括的具体步骤如下:预设一个分段必要性阈值,记为,将第一数据段的分段必要性与进行比较,若,为第一数据段的分段必要性,则从原数据中将第一数据段之后的第一个字符纳入到第一数据段中,得到新的第一数据段,记为目标数据段,获取目标数据段的分段必要性并与进行比较,若目标数据段的分段必要性仍小于等于,则继续从原数据中将目标数据段之后的第一个字符纳入到目标数据段中,以此类推,直至数据段的分段必要性大于,将分段必要性大于的数据段记为第一个最终数据段;
从第一个最终数据段的最右侧开始,在原数据上截取长度为l的数据段,记为第二数据段,并获取第二数据段的分段必要性与进行比较,最终获得第二个最终数据段,从第二个最终数据段的最右侧开始,在原数据上截取长度为l的数据段,记为第三数据段,并获取第三数据段的分段必要性与进行比较,最终获得第三个最终数据段,以此类推,直至无法再次截取时停止,最终得到原数据的若干个最终数据段。10.一种电子公文处理系统,所述系统包括存储器和处理器,其特征在于,所述处理器执行所述存储器存储的计算机程序,以实现如权利要求1-9任一项所述方法的步骤。
技术总结
本发明涉及数据处理技术领域,具体涉及一种电子公文处理方法及系统,包括:采集电子公文数据并进行编码得到原数据,根据原数据得到原数据的字符序列,得到原数据的字符频率序列,根据原数据的字符频率序列得到原数据的混乱程度,获取第一数据段的混乱程度,根据高频字符索引序列得到第一数据段的混乱程度的权重,得到第一数据段的加权混乱程度,根据第一数据段的加权混乱程度和原数据的混乱程度差异得到第一数据段的分段必要性,得到第一个最终数据段,得到所有最终数据段,将所有最终数据段利用算术编码分别进行压缩并存储。本发明通过对数据进行分段的操作,使各数据段的信息熵尽可能小,从而提高数据压缩率。从而提高数据压缩率。从而提高数据压缩率。
技术研发人员:闫海涛 王炳章 王忠 王帅 杨阳
受保护的技术使用者:世窗信息股份有限公司
技术研发日:2023.09.04
技术公布日:2023/10/11
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种棉织品退浆处理监测方法与流程 下一篇:一种建筑管综辅助安装工装的制作方法
