冗余文件处理方法、装置、设备及可读存储介质与流程
未命名
07-15
阅读:115
评论:0
1.本发明涉及数据处理技术领域,尤其涉及一种冗余文件处理方法、装置、设备及可读存储介质。
背景技术:
2.在文件储存系统中,需要及时删除冗余文件,以减少存储空间的浪费,并提高系统的性能。判断两个文件是否互为冗余的方法主要分为两类,一类是将文件的内容进行比较,另一类是将文件名称、文件大小、文件格式等外部特征进行比较。目前,通过比较外部特征判断冗余的方法准确度低。
技术实现要素:
3.本发明的主要目的在于提供一种冗余文件处理方法、装置、设备及可读存储介质,旨在解决现有技术中通过比较外部特征判断冗余的方法准确度低的技术问题。
4.第一方面,本发明提供一种冗余文件处理方法,所述冗余文件处理方法包括:
5.获取文件格式相同、文件大小相同的多个文件作为疑似冗余文件,将其中一个所述疑似冗余文件作为参考文件,将其他所述疑似冗余文件作为对比文件;
6.根据所述疑似冗余文件的文件大小确定文件大小指数;
7.根据各所述对比文件与所述参考文件的文件名的相似程度,确定各所述对比文件的文件名相似指数;
8.根据所述文件大小指数和所述文件名相似指数,评估各所述对比文件与所述参考文件互为冗余的可能性。
9.可选地,所述根据所述疑似冗余文件的文件大小确定文件大小指数的步骤包括:
10.根据所述疑似冗余文件的文件大小所处的取值范围确定文件大小指数,其中,处于一个取值范围内的所有文件大小对应一个文件大小指数,该取值范围的下限值越大,则该取值范围的区间长度越大,该取值范围所对应的文件大小指数越大。
11.可选地,所述根据各所述对比文件与所述参考文件的文件名的相似程度,确定各所述对比文件的文件名相似指数的步骤包括:
12.确定各所述对比文件的文件名特征长度,其中,所述文件名特征长度为所述对比文件与所述参考文件的文件名中最长的相同字符串的长度;
13.根据所述对比文件与所述参考文件的文件名中相同字符串与两个文件名的关系,确定各所述对比文件的文件名相似类型,其中,若所述相同字符串与两个所述文件名均相同,则所述文件名相似类型为第一相似类型,若所述相同字符串仅与其中一个所述文件名相同,则所述文件名相似类型为第二相似类型,若所述相同字符串与两个所述文件名均不相同,则所述文件名相似类型为第三相似类型;
14.根据所述文件名特征长度和所述文件名相似类型,确定各所述对比文件的文件名相似指数。
15.可选地,所述根据所述文件名特征长度和所述文件名相似类型,确定各所述对比文件的文件名相似指数的步骤包括:
16.根据所述文件名特征长度的取值范围确定长度参数,其中,处于一个取值范围内的所有文件名特征长度对应一个长度参数,该取值范围的下限值越大,则该取值范围所对应的长度参数越大;
17.根据所述文件名相似类型确定各所述对比文件的类型参数,其中,一种相似类型对应一个类型参数,所述第一相似类型、所述第二相似类型、所述第三相似类型对应的类型参数越来越小且均大于零;
18.将各所述长度参数与对应的所述类型参数相加,得到各所述对比文件的文件名相似指数。
19.可选地,确定一对比文件的文件名特征长度的步骤包括:
20.从当前对比文件的文件名中获取长度为预设长度的临时字符串,其中,所述预设长度的初始值为当前对比文件与所述参考文件的文件名总长中较小的一者;
21.若所述临时字符串包含于所述参考文件的文件名中,则确定文件名特征长度为所述预设长度;
22.若长度为所述预设长度的所有所述临时字符串均不包含于所述参考文件的文件名中,则将所述预设长度的值减一,并返回执行所述从当前对比文件的文件名中获取长度为预设长度的临时字符串的步骤。
23.可选地,在所述根据各所述对比文件与所述参考文件的文件名的相似程度,确定各所述对比文件的文件名相似指数的步骤之后还包括:
24.在所述疑似冗余文件的数量大于二时,将各所述对比文件的所述文件名相似指数求和得到所述参考文件的相似参考值;
25.更换所述参考文件,计算各所述疑似冗余文件作为所述参考文件时的所述相似参考值;
26.将所述相似参考值最大的所述疑似冗余文件作为保留文件,将其他所述疑似冗余文件作为待删除文件。
27.可选地,在所述将所述相似参考值最大的所述疑似冗余文件作为保留文件,将其他所述疑似冗余文件作为待删除文件的步骤之后还包括:
28.将各所述文件名相似指数与所述文件大小指数相加,得到各所述待删除文件的文件冗余指数;
29.若所述文件冗余指数大于或等于预设删除阈值,则删除对应的所述待删除文件。
30.第二方面,本发明还提供一种冗余文件处理装置,所述冗余文件处理装置包括:
31.获取模块,用于获取文件格式相同、文件大小相同的多个文件作为疑似冗余文件,将其中一个所述疑似冗余文件作为参考文件,将其他所述疑似冗余文件作为对比文件;
32.第一指数模块,用于根据所述疑似冗余文件的文件大小确定文件大小指数;
33.第二指数模块,用于根据各所述对比文件与所述参考文件的文件名的相似程度,确定各所述对比文件的文件名相似指数;
34.评估模块,用于根据所述文件大小指数和所述文件名相似指数,评估各所述对比文件与所述参考文件互为冗余的可能性。
35.第三方面,本发明还提供一种冗余文件处理设备,其特征在于,所述冗余文件处理设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的冗余文件处理程序,其中所述冗余文件处理程序被所述处理器执行时,实现上述冗余文件处理方法的步骤。
36.第四方面,本发明还提供一种可读存储介质,所述可读存储介质上存储有冗余文件处理程序,其中所述冗余文件处理程序被处理器执行时,实现上述冗余文件处理方法的步骤。
37.本发明中,获取文件格式相同、文件大小相同的多个文件作为疑似冗余文件,将其中一个疑似冗余文件作为参考文件,将其他疑似冗余文件作为对比文件;根据疑似冗余文件的文件大小确定文件大小指数;根据各对比文件与参考文件的文件名的相似程度,确定各对比文件的文件名相似指数;根据文件大小指数和文件名相似指数,评估各对比文件与参考文件互为冗余的可能性。本发明在文件格式相同、文件大小相同的基础上,进一步地通过文件大小和文件名相似程度评估各对比文件与参考文件互为冗余的可能性,提高了通过比较外部特征判断冗余的准确度。
附图说明
38.图1为本发明一实施例中冗余文件处理方法的流程示意图;
39.图2为图1所示冗余文件处理方法中步骤s13的流程示意图;
40.图3为本发明一实施例中确定文件名特征长度的流程示意图;
41.图4为本发明另一实施例中冗余文件处理方法的流程示意图;
42.图5为本发明一实施例中冗余文件处理设备的硬件结构示意图。
43.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
44.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
45.第一方面,本发明实施例提供了一种冗余文件处理方法。
46.图1示出了本发明一实施例中冗余文件处理方法的流程示意图。
47.参照图1,一实施例中,冗余文件处理方法包括如下步骤:
48.s11、获取文件格式相同、文件大小相同的多个文件作为疑似冗余文件,将其中一个疑似冗余文件作为参考文件,将其他疑似冗余文件作为对比文件;
49.本实施例中,通过文件格式相同、文件大小相同两个条件对目标储存路径下的文件进行筛选,尝试得到能够作为疑似冗余文件的多个文件。之所以称为疑似冗余文件,是因为文件格式相同、文件大小相同的外部特征不一定能保证文件一定是冗余文件,只是相对文件格式不相同或文件大小不相同的文件而言更有可能是冗余文件。参考文件是文件名相似程度比较时的统一基准,可根据需要进行选取,本实施例对此不作限定。
50.具体地,查找目标储存路径下所有具有某种格式(如pdf、txt、docx、xlsx、pptx等)的文件,得到待处理文件清单。此步骤可运用递归函数实现。再将待处理文件清单按文件大小进行排列,将文件大小完全相同的多个文件列为一组,即为步骤s11所需的疑似冗余文件。
51.s12、根据疑似冗余文件的文件大小确定文件大小指数;
52.本实施例中,发明人研究发现,大小相同的多个文件互为冗余的可能性受到文件大小的影响,相对而言,多个大小相同大文件互为冗余的可能性要高于多个大小相同的小文件。这一规律能够从概率论的角度得到解释。
53.根据概率论知识,当某一格式文件的文件大小在某个取值范围内均匀分布时,一文件的文件大小为该取值范围中任一整数的可能性是相等的。假设某特定格式文件的文件大小在(50m,100m]取值范围内均匀分布,m为兆字节,换算为最小单位字节b,一文件大小为此区间中任一整数的可能性都等于1/(104857600-52428800),即1/52428800。随机选取满足文件大小在该取值范围内的100个文件,各文件大小均不相同的概率为:
[0054][0055]
其中,至少有两个文件大小相同的概率为:
[0056]
p2=1-p1
[0057]
经计算得到,p2的值约为0.01%,其值非常小。根据概率论中的实际推断原理,概率很小的事件在一次试验中实际上几乎是不发生的。但实际情况是,这个极低概率的事件——在(50m,100m]取值范围内存在文件大小相同的多个文件,在文件储存系统中经常存在。极低概率的事件,在一次试验中竟然发生了,因此,有理由怀疑设定的假设的正确性,即“某特定格式文件的文件大小在(50m,100m]取值范围内均匀分布”这个假设不成立,这些文件大小相同的多个文件,极大可能是源于同一个文件,即冗余文件。
[0058]
将文件大小区间改为(25m,50m],随机选取满足文件大小在该取值范围内的100个文件,p2的值为0.02%。由此可见,在其他条件相同的情况下,取值范围的区间长度(上限值减下限值)越大,p2值越低,越有理由推翻“某特定格式文件的大小在某区间上均匀分布”的假设,大小相同的多个文件是冗余文件的概率越高。即,取值范围的区间长度越大,取值范围内大小相同的多个文件互为冗余的概率越高。
[0059]
又因为,一般来说,文件越大,其文件大小能够设定的取值范围的区间长度越大。结合上述概率论的分析,得出结论,在文件大小处于下限值更高的取值范围内时,大小相同的多个文件是冗余文件的概率越高。这一结论符合前述“多个大小相同大文件互为冗余的可能性要高于多个大小相同的小文件”的规律。
[0060]
一实施例中,步骤s12具体包括:
[0061]
根据疑似冗余文件的文件大小所处的取值范围确定文件大小指数,其中,处于一个取值范围内的所有文件大小对应一个文件大小指数,该取值范围的下限值越大,则该取值范围的区间长度越大,该取值范围所对应的文件大小指数越大。
[0062]
本实施例中,文件大小指数越大,其表征的冗余可能性越高。示例地,按下式确定文件大小指数:
[0063][0064]
其中,r1为文件大小指数,fs为文件大小,b为字节,m为兆字节,1m=2
20
b。
[0065]
s13、根据各对比文件与参考文件的文件名的相似程度,确定各对比文件的文件名相似指数;
[0066]
本实施例中,以参考文件作为统一基准,分别将多个对比文件的文件名与参考文件的文件名进行比较,根据文件名的相似程度,确定各对比文件的文件名相似指数。可以理解,文件名的相似程度越高,对比文件与参考文件互为冗余的可能性越高。
[0067]
图2示出了图1所示冗余文件处理方法中步骤s13的流程示意图。
[0068]
参照图2,一实施例中,步骤s13具体包括:
[0069]
s131、确定各对比文件的文件名特征长度,其中,文件名特征长度为对比文件与参考文件的文件名中最长的相同字符串的长度;
[0070]
s132、根据对比文件与参考文件的文件名中相同字符串与两个文件名的关系,确定各对比文件的文件名相似类型,其中,若相同字符串与两个文件名均相同,则文件名相似类型为第一相似类型,若相同字符串仅与其中一个文件名相同,则文件名相似类型为第二相似类型,若相同字符串与两个文件名均不相同,则文件名相似类型为第三相似类型;
[0071]
s133、根据文件名特征长度和文件名相似类型,确定各对比文件的文件名相似指数。
[0072]
本实施例中,从文件名特征长度和文件名相似类型两个维度来确定对比文件的文件名相似指数。对于文件名特征长度相同的多个对比文件,第一相似类型表征的相似程度最高,第二相似类型表征的相似程度居中,第三相似类型表征的相似程度最低。对于文件名相似类型相同的多个对比文件,文件名特征长度越大表征的相似程度越高,越有可能互为冗余,这一结论也可以从概率论的角度得到解释。
[0073]
假设文件名各字符呈随机分布。不妨设文件名的各个字符均为大写英文字母,从对比文件中取出长度为k的第一临时字符串,第一临时字符串的各字符是确定的。从参考文件中取出长度为k的第二临时字符串,第二临时字符串中,第一个字符的取值有26种情况(a
‑‑
z),第二个字符的取值有26种情况(a
‑‑
z),
……
,第k个字符的取值有26种情况(a
‑‑
z)。则,第二临时字符串与第一临时字符串为相同字符串的概率p为1/26k。k越大,这个概率越低。根据概率论中的实际推断原理,概率很小的事件在一次试验中实际上几乎是不发生的。但实际情况是,这个极低概率的事件,经常发生。极低概率的事件,在一次试验中竟然发生了,因此,有理由怀疑设定的假设的正确性,即“文件名各字符呈随机分布”这个假设不成立,对比文件与参考文件,极大可能是同一个文件,即冗余文件。
[0074]
根据前述文件名特征长度的定义,文件名特征长度为对比文件与参考文件的文件名中最长的相同字符串的长度。由此可见,在其他条件相同的情况下,文件名特征长度越
大,临时字符串长度k越大,p值越低,越有理由推翻“文件名各字符呈随机分布”的假设,多个文件是冗余文件的概率越高。
[0075]
本实施例综合两个维度,能够对文件名的相似程度进行合理量化,进而确定文件名相似指数。本实施例所涉及的文件名不含格式后缀,如“.xlsx”、“.docx”、“.pptx”、“.pdf”等。
[0076]
以具体情况举例,假设六个疑似冗余文件1至6的文件名分别为abcde、abcde、abcd、abcdf、abce和deabc,以文件1作为参考文件,文件2至6作为对比文件。文件2和文件1的文件名完全相同,其中,相同字符串为abcde,与两个文件名均相同,属于第一相似类型,文件名特征长度为5。文件3和文件1的文件名中相同字符串为abcd,与文件3的文件名相同,属于第二相似类型,文件名特征长度为4。文件4和文件1的文件名中相同字符串为abcd,与两个文件名均不相同,属于第三相似类型,文件名特征长度为4。文件5和文件1的文件名中相同字符串为abc,与两个文件名均不相同,属于第三相似类型,文件名特征长度为3。文件6和文件1的文件名中相同字符串为de和abc,与两个文件名均不相同,属于第三相似类型,文件名特征长度为3。可以看出,在所有对比文件中,文件2与参考文件的文件名相似程度最高,文件5和文件6与参考文件的文件名相似程度最低,且两者对应的文件名相似指数相等。
[0077]
进一步地,一实施例中,步骤s133具体包括:
[0078]
根据文件名特征长度的取值范围确定长度参数,其中,处于一个取值范围内的所有文件名特征长度对应一个长度参数,该取值范围的下限值越大,则该取值范围所对应的长度参数越大;
[0079]
根据文件名相似类型确定各对比文件的类型参数,其中,一种相似类型对应一个类型参数,第一相似类型、第二相似类型、第三相似类型对应的类型参数越来越小且均大于零;
[0080]
将各长度参数与对应的类型参数相加,得到各对比文件的文件名相似指数。
[0081]
本实施例中,文件名相似指数越大,其表征的冗余可能性越高。在两个文件名中不存在相同字符串时,即,两个文件名完全不同时,文件名相似指数为零。示例地,按下式确定文件名相似指数:
[0082][0083][0084]
r2=a+b
[0085]
其中,a为长度参数,fl为文件名特征长度,b为类型参数,c1为第一相似类型,c2为第二相似类型,c3为第三相似类型,r2为文件名相似指数。
[0086]
图3示出了本发明一实施例中确定文件名特征长度的流程示意图。
[0087]
参照图3,一实施例中,确定一对比文件的文件名特征长度的步骤包括:
[0088]
从当前对比文件的文件名中获取长度为预设长度的临时字符串,其中,预设长度的初始值为当前对比文件与参考文件的文件名总长中较小的一者;
[0089]
若临时字符串包含于参考文件的文件名中,则确定文件名特征长度为预设长度;
[0090]
若长度为预设长度的所有临时字符串均不包含于参考文件的文件名中,则将预设长度的值减一,并返回执行从当前对比文件的文件名中获取长度为预设长度的临时字符串的步骤。
[0091]
本实施例中,考虑到对比文件的文件名特征长度不可能大于对比文件与参考文件的文件名总长中较小的一者,故以短文件名总长作为预设长度的初始值(若两个文件名的长度相等,则以任一文件名的长度作为预设长度的初始值)。尝试从当前对比文件的文件名中获取长度为预设长度且包含于参考文件的文件名中的字符串,若成功获取则确定文件名特征长度为当前预设长度,若无法成功获取则将当前预设长度的值减一并继续尝试获取,直到成功获取或者预设长度无法再继续减小(即两个文件名完全不同)。如此,能够尽可能地减少临时字符串获取次数和文件名比对次数,减少运算量,提高运算速度。
[0092]
具体到图3所示的实施例中,从当前对比文件的文件名(图中简述为对比文件名)中获取长度为预设长度(图中记为ll)的临时字符串具体操作为,从对比文件名中获取起始字符序号为i(初值为1)、长度为ll的临时字符串,若临时字符串不包含于参考文件的文件名(图中简述为参考文件名)中,则从对比文件名中获取将上一临时字符串整体后移一个字符后所得到的新的临时字符串,即,将i赋值为i+1,使起始字符的序号后移一。可以理解,只有i≤l1(对比文件名总长)-ll+1时,对比文件名中才能够获取到相应的临时字符串。当i不再满足上述条件时,表示对比文件名中所有长度为ll的临时字符串均不包含于参考文件名中,需要将预设长度的值减一,将起始字符的序号恢复为1,即,将l赋值为ll-1,将i重新赋值为1。
[0093]
s14、根据文件大小指数和文件名相似指数,评估各对比文件与参考文件互为冗余的可能性。
[0094]
本实施例中,在文件格式相同、文件大小相同的基础上,进一步地通过文件大小和文件名相似程度评估各对比文件与参考文件互为冗余的可能性,提高了通过比较外部特征判断冗余的准确度。
[0095]
图4示出了本发明另一实施例中冗余文件处理方法的流程示意图。
[0096]
参照图4,一实施例中,冗余文件处理方法包括如下步骤:
[0097]
s21、获取文件格式相同、文件大小相同的多个文件作为疑似冗余文件,将其中一个疑似冗余文件作为参考文件,将其他疑似冗余文件作为对比文件;
[0098]
s22、根据疑似冗余文件的文件大小确定文件大小指数;
[0099]
s23、根据各对比文件与参考文件的文件名的相似程度,确定各对比文件的文件名相似指数;
[0100]
本实施例中,步骤s21至步骤s23的分析参照前述实施例中步骤s11至步骤s13的分析,在此不多赘述。
[0101]
s24、在疑似冗余文件的数量大于二时,将各对比文件的文件名相似指数求和得到参考文件的相似参考值;
[0102]
s25、更换参考文件,计算各疑似冗余文件作为参考文件时的相似参考值;
[0103]
s26、将相似参考值最大的疑似冗余文件作为保留文件,将其他疑似冗余文件作为待删除文件;
[0104]
本实施例中,文件名相似指数越大,其表征的冗余可能性越高。考虑到文件名相似指数是基于参考文件而言的,即,文件名相似指数越高表征对比文件与参考文件互为冗余的可能性越高。当疑似冗余文件的数量等于二时,无论选择哪个文件作为参考文件,都是在比较这两个疑似冗余文件的文件名的相似程度,因此,确定的文件名相似指数为一固定值。当疑似冗余文件的数量大于二时,若参考文件选取不当,例如,参考文件与各对比文件的文件名相似程度都较低,而两个对比文件之间可能存在文件名相似程度较高的情况,此时可以考虑更换参考文件。
[0105]
通过将各对比文件的文件名相似指数求和得到参考文件的相似参考值,相似参考值越大,说明参考文件与各对比文件整体的文件名相似程度越高。将相似参考值最大的疑似冗余文件作为保留文件,将其他疑似冗余文件作为待删除文件,再根据文件大小指数和文件名相似指数,评估各待删除文件与保留文件互为冗余的可能性,作为后续删除操作的依据,从而尽可能增大符合删除判断要求的待删除文件的数量,以提高冗余文件处理效率。
[0106]
s27、将各文件名相似指数与文件大小指数相加,得到各待删除文件的文件冗余指数;
[0107]
s28、若文件冗余指数大于或等于预设删除阈值,则删除对应的待删除文件。
[0108]
本实施例中,以文件名相似指数与文件大小指数相加得到的文件冗余指数评估删除对应的待删除文件可能带来的风险,文件冗余指数越高,待删除文件与保留文件互为冗余的可能性越高,删除对应的待删除文件可能带来的风险越低。在文件冗余指数大于或等于预设删除阈值时,自动删除对应的待删除文件,从而在保证准确度的同时提高冗余文件处理效率。在文件冗余指数小于预设删除阈值时,可进一步比较文件内容判断是否需要删除对应的待删除文件。
[0109]
作为一种可选的实施方式,根据文件冗余指数的大小,确定删除风险指数。删除风险指数用于描述删除对应的待删除文件的风险等级。示例地,按下式确定删除风险指数:
[0110]
r3=r1+r2
[0111][0112]
其中,r3为文件冗余指数,r4为删除风险指数。
[0113]
第二方面,本发明实施例还提供一种冗余文件处理装置。
[0114]
一实施例中,冗余文件处理装置包括:
[0115]
获取模块,用于获取文件格式相同、文件大小相同的多个文件作为疑似冗余文件,将其中一个疑似冗余文件作为参考文件,将其他疑似冗余文件作为对比文件;
[0116]
第一指数模块,用于根据疑似冗余文件的文件大小确定文件大小指数;
[0117]
第二指数模块,用于根据各对比文件与参考文件的文件名的相似程度,确定各对比文件的文件名相似指数;
[0118]
评估模块,用于根据文件大小指数和文件名相似指数,评估各对比文件与参考文件互为冗余的可能性。
[0119]
进一步地,一实施例中,第一指数模块用于:
[0120]
根据疑似冗余文件的文件大小所处的取值范围确定文件大小指数,其中,处于一个取值范围内的所有文件大小对应一个文件大小指数,该取值范围的下限值越大,则该取值范围的区间长度越大,该取值范围所对应的文件大小指数越大。
[0121]
进一步地,一实施例中,第二指数模块用于:
[0122]
确定各对比文件的文件名特征长度,其中,文件名特征长度为对比文件与参考文件的文件名中最长的相同字符串的长度;
[0123]
根据对比文件与参考文件的文件名中相同字符串与两个文件名的关系,确定各对比文件的文件名相似类型,其中,若相同字符串与两个文件名均相同,则文件名相似类型为第一相似类型,若相同字符串仅与其中一个文件名相同,则文件名相似类型为第二相似类型,若相同字符串与两个文件名均不相同,则文件名相似类型为第三相似类型;
[0124]
根据文件名特征长度和文件名相似类型,确定各对比文件的文件名相似指数。
[0125]
进一步地,一实施例中,第二指数模块用于:
[0126]
根据文件名特征长度的取值范围确定长度参数,其中,处于一个取值范围内的所有文件名特征长度对应一个长度参数,该取值范围的下限值越大,则该取值范围所对应的长度参数越大;
[0127]
根据文件名相似类型确定各对比文件的类型参数,其中,一种相似类型对应一个类型参数,第一相似类型、第二相似类型、第三相似类型对应的类型参数越来越小且均大于零;
[0128]
将各长度参数与对应的类型参数相加,得到各对比文件的文件名相似指数。
[0129]
进一步地,一实施例中,第二指数模块用于:
[0130]
从当前对比文件的文件名中获取长度为预设长度的临时字符串,其中,预设长度的初始值为当前对比文件与参考文件的文件名总长中较小的一者;
[0131]
若临时字符串包含于参考文件的文件名中,则确定文件名特征长度为预设长度;
[0132]
若长度为预设长度的所有临时字符串均不包含于参考文件的文件名中,则将预设长度的值减一,并返回执行从当前对比文件的文件名中获取长度为预设长度的临时字符串的步骤。
[0133]
进一步地,一实施例中,冗余文件处理装置还包括更换模块,用于:
[0134]
在疑似冗余文件的数量大于二时,将各对比文件的文件名相似指数求和得到参考文件的相似参考值;
[0135]
更换参考文件,计算各疑似冗余文件作为参考文件时的相似参考值;
[0136]
将相似参考值最大的疑似冗余文件作为保留文件,将其他疑似冗余文件作为待删除文件。
[0137]
进一步地,一实施例中,冗余文件处理装置还包括删除模块,用于:
[0138]
将各文件名相似指数与文件大小指数相加,得到各待删除文件的文件冗余指数;
[0139]
若文件冗余指数大于或等于预设删除阈值,则删除对应的待删除文件。
[0140]
其中,上述冗余文件处理装置中各个模块的功能实现与上述冗余文件处理方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
[0141]
第三方面,本发明实施例提供一种冗余文件处理设备,该冗余文件处理设备可以
是个人计算机(personal computer,pc)、笔记本电脑、服务器等具有数据处理功能的设备。
[0142]
图5示出了本发明一实施例中冗余文件处理设备的硬件结构示意图。
[0143]
参照图5,本发明实施例中,冗余文件处理设备可以包括处理器1001(例如中央处理器central processing unit,cpu),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard);网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真wireless-fidelity,wi-fi接口);存储器1005可以是高速随机存取存储器(random access memory,ram),也可以是稳定的存储器(non-volatile memory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。本领域技术人员可以理解,图5中示出的硬件结构并不构成对本发明的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0144]
继续参照图5,图5中作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及冗余文件处理程序。其中,处理器1001可以调用存储器1005中存储的冗余文件处理程序,并执行本发明实施例提供的冗余文件处理方法。
[0145]
第四方面,本发明实施例还提供一种可读存储介质。
[0146]
本发明可读存储介质上存储有冗余文件处理程序,其中所述冗余文件处理程序被处理器执行时,实现如上述的冗余文件处理方法的步骤。
[0147]
其中,冗余文件处理程序被执行时所实现的方法可参照本发明冗余文件处理方法的各个实施例,此处不再赘述。
[0148]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0149]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0150]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备执行本发明各个实施例所述的方法。
[0151]
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
技术特征:
1.一种冗余文件处理方法,其特征在于,所述冗余文件处理方法包括:获取文件格式相同、文件大小相同的多个文件作为疑似冗余文件,将其中一个所述疑似冗余文件作为参考文件,将其他所述疑似冗余文件作为对比文件;根据所述疑似冗余文件的文件大小确定文件大小指数;根据各所述对比文件与所述参考文件的文件名的相似程度,确定各所述对比文件的文件名相似指数;根据所述文件大小指数和所述文件名相似指数,评估各所述对比文件与所述参考文件互为冗余的可能性。2.如权利要求1所述的冗余文件处理方法,其特征在于,所述根据所述疑似冗余文件的文件大小确定文件大小指数的步骤包括:根据所述疑似冗余文件的文件大小所处的取值范围确定文件大小指数,其中,处于一个取值范围内的所有文件大小对应一个文件大小指数,该取值范围的下限值越大,则该取值范围的区间长度越大,该取值范围所对应的文件大小指数越大。3.如权利要求1所述的冗余文件处理方法,其特征在于,所述根据各所述对比文件与所述参考文件的文件名的相似程度,确定各所述对比文件的文件名相似指数的步骤包括:确定各所述对比文件的文件名特征长度,其中,所述文件名特征长度为所述对比文件与所述参考文件的文件名中最长的相同字符串的长度;根据所述对比文件与所述参考文件的文件名中相同字符串与两个文件名的关系,确定各所述对比文件的文件名相似类型,其中,若所述相同字符串与两个所述文件名均相同,则所述文件名相似类型为第一相似类型,若所述相同字符串仅与其中一个所述文件名相同,则所述文件名相似类型为第二相似类型,若所述相同字符串与两个所述文件名均不相同,则所述文件名相似类型为第三相似类型;根据所述文件名特征长度和所述文件名相似类型,确定各所述对比文件的文件名相似指数。4.如权利要求3所述的冗余文件处理方法,其特征在于,所述根据所述文件名特征长度和所述文件名相似类型,确定各所述对比文件的文件名相似指数的步骤包括:根据所述文件名特征长度的取值范围确定长度参数,其中,处于一个取值范围内的所有文件名特征长度对应一个长度参数,该取值范围的下限值越大,则该取值范围所对应的长度参数越大;根据所述文件名相似类型确定各所述对比文件的类型参数,其中,一种相似类型对应一个类型参数,所述第一相似类型、所述第二相似类型、所述第三相似类型对应的类型参数越来越小且均大于零;将各所述长度参数与对应的所述类型参数相加,得到各所述对比文件的文件名相似指数。5.如权利要求3所述的冗余文件处理方法,其特征在于,确定一对比文件的文件名特征长度的步骤包括:从当前对比文件的文件名中获取长度为预设长度的临时字符串,其中,所述预设长度的初始值为当前对比文件与所述参考文件的文件名总长中较小的一者;若所述临时字符串包含于所述参考文件的文件名中,则确定文件名特征长度为所述预
设长度;若长度为所述预设长度的所有所述临时字符串均不包含于所述参考文件的文件名中,则将所述预设长度的值减一,并返回执行所述从当前对比文件的文件名中获取长度为预设长度的临时字符串的步骤。6.如权利要求1至5任一项所述的冗余文件处理方法,其特征在于,在所述根据各所述对比文件与所述参考文件的文件名的相似程度,确定各所述对比文件的文件名相似指数的步骤之后还包括:在所述疑似冗余文件的数量大于二时,将各所述对比文件的所述文件名相似指数求和得到所述参考文件的相似参考值;更换所述参考文件,计算各所述疑似冗余文件作为所述参考文件时的所述相似参考值;将所述相似参考值最大的所述疑似冗余文件作为保留文件,将其他所述疑似冗余文件作为待删除文件。7.如权利要求6所述的冗余文件处理方法,其特征在于,在所述将所述相似参考值最大的所述疑似冗余文件作为保留文件,将其他所述疑似冗余文件作为待删除文件的步骤之后还包括:将各所述文件名相似指数与所述文件大小指数相加,得到各所述待删除文件的文件冗余指数;若所述文件冗余指数大于或等于预设删除阈值,则删除对应的所述待删除文件。8.一种冗余文件处理装置,其特征在于,所述冗余文件处理装置包括:获取模块,用于获取文件格式相同、文件大小相同的多个文件作为疑似冗余文件,将其中一个所述疑似冗余文件作为参考文件,将其他所述疑似冗余文件作为对比文件;第一指数模块,用于根据所述疑似冗余文件的文件大小确定文件大小指数;第二指数模块,用于根据各所述对比文件与所述参考文件的文件名的相似程度,确定各所述对比文件的文件名相似指数;评估模块,用于根据所述文件大小指数和所述文件名相似指数,评估各所述对比文件与所述参考文件互为冗余的可能性。9.一种冗余文件处理设备,其特征在于,所述冗余文件处理设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的冗余文件处理程序,其中所述冗余文件处理程序被所述处理器执行时,实现如权利要求1至7中任一项所述的冗余文件处理方法的步骤。10.一种可读存储介质,其特征在于,所述可读存储介质上存储有冗余文件处理程序,其中所述冗余文件处理程序被处理器执行时,实现如权利要求1至7中任一项所述的冗余文件处理方法的步骤。
技术总结
本发明提供一种冗余文件处理方法、装置、设备及可读存储介质,冗余文件处理方法包括:获取文件格式相同、文件大小相同的多个文件作为疑似冗余文件,将其中一个疑似冗余文件作为参考文件,将其他疑似冗余文件作为对比文件;根据疑似冗余文件的文件大小确定文件大小指数;根据各对比文件与参考文件的文件名的相似程度,确定各对比文件的文件名相似指数;根据文件大小指数和文件名相似指数,评估各对比文件与参考文件互为冗余的可能性。本发明在文件格式相同、文件大小相同的基础上,进一步地通过文件大小和文件名相似程度评估各对比文件与参考文件互为冗余的可能性,提高了通过比较外部特征判断冗余的准确度。外部特征判断冗余的准确度。外部特征判断冗余的准确度。
技术研发人员:高小清 张浩 屈少举 周副权 饶刚
受保护的技术使用者:东风汽车集团股份有限公司
技术研发日:2023.04.14
技术公布日:2023/7/12
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
