数据噪声的滤除方法、装置及相关产品与流程
未命名
07-22
阅读:94
评论:0
1.本技术涉及隐私计算技术领域,特别是涉及一种数据噪声的滤除方法、装置及相关产品。
背景技术:
2.大数据的快速发展,使得数据的价值逐渐在体现。在数据存储或者使用过程中,都需要对数据进行噪声处理。但是,目前对数据进行噪声处理时,由于对数据进行整体的噪声处理,导致处理的粒度较大,噪声处理的准确度较低。
技术实现要素:
3.基于上述问题,本技术实施例提供了一种数据噪声的滤除方法、装置及相关产品。
4.本技术实施例公开了如下技术方案:
5.一种数据噪声的滤除方法,其包括:
6.对目标数据进行属性标注处理,得到对应的属性特征描述;
7.根据所述属性特征描述,对所述目标数据的特征连续性和离散性分别进行评估,得到连续性评估值以及离散性评估值;
8.基于所述连续性评估值以及所述离散性评估值,将所述目标数据划分为连续性数据集以及离散性数据集;
9.根据设定的第一信息熵,确定所述连续性数据集中的第一噪声;
10.根据设定的第二信息熵,确定所述离散性数据集中的第二噪声;
11.从所述连续性数据集中滤除所述第一噪声得到连续性净数据,从所述离散性数据集中滤除所述第二噪声得到离散性净数据;
12.根据所述连续性净数据以及所述离散性净数据,生成净数据集合。
13.可选地,所述的方法,还包括:对所述目标数据进行分块处理,得到若干数据块;
14.所述对目标数据进行属性标注处理,得到对应的属性特征描述,包括:以数据块为单位进行属性标注处理,得到每个数据块对应的属性特征向量;对所有数据块对应的属性特征向量进行拼接处理,得到所述目标数据对应的属性特征描述。
15.可选地,所述根据所述属性特征描述,对所述目标数据的特征连续性和离散性分别进行评估,得到连续性评估值以及离散性评估值,包括:计算所述属性特征描述中不同属性特征向量之间的注意力值;根据所述注意力值,对所述目标数据的特征连续性和离散性分别进行评估,得到连续性评估值以及离散性评估值。
16.可选地,所述基于所述连续性评估值以及所述离散性评估值,将所述目标数据划分为连续性数据集以及离散性数据集,包括:从所述若干数据块中筛选出连续性评估值之间的步长小于设定的连续值阈值的数据块,以组成所述连续性数据集;从所述若干数据块中筛选出连续性评估值之间的步长大于等于所述设定的连续值阈值的数据块,以组成所述离散性数据集。
17.可选地,所述根据设定的第一信息熵,确定所述连续性数据集中的第一噪声,包括:计算所述连续性数据集的信息熵,并与设定的第一信息熵进行比对,以确定所述连续性数据集中的第一噪声。
18.可选地,所述根据设定的第二信息熵,确定所述离散性数据集中的第二噪声,包括:计算所述离散性数据集的信息熵,并与设定的第二信息熵进行比对,以确定所述离散性数据集中的第二噪声。
19.可选地,所述根据所述连续性净数据以及所述离散性净数据,生成净数据集合,包括:基于所述连续性净数据和所述离散性净数据之间的注意力矩阵,对所述连续性净数据以及所述离散性净数据进行融合。
20.可选地,所述的方法,还包括:从目标数据集中抽取样本数据,以将抽取到的样本数据作为所述目标数据。
21.可选地,所述的方法,还包括:调用设定的放回式数据抽样机制,以从所述目标数据集中抽取样本数据。
22.可选地,所述对目标数据进行属性标注处理,得到对应的属性特征描述,包括:获取分布式处理集群中控制节点发布的调度命令;根据所述调度命令,调用标注节点对目标数据进行属性标注处理,得到对应的属性特征描述。
23.可选地,所述对所述目标数据进行分块处理,得到若干数据块,包括:基于所述标注节点的数量,针对所述目标数据,进行数据切块处理,得到若干个数据块,使得所述数据块的数量与所述标注节点的数量对等。
24.可选地,所述目标数据进行分块处理,得到若干数据块,包括:基于所述标注节点的数量和单个所述标注节点的数据处理量,针对所述目标数据,进行数据切块处理,得到若干个数据块,使得单个所述数据块的数据量与单个所述标注节点的数据量对等。
25.可选地,所述对目标数据进行属性标注处理,得到对应的属性特征描述,包括:基于预先设定的数据属性特征集合,对目标数据进行属性标注处理,得到对应的属性特征描述。
26.可选地,所述基于预先设定的数据属性特征集合,对目标数据进行属性标注处理,得到对应的属性特征描述,包括:根据正则匹配,基于预先设定的数据属性特征集合,对目标数据进行属性标注处理,得到对应的属性特征描述。
27.可选地,所述基于预先设定的数据属性特征集合,对目标数据进行属性标注处理,得到对应的属性特征描述,包括:
28.基于预先设定的数据属性特征集合,针对所述目标数据进行并行属性标注处理,并赋予属性标注值;
29.根据所属标注值,得到所述目标数据对应的属性特征描述。
30.可选地,所述对所述目标数据进行并行属性标注处理,并赋予属性标注值,包括:对所述目标数据包括的若干个数据块进行并行属性标注处理,并给每个数块赋予属性标注值。
31.一种数据噪声的滤除装置,其包括:
32.标注单元,用于对目标数据进行属性标注处理,得到对应的属性特征描述;
33.评估单元,用于根据所述属性特征描述,对所述目标数据的特征连续性和离散性
分别进行评估,得到连续性评估值以及离散性评估值;
34.划分单元,用于基于所述连续性评估值以及所述离散性评估值,将所述目标数据划分为连续性数据集以及离散性数据集;
35.第一噪声确定单元,用于根据设定的第一信息熵,确定所述连续性数据集中的第一噪声;
36.第二噪声确定单元,用于根据设定的第二信息熵,确定所述离散性数据集中的第二噪声;
37.第一噪声滤除单元,用于从所述连续性数据集中滤除所述第一噪声得到连续性净数据;
38.第二噪声滤除单元,用于从所述离散性数据集中滤除所述第二噪声得到离散性净数据;
39.净数据生成单元,用于根据所述连续性净数据以及所述离散性净数据,生成净数据集合。
40.可选地,所述的装置,还包括切块单元,用于对所述目标数据进行分块处理,得到若干数据块;
41.所述标注单元具体用于以数据块为单位进行属性标注处理,得到每个数据块对应的属性特征向量;对所有数据块对应的属性特征向量进行拼接处理,得到所述目标数据对应的属性特征描述。
42.可选地,所述评估单元具体用于计算所述属性特征描述中不同属性特征向量之间的注意力值;根据所述注意力值,对所述目标数据的特征连续性和离散性分别进行评估,得到连续性评估值以及离散性评估值。
43.可选地,所述划分单元具体用于从所述若干数据块中筛选出连续性评估值之间的步长小于设定的连续值阈值的数据块,以组成所述连续性数据集;从所述若干数据块中筛选出连续性评估值之间的步长大于等于所述设定的连续值阈值的数据块,以组成所述离散性数据集。
44.可选地,所述第一噪声确定单元具体用于计算所述连续性数据集的信息熵,并与设定的第一信息熵进行比对,以确定所述连续性数据集中的第一噪声。
45.可选地,所述第二噪声确定单元具体用于计算所述离散性数据集的信息熵,并与设定的第二信息熵进行比对,以确定所述离散性数据集中的第二噪声。
46.可选地,所述净数据生成单元具体用于基于所述连续性净数据和所述离散性净数据之间的注意力矩阵,对所述连续性净数据以及所述离散性净数据进行融合。
47.可选地,所述的装置,还包括抽取单元,用于从目标数据集中抽取样本数据,以将抽取到的样本数据作为所述目标数据。
48.可选地,所述抽取单元还用于调用设定的放回式数据抽样机制,以从所述目标数据集中抽取样本数据。
49.可选地,所述标注单元具体用于获取分布式处理集群中控制节点发布的调度命令;根据所述调度命令,调用标注节点对目标数据进行属性标注处理,得到对应的属性特征描述。
50.可选地,所述分块单元具体用于基于所述标注节点的数量,针对所述目标数据,进
行数据切块处理,得到若干个数据块,使得所述数据块的数量与所述标注节点的数量对等。
51.可选地,所述分块单元具体用于基于所述标注节点的数量和单个所述标注节点的数据处理量,针对所述目标数据,进行数据切块处理,得到若干个数据块,使得单个所述数据块的数据量与单个所述标注节点的数据量对等。
52.可选地,所述标注单元具体用于基于预先设定的数据属性特征集合,对目标数据进行属性标注处理,得到对应的属性特征描述。
53.可选地,所述标注单元具体用于根据正则匹配,基于预先设定的数据属性特征集合,对目标数据进行属性标注处理,得到对应的属性特征描述。
54.可选地,所述标注单元具体用于基于预先设定的数据属性特征集合,针对所述目标数据进行并行属性标注处理,并赋予属性标注值;以及根据所属标注值,得到所述目标数据对应的属性特征描述。
55.可选地,所述标注单元具体用于对所述目标数据包括的若干个数据块进行并行属性标注处理,并给每个数块赋予属性标注值。
56.一种电子设备,其包括存储器以及处理器,所述存储器上存储有可执行程序,所述处理器运行所述可执行程序时执行如下步骤:
57.对目标数据进行属性标注处理,得到对应的属性特征描述;
58.根据所述属性特征描述,对所述目标数据的特征连续性和离散性分别进行评估,得到连续性评估值以及离散性评估值;
59.基于所述连续性评估值以及所述离散性评估值,将所述目标数据划分为连续性数据集以及离散性数据集;
60.根据设定的第一信息熵,确定所述连续性数据集中的第一噪声;
61.根据设定的第二信息熵,确定所述离散性数据集中的第二噪声;
62.从所述连续性数据集中滤除所述第一噪声得到连续性净数据,从所述离散性数据集中滤除所述第二噪声得到离散性净数据;
63.根据所述连续性净数据以及所述离散性净数据,生成净数据集合。
64.一种计算机存储介质,所述计算机存储介质存储有计算机可执行程序,所述计算机可执行程序被执行时,执行如下步骤:
65.对目标数据进行属性标注处理,得到对应的属性特征描述;
66.根据所述属性特征描述,对所述目标数据的特征连续性和离散性分别进行评估,得到连续性评估值以及离散性评估值;
67.基于所述连续性评估值以及所述离散性评估值,将所述目标数据划分为连续性数据集以及离散性数据集;
68.根据设定的第一信息熵,确定所述连续性数据集中的第一噪声;
69.根据设定的第二信息熵,确定所述离散性数据集中的第二噪声;
70.从所述连续性数据集中滤除所述第一噪声得到连续性净数据,从所述离散性数据集中滤除所述第二噪声得到离散性净数据;
71.根据所述连续性净数据以及所述离散性净数据,生成净数据集合。
72.一种计算机程序产品,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令被执行时,执行如下步骤:
73.对目标数据进行属性标注处理,得到对应的属性特征描述;
74.根据所述属性特征描述,对所述目标数据的特征连续性和离散性分别进行评估,得到连续性评估值以及离散性评估值;
75.基于所述连续性评估值以及所述离散性评估值,将所述目标数据划分为连续性数据集以及离散性数据集;
76.根据设定的第一信息熵,确定所述连续性数据集中的第一噪声;
77.根据设定的第二信息熵,确定所述离散性数据集中的第二噪声;
78.从所述连续性数据集中滤除所述第一噪声得到连续性净数据,从所述离散性数据集中滤除所述第二噪声得到离散性净数据;
79.根据所述连续性净数据以及所述离散性净数据,生成净数据集合。
80.本技术实施例提供的方案中,对目标数据进行属性标注处理,得到对应的属性特征描述;根据所述属性特征描述,对所述目标数据的特征连续性和离散性分别进行评估,得到连续性评估值以及离散性评估值;基于所述连续性评估值以及所述离散性评估值,将所述目标数据划分为连续性数据集以及离散性数据集;根据设定的第一信息熵,确定所述连续性数据集中的第一噪声;根据设定的第二信息熵,确定所述离散性数据集中的第二噪声;从所述连续性数据集中滤除所述第一噪声得到连续性净数据,从所述离散性数据集中滤除所述第二噪声得到离散性净数据;根据所述连续性净数据以及所述离散性净数据,生成净数据集合,从而实现了去噪的更细粒度实现,提高了噪声处理的准确度。
附图说明
81.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
82.图1为本技术实施例一种数据噪声的滤除方法的流程示意图。
83.图2为本技术实施例一种数据噪声的滤除装置的结构示意图。
84.图3为本技术实施例一种电子设备的结构示意图。
85.图4为本技术实施例中电子设备的硬件结构示意图。
具体实施方式
86.实施本技术实施例的任一技术方案必不一定需要同时达到以上的所有优点。
87.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
88.图1为本技术实施例一种数据噪声的滤除方法的流程示意图。如图1所示,其包括:
89.s101、对目标数据进行属性标注处理,得到对应的属性特征描述;
90.s102、根据所述属性特征描述,对所述目标数据的特征连续性和离散性分别进行评估,得到连续性评估值以及离散性评估值;
91.s103、基于所述连续性评估值以及所述离散性评估值,将所述目标数据划分为连续性数据集以及离散性数据集;
92.s104、根据设定的第一信息熵,确定所述连续性数据集中的第一噪声;
93.s105、根据设定的第二信息熵,确定所述离散性数据集中的第二噪声;
94.s106、从所述连续性数据集中滤除所述第一噪声得到连续性净数据,从所述离散性数据集中滤除所述第二噪声得到离散性净数据;
95.s107、根据所述连续性净数据以及所述离散性净数据,生成净数据集合。
96.可选地,所述的方法,还包括:对所述目标数据进行分块处理,得到若干数据块;
97.所述对目标数据进行属性标注处理,得到对应的属性特征描述,包括:以数据块为单位进行属性标注处理,得到每个数据块对应的属性特征向量;对所有数据块对应的属性特征向量进行拼接处理,得到所述目标数据对应的属性特征描述。
98.可选地,所述根据所述属性特征描述,对所述目标数据的特征连续性和离散性分别进行评估,得到连续性评估值以及离散性评估值,包括:计算所述属性特征描述中不同属性特征向量之间的注意力值;根据所述注意力值,对所述目标数据的特征连续性和离散性分别进行评估,得到连续性评估值以及离散性评估值。
99.可选地,所述基于所述连续性评估值以及所述离散性评估值,将所述目标数据划分为连续性数据集以及离散性数据集,包括:从所述若干数据块中筛选出连续性评估值之间的步长小于设定的连续值阈值的数据块,以组成所述连续性数据集;从所述若干数据块中筛选出连续性评估值之间的步长大于等于所述设定的连续值阈值的数据块,以组成所述离散性数据集。
100.可选地,所述根据设定的第一信息熵,确定所述连续性数据集中的第一噪声,包括:计算所述连续性数据集的信息熵,并与设定的第一信息熵进行比对,以确定所述连续性数据集中的第一噪声。
101.可选地,所述根据设定的第二信息熵,确定所述离散性数据集中的第二噪声,包括:计算所述离散性数据集的信息熵,并与设定的第二信息熵进行比对,以确定所述离散性数据集中的第二噪声。
102.可选地,所述根据所述连续性净数据以及所述离散性净数据,生成净数据集合,包括:基于所述连续性净数据和所述离散性净数据之间的注意力矩阵,对所述连续性净数据以及所述离散性净数据进行融合。
103.可选地,所述的方法,还包括:从目标数据集中抽取样本数据,以将抽取到的样本数据作为所述目标数据。
104.可选地,所述的方法,还包括:调用设定的放回式数据抽样机制,以从所述目标数据集中抽取样本数据。
105.可选地,所述对目标数据进行属性标注处理,得到对应的属性特征描述,包括:获取分布式处理集群中控制节点发布的调度命令;根据所述调度命令,调用标注节点对目标数据进行属性标注处理,得到对应的属性特征描述。
106.可选地,所述对所述目标数据进行分块处理,得到若干数据块,包括:基于所述标注节点的数量,针对所述目标数据,进行数据切块处理,得到若干个数据块,使得所述数据块的数量与所述标注节点的数量对等。
107.可选地,所述目标数据进行分块处理,得到若干数据块,包括:基于所述标注节点的数量和单个所述标注节点的数据处理量,针对所述目标数据,进行数据切块处理,得到若干个数据块,使得单个所述数据块的数据量与单个所述标注节点的数据量对等。
108.可选地,所述对目标数据进行属性标注处理,得到对应的属性特征描述,包括:基于预先设定的数据属性特征集合,对目标数据进行属性标注处理,得到对应的属性特征描述。
109.可选地,所述基于预先设定的数据属性特征集合,对目标数据进行属性标注处理,得到对应的属性特征描述,包括:根据正则匹配,基于预先设定的数据属性特征集合,对目标数据进行属性标注处理,得到对应的属性特征描述。
110.可选地,所述基于预先设定的数据属性特征集合,对目标数据进行属性标注处理,得到对应的属性特征描述,包括:
111.基于预先设定的数据属性特征集合,针对所述目标数据进行并行属性标注处理,并赋予属性标注值;
112.根据所属标注值,得到所述目标数据对应的属性特征描述。
113.可选地,所述对所述目标数据进行并行属性标注处理,并赋予属性标注值,包括:对所述目标数据包括的若干个数据块进行并行属性标注处理,并给每个数块赋予属性标注值。
114.图2为本技术实施例一种数据噪声的滤除装置的结构示意图。如图2所示,其包括:
115.标注单元201,用于对目标数据进行属性标注处理,得到对应的属性特征描述;
116.评估单元202,用于根据所述属性特征描述,对所述目标数据的特征连续性和离散性分别进行评估,得到连续性评估值以及离散性评估值;
117.划分单元203,用于基于所述连续性评估值以及所述离散性评估值,将所述目标数据划分为连续性数据集以及离散性数据集;
118.第一噪声确定单元204,用于根据设定的第一信息熵,确定所述连续性数据集中的第一噪声;
119.第二噪声确定单元205,用于根据设定的第二信息熵,确定所述离散性数据集中的第二噪声;
120.第一噪声滤除单元206,用于从所述连续性数据集中滤除所述第一噪声得到连续性净数据;
121.第二噪声滤除单元207,用于从所述离散性数据集中滤除所述第二噪声得到离散性净数据;
122.净数据生成单元208,用于根据所述连续性净数据以及所述离散性净数据,生成净数据集合。
123.可选地,所述的装置,还包括切块单元,用于对所述目标数据进行分块处理,得到若干数据块;
124.所述标注单元具体用于以数据块为单位进行属性标注处理,得到每个数据块对应的属性特征向量;对所有数据块对应的属性特征向量进行拼接处理,得到所述目标数据对应的属性特征描述。
125.可选地,所述评估单元具体用于计算所述属性特征描述中不同属性特征向量之间
的注意力值;根据所述注意力值,对所述目标数据的特征连续性和离散性分别进行评估,得到连续性评估值以及离散性评估值。
126.可选地,所述划分单元具体用于从所述若干数据块中筛选出连续性评估值之间的步长小于设定的连续值阈值的数据块,以组成所述连续性数据集;从所述若干数据块中筛选出连续性评估值之间的步长大于等于所述设定的连续值阈值的数据块,以组成所述离散性数据集。
127.可选地,所述第一噪声确定单元具体用于计算所述连续性数据集的信息熵,并与设定的第一信息熵进行比对,以确定所述连续性数据集中的第一噪声。
128.可选地,所述第二噪声确定单元具体用于计算所述离散性数据集的信息熵,并与设定的第二信息熵进行比对,以确定所述离散性数据集中的第二噪声。
129.可选地,所述净数据生成单元具体用于基于所述连续性净数据和所述离散性净数据之间的注意力矩阵,对所述连续性净数据以及所述离散性净数据进行融合。
130.可选地,所述的装置,还包括抽取单元,用于从目标数据集中抽取样本数据,以将抽取到的样本数据作为所述目标数据。
131.可选地,所述抽取单元还用于调用设定的放回式数据抽样机制,以从所述目标数据集中抽取样本数据。
132.可选地,所述标注单元具体用于获取分布式处理集群中控制节点发布的调度命令;根据所述调度命令,调用标注节点对目标数据进行属性标注处理,得到对应的属性特征描述。
133.可选地,所述分块单元具体用于基于所述标注节点的数量,针对所述目标数据,进行数据切块处理,得到若干个数据块,使得所述数据块的数量与所述标注节点的数量对等。
134.可选地,所述分块单元具体用于基于所述标注节点的数量和单个所述标注节点的数据处理量,针对所述目标数据,进行数据切块处理,得到若干个数据块,使得单个所述数据块的数据量与单个所述标注节点的数据量对等。
135.可选地,所述标注单元具体用于基于预先设定的数据属性特征集合,对目标数据进行属性标注处理,得到对应的属性特征描述。
136.可选地,所述标注单元具体用于根据正则匹配,基于预先设定的数据属性特征集合,对目标数据进行属性标注处理,得到对应的属性特征描述。
137.可选地,所述标注单元具体用于基于预先设定的数据属性特征集合,针对所述目标数据进行并行属性标注处理,并赋予属性标注值;以及根据所属标注值,得到所述目标数据对应的属性特征描述。
138.可选地,所述标注单元具体用于对所述目标数据包括的若干个数据块进行并行属性标注处理,并给每个数块赋予属性标注值。
139.图3为本技术实施例一种电子设备的结构示意图。如图3所示,其包括存储器以及处理器,所述存储器上存储有可执行程序,所述处理器运行所述可执行程序时执行如下步骤:
140.对目标数据进行属性标注处理,得到对应的属性特征描述;
141.根据所述属性特征描述,对所述目标数据的特征连续性和离散性分别进行评估,得到连续性评估值以及离散性评估值;
142.基于所述连续性评估值以及所述离散性评估值,将所述目标数据划分为连续性数据集以及离散性数据集;
143.根据设定的第一信息熵,确定所述连续性数据集中的第一噪声;
144.根据设定的第二信息熵,确定所述离散性数据集中的第二噪声;
145.从所述连续性数据集中滤除所述第一噪声得到连续性净数据,从所述离散性数据集中滤除所述第二噪声得到离散性净数据;
146.根据所述连续性净数据以及所述离散性净数据,生成净数据集合。
147.图4为本技术实施例中电子设备的硬件结构示意图;如图4所示,该电子设备的硬件结构可以包括:电子设备400包括计算单元401,其可以根据存储在只读存储器(rom)402中的计算机程序或者从存储单元406加载到随机访问存储器(ram)403中的计算机程序,来执行各种适当的动作和处理。在ram 403中,还可存储设备400操作所需的各种程序和数据。计算单元401、rom 402以及ram 403通过总线404彼此相连。输入/输出(i/o)接口405也连接至总线404。
148.电子设备400中的多个部件连接至i/o接口405,包括:输入单元406、输出单元407、存储单元408以及通信单元409。输入单元406可以是能向电子设备400输入信息的任何类型的设备,输入单元406可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元407可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元404可以包括但不限于磁盘、光盘。通信单元409允许电子设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙tm设备、wifi设备、wimax设备、蜂窝通信设备和/或类似物。
149.计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个装置和处理。例如,在一些实施例中,上述步骤可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元40*。在一些实施例中,计算机程序的部分或者全部可以经由rom 402和/或通信单元409而被载入和/或安装到电子设备400上。在一些实施例中,计算单元401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述步骤。
150.本技术实施例的电子设备以多种形式存在,包括但不限于:
151.(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机,以及低端手机等。
152.(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等,例如ipad。
153.(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
154.(4)服务器:提供计算服务的设备,服务器的构成包括处理器410、硬盘、内存、系统
总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
155.(5)其他具有数据交互功能的电子装置。
156.本技术还提供一种计算机存储介质,所述计算机存储介质存储有计算机可执行程序,所述计算机可执行程序被执行时,执行如下步骤:
157.对目标数据进行属性标注处理,得到对应的属性特征描述;
158.根据所述属性特征描述,对所述目标数据的特征连续性和离散性分别进行评估,得到连续性评估值以及离散性评估值;
159.基于所述连续性评估值以及所述离散性评估值,将所述目标数据划分为连续性数据集以及离散性数据集;
160.根据设定的第一信息熵,确定所述连续性数据集中的第一噪声;
161.根据设定的第二信息熵,确定所述离散性数据集中的第二噪声;
162.从所述连续性数据集中滤除所述第一噪声得到连续性净数据,从所述离散性数据集中滤除所述第二噪声得到离散性净数据;
163.根据所述连续性净数据以及所述离散性净数据,生成净数据集合。
164.本技术还提供一种计算机程序产品,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令被执行时,执行如下步骤:
165.对目标数据进行属性标注处理,得到对应的属性特征描述;
166.根据所述属性特征描述,对所述目标数据的特征连续性和离散性分别进行评估,得到连续性评估值以及离散性评估值;
167.基于所述连续性评估值以及所述离散性评估值,将所述目标数据划分为连续性数据集以及离散性数据集;
168.根据设定的第一信息熵,确定所述连续性数据集中的第一噪声;
169.根据设定的第二信息熵,确定所述离散性数据集中的第二噪声;
170.从所述连续性数据集中滤除所述第一噪声得到连续性净数据,从所述离散性数据集中滤除所述第二噪声得到离散性净数据;
171.根据所述连续性净数据以及所述离散性净数据,生成净数据集合。
172.需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于装置实施例,所以描述得比较简单,相关之处参见装置实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块提示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
173.以上所述,仅为本技术的一种具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应该以权利要求的保护范围为准。
技术特征:
1.一种数据噪声的滤除方法,其特征在于,包括:对目标数据进行属性标注处理,得到对应的属性特征描述;根据所述属性特征描述,对所述目标数据的特征连续性和离散性分别进行评估,得到连续性评估值以及离散性评估值;基于所述连续性评估值以及所述离散性评估值,将所述目标数据划分为连续性数据集以及离散性数据集;根据设定的第一信息熵,确定所述连续性数据集中的第一噪声;根据设定的第二信息熵,确定所述离散性数据集中的第二噪声;从所述连续性数据集中滤除所述第一噪声得到连续性净数据,从所述离散性数据集中滤除所述第二噪声得到离散性净数据;根据所述连续性净数据以及所述离散性净数据,生成净数据集合。2.根据权利要求1所述的方法,其特征在于,所述的方法,还包括:对所述目标数据进行分块处理,得到若干数据块;所述对目标数据进行属性标注处理,得到对应的属性特征描述,包括:以数据块为单位进行属性标注处理,得到每个数据块对应的属性特征向量;对所有数据块对应的属性特征向量进行拼接处理,得到所述目标数据对应的属性特征描述。3.根据权利要求2所述的方法,其特征在于,所述根据所述属性特征描述,对所述目标数据的特征连续性和离散性分别进行评估,得到连续性评估值以及离散性评估值,包括:计算所述属性特征描述中不同属性特征向量之间的注意力值;根据所述注意力值,对所述目标数据的特征连续性和离散性分别进行评估,得到连续性评估值以及离散性评估值。4.根据权利要求2所述的方法,其特征在于,所述基于所述连续性评估值以及所述离散性评估值,将所述目标数据划分为连续性数据集以及离散性数据集,包括:从所述若干数据块中筛选出连续性评估值之间的步长小于设定的连续值阈值的数据块,以组成所述连续性数据集;从所述若干数据块中筛选出连续性评估值之间的步长大于等于所述设定的连续值阈值的数据块,以组成所述离散性数据集。5.根据权利要求2所述的方法,其特征在于,所述根据设定的第一信息熵,确定所述连续性数据集中的第一噪声,包括:计算所述连续性数据集的信息熵,并与设定的第一信息熵进行比对,以确定所述连续性数据集中的第一噪声。6.根据权利要求2所述的方法,其特征在于,所述根据设定的第二信息熵,确定所述离散性数据集中的第二噪声,包括:计算所述离散性数据集的信息熵,并与设定的第二信息熵进行比对,以确定所述离散性数据集中的第二噪声。7.一种数据噪声的滤除装置,其特征在于,包括:标注单元,用于对目标数据进行属性标注处理,得到对应的属性特征描述;评估单元,用于根据所述属性特征描述,对所述目标数据的特征连续性和离散性分别进行评估,得到连续性评估值以及离散性评估值;划分单元,用于基于所述连续性评估值以及所述离散性评估值,将所述目标数据划分为连续性数据集以及离散性数据集;第一噪声确定单元,用于根据设定的第一信息熵,确定所述连续性数据集中的第一噪声;
第二噪声确定单元,用于根据设定的第二信息熵,确定所述离散性数据集中的第二噪声;第三噪声滤除单元,用于从所述连续性数据集中滤除所述第一噪声得到连续性净数据;第四噪声滤除单元,用于从所述离散性数据集中滤除所述第二噪声得到离散性净数据;净数据生成单元,用于根据所述连续性净数据以及所述离散性净数据,生成净数据集合。8.一种电子设备,其特征在于,其包括存储器以及处理器,所述存储器上存储有可执行程序,所述处理器运行所述可执行程序时执行如下步骤:对目标数据进行属性标注处理,得到对应的属性特征描述;根据所述属性特征描述,对所述目标数据的特征连续性和离散性分别进行评估,得到连续性评估值以及离散性评估值;基于所述连续性评估值以及所述离散性评估值,将所述目标数据划分为连续性数据集以及离散性数据集;根据设定的第一信息熵,确定所述连续性数据集中的第一噪声;根据设定的第二信息熵,确定所述离散性数据集中的第二噪声;从所述连续性数据集中滤除所述第一噪声得到连续性净数据,从所述离散性数据集中滤除所述第二噪声得到离散性净数据;根据所述连续性净数据以及所述离散性净数据,生成净数据集合。9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行程序,所述计算机可执行程序被执行时,执行如下步骤:对目标数据进行属性标注处理,得到对应的属性特征描述;根据所述属性特征描述,对所述目标数据的特征连续性和离散性分别进行评估,得到连续性评估值以及离散性评估值;基于所述连续性评估值以及所述离散性评估值,将所述目标数据划分为连续性数据集以及离散性数据集;根据设定的第一信息熵,确定所述连续性数据集中的第一噪声;根据设定的第二信息熵,确定所述离散性数据集中的第二噪声;从所述连续性数据集中滤除所述第一噪声得到连续性净数据,从所述离散性数据集中滤除所述第二噪声得到离散性净数据;根据所述连续性净数据以及所述离散性净数据,生成净数据集合。10.一种计算机程序产品,其特征在于,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令被执行时,执行如下步骤:对目标数据进行属性标注处理,得到对应的属性特征描述;根据所述属性特征描述,对所述目标数据的特征连续性和离散性分别进行评估,得到连续性评估值以及离散性评估值;基于所述连续性评估值以及所述离散性评估值,将所述目标数据划分为连续性数据集以及离散性数据集;
根据设定的第一信息熵,确定所述连续性数据集中的第一噪声;根据设定的第二信息熵,确定所述离散性数据集中的第二噪声;从所述连续性数据集中滤除所述第一噪声得到连续性净数据,从所述离散性数据集中滤除所述第二噪声得到离散性净数据;根据所述连续性净数据以及所述离散性净数据,生成净数据集合。
技术总结
本申请公开了一种数据噪声的滤除方法、装置及相关产品。方法包括:对目标数据进行属性标注处理,得到对应的属性特征描述;根据属性特征描述,对目标数据的特征连续性和离散性分别进行评估,得到连续性评估值以及离散性评估值;基于连续性评估值以及离散性评估值,将目标数据划分为连续性数据集以及离散性数据集;根据设定的第一信息熵,确定连续性数据集中的第一噪声;根据设定的第二信息熵,确定离散性数据集中的第二噪声;从连续性数据集中滤除第一噪声得到连续性净数据,从离散性数据集中滤除第二噪声得到离散性净数据;根据连续性净数据以及离散性净数据,生成净数据集合,从而实现了去噪的更细粒度实现,提高了噪声处理的准确度。确度。确度。
技术研发人员:阮安邦 魏明 王佳帅 王铀之
受保护的技术使用者:北京八分量信息科技有限公司
技术研发日:2023.03.14
技术公布日:2023/7/20
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
