一种无线感知数据集的数据清洗方法及装置

未命名 08-14 阅读:130 评论:0


1.本发明涉及数据清洗技术领域,特别是涉及一种无线感知数据集的数据清洗方法及装置。


背景技术:

2.高质量的数据为领域研究和系统应用提供有力支持。数据清洗就是在数据集中发现错误样本,进行剔除或纠正,来提高数据质量,保证高质量的决策。在采集数据集的过程中,由于环境或者人为等因素,造成数据集中无法避免一些样本不合规的情况。滤波,插值等方法的使用,确实提升了数据质量,剔除纠正了一部分不合规样本。但是仍然有一些不合规样本和大部分样本不一致,导致了数据质量无法提升,进而影响实验精度。
3.目前,针对不合规样本,常用的一种方法是对数据集中的错误样本进行填补或者纠正。有些数据集的样本有属性的缺失,且数据集样本不多,使用机器学习的方法无法在不完备数据集上训练模型,因此补充数据集样本属性缺失的方法被广泛研究。但是这种方法加大了数据清洗的难度,当数据集比较大时,数据清洗所需要的时间变长。另一种方法是直接丢弃异常数据。基于贝叶斯推理进行的数据清洗,效果显著。但是贝叶斯推理对输入数据的表达形式非常敏感,不够便捷。
4.在智能无线感知领域,通常需要深度神经网络输出感知结果,训练深度神经网络模型使用到大规模的无线感知数据集。而在无线感知领域采集数据的过程中,数据无法对齐是数据集质量不高的主要原因。数据无法对齐是指在采集无线感知数据集的实验中,无法判断动作的起始,只能通过各种手段对包含动作过程的样本进行截取,但是截取出来的样本会出现动作开始时间不一致,无法对齐的结果。


技术实现要素:

5.针对无线感知数据集的特点,本发明提出一种无线感知数据集的数据清洗方法及装置,利用神经网络的回归模型,将数据集中的异常值剔除。无线感知数据集中的大部分数据是一致的,因此使用数据集中大部分数据的一致性训练出的网络模型可以将不一致的数据剔除,达到数据清洗的效果。
6.为此,本发明提供了以下技术方案:
7.一方面,本发明提供了一种无线感知数据集的数据清洗方法,所述方法包括:
8.确定待清洗的无线感知数据集;
9.将所述无线感知数据集中的数据进行等量分组;
10.基于分组后的数据构建网络模型训练集和待清洗样本集;
11.使用训练集训练多个结构相同的分类网络,模型收敛后逐一对与训练集相匹配的待清洗样本集进行检测,根据样本标签判断并标定模型识别错误样本,并记录所有判决错误样本的标定频次及样本索引,实现错误样本标定;
12.依次取其他未清洗样本组作为待清洗数据,重复错误样本标定的步骤,直到所有
分组样本完成清洗;
13.将待清洗数据中标定次数超过清洗阈值的样本判定为异常样本,并将所述异常样本删除。
14.进一步地,所述无线感知数据集为手势数据集。
15.进一步地,基于分组后的数据构建网络模型训练集和待清洗样本集,包括:
16.取分组后的数据中一组样本作为待清洗样本集,剩余组作为训练集,用于训练分类神经网络。
17.进一步地,确定所述清洗阈值包括:统计模型判决错误1次到预设次的样本数量,确定清洗阈值。
18.进一步地,还包括:将异常样本删除后的样本集进行整理合并,异常样本清理结束。
19.又一方面,本发明提供了一种无线感知数据集的数据清洗装置,包括:
20.数据分组单元,将待清洗的无线感知数据集分为等量的多组数据,并基于分组后的数据构建网络模型训练集和待清洗样本集;
21.错误样本标定单元,使用训练集对神经网络进行训练,训练多个神经网络模型,使用训练收敛的网络模型对待清洗的样本集进行测试,将错误识别的样本标定并记录错误识别次数;
22.样本删除单元,将待清洗数据中标定次数超过清洗阈值的样本判定为异常样本,并将所述异常样本删除。
23.本发明的优点和积极效果:本发明提出一种无线感知数据集的数据清洗方法,将待清洗的数据样本库等量分组,构建网络模型训练集和待清洗样本集,在训练集上训练收敛的神经网络,利用神经网络模型训练偏向大部分一致数据的特性,将样本库没有正确识别的样本标定,多轮训练测试记录识别错误样本标定次数并将识别错误次数多的样本筛除,即,将数据集中没有对齐的少量数据标定删除,达到进一步提升数据质量和检测精度的目的。
附图说明
24.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
25.图1为本发明实施例中一种无线感知数据集的数据清洗方法的工作流程示意图;
26.图2为本发明实施例中数据分组示意图;
27.图3为本发明实施例中错误样本标定流程图;
28.图4为本发明实施例中数据清洗流程图;
29.图5为本发明实施例中数据清洗示例流程图;
30.图6为本发明实施例中数据样本分组流程图;
31.图7为本发明实施例中样本集标定次数统计示意图。
具体实施方式
32.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
33.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
34.在动作识别的各类研究中,数据集的构建需要在连续的数据流里以一定间隔对动作进行截取。然而在无线感知领域,动作的起始无法像视频那样可视,且人在规定节点做动作时可能会存在提前、滞后做动作的情况,因此使用固定长度的截取窗口在规定节点截取样本可能会导致部分数据样本不能包含完整的动作信息,造成数据集实际样本中动作开始节点不一致,动作无法对齐的问题。为了解决这一问题,本发明提出一种无线感知数据集的数据清洗方法,将数据集中没有对齐的少量数据标定删除,提高检测精度。本发明的核心思路是将待清洗的数据样本库等量分组,构建网络模型训练集和待清洗样本集,在训练集上训练收敛的神经网络,利用神经网络模型训练偏向大部分一致数据的特性,将数据库中没有正确识别的样本标定,多轮训练测试记录识别错误样本标定次数并将识别错误次数多的样本筛除,达到进一步提升数据质量和检测精度的目的。
35.使用无线设备采集截取的样本数据大部分是在同一时刻的,少部分样本存在动作开始时刻不一样,导致定时截取样本时存在动作无法对齐的问题。本发明数据清洗方法应用在无线感知数据库中,在数据库中的少部分数据由于数据没有对齐等问题影响检测精度时使用。
36.利用神经网络偏向于大部分一致数据的特性,存在少量异常样本的数据库中,可以通过大部分非异常样本定位异常样本并剔除。本发明提出的一种无线感知数据集的数据清洗方法的工作流程如图1所示,整体分为三个部分,数据分组、错误样本标定和样本删除。数据分组是将一个无线感知数据集分为等量的几组并构建网络模型训练集和待清洗样本集,具体将数据分组的其中一组设为待清洗样本集,剩下几组设为训练集。错误样本标定是在待清洗的数据中对错误识别的样本标定,具体使用训练集对神经网络进行训练,训练多个神经网络模型,使用训练收敛的网络模型对待清洗的样本集进行测试,将错误识别的样本标定并记录错误识别次数。样本删除是将待清洗数据中异常样本删除,具体将待清洗数据中标定次数超过一定阈值的样本判定为异常样本将其删除。
37.为了便于理解,下面以无线感知手势识别数据集的数据清洗为例对本发明中的数据清洗方法进行详细说明。
38.系统配置如下:
39.系统使用60ghz-64ghz毫米波连续调频雷达进行数据采集;
40.系统拥有1.75m内存,600m主频;
41.系统探测距离为5米,方向角为120度;
42.任务:采集手势数据进行数据清洗。
43.本实施例实现数据清洗的流程如图4-5所示:
44.s1、确定无线感知数据集;
45.本实施例中无线感知数据集为手势数据集,手势数据集共有十个手势,每个手势有150个样本,共1500个样本数据。手势数据集构成如表1,数据清洗的过程如下:
46.表1
[0047][0048]
s2、数据等量分组,将一个待清洗的样本库分为等量的y组;
[0049]
将数据集分为a、b、c、d、e五组,每组10个手势,每个手势30个样本,如图6所示;
[0050]
s3、构建网络模型训练集和待清洗样本集,取s2中y组中的一组样本作为待清洗样本集,剩余y-1组作为训练集用于训练分类神经网络,如图2所示;
[0051]
本实施例中,先取a组数据为待清洗样本集,b、c、d、e为训练集进行网络训练;
[0052]
s4、错误样本标定,使用训练集训练n个结构相同的分类网络,模型收敛后逐一对与训练集相匹配的待清洗样本集进行检测,根据样本标签判断并标定模型识别错误样本,并记录所有判决错误样本的标定频次及样本索引,如图3所示;
[0053]
本实施例中,使用训练集训练6个结构相同的分类网络,模型收敛后对与训练集相匹配的待清洗数据集进行检测,跟据样本标签判断并标定模型识别错误样本,并记录所有判决错误样本的标定频次及样本索引;
[0054]
s5、清洗整个样本集,依次取其他未清洗样本组作为待清洗数据,重复s3和s4,直到所有分组样本完成清洗;
[0055]
s6、判断清洗阈值,统计模型判决错误1次到m次的样本数量,确定清洗阈值p;
[0056]
统计模型判决错误1次到m次的样本数量如图7,确定清洗阈值为3次;图7为整个样本集所有样本被标定的次数统计,其中,大部分样本没有出现预测错误的情况,少部分样本出错频次较高。神经网络模型具有偏向大部分一致性数据的特性,一直出错说明样本本身存在问题,与大部分数据不一致。
[0057]
s7、样本删除,将标定频次大于3的样本判定为异常样本,根据s4记录索引将异常样本删除;
[0058]
s8、清理完成,将异常样本删除后的样本集进行整理合并,异常样本清理结束。
[0059]
数据清洗前后精度对比如表2所示。
[0060]
表2
[0061][0062]
[0063]
由表可以看到,数据清洗可以提升各个手势识别精度及整个数据集精度。
[0064]
上述实施例中,将待清洗的数据样本库等量分组,构建网络模型训练集和待清洗样本集,在训练集上训练收敛的神经网络,利用神经网络模型训练偏向大部分一致数据的特性,将样本库没有正确识别的样本标定,多轮训练测试记录识别错误样本标定次数并将识别错误次数多的样本筛除,即,将数据集中没有对齐的少量数据标定删除,达到进一步提升数据质量和检测精度的目的。
[0065]
对应本发明实施例中的一种无线感知数据集的数据清洗方法,本发明实施例还提供了一种无线感知数据集的数据清洗装置,包括:
[0066]
数据分组单元,将待清洗的无线感知数据集分为等量的多组数据,并基于分组后的数据构建网络模型训练集和待清洗样本集;
[0067]
错误样本标定单元,使用训练集对神经网络进行训练,训练多个神经网络模型,使用训练收敛的网络模型对待清洗的样本集进行测试,将错误识别的样本标定并记录错误识别次数;
[0068]
样本删除单元,将待清洗数据中标定次数超过清洗阈值的样本判定为异常样本,并将所述异常样本删除。
[0069]
对于本发明实施例的无线感知数据集的数据清洗装置而言,由于其与上面实施例中的一种无线感知数据集的数据清洗方法相对应,所以描述的比较简单,相关相似之处请参见上面实施例中无线感知数据集的数据清洗方法部分的说明即可,此处不再详述。
[0070]
在本发明所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
[0071]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0072]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0073]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0074]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽
管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

技术特征:
1.一种无线感知数据集的数据清洗方法,其特征在于,所述方法包括:确定待清洗的无线感知数据集;将所述无线感知数据集中的数据进行等量分组;基于分组后的数据构建网络模型训练集和待清洗样本集;使用训练集训练多个结构相同的分类网络,模型收敛后逐一对与训练集相匹配的待清洗样本集进行检测,根据样本标签判断并标定模型识别错误样本,并记录所有判决错误样本的标定频次及样本索引,实现错误样本标定;依次取其他未清洗样本组作为待清洗数据,重复错误样本标定的步骤,直到所有分组样本完成清洗;将待清洗数据中标定次数超过清洗阈值的样本判定为异常样本,并将所述异常样本删除。2.根据权利要求1所述的一种无线感知数据集的数据清洗方法,其特征在于,所述无线感知数据集为手势数据集。3.根据权利要求1所述的一种无线感知数据集的数据清洗方法,其特征在于,基于分组后的数据构建网络模型训练集和待清洗样本集,包括:取分组后的数据中一组样本作为待清洗样本集,剩余组作为训练集,用于训练分类神经网络。4.根据权利要求1所述的一种无线感知数据集的数据清洗方法,其特征在于,确定所述清洗阈值包括:统计模型判决错误1次到预设次的样本数量,确定清洗阈值。5.根据权利要求1所述的一种无线感知数据集的数据清洗方法,其特征在于,还包括:将异常样本删除后的样本集进行整理合并,异常样本清理结束。6.一种无线感知数据集的数据清洗装置,其特征在于,包括:数据分组单元,将待清洗的无线感知数据集分为等量的多组数据,并基于分组后的数据构建网络模型训练集和待清洗样本集;错误样本标定单元,使用训练集对神经网络进行训练,训练多个神经网络模型,使用训练收敛的网络模型对待清洗的样本集进行测试,将错误识别的样本标定并记录错误识别次数;样本删除单元,将待清洗数据中标定次数超过清洗阈值的样本判定为异常样本,并将所述异常样本删除。

技术总结
本发明公开了一种无线感知数据集的数据清洗方法及装置,将待清洗的无线感知数据集中的数据进行等量分组;基于分组后的数据构建网络模型训练集和待清洗样本集;使用训练集训练多个结构相同的分类网络,模型收敛后逐一对与训练集相匹配的待清洗样本集进行检测,根据样本标签判断并标定模型识别错误样本,并记录所有判决错误样本的标定频次及样本索引,实现错误样本标定;依次取其他未清洗样本组作为待清洗数据,重复错误样本标定的步骤,直到所有分组样本完成清洗;将待清洗数据中标定次数超过清洗阈值的样本判定为异常样本,并将异常样本删除。本发明使用数据集中大部分数据的一致性训练出的网络模型可以将不一致的数据剔除,达到数据清洗的效果。到数据清洗的效果。到数据清洗的效果。


技术研发人员:王洁 张晨歌 高庆华 陈博
受保护的技术使用者:大连海事大学
技术研发日:2023.05.19
技术公布日:2023/8/13
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐