数据处理方法、装置及可读存储介质与流程

未命名 09-22 阅读:76 评论:0


1.本技术实施例涉及数据处理技术领域,尤其涉及一种数据处理方法、装置及可读存储介质。


背景技术:

2.为提高云服务质量,以及云服务的安全性,边缘云(以下称为边缘节点)应运而生。边缘节点与中心云之间可以利用云边协同机制搭建工业模型,对工业模型进行协同训练,以优化工业模型。
3.工业模型的优化需要工业模型的训练过程需要大量的样本数据,因此,样本数据质量与工业模型的优化程度关联性较大,如何优化边缘节点中的样本数据质量是亟待解决的技术问题。


技术实现要素:

4.本技术提供了一种数据处理方法、装置及可读存储介质,用于提高边缘节点中的样本数据质量。
5.为达到上述目的,本技术采用如下技术方案:
6.第一方面,提供了一种数据处理方法,包括:确定本轮本地样本数据的总数量,以及本轮待入库样本数据的总数量;若本轮本地样本数据的总数量大于第一阈值,则确定本轮目标数量的待入库样本数据的数据质量指标,以及本轮目标数量的本地样本数据的数据质量指标;在本轮目标数量的待入库样本数据的数据质量指标,大于本轮目标数量的本地样本数据的数据质量指标的情况下,将本轮目标数量的待入库样本数据更新至本地样本数据,得到更新后的本地样本数据,以及更新后的待入库样本数据;迭代上述步骤,直至遍历全部待入库样本数据;其中,在第1轮迭代中,本轮本地样本数据的总数量为本地样本数据的初始数量,本轮待入库样本数据的总数量为待入库样本数据的初始数量;在第i轮迭代中,本轮本地样本数据的总数量为第i-1轮迭代中更新后的本地样本数据的数量,本轮待入库样本数据的总数量为第i-1轮迭代中更新后的待入库样本数据的数量;i为大于1的整数。
7.可选的,若本轮本地样本数据的总数量小于或等于待入库样本数据的总数量,则本轮目标数量为本轮本地样本数据的总数量;若本轮本地样本数据的总数量大于本轮待入库样本数据的总数量,则本轮目标数量为本轮待入库样本数据的总数量。
8.可选的,该方法还包括:若本轮本地样本数据的总数量小于或等于第一阈值,则将本轮待入库样本数据更新至本地样本数据。
9.可选的,该方法还包括:在本轮目标数量的待入库样本数据的数据质量指标,小于或等于本轮目标数量的本地样本数据的数据质量指标的情况下,将本轮目标数量的待入库样本数据进行删除,得到更新后的本地样本数据,以及更新后的待入库样本数据。
10.可选的,确定样本数据的数据质量指标,包括:确定样本数据的多种类型的评价指标得分以及对应的权重;根据每种类型的评价指标权重,对多种类型的评价指标得分进行
加权处理,得到样本数据的数据质量指标。
11.基于本技术提供的技术方案,基于本技术提供的技术方案,在确定本轮本地样本数据的总数量大于第一阈值之后,确定本轮目标数量的待入库样本数据的数据质量指标,以及本轮目标数量的本地样本数据的数据质量指标,并在本轮目标数量的待入库样本数据的数据质量指标,大于本轮目标数量的本地样本数据的数据质量指标的情况下,将本轮目标数量的待入库样本数据更新至本地样本数据,得到更新后的本地样本数据,以及更新后的待入库样本数据。如此,可以将数据质量指标较高的数据迭代更新至本地样本数据,提高了边缘节点中的样本数据质量。且由于在确定数据质量指标时,本轮本地样本数据的总数量与本轮待入库样本数据的总数量相同,如此,可以保持比较变量相同,更准确的比较两者的数据质量,也避免待入库样本数据的数量过多时,无法剔除其中个别数据质量较差的待入库样本数据。进一步的,迭代上述步骤直至遍历全部待入库样本数据;其中,在第1轮迭代中,本轮本地样本数据的总数量为本地样本数据的初始数量,本轮待入库样本数据的总数量为待入库样本数据的初始数量;在第i轮迭代中,本轮本地样本数据的总数量为第i-1轮迭代中更新后的本地样本数据的数量,本轮待入库样本数据的总数量为第i-1轮迭代中更新后的待入库样本数据的数量;i为大于1的整数。如此,每次迭代之后,本地样本数据的数据质量都会比上一次迭代时的数据质量提高,可以实现不间段的优化样本数据的数据质量。
12.第二方面,提供了一种数据处理装置,装置包括:确定单元、更新单元、迭代单元;确定单元,用于确定本轮本地样本数据的总数量,以及本轮待入库样本数据的总数量;确定单元,还用于在本轮本地样本数据的总数量大于第一阈值的情况下,确定本轮目标数量的待入库样本数据的数据质量指标,以及本轮目标数量的本地样本数据的数据质量指标;更新单元,用于在本轮目标数量的待入库样本数据的数据质量指标,大于本轮目标数量的本地样本数据的数据质量指标的情况下,将本轮目标数量的待入库样本数据更新至本地样本数据,得到更新后的本地样本数据,以及更新后的待入库样本数据;迭代单元,用于迭代上述步骤,直至遍历全部待入库样本数据;其中,在第1轮迭代中,本轮本地样本数据的总数量为本地样本数据的初始数量,本轮待入库样本数据的总数量为待入库样本数据的初始数量;在第i轮迭代中,本轮本地样本数据的总数量为第i-1轮迭代中更新后的本地样本数据的数量,本轮待入库样本数据的总数量为第i-1轮迭代中更新后的待入库样本数据的数量;i为大于1的整数。
13.可选的,若本轮本地样本数据的总数量小于或等于待入库样本数据的总数量,则本轮目标数量为本轮本地样本数据的总数量;若本轮本地样本数据的总数量大于本轮待入库样本数据的总数量,则本轮目标数量为本轮待入库样本数据的总数量。
14.可选的,更新单元,还用于在本轮本地样本数据的总数量小于或等于第一阈值的情况下,将本轮待入库样本数据更新至本地样本数据。
15.可选的,更新单元,还用于在本轮目标数量的待入库样本数据的数据质量指标,小于或等于本轮目标数量的本地样本数据的数据质量指标的情况下,将本轮目标数量的待入库样本数据进行删除,得到更新后的本地样本数据,以及更新后的待入库样本数据。
16.可选的,确定单元,具体用于:确定样本数据的多种类型的评价指标得分以及对应的权重;根据每种类型的评价指标权重,对多种类型的评价指标得分进行加权处理,得到样
本数据的数据质量指标。
17.第三方面,提供了一种数据处理装置,该数据处理装置可以实现上述各方面或者各可能的设计中数据处理装置所执行的功能,功能可以通过硬件实现,如:一种可能的设计中,该数据处理装置可以包括:处理器和通信接口,处理器可以用于支持数据处理装置实现上述第一方面或者第一方面的任一种可能的设计中所涉及的功能。
18.在又一种可能的设计中,数据处理装置还可以包括存储器,存储器用于保存数据处理装置必要的计算机执行指令和数据。当该数据处理装置运行时,该处理器执行该存储器存储的该计算机执行指令,以使该数据处理装置执行上述第一方面或者第一方面的任一种可能的数据处理方法。
19.第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质可以为可读的非易失性存储介质,该计算机可读存储介质存储有计算机指令或者程序,当其在计算机上运行时,使得计算机可以执行上述第一方面或者上述方面的任一种可能的数据处理方法。
20.第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机可以执行上述第一方面或者上述方面的任一种可能的设计的数据处理方法。
21.第六方面,提供了一种电子设备,该电子设备包括一个或者多个处理器以及和一个或多个存储器。一个或多个存储器与一个或多个处理器耦合,一个或多个存储器用于存储计算机程序代码,计算机程序代码包括计算机指令,当一个或多个处理器执行计算机指令时,使得电子设备执行如上述第一方面或者第一方面的任一可能的设计的数据处理方法。
22.第七方面,提供了一种芯片系统,该芯片系统包括处理器以及通信接口,该芯片系统可以用于实现上述第一方面或第一方面的任一可能的设计中数据处理装置所执行的功能。在一种可能的设计中,芯片系统还包括存储器,存储器,用于保存程序指令和/或数据。该芯片系统可以由芯片构成,也可以包含芯片和其他分立器件,不予限制。
附图说明
23.图1为本技术实施例提供的一种数据处理系统的结构示意图;
24.图2为本技术实施例提供的一种数据处理装置的结构示意图;
25.图3为本技术实施例提供的一种数据处理方法的流程示意图;
26.图4为本技术实施例提供的又一种数据处理方法的流程示意图;
27.图5为本技术实施例提供的又一种数据处理方法的流程示意图;
28.图6为本技术实施例提供的又一种数据处理装置的结构示意图。
具体实施方式
29.为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本技术实施例中的技术方案进行清楚、完整地描述。
30.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或
描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术实施例的一些方面相一致的装置和方法的例子。
31.还应当理解的是,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、整体、步骤、操作、元素和/或组件的存在或添加。
32.为提高云服务质量,以及云服务的安全性,边缘云(以下称为边缘节点)应运而生。边缘节点与中心云之间可以利用云边协同机制搭建工业模型,对工业模型进行协同训练,以优化工业模型。工业模型可以包括机理模型和数据模型,例如,可以为工业设备参数优化模型、机器视觉质量检测模型等。
33.工业模型的优化训练过程需要大量的样本数据,因此,样本数据质量与工业模型的优化程度关联性较大,如何优化工业模型的样本数据质量是亟待解决的技术问题。
34.鉴于此,本技术实施例提供一种数据处理方法,包括:
35.确定本轮本地样本数据的总数量,以及本轮待入库样本数据的总数量;若本轮本地样本数据的总数量大于第一阈值,则确定本轮目标数量的待入库样本数据的数据质量指标,以及本轮目标数量的本地样本数据的数据质量指标;在本轮目标数量的待入库样本数据的数据质量指标,大于本轮目标数量的本地样本数据的数据质量指标的情况下,将本轮目标数量的待入库样本数据更新至本地样本数据,得到更新后的本地样本数据,以及更新后的待入库样本数据;迭代上述步骤,直至遍历全部待入库样本数据;其中,在第1轮迭代中,本轮本地样本数据的总数量为本地样本数据的初始数量,本轮待入库样本数据的总数量为待入库样本数据的初始数量;在第i轮迭代中,本轮本地样本数据的总数量为第i-1轮迭代中更新后的本地样本数据的数量,本轮待入库样本数据的总数量为第i-1轮迭代中更新后的待入库样本数据的数量;i为大于1的整数。
36.下面结合说明书附图对本技术实施例提供的方法进行详细说明。
37.需要说明的是,本技术实施例描述的网络系统是为了更加清楚的说明本技术实施例的技术方案,并不构成对于本技术实施例提供的技术方案的限定,本领域普通技术人员可知,随着网络系统的演变和其他网络系统的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
38.图1示出的是本技术实施例提供的一种数据处理系统10的示意图。如图1所示,该数据处理系统10可以包括多个终端设备11、多个边缘节点12以及中心云13。多个终端设备11、多个边缘节点12以及中心云13相互连接。例如,多个终端设备11、多个边缘节点12以及中心云13之间可以通过无线的方式进行连接。
39.其中,终端设备11可以用于向边缘节点12发送待入库样本数据。也可以称为终端、移动台(mobile station,ms)、移动终端(mobile terminal,mt)等。例如,终端设备11可以为:工业设备、智能手机(mobile phone)、口袋计算机(pocket personal computer,ppc)、掌上电脑、个人数字助理(personal digital assistant,pda)、笔记本电脑、平板电脑、可穿戴设备、或者车载设备等。本技术的实施例对终端设备11所采用的具体技术、具体数量和具体设备形态不做限定。
40.其中,边缘节点12可以用于在接收到待入库样本数据的情况下,对本地样本数据进行优化。例如,边缘节点12可以为计算机、服务器等。其中,服务器可以是单独的一个服务
器,或者,也可以是由多个服务器构成的服务器集群。部分实施方式中,服务器集群还可以是分布式集群。本技术实施例对边缘节点12具体技术、具体数量和具体设备形态不做限定。
41.需要说明的,边缘节点12可以配置有数据库、算法模型库以及算法训练环境等。数据库存储有本地样本数据,算法模型库存储有多种工业模型,多种工业模型为基于本地样本数据训练后得到的。边缘节点12还可以用于向中心云13上传工业模型,以及,从中心云13中下载工业模型。
42.其中,中心云13设置有集中式的算法模型库。用于管理各边缘节点12上传的工业模型,并将上传的工业模型进行分类、标签化存储管理。
43.需要说明的是,图1仅为示例性框架图,图1中包括的各个设备的名称不受限制,且除图1所示功能节点外,还可以包括其他节点,本技术实施例对此不进行限定。
44.需要说明的是,图1仅为示例性框架图,图1中包括的各个模块的名称不受限制,且除图1所示功能模块外,还可以包括其他模块,本技术实施例对此不进行限定。
45.具体实现时,图2中的各个设备均可以采用图2所示的组成结构,或者包括图2所示的部件。图2为本技术实施例提供的一种边缘节点200的组成示意图,该边缘节点200可以为服务器,或者,该边缘节点200可以为服务器中的芯片或者片上系统。如图2所示,该边缘节点200包括处理器201,通信接口202以及通信线路203。
46.进一步的,该边缘节点200还可以包括存储器204。其中,处理器201,存储器204以及通信接口202之间可以通过通信线路203连接。
47.其中,处理器201是cpu、通用处理器、网络处理器(network processor,np)、数字信号处理器(digital signal processing,dsp)、微处理器、微控制器、可编程逻辑器件(programmable logic device,pld)或它们的任意组合。处理器201还可以是其它具有处理功能的装置,例如电路、器件或软件模块,不予限制。
48.通信接口202,用于与其他设备或其它通信网络进行通信。通信接口202可以是模块、电路、通信接口或者任何能够实现通信的装置。
49.通信线路203,用于在边缘节点200所包括的各部件之间传送信息。
50.存储器204,用于存储指令。其中,指令可以是计算机程序。
51.其中,存储器204可以是只读存储器(read-only memory,rom)或可存储静态信息和/或指令的其他类型的静态存储设备,也可以是随机存取存储器(random access memory,ram)或可存储信息和/或指令的其他类型的动态存储设备,还可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,eeprom)、只读光盘(compact disc read-only memory,cd-rom)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或其他磁存储设备等,不予限制。
52.需要指出的是,存储器204可以独立于处理器201存在,也可以和处理器201集成在一起。存储器204可以用于存储指令或者程序代码或者一些数据等。存储器204可以位于边缘节点200内,也可以位于边缘节点200外,不予限制。处理器201,用于执行存储器204中存储的指令,以实现本技术下述实施例提供的数据处理方法。
53.在一种示例中,处理器201可以包括一个或多个cpu,例如,图2中的cpu0和cpu1。
54.作为一种可选的实现方式,边缘节点200包括多个处理器,例如,除图2中的处理器201之外,还可以包括处理器205。
55.需要指出的是,图2中示出的组成结构并不构成对该图1中的各个设备的限定,除图2所示部件之外,图1中的各个设备可以包括比图2更多或更少的部件,或者组合某些部件,或者不同的部件布置。
56.本技术实施例中,芯片系统可以由芯片构成,也可以包括芯片和其他分立器件。
57.此外,本技术的各实施例之间涉及的动作、术语等均可以相互参考,不予限制。本技术的实施例中各个设备之间交互的消息名称或消息中的参数名称等只是一个示例,具体实现中也可以采用其他的名称,不予限制。
58.为了便于清楚描述本技术实施例的技术方案,在本技术的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
59.需要说明的是,本技术中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本技术中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
60.本技术中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b的情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
61.下面结合图1所示数据处理系统,对本技术实施例提供的数据处理方法进行描述。
62.图3为本技术实施例提供了一种数据处理方法,应用于边缘节点,该边缘节点可以为图1中的边缘节点12,还可以为边缘节点12中的器件,如芯片等。本技术实施例以应用于边缘节点12为例进行说明,如图3所示,该方法包括下述s301-s306:
63.s301、边缘节点确定本轮本地样本数据的总数量,以及本轮待入库样本数据的总数量。
64.其中,待入库样本数据为终端设备向边缘节点上报的样本数据。本地样本数据为边缘节点存储在数据库中的历史样本数据。例如,在工业模型为机器视觉质量检测模型的情况下,待入库样本数据可以为图片数据以及时间戳数据等。
65.其中,在第1轮迭代中,本轮本地样本数据的总数量为本地样本数据的初始数量,本轮待入库样本数据的总数量为待入库样本数据的初始数量;在第i轮迭代中,本轮本地样本数据的总数量为第i-1轮迭代中更新后的本地样本数据的数量,本轮待入库样本数据的总数量为第i-1轮迭代中更新后的待入库样本数据的数量;i为大于1的整数。
66.作为一种可能的实现方式,在第1轮迭代中,边缘节点可以在接收到待入库样本数据的情况下,通过统计内部数据库中每个数据集所包括的样本数据的数量,并将每个数据集所包括的样本数据的数量进行求和,得到本轮本地样本数据的总数量。进一步的,边缘节点可以根据接收到的待入库样本数据的总数量确定为本轮待入库样本数据的总数量。
67.作为又一种可能的实现方式,在第i轮迭代中,边缘节点可以将第i-1轮迭代中更
新后的本地样本数据的数量,确定为本轮本地样本数据的总数量,将第i-1轮迭代中更新后的本地样本数据的数量,确定为本轮待入库样本数据的总数量。
68.例如,在第i-1轮迭代中,若本地样本数据的总数量为m,待入库样本数据的总数量为n,更新后的本地样本数据的总数量为m+m1,待入库样本数据的总数量为n-m1,则在第i轮迭代中,边缘节点确定本轮本地样本数据的总数量为m+m1,以及本轮待入库样本数据的总数量为n-m1。
69.s302、边缘节点确定本轮本地样本数据的总数量是否大于第一阈值。
70.其中,第一阈值可以根据需要设置。例如,可以为0。
71.作为一种可能的实现方式,边缘节点可以从内部的比较器获取第一类型比较信号,并根据第一类型比较信号确定本轮本地样本数据的总数量是否大于第一阈值。
72.其中,第一类型比较信号用于指示本轮本地样本数据的总数量是否大于第一阈值,第一类型比较信号包括第一比较信号和第二比较信号。第一比较信号表示本轮本地样本数据的总数量大于第一阈值,第二比较信号表示本轮本地样本数据的总数量小于或等于第一阈值。
73.边缘节点在确定第一类型比较信号为第一比较信号的情况下,确定本轮本地样本数据的总数量大于第一阈值。边缘节点在确定第一类型比较信号为第二比较信号的情况下,确定本轮本地样本数据的总数量小于或等于第一阈值。
74.s303、若本轮本地样本数据的总数量大于第一阈值,则边缘节点确定本轮目标数量的待入库样本数据的数据质量指标,以及本轮目标数量的本地样本数据的数据质量指标。
75.其中,本轮目标数量为本轮本地样本数据的总数量或本轮待入库样本数据的总数量。例如,若本轮本地样本数据的总数量小于或等于待入库样本数据的总数量,则本轮目标数量为本轮本地样本数据的总数量。若本轮本地样本数据的总数量大于本轮待入库样本数据的总数量,则本轮目标数量为本轮待入库样本数据的总数量。
76.其中,数据质量指标用于表征数据质量的等级。例如,数据质量的等级可以包括1级(优)、2级(良)和3级(差)。
77.一种示例中,数据质量指标与数据质量的等级的映射关系可以如下表1所示。
78.表1数据质量指标与数据质量的等级的映射关系表
79.数据质量指标数据质量的等级>951[80,95]2<803
[0080]
需要说明的,表1的数据仅为示例性的。本技术实施例中,数据质量指标和数据质量的等级之间的映射关系还可以为其他映射关系,不予限制。
[0081]
作为一种可能的实现方式,在本轮目标数量为本轮本地样本数据的总数量的情况下,边缘节点可以从本轮待入库样本数据中随机选取本轮目标数量的待入库样本数据,并确定随机选取的本轮目标数量的待入库样本数据的数据质量指标,进一步的,确定全部的本轮本地样本数据的数据质量指标。
[0082]
作为又一种可能的实现方式,在本轮目标数量为本轮待入库样本数据的总数量的
情况下,边缘节点可以确定全部的本轮待入库样本数据的数据质量指标,进一步的,从本轮本地样本数据中随机选取本轮目标数量的本地样本数据,并确定随机选取的本地样本数据的数据质量指标。
[0083]
s304、边缘节点确定本轮目标数量的待入库样本数据的数据质量指标,是否大于本轮目标数量的本地样本数据的数据质量指标。
[0084]
作为一种可能的实现方式,边缘节点可以从内部的比较器获取第二类型比较信号,并根据第二类型比较信号确定本轮目标数量的待入库样本数据的数据质量指标,是否大于本轮目标数量的本地样本数据的数据质量指标。
[0085]
其中,第二类型比较信号用于指示本轮目标数量的待入库样本数据的数据质量指标,是否大于本轮目标数量的本地样本数据的数据质量指标。第二类型比较信号包括第三比较信号和第四比较信号。第三比较信号表示本轮目标数量的待入库样本数据的数据质量指标,大于本轮目标数量的本地样本数据的数据质量指标。第四比较信号表示本轮目标数量的待入库样本数据的数据质量指标,小于或等于本轮目标数量的本地样本数据的数据质量指标。
[0086]
边缘节点在确定第二类型比较信号为第三比较信号的情况下,确定本轮目标数量的待入库样本数据的数据质量指标,大于本轮目标数量的本地样本数据的数据质量指标。边缘节点在确定第二类型比较信号为第四比较信号的情况下,确定本轮目标数量的待入库样本数据的数据质量指标,小于或等于本轮目标数量的本地样本数据的数据质量指标。
[0087]
s305、边缘节点在本轮目标数量的待入库样本数据的数据质量指标,大于本轮目标数量的本地样本数据的数据质量指标的情况下,将本轮目标数量的待入库样本数据更新至本地样本数据,得到更新后的本地样本数据,以及更新后的待入库样本数据。
[0088]
作为一种可能的实现方式,在本轮目标数量的待入库样本数据的数据质量指标,大于本轮目标数量的本地样本数据的数据质量指标的情况下,边缘节点可以将本轮目标数量的待入库样本数据增加至本地样本数据,得到更新后的本地样本数据;并将本轮目标数量的待入库样本数据从待入库样本数据中删除,更新后的待入库样本数据。
[0089]
例如,在存在1轮迭代的情况下(即本轮本地样本数据的总数量(例如,可以为m)大于本轮待入库样本数据的总数量(例如,可以为n)),若本轮目标数量的待入库样本数据的数据质量指标,大于本轮目标数量的本地样本数据的数据质量指标,边缘节点可以将n个待入库样本数据增加至本地样本数据,得到更新后的本地样本数据(数量为m+n),以及更新后的待入库样本数据(数量为0)。
[0090]
例如,在存在多轮迭代的情况下(即本轮本地样本数据的总数量(例如,可以为m)小于或等于本轮待入库样本数据的总数量(例如,可以为n)),在第1轮迭代中,若本轮目标数量的待入库样本数据的数据质量指标,大于本轮目标数量的本地样本数据的数据质量指标,边缘节点可以将m个待入库样本数据增加至本地样本数据,得到更新后的本地样本数据(数量为2m),以及更新后的待入库样本数据(数量为n-m)。
[0091]
进一步的,在第2轮迭代中,若本轮目标数量的待入库样本数据的数据质量指标,大于本轮目标数量的本地样本数据的数据质量指标,边缘节点可以将2m个待入库样本数据增加至本地样本数据,得到更新后的本地样本数据(数量为4m),以及更新后的待入库样本数据(数量为n-3m)。以此类推,直至遍历全部待入库样本数据(也即n=0)。
[0092]
s306、边缘节点迭代上述步骤,直至遍历全部待入库样本数据。
[0093]
基于本技术提供的技术方案,在确定本轮本地样本数据的总数量大于第一阈值之后,确定本轮目标数量的待入库样本数据的数据质量指标,以及本轮目标数量的本地样本数据的数据质量指标,并在本轮目标数量的待入库样本数据的数据质量指标,大于本轮目标数量的本地样本数据的数据质量指标的情况下,将本轮目标数量的待入库样本数据更新至本地样本数据,得到更新后的本地样本数据,以及更新后的待入库样本数据。如此,可以将数据质量指标较高的数据迭代更新至本地样本数据,提高了边缘节点中的样本数据质量。且由于在确定数据质量指标时,本轮本地样本数据的总数量与本轮待入库样本数据的总数量相同,如此,可以保持比较变量相同,更准确的比较两者的数据质量,也避免待入库样本数据的数量过多时,无法剔除其中个别数据质量较差的待入库样本数据。进一步的,迭代上述步骤直至遍历全部待入库样本数据;其中,在第1轮迭代中,本轮本地样本数据的总数量为本地样本数据的初始数量,本轮待入库样本数据的总数量为待入库样本数据的初始数量;在第i轮迭代中,本轮本地样本数据的总数量为第i-1轮迭代中更新后的本地样本数据的数量,本轮待入库样本数据的总数量为第i-1轮迭代中更新后的待入库样本数据的数量;i为大于1的整数。如此,每次迭代之后,本地样本数据的数据质量都会比上一次迭代时的数据质量提高,可以实现不间段的优化样本数据的数据质量。
[0094]
一种可能的实施例,如图4所示,为了避免本地样本数据的数量过少,本地样本数据的数据质量不具有普适性。本技术的数据处理方法还可以具体包括下述s401。
[0095]
s401、若本轮本地样本数据的总数量小于或等于第一阈值,则边缘节点将本轮待入库样本数据更新至本地样本数据。
[0096]
作为一种可能实现的方式,在第1轮迭代中,若本轮本地样本数据的总数量小于或等于第一阈值,则边缘节点将全部待入库样本数据更新至本地样本数据。
[0097]
例如,在第1轮迭代中,若本轮本地样本数据的总数量为0,则边缘节点将全部待入库样本数据更新至本地样本数据。
[0098]
如此,可以避免本地样本数据的数量过少的情况下,本地样本数据的数据质量不具有普适性。
[0099]
一种可能的实施例,如图5所示,为了不断提高本地样本数据的数据质量指标,本技术的数据处理方法还可以包括下述s501。
[0100]
s501、边缘节点在本轮目标数量的待入库样本数据的数据质量指标,小于或等于本轮目标数量的本地样本数据的数据质量指标的情况下,将本轮目标数量的待入库样本数据进行删除,得到更新后的本地样本数据,以及更新后的待入库样本数据。
[0101]
例如,在存在1轮迭代的情况下(即本轮本地样本数据的总数量(例如,可以为m)大于本轮待入库样本数据的总数量(例如,可以为n)),若本轮目标数量的待入库样本数据的数据质量指标,大于本轮目标数量的本地样本数据的数据质量指标,边缘节点可以将n个待入库样本数据删除,得到更新后的待入库样本数据(数量为0)。
[0102]
例如,在存在多轮迭代的情况下(即本轮本地样本数据的总数量(例如,可以为m)小于或等于本轮待入库样本数据的总数量(例如,可以为n)),在第1轮迭代中,若本轮目标数量的待入库样本数据的数据质量指标,小于或等于本轮目标数量的本地样本数据的数据质量指标,边缘节点可以将m个待入库样本数据进行删除,得到更新后的本地样本数据(数
量为m),以及更新后的待入库样本数据(数量为n-m)。
[0103]
进一步的,在第2轮迭代中,若本轮目标数量的待入库样本数据的数据质量指标,小于或等于本轮目标数量的本地样本数据的数据质量指标,边缘节点可以再次将m个待入库样本数据进行删除,得到更新后的本地样本数据(数量为m),以及更新后的待入库样本数据(数量为n-2m)。
[0104]
如此,通过在本轮目标数量的待入库样本数据的数据质量指标,小于或等于本轮目标数量的本地样本数据的数据质量指标的情况下,将本轮目标数量的待入库样本数据进行删除,可以避免未达到当前本地样本数据的数据质量指标的样本数据存入本地样本数据,导致本地样本数据的数据质量变差。
[0105]
一种可能的实施例,为了确定样本数据的数据质量指标。本技术的数据处理方法还可以具体包括下述s1-s2。
[0106]
s1、边缘节点确定样本数据的多种类型的评价指标得分以及对应的权重。
[0107]
其中,评价指标得分可以包括数据完整性得分、数据规范性得分、数据准确性得分等。多种类型的评价指标得分对应的权重可以根据需要设置。例如,可以为1/3。
[0108]
作为一种可能的实现方式,边缘节点可以根据样本数据中的空值数据的占比确定数据完整性得分,根据样本数据中的格式错误数据的占比确定数据规范性得分,根据样本数据中的超过阈值范围数据的占比确定数据规范性得分。
[0109]
例如,在样本数据中的空值数据的占比为0的情况下,边缘节点可以确定数据完整性得分为100。在样本数据中的空值数据的占比小于5%的情况下,边缘节点可以确定数据完整性得分为90。在样本数据中的空值数据的占比处于5%-20%的情况下,边缘节点可以确定数据完整性得分为60在样本数据中的空值数据的占比大于20%的情况下,边缘节点可以确定数据完整性得分为0。
[0110]
例如,在样本数据中的格式错误数据的占比为0的情况下,边缘节点可以确定数据规范性得分为100。在样本数据中的格式错误数据的占比小于5%的情况下,边缘节点可以确定数据规范性得分为90。在样本数据中的格式错误数据的占比处于5%-20%的情况下,边缘节点可以确定数据规范性得分为60在样本数据中的格式错误数据的占比大于20%的情况下,边缘节点可以确定数据规范性得分为0。
[0111]
例如,在样本数据中的超过阈值范围数据的占比为0的情况下,边缘节点可以确定数据准确性得分为100。在样本数据中的超过阈值范围数据的占比小于5%的情况下,边缘节点可以确定数据准确性得分为90。在样本数据中的超过阈值范围数据的占比处于5%-20%的情况下,边缘节点可以确定数据准确性得分为60。在样本数据中的超过阈值范围数据大于20%的情况下,边缘节点可以确定数据准确性得分为0。
[0112]
s2、边缘节点根据每种类型的评价指标权重,对多种类型的评价指标得分进行加权处理,得到样本数据的数据质量指标。
[0113]
作为一种可能的实现方式,边缘节点可以对多种类型的评价指标得分进行加权求和,得到样本数据的数据质量指标。
[0114]
例如,确定装置可以根据以下公式一对多种类型的评价指标得分进行加权求和,得到样本数据的数据质量指标。
[0115]
p=w1*p1+w2*p2+w3*p3公式一
[0116]
其中,p表示样本数据的数据质量指标。p1表示数据完整性得分。p2表示数据规范性得分。p3表示数据准确性得分。w1表示数据完整性得分对应的权重。w2表示数据规范性得分对应的权重。w3表示数据准确性得分对应的权重。
[0117]
本技术上述实施例中的各个方案在不矛盾的前提下,均可以进行结合。
[0118]
本技术实施例可以根据上述方法示例对边缘节点进行功能模块或者功能单元的划分,例如,可以对应各个功能划分各个功能模块或者功能单元,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块或者功能单元的形式实现。其中,本技术实施例中对模块或者单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0119]
在采用对应各个功能划分各个功能模块的情况下,图6示出了一种数据处理装置的结构示意图,该数据处理装置可以为服务器,也可以为应用于服务器中的芯片,该数据处理装置可以用于执行上述实施例中涉及的对服务器的功能。图6所示的数据处理装置600可以包括:确定单元601、更新单元602、迭代单元603;确定单元601,用于确定本轮本地样本数据的总数量,以及本轮待入库样本数据的总数量;确定单元601,还用于在本轮本地样本数据的总数量大于第一阈值的情况下,确定本轮目标数量的待入库样本数据的数据质量指标,以及本轮目标数量的本地样本数据的数据质量指标;更新单元602,用于在本轮目标数量的待入库样本数据的数据质量指标,大于本轮目标数量的本地样本数据的数据质量指标的情况下,将本轮目标数量的待入库样本数据更新至本地样本数据,得到更新后的本地样本数据,以及更新后的待入库样本数据;迭代单元603,用于迭代上述步骤,直至遍历全部待入库样本数据;其中,在第1轮迭代中,本轮本地样本数据的总数量为本地样本数据的初始数量,本轮待入库样本数据的总数量为待入库样本数据的初始数量;在第i轮迭代中,本轮本地样本数据的总数量为第i-1轮迭代中更新后的本地样本数据的数量,本轮待入库样本数据的总数量为第i-1轮迭代中更新后的待入库样本数据的数量;i为大于1的整数。
[0120]
一种可能的设计中,若本轮本地样本数据的总数量小于或等于待入库样本数据的总数量,则本轮目标数量为本轮本地样本数据的总数量;若本轮本地样本数据的总数量大于本轮待入库样本数据的总数量,则本轮目标数量为本轮待入库样本数据的总数量。
[0121]
一种可能的设计中,更新单元602,还用于在本轮本地样本数据的总数量小于或等于第一阈值的情况下,将本轮待入库样本数据更新至本地样本数据。
[0122]
一种可能的设计中,更新单元602,还用于在本轮目标数量的待入库样本数据的数据质量指标,小于或等于本轮目标数量的本地样本数据的数据质量指标的情况下,将本轮目标数量的待入库样本数据进行删除,得到更新后的本地样本数据,以及更新后的待入库样本数据。
[0123]
一种可能的设计中,确定单元601,具体用于:确定样本数据的多种类型的评价指标得分以及对应的权重;根据每种类型的评价指标权重,对多种类型的评价指标得分进行加权处理,得到样本数据的数据质量指标。
[0124]
本技术实施例还提供了一种计算机可读存储介质。上述方法实施例中的全部或者部分流程可以由计算机程序来指令相关的硬件完成,该程序可存储于上述计算机可读存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。计算机可读存储介质可以是前述任一实施例的边缘节点(包括数据发送端和/或数据接收端)的内部存储单元,例如边
缘节点的硬盘或内存。上述计算机可读存储介质也可以是上述终端装置的外部存储设备,例如上述终端装置上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,上述计算机可读存储介质还可以既包括上述边缘节点的内部存储单元也包括外部存储设备。上述计算机可读存储介质用于存储上述计算机程序以及上述边缘节点所需的其他程序和数据。上述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
[0125]
需要说明的是,本技术的说明书、权利要求书及附图中的术语“第一”和“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0126]
应当理解,在本技术中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上,“至少两个(项)”是指两个或三个及三个以上,“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:只存在a,只存在b以及同时存在a和b三种情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
[0127]
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
[0128]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0129]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0130]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0131]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单
片机,芯片等)或处理器(processor)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0132]
以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何在本技术揭露的技术范围内的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。

技术特征:
1.一种数据处理方法,其特征在于,所述方法包括:确定本轮本地样本数据的总数量,以及本轮待入库样本数据的总数量;若所述本轮本地样本数据的总数量大于第一阈值,则确定本轮目标数量的所述待入库样本数据的数据质量指标,以及所述本轮目标数量的所述本地样本数据的数据质量指标;在所述本轮目标数量的所述待入库样本数据的数据质量指标,大于所述本轮目标数量的所述本地样本数据的数据质量指标的情况下,将所述本轮目标数量的所述待入库样本数据更新至所述本地样本数据,得到更新后的本地样本数据,以及更新后的待入库样本数据;迭代上述步骤,直至遍历全部所述待入库样本数据;其中,在第1轮迭代中,所述本轮本地样本数据的总数量为本地样本数据的初始数量,所述本轮待入库样本数据的总数量为待入库样本数据的初始数量;在第i轮迭代中,所述本轮本地样本数据的总数量为第i-1轮迭代中更新后的本地样本数据的数量,所述本轮待入库样本数据的总数量为第i-1轮迭代中更新后的待入库样本数据的数量;i为大于1的整数。2.根据权利要求1所述的方法,其特征在于,若所述本轮本地样本数据的总数量小于或等于所述待入库样本数据的总数量,则所述本轮目标数量为所述本轮本地样本数据的总数量;若所述本轮本地样本数据的总数量大于所述本轮待入库样本数据的总数量,则所述本轮目标数量为所述本轮待入库样本数据的总数量。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:若所述本轮本地样本数据的总数量小于或等于所述第一阈值,则将所述本轮待入库样本数据更新至所述本地样本数据。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:在所述本轮目标数量的所述待入库样本数据的数据质量指标,小于或等于所述本轮目标数量的所述本地样本数据的数据质量指标的情况下,将所述本轮目标数量的所述待入库样本数据进行删除,得到更新后的本地样本数据,以及更新后的待入库样本数据。5.根据权利要求1-4中任一项所述的方法,其特征在于,所述确定样本数据的数据质量指标,包括:确定所述样本数据的多种类型的评价指标得分以及对应的权重;根据每种类型的评价指标权重,对所述多种类型的评价指标得分进行加权处理,得到所述样本数据的数据质量指标。6.一种数据处理装置,其特征在于,应用于边缘节点,所述装置包括:确定单元、更新单元、迭代单元;所述确定单元,用于确定本轮本地样本数据的总数量,以及本轮待入库样本数据的总数量;所述确定单元,还用于在所述本轮本地样本数据的总数量大于第一阈值的情况下,确定本轮目标数量的所述待入库样本数据的数据质量指标,以及所述本轮目标数量的所述本地样本数据的数据质量指标;所述更新单元,用于在所述本轮目标数量的所述待入库样本数据的数据质量指标,大于所述本轮目标数量的所述本地样本数据的数据质量指标的情况下,将所述本轮目标数量的所述待入库样本数据更新至所述本地样本数据,得到更新后的本地样本数据,以及更新
后的待入库样本数据;所述迭代单元,用于迭代上述步骤,直至遍历全部所述待入库样本数据;其中,在第1轮迭代中,所述本轮本地样本数据的总数量为本地样本数据的初始数量,所述本轮待入库样本数据的总数量为待入库样本数据的初始数量;在第i轮迭代中,所述本轮本地样本数据的总数量为第i-1轮迭代中更新后的本地样本数据的数量,所述本轮待入库样本数据的总数量为第i-1轮迭代中更新后的待入库样本数据的数量;i为大于1的整数。7.根据权利要求6所述的装置,其特征在于,若所述本轮本地样本数据的总数量小于或等于所述待入库样本数据的总数量,则所述本轮目标数量为所述本轮本地样本数据的总数量;若所述本轮本地样本数据的总数量大于所述本轮待入库样本数据的总数量,则所述本轮目标数量为所述本轮待入库样本数据的总数量。8.根据权利要求6所述的装置,其特征在于,所述更新单元,还用于在所述本轮本地样本数据的总数量小于或等于所述第一阈值的情况下,将所述本轮待入库样本数据更新至所述本地样本数据。9.根据权利要求6所述的装置,其特征在于,所述更新单元,还用于在所述本轮目标数量的所述待入库样本数据的数据质量指标,小于或等于所述本轮目标数量的所述本地样本数据的数据质量指标的情况下,将所述本轮目标数量的所述待入库样本数据进行删除,得到更新后的本地样本数据,以及更新后的待入库样本数据。10.根据权利要求6-9中任一项所述的装置,其特征在于,所述确定单元,具体用于:确定所述样本数据的多种类型的评价指标得分以及对应的权重;根据每种类型的评价指标权重,对所述多种类型的评价指标得分进行加权处理,得到所述样本数据的数据质量指标。11.一种计算机可读存储介质,其特征在于,所述可读存储介质中存储有指令,当所述指令被执行时,实现如权利要求1-5中任一项所述的方法。12.一种数据处理装置,其特征在于,包括:处理器、用于存储所述处理器可执行的指令的存储器;其中,所述处理器被配置为执行指令,以实现所述权利要求1-5中任一项所述的方法。

技术总结
本申请公开了一种数据处理方法、装置及可读存储介质,涉及数据处理技术领域,用于优化边缘节点的样本数据质量。包括:确定本轮本地样本数据的总数量,以及本轮待入库样本数据的总数量;若本轮本地样本数据的总数量大于第一阈值,则确定本轮目标数量的待入库样本数据的数据质量指标,以及本轮目标数量的本地样本数据的数据质量指标;在本轮目标数量的待入库样本数据的数据质量指标,大于本轮目标数量的本地样本数据的数据质量指标的情况下,将本轮目标数量的待入库样本数据更新至本地样本数据,得到更新后的本地样本数据,以及更新后的待入库样本数据;迭代上述步骤直至遍历全部待入库样本数据。样本数据。样本数据。


技术研发人员:杨晓英 张呈宇 宋光敏
受保护的技术使用者:中国联合网络通信集团有限公司
技术研发日:2023.06.20
技术公布日:2023/9/20
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐