一种数据处理方法、装置、设备及介质与流程

未命名 08-15 阅读:113 评论:0


1.本发明涉及数据处理技术领域,尤其涉及一种数据处理方法、装置、设备及介质。


背景技术:

2.数据处理是对数据的采集、存储、检索、加工、变换和传输的过程。根据处理设备的结构方式、工作方式,以及数据的时间空间分布方式的不同,数据处理有多种不同的方式。
3.授权公告号为cn115685948a的中国专利公开了一种数据处理方法、装置、设备及介质。该发明通过基于预先生成的目标筛选策略所包括的多个数据筛选维度,获取各个数据筛选维度所对应的筛选参数,从而基于多个数据筛选维度以及各个数据筛选维度所对应的筛选参数,从目标数据库中获取多个待处理数据集,进而基于多个待处理数据集,通过目标数据处理模型,生成包括多个数据节点的目标控制图,无需用户手动查找需要分析的数据,操作简便,提高了数据筛选效率。
4.但是上述已公开方案存在如下不足之处:数据处理模型及处理方法固定,无法针对不同类型、不同规模、不同特征的数据进行区分处理,容易影响数据处理的效果和效率,往往只能运用在特定场合和领域,使用局限性较大。


技术实现要素:

5.本发明目的是针对背景技术中存在的不能针对不同类型、不同规模、不同特征的数据进行区分处理的问题,提出一种数据处理方法、装置、设备及介质。
6.一方面,本发明提出一种数据处理方法,包括以下步骤:
7.s1、收集数据;
8.s2、判断数据特征features(x),
9.,x是一个n维样本数据组成的矩阵,其中第i个样本的j个特征值为x(i,j),表示平均值,med(x)表示中位数,std(x)表示数据的离散程度,cv(x)表示数据的变异系数,min(x)和max(x)分别表示最小值和最大值,q1(x)、q2(x)和q3(x)分别表示数据的上四分位数、中位数和下四分位数,range(x)表示极差,skewness(x)表示数据分布的不对称程度,kurtosis(x)表示数据分布的平顶程度,y(x)表示数据的初步类型判断,y(x)由使用者人为输入,features(x)为上述多个指标的列表;
10.s3、根据y(x)的情况,选择合适的数据特征指标,根据不同的判断指标判断数据类型、规模和特征;
11.s4、根据s3中判断出的数据类型、规模和特征,选取不同的数据处理方式;
12.s5、数据处理的可视化展示。
13.优选的,s1中,收集数据方式有手动输入数据和自动采集上传数据。
14.优选的,s2中,y(x)包括分类数据,数值型数据,数据分布偏斜,小样本数据,大样本数据,模型评估效果预测数据和数据相关性。
15.优选的,y(x)为分类数据时,features(x)的判断特征采用频率和百分比,频率直接统计即可不需要计算公式;y(x)为数值型数据时,features(x)的判断特征采用平均值和中位数;y(x)为分数据分布偏斜时,features(x)的判断特征采用中位数、上四分位数、中位数、下四分位数和不对称程度;y(x)为小样本数据时,features(x)的判断特征采用极差、中位数、最小值和最大值;y(x)为大样本数据时,features(x)的判断特征采用中位数、离散程度、变异系数和平顶程度。
16.优选的,s3中,数据类型、规模和特征包括结构化数据、半结构化数据、非结构化数据和大数据。
17.优选的,结构化数据使用sql语句进行查询、筛选、计算和分析,或者使用数据仓库进行olap多维分析;半结构化数据使用nosql数据库进行处理;非结构化数据使用自然语言处理、图像识别、机器学习技术进行处理和分析;大数据使用分布式计算、批处理、流式处理技术进行处理和分析。
18.另一方面,本发明提出一种数据处理装置,包括数据采集单元、初步类型输入单元、数据特征判断单元、数据处理单元和可视化单元;数据采集单元用来收集数据;初步类型输入单元用来输入数据的初步判断类型;数据特征判断单元用来根据输入的初步判断类型选择合适的判断特征,输出数据类型、规模和特征;数据处理单元根据数据类型、规模和特征,选择对应的处理方式对数据进行处理;可视化单元展示数据的处理结果。
19.再一方面,本发明提出一种计算机设备以及计算机可读存储介质,计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,计算机可读存储介质上存储有程序,程序被处理器执行。
20.与现有技术相比,本发明具有如下有益的技术效果:不同的使用目的,使用领域下,y(x)的值不同,根据y(x)的值即可快速确定采用的判断特征,从而快速判断出数据的类型,便于后续选择最合适的处理方式进行处理,有助于提高数据处理的效果和效率,能适用于不同领域,使用范围广。
附图说明
21.图1为本发明一种实施例的工作流程图;
22.图2为本发明提出的数据处理装置的结构示意图;
23.图3为本发明提出的计算机设备的结构示意图。
具体实施方式
24.实施例一
25.如图1所示,本发明提出的一种数据处理方法,包括以下步骤:
26.s1、收集数据,收集数据方式有手动输入数据和自动采集上传数据;
27.s2、判断数据特征features(x),
28.,x是一个n维样本数据组成的矩阵,其中第i个样本的j个特征值为x(i,j),表示平均值,med(x)表示中位数,std(x)表示数据的离散程度,cv(x)表示数据的变异系数,min(x)和max(x)分别表示最小值和最大值,q1(x)、q2(x)和q3(x)分别表示数据的上四分位数、中位数和下四分位数,range(x)表示极差,skewness(x)表示数据分布的不对称程度,kurtosis(x)表示数据分布的平顶程度,y(x)表示数据的初步类型判断,y(x)由使用者人为输入,features(x)为上述多个指标的列表;
29.s3、根据y(x)的情况,选择合适的数据特征指标,根据不同的判断指标判断数据类型、规模和特征;
30.s4、根据s3中判断出的数据类型、规模和特征,选取不同的数据处理方式;
31.s5、数据处理的可视化展示。
32.本实施例中,不同的使用目的,使用领域下,y(x)的值不同,根据y(x)的值即可快速确定采用的判断特征,从而快速判断出数据的类型,便于后续选择最合适的处理方式进行处理,有助于提高数据处理的效果和效率,能适用于不同领域,使用范围广。
33.实施例二
34.本发明提出的一种数据处理方法,相较于实施例一,s2中,y(x)包括分类数据,数值型数据,数据分布偏斜,小样本数据,大样本数据,模型评估效果预测数据和数据相关性。y(x)为分类数据时,features(x)的判断特征采用频率和百分比,频率直接统计即可不需要计算公式;y(x)为数值型数据时,features(x)的判断特征采用平均值和中位数;y(x)为分数据分布偏斜时,features(x)的判断特征采用中位数、上四分位数、中位数、下四分位数和不对称程度;y(x)为小样本数据时,features(x)的判断特征采用极差、中位数、最小值和最大值;y(x)为大样本数据时,features(x)的判断特征采用中位数、离散程度、变异系数和平顶程度。
35.本实施例中,不同的使用目的,使用领域下,y(x)的值不同,根据y(x)的值即可快速确定采用的判断特征,从而快速判断出数据的类型,便于后续选择最合适的处理方式进行处理,有助于提高数据处理的效果和效率。
36.实施例三
37.本发明提出的一种数据处理方法,相较于实施例一,数据类型、规模和特征包括结构化数据、半结构化数据、非结构化数据和大数据。结构化数据使用sql语句进行查询、筛选、计算和分析,或者使用数据仓库进行olap多维分析;半结构化数据使用nosql数据库进行处理,适合处理数据量大、并发高和可扩展性要求强的场景;非结构化数据使用自然语言处理、图像识别、机器学习技术进行处理和分析,例如使用自然语言处理技术进行文本分类、情感分析、文本摘要等操作;大数据使用分布式计算、批处理、流式处理技术进行处理和分析,例如使用hadoop、spark等开源软件进行大数据处理和分析。
38.本实施例中,自适应数据处理方法可以根据数据的类型、规模、特征自动选择最合适的数据处理方法,提高数据处理的效率和精度。
39.实施例四
40.如图2所示,本发明提出的一种数据处理装置,包括数据采集单元、初步类型输入单元、数据特征判断单元、数据处理单元和可视化单元;数据采集单元用来收集数据;初步类型输入单元用来输入数据的初步判断类型;数据特征判断单元用来根据输入的初步判断类型选择合适的判断特征,输出数据类型、规模和特征;数据处理单元根据数据类型、规模和特征,选择对应的处理方式对数据进行处理;可视化单元展示数据的处理结果。
41.如图3所示,本发明提出的一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现s1-s5中所述的数据处理方法所执行的操作。
42.本发明提出的一种计算机可读存储介质,计算机可读存储介质上存储有程序,程序被处理器执行时,实现s1-s5中所述的数据处理方法所执行的操作。
43.本实施例中,通过计算机设备实现程序的运行,从而执行对应的程序并实现相应的目的。
44.上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于此,在所属技术领域的技术人员所具备的知识范围内,在不脱离本发明宗旨的前提下还可以作出各种变化。

技术特征:
1.一种数据处理方法,其特征在于,包括以下步骤:s1、收集数据;s2、判断数据特征features(x),,x是一个n维样本数据组成的矩阵,其中第i个样本的j个特征值为x(i,j),表示平均值,med(x)表示中位数,std(x)表示数据的离散程度,cv(x)表示数据的变异系数,min(x)和max(x)分别表示最小值和最大值,q1(x)、q2(x)和q3(x)分别表示数据的上四分位数、中位数和下四分位数,range(x)表示极差,skewness(x)表示数据分布的不对称程度,kurtosis(x)表示数据分布的平顶程度,y(x)表示数据的初步类型判断,y(x)由使用者人为输入,features(x)为上述多个指标的列表;s3、根据y(x)的情况,选择合适的数据特征指标,根据不同的判断指标判断数据类型、规模和特征;s4、根据s3中判断出的数据类型、规模和特征,选取不同的数据处理方式;s5、数据处理的可视化展示。2.根据权利要求1所述的数据处理方法,其特征在于,s1中,收集数据方式有手动输入数据和自动采集上传数据。3.根据权利要求1所述的数据处理方法,其特征在于,s2中,y(x)包括分类数据,数值型数据,数据分布偏斜,小样本数据,大样本数据,模型评估效果预测数据和数据相关性。4.根据权利要求3所述的数据处理方法,其特征在于,y(x)为分类数据时,features(x)的判断特征采用频率和百分比,频率直接统计即可不需要计算公式;y(x)为数值型数据时,features(x)的判断特征采用平均值和中位数;y(x)为分数据分布偏斜时,features(x)的判断特征采用中位数、上四分位数、中位数、下四分位数和不对称程度;y(x)为小样本数据时,features(x)的判断特征采用极差、中位数、最小值和最大值;y(x)为大样本数据时,features(x)的判断特征采用中位数、离散程度、变异系数和平顶程度。5.根据权利要求1所述的数据处理方法,其特征在于,s3中,数据类型、规模和特征包括结构化数据、半结构化数据、非结构化数据和大数据。6.根据权利要求5所述的数据处理方法,其特征在于,结构化数据使用sql语句进行查询、筛选、计算和分析,或者使用数据仓库进行olap多维分析;半结构化数据使用nosql数据库进行处理;非结构化数据使用自然语言处理、图像识别、机器学习技术进行处理和分析;大数据使用分布式计算、批处理、流式处理技术进行处理和分析。7.一种数据处理装置,其特征在于,包括数据采集单元、初步类型输入单元、数据特征判断单元、数据处理单元和可视化单元;数据采集单元用来收集数据;初步类型输入单元用来输入数据的初步判断类型;数据特征判断单元用来根据输入的初步判断类型选择合适的判断特征,输出数据类型、规模和特征;数据处理单元根据数据类型、规模和特征,选择对应的处理方式对数据进行处理;可视化单元展示数据的处理结果。8.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如权利要求1至7中任一项所述的数据
处理方法所执行的操作。9.一种计算机可读存储介质,其特征在于,计算机可读存储介质上存储有程序,程序被处理器执行时,实现如权利要求1至7中任一项所述的数据处理方法所执行的操作。

技术总结
本发明涉及数据处理领域,具体为一种数据处理方法、装置、设备及介质,其包括以下步骤:S1、收集数据;S2、判断数据特征Features(X);S3、根据Y(X)的情况,选择合适的数据特征指标,根据不同的判断指标判断数据类型、规模和特征;S4、根据S3中判断出的数据类型、规模和特征,选取不同的数据处理方式;S5、数据处理的可视化展示。本发明根据数据的初步类型判断即可快速确定采用的判断特征,从而快速判断出数据的类型,便于后续选择最合适的处理方式进行处理,有助于提高数据处理的效果和效率。有助于提高数据处理的效果和效率。有助于提高数据处理的效果和效率。


技术研发人员:许舒颜
受保护的技术使用者:安徽炽热信息技术有限公司
技术研发日:2023.05.11
技术公布日:2023/8/14
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐