一种基于数据分布中序关系的编码方法及系统与流程

未命名 08-29 阅读:123 评论:0


1.本发明涉及一种数据编码方法及系统,具体涉及一种基于数据分布中序关系的编码方法及系统,属于数据编码领域。


背景技术:

2.数据编码是计算机科学中一个非常重要的领域,主要涉及将数据转换为计算机可以处理的格式和表示方法,以便于存储、传输和处理。随着机器学习方法的发展,现有的数据中有许多类型需要进行编码后才可以被处理,例如,最常用的one-hot编码可以将分类数据编码为一些二元变量的组合,但是现有的one-hot编码在编码时会使数据维度爆炸,尤其是当分类变量有大量类别时,导致浪费计算和存储资源,以及计算效率下降的问题。


技术实现要素:

3.本发明为了解决现有的计算机编码在编码时会使数据维度爆炸,尤其是当分类变量有大量类别时,导致浪费计算和存储资源,以及计算效率下降的问题,进而提出了一种基于数据分布中序关系的编码方法及系统。
4.本发明采取的技术方案是:
5.它包括以下步骤:
6.s1、获取计算机的数据表,列举数据表中数据的所有离散属性;
7.s2、针对某个待编码的离散属性,根据当前离散属性值的数量获取当前离散属性对应的所有值对;
8.s3、计算当前离散属性每个值对中值之间的分布距离;
9.s4、遍历当前离散属性中的各值得到所有路径,计算每条路径上相邻值对间的距离总和,得到对应路径的距离,直至得到所有路径的距离,选取距离总和最小的路径为最短路径,得到最短路径距离;
10.s5、将最短路径的起始点编码为0,将起始点与第二个值的距离除以最短路径距离,加上0,得到起始点与第二个值的编码,再计算第二个值与第三个值的距离除以最短路径距离,加上起始点与第二个值的编码,得到第二个值与第三个值的编码,以此类推,得到最短路径的编码,完成s2中待编码的离散属性的编码。
11.进一步地,所述s3的具体过程为:
12.s31、根据当前离散属性的所有值对筛选s1中获取的数据表,得到每个值对中每个值对应的数据;
13.s32、基于每个值及其对应的数据,统计每个值除当前离散属性外的其他离散属性,再统计每个其他离散属性所有的值,得到所述每个值的所有离散属性,以及每个离散属性的所有值;
14.s33、基于s32中得到的每个值的每个离散属性的所有值,计算待编码的离散属性中每个值对中值的分布距离。
15.进一步地,所述s33具体过程为:
16.根据每个值的每个离散属性的所有值,计算每个值对中两个值各离散属性值的数量差,对所有数量差求和,得到对应值对中值的分布距离。
17.一种基于数据分布中序关系的编码系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如一种基于数据分布中序关系的编码方法的任一步骤。
18.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如一种基于数据分布中序关系的编码方法的任一步骤。
19.有益效果:
20.本发明针对计算机数据表的某个待编码的离散属性,获取当前离散属性对应的所有值对,采用每个值对中每个值的所有离散属性对应的值的分布计算当前离散属性各值对中值之间的分布距离;遍历当前离散属性中各值得到所有路径,在所有路径中选择距离最短的路径作为最短路径,得到最短路径距离;将最短路径的起始点编码为0,将起始点与第二个值的距离除以最短路径距离,加上0,得到起始点与第二个值的编码,再计算第二个值与第三个值的距离除以最短路径距离,加上起始点与第二个值的编码,得到第二个值与第三个值的编码,以此类推,得到最短路径的编码,完成待编码的离散属性的编码结果。本发明将离散属性编码为一个维度上的连续值,压缩了离散属性的表示维度,即使有很多个类别,也只需要一个实数值就可以表示,节约计算和存储资源,同时,计算效率也能因单个维度计算简单而得到提高。
附图说明
21.图1是本发明的流程图;
具体实施方式
22.具体实施方式一:结合图1说明本实施方式,本实施方式所述一种基于数据分布中序关系的编码方法,它包括以下步骤:
23.s1、获取计算机的数据表,列举数据表中数据的所有离散属性。
24.数据表中的所有数据都具有相同种类的属性,按照离散和连续可以将属性分成离散属性和连续属性,连续属性是具有连续数值的属性,例如长度,收入,身高等。离散属性则一般不使用连续数值存储,例如物品种类,颜色,国家等属性。
25.s2、针对某个待编码的离散属性,根据当前离散属性值的数量获取当前离散属性对应的所有值对。由于离散属性一般具有有限个取值,比如国家可能有两百多个值,即对应有两百多个国家名称,任意两个值作为一组值对。
26.s3、计算当前离散属性每个值对中值之间的分布距离,具体过程为:
27.s31、根据当前离散属性的所有值对筛选s1中获取的数据表,得到每个值对中每个值对应的数据。
28.比如,某个离散属性为国家,它包含的某个值对为国家a-国家b,则国家a和国家b就为此值对的两个值,针对每个值(国家a或国家b)需要获取当前值在数据表中对应的所有数据,数据为国家a对应的所有信息。以便于后续的计算。
29.s32、基于每个值及其对应的数据,统计每个值除当前离散属性外的其他离散属性,再统计每个其他离散属性所有的值,得到所述每个值的所有离散属性,以及每个离散属性的所有值。
30.针对国家a,根据国家a对应的数据,统计国家a除国家离散属性外的其他离散属性,其他离散属性包括颜色等,计算每个其他离散属性对应的值,比如,针对颜色,得到国家a所对应的所有颜色,每个颜色为一个值。
31.s33、基于s32中得到的每个值的每个离散属性的所有值,计算待编码的离散属性中每个值对中值的分布距离,具体过程为:
32.根据每个值的每个离散属性的所有值,计算每个值对中两个值各离散属性值的数量差,对所有数量差求和,得到对应值对中值的分布距离。
33.s3的最终目的是为了计算编码的代价,即衡量一个编码的好坏时所使用的局部的评价分数。
34.s4、遍历当前离散属性中的各值得到所有路径,计算每条路径上相邻值对间的距离总和,得到对应路径的距离,直至得到所有路径的距离,选取距离总和最小的路径为最短路径,得到最短路径距离。
35.s5、将最短路径的起始点编码为0,将起始点与第二个值的距离除以最短路径距离,加上0,得到起始点与第二个值的编码,再计算第二个值与第三个值的距离除以最短路径距离,加上起始点与第二个值的编码,得到第二个值与第三个值的编码,以此类推,得到最短路径的编码,即得到了待编码的离散属性的编码结果,完成了s2中待编码的离散属性的编码。编码结果是把每一个离散属性的值变成一个数值。此步骤的最终目的是通过局部的评价分数,选取最好的编码。
36.具体实施方式二:结合图1说明本实施方式,本实施方式所述一种基于数据分布中序关系的编码系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如一种基于数据分布中序关系的编码方法的任一步骤。
37.具体实施方式三:结合图1说明本实施方式,本实施方式所述一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如一种基于数据分布中序关系的编码方法的任一步骤。

技术特征:
1.一种基于数据分布中序关系的编码方法,其特征在于:它包括以下步骤:s1、获取计算机的数据表,列举数据表中数据的所有离散属性;s2、针对某个待编码的离散属性,根据当前离散属性值的数量获取当前离散属性对应的所有值对;s3、计算当前离散属性每个值对中值之间的分布距离;s4、遍历当前离散属性中的各值得到所有路径,计算每条路径上相邻值对间的距离总和,得到对应路径的距离,直至得到所有路径的距离,选取距离总和最小的路径为最短路径,得到最短路径距离;s5、将最短路径的起始点编码为0,将起始点与第二个值的距离除以最短路径距离,加上0,得到起始点与第二个值的编码,再计算第二个值与第三个值的距离除以最短路径距离,加上起始点与第二个值的编码,得到第二个值与第三个值的编码,以此类推,得到最短路径的编码,完成s2中待编码的离散属性的编码。2.根据权利要求1中所述的一种基于数据分布中序关系的编码方法,其特征在于:所述s3的具体过程为:s31、根据当前离散属性的所有值对筛选s1中获取的数据表,得到每个值对中每个值对应的数据;s32、基于每个值及其对应的数据,统计每个值除当前离散属性外的其他离散属性,再统计每个其他离散属性所有的值,得到所述每个值的所有离散属性,以及每个离散属性的所有值;s33、基于s32中得到的每个值的每个离散属性的所有值,计算待编码的离散属性中每个值对中值的分布距离。3.根据权利要求2中所述的一种基于数据分布中序关系的编码方法,其特征在于:所述s33具体过程为:根据每个值的每个离散属性的所有值,计算每个值对中两个值各离散属性值的数量差,对所有数量差求和,得到对应值对中值的分布距离。4.一种基于数据分布中序关系的编码系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1-3任一所述方法的步骤。5.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-3任一所述方法的步骤。

技术总结
一种基于数据分布中序关系的编码方法及系统,具体涉及一种基于数据分布中序关系的编码方法及系统,为解决现有的计算机编码在编码时会使数据维度爆炸,尤其是当分类变量有大量类别时,导致浪费计算和存储资源,以及计算效率下降的问题。针对计算机数据表某个待编码的离散属性,获取离散属性的所有值对,采用每个值对中每个值的所有离散属性值的分布计算离散属性各值对中值间的分布距离;遍历离散属性中各值得到所有路径,选择距离最短的路径为最短路径,得到最短路径距离;将最短路径的起始点编码为0,依次计算相邻两个值的距离除以最短路径距离,加上当前两个值之前的编码,得到最短路径的编码,完成待编码的离散属性的编码。属于数据编码领域。码。属于数据编码领域。码。属于数据编码领域。


技术研发人员:王宏志 舒畅 郑博 叶天生 丁小欧
受保护的技术使用者:北京诺司时空科技有限公司
技术研发日:2023.05.30
技术公布日:2023/8/28
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐