锂电池成品检测数据资产构建方法与流程

未命名 08-15 阅读:118 评论:0
1.本发明涉及数据管理
技术领域
:,具体涉及一种锂电池成品检测数据资产构建方法。
背景技术
::2.随着电动汽车等新兴市场的快速发展,锂电池已经成为了能源领域的重要组成部分,在生产过程中,为了保证锂电池的品质和安全,需要进行成品检测。在锂电池成品多方位检测过程中,产生了大量的测试数据,数据被认为是一项重要的企业资产,能够给企业带来价值。在工业生产中,分析师可通过采购、生产、测试、销售等方式拥有并控制数据资源,并且可以通过加工数据、分析数据或提供数据来优化工业生产良品率。数据资源是能给工业生产为主体带来预期经济利益或产生服务潜力的资源,面对锂电池成品测试的不同测试步骤的数据及各种杂乱无章的指标参数,需要将其转换成有价值资产,通过分析和挖掘海量的数据,快速准确地检测出锂电池中的问题,提高生产效率和产品品质。3.数据资产管理是提升数据分析实用价值的重要指标,在构建数据资产时,需要从成品检测需求场景以及减少故障率目标出发,提供更快速找到数据,以及更方便维护资产信息的能力,同时为锂电池不同业务域的数据管理提供指引方向。而构建数据资产的应用场景可以概况为两类:4.(1)找数据:主要是数据分析业务人员,基于数仓加工好的数据进行分析、应用。面对杂乱无章的数据,需要数据技术人员先对数据进行分库分表存入mysql,大把时间花在整理字段上面,业务分析人员工作需要询问技术人员或者查看提供的数据库文档,有时候业务逻辑虽然正确,但是某条异常数据导致结果偏差,业务人员花很大精力解决技术上的问题,而且由于没有一个可视化数据资产工具,新来的业务分析人员又要重复这些步骤。5.为了解决不知道所需要数据在哪里,可以通过元数据管理atlas工具收集不同的库+表+字段信息,使用数据血缘关系发现表与表之间逻辑,比如公布号为cn111813796a的专利申请文献中提出的基于hive数据仓库的数据列级血缘处理方法。但atlas框架目前只能采集hive数据库,hive通常用于批量查询和大规模数据转换,它将查询转换为mapreduce或tez作业,并按照批量方式处理数据,查询性能相对较慢,不适合实时分析和交互式查询,而成品检测数据处理对数据处理时间要求比较严格。6.(2)管数据:主要是数据开发者,目标是让数据可以更安全地被更多人复用。但由于锂电池成品测试仪器种类多/数据复用低,当资产新增较多时,无法快速搜索想要的结果。技术实现要素:7.本发明所要解决的技术问题在于如何提供一种适应于锂电池成品检测数据的资产构建方法。8.本发明通过以下技术手段解决上述技术问题的:9.提出了一种锂电池成品检测数据资产构建方法,所述方法包括:10.采集锂电池成品测试数据;11.采用flink工具将所述测试数据写入hudi数据湖生成hudi数仓的同时同步到hive数据库,生成hive表,所述hive表与所述hudi数仓的表和字段属性同步;12.在所述hive表中新增字段及注释信息,生成所述hudi数仓同步到所述hive数据库的结果表;13.将所述hudi数仓中加工所述测试数据生成的表数据对应同步到所述结果表,生成所述测试数据的血缘关系;14.采用atlas工具记录所述测试数据的血缘关系。15.进一步地,所述在所述hive表中新增字段及注释信息,生成所述hudi数仓同步到所述hive数据库的结果表,包括:16.在所述hive表新增表注释、字段注释、字段以及hdfs地址,生成所述hudi数仓同步到所述hive数据库的结果表;17.其中,所述表注释为所述hudi数仓中数据表的注释,所述字段注释为所述hudi数仓中数据表的字段注释;18.所述字段包括hudi提交时间、hudi序列、hudi主键、hudi分区以及hudi文件名。19.进一步地,所述将所述hudi数仓中加工所述测试数据生成的表数据对应同步到所述结果表,生成所述测试数据的血缘关系,包括:20.将所述hudi数仓分层的加工sql转换成hive-sql;21.在所述hudi数仓中加工所述测试数据生成表数据,并根据hive-sql指定表数据同步到所述hive数据库的结果表,生成所述测试数据的血缘关系。22.进一步地,所述结果表为明细层的宽表。23.进一步地,在所述采用atlas工具记录所述测试数据的血缘关系之后,所述方法还包括:24.删除所述结果表中的数据。25.进一步地,在所述将所述hudi数仓中加工所述测试数据生成的表数据对应同步到所述结果表,生成所述测试数据的血缘关系之后,所述方法还包括:26.对存在关联的测试数据,建立数据血缘关系图;27.采用atlas工具记录所述数据血缘关系图,以用于追踪锂电池生产过程中各环节的测试数据。28.进一步地,所述方法还包括:29.在所述atlas工具中添加与锂电池成品测试流程对应的数据资产类型,所述数据资产类型包括原材料测试数据资产、电芯组装测试数据资产、成品测试数据资产以及电池组装测试数据资产。30.进一步地,在所述采用atlas工具记录所述测试数据的血缘关系之后,所述方法还包括:31.atlas工具开启consumer消费消息,基于所述测试数据的血缘关系确定参数索引的数据类型,并存储所述参数索引;32.对所述测试数据进行数据聚合处理,并汇集到es搜索引擎;33.采用基于es的数据检索技术按照所述参数索引,查询锂电池生产过程中各环节的测试数据。34.进一步地,在所述采集锂电池成品测试数据之后,所述方法还包括:35.对所述测试数据进行预处理,得到预处理后的数据;36.从所述预处理后的数据中提取与电池性能相关的参数作为特征数据,并基于所述特征数据进行资产构建。37.进一步地,所述方法还包括:38.根据个人工作台配置不同角色用户的工作空间;39.为不同的工作空间分配相应的权限,以用于根据用户的角色和权限来展示对应的数据资产视图。40.本发明的优点在于:41.(1)由于hive客户端加工表实时性差,不建议长期运行任务,不适用锂电池成品测试数据的处理,而在非hive数仓加工的表无法在atlas看到数据之间的血缘依赖关系,为了解决外部hudi数仓加工过程生成数据血缘展示,本发明建立hudi同步到hive的结果表,通过hive数仓一次性加工生成血缘后再正常在hudi数仓跑任务输出到hive结果表的方式,使得hudi数仓加工生成的表数据可以正常同步到hive表而且数据血缘依赖关系也可在atlas展示,适合于实时分析和交互式查询,能够实现较低的查询延迟,满足锂电池成品检测数据处理时间严格的要求。42.(2)通过建立相关联数据的数据血缘关系图,可实现对锂电池生产过程中各环节的数据血缘追踪,以便更好地了解数据的来源、变化和影响。43.(3)在数据查询时,针对锂电池成品测试数据的特点,优化数据索引和查询,选择合适的查询方式以提高查询效率,同时使用数据聚合功能,提前对数据进行汇总和分析,查询分析分钟以上维度可节省大量时间。44.本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。附图说明45.图1是本发明实施例提出的一种锂电池成品检测数据资产构建方法的流程示意图。具体实施方式46.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。47.如图1所示,本发明一实施例提出了一种锂电池成品检测数据资产构建方法,所述方法包括以下步骤:48.s10、采集锂电池成品测试数据;49.需要说明的是,锂电池成品测试数据包括但不限于生产线的传感器数据、各环节的温度、湿度等环境数据,以及锂电池的生产工艺数据等,可以通过物联网技术、传感器、仪器等手段进行采集,存储在云平台或本地数据库中。50.s20、采用flink工具将所述测试数据写入hudi数据湖生成hudi数仓的同时同步到hive数据库,生成hive表,所述hive表与所述hudi数仓的表属性和字段属性同步;51.需要说明的是,hudi数据湖和hive数据库中的数据都是基于hdfs分布式文件系统的,flink分布式文件系统将数据写入hudi数据湖的同时可以将元数据同步到hive数据库。52.s30、在所述hive表中新增字段及注释信息,生成所述hudi数仓同步到所述hive数据库的结果表;53.本实施例在将数据写入hudi数据湖的同时可以将元数据同步到hive数据库,在hive生成一模一样的数仓,hudi数仓中的hudi表与hive数仓中hive表的表属性、字段属性、表的注释和字段注释均同步,使得可以在atlas查看hudi数仓的元数据描述。54.s40、将所述hudi数仓中加工所述测试数据生成的表数据对应同步到所述结果表,生成所述测试数据的血缘关系;55.s50、采用atlas工具记录所述测试数据的血缘关系。56.由于锂电池成品检测数据的处理对时间要求比较严格,而hive数据库按照批量方式处理数据,查询性能相对较慢,并不适应锂电池成品检测数据的处理;hudi数据湖采用了基于列式存储的数据布局,并使用索引和元数据管理策略,可提供快速的增量查询性能,更适合于实时分析和交互式查询,能够实现较低的查询延迟,可满足锂电池成品检测数据处理对数据处理时间的严格要求;但atlas框架目前只能采集hive数据库,因此本实施例建立hudi同步到hive的结果表,通过hive数仓一次性加工生成血缘后再正常在hudi数仓跑任务输出到hive结果表的方式,使得hudi数仓加工生成的表数据可以正常同步到hive表而且数据血缘依赖关系也可在atlas展示,使得atlas可以管理hudi数仓数据,满足锂电池成品检测数据处理时间严格的要求。57.在一实施例中,所述步骤s20:采用flink工具将所述测试数据写入hudi数据湖生成hudi数仓的同时同步到hive数据库,生成hive表,所述hive表与所述hudi数仓的表属性和字段属性同步,具体实现过程为:58.将锂电池成品测试数据通过flink工具写入hudi数仓时,同步脚本设置:59.'hive_sync.enable'='true',60.'hive_sync.db'='数据库名',61.'hive_sync.table'='表名',62.'hive_sync.mode'='hms',63.'hive_sync.metastore.uris'='thrift://xxx.xxx.xx.xx:9083',64.如此即实现将hudi数仓中的hudi表的表属性和字段属性同步到hive数据库的hive表。65.在一实施例中,所述步骤s30:在所述hive表中新增字段及注释信息,生成所述hudi数仓同步到所述hive数据库的结果表,具体包括以下步骤:66.在所述hive表新增表注释、字段注释、字段以及hdfs地址,生成所述hudi数仓同步到所述hive数据库的结果表;67.其中,所述表注释为所述hudi数仓中数据表的注释,所述字段注释为所述hudi数仓中数据表的字段注释;68.所述字段包括hudi提交时间、hudi序列、hudi主键、hudi分区以及hudi文件名。69.具体地,本实施例对同步得到的hive表新增表注释和字段注释,实现过程如下:70.altertable`表名`settblproperties('comment'='表注释');altertable`表名`changecolumn`字段名``字段名`字段类型comment'字段注释';71.同时为后续hudi数仓加工时数据可以正常写入,对hive表新增字段如下:72.`_hoodie_commit_time`stringcomment'hudi提交时间',73.`_hoodie_commit_seqno`stringcomment'hudi序列',74.`_hoodie_record_key`stringcomment'hudi主键',75.`_hoodie_partition_path`stringcomment'hudi分区',76.`_hoodie_file_name`stringcomment'hudi文件名',77.由于hudi数据湖和hive数据库中的数据都是基于hdfs分布式文件系统的,在hive表中新增地址配置描述如下:78.comment'表描述'rowformatserde79.'org.apache.hadoop.hive.ql.io.parquet.serde.parquethiveserde'withserdeproperties('hoodie.query.as.ro.table'='false','path'='hdfs地址')storedasinputformat'org.apache.hudi.hadoop.hoodieparquetinputformat'outputformat'org.apache.hadoop.hive.ql.io.parquet.mapredparquetoutputformat'80.location'hdfs地址'。81.在一实施例中,所述步骤s40:在所述hive表中新增字段及注释信息,生成所述hudi数仓同步到所述hive数据库的结果表,包括以下步骤:82.s41、将所述hudi数仓分层的加工sql转换成hive-sql;83.s42、在所述hudi数仓中加工所述测试数据生成表数据,并根据hive-sql指定表数据同步到所述hive数据库的结果表,生成所述测试数据的血缘关系。84.需要说明的是,本实施例根据新建好的结果表,在hive客户端根据转换好的hive-sql指定对应的hudi表同步到hive的表一次性跑出结果,运行生成血缘,这样hudi数仓加工生成的表数据可以正常同步到hive表而且数据血缘也能在atlas展示。85.在一实施例中,所述结果表为明细层的宽表。86.需要说明的是,本实施例通过采用宽表作为结果表,用于下沉核心逻辑,收敛口径,实现统一指标口径,可提升开发效率。87.在一实施例中,在所述步骤s50:采用atlas工具记录所述测试数据的血缘关系之后,所述方法还包括以下步骤:88.删除所述结果表中的数据。89.需要说明的是,由于人工在hive建结果表配置列的值不是根据hudi程序自动生成,hive数据无法和hudi表进行映射,所以删除结果表中的数据,后续在hudi跑任务生成hive数据。90.进一步地,所述步骤s50:采用atlas工具记录所述测试数据的血缘关系的具体实现过程为:91.将锂电池成品测试数据存在mysql的元数据加载出来,封装成atlas定义好的数据模型存入hbase,然后利用solr构建好索引,就可以在页面上通过atlas查到hive元数据信息,元数据增量数据同步功能通过hive-hook脚本监听hive数据变化。92.在一实施例中,在所述步骤s40:将所述hudi数仓中加工所述测试数据生成的表数据对应同步到所述结果表,生成所述测试数据的血缘关系之后,所述方法还包括以下步骤:93.对存在关联的测试数据,建立数据血缘关系图;94.采用atlas工具记录所述数据血缘关系图,以用于追踪锂电池生产过程中各环节的测试数据。95.具体地,在锂电池行业中,数据资产之间的关系非常复杂,为了更好地追踪数据的流向和变化,本实施例针对测试数据之间的关联,实现定制化的数据血缘追踪。例如,对锂电池电性能测试和充放电测试采集到的数据建立数据血缘关系图。因为电性能测试和充放电电测存在先后关系,电池容量和电池电压等参数互相关联,atlas根据sql生成字段之间的关系血缘,根据血缘查询电池电压等参数可记录数据在整个测试过程中的来源和去向,以及数据在测试过程中的转化和加工过程,实现对锂电池生产过程中各环节的数据血缘追踪,以便更好地了解数据的来源、变化和影响。96.在一实施例中,所述方法还包括:97.在所述atlas工具中添加与锂电池成品测试流程对应的数据资产类型,所述数据资产类型包括原材料测试数据资产、电芯组装测试数据资产、成品测试数据资产以及电池组装测试数据资产。98.需要说明的是,本实施例可以通过扩展模型来添加新的数据资产类型,以适应锂电池测试的特殊需求,可在数据资产查看表中英文名称、负责人、业务描述、字段中英文、分区字段、字段处理逻辑、业务域、主题、标签层级。99.在一实施例中,在所述步骤s50:采用atlas工具记录所述测试数据的血缘关系之后,所述方法还包括以下步骤:100.atlas工具开启consumer消费消息,基于所述测试数据的血缘关系确定参数索引的数据类型,并存储所述参数索引;101.对所述测试数据进行数据聚合处理,并汇集到es搜索引擎;102.采用基于es的数据检索技术按照所述参数索引,查询锂电池生产过程中各环节的测试数据。103.在实际应用时,搜索功能是第一优先级的,至少要先让分析师直接找到对的历史测试数据。因为业务域划分、主题标签维护很难做到没有二义性,让分析师可以顺利筛选出目标数据。本实施例利用表的元数据信息是指可以给找数据的用户提高更加全面、准确的业务元数据、技术元数据等一系列的信息。104.数据检索方式包括基于业务域、主题、标签等层级筛选,表中英文、字段信息搜索。技术上引用了elasticsearch替代mysql作为搜索工具,es使用倒排索引技术来优化搜索速度,虽然空间消耗比较大,但是搜索性能提高十分显著。105.本实施例针对锂电池参数数据的特点,优化数据索引和查询,首先确定好需要参数索引的数据类型,并按照规定的格式存储数据,通过调整分片和副本的数量来优化查询性能。具体为:106.在锂电池测试业务中,如果需要查询测试结果中某个特定的参数值,可以使用term查询来精确匹配该参数值,从而快速定位到该测试结果。107.如果需要查询某个特定的关键词在测试结果中的出现情况,可以使用match查询来进行全文搜索,从而快速找到相关的测试结果。108.如果需要查询某个参数在一定范围内的测试结果,可以使用range查询来快速筛选出符合条件的测试结果。选择合适的查询方式可以提高查询效率。109.并且,本实施例使用数据聚合功能,提前对数据进行汇总和分析。例如:数据按照秒级别汇集到es中,可根据分钟聚合相应参数(聚合方式可采取中位数,平均数等),查询分析分钟以上维度可节省大量时间。110.在一实施例中,在所述步骤s10:采集锂电池成品测试数据之后,所述方法还包括以下步骤:111.对所述测试数据进行预处理,得到预处理后的数据;112.从所述预处理后的数据中提取与电池性能相关的参数作为特征数据,并基于所述特征数据进行资产构建。113.需要说明的是,本实施例在进行锂电池成品检测数据的处理之前,需要对采集到的数据进行预处理,以确保数据的质量和准确性。预处理的方法包括但不限于数据清洗、数据去噪、数据归一化等,同时可以对数据进行降维、特征提取等操作,以减少计算复杂度。114.具体为:115.(1)数据清洗:在锂电池行业的数据预处理中,由于市场上各家设备协议不统一/物联网信号不稳定,采集上来的设备数据脏数据比率大,因此根据数据质量判断去除数据中的异常值、重复值、错误值等无效数据,提高数据质量。116.(2)数据去噪:在锂电池行业的数据预处理中,很多技术参数需要去噪处理(电池容量:在实际使用过程中,电池容量受到多种因素的影响,如充放电速率、温度等,产生的噪声较大。循环寿命:循环寿命受到电池使用方式、充放电环境、充放电速率等多种因素的影响,产生的噪声较大。内阻:内阻受到电池充放电速率、温度、电化学反应等多种因素的影响,产生的噪声较大。充电效率:充电效率是衡量电池性能的重要指标之一,但充电效率受到电池充电方式、充电环境、充电速率等多种因素的影响,产生的噪声较大。)可以通过平滑算法等技术去除噪声,减小数据波动和误差,提高数据的可读性和分析结果的准确性。117.(3)数据归一化:在锂电池行业的数据预处理中,不同型号的电池容量单位不同,如mah、ah等。不同型号的电池循环寿命单位不同,如次数、小时等。不同型号的电池内阻单位不同,如mω、ω等。不同型号的电池充电效率单位不同,如%、ppm等。可以通过标准化、归一化等技术对数据进行归一化处理,将不同尺度的数据进行比较和分析。118.进一步地,在数据预处理完成后,需要对数据进行特征工程,即从原始数据中提取出有用的特征。特征工程是模型训练的重要步骤,直接影响模型的效果。在特征工程中可以采用多种方法,包括但不限于主成分分析(pca)等,以减少数据的冗余和噪声。119.具体地,从预处理后的数据中提取与电池性能相关的参数,例如电池容量、内阻等参数,使用sklearn中的pca类进行pca分析,并选择所需的主成分数。分析每个主成分对于数据的方差解释度,以确定需要保留多少个主成分,以保留足够的数据信息。从主成分中选择最相关的特征,例如电池容量和内阻等,用于锂电池性能预测。120.可解释性强:pca可以提取最相关的特征,这些特征可以被解释为对于锂电池性能的贡献,更易于对锂电池的性能分析和优化。121.可视化分析:pca可以将数据降维到二维或三维,这使得锂电池的性能特征可以在二维或三维平面上进行可视化分析。122.降噪能力强:pca具有很好的降噪能力,可以将数据中的噪声和不相关的特征过滤掉,提高锂电池性能预测的准确性。123.进一步地,数据从线上采集后整理到数据仓库,按照ods、dwd、dws、ads层建模(数据包括电学测试、机械测试、环境模拟等数据)。使用dolphinscheduler框架对接入的数据进行质量检查。数据质量任务的运行原理为spark程序调度自定义编辑的sql得到质量结果。124.具体地,对数据进行质量判断包括:唯一性校验:主要检测采集的设备字段结果只是否唯一,是否重复。完整性效验:判断结果字段是不是为null/空/乱码值。准确性效验:判断某字段结果值是否在设定的区间内。及时性效验:判断采集数据和写入数据是否符合设置的时间范围内,分为采集及时性和入库及时性。数据质量任务还包括单表检查、单表自定义sql检查、多表准确性以及两表值比对。125.本实施例通过进行数据质量检测,检测数据是否符号要求,保证所展示数据的准确性,在数据仓库的每层都可以进行检测,通常在ods层。126.应当理解的是,数据质量检测可以在数据血缘依赖关系生成之前或之后都可以进行,本实施例选择在数据血缘关系生成之间进行数据质量检测。127.在一实施例中,所述方法还包括以下步骤:128.根据个人工作台配置不同角色用户的工作空间;129.为不同的工作空间分配相应的权限,以用于根据用户的角色和权限来展示对应的数据资产视图。130.本实施例具体使用资产大盘按照不同角色的用户,提供从数据管理到分析师以及个人的资产视图,主要作用是客观描述资产现状,并且以资产指标评价体系,提供资产建设优化指引。具体实现步骤为:131.(1)定义角色和权限132.首先,需要定义系统中的角色和对应的权限,例如管理员、普通用户、数据分析师等。每个角色应该有不同的权限,可以访问不同的数据资产。133.(2)创建数据资产视图134.根据不同的角色权限,创建对应的数据资产视图。确定数据资产的来源,锂电池业务的数据资产来源包括静置测试、充放电测试、电性能测试等多个不同测试流程。确定数据资产的来源是创建数据资产视图的第一步,需要对锂电池业务数据资产进行全面的调研和收集。在完成数据资产的收集清洗后,可以开始创建数据资产视图。数据资产视图可以采用多种方式呈现,例如表格、图表、地图等。根据用户的需求,可以定制不同的视图,以便用户能够更好地理解和利用数据资产。135.(3)给数据资产分类和标记136.对所有的数据资产进行分类和标记,方便根据权限展示对应的数据资产视图。例如,可以将数据资产分为人工测试类、设备全自动测试类、设备半自动测试等,然后为每个数据资产打上对应的标记。137.(4)展示对应的数据资产视图138.当用户登录系统后,根据用户的角色和权限来展示对应的数据资产视图。例如,管理员可以看到所有的数据资产信息,普通用户只能看到自己的数据资产信息,数据分析师可以看到与分析相关的数据资产信息。139.(5)数据资产的查看、下载、分享等操作140.根据用户的权限,提供相应的数据资产操作功能。例如,管理员可以对数据资产进行查看、下载、分享等操作,普通用户只能对自己的数据资产进行查看和下载操作,数据分析师可以对与分析相关的数据资产进行查看和下载操作。141.(6)维护和更新142.随着系统的使用和业务的发展,角色和权限可能会有变化,需要及时维护和更新。例如,当新增一种角色或者调整某个角色的权限时,需要相应地更新系统中的角色和权限设置,并重新定义对应的数据资产视图。143.进一步地,资产指标评价体系具体包括:144.1)资产数量指标:资产总数(接入数据源信息,库表数量,不同数仓分层信息等)、新增数量(按照时/天统计新增数据量)。145.2)资源消耗指标:运行资源(使用脚本监控服务器的cpu/内存/硬盘空间等信息)、生产消耗计算资源(根据调度容器yarn上资源信息,统计当前使用和空闲cpu和内存信息)。146.3)质量指标:147.准确性:用正确的数据点数量除以总数据点数量计算。比如,锂电池电压结果有100条数据,其中90个是正确的,那么准确性就是90%。148.完整性:用数据点的完整性数量除以总数据点数量计算。比如,锂电池需要包含100个属性值,但只有80个属性提供完整的数据,那么完整性就是80%。149.一致性:用不同数据源之间的匹配数据点数量除以总数据点数量计算。比如,如果两个不同厂家的设备测试一个锂电池检查步骤,测出结果共有100个数据点,其中80个数据点是匹配的,那么一致性就是80%。150.可靠性:用数据点的可靠性数量除以总数据点数量计算。比如,锂电池做穿刺实验,根据已知测试条件和已知触发结果被验证了5次,其中4次是正确的,那么可靠性就是80%。151.元数据覆盖度占比:根据数据库表已有中文注释,字段类型,默认值,字段长度等元数据信息/总数据量。152.高耗时任务及列表:超过规定时间运行的任务和异常cpu/内存占比的任务。153.近90天无访问数:数据仓库中90天内无人查询的表或者字段。154.在本实施例中,可先根据个人工作台配置不同分析师的工作空间,管理员分配对应分析师需要用的业务域,数据层级,主题,所需的库+表+字段。在资产大盘查询分层信息和字段信息,使用数据血缘得到不同表之间的关系。查看自己管理资产的资产指标时,当前系统资源的使用情况来更好调度数据分析任务,使用搜索功能快速得到自己想要的信息。该方法应用于锂电池成品检测中,通过对电池容量、内阻、电压等方面进行检测和分析,提高产品的品质和生产效率,保证分析师在面对杂乱无章的测试数据找的到,找的对,找的快。155.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。156.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。157.尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。当前第1页12当前第1页12
技术特征:
1.一种锂电池成品检测数据资产构建方法,其特征在于,所述方法包括:采集锂电池成品测试数据;采用flink工具将所述测试数据写入hudi数据湖生成hudi数仓的同时同步到hive数据库,生成hive表,所述hive表与所述hudi数仓的表属性和字段属性同步;在所述hive表中新增字段及注释信息,生成所述hudi数仓同步到所述hive数据库的结果表;将所述hudi数仓中加工所述测试数据生成的表数据对应同步到所述结果表,生成所述测试数据的血缘关系;采用atlas工具记录所述测试数据的血缘关系。2.如权利要求1所述的锂电池成品检测数据资产构建方法,其特征在于,所述在所述hive表中新增字段及注释信息,生成所述hudi数仓同步到所述hive数据库的结果表,包括:在所述hive表新增表注释、字段注释、字段以及hdfs地址,生成所述hudi数仓同步到所述hive数据库的结果表;其中,所述表注释为所述hudi数仓中数据表的注释,所述字段注释为所述hudi数仓中数据表的字段注释;所述字段包括hudi提交时间、hudi序列、hudi主键、hudi分区以及hudi文件名。3.如权利要求1所述的锂电池成品检测数据资产构建方法,其特征在于,所述将所述hudi数仓中加工所述测试数据生成的表数据对应同步到所述结果表,生成所述测试数据的血缘关系,包括:将所述hudi数仓分层的加工sql转换成hive-sql;在所述hudi数仓中加工所述测试数据生成表数据,并根据hive-sql指定表数据同步到所述hive数据库的结果表,生成所述测试数据的血缘关系。4.如权利要求1所述的锂电池成品检测数据资产构建方法,其特征在于,所述结果表为明细层的宽表。5.如权利要求1所述的锂电池成品检测数据资产构建方法,其特征在于,在所述采用atlas工具记录所述测试数据的血缘关系之后,所述方法还包括:删除所述结果表中的数据。6.如权利要求1所述的锂电池成品检测数据资产构建方法,其特征在于,在所述将所述hudi数仓中加工所述测试数据生成的表数据对应同步到所述结果表,生成所述测试数据的血缘关系之后,所述方法还包括:对存在关联的测试数据,建立数据血缘关系图;采用atlas工具记录所述数据血缘关系图,以用于追踪锂电池生产过程中各环节的测试数据。7.如权利要求1所述的锂电池成品检测数据资产构建方法,其特征在于,所述方法还包括:在所述atlas工具中添加与锂电池成品测试流程对应的数据资产类型,所述数据资产类型包括原材料测试数据资产、电芯组装测试数据资产、成品测试数据资产以及电池组装测试数据资产。8.如权利要求1所述的锂电池成品检测数据资产构建方法,其特征在于,在所述采用
atlas工具记录所述测试数据的血缘关系之后,所述方法还包括:atlas工具开启consumer消费消息,基于所述测试数据的血缘关系确定参数索引的数据类型,并存储所述参数索引;对所述测试数据进行数据聚合处理,并汇集到es搜索引擎;采用基于es的数据检索技术按照所述参数索引,查询锂电池生产过程中各环节的测试数据。9.如权利要求1所述的锂电池成品检测数据资产构建方法,其特征在于,在所述采集锂电池成品测试数据之后,所述方法还包括:对所述测试数据进行预处理,得到预处理后的数据;从所述预处理后的数据中提取与电池性能相关的参数作为特征数据,并基于所述特征数据进行资产构建。10.如权利要求1~9任一项所述的锂电池成品检测数据资产构建方法,其特征在于,所述方法还包括:根据个人工作台配置不同角色用户的工作空间;为不同的工作空间分配相应的权限,以用于根据用户的角色和权限来展示对应的数据资产视图。

技术总结
本发明公开一种锂电池成品检测数据资产构建方法,包括采集锂电池成品测试数据;采用flink工具将所述测试数据写入Hudi数据湖生成Hudi数仓的同时同步到Hive数据库,生成Hive表,所述Hive表与所述Hudi数仓的表和字段属性同步;在所述Hive表中新增字段及注释信息,生成所述Hudi数仓同步到所述Hive数据库的结果表;将所述Hudi数仓中加工所述测试数据生成的表数据对应同步到所述结果表,生成所述测试数据的血缘关系;采用Atlas工具记录所述测试数据的血缘关系;本发明适合于实时分析和交互式查询,能够实现较低的查询延迟,满足锂电池成品检测数据处理时间严格的要求。品检测数据处理时间严格的要求。品检测数据处理时间严格的要求。


技术研发人员:徐永健 徐嘉文 李彬 丁时坤
受保护的技术使用者:合肥国轩高科动力能源有限公司
技术研发日:2023.05.16
技术公布日:2023/8/14
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐