一种供应链数据湖建立方法、系统及存储介质与流程

未命名 07-14 阅读：127 评论：0

1.本技术涉及大数据互联网领域，尤其涉及一种供应链数据湖建立方法、系统及存储介质。

背景技术：

2.近年来，随着互联网的飞速发展，各行各业带来了众多挑战，尤其是供应链协同业务的发布与追踪系统，存在几个关键性问题：
3.(1)并发性与峰值问题。在供应链行业，流量高峰时常出现，瞬间的点击量可能达到数万甚至数十万，这就要求系统具备非常好的可扩展性以快速响应和处理每一次点击；
4.(2)如何实现对海量数据的实时分析。为了监控供应链链接周期物料状态，系统需要实时对用户的每一次操作数据进行分析，同时把相关数据传输到下游的环节；
5.(3)供应链的采购商和供应商操作的数据量在急剧增长，每天的业务日志数据在持续的产生和上传。曝光、点击、推送的数据在持续处理。每天新增的数据量已经在10-50tb左右，对整个数据处理系统提出了更高的要求。如何高效的完成对广告数据的离线/近实时统计，按照客户的维度要求进行聚合分析。
6.数据湖是一类存储数据自然/原始格式的系统或存储介质，通常是对象块或者文件。数据湖通常是企业中全量数据的单一存储。全量数据包括原始系统所产生的原始数据拷贝以及为了各类任务而产生的转换数据。各类任务包括报表、可视化、高级分析和机器学习。数据湖中包括来自于关系型数据库中的结构化数据(行和列)、半结构化数据(如csv、日志、xml、json)、非结构化数据(如email、文档、pdf等)和二进制数据(如图像、音频、视频)。数据沼泽是一种退化的、缺乏管理的数据湖，数据沼泽对于用户来说要么是不可访问的，要么是无法提供足够的价值。数据湖是一个集中式存储库，允许以任意规模存储所有结构化和非结构化数据。可以按原样存储数据(无需对数据进行结构化处理)，并运行不同类型的分析。从控制面板和可视化到大数据处理、实时分析和机器学习，以指导作出更好的决策。
7.目前已经存在一些关于数据湖的专利，例如cn113362006a智慧供应链物流大数据ai管理平台。该专利重点注重架构方法和管理，但是没有就如何建立数据湖的数据采集、数据模型搭建以及数据入湖标准等详细方案进行分析和描述，缺少数据地基操作和数据入数据湖过程创新。

技术实现要素：

8.为了解决上述技术缺陷之一，本技术实施例中提供了一种供应链数据湖建立方法、系统及存储介质。
9.根据本技术实施例的第一个方面，提供了一种供应链数据湖建立方法，所述方法包括：
10.对供应链数据进行摸底，确定供应链数据形态；
11.根据供应链数据形态对供应链数据进行采集；
12.将采集的供应链数据进行数据清洗；
13.将清洗后的数据落库至存储设备中。
14.根据本技术实施例的第二个方面，提供了一种供应链数据湖建立系统，包括：
15.存储器；
16.处理器；以及
17.计算机程序；
18.其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如本技术实施例第一方面所述的方法。
19.根据本技术实施例的第三个方面，提供了一种计算机可读存储介质，其上存储有计算机程序；所述计算机程序被处理器执行以实现如本技术实施例第一方面所述的方法。
20.采用本技术实施例中提供的供应链数据湖建立方法，建立供应链全生命周期的数据存储，建立统一的数据模型，数据规范，数据标准，从而成为数据湖，进而以数据挖掘价值，支撑实际的应用。本技术针对供应链协同的全流程产生的行为数据进行集中存储，从而达到数据集中管理，而非业务耦合，打通数据存储一体化，从而形成资产数据化，数据资产化，进而企业能完全把控供应链数据的管理权，主动权，使用权。
附图说明
21.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
22.图1为本技术实施例1所述的一种供应链数据湖建立方法的流程示意图；
23.图2为本技术实施例1所述的供应链数据采集的原理示意图。
具体实施方式
24.为了使本技术实施例中的技术方案及优点更加清楚明白，以下结合附图对本技术的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本技术的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。
25.实施例1
26.图1为本技术实施例1所述的一种供应链数据湖建立方法的流程示意图。如图1所示，本实施例提供了一种供应链数据湖建立方法，该方法包括：
27.s101、对供应链数据进行摸底，确定供应链数据形态；
28.s102、根据供应链数据形态对供应链数据进行采集；
29.s103、将采集的供应链数据进行数据清洗；
30.s104、将清洗后的数据落库至存储设备中。
31.具体的，本实施例所提出的供应链数据湖建立方法涉及供应链数据的采集、存储、转换、清洗及再存储等过程。供应链数据的形态包括数据来源、数据类型、数据总量、数据增量、数据形态、数据模式等。本实施例通过供应链数据的数据形态对供应链数据进行采集，分别为用户行为日志采集、企业数据库直连采集和企业接口对接采集，如图2所示。图2为本技术实施例1所述的供应链数据采集的原理示意图，图2中的传输协议支持：restful
(json)，xml，rpc，sdk(jar)。
32.用户行为日志采集：将供应链数据通过文件的方式采集(如xxx.log、xxx.txt等)。文件经过nginx收集到nginx-yyyy-mm-dd-hhmmss-xxx.log日志中。通过flume collection对nginx-yyyy-mm-dd-hhmmss-xxx.log日志中的供应链数据进行合并处理，然后input进入kafka中。通过flume进入大数据计算清洗层，最终落库到存储设备中。其中，非结构化数据进入分布式文件系统(如minio、hdfs、fastdfs、oss等)，结构化数据进入mysql的集群版tidb。
33.企业数据库直连：确认好源端和目标端的数据源的用户名密码等连接相关信息，以mysql为例，开启mysql的操作日志和备份，配置canal集群读取源端的数据库的binlog进行数据库日志解析，同时输入数据到kafka中。如果是实时数据，输入flink中进行清洗，实时的计算数据进入kafka输出到clickhouse。非实时数据进入hdfs中进行清洗。最终进入存储设备。其中，非结构化数据进入分布式文件系统(如minio、hdfs、fastdfs、oss等)，结构化数据进入mysql的集群版tidb。
34.企业接口对接：以restful的http+json格式的接口为例。又分为两种方式：拉和推。其中拉的方式是通过httpclient的方式调用现有的接口进行解析，然后通过响应的接口进行入库mysql数据库中或者形成数据文件。再将数据文件进行合并处理，并将处理后的数据输入至kafka。kafka输出的数据通过flume进行用户行为收集获得待清洗的数据。推的方式需要数据采集工程师提供接口，同时标注出需要第三方填报的参数，填报的方式也可采用程序自动填报或手动填报两种方式。然后第三方工程师可通过接口进行推送数据，进入kafka消息中间件中清洗。从而将最终的数据进入存储设备。其中，非结构化数据进入分布式文件系统(如minio、hdfs、fastdfs、oss等)，结构化数据进入mysql的集群版tidb。
35.在通过上述方式对供应链数据进行采集之后，对采集的数据进行清洗。本实施例提供以下清洗算法：
36.(1)数据完整性算法
37.采用数据补全的方案，通过其他信息补全。例如通过身份证号码推算性别、籍贯、出生日期、年龄等。其中时间序列缺失的可通过日期的格式，如yyyy-mm-dd,hh:mm:ss的格式进行补全。
38.(2)数据唯一性算法
39.去人主键，删除重复。供应链实际业务环节中，以供应商或者采购商的手机号为唯一识别。采购包id、采购单位统一社会信用代码，可以使用编写sql(spark也可以通过sql)的方式去重。不同渠道的客户数据，可以通过相同的关键信息进行匹配，合并去重。
40.(3)数据准确性算法
41.对不同渠道数据进行分类，如有总部采集、分公司上报、手动填报等，优先选择程序推送干预较少的数据。
42.(4)数据规范化算法
43.建立数据模型标准，可以通过正则或者范围的判断，如字段内容合法规则：性别in(男、女、未知)，订单日期＜＝今天。
44.(5)数据一致性算法
45.通过数据分组、分类、统一口径，确定统一的数据源。规定数据采集时间、数据统一
单位、数据统一度量指标。
46.本实施例还提供完善的权限管理，粒度包括“库-表”。权限可以控制细分为数据资源目录访问权限和底层数据访问权限，分别对应元数据与实际存储的数据。实际存储数据权限为数据存储权限和数据存储访问权限，以centos为例可以控制linux的目录的读写权限。
47.此外，本实施例所提出的供应链数据湖建立方法中的计算形式是各类批处理模式的etl任务，具体可以分为手动触发、定时触发、事件触发和批处理四种。可以通过elasticjob定时任务调用接口，触发采集程序进行分布式定时任务操作。
48.本实施例提供的供应链数据湖建立方法，建立供应链全生命周期的数据存储，建立统一的数据模型，数据规范，数据标准，从而成为数据湖，进而以数据挖掘价值，支撑实际的应用。本技术针对供应链协同的全流程产生的行为数据进行集中存储，从而达到数据集中管理，而非业务耦合，打通数据存储一体化，从而形成资产数据化，数据资产化，进而企业能完全把控供应链数据的管理权，主动权，使用权。
49.实施例2
50.对应实施例1，本实施例提出一种供应链数据湖建立系统，该供应链数据湖建立系统包括：
51.存储器；
52.处理器；以及
53.计算机程序；
54.其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现一种供应链数据湖建立方法。该供应链数据湖建立方法可参照实施例1所记载的内容，本实施例不再进行赘述。
55.实施例3
56.本实施例提出一种计算机可读存储介质，其上存储有计算机程序；所述计算机程序被处理器执行以实现一种供应链数据湖建立方法。该供应链数据湖建立方法可参照实施例1所记载的内容，本实施例不再进行赘述。
57.本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本技术实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言java和直译式脚本语言javascript等。
58.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
59.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特
定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
60.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
61.在本技术的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本技术和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本技术的限制。
62.此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本技术的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。
63.在本技术中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接或可以互相通讯；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本技术中的具体含义。
64.尽管已描述了本技术的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
65.显然，本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样，倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内，则本技术也意图包含这些改动和变型在内。

技术特征：
1.一种供应链数据湖建立方法，其特征在于，所述方法包括：对供应链数据进行摸底，确定供应链数据形态；根据供应链数据形态对供应链数据进行采集；将采集的供应链数据进行数据清洗；将清洗后的数据落库至存储设备中。2.根据权利要求1所述的方法，其特征在于，所述供应链数据类型为用户行为日志，所述根据供应链数据形态对供应链数据进行采集的过程包括：将供应链数据通过nginx收集到nginx-yyyy-mm-dd-hhmmss-xxx.log日志中；通过flume collection对nginx-yyyy-mm-dd-hhmmss-xxx.log日志中的供应链数据进行合并处理，并将处理后的数据输入至kafka；kafka输出的数据通过flume进行用户行为收集获得待清洗的数据。3.根据权利要求1所述的方法，其特征在于，所述供应链数据类型为企业数据库直连，所述根据供应链数据形态对供应链数据进行采集的过程包括：确认源端和目标端的数据源信息，开启数据库的操作日志和备份；配置canal集群读取源端的数据库的日志进行数据库日志解析；解析后的数据为实时数据时，通过kafka将解析后的数据输入至flink，解析后的数据为非实时数据时，通过kafka将解析后的数据输入至hdfs，所述hdfs为hadoop的分布式文件存储系统。4.根据权利要求1所述的方法，其特征在于，所述供应链数据类型为企业接口对接，所述根据供应链数据形态对供应链数据进行采集的过程包括：调用现有的企业接口进行解析，通过响应的接口将供应链数据入库或形成数据文件；对数据文件进行合并处理，并将处理后的数据输入至kafka；kafka输出的数据通过flume进行用户行为收集获得待清洗的数据。5.根据权利要求1所述的方法，其特征在于，所述供应链数据类型为企业接口对接，所述根据供应链数据形态对供应链数据进行采集的过程包括：数据采集人员提供接口；第三方人员通过数据采集人员提供的接口推送供应链数据；供应链数据通过kafka输入至hdfs。6.根据权利要求1所述的方法，其特征在于，所述将采集的供应链数据进行数据清洗的过程包括：通过数据补全方式对供应链数据中的信息进行补全处理。7.根据权利要求1所述的方法，其特征在于，所述将采集的供应链数据进行数据清洗的过程包括：确认主键；根据主键对供应链数据中的重复数据进行去重处理。8.根据权利要求1所述的方法，其特征在于，所述将采集的供应链数据进行数据清洗的过程包括：对供应链数据根据渠道进行分类。9.根据权利要求1所述的方法，其特征在于，所述将采集的供应链数据进行数据清洗的
过程包括：建立数据模型标准；根据所述数据模型标准判断所述供应链数据中数据规则。10.根据权利要求1所述的方法，其特征在于，所述将采集的供应链数据进行数据清洗的过程包括：对所述供应链数据根据统一的规则进行数据分组。11.根据权利要求1所述的方法，其特征在于，所述方法还包括：建立权限管理，所述权限包括数据资源目录访问权限和底层数据访问权限，所述数据资源目录访问权限对应采集的供应链数据，所述底层数据访问权限对应落库至存储设备中的清洗后的数据。12.根据权利要求1所述的方法，其特征在于，所述方法还包括：设定采集供应链数据的触发模式，所述触发模式为手动触发、定时触发、事件触发或批处理。13.一种供应链数据湖建立系统，其特征在于，包括：存储器；处理器；以及计算机程序；其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1至12任一项所述的方法。14.一种计算机可读存储介质，其特征在于，其上存储有计算机程序；所述计算机程序被处理器执行以实现如权利要求1至12任一项所述的方法。

技术总结
本申请实施例提供一种供应链数据湖建立方法、系统及存储介质。所述方法包括：对供应链数据进行摸底，确定供应链数据形态；根据供应链数据形态对供应链数据进行采集；将采集的供应链数据进行数据清洗；将清洗后的数据落库至存储设备中。采用本申请实施例中提供的供应链数据湖建立方法，建立供应链全生命周期的数据存储，建立统一的数据模型，数据规范，数据标准，从而成为数据湖，进而以数据挖掘价值，支撑实际的应用。本申请针对供应链协同的全流程产生的行为数据进行集中存储，从而达到数据集中管理，而非业务耦合，打通数据存储一体化，从而形成资产数据化，数据资产化，进而企业能完全把控供应链数据的管理权，主动权，使用权。使用权。使用权。

技术研发人员：朱雄琪肖洋
受保护的技术使用者：中车信息技术有限公司
技术研发日：2021.12.30
技术公布日：2023/7/13

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

一种供应链数据湖建立方法、系统及存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种供应链数据湖建立方法、系统及存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表