数据分析方法、装置、计算机设备和存储介质与流程
未命名
10-19
阅读:133
评论:0
1.本技术涉及通信领域,特别是涉及一种数据分析方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术:
2.随着移动通信网络不断发展,核心网网元吞吐数据的过程需要基于网络数据分析网元(network data analytics function,nwdaf)实现。
3.网络数据分析网元根据订阅事件,从数据源网元采集数据,并调用机器学习模型对采集到的数据进行推理分析,把推理结果推送给作为消费者的核心网网元。如果网络数据分析网元针对每个订阅事件都从数据源网元等设备采集数据,会使得数据源网元等设备产生过大压力。
技术实现要素:
4.基于此,有必要针对上述技术问题,提供一种能够缓解数据源网元等设备压力的数据分析方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
5.第一方面,本技术提供了一种数据分析的方法,应用于网络数据分析网元,所述方法包括:
6.获取订阅事件与原始数据;
7.根据所述订阅事件,获取机器学习模型与所述机器学习模型的数据预处理方案;
8.将所述原始数据按照所述数据预处理方案进行转换,得到特征数据;
9.将所述特征数据输入到所述机器学习模型进行预测,得到所述订阅事件的分析结果。
10.在其中一个实施例中,所述根据所述订阅事件,获取机器学习模型与所述机器学习模型的数据预处理方案,包括:
11.根据所述订阅事件所指示的模型信息,从模型训练模块中获取所述模型信息指示的机器学习模型;
12.按照所述模型信息,从所述模型训练模块中获取所述机器学习模型的数据预处理方案。
13.在其中一个实施例中,由所述模型训练模块执行所述机器学习模型的训练过程,所述模型训练模块将所述训练过程的数据预处理步骤,缓存为所述数据预处理方案。
14.在其中一个实施例中,所述数据预处理方案包括数据筛选方案、格式转换方案与数据规整方案中的至少一种方案;所述将所述原始数据按照所述数据预处理方案进行转换,得到特征数据,包括:
15.将所述原始数据按照所述数据筛选方案进行内容筛选,得到与所述机器学习模型内容匹配的特征数据;和/或,
16.按照所述格式转换方案对所述原始数据进行格式转换,得到与所述机器学习模型
格式匹配的特征数据;和/或,
17.按照所述数据规整方案对所述原始数据进行数据规整处理,得到与所述机器学习模型尺度匹配的特征数据。
18.在其中一个实施例中,所述获取订阅事件与原始数据,包括:
19.获取不同订阅事件,并从数据源网元获取原始数据;
20.其中,原始数据对应于所述不同订阅事件。
21.在其中一个实施例中,所述原始数据与所述机器学习模型的训练数据属于相同的数据类别,所述数据类别是基于核心网网元划分的,且所述数据类别是根据所述订阅事件确定的。
22.在其中一个实施例中,所述数据预处理方案基于所述机器学习模型的处理效率和指标确定。
23.第二方面,本技术还提供了一种数据分析装置,应用于网络数据分析网元,所述装置包括:
24.数据获取模块,用于获取订阅事件与原始数据;
25.方案获取模块,用于根据所述订阅事件,获取机器学习模型与所述机器学习模型的数据预处理方案;
26.特征转换模块,用于将所述原始数据按照所述数据预处理方案进行转换,得到特征数据;
27.分析模块,用于将所述特征数据输入到所述机器学习模型进行预测,得到所述订阅事件的分析结果。
28.第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任意实施例中数据分析的步骤。
29.第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意实施例中数据分析的步骤。
30.第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任意实施例中数据分析的步骤。
31.上述数据分析方法、装置、计算机设备、存储介质和计算机程序产品,订阅事件与原始数据之间并不是一一对应,为了使得每次获取的原始数据可供一个或多个订阅事件使用,通过订阅事件所指示的预处理方案进行转换,使得一份原始数据可转化为多个模型适配的输入数据,并进行推理分析,实现原始数据的复用。由此,针对各订阅事件进行推理的过程,获取原始数据的频率相对较少,数据源网元等设备的压力较小。
附图说明
32.图1为一个实施例中数据分析方法的应用环境图;
33.图2为一个实施例中数据分析方法的流程示意图;
34.图3为另一个实施例中数据分析方法的流程示意图;
35.图4为又一个实施例中数据分析方法的流程示意图;
36.图5为一个实施例中数据分析装置的结构框图;
37.图6为一个实施例中计算机设备的内部结构图。
具体实施方式
38.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
39.本技术实施例提供的数据分析方法,可以应用于如图1所示的应用环境中。网络数据分析网元104根据订阅所得的订阅事件,从数据源网元102存储数据中采集原始数据进行数据分析,以针对订阅事件生成相应的分析结果,该分析结果可反馈到消费者106,也可反馈到消费者106以外的设备。网络数据分析网元104与数据源网元102均是服务于消费者106的核心网网元。
40.其中,消费者106包括核心网网元,消费者106中的核心网网元所吞吐数据的数据类别可按照设备网络管理划分为性能、告警、配置、日志等大类,也可按照网络应用数据细化为业务、话务、信令等类别;而原始数据与消费者106所吞吐数据的数据类别相匹配。网络数据分析网元104从数据源网元102获取原始数据,通过对原始数据进行预处理及推理分析,以得到相应订阅事件的分析结果。各核心网网元可以是具体硬件设备,也可以是用于实现某一功能的软件模块,且各核心网网元可以属于5g领域,甚至可以属于6g领域。
41.在一个实施例中,如图2所示,提供了一种数据分析方法,该方法应用于图1中的网络数据分析网元104,包括以下步骤:
42.步骤202,获取订阅事件与原始数据。
43.订阅事件是由网络数据分析网元104订阅且接收到的事件。订阅事件针对机器学习模型相关的数据类别所发送,用于选择某机器学习模型进行该数据类别的数据进行预测分析,以得到该机器学习模型的分析结果;该机器学习模型的分析结果即是订阅事件的分析结果。
44.可选地,订阅事件可以是与机器学习模型相关,且属于性能问题、网络错误告警、配置安全威胁、日志异常或其他类型的通知。例如,订阅事件可以是订阅所得的请求失败事件,可以是订阅所得的数据库超时事件、也可以是订阅所得的某网元拒绝连接事件。
45.原始数据是订阅事件所指示机器学习模型的待转换输入数据。原始数据与订阅事件并不一一对应,且原始数据与机器学习模型也并不是一一对应的。可选地,原始数据是消费者106可进行吞吐的数据,其可以是消费者106的输入数据或输出数据。
46.可选地,待转换输入数据是可输入到机器学习模型的数据。其中,当某数据可直接输入到机器学习模型时,该数据是原始数据;当某数据进行预处理后,该数据的预处理结果可直接输入到机器学习模型时,该数据属于待转换输入数据。
47.可选地,可按照网络数据分析网元104自身订阅的事件类别,获取订阅事件与原始数据,而事件类别可以是消费者所吞吐的数据类别,也可以是针对该数据类别配合不同处理方式进一步细化所得的。
48.在一个实施例中,获取订阅事件与原始数据,包括:对数据源网元与消费者中的至少一种设备进行订阅;若获取到订阅事件,则从数据源网元采集原始数据;其中,消费者是
处理不同数据的核心网网元。由此,网络数据分析网元104可从不同设备获取订阅事件,且订阅事件的获取过程是获取原始数据的条件,以适应性调整数据源网元等设备的压力。
49.步骤204,根据订阅事件,获取机器学习模型与机器学习模型的数据预处理方案。
50.机器学习模型(machine learning model,ml)是预先训练好的模型。机器学习模型与订阅事件存在对应关系,该对应关系用于指示机器学习模型,且用于指示机器学习模型获取的执行过程。可选地,机器学习模型是由网络数据分析网元104进行调用而获取到的。
51.数据预处理方案基于机器学习模型的输入数据设定,用于针对该机器学习模型进行原始数据的转换过程,以使得转换所得的特征数据与机器学习模型的输入数据相匹配。可选地,数据预处理方案涉及内容、格式及缩放尺度等方面的数据预处理过程。
52.在一个实施例中,根据订阅事件,获取机器学习模型与机器学习模型的数据预处理方案,包括:获取订阅事件所指示的已训练机器学习模型;并获取订阅事件所指示的数据预处理方案;其中,已训练机器学习模型与数据预处理方案是一一对应的。
53.步骤206,将原始数据按照数据预处理方案进行转换,得到特征数据。
54.特征数据与机器学习模型的输入数据相匹配,且特征数据的内容属于原始数据的内容。特征数据是订阅事件所指示机器学习模型的候选输入数据。特征数据与订阅事件并不一一对应,且一份特征数据对应于一个机器学习模型,且一个机器学习模型可对应于不同的特征数据。可选地,特征数据的全部内容与原始数据的至少部分内容相同。
55.在一个实施例中,将原始数据按照数据预处理方案进行转换,包括:按照原始数据与机器学习模型的输入数据要求,确定原始数据的数据预处理子方案;通过数据预处理子方案,对原始数据进行转换;其中,输入数据要求,包括内容、格式和/或缩放尺度的要求。由此,基于原始数据从数据预处理方案中确定数据预处理子方案,以针对不同原始数据适应性选择数据预处理子方案,保障处理效率。
56.可选地,数据预处理子方案还可以包括:完整性与质量的预处理子方案,用于查找原始数据存在的缺失值、错误值或异常值,并就查找到的缺失值、错误值或异常值进行数据清洗,以提高处理效率。可选地,数据预处理子方案还可以包括:特征稀疏性与相关性的预处理子方案,以通过对数据分布进行调整,保障特征数据的类别识别准确度得以平衡,从而使得特征数据的稀疏性与特征数据内的相关性处于适度范围内,避免过度拟合,调高分析结果的准确性。
57.步骤208,将特征数据输入到机器学习模型进行预测,得到订阅事件的分析结果。
58.分析结果,包括机器学习模型对特征数据预测所得的预测值。分析结果可以是订阅事件的分析报告,需求该分析报告的消费者可就这一分析报告进行读取。例如:针对消费者属于不同核心网网元的情况,该分析结果可用于网络性能和效率的深入分析,以提高核心网网元的网络性能与带宽利用率;此外,该分析结果可用于网络故障检测,安全检测等方面。
59.可选地,将特征数据输入到机器学习模型,以按照机器学习模型训练所得的推理分析方式,对特征数据进行推理分析,得到特征数据的预测值;该预测值可作为订阅事件的分析结果。可选地,订阅事件的分析结果还可包括通过预测值绘制的图或表、预测值的可信度等信息,以降低订阅事件被多次触发的概率,使得数据源网元等设备的压力较小。
60.上述数据分析方法中,订阅事件与原始数据之间并不是一一对应,为了使得每次获取的原始数据可供一个或多个订阅事件使用,通过订阅事件所指示的预处理方案进行转换,使得一份原始数据可转化为多个模型适配的输入数据,并进行推理分析,实现原始数据的复用。由此,针对各订阅事件进行推理的过程,获取原始数据的频率相对较少,数据源网元等设备的压力较小。与之相对应的,原始数据采集的频次较少,不会重复占据网络数据分析网元的存储空间,可避免存储空间浪费的问题。而且,网络数据分析网元可从面对不同厂家的数据源网元获取原始数据,网络数据分析网元通过数据预处理方案,实现机器学习模型输入数据的规范化,扩大原始数据采集的选取范围。
61.在一个实施例中,获取订阅事件与原始数据,包括:获取不同订阅事件,并从数据源网元获取原始数据;其中,原始数据对应于不同订阅事件。
62.不同订阅事件,用于指示不同机器学习模型,以及各机器学习模型各自的数据预处理方案。不同订阅事件可以是网络数据分析网元针对不同核心网网元订阅所得,且可以是网络数据分析网针对同一核心网网元订阅的不同事件。
63.在一个可选地实施例中,获取不同订阅事件,并从数据源网元获取原始数据,包括:按照不同订阅事件所指示的数据类别、模型的训练数据所属数据类别或者核心网网元的数据类别,从数据源网元获取原始数据。
64.由此,针对网络数据分析网元获取到的不同订阅事件,可单独获取一份原始数据;通过这一份原始数据与不同订阅事件分别执行步骤204-208,以使得网络数据分析网元从数据源网元这一设备获取数据的频率有所降低,从而使得数据源网元的压力有所缓解。
65.在一个实施例中,阐述更准确地阐述原始数据的相关要素;原始数据与机器学习模型的训练数据属于相同的数据类别,数据类别是基于核心网网元划分的,且数据类别是根据订阅事件确定的。
66.训练数据,是机器学习模型在训练过程中的数据;训练数据包括训练样本和训练参数等数据;当机器学习模型的训练数据所属数据类别,是该机器学习模型能够预测的数据类别。本实施例并不涉及训练数据的应用过程,而是直接就训练数据的数据类别与原始数据的数据类别进行比较,以获取到相应的原始数据。
67.原始数据与训练数据并不一定是相同的,但是,二者属于同一数据类别,以使得数据预处理方案所转换的特征数据可直接输入到机器学习模型进行预测,以得到相应的分析结果。
68.可选地,数据类别是基于核心网网元划分的,其按照设备网络管理划分为性能、告警、配置、日志等大类,也可按照网络应用数据细化为业务、话务、信令等类别中。
69.可选地,数据预处理方案转换所得的特征数据属于数据类别,因而数据预处理方案并不会跨越数据类别进行分析,保障本实施例能够准确地进行。
70.在一个实施例方式中,若原始数据d属于a类话务数据,且a机器学习模型使用a类话务数据进行训练,则原始数据d在使用a机器学习模型的数据预处理方案进行转换后,输入到a机器学习模型进行推理分析。
71.基于此,原始数据与机器学习模型的训练数据属于相同的数据类别,使得原始数据在数据类别内的范围内,灵活选择,使得推理分析能够进行的概率得以增加;数据类别是基于核心网网元划分的,以针对于不同核心网网元设备所吞吐的数据进行适应性调整,保
障本实施例能够稳定地进行;数据类别是根据订阅事件确定的,以基于数据类别获取原始数据。
72.在一个实施例中,根据订阅事件,获取机器学习模型与机器学习模型的数据预处理方案,包括:根据订阅事件所指示的模型信息,从模型训练模块中获取模型信息指示的机器学习模型;按照模型信息,从模型训练模块中获取机器学习模型的数据预处理方案。
73.模型信息是订阅事件所指示的信息,用于确定某一个机器学习模型及这个机器学习模型的数据预处理方案。可选地,模型信息是按照某数据类别设定的,用于确定该数据类别的某个机器学习模型,以及这个机器学习模型的数据预处理方案。
74.模型训练模块用于对机器学习模型进行训练,且用于缓存训练完成的机器学习模型及该机器学习模型的数据预处理方案。通过模型训练模块,对机器学习模型及数据预处理方案进行存储,将模型训练模块作为机器学习模型及数据预处理方案的数据来源,不但缓解了数据源网元的压力,还可使得模型训练与存储过程近似于一体化,使得机器学习模型与数据预处理方案能够更高效地存储起来。而且,模型训练模块可以是网络数据分析网元中的模型训练模块(model training logical function,mtln),此时,网络数据分析网元只需要获取订阅事件和一份原始数据,即可由自身执行数据分析的过程,对外界网元的依赖性较低,不会为其他核心网网元带来压力。
75.在一个实施方式中,根据订阅事件所指示的模型信息,从模型训练模块中获取模型信息指示的机器学习模型,包括:网络数据分析网元的逻辑分析模块根据订阅事件所指示的模型标识,从网络数据分析网元的模型训练模块中获取模型标识所指示的机器学习模型。
76.相对应的,按照模型信息,从模型训练模块中获取机器学习模型的数据预处理方案,包括:网络数据分析网元的逻辑分析模块根据该模型标识,从网络数据分析网元的模型训练模块中获取模型标识所指示的数据预处理方案。由此,基于一个模型标识并行获取机器学习模型与数据预处理方案,使得数据处理的效率提升。
77.机器学习模型与机器学习模型的数据预处理方案,均预先存储到模型训练模块中,并均由网络数据分析网元根据订阅事件所指示的模型信息进行调用,不但基于数据预处理方案使得实现输入到机器学习模型的数据得以规范化,还扩大了数据来源的选取范围,且从工程角度来看,网元数据传输的改动较少。
78.其中,由模型训练模块执行机器学习模型的训练过程,模型训练模块将训练过程的数据预处理步骤,缓存为数据预处理方案。
79.训练过程是模型训练模块基于训练数据,对机器学习模型进行训练的步骤集合,该步骤集合至少包括数据预处理步骤与训练执行步骤这两个子集合,各个子集合包括一个或多个具体的方案步骤。数据预处理步骤先于训练执行步骤,数据预处理步骤用于对训练数据进行筛选、转换、规整、和/或其他转换操作,以使得训练数据能够适用于机器学习模型的训练;而训练执行步骤,是模型训练模块基于训练数据转换所得的数据,对机器学习模型进行训练的步骤。
80.可选地,数据预处理步骤包括算法工程师对训练数据进行筛选、转换、规整、和/或其他操作,数据预处理步骤所涉及的操作由模型训练模块缓存为数据预处理方案。由此,在针对人工的预处理步骤进行缓存,以高效地构建出数据预处理方案,便于复用人工的预处
理步骤,使得原始数据转换所得的特征数据更好地作为机器学习模型的输入数据。
81.在机器学习模型的训练过程中,将训练过程的数据预处理步骤,缓存为数据预处理方案,可通过模型训练过程,配置、完善或调整数据预处理方案,减少数据预处理方案在创建过程中的次数,使得数据的复用效率较高,使得同一段原始数据可针对更多订阅事件,分化为更多机器学习模型的特征数据,从而更好地减轻数据源网元的压力,并节省网络数据分析网元的资源存储空间。
82.在一个示例性地实施例中,网络数据分析网元设有逻辑分析模块(analytics logical function,anlf),通过该逻辑分析模块执行步骤202-208的相关步骤;且网络数据分析网元设有模型训练模块(model training logical function,mtlf),通过模型训练模块进行机器学习模型(ml模型)的训练过程、数据预处理方案的生成过程,以及,模型与数据预处理方案的缓存过程。
83.在一个示例性地实施例中,步骤202之前,由模型训练模块进行模型训练,且存储机器学习模型文件外,还缓存了算法工程师在训练过程中的数据预处理步骤;步骤202,包括:每当需要提供订阅事件的分析报告时,网络数据分析网元从数据源网元采集原始数据。
84.步骤204中,根据订阅事件,获取机器学习模型,包括:anlf模块根据用户订阅的订阅事件,向mtlf模块请求ml模型。
85.步骤204中,数据预处理方案的获取过程,包括:anlf模块向mtlf模块请求ml模型的数据处理方案。
86.步骤206与步骤208对应于:anlf按照数据处理方案处理采集的原始数据获得特征数据,将特征数据输入到ml模型进行推理预测。
87.步骤208之后,该方法还包括:nwdaf分别向用户发送对应订阅的推理报告。
88.在另一个示例性地实施例中,如图3所示,当网络数据分析网元的逻辑分析模块,获取到两个订阅事件a、b,且为这两个订阅事件a、b提供分析报告时,包括:
89.步骤202之前,还包括步骤0,由模型训练模块进行模型训练,且存储机器学习模型文件外,缓存算法工程师在训练过程中的数据预处理步骤;
90.步骤202,包括步骤1,具体为:每当需要提供事件报告时,网络数据分析网元从数据源网元采集数据d1,以使网络数据分析网元中的逻辑分析模块获取到订阅事件与原始数据;
91.步骤204中,根据订阅事件,获取机器学习模型,包括:2a.逻辑分析模块根据用户订阅的订阅事件a,向模型训练模块请求机器学习模型a;以及,2b.模型训练模块向模型训练模块请求机器学习模型b;
92.步骤204中,数据预处理方案的获取过程,包括:3a.anlf模块向mtlf模块请求ml模型a的数据处理方案a;以及,3b.anlf模块请求ml模型b的数据处理方案b;
93.步骤206与步骤208对应于:4a.anlf按照数据处理方案a处理采集的原始数据d1获得特征数据a1,将特征数据a1输入到ml模型a进行推理预测,得到订阅事件a的分析结果;以及,4b.anlf用方案b处理数据d1获取特征数据b1,将特征数据b1作为ml模型b的数据进行推理预测,得到订阅事件b的分析结果。
94.在一个实施例中,数据预处理方案包括数据筛选方案、格式转换方案与数据规整方案中的至少一种方案。数据筛选方案、格式转换方案与数据规整方案属于不同的数据预
处理子方案,分别用于进行原始数据的不同转换;数据筛选方案用于筛选出符合机器学习模型内容的原始数据,格式转换方案用于将原始数据转换为机器学习模型的输入数据所具备格式;数据规整方案用于将原始数据的尺度调整为合适的规格。
95.可选地,机器学习模型的输入数据要求包括内容、格式和尺度的要求;若原始数据与内容、格式和尺度中的任一要求不相符,则根据与要求不相符的方案,对原始数据进行转换,以使得原始数据转换为特征数据。例如:若原始数据的内容涵盖机器学习模型所需内容,且原始数据的内容数据量,大于机器学习模型所需内容数据量阈值,则需要将原始数据按照数据筛选方案进行内容筛选,得到与机器学习模型内容匹配的特征数据。可以理解的是,内容方面不仅仅可以是数据量的限定,还可以是某些字段的限定或具有某些标识符的限定。
96.上述将原始数据按照数据预处理方案进行转换,得到特征数据,包括:
97.将原始数据按照数据筛选方案进行内容筛选,得到与机器学习模型内容匹配的特征数据;和/或,
98.按照格式转换方案对原始数据进行格式转换,得到与机器学习模型格式匹配的特征数据;和/或,
99.按照数据规整方案对原始数据进行数据规整处理,得到与机器学习模型尺度匹配的特征数据。
100.在一个实施方式中,将原始数据按照数据筛选方案进行内容筛选,得到与机器学习模型内容匹配的特征数据,包括:将原始数据按照数据筛选方案所指示的字段进行筛选,得到符合机器学习模型字段内容条件的特征数据。可选地,针对不同机器学习模型,基于业务数据、变量相关性、特征重要性、特征拟合、编码方式等内容因素进行调整,以提高机器学习模型的质量,该质量可以是处理效率、准确性及鲁棒性等方面;而在进行模型调整后,不同机器学习模型所需的输入字段也会随内容因素而调整,而这些输入字段的调整过程,会高效地同步调整数据筛选方案。
101.在一个实施方式中,按照格式转换方案对原始数据进行格式转换,得到与机器学习模型格式匹配的特征数据,包括:按照机器学习模型的输入数据字段格式对原始数据进行格式转换,得到符合机器学习模型字格式条件的特征数据。可选地,对原始数据进行格式转换的过程,可包括独热编码、标签编码、embedding等维度,用于将原始数据中的数据类型转换为数值型,数值型的格式包括整型、长整型或浮点型等格式,以使得机器学习模型能够高效地使用符合字格式条件的特征数据。
102.在一个实施方式中,按照数据规整方案对原始数据进行数据规整处理,得到与机器学习模型尺度匹配的特征数据,包括:按照数据规整方案对原始数据进行缩放处理,得到符合机器学习模型尺度条件的特征数据。可选地,缩放尺度涉及原始数据的归一化、中心化或标准化,以使得机器学习模型能够更高效地生成订阅事件的分析报告。
103.可选地,数据筛选方案、格式转换方案与数据规整方案是依序进行的,当前预处理子方案转换所得的结果,输入到当前预处理子方案的下一个预处理子方案继续执行转换过程,直至原始数据所存在的各预处理子方案全部执行完成。可选的,可从数据筛选方案、格式转换方案与数据规整方案中,选择任意数量的预处理子方案执行。
104.在一个可行地实施方式中,某原始数据依次按照数据筛选方案、格式转换方案与
数据规整方案进行处理,包括:将原始数据按照数据筛选方案进行内容筛选,得到与机器学习模型内容匹配的第一特征数据;按照格式转换方案对第一特征数据进行格式转换,得到与机器学习模型格式匹配的第二特征数据;按照数据规整方案对第二特征数据进行数据规整处理,得到与机器学习模型尺度匹配的第三特征数据;第三特征数据是用于生成分析报告的特征数据。
105.在一个示例性地实施例中,如图4所示,数据处理预方案共有三部分数据处理预方案子方案,分别是数据筛选方案、数据转换方案、数据规整方案,对应处理模块中的数据筛选、转换和规整模块。筛选模块用于选择符合机器学习模型内容要求的字段;转换模块用于转换字段的格式,如将字符串转换为整数和浮点数;规整用于实现数据的归一化、标准化、中心化等尺度操作。在实施例中,网络数据分析网元仅需从数据源网元采集一次数据,在经过数据处理模块转换数据后,形成特征数据a、b、c,再将特征数据a、b、c输入到特征数据a、b、c各自的机器学习模型,得到订阅事件a、b、c的分析报告,以完成订阅事件分别向用户的终端发送订阅时间进行推理所得的分析报告。
106.可选地,数据预处理方案基于机器学习模型的处理效率和指标确定。
107.数据预处理方案的配置过,是与数据预处理方案所属的机器学习模型的输入数据相匹配。因为机器学习模型可基于算法的效率与指标等要求而变更,可使得数据处理方案也会一同更改,适应性地进行数据筛选等特征工程,提高分析结果的准确率、召回率。
108.可选地,若机器学习模型的训练过程中,训练过程的数据预测处理步骤缓存为数据预处理方案,数据预处理方案的调整效率得以进一步提升。
109.在一个实施例中,本技术的数据分析方法属于一种网络数据分析网元的数据处理方法,在模型训练模块增加数据预处理方案的缓存模块,在逻辑分析模块增加数据处理模块,并对数据处理方案的缓存和调度方法。
110.网络数据分析网元的标准规范中,规定了每种订阅事件的输入数据,网络数据分析网元实时采集数据进行推理预测。通过数据预处理方案,模拟算法工程师会对原始数据进行筛选、转换、规整等操作,从而将输入数据转换为机器学习模型所需的特征数据进行推理分析。
111.另外,在数据预处理方案根据不同订阅事件,向数据源网元采集原始数据的应用场景中,针对订阅事件越多,所需采集的原始数据越多这一问题进行分析:重复的数据采集可能对数据源网元产生较大的压力;而且大量的数据采集会浪费资源存储数据。本专利提供的方法,能够将一份网元采集的原始数据,提供给使用该种数据的多个订阅事件,实现数据的复用。
112.在另一个具体的实施例中,网络数据分析网元多次采集相同原始数据的概率较小,不容易产生资源浪费。解决了网络数据分析网元将同一段原始数据供给不同机器学习模型使用的难点。
113.具体的,网络数据分析网元能够复用采集的数据。一方面网络数据分析网元不重复采集相同的数据,减轻网元为不同订阅事件提供相同数据的压力;另一方面,对同一段原始数据使用不同的数据预处理方案,可转换为多段不同特征数据,供给不同订阅事件的机器学习模型使用,节省存储资源。
114.而且,网络数据分析网元在自身实现输入数据的规范化,扩大了数据来源的选取
范围,工程上减少网元数据输出的改动。此外,网络数据分析网元可以根据机器学习模型的效率、模型的指标等要求配置数据处理方案,能够做数据筛选等特征工程,提高分析结果的准确率、召回率。
115.可以理解得到是,随着通信网络的不断发展中,网络数据分析网元可接受的订阅事件越来越多,将同一段数据基于不同订阅事件做分化,能减轻数据源网元的压力,节省存储资源。而网络数据分析网元可从面对不同厂家的网元中采集数据,在网络数据分析网元在自身实现输入数据的规范化,扩大数据采集的选取范围。
116.应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
117.基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的数据分析方法的数据分析装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个数据分析装置实施例中的具体限定可以参见上文中对于数据分析方法的限定,在此不再赘述。
118.在一个实施例中,如图5所示,提供了一种数据分析装置,应用于网络数据分析网元,所述装置包括:
119.数据获取模块502,用于获取订阅事件与原始数据;
120.方案获取模块504,用于根据所述订阅事件,获取机器学习模型与所述机器学习模型的数据预处理方案;
121.特征转换模块506,用于将所述原始数据按照所述数据预处理方案进行转换,得到特征数据;
122.分析模块508,用于将所述特征数据输入到所述机器学习模型进行预测,得到所述订阅事件的分析结果。
123.在其中一个实施例中,所述方案获取模块504,用于:
124.根据所述订阅事件所指示的模型信息,从模型训练模块中获取所述模型信息指示的机器学习模型;
125.按照所述模型信息,从所述模型训练模块中获取所述机器学习模型的数据预处理方案。
126.在其中一个实施例中,由所述模型训练模块执行所述机器学习模型的训练过程,所述模型训练模块将所述训练过程的数据预处理步骤,缓存为所述数据预处理方案。
127.在其中一个实施例中,所述数据预处理方案包括数据筛选方案、格式转换方案与数据规整方案中的至少一种方案;所述特征转换模块506,用于:
128.将所述原始数据按照所述数据筛选方案进行内容筛选,得到与所述机器学习模型内容匹配的特征数据;和/或,
129.按照所述格式转换方案对所述原始数据进行格式转换,得到与所述机器学习模型
格式匹配的特征数据;和/或,
130.按照所述数据规整方案对所述原始数据进行数据规整处理,得到与所述机器学习模型尺度匹配的特征数据。
131.在其中一个实施例中,所述数据获取模块502,用于:
132.获取不同订阅事件,并从数据源网元获取原始数据;
133.其中,原始数据对应于所述不同订阅事件。
134.在其中一个实施例中,所述原始数据与所述机器学习模型的训练数据属于相同的数据类别,所述数据类别是基于核心网网元划分的,且所述数据类别是根据所述订阅事件确定的。
135.在其中一个实施例中,所述数据预处理方案基于所述机器学习模型的处理效率和指标确定。
136.上述数据分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
137.在一个实施例中,提供了一种计算机设备,该计算机设备可以是网络数据分析网元,其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口(input/output,简称i/o)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储机器学习模型与所述机器学习模型的数据预处理方案。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据分析方法。
138.本领域技术人员可以理解,图6中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
139.在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
140.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
141.在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
142.需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
143.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机
可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
144.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
145.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
技术特征:
1.一种数据分析的方法,其特征在于,应用于网络数据分析网元,所述方法包括:获取订阅事件与原始数据;根据所述订阅事件,获取机器学习模型与所述机器学习模型的数据预处理方案;将所述原始数据按照所述数据预处理方案进行转换,得到特征数据;将所述特征数据输入到所述机器学习模型进行预测,得到所述订阅事件的分析结果。2.根据权利要求1所述的方法,其特征在于,所述根据所述订阅事件,获取机器学习模型与所述机器学习模型的数据预处理方案,包括:根据所述订阅事件所指示的模型信息,从模型训练模块中获取所述模型信息指示的机器学习模型;按照所述模型信息,从所述模型训练模块中获取所述机器学习模型的数据预处理方案。3.根据权利要求2所述的方法,其特征在于,由所述模型训练模块执行所述机器学习模型的训练过程,所述模型训练模块将所述训练过程的数据预处理步骤,缓存为所述数据预处理方案。4.根据权利要求1所述的方法,其特征在于,所述数据预处理方案包括数据筛选方案、格式转换方案与数据规整方案中的至少一种方案;所述将所述原始数据按照所述数据预处理方案进行转换,得到特征数据,包括:将所述原始数据按照所述数据筛选方案进行内容筛选,得到与所述机器学习模型内容匹配的特征数据;和/或,按照所述格式转换方案对所述原始数据进行格式转换,得到与所述机器学习模型格式匹配的特征数据;和/或,按照所述数据规整方案对所述原始数据进行数据规整处理,得到与所述机器学习模型尺度匹配的特征数据。5.根据权利要求1所述的方法,其特征在于,所述获取订阅事件与原始数据,包括:获取不同订阅事件,并从数据源网元获取原始数据;其中,原始数据对应于所述不同订阅事件。6.根据权利要求1所述的方法,其特征在于,所述原始数据与所述机器学习模型的训练数据属于相同的数据类别,所述数据类别是基于核心网网元划分的,且所述数据类别是根据所述订阅事件确定的。7.根据权利要求1所述的方法,其特征在于,所述数据预处理方案基于所述机器学习模型的处理效率和指标确定。8.一种数据分析装置,其特征在于,应用于网络数据分析网元,所述装置包括:数据获取模块,用于获取订阅事件与原始数据;方案获取模块,用于根据所述订阅事件,获取机器学习模型与所述机器学习模型的数据预处理方案;特征转换模块,用于将所述原始数据按照所述数据预处理方案进行转换,得到特征数据;分析模块,用于将所述特征数据输入到所述机器学习模型进行预测,得到所述订阅事件的分析结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
技术总结
本申请涉及一种数据分析方法、装置、计算机设备、存储介质和计算机程序产品。应用于网络数据分析网元,所述方法包括:所述方法包括:获取订阅事件与原始数据;根据所述订阅事件,获取机器学习模型与所述机器学习模型的数据预处理方案;将所述原始数据按照所述数据预处理方案进行转换,得到特征数据;将所述特征数据输入到所述机器学习模型进行预测,得到所述订阅事件的分析结果。采用本方法能够通过订阅事件所指示的预处理方案进行转换,使得一份原始数据可转化为多个模型适配的输入数据,并进行推理分析,实现原始数据的复用。由此,针对各订阅事件进行推理的过程,获取原始数据的频率相对较少,数据源网元等设备的压力较小。数据源网元等设备的压力较小。数据源网元等设备的压力较小。
技术研发人员:梁广贤 郑佳欢 向勇 李凌 张沁宇
受保护的技术使用者:中国电信股份有限公司
技术研发日:2023.07.17
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
