一种科技风险管理系统及一种风险预警装置的制作方法
未命名
08-07
阅读:114
评论:0
1.本技术涉及科技风险管理技术领域,具体涉及一种科技风险管理系统、风险预警装置、方法及存储介质。
背景技术:
2.信息科技发展日新月异,组织业务经营依托信息科技及系统、依赖信息系统的业务连续性,数据中心信息系统众多且关联关系复杂,从而各类信息科技故障和风险不断涌现而且不易察觉。企业或组织在通过科技管理系统进行科技运营活动时,可以通过大数据组件如hdfs,yarn,druid,kafka等组件来处理科技运营相关业务,为了保障业务的正常处理,就需要对科技管理系统使用的大数据组件的运行状态进行监测,从而获取企业或组织面临的科技运营风险情况。
3.这些大数据组件存在多个进程,每个进程都存在自己的日志打印,因此可以通过日志分析对大数据组件的运行状态进行风险监测。然而,相关技术中,只有在科技管理系统中的科技运营活动出现运行异常或故障时,运维人员才会去查看日志以定位原因,无法提前对即将发生的风险进行预估并作出防范。
技术实现要素:
4.本技术实施例提供一种科技风险管理系统及一种风险预警装置,能够对科技运营活动中使用的大数据组件的运行状态进行风险监测。
5.第一方面,本技术实施例提供一种风险预警方法,包括:采集目标大数据组件的预设进程在预设时间窗口内的目标日志数据,所述目标日志数据包括多条日志;将所述目标日志数据中的多条日志划分为多个日志处理单位数据;对所述多个日志处理单位数据分别进行特征提取,得到所述多个日志处理单位数据对应的多个日志特征矩阵;将所述多个日志特征矩阵分别输入日志状态判别模型,得到所述多个日志处理单位数据分别对应的状态,所述状态包括异常状态和稳定状态;根据所述多个日志处理单位数据分别对应的状态确定所述目标大数据组件的预设进程对应的风险等级。
6.第二方面,一种科技风险管理系统,所述科技风险管理系统包括相互通信连接的科技管理服务器、大数据组件以及科技风险管理服务器。
7.第三方面,本技术实施例还提供一种风险预警装置,包括:采集单元,用于采集目标大数据组件的预设进程在预设时间窗口内的目标日志数据,所述目标日志数据包括多条日志;划分单元,用于将所述目标日志数据中的多条日志划分为多个日志处理单位数据;
特征提取单元,用于对所述多个日志处理单位数据分别进行特征提取,得到所述多个日志处理单位数据对应的多个日志特征矩阵;日志状态判别单元,用于将所述多个日志特征矩阵分别输入日志状态判别模型,得到所述多个日志处理单位数据分别对应的状态,所述状态包括异常状态和稳定状态;确定单元,用于根据所述多个日志处理单位数据分别对应的状态确定所述目标大数据组件的预设进程对应的风险等级。
8.第四方面,本技术实施例还提供一种计算机可读的存储介质,其上存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如本技术任一实施例提供的风险预警方法。
9.本技术实施例提供的技术方案,通过采集目标大数据组件的预设进程在预设时间窗口内的目标日志数据,所述目标日志数据包括多条日志,将所述目标日志数据中的多条日志划分为多个日志处理单位数据,对所述多个日志处理单位数据分别进行特征提取,得到所述多个日志处理单位数据对应的多个日志特征矩阵,将所述多个日志特征矩阵分别输入日志状态判别模型,得到所述多个日志处理单位数据分别对应的状态,所述状态包括异常状态和稳定状态,根据所述多个日志处理单位数据分别对应的状态确定所述目标大数据组件的预设进程对应的风险等级,以此,本技术能够对科技管理系统中使用的大数据组件的运行状态进行风险监测。
附图说明
10.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
11.图1为本技术实施例提供的科技风险管理系统的应用场景示意图。
12.图2为本技术实施例提供的风险预警方法的一种流程示意图。
13.图3为本技术实施例提供的日志状态判别模型的结构示意图。
14.图4为本技术实施例提供的日志编码模块的结构示意图。
15.图5为本技术实施例提供的采集日志数据训练样本集的场景示意图。
16.图6为本技术实施例提供的风险预警装置的一种结构示意图。
17.图7为本技术实施例提供的电子设备的一种结构示意图。
具体实施方式
18.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本技术的保护范围。
19.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和
隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
20.本技术提供的科技风险管理系统包括科技风险信息库、科技风险评估及检查、科技风险监测及预警、科技风险驾驶舱;实施科技运营动态监测,构建运维、安全、风险“三位一体”的协同运作体系,提升科技风险管理的有效性和精细化程度。该科技风险管理系统的主要管理手段包括:集中管理,通过采集科技运营数据实科技风险全面、集中的线上管理;主动管理,运用风险预警方法实时汇集监测预警的风险及报警信息,主动发现信息系统存在的风险隐患,从而做到主动介入,提前管理;动态管理,通过配置关键科技风险监测指标,消费配置及关联关系,实现科技风险动态监测、分析和预警。
21.本技术提供的科技风险管理系统主要基于信息科技风险管理的需求开发,旨在帮助企业或组织在科技运营活动中进行信息科技监测预警和管理,从而进行科学有效的风险管理,有效应对各种不同的信息科技风险挑战。该科技风险管理系统还利用了大数据分析技术,用于提高计算效率和决策精度。此外,为了保证信息安全和业务连续性,该科技风险管理系统支持备份、恢复和容错机制,并遵守相关的法规和标准。本技术主要记载该风险管理系统的通过日志分析评估科技运营活动中大数据组件存在的风险的功能,该功能可以使相关管理人员更全面地了解和评估科技管理系统所面临的风险情况,以便在必要时迅速做出应对措施,减少潜在损害。
22.transformer模型是一个利用注意力机制(attention mechanism)来提高模型训练速度的深度学习模型。transformer模型由编码器和encoder和解码器decoder两部分组成,编码器中包括多个编码模块( encoder block)。
23.为了实现对科技管理系统中使用的大数据组件的运行状态进行风险监测,本技术将transformer模型中的编码模块引入日志状态判别模型中,相应提供一种科技风险管理系统、风险预警装置、方法及存储介质。其中,风险预警方法可由风险预警装置执行,或者由集成了该风险预警装置的电子设备执行。其中,该风险预警装置可以采用硬件或者软件的方式实现。其中,电子设备可以是任何配置有处理器而具备处理能力的设备,比如智能手机、平板电脑、掌上电脑、笔记本电脑等具备处理器的移动式电子设备,或者台式电脑、服务器等具备处理器的固定式电子设备。
24.例如,请参阅图1,本技术还提供一种科技风险管理系统,如图1所示,该科技风险管理系统包括通过通信链路相互通信连接的科技管理服务器,大数据组件以及科技风险管理服务器,科技管理服务器通过大数据组件处理科技管理相关的业务,科技风险管理服务器对科技管理服务器采用的大数据组件进行风险监测。其中,科技风险管理服务器可以通过采集其科技运营活动中使用的目标大数据组件的预设进程在预设时间窗口内的目标日志数据,所述目标日志数据包括多条日志,将所述目标日志数据中的多条日志划分为多个日志处理单位数据,对所述多个日志处理单位数据分别进行特征提取,得到所述多个日志处理单位数据对应的多个日志特征矩阵,将所述多个日志特征矩阵分别输入日志状态判别模型,得到所述多个日志处理单位数据分别对应的状态,所述状态包括异常状态和稳定状态,根据所述多个日志处理单位数据分别对应的状态确定所述目标大数据组件的预设进程对应的风险等级,以此,本技术提供的科技风险管理系统能够对科技管理系统中使用的大数据组件的运行状态进行风险监测。
25.需要说明的是,图1所示的科技风险管理系统的场景示意图仅仅是一个示例,本申
请实施例描述的科技风险管理系统以及场景是为了更加清楚的说明本技术实施例的技术方案,并不构成对于本技术实施例提供的技术方案的限定,本领域普通技术人员可知,随着科技风险管理系统的演变和新业务场景的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
26.请参阅图2,图2为本技术实施例提供的风险预警方法的一种流程示意图。本技术实施例提供的风险预警方法的具体流程可以如下:s110、采集目标大数据组件的预设进程在预设时间窗口内的目标日志数据,所述目标日志数据包括多条日志。
27.大数据组件可以是hdfs,yarn,druid,kafka等组件,这些组件都存在多个进程,这些进程都会有自己的日志打印,在实际环境中通常出现异常之前都会有一定预兆,虽然不是明显报错日志,但是也隐含一定的风险,为了抓取到这些前瞻风险并加以评估,本技术提供一种风险预警方法基于日志分析来解决上述技术问题。
28.运维人员可以根据需要自行选择大数据组件作为目标大数据组件,并根据需要自行选择目标大数据组件包括的预设进程。
29.预设时间窗口指的是某一段时长,例如,预设时间窗口可以是10分钟的时间窗口,采集某一大数据组件的某个进程在10分钟的时间窗口内产生的日志数据作为目标日志数据。
30.在本技术实施例中,大数据服务集群上的各个大数据组件产生的日志,可以通过日志采集工具进行采集,例如日志采集工具可以为flume,flume会将采集到的日志写分别写入hive以及kafka,写入hive的作为离线数据,用于日志状态判别模型的训练,写入kafka的作为实时数据,进行实时风险分析。
31.其中,flume是一个分布式、可靠且高可用的服务,用于有效地收集,聚合和移动大量日志数据。hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类sql查询功能。kafka是一种分布式的,基于发布 / 订阅的消息系统。
32.可以理解的是,本技术在采集目标大数据组件的预设进程在预设时间窗口内的目标日志数据时,可以通过flume进行采集。
33.s120、将所述目标日志数据中的多条日志划分为多个日志处理单位数据。
34.本实施例中,采集完目标日志数据之后,接下来需要对该目标日志数据进行分析,本技术基于transformer模型中的编码模块构造了一个日志状态判别模型,用于对日志数据进行分析。而由于日志的打印存在多而杂,而且长度不固定的特点,为了使该日志状态判别模型可用,本技术提供了对日志数据进行数据预处理的方法,将输入日志状态判别模型的日志数据进行统一化处理。具体地,本技术提供的数据预处理的方法包括流程s120以及流程s130中的内容,请参见下文说明。
35.其中,日志处理单位数据指的是具有统一化属性的日志数据,可以作为日志状态判别模型输入数据特征的单位数据,比如,该统一化属性可以是具有相同的单词数量。
36.本实施例中,为了将输入日志状态判别模型的数据进行统一化,可以先将目标日志数据中包括的多条日志进行划分,使得得到的每一个日志处理单位数据中都包括固定单词数量。
37.本实施例中,可以设定日志处理单位数据中单词的数量为128个,将每个单词作为
一个token。其中,需要说明的是,token属于自然语言处理(npl,nature language processing)领域的专用说法,是注入算法的最小单位,token根据业务的不同代表的也不同,可以是字符可以是短语,可以是句子,本技术中代表的是单词。
38.在一些实施例中,流程s120“将所述目标日志数据中的多条日志划分为多个日志处理单位数据”可以包括以下流程:s1210、将所述目标日志数据中的多条日志按照时间排序,得到排序后的目标日志数据;比如,本实施例中可以以采集某一组件的某一进程在10分钟时间窗口内的日志数量为10条,这10条日志即为目标日志数据为例,对本技术提供的方案进行阐述说明,为了描述方便,将这10条日志数据通过0~9的数字进行编号,然后按时间顺序进行排序,得到排序后的目标日志数据为0、1、2、3、4、5、6、7、8、9。
39.s1220、将所述排序后的目标日志数据按照每预设数量条连续时间顺序的日志进行组合,得到多个日志组合;其中,预设数量可以由本领域技术人员根据需要自行设置。
40.需要说明的是,在通过transformer进行自然语言处理时,只需要考虑一句话或一整段中的token之间的权重即可,而本技术中的处理对象为日志,日志一般都是存在因果关系的,为了使日志状态判别模型能抓住这种关系信息,本技术中将几条日志按连续的时间顺序捆绑在一起进行分析,从而保留上下文之间的这种关系信息。
41.比如,本实施例中,该预设数量的取值可以为3,按每3条连续时间顺序的日志进行组合,可以得到多个日志组合为:012、123、234、345、456、567、678、789。
42.例如,目标日志数据中的4条连续时间顺序的日志可以如下表1所示:表 1在进行日志组合时,可以将前3条日志描述进行组合,再将后3条日志描述进行组合。
43.可以理解的是,本技术实施例中将日志进行组合是将日志对应的日志描述进行组合。
44.s1230、分别对所述多个日志组合中的每一日志组合中的日志进行拼接处理,得到多个日志处理单位数据。
45.本实施例中,分别对日志组合012、123、234、345、456、567、678、789中每一个组合中的三条日志的日志描述进行拼接处理,得到每个日志组合对应的日志处理单位数据。具体的拼接处理,详见下文。
46.在一些实施例中,流程s1230“分别对所述多个日志组合中的每一日志组合中的日志进行拼接处理,得到多个日志处理单位数据”,可以包括以下流程:s12310、在每一日志组合中加入起始符、分隔符、以及结束符,并进行合并处理,得
到多个拼接日志,其中,所述起始符用于标记拼接日志中日志的起始位置,所述分隔符用于分隔拼接日志中不同条的日志,所述结束符用于标记拼接日志中日志的结束位置;s12320、获取所述多个拼接日志中每一拼接日志的单词数量;s12330、若存在拼接日志的单词数量大于预设阈值,则对拼接日志中日志的日志描述进行部分删除处理,使得拼接日志的单词数量为所述预设阈值;其中,本实施例中可以设定日志处理单位数据中单词的数量为128个,也即这里设置的预设阈值为128。
47.例如,若该拼接日志中的单词数量大于128,则可以删除拼接日志包括的三条日志中每条日志的前半段内容,尽量保持每条日志的后半段内容,使拼接日志中的单词数量为128。
48.需要说明的是,由于日志对应的日志描述一般后面部分内容比较重要,因此,本技术实施例中对拼接日志中日志的日志描述进行部分删除处理时,尽量保存每条日志的后面部分内容,舍去前面部分内容。
49.s12340、若存在拼接日志的单词数量小于所述预设阈值,则在拼接日志中填充填充符,使得拼接日志的单词数量为所述预设阈值,其中,所述填充符用于充当单词,对拼接日志的单词数量进行补充;例如,若该拼接日志中的单词数量小于128,则在拼接日志中加入填充符,使拼接日志中的单词数量为128。
50.本实施例中,可以设置sop为起始符,sep为分隔符,eop为结束符,pad为填充符。作为示例,将上文表格中记载的前三条日志进行拼接处理,得到的一个拼接日志,如下所示:[sop]starting become controller state transition kafka controller kafkacontroller[sep] incremented epoch to 1 kafka controller kafkacontroller[sep]registering isrchangenotificationlistener kafka controller kafkacontroller[eop][pad][pad][pad]s12350、将每一个拼接日志作为一个日志处理单位数据。
[0051]
本技术实施例中,将每一个拼接日志作为一个日志处理单位数据,也即得到多个日志处理单位数据。
[0052]
s130、对所述多个日志处理单位数据分别进行特征提取,得到所述多个日志处理单位数据对应的多个日志特征矩阵。
[0053]
需要说明的是,本技术基于transformer模型中的编码模块构造了一个日志状态判别模型,由于transformer模型的输入是向量矩阵,本技术中同样将输入日志状态判别模型的日志数据转化为向量矩阵的形式,因而,本技术实施例中对多个日志处理单位数据分别进行特征提取,将多个日志处理单位数据中的每一个日志处理单位数据转化为日志特征矩阵,以便于输入日志状态判别模型进行日志状态判别处理。
[0054]
在一些实施例中,流程s130“对所述多个日志处理单位数据分别进行特征提取,得
到所述多个日志处理单位数据对应的多个日志特征矩阵”,可以包括以下流程:s1310、根据预设的对照字典对所述多个日志处理单位数据中的每一个日志处理单位数据中的单词进行数字化处理,得到每一个日志处理单位数据对应的单词特征向量,其中,所述预设的对照字典为将单词转化为数字的一个映射关系字典;其中,该预设的对照字典为将单词转化为数字的一个映射关系字典,每个单词都对应为一的id,转化时只需要将单词用其所对应的id代替。预设的对照字典可以由本领域技术人员自行设置。
[0055]
例如,该预设的对照字典可以映射前文示例的日志处理单位数据其中的部分单词和数字的映射关系可以如下表2所示:表 2本技术实施例中,根据预设的对照字典将每一个日志处理单位数据中的单词进行数字化处理,也即将单词转化为数字形式,得到每一个日志处理单位数据对应的形状为128*1的单词特征向量。
[0056]
s1320、将每一个日志处理单位数据对应的单词特征向量进行维度转换处理,得到每一个日志处理单位数据对应的单词特征矩阵;在本技术实施例中,对每一个日志处理单位数据对应的单词特征向量进行升维处理,得到每一个日志处理单位数据对应的形状为128*128的单词特征矩阵,通过单词特征矩阵来反映单词编码信息(单词 embedding )。
[0057]
s1330、根据每一日志处理单位数据中包括的日志中不同单词的位置生成对应的位置特征矩阵;需要说明的是,由于transformer模型的编码模块中的注意力机制对应的结构不像传统的循环神经网络一样自带位置信息,所以需要额外加入位置编码信息,因此,本技术中还添加了反映日志中单词位置的位置编码信息(position embeddings),具体地,可以根据每一日志处理单位数据中包括的日志中的不同单词的位置生成对应的位置特征矩阵,通过该位置特征矩阵来反映位置编码信息。
[0058]
具体地,在生成位置特征矩阵时,位置编码信息(position embeddings) 用 pe表示,pe 的维度与单词编码信息(单词 embedding )是一样的。本技术中获取pe的方式和transformer中获取pe采用的计算公式一样,计算公式如下:其中,pos 表示单词在句子中的位置,d 表示 pe的维度 (与单词 embedding一样),2i 表示偶数的维度,2i+1 表示奇数维度 (即 2i≤d, 2i+1≤d)。
[0059]
s1340、根据每一日志处理单位数据中包括的日志对应的分句编码、日志类型以及进程类型生成附加特征矩阵,所述分句编码用于标记日志处理单位数据中的不同日志条;需要说明的是,由于本技术中处理对象为日志,相较于传统的处理自然语言而言,
日志中携带的信息更多,为了保留日志中的这些信息,本技术实施例中还加入了分句编码信息(segment embeddings)、日志类型编码信息(logtype embeddings)以及进程类别编码信息(type embeddings)。具体地,可以根据每一日志处理单位数据中包括的日志对应的分据编码、日志类型以及进程类型生成附加特征矩阵,通过该附加特征矩阵来反映分句编码信息、日志类型编码信息以及进程类型编码信息。
[0060]
其中,分句编码信息用于标记日志处理单位数据中不同日志条,例如,当日志处理单位数据包括3条日志时,分句编码信息即为了区分这3条日志;日志类型编码信息用于标记日志处理单位数据中日志的日志类型,例如,日志类型可以包括info、error、warn、debug等等;进程类别编码信息用于标记日志处理单位数据中日志来源组件对应的进程,例如,以hdfs为例就包含namenode、datanode、secondary namenode等多个不同类型的进程。
[0061]
在一些实施例中,为了降低分句编码信息、日志类型编码信息、以及进程类别编码信息互相影响的考虑,可以将分句编码信息、日志类型编码信息、以及进程类别编码信息采用独热编码(one-hot encoding)进行表示,生成包括分句编码信息、日志类型编码信息、以及进程类别编码信息的附加特征矩阵,该附加特征矩阵的形状为128*128。例如,该附加特征矩阵中从0列到85列全部填充为0,从86列到88列填充代表三个日志(也即对应日志处理单位数据中的三条日志)位置顺序的独热编码,从89列到92列填充代表前文提到的4种日志类型的独热编码,从93列到127列填充代表前文提到的34种进程的独热编码。
[0062]
在一些实施例中,可以仅对日志类型为info、error、warn、debug的日志数据进行日志分析,由于这些类型的日志与大数据组件发生异常情况的关联度更高,仅分析这些类型的日志数据可以使得本技术能减少数据处理量,提高风险分析效率。
[0063]
s1350、根据每一日志处理单位数据对应的单词特征矩阵、位置特征矩阵以及附加特征矩阵,得到所述多个日志处理单位数据对应的所述多个日志特征矩阵。
[0064]
本技术实施例中,将每一日志处理单位数据对应的单词特征矩阵与位置特征矩阵对位相加,相加之后再做归一化处理,将所有值映射到[-1,1]的区间内,得到每一日志处理单位数据对应的第一中间处理矩阵,再将该每一日志处理单位数据对应的第一中间处理矩阵与每一日志处理单位数据对应的附加特征矩阵对位相加,得到多个日志特征矩阵。该日志特征矩阵是输入日志状态判别模型的最小基本单位。
[0065]
s140、将所述多个日志特征矩阵分别输入日志状态判别模型,得到所述多个日志处理单位数据分别对应的状态,所述状态包括异常状态和稳定状态。
[0066]
其中,所述日志状态判别模型被配置为对日志特征矩阵进行状态判别处理,得到日志特征矩阵对应的日志处理单位数据的状态。
[0067]
本技术实施例中,将多个日志特征矩阵中的每一个日志特征矩阵输入日志状态判别模型进行状态判别处理,得到每一个日志特征矩阵对应的状态,也即得到每一个日志特征矩阵对应的日志处理单元数据的状态。
[0068]
其中,异常状态指的是大数据组件处理业务时出现卡顿或故障,使得无法正常处理业务;稳定状态指的是大数据组件处理业务未出现卡顿或故障,业务正常处理。
[0069]
在一些实施例中,如图3所示,所述日志状态判别模型可以包括依次连接的日志编码模块、第一全连接层、第二全连接层、第三全连接层以及第四全连接层,所述日志编码模块包括六个依次连接的transformer模型的编码模块,流程s140“将所述多个日志特征矩阵
分别输入日志状态判别模型,得到所述多个日志处理单位数据分别对应的状态”,可以包括以下流程:s1410、将多个日志特征矩阵分别输入到所述日志编码模块,得到多个第一日志特征数据;s1420、将多个第一日志特征数据分别输入所述第一全连接层,得到多个第二日志特征数据;s1430、将多个第二日志特征数据分别输入所述第二全连接层,得到多个第三日志特征数据;s1440、将多个第三日志特征数据分别输入所述第三全连接层,得到多个第四日志特征数据;s1450、将多个第四日志特征数据分别输入所述第四全连接层,得到多个日志处理单位数据分别对应的状态。
[0070]
在本实施例中,可以定义一个batch大小,该batch的大小代表一次向日志状态判别模型输入多少个日志特征矩阵。很显然,本实施例中batch为1。其中,日志编码模块的input为[batch,128,128],output为[batch,128,128];第一全连接层的input为shape[batch,128*128],output为[batch,128],该第一全连接层可以采用relu函数作为激活函数;第二全连接层的input为[batch,128],output为[batch,64],该第二全连接层可以采用relu函数作为激活函数;第三全连接层的input为[batch,64],output为[batch,12],该第三全连接层可以采用relu函数作为激活函数;第四全连接层的input为[batch,12],output为[batch,1],该第四全连接层可以采用sigmoid函数作为激活函数,该第四全连接层输出一个0~1的数字,数字越接近0则判断为异常状态,越接近1则判断为稳定状态。具体异常参考值根据实际情况进行设定,例如,设置异常参考值为0.3,当模型输出的数字小于0.3时,判断为异常状态。
[0071]
在一些实施例中,如图4所示,所述日志编码模块可以包括六个依次连接的transformer模型的编码模块:第一编码模块、第二编码模块、第三编码模块、第四编码模块、第五编码模块、第六编码模块,每个编码模块的结构相同,具体包括 multi-head attention、add&norm 层、feed forward、以及又一个add&norm 层。
[0072]
s150、根据所述多个日志处理单位数据分别对应的状态确定所述目标大数据组件的预设进程对应的风险等级。
[0073]
在本技术实施例中,可以通过多个日志处理单位数据输入日志状态判别模型得到的多个状态,来确定目标大数据组件的预设进程对应的风险等级。
[0074]
在一些实施例中,流程s150“根据所述多个日志处理单位数据分别对应的状态确定所述目标大数据组件的预设进程对应的风险等级”,可以包括以下流程:s1510、获取所述多个日志处理单位数据分别对应的状态中异常状态的占比值,并将所述占比值作为日志异常率;在本技术实施例中,可以获取多个日志处理单位数据分别对应的状态中异常状态的占比值,并将所述占比值作为日志异常率。
[0075]
例如,某目标日志数据经过数据预处理之后,得到10个日志处理单位数据,其中,有6个日志处理单位数据的状态为异常状态,那么占比值即为60%。
[0076]
s1520、根据所述日志异常率确定所述目标大数据组件的预设进程对应的风险等级。
[0077]
在本技术实施例中,在获取到日志异常率后,可以根据日志异常率确定目标大数据组件的预设进程对应的风险等级。
[0078]
例如:风险等级可以包括无风险、低风险、中风险以及高风险四个等级,日志异常率为低于10%则定为无风险;日志异常率为高于10%低于33%则定为低风险;日志异常率为高于33%低于80%则定为中风险;日志异常率为高于80%低于100%则定为高风险。其中,日志异常率对应的不同风险等级的参考值可以根据实际场景的表现去设置,此处不作具体阐述。
[0079]
具体实施时,本技术不受所描述的各个步骤的执行顺序的限制,在不产生冲突的情况下,某些步骤还可以采用其它顺序进行或者同时进行。
[0080]
由上可知,本技术实施例提供的风险预警方法,通过对采集到的目标大数据组件的预设进程在预设时间窗口内的目标日志数据进行数据预处理,得到多个日志特征矩阵,并将该多个日志特征矩阵分别输入日志状态判别模型,得到该多个日志处理单位数据分别对应的状态,该状态包括异常状态和稳定状态,根据该多个日志处理单位数据分别对应的状态确定该目标大数据组件的预设进程对应的风险等级,以此,本技术能够对科技管理系统中使用的大数据组件的运行状态进行风险监测。
[0081]
在一些实施例中,本技术提供的一种风险预警方法,还可以包括以下流程:采集稳定状态的日志数据作为正例日志数据样本;采集异常状态的日志数据作为反例日志数据样本;将所述正例日志数据样本与所述反例日志数据样本作为训练所述日志状态判别模型的日志数据训练样本集。
[0082]
请参考图5,图5为本技术实施例提供的采集日志数据训练样本集的场景示意图,本技术实施例中当发生故障时,其中,该故障为人为发现或者基于异常监控发现,触发日志采集事件,采集自发生异常的时间点开始,向历史数据查询一个窗口时间作为异常状态日志采集窗口,采集异常状态的日志,采集结束后,继续向历史数据划分为一个窗口时间作为安全窗口时间间隔,越过安全窗口时间间隔继续查询一个窗口时间,作为稳定状态日志采集窗口,采集稳定状态的日志数据。
[0083]
其中,安全窗口时间间隔的设定是为了分割异常状态日志采集区和稳定状态日志采集区,规避这两个区域的日志可能存在的因果关系。窗口时间的窗口长度根据需要人为进行设置的,例如,窗口时间的窗口长度可以为20分钟。
[0084]
将采集到的异常状态的日志数据和稳定状态的日志数据分别保存,同一批次采集到的异常状态的日志数据和稳定状态的日志数据会被赋予相同的批次id,以便查询和训练,将稳定状态的日志数据作为正例日志数据样本,将异常状态的日志数据作为反例日志数据样本。
[0085]
本技术实施例中通过上述日志数据采集方式是为了使得在日志数据训练样本集中的正反例数据集比例接近1:1,防止训练日志状态判别模型时日志状态判别模型更关注其中一面。
[0086]
需要说明的是,本技术中通过日志数据训练样本集对日志状态判别模型进行训练时,同样对日志数据样本进行数据预处理,生成对应的日志数据样本的日志特征矩阵,使其
满足日志状态判别模型的输入要求。具体根据日志数据生成对应的日志特征矩阵的方法,请参见前文将目标日志数据进行处理生成目标日志数据对应的日志特征矩阵的方法。
[0087]
在一实施例中还提供一种风险预警装置。请参阅图6,图6为本技术实施例提供的风险预警装置200的一种结构示意图。该风险预警装置200包括采集单元201、划分单元202、特征提取单元203、日志状态判别单元204以及确定单元205,如下:采集单元201,用于采集目标大数据组件的预设进程在预设时间窗口内的目标日志数据,所述目标日志数据包括多条日志;划分单元202,用于将所述目标日志数据中的多条日志划分为多个日志处理单位数据;特征提取单元203,用于对所述多个日志处理单位数据分别进行特征提取,得到所述多个日志处理单位数据对应的多个日志特征矩阵;日志状态判别单元204,用于将所述多个日志特征矩阵分别输入日志状态判别模型,得到所述多个日志处理单位数据分别对应的状态,所述状态包括异常状态和稳定状态;确定单元205,用于根据所述多个日志处理单位数据分别对应的状态确定所述目标大数据组件的预设进程对应的风险等级。
[0088]
可选地,在一些实施例中,划分单元202,用于:将所述目标日志数据中的多条日志按照时间排序,得到排序后的目标日志数据;将所述排序后的目标日志数据按照每预设数量条连续时间顺序的日志进行组合,得到多个日志组合;分别对所述多个日志组合中的每一日志组合中的日志进行拼接处理,得到多个日志处理单位数据。
[0089]
可选地,在一些实施例中,划分单元202,用于:在每一日志组合中加入起始符、分隔符、以及结束符,并进行合并处理,得到多个拼接日志,其中,所述起始符用于标记拼接日志中日志的起始位置,所述分隔符用于分隔拼接日志中不同条的日志,所述结束符用于标记拼接日志中日志的结束位置;获取所述多个拼接日志中每一拼接日志的单词数量;若存在拼接日志的单词数量大于预设阈值,则对拼接日志中日志的日志描述进行部分删除处理,使得拼接日志的单词数量为所述预设阈值;若存在拼接日志的单词数量小于所述预设阈值,则在拼接日志中填充填充符,使得拼接日志的单词数量为所述预设阈值,其中,所述填充符用于充当单词,对拼接日志的单词数量进行补充;将每一个拼接日志作为一个日志处理单位数据。
[0090]
可选地,在一些实施例中,特征提取单元203,用于:根据预设的对照字典对所述多个日志处理单位数据中的每一个日志处理单位数据中的单词进行数字化处理,得到每一个日志处理单位数据对应的单词特征向量,其中,所述预设的对照字典为将单词转化为数字的一个映射关系字典;将每一个日志处理单位数据对应的单词特征向量进行维度转换处理,得到每一个日志处理单位数据对应的单词特征矩阵;根据每一日志处理单位数据中包括的日志中不同单词的位置生成对应的位置特
征矩阵;根据每一日志处理单位数据中包括的日志对应的分句编码、日志类型以及进程类型生成附加特征矩阵,所述分句编码用于标记日志处理单位数据中的不同日志条;根据每一日志处理单位数据对应的单词特征矩阵、位置特征矩阵以及附加特征矩阵,得到所述多个日志处理单位数据对应的所述多个日志特征矩阵。
[0091]
可选地,在一些实施例中,所述日志状态判别模型包括依次连接的日志编码模块、第一全连接层、第二全连接层、第三全连接层以及第四全连接层,所述日志编码模块包括六个依次连接的transformer模型的编码模块,日志状态判别单元204,用于:将多个日志特征矩阵分别输入到所述日志编码模块,得到多个第一日志特征数据;将多个第一日志特征数据分别输入所述第一全连接层,得到多个第二日志特征数据;将多个第二日志特征数据分别输入所述第二全连接层,得到多个第三日志特征数据;将多个第三日志特征数据分别输入所述第三全连接层,得到多个第四日志特征数据;将多个第四日志特征数据分别输入所述第四全连接层,得到多个日志处理单位数据分别对应的状态。
[0092]
可选地,在一些实施例中,确定单元205,用于:获取所述多个日志处理单位数据分别对应的状态中异常状态的占比值,并将所述占比值作为日志异常率;根据所述日志异常率确定所述目标大数据组件的预设进程对应的风险等级。
[0093]
可选地,在一些实施例中,所述风险预警装置还包括样本采集单元,该样本采集单元,用于:采集稳定状态的日志数据作为正例日志数据样本;采集异常状态的日志数据作为反例日志数据样本;将所述正例日志数据样本与所述反例日志数据样本作为训练所述日志状态判别模型的日志数据训练样本集。
[0094]
应当说明的是,本技术实施例提供的风险预警装置与上文实施例中的风险预警方法属于同一构思,通过该风险预警装置可以实现风险预警方法实施例中提供的任一方法,其具体实现过程详见风险预警方法实施例,此处不再赘述。
[0095]
此外,为了更好实施本技术实施例中风险预警方法,在风险预警方法基础之上,本技术还提供一种电子设备,请参照图7,图7示出了本技术提供的电子设备300的一种结构示意图,如图7所示,本技术提供的电子设备300包括处理器301和存储器302,处理器301用于执行存储器302中存储的计算机程序时实现如本技术以上实施例中风险预警方法的各步骤,比如:采集目标大数据组件的预设进程在预设时间窗口内的目标日志数据,所述目标日志数据包括多条日志;将所述目标日志数据中的多条日志划分为多个日志处理单位数据;
对所述多个日志处理单位数据分别进行特征提取,得到所述多个日志处理单位数据对应的多个日志特征矩阵;将所述多个日志特征矩阵分别输入日志状态判别模型,得到所述多个日志处理单位数据分别对应的状态,所述状态包括异常状态和稳定状态;根据所述多个日志处理单位数据分别对应的状态确定所述目标大数据组件的预设进程对应的风险等级。
[0096]
示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器302中,并由处理器301执行,以完成本技术实施例。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机装置中的执行过程。
[0097]
电子设备300可包括,但不仅限于处理器301、存储器302。本领域技术人员可以理解,示意仅仅是电子设备300的示例,并不构成对电子设备300的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如电子设备300还可以包括输入输出设备、网络接入设备、总线等,处理器301、存储器302、输入输出设备以及网络接入设备等通过总线相连。
[0098]
处理器301可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器 (digital signal processor,dsp)、专用集成电路 (application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是电子设备300的控制中心,利用各种接口和线路连接整个电子设备300的各个部分。
[0099]
存储器302可用于存储计算机程序和/或模块,处理器301通过运行或执行存储在存储器302内的计算机程序和/或模块,以及调用存储在存储器302内的数据,实现计算机装置的各种功能。存储器302可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备300的使用所创建的数据(比如音频数据、视频数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0100]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的风险预警装置、电子设备300及其相应单元的具体工作过程,可以参考本技术以上实施例中关于风险预警方法的说明,具体在此不再赘述。
[0101]
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
[0102]
为此,本技术实施例提供一种计算机可读的存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本技术以上实施例中风险预警方法中的步骤,比如:采集目标大数据组件的预设进程在预设时间窗口内的目标日志数据,所述目标日
志数据包括多条日志;将所述目标日志数据中的多条日志划分为多个日志处理单位数据;对所述多个日志处理单位数据分别进行特征提取,得到所述多个日志处理单位数据对应的多个日志特征矩阵;将所述多个日志特征矩阵分别输入日志状态判别模型,得到所述多个日志处理单位数据分别对应的状态,所述状态包括异常状态和稳定状态;根据所述多个日志处理单位数据分别对应的状态确定所述目标大数据组件的预设进程对应的风险等级。
[0103]
具体操作可参考本技术以上实施例中关于风险预警方法的说明,在此不再赘述。
[0104]
其中,该计算机可读的存储介质可以包括:只读存储器(rom,read only memory)、随机存取存储器(ram,random access memory)、磁盘或光盘等。
[0105]
由于该计算机可读存储介质中所存储的指令,可以执行本技术以上实施例中风险预警方法中的步骤,因此,可以实现本技术以上实施例中风险预警方法所能实现的有益效果,详见前面的说明,在此不再赘述。
[0106]
此外,本技术中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,而是某些实施例还包括没有列出的步骤或模块,或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
[0107]
以上对本技术所提供的一种科技风险管理系统、风险预警装置、方法及存储介质进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
技术特征:
1.一种风险预警方法,其特征在于,包括:采集目标大数据组件的预设进程在预设时间窗口内的目标日志数据,所述目标日志数据包括多条日志;将所述目标日志数据中的多条日志划分为多个日志处理单位数据;对所述多个日志处理单位数据分别进行特征提取,得到所述多个日志处理单位数据对应的多个日志特征矩阵;将所述多个日志特征矩阵分别输入日志状态判别模型,得到所述多个日志处理单位数据分别对应的状态,所述状态包括异常状态和稳定状态;根据所述多个日志处理单位数据分别对应的状态确定所述目标大数据组件的预设进程对应的风险等级。2.如权利要求1所述的风险预警方法,其特征在于,所述将所述目标日志数据中的多条日志划分为多个日志处理单位数据,包括:将所述目标日志数据中的多条日志按照时间排序,得到排序后的目标日志数据;将所述排序后的目标日志数据按照每预设数量条连续时间顺序的日志进行组合,得到多个日志组合;分别对所述多个日志组合中的每一日志组合中的日志进行拼接处理,得到多个日志处理单位数据。3.如权利要求2所述的风险预警方法,其特征在于,所述分别对所述多个日志组合中的每一日志组合中的日志进行拼接处理,得到多个日志处理单位数据,包括:在每一日志组合中加入起始符、分隔符、以及结束符,并进行合并处理,得到多个拼接日志,其中,所述起始符用于标记拼接日志中日志的起始位置,所述分隔符用于分隔拼接日志中不同条的日志,所述结束符用于标记拼接日志中日志的结束位置;获取所述多个拼接日志中每一拼接日志的单词数量;若存在拼接日志的单词数量大于预设阈值,则对拼接日志中日志的日志描述进行部分删除处理,使得拼接日志的单词数量为所述预设阈值;若存在拼接日志的单词数量小于所述预设阈值,则在拼接日志中填充填充符,使得拼接日志的单词数量为所述预设阈值,其中,所述填充符用于充当单词,对拼接日志的单词数量进行补充;将每一个拼接日志作为一个日志处理单位数据。4.如权利要求3所述的风险预警方法,其特征在于,所述对所述多个日志处理单位数据分别进行特征提取,得到所述多个日志处理单位数据对应的多个日志特征矩阵,包括:根据预设的对照字典对所述多个日志处理单位数据中的每一个日志处理单位数据中的单词进行数字化处理,得到每一个日志处理单位数据对应的单词特征向量,其中,所述预设的对照字典为将单词转化为数字的一个映射关系字典;将每一个日志处理单位数据对应的单词特征向量进行维度转换处理,得到每一个日志处理单位数据对应的单词特征矩阵;根据每一日志处理单位数据中包括的日志中不同单词的位置生成对应的位置特征矩阵;根据每一日志处理单位数据中包括的日志对应的分句编码、日志类型以及进程类型生
成附加特征矩阵,所述分句编码用于标记日志处理单位数据中的不同日志条;根据每一日志处理单位数据对应的单词特征矩阵、位置特征矩阵以及附加特征矩阵,得到所述多个日志处理单位数据对应的所述多个日志特征矩阵。5.如权利要求1所述的风险预警方法,其特征在于,所述日志状态判别模型包括依次连接的日志编码模块、第一全连接层、第二全连接层、第三全连接层以及第四全连接层,所述日志编码模块包括六个依次连接的transformer模型的编码模块,所述将所述多个日志特征矩阵分别输入日志状态判别模型,得到所述多个日志处理单位数据分别对应的状态,包括:将多个日志特征矩阵分别输入到所述日志编码模块,得到多个第一日志特征数据;将多个第一日志特征数据分别输入所述第一全连接层,得到多个第二日志特征数据;将多个第二日志特征数据分别输入所述第二全连接层,得到多个第三日志特征数据;将多个第三日志特征数据分别输入所述第三全连接层,得到多个第四日志特征数据;将多个第四日志特征数据分别输入所述第四全连接层,得到多个日志处理单位数据分别对应的状态。6.如权利要求1所述的风险预警方法,其特征在于,所述根据所述多个日志处理单位数据分别对应的状态确定所述目标大数据组件的预设进程对应的风险等级,包括:获取所述多个日志处理单位数据分别对应的状态中异常状态的占比值,并将所述占比值作为日志异常率;根据所述日志异常率确定所述目标大数据组件的预设进程对应的风险等级。7.如权利要求1至6任一项所述的风险预警方法,其特征在于,所述方法还包括:采集稳定状态的日志数据作为正例日志数据样本;采集异常状态的日志数据作为反例日志数据样本;将所述正例日志数据样本与所述反例日志数据样本作为训练所述日志状态判别模型的日志数据训练样本集。8.一种科技风险管理系统,其特征在于,所述科技风险管理系统包括相互通信连接的科技管理服务器、大数据组件以及科技风险管理服务器,其中,所述科技风险管理服务器用于执行如权利要求1至7任一项所述的风险预警方法。9.一种风险预警装置,其特征在于,包括用于执行如权利要求1至7任一项所述的风险预警方法的单元。10.一种计算机可读的存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至7任一项所述的风险预警方法。
技术总结
本申请提供一种科技风险管理系统及一种风险预警装置,该科技风险管理系统执行一种风险预警方法,包括:采集科技运营活动中的目标大数据组件的预设进程在预设时间窗口内的目标日志数据,将目标日志数据进行数据预处理,得到日志处理单位数据,将日志处理单位数据进行特征提取得到对应的日志特征矩阵,并将日志特征矩阵分别输入日志状态判别模型,得到日志处理单位数据对应的状态,根据日志处理单位数据对应的状态确定目标大数据组件的预设进程对应的风险等级。该科技风险管理系统通过构建全过程、主动型的科技风险监测管理体系、依托科技风险大数据和配置及关联关系管理实现组织科技风险计量、评级及风险控制的动态监测预警。警。警。
技术研发人员:王奕 邱雪雄 赵崇昌
受保护的技术使用者:深圳壹师城科技有限公司
技术研发日:2023.06.14
技术公布日:2023/8/5
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
