一种基于人工智能的数据合规检测方法、设备及介质与流程

未命名 07-26 阅读:106 评论:0


1.本说明书涉及数据检测技术领域,尤其涉及一种基于人工智能的数据合规检测方法、设备及介质。


背景技术:

2.伴随全球数字化的深入发展,数据已经成为驱动经济发展和技术创新的基础性战略资源。数据要素作为认定的第五大生产要素,打破了传统生产要素的常规理论,准确反映了当下经济社会发展的特征与趋势,数据正成为催动各行各业快速发展变革的核心竞争所在。不管是政府行政、企业生产经营,还是民众日常生活都无时不刻与数据产生密切的关联,加速数据要素流通,释放数字生产力成为推进数字经济、数字政府、数字社会发展的关键任务之一。
3.针对数据流通过程所涉及到的个人信息、企业财务等敏感数据信息是法律规定的隐私数据,无法进行流通交易。因此,在数据要素流通过程中,数据入驻平台之前需要对数据进行合规性的检测,从而确保数据流通的合规合法。目前基于卖家数据产品的监管大部分是靠人力与程序校验来完成,当数据量较大时,对应的检测数据的过程比较繁琐且需要耗费大量时间。


技术实现要素:

4.本说明书一个或多个实施例提供了一种基于人工智能的数据合规检测方法、设备及介质,用于解决如下技术问题:目前基于卖家数据产品的监管大部分是靠人力与程序校验来完成,当数据量较大时,对应的检测数据的过程比较繁琐且需要耗费大量时间。
5.本说明书一个或多个实施例采用下述技术方案:
6.本说明书一个或多个实施例提供一种基于人工智能的数据合规检测方法,应用于合规检测系统,所述方法包括:获取多个待检测的产品数据,以通过合规检测系统的数据前置域对每个所述产品数据进行隐私处理,生成多个待检测结果数据;通过所述合规检测系统的数据缓存域,对所述多个待检测结果数据进行任务调度,生成所述多个待检测结果数据对应的合规检测任务序列,其中,所述合规检测任务序列包括依次排列的多个合规检测任务,每个合规检测任务对应一个待检测结果数据;通过所述合规检测系统的合规检测域,按照所述合规检测任务序列,依次获取每个所述待检测结果数据对应的属性信息,其中,所述属性信息包括数据主体和主体行业属性;基于每个所述待检测结果数据对应的属性信息,通过预设的人工智能模型,对每个所述待检测结果数据进行规则匹配,确定每个所述待检测结果数据对应的合规检测规则,其中,所述合规检测规则包括行业规则和定制规则中的任意一项或多项;通过预设的数据合规检测模型和所述待检测结果数据对应的合规检测规则,对每个所述待检测结果数据进行合规检测,生成合规检测结果。
7.进一步地,通过所述合规检测系统的合规检测域,按照所述合规检测任务序列,依次获取每个所述待检测结果数据对应的属性信息之后,所述方法还包括:获取用于数据合
规检测的规则库中的指定规则,其中,所述指定规则包括通用规则;基于所述指定规则和所述属性信息,对每个所述待检测结果数据进行通用合规检测,得到每个所述待检测结果数据的合规性初判结果,其中,所述合规性初判结果包括所述待检测结果数据与所述指定规则的数据匹配度;通过每个所述待检测结果数据的合规性初判结果,对所述多个待检测结果数据进行筛选,得到符合要求的多个指定待检测结果数据,其中,所述符合要求的指定待检测结果数据的数据匹配度大于预设阈值。
8.进一步地,基于每个所述待检测结果数据对应的属性信息,通过预设的人工智能模型,对每个所述待检测结果数据进行规则匹配,确定每个所述待检测结果数据对应的合规检测规则,具体包括:将每个所述待检测结果数据拆分为多个数据字段;通过所述人工智能模型,根据每个所述待检测结果数据对应的属性信息和多个数据字段,确定每个所述待检测结果数据对应的合规检测规则的规则类型,其中,所述人工智能模型为机器学习模型;基于每个所述待检测结果数据对应的规则类型,在预设规则库中进行规则查找,确定出对应的合规检测规则。
9.进一步地,通过所述人工智能模型,根据每个所述待检测结果数据对应的属性信息和多个数据字段,确定每个所述待检测结果数据对应的合规检测规则的规则类型,具体包括:通过所述人工智能模型,基于每个所述待检测结果数据对应的属性信息,对每个所述数据字段设置字段标签;通过每个所述待检测结果数据对应的多个字段标签,在预先设置的规则映射关系表中,确定每个字段标签对应的规则类型,其中,所述规则映射关系表包括多个字段标签以及每个字段标签对应的规则类型。
10.进一步地,基于每个所述待检测结果数据对应的属性信息,通过预设的人工智能模型,对每个所述待检测结果数据进行规则匹配,确定每个所述待检测结果数据对应的合规检测规则之前,所述方法还包括:获取指定规则,其中,所述指定规则包括通用规则,用于进行合规检测;采集多个行业的行业属性信息,基于所述行业属性信息,确定每个行业对应的行业规则,其中,所述行业规则用于对所述行业的产品数据进行合规检测;基于所述指定规则和多个行业规则,构建规则库。
11.进一步地,通过所述合规检测系统的数据缓存域,对所述多个待检测结果数据进行任务调度,生成所述多个待检测结果数据对应的合规检测任务序列,具体包括:获取所述数据缓存域中存储的每个所述待检测结果数据的数据规格,并获取所述合规检测域的至少一个运行进程的进程属性,其中,每个所述运行进程的进程属性包括历史进程运行数据和当前运行状态;根据每个所述运行进程的历史进程运行数据,确定每个所述运行进程的平均运行速度和最大运行负载;基于每个所述运行进程的当前运行状态,在所述运行进程中,确定符合要求的至少一个指定运行进程,其中,所述指定运行进程的当前运行状态为等待运行状态;通过每个所述指定运行进程的平均运行速度、最大运行负载以及每个所述待检测结果数据的数据规格,对所述多个待检测结果数据进行任务调度,生成所述多个待检测结果数据对应的合规检测任务序列。
12.进一步地,通过预设的数据合规检测模型和所述待检测结果数据对应的合规检测规则,对每个所述待检测结果数据进行合规检测,生成合规检测结果之前,所述方法还包括:确定所述待检测结果数据的数据总量;基于所述待检测结果数据的数据总量,确定所述待检测结果数据的检测模式,其中,所述检测模式包括全数据检测模式和跳行检测模式。
13.进一步地,当所述待检测结果数据的检测模式为跳行检测模式时,所述方法还包括:按照预设的排列规则,将所述多个待检测结果数据进行排列,生成具备指定顺序的待检测结果数据组,并对每个所述待检测结果数据设置顺序编码;确定所述跳行检测模式对应的待检测顺序编码;在所述待检测结果数据组中,根据每个所述待检测结果数据的顺序编码,确定出与所述待检测顺序编码对应的多个第一待检测结果数据,以对每个所述第一待检测结果数据进行合规检测。
14.本说明书一个或多个实施例提供一种基于人工智能的数据合规检测设备,包括:
15.至少一个处理器;以及,
16.与所述至少一个处理器通信连接的存储器;其中,
17.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
18.获取多个待检测的产品数据,以通过合规检测系统的数据前置域对每个所述产品数据进行隐私处理,生成多个待检测结果数据;通过所述合规检测系统的数据缓存域,对所述多个待检测结果数据进行任务调度,生成所述多个待检测结果数据对应的合规检测任务序列,其中,所述合规检测任务序列包括依次排列的多个合规检测任务,每个合规检测任务对应一个待检测结果数据;通过所述合规检测系统的合规检测域,按照所述合规检测任务序列,依次获取每个所述待检测结果数据对应的属性信息,其中,所述属性信息包括数据主体和主体行业属性;基于每个所述待检测结果数据对应的属性信息,通过预设的人工智能模型,对每个所述待检测结果数据进行规则匹配,确定每个所述待检测结果数据对应的合规检测规则,其中,所述合规检测规则包括行业规则和定制规则中的任意一项或多项;通过预设的数据合规检测模型和所述待检测结果数据对应的合规检测规则,对每个所述待检测结果数据进行合规检测,生成合规检测结果。
19.本说明书一个或多个实施例提供的一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
20.获取多个待检测的产品数据,以通过合规检测系统的数据前置域对每个所述产品数据进行隐私处理,生成多个待检测结果数据;通过所述合规检测系统的数据缓存域,对所述多个待检测结果数据进行任务调度,生成所述多个待检测结果数据对应的合规检测任务序列,其中,所述合规检测任务序列包括依次排列的多个合规检测任务,每个合规检测任务对应一个待检测结果数据;通过所述合规检测系统的合规检测域,按照所述合规检测任务序列,依次获取每个所述待检测结果数据对应的属性信息,其中,所述属性信息包括数据主体和主体行业属性;基于每个所述待检测结果数据对应的属性信息,通过预设的人工智能模型,对每个所述待检测结果数据进行规则匹配,确定每个所述待检测结果数据对应的合规检测规则,其中,所述合规检测规则包括行业规则和定制规则中的任意一项或多项;通过预设的数据合规检测模型和所述待检测结果数据对应的合规检测规则,对每个所述待检测结果数据进行合规检测,生成合规检测结果。
21.本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:通过上述技术方案,通过设置数据前置域对数据进行隐私处理,避免了检测过程中隐私数据的泄露,保证了隐私数据的安全性;设置数据缓存域,提供数据集合缓存能力,并且进行检测任务调度,使得合规检测任务能够依序执行,同时避免任务拥塞、资源抢占等问题的发生;确定每
个待检测结果数据对应的合规检测规则,进行深度的规则匹配,并通过人工智能模型的形式对数据进行合规检测,使得合规检测的结果越来越准确,在系统的入口信息收集阶段可以用更少的信息就可以获得很好的结果,实现了数据合规检测的非程式化检测。
附图说明
22.为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
23.图1为本说明书实施例提供的一种基于人工智能的数据合规检测方法的流程示意图;
24.图2为本说明书实施例提供的一种合规检测系统的系统架构示意图;
25.图3为本说明书实施例提供的一种基于人工智能的数据合规检测设备的结构示意图。
具体实施方式
26.为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
27.伴随全球数字化的深入发展,数据已经成为驱动经济发展和技术创新的基础性战略资源。数据要素作为认定的第五大生产要素,打破了传统生产要素的常规理论,准确反映了当下经济社会发展的特征与趋势,数据正成为催动各行各业快速发展变革的核心竞争所在。不管是政府行政、企业生产经营,还是民众日常生活都无时不刻与数据产生密切的关联,加速数据要素流通,释放数字生产力成为推进数字经济、数字政府、数字社会发展的关键任务之一。
28.针对数据流通过程所涉及到的个人信息、企业财务等敏感数据信息是法律规定的隐私数据,无法进行流通交易。因此,在数据要素流通过程中,数据入驻平台之前需要对数据进行合规性的检测,从而确保数据流通的合规合法。目前基于卖家数据产品的监管大部分是靠人力与程序校验来完成,当数据量较大时,对应的检测数据的过程比较繁琐且需要耗费大量时间。
29.本说明书实施例提供一种基于人工智能的数据合规检测方法,需要说明的是,本说明书实施例中的执行主体可以是服务器,也可以是任意一种具备数据处理能力的设备。图1为本说明书实施例提供的一种基于人工智能的数据合规检测方法的流程示意图,应用于合规检测系统,如图1所示,主要包括如下步骤:
30.步骤s101,获取多个待检测的产品数据,以通过合规检测系统的数据前置域对每个产品数据进行隐私处理,生成多个待检测结果数据。
31.在本说明书的一个实施例中,基于人工智能的数据合规检测方法可以应用于合规
检测系统,该合规检测系统包括数据前置域、数据缓存域以及合规检测域。图2为本说明实施例提供的一种合规检测系统的系统架构示意图,如图2所示,数据前置域用于对非隐私数据进行基础的数据标准与治理,隐私数据可以通过提供最终结果集或者模型进行数据调用获得数据;数据前置域主要负责数据集的标准、治理、质量等准备工作,也包含隐私数据的对接任务,隐私数据通过隐私计算技术最终生成的结果集,或者算法参数维度等需要最终转化成结果数据的形式进行提交,数据前置域负责提供数据的治理、标准、质量检测能力,同时对接隐私数据结果的获取。
32.在获取数据之后,将数据集提交到数据缓存域,并发起合规检测任务需求,数据缓存域根据目前任务执行情况与资源占用情况进行任务编排;数据缓存域提供合规检测之前的数据缓存能力,为合规检测系统提供高可用的容错机制,提供任务编排能力,合理分配合规检测域的任务调度,数据集合缓存能力使得合规检测任务能够依序执行,同时避免任务拥塞、资源抢占等问题的发生。
33.编排任务提交到合规检测域进行合规检测任务,人工智能获取数据集合的主体、行业、经营范围等相关数据属性,对数据集做初步的识别,并对数据集依字段进行标签-规则映射,通过不断的机器学习过程,标签-规则的映射会更加精准,然后根据通用规则、行业规则/定制规则依次进行合规检测。此外,检测过程会动态判断数据量与单数据全覆盖检测的必要性,如非必要全量单数据检测,则调用跳行检测模型进行数据集跳行检测,增加检测效率。通过不断的数据集的合规检测任务,结合人工智能机器学习,会不断的通过学习完善检测算法提升检测能力。也就是说,“合规检测域”是系统的核心模块,合规检测域获取合规数据的属性信息,例如主体名称、主体经营范围、主体行业等属性,结合规则库的通用规则进行一轮数据合规检测任务,在此合规检测任务之后,数据集中的数据会被系统模型越来越精准的识别出第二次识别的规则类型,需要说明的是,该模型可以通过不断的学习,对数据字段的数据进行标签画像,下一次需要检测的数据字段就会被更准确的识别出需要匹配何种规则,从而检测效率会越来越高。之后,通过收集的行业属性信息或者是否需要走定制规则来引入行业规则/定制规则库进行再进一步的检测过程,整个检测过程会结合实际情况动态调整检测模式。
34.海量数据检测逐条检测耗时耗力,如果无需定位每条数据的合规性则可用引入跳行检测,动态引入跳行检测机制增加检测能力与效率,最终实现数据合规的检测。通过不断的任务执行,机器学习会不断的进行学习更新检测能力,从而最终实现数据合规检测的高效与高质量检测。
35.在本说明书的一个实施例中,获取多个待检测的产品数据,可以是数据集的形式,通过合规检测系统的数据前置域对每个产品数据进行隐私处理,生成多个待检测结果数据,需要说明的是,可以将产品数据分为隐私数据和非隐私数据,通过隐私计算技术对隐私数据进行隐私处理,将处理后的隐私数据以及非隐私数据作为待检测结果数据;也可以对每个产品数据通过隐私计算技术进行隐私处理,将处理后的数据作为待检测结果数据。
36.步骤s102,通过合规检测系统的数据缓存域,对多个待检测结果数据进行任务调度,生成多个待检测结果数据对应的合规检测任务序列。
37.由于待检测数据的数据量较大,若直接将数据前置域处理后的数据进行合规检测,若出现设备宕机等故障,容易造成数据丢失,并且数据量较大时容易出现任务拥塞或资
源抢占的问题。
38.在本说明书的一个实施例中,将多个待检测结果数据存储至数据缓存域中,并且根据多个待检测结果数据,生成对应的合规检测任务,通过数据缓存域对多个合规检测任务进行任务调度,生成合规检测任务序列,其中,该合规检测任务序列包括依次排列的多个合规检测任务,每个合规检测任务对应一个待检测结果数据。
39.通过该合规检测系统的数据缓存域,对该多个待检测结果数据进行任务调度,生成该多个待检测结果数据对应的合规检测任务序列,具体包括:获取该数据缓存域中存储的每个该待检测结果数据的数据规格,并获取该合规检测域的至少一个运行进程的进程属性,其中,每个该运行进程的进程属性包括历史进程运行数据和当前运行状态;根据每个该运行进程的历史进程运行数据,确定每个该运行进程的平均运行速度和最大运行负载;基于每个该运行进程的当前运行状态,在该运行进程中,确定符合要求的至少一个指定运行进程,其中,该指定运行进程的当前运行状态为等待运行状态;通过每个该指定运行进程的平均运行速度、最大运行负载以及每个该待检测结果数据的数据规格,对该多个待检测结果数据进行任务调度,生成该多个待检测结果数据对应的合规检测任务序列。
40.在本说明书的一个实施例中,获取数据缓存域中存储的每个该待检测结果数据的数据规格以及合规检测域的至少一个运行进程的进程属性,此处的数据规格可以是数据大小,进程属性包括历史进程运行数据和当前运行状态,历史进程运行数据可以是该进程在历史运行时的历史运行速度和历史运行负载,当前运行状态可以包括等待运行状态、运行中状态。根据每个运行进程的历史进程运行数据,计算每个该运行进程的平均运行速度,并且获取该运行进程的多个历史运行负载中的最大运行负载。基于每个运行进程的当前运行状态,在运行进程中,确定当前运行状态为等待运行状态的至少一个指定运行进程。通过每个待检测结果数据的数据规格,确定出该检测数据对应的进程标准需求,按照进程标准需求以及每个指定运行进程的平均运行速度、最大运行负载,确定出多个待选进程,在多个待选进程中确定出运行速度最快,排队等待时间最小的进程作为合规检测任务进程。由于一个进程会存在依次处理多个待检测结果数据的情况,因此,按照执行顺序,生成合规检测任务序列。
41.步骤s103,通过合规检测系统的合规检测域,按照合规检测任务序列,依次获取每个待检测结果数据对应的属性信息。
42.在本说明书的一个实施例中,通过合规检测系统的合规检测域,按照合规检测任务序列的处理进程和处理顺序,依次获取每个待检测结果数据对应的属性信息,其中,该属性信息包括数据主体和主体行业属性,也就是说,该数据的拥有主体的数据主体标识,以及该数据对应的主体行业属性。
43.通过该合规检测系统的合规检测域,按照该合规检测任务序列,依次获取每个该待检测结果数据对应的属性信息之后,该方法还包括:获取用于数据合规检测的规则库中的指定规则,其中,该指定规则包括通用规则;基于该指定规则和该属性信息,对每个该待检测结果数据进行通用合规检测,得到每个该待检测结果数据的合规性初判结果,其中,该合规性初判结果包括该待检测结果数据与该指定规则的数据匹配度;通过每个该待检测结果数据的合规性初判结果,对该多个待检测结果数据进行筛选,得到符合要求的多个指定待检测结果数据,其中,该符合要求的指定待检测结果数据的数据匹配度大于预设阈值。
44.在本说明书的一个实施例中,为了提高对数据合规检测的准确性和检测效率,获取用于数据合规检测的规则库中的指定规则,指定规则包括通用规则,此处的通用规则是指国家规定的数据合规标准规则,也可以理解为所有行业中共同的合规规则,例如,身份证的规则。使用通用规则和数据属性信息,对每个该待检测结果数据进行通用合规检测,得到每个该待检测结果数据的合规性初判结果合规性初判结果包括该待检测结果数据与该指定规则的数据匹配度,此处的数据匹配度也可称为规则匹配度,还可以称为合规率,根据每个待检测结果数据的合规率,对多个待检测结果数据进行筛选,得到合规率大于预设阈值的多个指定待检测结果数据。需要说明的是,对于合规率较低的待检测结果数据,无需进行后续精确的识别,可以直接认定为不合规数据。通过上述技术方案,对大量的数据进行数据初筛,降低了数据合规检测的数量,进一步提高了检测效率。
45.步骤s104,基于每个待检测结果数据对应的属性信息,通过预设的人工智能模型,对每个待检测结果数据进行规则匹配,确定每个待检测结果数据对应的合规检测规则。
46.其中,该合规检测规则包括行业规则和定制规则中的任意一项或多项;
47.基于每个该待检测结果数据对应的属性信息,通过预设的人工智能模型,对每个该待检测结果数据进行规则匹配,确定每个该待检测结果数据对应的合规检测规则之前,该方法还包括:获取指定规则,其中,该指定规则包括通用规则,用于进行合规检测;采集多个行业的行业属性信息,基于该行业属性信息,确定每个行业对应的行业规则,其中,该行业规则用于对该行业的产品数据进行合规检测;基于该指定规则和多个行业规则,构建规则库。
48.在本说明书的一个实施例中,预先构建规则库,此处的规则库中包括通用规则,还包括行业规则。首先,通过官方渠道获取官方规定的通用规则,也可以理解为所有行业中共同的合规规则,例如,身份证的规则。此外,获取多个行业的行业属性信息,此处的行业属性信息包括行业类别,根据每个行业的行业类别,确定该行业的行业数据合规规则,行业规则为该行业适用的合规规则,用于对行业的产品数据进行合规检测;根据指定规则和多个行业规则,构建规则库。
49.基于每个该待检测结果数据对应的属性信息,通过预设的人工智能模型,对每个该待检测结果数据进行规则匹配,确定每个该待检测结果数据对应的合规检测规则,具体包括:将每个该待检测结果数据拆分为多个数据字段;通过该人工智能模型,根据每个该待检测结果数据对应的属性信息和多个数据字段,确定每个该待检测结果数据对应的合规检测规则的规则类型,其中,该人工智能模型为机器学习模型;基于每个该待检测结果数据对应的规则类型,在预设规则库中进行规则查找,确定出对应的合规检测规则。
50.通过该人工智能模型,根据每个该待检测结果数据对应的属性信息和多个数据字段,确定每个该待检测结果数据对应的合规检测规则的规则类型,具体包括:通过该人工智能模型,基于每个该待检测结果数据对应的属性信息,对每个该数据字段设置字段标签;通过每个该待检测结果数据对应的多个字段标签,在预先设置的规则映射关系表中,确定每个字段标签对应的规则类型,其中,该规则映射关系表包括多个字段标签以及每个字段标签对应的规则类型。
51.在本说明书的一个实施例中,预先构建人工智能模型,此处的人工智能模型为机器学习模型,预先通过训练数据集对模型进行训练,以使得该人工智能模型具备合规检测
的能力。将每个待检测结果数据拆分为多个数据字段,通过人工智能模型,基于每个该待检测结果数据对应的属性信息,对每个该数据字段设置字段标签;通过每个待检测结果数据对应的多个字段标签,在预先设置的规则映射关系表中,确定每个字段标签对应的规则类型,规则映射关系表包括多个字段标签以及每个字段标签对应的规则类型。需要说明的是,字段标签可以是行业标签,也可以是其他标签,规则映射关系表为预先构建的标签和不同行业规则之间的映射关系,还可以是标签和不同定制规则之间的映射关系。根据每个待检测结果数据对应的规则类型,在规则库中进行规则查找,确定出对应的合规检测规则。
52.步骤s105,通过预设的数据合规检测模型和待检测结果数据对应的合规检测规则,对每个待检测结果数据进行合规检测,生成合规检测结果。
53.在本说明书的一个实施例中,预先构建数据合规检测模型,并通过数据合规数据库对数据合规检测模型进行模型训练,通过训练后的数据合规检测模型和待检测结果数据对应的合规检测规则,对每个待检测结果数据进行合规检测,生成合规检测结果。在生成合规检测结果后,将合规检测结果和待检测结果数据存储至数据合规数据库中,丰富模型训练数据集,通过不断的任务执行,机器学习会不断的进行学习更新检测能力,从而最终实现数据合规检测的高效与高质量检测。也就是说,随着不断的数据卖出,会重新进入学习周期完善合规检测模型,增加合规检测模型的检测精准度,提高规则检测能力。
54.通过预设的数据合规检测模型和该待检测结果数据对应的合规检测规则,对每个该待检测结果数据进行合规检测,生成合规检测结果之前,该方法还包括:确定该待检测结果数据的数据总量;基于该待检测结果数据的数据总量,确定该待检测结果数据的检测模式,其中,该检测模式包括全数据检测模式和跳行检测模式。
55.当该待检测结果数据的检测模式为跳行检测模式时,该方法还包括:按照预设的排列规则,将该多个待检测结果数据进行排列,生成具备指定顺序的待检测结果数据组,并对每个该待检测结果数据设置顺序编码;确定该跳行检测模式对应的待检测顺序编码;在该待检测结果数据组中,根据每个该待检测结果数据的顺序编码,确定出与该待检测顺序编码对应的多个第一待检测结果数据,以对每个该第一待检测结果数据进行合规检测。
56.在本说明书的一个实施例中,确定待检测结果数据的数据总量,当数据总量大于预设数据总量阈值时,确定待检测结果数据的检测模式为跳行检测模式。当数据总量不大于预设数据总量阈值时,确定待检测结果数据的检测模式为全数据检测模式。需要说明的是,全数据检测模式和跳行检测模式的区别在于,全数据检测模式对所有的数据都进行合规检测,但是跳行检测模式中对部分数据进行合规检测。
57.在本说明书的一个实施例中,当待检测结果数据的检测模式为跳行检测模式时,按照预设的排列顺序,将多个待检测结果数据进行排列,生成具备指定顺序的待检测结果数据组,此处预设的排列顺序可以是按数据的行进行排列。对每个待检测结果数据设置顺序编码,确定跳行检测模式对应的待检测顺序编码,也就是说,跳行检测模式对应的需要检测的顺序编码,例如单数编码、双数编码、随机编码等,也就是对第一行的数据进行合规检测、对三行的数据进行合规检测,或对第二行、第四行的数据进行合规检测,还可以随机选取顺序编码,实现随机顺序跳行检测等。在该待检测结果数据组中,根据每个该待检测结果数据的顺序编码,确定出待检测顺序编码对应的多个第一待检测结果数据,以对每个该第一待检测结果数据进行合规检测。
58.在本说明书的一个实施例中,由于合规检测的数据量较大,在较为紧迫的应用场景下,对合规检测的效率提出了更高的要求,为了在提高检测速度的前提下,保证检测质量,可以根据历史跳行检测对应的合规检测结果,选择效果较好的跳行方式。
59.根据待检测结果数据的数据主体和主体行业属性,确定同一数据主体和同一主体行业属性的多个历史待检测结果数据的历史合规检测属性,其中,该历史合规检测属性包括历史合规检测的跳行检测方式和历史合规检测结果。例如,a公司的金融行业数据组成的历史待检测结果数据。此处的跳行检测方式包括单数编码跳行检测、双数编码跳行检测和随机编码跳行检测中,该历史合规检测结果中包括历史数据合规率。获取单数编码跳行检测的多个历史数据合规率,计算多个历史数据合规率的平均值,作为单数编码检测合规率;同样地,获取双数编码跳行检测的多个历史数据合规率,计算平均值,作为双数编码跳行检测合规率;获取随机编码跳行检测的多个历史数据合规率,计算平均值,作为随机编码跳行检测合规率。选择单数编码检测合规率、双数编码跳行检测合规率和随机编码跳行检测合规率中最低的合规率对应的检测方式作为跳行检测对应的当前检测方式。
60.在得到合规检测结果之后,将选择的当前检测方式和对应的合规检测结果存储到历史待检测结果数据对应的数据集中,以便于下一次对同一数据主体和同一行业数据进行合规检测时,根据当前检测方式和对应的合规检测结果确定下一次的检测方式。在数据量大、检测任务较为紧迫的应用场景下,既可以保证跳行检测的检测速度,又可以提高检测的准确性,还具备数据主体和数据行业属性的针对性。
61.通过上述技术方案,通过设置数据前置域对数据进行隐私处理,避免了检测过程中隐私数据的泄露,保证了隐私数据的安全性;设置数据缓存域,提供数据集合缓存能力,并且进行检测任务调度,使得合规检测任务能够依序执行,同时避免任务拥塞、资源抢占等问题的发生;确定每个待检测结果数据对应的合规检测规则,进行深度的规则匹配,并通过人工智能模型的形式对数据进行合规检测,使得合规检测的结果越来越准确,在系统的入口信息收集阶段可以用更少的信息就可以获得很好的结果,实现了数据合规检测的非程式化检测。
62.本说明书实施例还提供一种基于人工智能的数据合规检测设备,如图3所示,设备包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
63.获取多个待检测的产品数据,以通过合规检测系统的数据前置域对每个该产品数据进行隐私处理,生成多个待检测结果数据;通过该合规检测系统的数据缓存域,对该多个待检测结果数据进行任务调度,生成该多个待检测结果数据对应的合规检测任务序列,其中,该合规检测任务序列包括依次排列的多个合规检测任务,每个合规检测任务对应一个待检测结果数据;通过该合规检测系统的合规检测域,按照该合规检测任务序列,依次获取每个该待检测结果数据对应的属性信息,其中,该属性信息包括数据主体和主体行业属性;基于每个该待检测结果数据对应的属性信息,通过预设的人工智能模型,对每个该待检测结果数据进行规则匹配,确定每个该待检测结果数据对应的合规检测规则,其中,该合规检测规则包括行业规则和定制规则中的任意一项或多项;通过预设的数据合规检测模型和该待检测结果数据对应的合规检测规则,对每个该待检测结果数据进行合规检测,生成合规检测结果。
64.本说明书实施例还提供一种非易失性计算机存储介质,存储有计算机可执行指令,计算机可执行指令设置为:
65.获取多个待检测的产品数据,以通过合规检测系统的数据前置域对每个该产品数据进行隐私处理,生成多个待检测结果数据;通过该合规检测系统的数据缓存域,对该多个待检测结果数据进行任务调度,生成该多个待检测结果数据对应的合规检测任务序列,其中,该合规检测任务序列包括依次排列的多个合规检测任务,每个合规检测任务对应一个待检测结果数据;通过该合规检测系统的合规检测域,按照该合规检测任务序列,依次获取每个该待检测结果数据对应的属性信息,其中,该属性信息包括数据主体和主体行业属性;基于每个该待检测结果数据对应的属性信息,通过预设的人工智能模型,对每个该待检测结果数据进行规则匹配,确定每个该待检测结果数据对应的合规检测规则,其中,该合规检测规则包括行业规则和定制规则中的任意一项或多项;通过预设的数据合规检测模型和该待检测结果数据对应的合规检测规则,对每个该待检测结果数据进行合规检测,生成合规检测结果。
66.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
67.上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
68.本说明书实施例提供的设备和介质与方法是一一对应的,因此,设备和介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述设备和介质的有益技术效果。
69.本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
70.本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
71.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指
令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
72.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
73.在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
74.内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
75.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
76.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
77.以上所述仅为本说明书的一个或多个实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

技术特征:
1.一种基于人工智能的数据合规检测方法,其特征在于,应用于合规检测系统,所述方法包括:获取多个待检测的产品数据,以通过合规检测系统的数据前置域对每个所述产品数据进行隐私处理,生成多个待检测结果数据;通过所述合规检测系统的数据缓存域,对所述多个待检测结果数据进行任务调度,生成所述多个待检测结果数据对应的合规检测任务序列,其中,所述合规检测任务序列包括依次排列的多个合规检测任务,每个合规检测任务对应一个待检测结果数据;通过所述合规检测系统的合规检测域,按照所述合规检测任务序列,依次获取每个所述待检测结果数据对应的属性信息,其中,所述属性信息包括数据主体和主体行业属性;基于每个所述待检测结果数据对应的属性信息,通过预设的人工智能模型,对每个所述待检测结果数据进行规则匹配,确定每个所述待检测结果数据对应的合规检测规则,其中,所述合规检测规则包括行业规则和定制规则中的任意一项或多项;通过预设的数据合规检测模型和所述待检测结果数据对应的合规检测规则,对每个所述待检测结果数据进行合规检测,生成合规检测结果。2.根据权利要求1所述的一种基于人工智能的数据合规检测方法,其特征在于,通过所述合规检测系统的合规检测域,按照所述合规检测任务序列,依次获取每个所述待检测结果数据对应的属性信息之后,所述方法还包括:获取用于数据合规检测的规则库中的指定规则,其中,所述指定规则包括通用规则;基于所述指定规则和所述属性信息,对每个所述待检测结果数据进行通用合规检测,得到每个所述待检测结果数据的合规性初判结果,其中,所述合规性初判结果包括所述待检测结果数据与所述指定规则的数据匹配度;通过每个所述待检测结果数据的合规性初判结果,对所述多个待检测结果数据进行筛选,得到符合要求的多个指定待检测结果数据,其中,所述符合要求的指定待检测结果数据的数据匹配度大于预设阈值。3.根据权利要求1所述的一种基于人工智能的数据合规检测方法,其特征在于,基于每个所述待检测结果数据对应的属性信息,通过预设的人工智能模型,对每个所述待检测结果数据进行规则匹配,确定每个所述待检测结果数据对应的合规检测规则,具体包括:将每个所述待检测结果数据拆分为多个数据字段;通过所述人工智能模型,根据每个所述待检测结果数据对应的属性信息和多个数据字段,确定每个所述待检测结果数据对应的合规检测规则的规则类型,其中,所述人工智能模型为机器学习模型;基于每个所述待检测结果数据对应的规则类型,在预设规则库中进行规则查找,确定出对应的合规检测规则。4.根据权利要求3所述的一种基于人工智能的数据合规检测方法,其特征在于,通过所述人工智能模型,根据每个所述待检测结果数据对应的属性信息和多个数据字段,确定每个所述待检测结果数据对应的合规检测规则的规则类型,具体包括:通过所述人工智能模型,基于每个所述待检测结果数据对应的属性信息,对每个所述数据字段设置字段标签;通过每个所述待检测结果数据对应的多个字段标签,在预先设置的规则映射关系表
中,确定每个字段标签对应的规则类型,其中,所述规则映射关系表包括多个字段标签以及每个字段标签对应的规则类型。5.根据权利要求1所述的一种基于人工智能的数据合规检测方法,其特征在于,基于每个所述待检测结果数据对应的属性信息,通过预设的人工智能模型,对每个所述待检测结果数据进行规则匹配,确定每个所述待检测结果数据对应的合规检测规则之前,所述方法还包括:获取指定规则,其中,所述指定规则包括通用规则,用于进行合规检测;采集多个行业的行业属性信息,基于所述行业属性信息,确定每个行业对应的行业规则,其中,所述行业规则用于对所述行业的产品数据进行合规检测;基于所述指定规则和多个行业规则,构建规则库。6.根据权利要求1所述的一种基于人工智能的数据合规检测方法,其特征在于,通过所述合规检测系统的数据缓存域,对所述多个待检测结果数据进行任务调度,生成所述多个待检测结果数据对应的合规检测任务序列,具体包括:获取所述数据缓存域中存储的每个所述待检测结果数据的数据规格,并获取所述合规检测域的至少一个运行进程的进程属性,其中,每个所述运行进程的进程属性包括历史进程运行数据和当前运行状态;根据每个所述运行进程的历史进程运行数据,确定每个所述运行进程的平均运行速度和最大运行负载;基于每个所述运行进程的当前运行状态,在所述运行进程中,确定符合要求的至少一个指定运行进程,其中,所述指定运行进程的当前运行状态为等待运行状态;通过每个所述指定运行进程的平均运行速度、最大运行负载以及每个所述待检测结果数据的数据规格,对所述多个待检测结果数据进行任务调度,生成所述多个待检测结果数据对应的合规检测任务序列。7.根据权利要求1所述的一种基于人工智能的数据合规检测方法,其特征在于,通过预设的数据合规检测模型和所述待检测结果数据对应的合规检测规则,对每个所述待检测结果数据进行合规检测,生成合规检测结果之前,所述方法还包括:确定所述待检测结果数据的数据总量;基于所述待检测结果数据的数据总量,确定所述待检测结果数据的检测模式,其中,所述检测模式包括全数据检测模式和跳行检测模式。8.根据权利要求7所述的一种基于人工智能的数据合规检测方法,其特征在于,当所述待检测结果数据的检测模式为跳行检测模式时,所述方法还包括:按照预设的排列规则,将所述多个待检测结果数据进行排列,生成具备指定顺序的待检测结果数据组,并对每个所述待检测结果数据设置顺序编码;确定所述跳行检测模式对应的待检测顺序编码;在所述待检测结果数据组中,根据每个所述待检测结果数据的顺序编码,确定出与所述待检测顺序编码对应的多个第一待检测结果数据,以对每个所述第一待检测结果数据进行合规检测。9.一种基于人工智能的数据合规检测设备,其特征在于,所述设备包括:至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:获取多个待检测的产品数据,以通过合规检测系统的数据前置域对每个所述产品数据进行隐私处理,生成多个待检测结果数据;通过所述合规检测系统的数据缓存域,对所述多个待检测结果数据进行任务调度,生成所述多个待检测结果数据对应的合规检测任务序列,其中,所述合规检测任务序列包括依次排列的多个合规检测任务,每个合规检测任务对应一个待检测结果数据;通过所述合规检测系统的合规检测域,按照所述合规检测任务序列,依次获取每个所述待检测结果数据对应的属性信息,其中,所述属性信息包括数据主体和主体行业属性;基于每个所述待检测结果数据对应的属性信息,通过预设的人工智能模型,对每个所述待检测结果数据进行规则匹配,确定每个所述待检测结果数据对应的合规检测规则,其中,所述合规检测规则包括行业规则和定制规则中的任意一项或多项;通过预设的数据合规检测模型和所述待检测结果数据对应的合规检测规则,对每个所述待检测结果数据进行合规检测,生成合规检测结果。10.一种非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为:获取多个待检测的产品数据,以通过合规检测系统的数据前置域对每个所述产品数据进行隐私处理,生成多个待检测结果数据;通过所述合规检测系统的数据缓存域,对所述多个待检测结果数据进行任务调度,生成所述多个待检测结果数据对应的合规检测任务序列,其中,所述合规检测任务序列包括依次排列的多个合规检测任务,每个合规检测任务对应一个待检测结果数据;通过所述合规检测系统的合规检测域,按照所述合规检测任务序列,依次获取每个所述待检测结果数据对应的属性信息,其中,所述属性信息包括数据主体和主体行业属性;基于每个所述待检测结果数据对应的属性信息,通过预设的人工智能模型,对每个所述待检测结果数据进行规则匹配,确定每个所述待检测结果数据对应的合规检测规则,其中,所述合规检测规则包括行业规则和定制规则中的任意一项或多项;通过预设的数据合规检测模型和所述待检测结果数据对应的合规检测规则,对每个所述待检测结果数据进行合规检测,生成合规检测结果。

技术总结
本说明书实施例公开了一种基于人工智能的数据合规检测方法、设备及介质,涉及数据检测技术领域,方法包括:获取多个待检测的产品数据,以通过合规检测系统的数据前置域,生成多个待检测结果数据;通过合规检测系统的数据缓存域进行任务调度,生成多个待检测结果数据对应的合规检测任务序列;通过合规检测系统的合规检测域,按照合规检测任务序列,依次获取每个待检测结果数据对应的属性信息;基于对应的属性信息,通过预设的人工智能模型对每个待检测结果数据进行规则匹配,确定每个待检测结果数据对应的合规检测规则;通过预设的数据合规检测模型和待检测结果数据对应的合规检测规则,对每个待检测结果数据进行合规检测,生成合规检测结果。成合规检测结果。成合规检测结果。


技术研发人员:李源 单震 谢传家 唐婧
受保护的技术使用者:浪潮卓数大数据产业发展有限公司
技术研发日:2023.04.21
技术公布日:2023/7/25
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐