一种用于公务用车审计的异常检测方法及系统与流程

未命名 10-19 阅读:83 评论:0


1.本发明涉及异常检测技术领域,尤其涉及一种用于公务用车审计的异常检测方法及系统。


背景技术:

2.目前公务用车审计存在以下痛点和难点:
3.异常检测等机器学习方法已经在互联网等领域有不少的应用实例,但在审计领域的应用才刚开始,国内机器学习算法在审计领域的研究大部分还处于理论研究阶段,很多都是研究大数据审计平台和框架的构建等,还未将其在审计工作中加以实际应用。而且基本没有机器学习算法在公车审计中的研究成果。
4.由于现有多元异构的公车审计数据急速增长,用sql语句筛选疑点的一般计算机审计方法出现了一定的局限性,现阶段公务用车审计面临着巨大挑战。
5.机器学习正好能更敏锐深刻的洞察数据,能发现一般计算机审计方法不能找到的隐蔽疑点。


技术实现要素:

6.为解决现有技术的不足,本发明提出一种用于公务用车审计的异常检测方法及系统,针对现有审计方法对有标记的公车数据难以快速准确识别出疑点的问题,研究一种基于加权平均gbdt_knn的公车审计模型。将gbdt集成算法和knn分类算法进行融合,可综合gbdt算法的高识别能力和knn算法的快速分类能力,来辅助公车审计快速准确地识别疑点数据,提高公车审计效率。
7.为实现以上目的,本发明所采用的技术方案包括:
8.一种用于公务用车审计的异常检测方法,其特征在于,包括:
9.s1、获取标准化公车审计表;对标准化公车审计表中的加油数据集和维修数据集分别用smote算法进行过采样处理;
10.s2、基于加权平均方法通过融合权重将gbdt集成算法和knn分类算法进行融合;所述融合权重为经过多次迭代数据集达到迭代停止条件时获得;构建基于加权平均gbdt_knn的公车审计模型;
11.s3、获得加油数据集的融合权重,将加油数据集的融合权重以及加油数据集输入至基于加权平均gbdt_knn的公车审计模型,获得加油疑点数据;
12.s4、获得维修数据集的融合权重,将维修数据集的融合权重以及维修数据集输入至基于加权平均gbdt_knn的公车审计模型,获得维修疑点数据;
13.s5、将加油疑点数据与维修疑点数据进行整合,得到整合疑点数据。
14.进一步地,所述步骤s1之前还包括:
15.采集公务用车原始数据;对所述公务用车原始数据进行特征选择和数据集成,得到预处理后数据;
16.根据已有公车特征结合审计需要,构建公车审计特征,所述公车审计特征包括:加油特征及维修特征;
17.基于处理后数据建立包含所述公车审计特征的公车审计表;所述公车审计表包括:加油数据集以及维修数据集;
18.将公车审计表进行数据清洗以及删除或填充空缺值,得到清洗后的公车审计表;
19.将清洗后的公车审计表中离散型特征进行独热编码,转换为数值型特征;对数值型特征中属性值差距大的特征进行标准化,得到标准化公车审计表。
20.进一步地,所述迭代停止条件为评价指标达到预设阈值;所述预设阈值为0.96。
21.进一步地,所述步骤s2包括分步骤;
22.随机初始化预测权重;通过gbdt算法及knn算法计算预测权重,得到预测权重结果;
23.通过最小化方法最小化损失函数,通过约束条件对初始权重进行优化,得到最小化权重结果;
24.将最小化权重结果与预测权重结果通过加权计算得到加权预测值;
25.将加权预测值输入至评价权重的指标函数,得到每次迭代的评价指标;
26.对比每次迭代的评价指标是否达到预设阈值;
27.若迭代的评价指标达到预设阈值,则停止迭代,并输出迭代的评价指标与加权预测值;所述加权预测值为融合权重。
28.进一步地,所述最小化方法为顺序最小二乘法。
29.进一步地,所述步骤s1还包括:将过采样处理后的加油数据集划分为加油数据训练集以及加油数据测试集;将过采样处理后的维修数据集划分为维修数据训练集以及维修数据测试集。
30.本发明还涉及一种用于公务用车审计的异常检测系统,其特征在于,包括:
31.标准化公车审计表模块,用于获取标准化公车审计表;对标准化公车审计表中的加油数据集和维修数据集分别用smote算法进行过采样处理;
32.模型构建模块,用于基于加权平均方法通过融合权重将gbdt集成算法和knn分类算法进行融合;所述融合权重为经过多次迭代数据集达到迭代停止条件时获得;构建基于加权平均gbdt_knn的公车审计模型;
33.疑点数据计算模块,用于获得加油数据集的融合权重,将加油数据集的融合权重以及加油数据集输入至基于加权平均gbdt_knn的公车审计模型,获得加油疑点数据;获得维修数据集的融合权重,将维修数据集的融合权重以及维修数据集输入至基于加权平均gbdt_knn的公车审计模型,获得维修疑点数据;
34.疑点数据整合模块,用于将加油疑点数据与维修疑点数据进行整合,得到整合疑点数据。
35.进一步地,还包括:
36.数据采集模块,用于采集公务用车原始数据;对所述公务用车原始数据进行特征选择和数据集成,得到预处理后数据;
37.特征构建模块,用于根据已有公车特征结合审计需要,构建公车审计特征,所述公车审计特征包括:加油特征及维修特征;
38.数据处理模块,用于基于处理后数据建立包含所述公车审计特征的公车审计表;所述公车审计表包括:加油数据集以及维修数据集;将公车审计表进行数据清洗以及删除或填充空缺值,得到清洗后的公车审计表;将清洗后的公车审计表中离散型特征进行独热编码,转换为数值型特征;对数值型特征中属性值差距大的特征进行标准化,得到标准化公车审计表。
39.本发明还涉及一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的用于公务用车审计的异常检测方法。
40.本发明还涉及一种电子设备,其特征在于,包括处理器和存储器;
41.所述存储器,用于存储基于加权平均gbdt_knn的公车审计模型;
42.所述处理器,用于通过调用基于加权平均gbdt_knn的公车审计模型,执行上述的用于公务用车审计的异常检测方法。
43.本发明还涉及一种计算机程序产品,包括计算机程序和/或指令,其特征在于,该计算机程序和/或指令被处理器执行时实现上述用于公务用车审计的异常检测方法的步骤。
44.本发明的有益效果为:
45.采用本发明所述一种用于公务用车审计的异常检测方法及系统,针对现有审计方法对有标记的公车数据难以快速准确识别出疑点的问题,提出了一种基于加权平均gbdt_knn的公车审计模型。将gbdt集成算法和knn分类算法进行融合,能综合gbdt算法的高识别能力和knn算法的快速分类能力,来辅助公车审计快速准确地识别疑点数据,提高公车审计效率。本发明所述一种用于公务用车审计的异常检测方法及系统可以识别到人所不能识别的特征信息,减少了人工选取特征的主观性,并且可以灵活地处理连续型和离散型数据,可以获得较高的异常检测准确率,又能较快地识别出疑点数据,弥补传统审计中存在的主观性、片面性的缺点,能够比较客观的准确反映审计数据的规律,为审计人员及时提取有价值的数据。
附图说明
46.图1为本发明一种用于公务用车审计的异常检测方法流程示意图。
47.图2为本发明一种用于公务用车审计的异常检测系统结构示意图。
具体实施方式
48.为了更清楚的理解本发明的内容,将结合附图和实施例详细说明。
49.本发明第一方面涉及一种用于公务用车审计的异常检测方法步骤流程如图1所示的方法,包括:
50.首先对公务用车原始数据进行业务逻辑分析,根据公车管理规定,进行特征选择和数据集成。
51.根据已有的公车特征,结合审计需要,构建新的公车审计特征,最后形成一张新的公车审计表,进行数据清洗,删除或填充空缺值。
52.对清洗后的数据中的离散型特征进行独热编码,将其转换成数值型,便于算法计
算数据点间的距离;对数值型特征中属性值差距大的特征进行标准化,减少属性值差距过大对异常检测结果的影响。
53.将异常数据样本标记为1,其余正常数据样本标记为0,对处理完成的加油数据集和维修数据集分别用smote算法对该数据集过采样,以平衡样本类别。
54.把样本划分为训练集和测试集,用加权平均法将异常检测效果较好的knn算法和gbdt集成,其中需要经过多轮迭代计算得到该数据集的最佳权重。首先定义损失函数为log_loss_func(weights),定义评价权重的指标函数为calculate_weighted_accuracy(prediction_weights)。定义最小化优化函数minimiseoptimize(preds,models_filenames,nb_classes,sample_n,testy,num_test s=20),其中各参数由gbdt和knn的预测值计算得到。初始化best_f1=0.0,best_weights=none,对于每次迭代:
55.(1)随机初始化权重prediction_weights。
56.(2)用minimize()方法来最小化损失函数log_loss_func(),最小化方法为slsqp(顺序最小二乘编程),设置约束条件,设置优化对象为初始权重。用minimize()函数的结果得到权重值,并与算法计算的预测值得到加权预测值weighted_predictions。
57.(3)根据该加权预测值和真实类别来计算评价指标,并输出每次迭代的评价指标和权重值。
58.(4)如果f1》best_f1:更新best_f1和best_weights。
59.迭代结束后,返回best_f1,best_weights。并用calculate_weighted_accuracy()来输出best_weights时的评价指标结果。
60.模型指标结果显示在精准率为0.96的较好情况下,还能保证召回率达到1,表明不但在预测为异常的数据中,有较多的数据都识别正确,而且还把所有异常数据都识别出来了。
61.本发明另一方面还涉及一种用于公务用车审计的异常检测系统,其结构如图2所示,包括:
62.标准化公车审计表模块,用于获取标准化公车审计表;对标准化公车审计表中的加油数据集和维修数据集分别用smote算法进行过采样处理;
63.模型构建模块,用于基于加权平均方法通过融合权重将gbdt集成算法和knn分类算法进行融合;所述融合权重为经过多次迭代数据集达到迭代停止条件时获得;构建基于加权平均gbdt_knn的公车审计模型;
64.疑点数据计算模块,用于获得加油数据集的融合权重,将加油数据集的融合权重以及加油数据集输入至基于加权平均gbdt_knn的公车审计模型,获得加油疑点数据;获得维修数据集的融合权重,将维修数据集的融合权重以及维修数据集输入至基于加权平均gbdt_knn的公车审计模型,获得维修疑点数据;
65.疑点数据整合模块,用于将加油疑点数据与维修疑点数据进行整合,得到整合疑点数据。
66.进一步地,还包括:
67.数据采集模块,用于采集公务用车原始数据;对所述公务用车原始数据进行特征选择和数据集成,得到预处理后数据;
68.特征构建模块,用于根据已有公车特征结合审计需要,构建公车审计特征,所述公
车审计特征包括:加油特征及维修特征;
69.数据处理模块,用于基于处理后数据建立包含所述公车审计特征的公车审计表;所述公车审计表包括:加油数据集以及维修数据集;将公车审计表进行数据清洗以及删除或填充空缺值,得到清洗后的公车审计表;将清洗后的公车审计表中离散型特征进行独热编码,转换为数值型特征;对数值型特征中属性值差距大的特征进行标准化,得到标准化公车审计表。
70.通过使用该系统,能够执行上述的运算处理方法并实现对应的技术效果。
71.本发明的实施例还提供能够实现上述实施例中的方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的方法的全部步骤。
72.本发明的实施例还提供一种用于执行上述方法的电子设备,作为该方法的实现装置,所述电子设备至少具备有处理器和存储器,特别是该存储器上存储有执行方法所需的数据和相关的计算机程序,例如基于加权平均gbdt_knn的公车审计模型等,并通过由处理器调用存储器中的数据、程序执行实现方法的全部步骤,并获得对应的技术效果。
73.优选的,该电子设备可以包含有总线架构,总线可以包括任意数量的互联的总线和桥,总线将包括由一个或多个处理器和存储器的各种电路链接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和接收器和发送器之间提供接口。接收器和发送器可以是同一个元件,即收发机,提供用于在传输介质上与各种其他系统通信的单元。处理器负责管理总线和通常的处理,而存储器可以被用于存储处理器在执行操作时所使用的数据。
74.额外的,所述电子设备还可以进一步包括通信模块、输入单元、音频处理器、显示器、电源等部件。其所采用的处理器(或称为控制器、操作控件)可以包括微处理器或其他处理器装置和/或逻辑装置,该处理器接收输入并控制电子设备的各个部件的操作;存储器可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种,可储存上述有关的数据信息,此外还可存储执行有关信息的程序,并且处理器可执行该存储器存储的该程序,以实现信息存储或处理等;输入单元用于向处理器提供输入,例如可以为按键或触摸输入装置;电源用于向电子设备提供电力;显示器用于进行图像和文字等显示对象的显示,例如可为lcd显示器。通信模块即为经由天线发送和接收信号的发送机/接收机。通信模块(发送机/接收机)耦合到处理器,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)还经由音频处理器耦合到扬声器和麦克风,以经由扬声器提供音频输出,并接收来自麦克风的音频输入,从而实现通常的电信功能。音频处理器可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器还耦合到中央处理器,从而使得可以通过麦克风能够在本机上录音,且使得可以通过扬声器来播放本机上存储的声音。
75.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机
可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
76.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。
77.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品,该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
78.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
79.以上所述仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换等都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

技术特征:
1.一种用于公务用车审计的异常检测方法,其特征在于,包括:s1、获取标准化公车审计表;对标准化公车审计表中的加油数据集和维修数据集分别用smote算法进行过采样处理;s2、基于加权平均方法通过融合权重将gbdt集成算法和knn分类算法进行融合;所述融合权重为经过多次迭代数据集达到迭代停止条件时获得;构建基于加权平均gbdt_knn的公车审计模型;s3、获得加油数据集的融合权重,将加油数据集的融合权重以及加油数据集输入至基于加权平均gbdt_knn的公车审计模型,获得加油疑点数据;s4、获得维修数据集的融合权重,将维修数据集的融合权重以及维修数据集输入至基于加权平均gbdt_knn的公车审计模型,获得维修疑点数据;s5、将加油疑点数据与维修疑点数据进行整合,得到整合疑点数据。2.如权利要求1所述的方法,其特征在于,所述步骤s1之前还包括:采集公务用车原始数据;对所述公务用车原始数据进行特征选择和数据集成,得到预处理后数据;根据已有公车特征结合审计需要,构建公车审计特征,所述公车审计特征包括:加油特征及维修特征;基于处理后数据建立包含所述公车审计特征的公车审计表;所述公车审计表包括:加油数据集以及维修数据集;将公车审计表进行数据清洗以及删除或填充空缺值,得到清洗后的公车审计表;将清洗后的公车审计表中离散型特征进行独热编码,转换为数值型特征;对数值型特征中属性值差距大的特征进行标准化,得到标准化公车审计表。3.如权利要求1所述的方法,其特征在于,所述迭代停止条件为评价指标达到预设阈值;所述预设阈值为0.96。4.如权利要求3所述的方法,其特征在于,所述步骤s2包括分步骤;随机初始化预测权重;通过gbdt算法及knn算法计算预测权重,得到预测权重结果;通过最小化方法最小化损失函数,通过约束条件对初始权重进行优化,得到最小化权重结果;将最小化权重结果与预测权重结果通过加权计算得到加权预测值;将加权预测值输入至评价权重的指标函数,得到每次迭代的评价指标;对比每次迭代的评价指标是否达到预设阈值;若迭代的评价指标达到预设阈值,则停止迭代,并输出迭代的评价指标与加权预测值;所述加权预测值为融合权重。5.如权利要求1所述的方法,其特征在于,所述最小化方法为顺序最小二乘法。6.如权利要求1所述的方法,其特征在于,所述步骤s1还包括:将过采样处理后的加油数据集划分为加油数据训练集以及加油数据测试集;将过采样处理后的维修数据集划分为维修数据训练集以及维修数据测试集。7.一种用于公务用车审计的异常检测系统,其特征在于,包括:标准化公车审计表模块,用于获取标准化公车审计表;对标准化公车审计表中的加油数据集和维修数据集分别用smote算法进行过采样处理;
模型构建模块,用于基于加权平均方法通过融合权重将gbdt集成算法和knn分类算法进行融合;所述融合权重为经过多次迭代数据集达到迭代停止条件时获得;构建基于加权平均gbdt_knn的公车审计模型;疑点数据计算模块,用于获得加油数据集的融合权重,将加油数据集的融合权重以及加油数据集输入至基于加权平均gbdt_knn的公车审计模型,获得加油疑点数据;获得维修数据集的融合权重,将维修数据集的融合权重以及维修数据集输入至基于加权平均gbdt_knn的公车审计模型,获得维修疑点数据;疑点数据整合模块,用于将加油疑点数据与维修疑点数据进行整合,得到整合疑点数据。8.如权利要求7所述的系统,其特征在于,还包括:数据采集模块,用于采集公务用车原始数据;对所述公务用车原始数据进行特征选择和数据集成,得到预处理后数据;特征构建模块,用于根据已有公车特征结合审计需要,构建公车审计特征,所述公车审计特征包括:加油特征及维修特征;数据处理模块,用于基于处理后数据建立包含所述公车审计特征的公车审计表;所述公车审计表包括:加油数据集以及维修数据集;将公车审计表进行数据清洗以及删除或填充空缺值,得到清洗后的公车审计表;将清洗后的公车审计表中离散型特征进行独热编码,转换为数值型特征;对数值型特征中属性值差距大的特征进行标准化,得到标准化公车审计表。9.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的用于公务用车审计的异常检测方法。10.一种电子设备,其特征在于,包括处理器和存储器;所述存储器,用于存储基于加权平均gbdt_knn的公车审计模型;所述处理器,用于通过调用基于加权平均gbdt_knn的公车审计模型,执行权利要求1至6中任一项所述的用于公务用车审计的异常检测方法。11.一种计算机程序产品,包括计算机程序和/或指令,其特征在于,该计算机程序和/或指令被处理器执行时实现权利要求1至6中任一项所述用于公务用车审计的异常检测方法的步骤。

技术总结
本发明涉及一种用于公务用车审计的异常检测方法及系统,包括:获取标准化公车审计表;对标准化公车审计表中的加油数据集和维修数据集分别用SMOTE算法进行过采样处理;基于加权平均方法通过融合权重将GBDT集成算法和KNN分类算法进行融合;所述融合权重为经过多次迭代数据集达到迭代停止条件时获得;构建基于加权平均GBDT_KNN的公车审计模型;获得加油数据集的融合权重,将加油数据集的融合权重以及加油数据集输入至基于加权平均GBDT_KNN的公车审计模型,获得加油疑点数据;将维修数据集的融合权重以及维修数据集输入至基于加权平均GBDT_KNN的公车审计模型,获得维修疑点数据;将加油疑点数据与维修疑点数据进行整合,得到整合疑点数据。整合疑点数据。整合疑点数据。


技术研发人员:杨梦佳
受保护的技术使用者:中信银行股份有限公司
技术研发日:2023.06.30
技术公布日:2023/10/15
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐