工程项目重复下发指令的识别方法、装置、设备及介质与流程
未命名
07-15
阅读:87
评论:0
1.本发明涉及工程管理技术领域,尤其涉及一种工程项目重复下发指令的识别方法、装置、电子设备及计算机可读存储介质。
背景技术:
2.工程管理是建设类公司最主要的业务之一,工程管理过程中业主单位通过下发工程指令传达工程范围的调整、施工内容变更或工程材料更换等事项,工程指令下发环节影响结算金额和项目成本,此过程存在业主单位相关人员与建设单位里应外合,串通制造虚假变更、重复下发变更指令等方式套取利益的空间和动机,从而损害业主单位的利益,无谓提升项目成本。
3.传统的工程审计中,工程行业的审计专家利用专业经验抽取高风险的样本,通过人工检视的方式审核工程指令下发、变更签证执行、工程账款支付等环节。由于样本量大,该方式的抽样风险较高,叠加人工检视的错误率较高,相应的审计风险处于较高的水平。
4.目前,通过信息系统管理工程指令后,形成了较为全面、可信赖的数据基础。
5.因此,亟需一种能够结合现有工程管理的信息管理系统,自动识别有无重复下发指令,从而实现对工程指令的全面、精准的自动化监测系统,定期预警存错误或舞弊风险的高风险数据的工程项目重复下发指令的识别方法。
技术实现要素:
6.本发明提供一种工程项目重复下发指令的识别方法,以解决传统的工程审计中,工程行业的审计专家利用专业经验抽取高风险的样本,通过人工检视的方式审核工程指令下发、变更签证执行、工程账款支付等环节。由于样本量大,该方式的抽样风险较高,叠加人工检视的错误率较高,相应的审计风险处于较高的水平的问题。
7.为实现上述目的,本发明提供的一种工程项目重复下发指令的识别方法,包括:
8.通过预设的信息管理程序获取工程总项目中各项工程子项目的工程信息;
9.通过预设的数据关联组件对所述工程信息进行关联整合以获取具有工程实施逻辑顺序的中间数据集,并对所述中间数据集进行文本提取和数据清洗以形成变更指令文本数据;
10.基于预设的关键词提取规则提取所述变更指令文本数据的指令关键词,并根据所述指令关键词对所述变更指令文本数据进行两两组合以形成指令对照组;
11.通过预训练的双线程相似度框架对所述指令对照组中的两个变更指令文本数据进行双线程相似度计算以获取第一相似度数据和第二相似度数据,若所述第一相似度数据和所述第二相似度数据满足重复条件,则将所述指令对照组作为重复下发变更指令。
12.可选地,所述工程信息包括所述工程子项目的工程项目名称、合同信息、变更指令信息和结算信息。
13.可选地,所述通过预设的信息管理程序获取工程总项目中各项工程子项目的工程
信息,包括:
14.获取工程项目名称,并在预设的工程项目线上管理系统的数据库中调取拥有所述项目名称的工程子项目的数据包,并在所述工程项目线上管理系统中的各个节点中调取拥有所述项目名称的工程子项目的变更指令信息;
15.在所述数据包中至少提取与所述工程项目名称相对应的合同信息和结算信息。
16.可选地,所述对所述中间数据集进行文本提取和数据清洗以形成变更指令文本数据,包括:
17.通过预设的文本提取插件对所述中间数据集进行文本提取以将所述中间数据集中的字段转换为文字和数字数据,并将所述文字和数字数据作为待清洗数据集;
18.通过预设的数据清洗组件按照预设的数据清洗条件对所述待清洗数据集进行数据清洗以仅保留指令变更前序数据、指令变更数据和指令变更后续数据,并将所述指令变更前序数据、指令变更数据和指令变更后续数据作为变更指令文本。
19.可选地,所述基于预设的关键词提取规则提取所述变更指令文本数据的指令关键词,并根据所述指令关键词对所述变更指令文本数据进行两两组合以形成指令对照组,包括:
20.基于预设的关键词提取规则提取所述变更指令文本数据中关于指令特性的指令关键词;
21.遍历所述变更指令文本数据中是否有含有相同指令关键词的两个变更指令文本数据,若有,则将具有相同指令关键词的两个变更指令文本数据两两结合以作为指令对照组;若无,则将具有同一类别指令关键词的两个变更指令文本数据两两结合以作为指令对照组。
22.可选地,所述双线程相似度框架包括文本相似度计算线程和tf-idf算法线程;其中,所述通过预训练的双线程相似度框架对所述指令对照组中的两个变更指令文本数据进行双线程相似度计算以获取第一相似度数据和第二相似度数据,若所述第一相似度数据和所述第二相似度数据满足重复条件,则将所述指令对照组作为重复下发变更指令,包括:
23.通过文本相似度计算线程计算所述指令对照组中的两个变更指令文本数据的相似度以获取第一相似度数据;同时通过tf-idf算法线程计算所述所述指令对照组中的两个变更指令文本数据的相似度以获取第二相似度数据;其中,
24.若所述第一相似度数据高于预设的第一阈值,且所述第二相似度数据高于预设的第二阈值,则将所述指令对照组作为重复下发变更指令。
25.可选地,所述通过文本相似度计算线程计算所述指令对照组中的两个变更指令文本数据的相似度以获取第一相似度数据,包括:
26.通过所述文本相似度计算线程中的分词单元将所述指令对照组中的两个变更指令文本数据分别分割成两组词序列,并对所述两组词序列进行向量化以生成与所述词序列对应的两组词向量;
27.通过所述文本相似度计算线程中的编码单元对每一个词的词向量进行词级编码以分别获取两个词序列的第一编码信息和第二编码信息;
28.通过所述文本相似度计算线程中的注意力单元分别为所述第一编码信息和第二编码信息进行正则化处理以获取第一权重和第二权重,并给予所述第一权重和第二权重分
别获取第一注意力向量和第二注意力向量;
29.通过所述文本相似度计算线程中的注意力单元相似概率计算单元基于所述第一注意力向量和所述第二注意力向量计算所述对照组中的两个变更指令文本数据的相似概率,并将所述相似概率作为第一相似度数据。
30.为了解决上述问题,本发明还提供一种工程项目重复下发指令的识别装置,所述装置包括:
31.工程信息获取模块,用于通过预设的信息管理程序获取工程总项目中各项工程子项目的工程信息;
32.文本生成模块,用于通过预设的数据关联组件对所述工程信息进行关联整合以获取具有工程实施逻辑顺序的中间数据集,并对所述中间数据集进行文本提取和数据清洗以形成变更指令文本数据;
33.指令对照模块,用于基于预设的关键词提取规则提取所述变更指令文本数据的指令关键词,并根据所述指令关键词对所述变更指令文本数据进行两两组合以形成指令对照组;
34.双线程相似度框架,用于对所述指令对照组中的两个变更指令文本数据进行双线程相似度计算以获取第一相似度数据和第二相似度数据,若所述第一相似度数据和所述第二相似度数据满足重复条件,则将所述指令对照组作为重复下发变更指令。
35.为了解决上述问题,本发明还提供一种电子设备,其特征在于,所述电子设备包括:
36.至少一个处理器;以及,
37.与所述至少一个处理器通信连接的存储器;其中,
38.所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的工程项目重复下发指令的识别方法中的步骤。
39.为了解决上述问题,本发明还提供一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的工程项目重复下发指令的识别方法。
40.本发明实施例首先通过预设的信息管理程序获取工程总项目中各项工程子项目的工程信息,并根据该工程信息形成变更指令文本数据,如此便于后续根据该变更指令文本数据判断是否有两个相似度极高的指令,并将两个相似度极高的指令作为重复下发指令;具体的在进行相似度判断时,首先获取该变更指令文本数据的指令关键词以根据指令关键词对变更指令文本数据进行基于初步相似的两两组合,从而形成指令对照组,再进一步通过预训练的双线程相似度框架对指令对照组中的两个变更指令文本数据进行双线程相似度计算以获取第一相似度数据和第二相似度数据,从而更进一步的根据第一相似度数据和第二相似度数据判断是否满足重复条件,若满足重复条件则将指令对照组作为重复下发变更指令,如此,通过初步相似度判断和更进一步的相似度判断能够及时自动识别出重复下发的变更指令,从而业务专家可以通过对比那更指令重复的异常数据涉及的工程指令下发、变更签证执行、工程账款支付等环节进行评估和检查,比较全面和快速的对工程项目变更程序进行稽核,及时发现问题与挽回公司损失。
附图说明
41.图1为本发明一实施例提供的工程项目重复下发指令的识别方法的流程示意图;
42.图2为本发明一实施例提供的工程项目重复下发指令的识别装置的模块示意图;
43.图3为本发明一实施例提供的工程项目重复下发指令的识别方法的电子设备的内部结构示意图;
44.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
45.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
46.传统的工程审计中,工程行业的审计专家利用专业经验抽取高风险的样本,通过人工检视的方式审核工程指令下发、变更签证执行、工程账款支付等环节。由于样本量大,该方式的抽样风险较高,叠加人工检视的错误率较高,相应的审计风险处于较高的水平。
47.为解决上述问题,本发明实施例提供一种工程项目重复下发指令的识别方法。
48.如图1所示,在本实施例中,工程项目重复下发指令的识别方法,包括:
49.s1:通过预设的信息管理程序获取工程总项目中各项工程子项目的工程信息;
50.s2:通过预设的数据关联组件对所述工程信息进行关联整合以获取具有工程实施逻辑顺序的中间数据集,并对所述中间数据集进行文本提取和数据清洗以形成变更指令文本数据;
51.s3:基于预设的关键词提取规则提取所述变更指令文本数据的指令关键词,并根据所述指令关键词对所述变更指令文本数据进行两两组合以形成指令对照组;
52.s4:通过预训练的双线程相似度框架对所述指令对照组中的两个变更指令文本数据进行双线程相似度计算以获取第一相似度数据和第二相似度数据,若所述第一相似度数据和所述第二相似度数据满足重复条件,则将所述指令对照组作为重复下发变更指令;
53.在图1所示的实施例中,步骤s1为通过预设的信息管理程序获取工程总项目中各项工程子项目的工程信息的过程,在该过程中,该工程信息包括所述工程子项目的工程项目名称、合同信息、变更指令信息和结算信息。
54.具体地,在本实施例中,通过预设的信息管理程序获取工程总项目中各项工程子项目的工程信息,包括:
55.获取工程项目名称,并在预设的工程项目线上管理系统的数据库中调取拥有所述项目名称的工程子项目的数据包,并在所述工程项目线上管理系统中的各个节点中调取拥有所述项目名称的工程子项目的变更指令信息;
56.在所述数据包中至少提取与所述工程项目名称相对应的合同信息和结算信息。
57.更为具体地,在本实施例中,依托工程项目线上化管理程度,可以直接从工程项目线上管理系统的数据库中提取一类指令变更明细和二类指令变更明细信息,包含工程项目、合同信息、变更指令信息、结算信息等。
58.在图1所示的实施例中,步骤s2为通过预设的数据关联组件对所述工程信息进行关联整合以获取具有工程实施逻辑顺序的中间数据集,并对所述中间数据集进行文本提取和数据清洗以形成变更指令文本数据的过程;
59.在该过程中,即在获取工程项目、合同信息、变更指令信息、结算信息等信息之后,
可以在此基础上根据业务逻辑设定对原始数据集进行关联整合生成中间数据集,依托专家实践经验提取规则,对文本类信息进行规则清洗、对中间数据集进行条件筛选,通过一定的配对条件生成两两变更指令组合,形成最终的变更指令文本数据;其中步骤s2中对工程信息进行关联整合的过程不做具体限制,即将所有关于工程子项目的所有的过程信息梳理为按照时间排序的能够上下连贯的中间数据集(字段);而后对该中间数据集进行文本提取和数据清洗以形成变更指令文本数据,具体地数据清洗方式不做具体限制,在本实施例中即清除表述不清的语句或词汇,且仅保留关于该工程子项目的变更指令的有效信息,如指令变更前序数据、指令变更数据和指令变更后续数据。
60.具体地,对所述中间数据集进行文本提取和数据清洗以形成变更指令文本数据,包括:
61.s21:通过预设的文本提取插件对所述中间数据集进行文本提取以将所述中间数据集中的字段转换为文字和数字数据,并将所述文字和数字数据作为待清洗数据集;
62.s22:通过预设的数据清洗组件按照预设的数据清洗条件对所述待清洗数据集进行数据清洗以仅保留指令变更前序数据、指令变更数据和指令变更后续数据,并将所述指令变更前序数据、指令变更数据和指令变更后续数据作为变更指令文本。
63.如此即可获得关于工程子项目的所有与变更指令相关的有效信息。
64.在本实施例中,步骤s3为基于预设的关键词提取规则提取所述变更指令文本数据的指令关键词,并根据所述指令关键词对所述变更指令文本数据进行两两组合以形成指令对照组的步骤;在步骤s3中,
65.基于预设的关键词提取规则提取所述变更指令文本数据的指令关键词,并根据所述指令关键词对所述变更指令文本数据进行两两组合以形成指令对照组,包括:
66.s31:基于预设的关键词提取规则提取所述变更指令文本数据中关于指令特性的指令关键词;
67.s32:遍历所述变更指令文本数据中是否有含有相同指令关键词的两个变更指令文本数据,若有,则将具有相同指令关键词的两个变更指令文本数据两两结合以作为指令对照组;若无,则将具有同一类别指令关键词的两个变更指令文本数据两两结合以作为指令对照组。
68.在本实施例中,步骤s31为获取指令关键词的过程,该关键词提取规则即通过预设的关键词提取模型总动提取语句中的关键词,比如“签订”、“施工”、“耗资”等关于指令变更的关键词。
69.步骤s32将两个相似的变更指令文本数据进行两两组合的过程,首先需要遍历变更指令文本数据中是否有含有相同指令关键词的两个变更指令文本数据,若有,则该两个变更指令文本是极为相似的,则即将具有相同指令关键词的两个变更指令文本数据两两结合以作为指令对照组;若无,则将具有同一类别指令关键词的两个变更指令文本数据两两结合以作为指令对照组,该类别可以为两个变更指令文本具有相互为近义词的指令关键词,如此退而求其次也能够找到两个相似的变更指令文本。
70.步骤s4为通过预训练的双线程相似度框架对所述指令对照组中的两个变更指令文本数据进行双线程相似度计算以获取第一相似度数据和第二相似度数据,若所述第一相似度数据和所述第二相似度数据满足重复条件,则将所述指令对照组作为重复下发变更指
令的过程。
71.在步骤s4中,双线程相似度框架包括文本相似度计算线程和tf-idf算法线程;其中,所述通过预训练的双线程相似度框架对所述指令对照组中的两个变更指令文本数据进行双线程相似度计算以获取第一相似度数据和第二相似度数据,若所述第一相似度数据和所述第二相似度数据满足重复条件,则将所述指令对照组作为重复下发变更指令,包括:
72.s41:通过文本相似度计算线程计算所述指令对照组中的两个变更指令文本数据的相似度以获取第一相似度数据;同时通过tf-idf算法线程计算所述所述指令对照组中的两个变更指令文本数据的相似度以获取第二相似度数据;其中,
73.s42:若所述第一相似度数据高于预设的第一阈值,且所述第二相似度数据高于预设的第二阈值,则将所述指令对照组作为重复下发变更指令。
74.步骤s41即同时通过两个线程对变更指令文本数据进行相似度计算以获取第一相似度数据和第二相似度数据,在本实施例中,该文本相似度计算线程采用文本相似度算法;具体地,通过文本相似度计算线程计算所述指令对照组中的两个变更指令文本数据的相似度以获取第一相似度数据,包括:
75.通过所述文本相似度计算线程中的分词单元将所述指令对照组中的两个变更指令文本数据分别分割成两组词序列,并对所述两组词序列进行向量化以生成与所述词序列对应的两组词向量;
76.通过所述文本相似度计算线程中的编码单元对每一个词的词向量进行词级编码以分别获取两个词序列的第一编码信息和第二编码信息;
77.通过所述文本相似度计算线程中的注意力单元分别为所述第一编码信息和第二编码信息进行正则化处理以获取第一权重和第二权重,并给予所述第一权重和第二权重分别获取第一注意力向量和第二注意力向量;获取注意力向量的公式为s=∑i*hi,其中s为注意力向量,i为权重,hi为编码信息。
78.通过所述文本相似度计算线程中的注意力单元相似概率计算单元基于所述第一注意力向量和所述第二注意力向量计算所述对照组中的两个变更指令文本数据的相似概率,并将所述相似概率作为第一相似度数据。
79.该tf-idf算法线程通过tf-idf算法进行相似度计算,tf-idf算法是一种统计算法,用一个指令关键词评估变更指令文本数据的程度数据,指令关键词的重要性随着指令关键词出现频率的增加而增加,如此根据两个变更指令文本数据获取相似度参数,并将相似度参数作为第二相似度数据,其中两个变更指令文本数据越相近,第二相似度数据的数值越大。
80.此外,在本实施例中,还包括反哺优化迭代的过程,具体地,在将指令对照组作为重复下发变更指令之后,将重读下发变更指令的相关数据推送给内控稽核人员使其做出重复指令变更预警,内控人员最终处理结果,分别针对有效、无效的情况对应的样例,归纳整理规则以调整以上的第一阈值或第二阈值,比如若过多的非重复下发变更指令作为重复下发变更指令,则适当提高第一阈值或第二阈值,若所判定的重复下发变更指令较少,则适当减低第一阈值或第二阈值以使得判定重复下发变更指令更加精准。
81.在本实施例中,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络
(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
82.如上所述,本发明实施例提供的工程项目重复下发指令的识别方法,首先通过预设的信息管理程序获取工程总项目中各项工程子项目的工程信息,再对工程信息进行关联整合以获取具有工程实施逻辑顺序的中间数据集,并对中间数据集进行文本提取和数据清洗以形成变更指令文本数据,而后提取所述变更指令文本数据的指令关键词,并根据指令关键词对所述变更指令文本数据进行两两组合以形成指令对照组,再通过预训练的双线程相似度框架对指令对照组中的两个变更指令文本数据进行双线程相似度计算以获取第一相似度数据和第二相似度数据,若第一相似度数据和第二相似度数据满足重复条件,则将指令对照组作为重复下发变更指令,如此,能够即使自动识别出重复下发的变更指令,从而业务专家可以通过对比那更指令重复的异常数据涉及的工程指令下发、变更签证执行、工程账款支付等环节进行评估和检查,比较全面和快速的对工程项目变更程序进行稽核,及时发现问题与挽回公司损失。
83.如图2所示,本发明提供一种工程项目重复下发指令的识别装置100,本发明可以安装于电子设备中。根据实现的功能,该工程项目重复下发指令的识别装置100可以包括工程信息获取模块101、文本生成模块102、指令对照模块103、双线程相似度框架104。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
84.在本实施例中,关于各模块/单元的功能如下:
85.工程信息获取模块101,用于通过预设的信息管理程序获取工程总项目中各项工程子项目的工程信息;
86.文本生成模块102,用于通过预设的数据关联组件对所述工程信息进行关联整合以获取具有工程实施逻辑顺序的中间数据集,并对所述中间数据集进行文本提取和数据清洗以形成变更指令文本数据;
87.指令对照模块103,用于基于预设的关键词提取规则提取所述变更指令文本数据的指令关键词,并根据所述指令关键词对所述变更指令文本数据进行两两组合以形成指令对照组;
88.双线程相似度框架104,用于对所述指令对照组中的两个变更指令文本数据进行双线程相似度计算以获取第一相似度数据和第二相似度数据,若所述第一相似度数据和所述第二相似度数据满足重复条件,则将所述指令对照组作为重复下发变更指令。
89.工程信息获取模块101通过预设的信息管理程序获取工程总项目中各项工程子项目的工程信息,包括:
90.获取工程项目名称,并在预设的工程项目线上管理系统的数据库中调取拥有所述项目名称的工程子项目的数据包,并在所述工程项目线上管理系统中的各个节点中调取拥有所述项目名称的工程子项目的变更指令信息;
91.在所述数据包中至少提取与所述工程项目名称相对应的合同信息和结算信息。
92.文本生成模块102通过预设的数据关联组件对所述工程信息进行关联整合以获取具有工程实施逻辑顺序的中间数据集,并对所述中间数据集进行文本提取和数据清洗以形成变更指令文本数据的过程,包括:
93.通过预设的文本提取插件对所述中间数据集进行文本提取以将所述中间数据集中的字段转换为文字和数字数据,并将所述文字和数字数据作为待清洗数据集;
94.通过预设的数据清洗组件按照预设的数据清洗条件对所述待清洗数据集进行数据清洗以仅保留指令变更前序数据、指令变更数据和指令变更后续数据,并将所述指令变更前序数据、指令变更数据和指令变更后续数据作为变更指令文本。
95.指令对照模块103基于预设的关键词提取规则提取所述变更指令文本数据的指令关键词,并根据所述指令关键词对所述变更指令文本数据进行两两组合以形成指令对照组的过程包括:
96.基于预设的关键词提取规则提取所述变更指令文本数据中关于指令特性的指令关键词;
97.遍历所述变更指令文本数据中是否有含有相同指令关键词的两个变更指令文本数据,若有,则将具有相同指令关键词的两个变更指令文本数据两两结合以作为指令对照组;若无,则将具有同一类别指令关键词的两个变更指令文本数据两两结合以作为指令对照组。
98.双线程相似度框架104对所述指令对照组中的两个变更指令文本数据进行双线程相似度计算以获取第一相似度数据和第二相似度数据,若所述第一相似度数据和所述第二相似度数据满足重复条件,则将所述指令对照组作为重复下发变更指令的过程,包括:
99.通过文本相似度计算线程计算所述指令对照组中的两个变更指令文本数据的相似度以获取第一相似度数据;同时通过tf-idf算法线程计算所述所述指令对照组中的两个变更指令文本数据的相似度以获取第二相似度数据;其中,
100.若所述第一相似度数据高于预设的第一阈值,且所述第二相似度数据高于预设的第二阈值,则将所述指令对照组作为重复下发变更指令。
101.如上所述,本发明提供的工程项目重复下发指令的识别方法,首先基于工程信息获取模块101通过预设的信息管理程序获取工程总项目中各项工程子项目的工程信息,再通过文本生成模块102对工程信息进行关联整合以获取具有工程实施逻辑顺序的中间数据集,并对中间数据集进行文本提取和数据清洗以形成变更指令文本数据,而后通过指令对照模块103提取所述变更指令文本数据的指令关键词,并根据指令关键词对所述变更指令文本数据进行两两组合以形成指令对照组,再通过双线程相似度框架104对指令对照组中的两个变更指令文本数据进行双线程相似度计算以获取第一相似度数据和第二相似度数据,若第一相似度数据和第二相似度数据满足重复条件,则将指令对照组作为重复下发变更指令,如此,能够即使自动识别出重复下发的变更指令,从而业务专家可以通过对比那更指令重复的异常数据涉及的工程指令下发、变更签证执行、工程账款支付等环节进行评估和检查,比较全面和快速的对工程项目变更程序进行稽核,及时发现问题与挽回公司损失。
102.如图3所示,本发明提供一种工程项目重复下发指令的识别方法的电子设备1。
103.该电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在存储器11中并可在所述处理器10上运行的计算机程序,如工程项目重复下发指令的识别程序12。
104.其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的
移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(smart media card,smc)、安全数字(secure digital,sd)卡、闪存卡(flash card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如工程项目重复下发指令的识别的应用开发的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
105.所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(control unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如工程项目重复下发指令的识别程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
106.所述总线可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
107.图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
108.例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、wi-fi模块等,在此不再赘述。
109.进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如wi-fi接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
110.可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(display)、输入单元(比如键盘(keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light-emitting diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
111.应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
112.所述电子设备1中的所述存储器11存储的工程项目重复下发指令的识别程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
113.通过预设的信息管理程序获取工程总项目中各项工程子项目的工程信息;
114.通过预设的数据关联组件对所述工程信息进行关联整合以获取具有工程实施逻辑顺序的中间数据集,并对所述中间数据集进行文本提取和数据清洗以形成变更指令文本数据;
115.基于预设的关键词提取规则提取所述变更指令文本数据的指令关键词,并根据所述指令关键词对所述变更指令文本数据进行两两组合以形成指令对照组;
116.通过预训练的双线程相似度框架对所述指令对照组中的两个变更指令文本数据进行双线程相似度计算以获取第一相似度数据和第二相似度数据,若所述第一相似度数据和所述第二相似度数据满足重复条件,则将所述指令对照组作为重复下发变更指令。
117.需要强调的是,为进一步保证上述工程项目重复下发指令的识别的私密和安全性,上述工程项目重复下发指令的识别的数据存储于本服务器集群所处区块链的节点中。
118.服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
119.进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)。
120.本发明实施例还提供一种计算机可读存储介质,所述存储介质可以是非易失性的,也可以是易失性的,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现:
121.通过预设的信息管理程序获取工程总项目中各项工程子项目的工程信息;
122.通过预设的数据关联组件对所述工程信息进行关联整合以获取具有工程实施逻辑顺序的中间数据集,并对所述中间数据集进行文本提取和数据清洗以形成变更指令文本数据;
123.基于预设的关键词提取规则提取所述变更指令文本数据的指令关键词,并根据所述指令关键词对所述变更指令文本数据进行两两组合以形成指令对照组;
124.通过预训练的双线程相似度框架对所述指令对照组中的两个变更指令文本数据进行双线程相似度计算以获取第一相似度数据和第二相似度数据,若所述第一相似度数据和所述第二相似度数据满足重复条件,则将所述指令对照组作为重复下发变更指令。
125.具体地,所述计算机程序被处理器执行时具体实现方法可参考实施例基于工程项目重复下发指令的识别方法中相关步骤的描述,在此不赘述。
126.在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
127.所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
128.另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以
是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
129.对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
130.因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
131.本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
132.此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
133.最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
技术特征:
1.一种工程项目重复下发指令的识别方法,其特征在于,包括:通过预设的信息管理程序获取工程总项目中各项工程子项目的工程信息;通过预设的数据关联组件对所述工程信息进行关联整合以获取具有工程实施逻辑顺序的中间数据集,并对所述中间数据集进行文本提取和数据清洗以形成变更指令文本数据;基于预设的关键词提取规则提取所述变更指令文本数据的指令关键词,并根据所述指令关键词对所述变更指令文本数据进行两两组合以形成指令对照组;通过预训练的双线程相似度框架对所述指令对照组中的两个变更指令的文本数据进行双线程相似度计算以获取第一相似度数据和第二相似度数据,若所述第一相似度数据和所述第二相似度数据满足重复条件,则将所述指令对照组作为重复下发变更指令。2.如权利要求1所述的工程项目重复下发指令的识别方法,其特征在于,所述工程信息包括所述工程子项目的工程项目名称、合同信息、变更指令信息和结算信息。3.如权利要求2所述的工程项目重复下发指令的识别方法,其特征在于,所述通过预设的信息管理程序获取工程总项目中各项工程子项目的工程信息,包括:获取工程项目名称,并在预设的工程项目线上管理系统的数据库中调取拥有所述项目名称的工程子项目的数据包,并在所述工程项目线上管理系统中的各个节点中调取拥有所述项目名称的工程子项目的变更指令信息;在所述数据包中至少提取与所述工程项目名称相对应的合同信息和结算信息。4.如权利要求3所述的工程项目重复下发指令的识别方法,其特征在于,所述对所述中间数据集进行文本提取和数据清洗以形成变更指令文本数据,包括:通过预设的文本提取插件对所述中间数据集进行文本提取以将所述中间数据集中的字段转换为文字和数字数据,并将所述文字和数字数据作为待清洗数据集;通过预设的数据清洗组件按照预设的数据清洗条件对所述待清洗数据集进行数据清洗以仅保留指令变更前序数据、指令变更数据和指令变更后续数据,并将所述指令变更前序数据、指令变更数据和指令变更后续数据作为变更指令文本。5.如权利要求4所述的工程项目重复下发指令的识别方法,其特征在于,所述基于预设的关键词提取规则提取所述变更指令文本数据的指令关键词,并根据所述指令关键词对所述变更指令文本数据进行两两组合以形成指令对照组,包括:基于预设的关键词提取规则提取所述变更指令文本数据中关于指令特性的指令关键词;遍历所述变更指令文本数据中是否有含有相同指令关键词的两个变更指令文本数据,若有,则将具有相同指令关键词的两个变更指令文本数据两两结合以作为指令对照组;若无,则将具有同一类别指令关键词的两个变更指令文本数据两两结合以作为指令对照组。6.如权利要求5所述的工程项目重复下发指令的识别方法,其特征在于,所述双线程相似度框架包括文本相似度计算线程和tf-idf算法线程;其中,所述通过预训练的双线程相似度框架对所述指令对照组中的两个变更指令文本数据进行双线程相似度计算以获取第一相似度数据和第二相似度数据,若所述第一相似度数据和所述第二相似度数据满足重复条件,则将所述指令对照组作为重复下发变更指令,包括:
通过文本相似度计算线程计算所述指令对照组中的两个变更指令文本数据的相似度以获取第一相似度数据;同时通过tf-idf算法线程计算所述所述指令对照组中的两个变更指令文本数据的相似度以获取第二相似度数据;其中,若所述第一相似度数据高于预设的第一阈值,且所述第二相似度数据高于预设的第二阈值,则将所述指令对照组作为重复下发变更指令。7.如权利要求6所述的工程项目重复下发指令的识别方法,其特征在于,所述通过文本相似度计算线程计算所述指令对照组中的两个变更指令文本数据的相似度以获取第一相似度数据,包括:通过所述文本相似度计算线程中的分词单元将所述指令对照组中的两个变更指令文本数据分别分割成两组词序列,并对所述两组词序列进行向量化以生成与所述词序列对应的两组词向量;通过所述文本相似度计算线程中的编码单元对每一个词的词向量进行词级编码以分别获取两个词序列的第一编码信息和第二编码信息;通过所述文本相似度计算线程中的注意力单元分别为所述第一编码信息和第二编码信息进行正则化处理以获取第一权重和第二权重,并给予所述第一权重和第二权重分别获取第一注意力向量和第二注意力向量;通过所述文本相似度计算线程中的注意力单元相似概率计算单元基于所述第一注意力向量和所述第二注意力向量计算所述对照组中的两个变更指令文本数据的相似概率,并将所述相似概率作为第一相似度数据。8.一种工程项目重复下发指令的识别装置,其特征在于,所述装置包括:工程信息获取模块,用于通过预设的信息管理程序获取工程总项目中各项工程子项目的工程信息;文本生成模块,用于通过预设的数据关联组件对所述工程信息进行关联整合以获取具有工程实施逻辑顺序的中间数据集,并对所述中间数据集进行文本提取和数据清洗以形成变更指令文本数据;指令对照模块,用于基于预设的关键词提取规则提取所述变更指令文本数据的指令关键词,并根据所述指令关键词对所述变更指令文本数据进行两两组合以形成指令对照组;双线程相似度框架,用于对所述指令对照组中的两个变更指令文本数据进行双线程相似度计算以获取第一相似度数据和第二相似度数据,若所述第一相似度数据和所述第二相似度数据满足重复条件,则将所述指令对照组作为重复下发变更指令。9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一所述的工程项目重复下发指令的识别方法中的步骤。10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的工程项目重复下发指令的识别方法。
技术总结
本发明涉及应用开发技术领域,提供一种工程项目重复下发指令的识别方法,首先对工程信息进行关联整合以获取具有工程实施逻辑顺序的中间数据集,并对中间数据集进行文本提取和数据清洗以形成变更指令文本数据,而后根据指令关键词对变更指令文本数据进行两两组合以形成指令对照组,再通过双线程相似度框架对指令对照组中的两个变更指令文本数据进行双线程相似度计算以获取第一相似度数据和第二相似度数据,若第一相似度数据和第二相似度数据满足重复条件,则将指令对照组作为重复下发变更指令,如此,能够即使自动识别出重复下发的变更指令,从而及时发现问题与挽回公司损失。从而及时发现问题与挽回公司损失。从而及时发现问题与挽回公司损失。
技术研发人员:邓熙凤 张扬 许黎 钟倩嵘 王丹 张瑶
受保护的技术使用者:深圳平安综合金融服务有限公司
技术研发日:2023.04.06
技术公布日:2023/7/12
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
