基于隐私保护的校园风险预测方法、装置、设备及介质与流程
未命名
08-14
阅读:132
评论:0
1.本技术涉及人工智能技术领域,尤其涉及一种基于隐私保护的校园风险预测方法、装置、设备及介质。
背景技术:
2.目前,教育行业中对学生的管理是非常重要的一环,高效且精准的管理有助于学生的健康发展。学校需要规律地、系统地、全面地对学生行为进行风险评估,以便发现学生的异常举动,及时进行引导与规劝,防止学生误入各种诈骗陷阱。
3.现有的评估方案中,学校仅拥有学生在校的行为记录,但不足以用来衡量学生的社会行为风险程度或者学生的真实财务状况,评估结果有失真实性,可信度不够,难以用来指导实际政策。学校方想要获取学生的外部财务信息,需要获得学生本人的授权,且因为各方数据不共享,所以需要分别查询获取各方明文数据,过程繁琐且不安全,还容易造成学生敏感信息的泄露。
技术实现要素:
4.本技术实施例提供了一种基于隐私保护的校园风险预测方法、装置、设备及介质,能够在保证数据安全的前提下实现准确的校园风险预测。
5.第一方面,本技术实施例提供了一种基于隐私保护的校园风险预测方法,其包括:获取目标学校提供的用户身份标识构建第一标识信息集合,及获取每个参与方提供的用户身份标识构建每个参与方对应的第二标识信息集合;利用psi算法计算所述第一标识信息集合与每个第二标识信息集合的交集作为每个参与方提供的第三标识信息集合;获取每个第三标识信息集合中的用户身份标识对应的数据构建数据集,及获取所述第一标识信息集合中的用户身份标识对应的数据构建数据集;将构建的数据集确定为每个第一子集,并对每个第一子集进行本地预处理得到每个第二子集;基于每个第二子集进行联合特征工程,得到每个样本子集;获取初始模型,利用每个样本子集以mpc方式对所述初始模型进行联合训练,得到密文预测模型;对所述密文预测模型进行模型评测;当所述密文预测模型通过评测时,获取待预测用户的目标用户身份标识,并利用所述目标用户身份标识从所述目标学校及每个参与方获取待处理数据;利用所述mpc方式对应的加密算法对所述待处理数据进行加密,得到待处理密文;将所述待处理密文输入至所述密文预测模型,并获取所述密文预测模型的密文输出数据;利用所述mpc方式对应的加密算法对所述密文输出数据进行解密,得到所述待预
测用户的风险预测结果。
6.第二方面,本技术实施例提供了一种基于隐私保护的校园风险预测装置,其包括:构建单元,用于获取目标学校提供的用户身份标识构建第一标识信息集合,及获取每个参与方提供的用户身份标识构建每个参与方对应的第二标识信息集合;计算单元,用于利用psi算法计算所述第一标识信息集合与每个第二标识信息集合的交集作为每个参与方提供的第三标识信息集合;所述构建单元,还用于获取每个第三标识信息集合中的用户身份标识对应的数据构建数据集,及获取所述第一标识信息集合中的用户身份标识对应的数据构建数据集;预处理单元,用于将构建的数据集确定为每个第一子集,并对每个第一子集进行本地预处理得到每个第二子集;联合特征工程单元,用于基于每个第二子集进行联合特征工程,得到每个样本子集;训练单元,用于获取初始模型,利用每个样本子集以mpc方式对所述初始模型进行联合训练,得到密文预测模型;评测单元,用于对所述密文预测模型进行模型评测;获取单元,用于当所述密文预测模型通过评测时,获取待预测用户的目标用户身份标识,并利用所述目标用户身份标识从所述目标学校及每个参与方获取待处理数据;加密单元,用于利用所述mpc方式对应的加密算法对所述待处理数据进行加密,得到待处理密文;输入单元,用于将所述待处理密文输入至所述密文预测模型,并获取所述密文预测模型的密文输出数据;解密单元,用于利用所述mpc方式对应的加密算法对所述密文输出数据进行解密,得到所述待预测用户的风险预测结果。
7.第三方面,本技术实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于隐私保护的校园风险预测方法。
8.第四方面,本技术实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于隐私保护的校园风险预测方法。
9.本技术实施例提供了一种基于隐私保护的校园风险预测方法、装置、设备及介质,能够利用psi算法对学校提供的用户身份标识与其他各参与方提供的用户身份标识进行隐匿求交,使各方在不泄露任何额外信息的情况下得到数据的交集,进而能够在保证隐私性的前提下结合学校及各参与方的数据构建更加全面的样本子集,利用每个样本子集以mpc方式对初始模型进行联合训练得到密文预测模型,保证在各方数据不出本地的前提下联合训练得到准确的预测模型,并利用密文预测模型对待预测用户进行风险预测,使各方能够利用本地数据与密文预测模型进行可靠的风险预测,且风险预测结果不会暴露各方的原始输入数据,更加提高了预测过程中数据的安全性。
附图说明
10.为了更清楚地说明本技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
11.图1为本技术实施例提供的基于隐私保护的校园风险预测方法的应用场景示意图;图2为本技术实施例提供的基于隐私保护的校园风险预测方法的流程示意图;图3为本技术实施例提供的基于隐私保护的校园风险预测装置的示意性框图;图4为本技术实施例提供的计算机设备的示意性框图。
具体实施方式
12.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
13.应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和
ꢀ“
包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
14.还应当理解,在此本技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本技术。如在本技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
15.还应当进一步理解,在本技术说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
16.请参阅图1和图2,图1为本技术实施例提供的基于隐私保护的校园风险预测方法的应用场景示意图;图2为本技术实施例提供的基于隐私保护的校园风险预测方法的流程示意图,该基于隐私保护的校园风险预测方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。
17.如图2所示,该方法包括步骤s101~s111。
18.s101、获取目标学校提供的用户身份标识构建第一标识信息集合,及获取每个参与方提供的用户身份标识构建每个参与方对应的第二标识信息集合。
19.在本实施例中,是以服务器为执行主体来描述技术方案。用户使用的用户端(如智能手机、平板电脑等智能终端)可与服务器进行数据交互,具体如服务器提供了一个校园风险预测平台,用户使用用户端可登录该校园风险预测平台。用户端的终端界面上显示有该校园风险预测平台的用户交互界面,且该用户交互界面中存在有至少一个数据上传接口。当上传待预测用户的目标用户身份标识,并从数据上传接口上传至服务器后,在服务器中即可进行后续的风险预测。
20.其中,所述用户身份标识可以包括,但不限于:身份证号、银行卡号等。
21.相应地,所述第一标识信息集合用于存储所述目标学校内学生的身份证号、银行卡号等可以唯一标记学生身份的信息。所述第二标识信息集合用于存储各参与方所存储的
用户的身份证号、银行卡号等可以唯一标记用户身份的信息。
22.其中,所述每个参与方可以包括,但不限于小额借贷平台、银行、网购平台等校外机构。
23.s102、利用psi(private set intersection,隐私集合求交)算法计算所述第一标识信息集合与每个第二标识信息集合的交集作为每个参与方提供的第三标识信息集合。
24.其中,利用psi算法,能够使各方在不泄露任何额外信息的情况下,得到各方出游的数据的交集。其中,额外的信息是指除了各方的数据交集以外的任何信息。
25.在上述实施例中,利用psi算法对学校提供的用户身份标识与其他各参与方提供的用户身份标识进行隐匿求交,使各方在不泄露任何额外信息的情况下得到数据的交集,进而能够在后续保证隐私性的前提下结合学校及各参与方的数据构建更加全面的样本子集。
26.s103、获取每个第三标识信息集合中的用户身份标识对应的数据构建数据集,及获取所述第一标识信息集合中的用户身份标识对应的数据构建数据集。
27.在本实施例中,所述获取每个第三标识信息集合中的用户身份标识对应的数据构建数据集,包括:连接至每个参与方的数据库;根据每个第三标识信息集合中的用户身份标识在对应的每个参与方的数据库中进行查询;利用查询到的数据构建数据集。
28.其中,每个参与方的数据库可以为每个参与方的本地数据库,也可以为与每个参与方相连接的数据库,本技术不做限制。
29.在本实施例中,所述获取所述第一标识信息集合中的用户身份标识对应的数据构建数据集的方式与前文所述获取每个第三标识信息集合中的用户身份标识对应的数据构建数据集的方式类似,在此不赘述。
30.s104、将构建的数据集确定为每个第一子集,并对每个第一子集进行本地预处理得到每个第二子集。
31.在本实施例中,所述对每个第一子集进行本地预处理得到每个第二子集,包括:在每个参与方的本地服务器中获取对应的每个第一子集中的异常值,并从每个第一子集中删除所述异常值,得到每个第一中间子集;在每个参与方的本地服务器中获取对应的每个第一中间子集中的空缺值,并对每个第一中间子集中的空缺值进行中位数填充处理,得到每个第二中间子集;在每个参与方的本地服务器将对应的每个第二中间子集中的数据统一至预设度量空间,得到每个第二子集。
32.其中,所述异常值可以包括过大值或者过小值等。
33.其中,所述中位数填充处理是指利用与所述空缺值相邻的各数据的中位数对该空缺值进行填充。
34.其中,所述预设度量空间可以进行自定义配置,如[0,1]。
[0035]
通过上述实施例,能够对各方的数据进行本地预处理,使数据不出各方本地,保证了数据的安全性。
[0036]
s105、基于每个第二子集进行联合特征工程,得到每个样本子集。
[0037]
在本实施例中,所述基于每个第二子集进行联合特征工程,得到每个样本子集,包括:获取预先配置的预测标签,及获取预先配置的相关度阈值;对于每个第二子集,采用斯皮尔曼相关系数法计算所述第二子集中的每个数据与所述预测标签的相关度;从所述第二子集中剔除与所述预测标签的相关度低于所述相关度阈值的数据,得到所述第二子集对应的所述样本子集。
[0038]
其中,所述预测标签可以根据实际的预测需求进行配置,例如:当所述预测需求为对学生是否贫困进行预测时,所述预测标签可以为贫困及非贫困。
[0039]
其中,所述相关度阈值可以进行自定义配置。
[0040]
在上述实施例中,能够通过联合特征工程提高各第二子集中数据与预测标签的关联度,通过剔除关联度低的无效数据,避免对模型的训练结果产生不利影响,进而建立更适合于进行模型训练的样本子集,使训练得到的模型的预测准确率更高,且预测结果更加可靠。
[0041]
s106、获取初始模型,利用每个样本子集以mpc(secure multi-party computation,安全多方计算)方式对所述初始模型进行联合训练,得到密文预测模型。
[0042]
在本实施例中,所述获取初始模型,利用每个样本子集以mpc方式对所述初始模型进行联合训练,得到密文预测模型,包括:获取当前的预测需求数据,并根据所述预测需求数据获取所述初始模型;利用所述mpc方式对应的加密算法对每个样本子集中的数据进行加密,得到每个密文样本;以所述预测标签作为训练目标,并利用每个密文样本对所述初始模型进行训练,得到所述密文预测模型。
[0043]
具体地,所述根据所述预测需求数据获取所述初始模型,包括:当所述预测需求数据为学生财务风险预测时,获取纵向逻辑回归模型作为所述初始模型;或者当所述预测需求数据为学生财务实力等级预测时,获取多分类模型作为所述初始模型。
[0044]
通过上述实施例,利用每个样本子集以mpc方式对初始模型进行联合训练得到密文预测模型,保证在各方数据不出本地的前提下联合训练得到准确的预测模型。
[0045]
s107、对所述密文预测模型进行模型评测。
[0046]
在本实施例中,所述对所述密文预测模型进行模型评测,包括:计算所述密文预测模型的精确度precision、召回率recall、f1分数f1-score及准确度accuracy;获取所述精确度对应的精确度阈值、所述召回率对应的召回率阈值、所述f1分数对应的分数阈值,及所述准确度对应的准确度阈值;当所述精确度大于或者等于所述精确度阈值、所述召回率大于或者等于所述召回率阈值、所述f1分数大于或者等于所述分数阈值,及所述准确度大于或者等于所述准确度
阈值时,确定所述密文预测模型通过评测;或者当所述精确度小于所述精确度阈值,及/或所述召回率小于所述召回率阈值,及/或所述f1分数小于所述分数阈值,及/或所述准确度小于所述准确度阈值时,确定所述密文预测模型未通过评测,继续对所述密文预测模型进行联合训练。
[0047]
其中,所述精确度阈值、所述召回率阈值、所述分数阈值及所述准确度阈值可以根据实际需求进行配置。
[0048]
通过上述实施例,能够结合多个维度对训练得到的密文预测模型进行模型评测,进而保证模型的可用性及预测效果。
[0049]
s108、当所述密文预测模型通过评测时,获取待预测用户的目标用户身份标识,并利用所述目标用户身份标识从所述目标学校及每个参与方获取待处理数据。
[0050]
其中,所述待预测用户可以为所述目标学校的学生。
[0051]
在本实施例中,可以根据所述目标用户身份标识在所述目标学校及每个参与方对应的数据库中匹配数据,以获取到所述待处理数据。
[0052]
s109、利用所述mpc方式对应的加密算法对所述待处理数据进行加密,得到待处理密文。
[0053]
在上述实施例中,由于所述密文预测模型是以密文进行训练得到的密文模型,因此,对应采用所述mpc方式相应的加密算法对所述待处理数据进行加密,能够保证预测过程中数据的隐私性。
[0054]
s110、将所述待处理密文输入至所述密文预测模型,并获取所述密文预测模型的密文输出数据。
[0055]
其中,所述密文输出数据可以包括预测的类型及对应的概率值。
[0056]
s111、利用所述mpc方式对应的加密算法对所述密文输出数据进行解密,得到所述待预测用户的风险预测结果。
[0057]
在上述实施例中,基于所述mpc方式,利用所述密文预测模型对所述待预测用户进行风险预测,使各方能够利用本地数据与密文预测模型进行可靠的风险预测,且风险预测结果不会暴露各方的原始输入数据,更加提高了预测过程中数据的安全性。
[0058]
例如:当学校需要对学生的财务状况进行预测时,无需分别查询获取各方明文数据,而是直接采用密文数据进行预测,再对预测结果进行解密,预测过程简单且安全性较高,不易造成敏感信息的泄露。
[0059]
由以上技术方案可以看出,本技术能够利用psi算法对学校提供的用户身份标识与其他各参与方提供的用户身份标识进行隐匿求交,使各方在不泄露任何额外信息的情况下得到数据的交集,进而能够在保证隐私性的前提下结合学校及各参与方的数据构建更加全面的样本子集,利用每个样本子集以mpc方式对初始模型进行联合训练得到密文预测模型,保证在各方数据不出本地的前提下联合训练得到准确的预测模型,并利用密文预测模型对待预测用户进行风险预测,使各方能够利用本地数据与密文预测模型进行可靠的风险预测,且风险预测结果不会暴露各方的原始输入数据,更加提高了预测过程中数据的安全性。
[0060]
本技术实施例还提供一种基于隐私保护的校园风险预测装置,该基于隐私保护的校园风险预测装置用于执行前述基于隐私保护的校园风险预测方法的任一实施例。具体
地,请参阅图3,图3是本技术实施例提供的基于隐私保护的校园风险预测装置100的示意性框图。
[0061]
其中,如图3所示,基于隐私保护的校园风险预测装置100包括构建单元101、计算单元102、预处理单元103、联合特征工程单元104、训练单元105、评测单元106、获取单元107、加密单元108、输入单元109、解密单元110。
[0062]
其中,所述构建单元101,用于获取目标学校提供的用户身份标识构建第一标识信息集合,及获取每个参与方提供的用户身份标识构建每个参与方对应的第二标识信息集合;所述计算单元102,用于利用psi算法计算所述第一标识信息集合与每个第二标识信息集合的交集作为每个参与方提供的第三标识信息集合;所述构建单元101,还用于获取每个第三标识信息集合中的用户身份标识对应的数据构建数据集,及获取所述第一标识信息集合中的用户身份标识对应的数据构建数据集;所述预处理单元103,用于将构建的数据集确定为每个第一子集,并对每个第一子集进行本地预处理得到每个第二子集;所述联合特征工程单元104,用于基于每个第二子集进行联合特征工程,得到每个样本子集;所述训练单元105,用于获取初始模型,利用每个样本子集以mpc方式对所述初始模型进行联合训练,得到密文预测模型;所述评测单元106,用于对所述密文预测模型进行模型评测;所述获取单元107,用于当所述密文预测模型通过评测时,获取待预测用户的目标用户身份标识,并利用所述目标用户身份标识从所述目标学校及每个参与方获取待处理数据;所述加密单元108,用于利用所述mpc方式对应的加密算法对所述待处理数据进行加密,得到待处理密文;所述输入单元109,用于将所述待处理密文输入至所述密文预测模型,并获取所述密文预测模型的密文输出数据;所述解密单元110,用于利用所述mpc方式对应的加密算法对所述密文输出数据进行解密,得到所述待预测用户的风险预测结果。
[0063]
由以上技术方案可以看出,本技术能够利用psi算法对学校提供的用户身份标识与其他各参与方提供的用户身份标识进行隐匿求交,使各方在不泄露任何额外信息的情况下得到数据的交集,进而能够在保证隐私性的前提下结合学校及各参与方的数据构建更加全面的样本子集,利用每个样本子集以mpc方式对初始模型进行联合训练得到密文预测模型,保证在各方数据不出本地的前提下联合训练得到准确的预测模型,并利用密文预测模型对待预测用户进行风险预测,使各方能够利用本地数据与密文预测模型进行可靠的风险预测,且风险预测结果不会暴露各方的原始输入数据,更加提高了预测过程中数据的安全性。
[0064]
上述基于隐私保护的校园风险预测装置可以实现为计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。
[0065]
请参阅图4,图4是本技术实施例提供的计算机设备的示意性框图。该计算机设备400是服务器,也可以是服务器集群。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
[0066]
参阅图4,该计算机设备400包括通过装置总线401连接的处理器402、存储器和网络接口405,其中,存储器可以包括存储介质403和内存储器404。
[0067]
该存储介质403可存储操作系统4031和计算机程序4032。该计算机程序4032被执行时,可使得处理器402执行基于隐私保护的校园风险预测方法。
[0068]
该处理器402用于提供计算和控制能力,支撑整个计算机设备400的运行。
[0069]
该内存储器404为存储介质403中的计算机程序4032的运行提供环境,该计算机程序4032被处理器402执行时,可使得处理器402执行基于隐私保护的校园风险预测方法。
[0070]
该网络接口405用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备400的限定,具体的计算机设备400可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0071]
其中,所述处理器402用于运行存储在存储器中的计算机程序4032,以实现本技术实施例公开的基于隐私保护的校园风险预测方法。
[0072]
本领域技术人员可以理解,图4中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图4所示实施例一致,在此不再赘述。
[0073]
应当理解,在本技术实施例中,处理器402可以是中央处理单元 (central processing unit,cpu),该处理器402还可以是其他通用处理器、数字信号处理器 (digital signal processor,dsp)、专用集成电路 (application specific integrated circuit,asic)、现成可编程门阵列 (field-programmable gate array,fpga) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0074]
在本技术的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本技术实施例公开的基于隐私保护的校园风险预测方法。
[0075]
需要说明的是,本案中所涉及到的数据均为合法取得。
[0076]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究
竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0077]
在本技术所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
[0078]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本技术实施例方案的目的。
[0079]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0080]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备 ( 可以是个人计算机,后台服务器,或者网络设备等 ) 执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u 盘、移动硬盘、只读存储器 (rom,read-only memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0081]
以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。
技术特征:
1.一种基于隐私保护的校园风险预测方法,其特征在于,包括:获取目标学校提供的用户身份标识构建第一标识信息集合,及获取每个参与方提供的用户身份标识构建每个参与方对应的第二标识信息集合;利用psi算法计算所述第一标识信息集合与每个第二标识信息集合的交集作为每个参与方提供的第三标识信息集合;获取每个第三标识信息集合中的用户身份标识对应的数据构建数据集,及获取所述第一标识信息集合中的用户身份标识对应的数据构建数据集;将构建的数据集确定为每个第一子集,并对每个第一子集进行本地预处理得到每个第二子集;基于每个第二子集进行联合特征工程,得到每个样本子集;获取初始模型,利用每个样本子集以mpc方式对所述初始模型进行联合训练,得到密文预测模型;对所述密文预测模型进行模型评测;当所述密文预测模型通过评测时,获取待预测用户的目标用户身份标识,并利用所述目标用户身份标识从所述目标学校及每个参与方获取待处理数据;利用所述mpc方式对应的加密算法对所述待处理数据进行加密,得到待处理密文;将所述待处理密文输入至所述密文预测模型,并获取所述密文预测模型的密文输出数据;利用所述mpc方式对应的加密算法对所述密文输出数据进行解密,得到所述待预测用户的风险预测结果。2.根据权利要求1所述的基于隐私保护的校园风险预测方法,其特征在于,所述获取每个第三标识信息集合中的用户身份标识对应的数据构建数据集,包括:连接至每个参与方的数据库;根据每个第三标识信息集合中的用户身份标识在对应的每个参与方的数据库中进行查询;利用查询到的数据构建数据集。3.根据权利要求1所述的基于隐私保护的校园风险预测方法,其特征在于,所述对每个第一子集进行本地预处理得到每个第二子集,包括:在每个参与方的本地服务器中获取对应的每个第一子集中的异常值,并从每个第一子集中删除所述异常值,得到每个第一中间子集;在每个参与方的本地服务器中获取对应的每个第一中间子集中的空缺值,并对每个第一中间子集中的空缺值进行中位数填充处理,得到每个第二中间子集;在每个参与方的本地服务器将对应的每个第二中间子集中的数据统一至预设度量空间,得到每个第二子集。4.根据权利要求1所述的基于隐私保护的校园风险预测方法,其特征在于,所述基于每个第二子集进行联合特征工程,得到每个样本子集,包括:获取预先配置的预测标签,及获取预先配置的相关度阈值;对于每个第二子集,采用斯皮尔曼相关系数法计算所述第二子集中的每个数据与所述预测标签的相关度;
从所述第二子集中剔除与所述预测标签的相关度低于所述相关度阈值的数据,得到所述第二子集对应的所述样本子集。5.根据权利要求4所述的基于隐私保护的校园风险预测方法,其特征在于,所述获取初始模型,利用每个样本子集以mpc方式对所述初始模型进行联合训练,得到密文预测模型,包括:获取当前的预测需求数据,并根据所述预测需求数据获取所述初始模型;利用所述mpc方式对应的加密算法对每个样本子集中的数据进行加密,得到每个密文样本;以所述预测标签作为训练目标,并利用每个密文样本对所述初始模型进行训练,得到所述密文预测模型。6.根据权利要求5所述的基于隐私保护的校园风险预测方法,其特征在于,所述根据所述预测需求数据获取所述初始模型,包括:当所述预测需求数据为学生财务风险预测时,获取纵向逻辑回归模型作为所述初始模型;或者当所述预测需求数据为学生财务实力等级预测时,获取多分类模型作为所述初始模型。7.根据权利要求1所述的基于隐私保护的校园风险预测方法,其特征在于,所述对所述密文预测模型进行模型评测,包括:计算所述密文预测模型的精确度、召回率、f1分数及准确度;获取所述精确度对应的精确度阈值、所述召回率对应的召回率阈值、所述f1分数对应的分数阈值,及所述准确度对应的准确度阈值;当所述精确度大于或者等于所述精确度阈值、所述召回率大于或者等于所述召回率阈值、所述f1分数大于或者等于所述分数阈值,及所述准确度大于或者等于所述准确度阈值时,确定所述密文预测模型通过评测;或者当所述精确度小于所述精确度阈值,及/或所述召回率小于所述召回率阈值,及/或所述f1分数小于所述分数阈值,及/或所述准确度小于所述准确度阈值时,确定所述密文预测模型未通过评测,继续对所述密文预测模型进行联合训练。8.一种基于隐私保护的校园风险预测装置,其特征在于,包括:构建单元,用于获取目标学校提供的用户身份标识构建第一标识信息集合,及获取每个参与方提供的用户身份标识构建每个参与方对应的第二标识信息集合;计算单元,用于利用psi算法计算所述第一标识信息集合与每个第二标识信息集合的交集作为每个参与方提供的第三标识信息集合;所述构建单元,还用于获取每个第三标识信息集合中的用户身份标识对应的数据构建数据集,及获取所述第一标识信息集合中的用户身份标识对应的数据构建数据集;预处理单元,用于将构建的数据集确定为每个第一子集,并对每个第一子集进行本地预处理得到每个第二子集;联合特征工程单元,用于基于每个第二子集进行联合特征工程,得到每个样本子集;训练单元,用于获取初始模型,利用每个样本子集以mpc方式对所述初始模型进行联合训练,得到密文预测模型;
评测单元,用于对所述密文预测模型进行模型评测;获取单元,用于当所述密文预测模型通过评测时,获取待预测用户的目标用户身份标识,并利用所述目标用户身份标识从所述目标学校及每个参与方获取待处理数据;加密单元,用于利用所述mpc方式对应的加密算法对所述待处理数据进行加密,得到待处理密文;输入单元,用于将所述待处理密文输入至所述密文预测模型,并获取所述密文预测模型的密文输出数据;解密单元,用于利用所述mpc方式对应的加密算法对所述密文输出数据进行解密,得到所述待预测用户的风险预测结果。9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于隐私保护的校园风险预测方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于隐私保护的校园风险预测方法。
技术总结
本申请涉及人工智能技术,提供了基于隐私保护的校园风险预测方法、装置、设备及介质,能够利用PSI算法对学校提供的用户身份标识与其他各参与方提供的用户身份标识进行隐匿求交,使各方在不泄露任何额外信息的情况下得到数据的交集,进而能够在保证隐私性的前提下结合学校及各参与方的数据构建更加全面的样本子集,利用每个样本子集以MPC方式对初始模型进行联合训练得到密文预测模型,保证在各方数据不出本地的前提下联合训练得到准确的预测模型,并利用密文预测模型对待预测用户进行风险预测,使各方能够利用本地数据与密文预测模型进行可靠的风险预测,且风险预测结果不会暴露各方的原始输入数据,更加提高了预测过程中数据的安全性。据的安全性。据的安全性。
技术研发人员:朱琳 陈曦 胡姣姣 蒙雄发 李如先 张剑
受保护的技术使用者:深圳前海环融联易信息科技服务有限公司
技术研发日:2023.07.04
技术公布日:2023/8/13
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
