数据收集方法、数据收集装置、存储介质与电子设备与流程

未命名 07-27 阅读:110 评论:0


1.本公开涉及信息安全技术领域,尤其涉及数据收集方法、数据收集装置、计算机可读存储介质与电子设备。


背景技术:

2.随着数据共享、信息同步等方面的需求日益增长,如何在多方协作的场景(如端云协同的场景)下对数据进行有效的隐私保护,不向外界暴露数据内的个体信息,成为业界关注的重点问题。
3.相关技术中,提高数据安全性的方案大多是针对本地数据的单方处理的方案,不适用于多方协作的场景。


技术实现要素:

4.本公开提供数据收集方法、数据收集装置、计算机可读存储介质与电子设备,以至少在一定程度上解决相关技术无法在多方协作的场景下对数据进行隐私保护的问题。
5.根据本公开的第一方面,提供一种数据收集方法,应用于第一端,所述方法包括:将构建匿名数据库所使用的特征匿名化信息发送至第二端,使所述第二端采用所述特征匿名化信息对第二待处理数据中的第二特征数据进行匿名化处理以得到第二匿名特征数据;所述第二待处理数据包括第二敏感数据和所述第二敏感数据对应的所述第二特征数据;接收所述第二端发送的所述第二匿名特征数据,确定所述第二匿名特征数据在所述匿名数据库中所属的目标等价类,并判断增加所述第二匿名特征数据后的所述目标等价类是否满足k匿名条件;k为不小于2的正整数;在判断增加所述第二匿名特征数据后的所述目标等价类满足k匿名条件的情况下,向所述第二端发送数据采集指令,并接收所述第二端响应于所述数据采集指令发送的经过隐私化处理的所述第二敏感数据;利用所述第二匿名特征数据和经过隐私化处理的所述第二敏感数据更新所述匿名数据库。
6.根据本公开的第二方面,提供一种数据收集方法,应用于第二端,所述方法包括:接收由第一端发送的用于构建匿名数据库的特征匿名化信息;采用所述特征匿名化信息对第二待处理数据中的第二特征数据进行匿名化处理以得到第二匿名特征数据;所述第二待处理数据包括第二敏感数据和所述第二敏感数据对应的所述第二特征数据;将所述第二匿名特征数据发送至所述第一端,使所述第一端在判断增加所述第二匿名特征数据后的目标等价类满足k匿名条件的情况下,向所述第二端发送数据采集指令;所述目标等价类是所述第二匿名特征数据在所述匿名数据库中所属的等价类;响应于所述数据采集指令,将经过隐私化处理的所述第二敏感数据发送至所述第一端,使所述第一端利用所述第二匿名特征数据和经过隐私化处理的所述第二敏感数据更新所述匿名数据库。
7.根据本公开的第三方面,提供一种数据收集装置,配置于第一端,所述装置包括:特征匿名化信息发送模块,被配置为将构建匿名数据库所使用的特征匿名化信息发送至第二端,使所述第二端采用所述特征匿名化信息对第二待处理数据中的第二特征数据进行匿
名化处理以得到第二匿名特征数据;所述第二待处理数据包括第二敏感数据和所述第二敏感数据对应的所述第二特征数据;第二匿名特征数据接收模块,被配置为接收所述第二端发送的所述第二匿名特征数据,确定所述第二匿名特征数据在所述匿名数据库中所属的目标等价类,并判断增加所述第二匿名特征数据后的所述目标等价类是否满足k匿名条件;k为不小于2的正整数;数据采集模块,被配置为在判断增加所述第二匿名特征数据后的所述目标等价类满足k匿名条件的情况下,向所述第二端发送数据采集指令,并接收所述第二端响应于所述数据采集指令发送的经过隐私化处理的所述第二敏感数据;匿名数据库更新模块,被配置为利用所述第二匿名特征数据和经过隐私化处理的所述第二敏感数据更新所述匿名数据库。
8.根据本公开的第四方面,提供一种数据收集装置,配置于第二端,所述装置包括:特征匿名化信息接收模块,被配置为接收由第一端发送的用于构建匿名数据库的特征匿名化信息;特征匿名化处理模块,被配置为采用所述特征匿名化信息对第二待处理数据中的第二特征数据进行匿名化处理以得到第二匿名特征数据;所述第二待处理数据包括第二敏感数据和所述第二敏感数据对应的所述第二特征数据;第二匿名特征数据发送模块,被配置为将所述第二匿名特征数据发送至所述第一端,使所述第一端在判断增加所述第二匿名特征数据后的目标等价类满足k匿名条件的情况下,向所述第二端发送数据采集指令;所述目标等价类是所述第二匿名特征数据在所述匿名数据库中所属的等价类;数据采集指令响应模块,被配置为响应于所述数据采集指令,将经过隐私化处理的所述第二敏感数据发送至所述第一端,使所述第一端利用所述第二匿名特征数据和经过隐私化处理的所述第二敏感数据更新所述匿名数据库。
9.根据本公开的第五方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一或第二方面的数据收集方法及其可能的实现方式。
10.根据本公开的第六方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令,来执行上述第一或第二方面的数据收集方法及其可能的实现方式。
11.本公开的技术方案具有以下有益效果:
12.一方面,提供了一种多方协作场景下的数据收集方案,能够确保第一端从第二端收集的数据能够直接满足k匿名要求,从而为数据提供有效的隐私保护,并降低数据后续处理与使用的成本。另一方面,第一端和第二端之间进行两轮通信交互,在第一轮通信中第二端只向第一端发送第二匿名特征数据,并不会暴露第二端的敏感信息(如第二敏感数据),在第一端发送数据采集指令后,第二端才会在第二轮通信中发送经过隐私化处理的第二敏感数据,由此保证第二端不会在第一端不需要采集数据的情况下在第一轮通信中暴露敏感信息,提高第二端的敏感信息的安全性。
附图说明
13.图1示出本示例性实施方式运行环境的系统架构图;
14.图2示出本示例性实施方式中由第一端执行的数据收集方法的流程图;
15.图3示出本示例性实施方式中一种构建匿名数据库的流程图;
16.图4示出本示例性实施方式中一种构造层级泛化信息的流程图;
17.图5示出本示例性实施方式中对第一特征数据进行匿名化处理的流程图;
18.图6示出本示例性实施方式中确保等价类满足相似性要求的流程图;
19.图7示出本示例性实施方式中由第二端执行的数据收集方法的流程图;
20.图8示出本示例性实施方式中构建匿名数据库和双端协同k匿名数据收集的示意图;
21.图9示出本示例性实施方式中一种数据收集装置的结构示意图;
22.图10示出本示例性实施方式中另一种数据收集装置的结构示意图;
23.图11示出本示例性实施方式中一种电子设备的结构示意图。
具体实施方式
24.下文将结合附图更全面地描述本公开的示例性实施方式。
25.附图为本公开的示意性图解,并非一定是按比例绘制。附图中所示的一些方框图可能是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在硬件模块或集成电路中实现这些功能实体,或在网络、处理器或微控制器中实现这些功能实体。实施方式能够以多种形式实施,不应被理解为限于在此阐述的范例。本公开所描述的特征、结构或特性可以以任何合适的方式结合在一个或多个实施方式中。在下文的描述中,提供许多具体细节从而给出对本公开实施方式的充分说明。然而,本领域技术人员应意识到,可以在实现本公开的技术方案时省略其中的一个或多个特定细节,或者可以采用其它的方法、组元、装置、步骤等替代一个或多个特定细节。
26.下面对本文涉及到的专业术语进行解释。
27.准标识符(quasi-identifier,qid):标识符是能够唯一确定个体身份的特征,如身份证号。准标识符是指可能通过多个特征结合,或者与其他信息关联后能够确定个体身份的特征。
28.k匿名(k-anonymity):一种衡量数据发布安全性的标准。若一组公开数据中,任何一个个体的信息都不能和其他至少k-1个个体区分开,则称该公开数据满足k匿名。换而言之,若同一准标识符对应的个体数量不小于k,则满足k匿名。本文中还涉及到ks匿名、f
min
匿名等,其含义不变,仅是将k值替换为ks、f
min
等其他值。
29.等价类:准标识符相同的记录所形成的集合。
30.差分隐私:一种数据保护技术,通过随机响应或对原始数据加入噪声的方式,使得对数据集的计算统计处理结果对于具体某个记录的变化是不敏感的。
31.搬土距离(the earth mover’s distance,emd):是归一化的从一个分布转变为另一个分布的最小代价,用于表征两个分布之间的距离。
32.随着大数据时代的来临,个体单方面提供的数据已无法满足使用需求,需要通过多方协作来收集更多的数据。例如,在端云协同的场景下,云端可以从用户端处收集海量的数据,以构建相关的数据库或数据集,从而更好地实现数据分析、模型训练等用途。
33.相关技术中,提高数据安全性的方案大多是针对本地数据的单方处理的方案。例如,一些方案以k匿名技术为基础,针对保存在本地的数据集,提出满足个性化需求的k匿名隐私保护方法。这些方案虽然能够满足单方数据处理的需求,但是无法适应于多方协作的
场景。
34.此外,也有一些数据保护的方案涉及到多方协作的场景。例如,从匿名服务器获得k个相似的信息,混淆后发送给基于位置的服务器以进行匿名化的位置查询处理,保护端侧的位置信息。这些方案大多针对特定的数据场景(如位置服务的场景),不具有普适性,并且无法在收集数据时使数据满足k匿名条件,会增加数据处理与使用的成本。
35.鉴于上述一个或多个问题,本公开的示例性实施方式提供一种数据收集方法,能够在多方协作的一般性场景中实现数据收集与数据隐私保护。
36.图1示出了本示例性实施方式运行环境的系统架构图。该系统架构100可以包括第一端110和第二端120。其中,第一端110可以是数据收集方,第二端120可以是数据提供方。第一端110收集由第二端120提供的数据,此外自身也可以提供数据。示例性的,在端云协同的场景下,第一端110可以是云端,如可以是提供数据相关服务的后台系统,可以包括一台服务器或多台服务器形成的集群;第二端120是用户端,如可以是个人电脑、手机、平板电脑、智能穿戴设备等终端设备。或者,在区块链等去中心化的场景下,第一端110可以是任意一个用户端,第二端120可以是其他用户端。第一端110和第二端120之间可以通过有线或无线的通信链路形成连接,以进行数据传输。
37.本公开对第一端110或第二端120的数量不做限定。例如,在端云协同的场景下,云端可以与大量的用户端建立连接,从大量的用户端处收集数据。
38.图2示出了由第一端110执行的数据收集方法的流程,可以包括以下步骤s210至s240:
39.步骤s210,将构建匿名数据库所使用的特征匿名化信息发送至第二端,使第二端采用特征匿名化信息对第二待处理数据中的第二特征数据进行匿名化处理以得到第二匿名特征数据;第二待处理数据包括第二敏感数据和第二敏感数据对应的第二特征数据;
40.步骤s220,接收第二端发送的第二匿名特征数据,确定第二匿名特征数据在匿名数据库中所属的目标等价类,并判断增加第二匿名特征数据后的目标等价类是否满足k匿名条件;k为不小于2的正整数;
41.步骤s230,在判断增加第二匿名特征数据后的目标等价类满足k匿名条件的情况下,向第二端发送数据采集指令,并接收第二端响应于数据采集指令发送的经过隐私化处理的第二敏感数据;
42.步骤s240,利用第二匿名特征数据和经过隐私化处理的第二敏感数据更新匿名数据库。
43.基于图2所示的方法,一方面,提供了一种多方协作场景下的数据收集方案,能够确保第一端110从第二端120收集的数据能够直接满足k匿名要求,从而为数据提供有效的隐私保护,并降低数据后续处理与使用的成本。另一方面,第一端110和第二端120之间进行两轮通信交互,在第一轮通信中第二端120只向第一端110发送第二匿名特征数据,并不会暴露第二端120的敏感信息(如第二敏感数据),在第一端110发送数据采集指令后,第二端120才会在第二轮通信中发送经过隐私化处理的第二敏感数据,由此保证第二端120不会在第一端110不需要采集数据的情况下在第一轮通信中暴露敏感信息,提高第二端120的敏感信息的安全性。
44.下面对图2中的每个步骤做具体说明。
45.参考图2,在步骤s210中,将构建匿名数据库所使用的特征匿名化信息发送至第二端,使第二端采用特征匿名化信息对第二待处理数据中的第二特征数据进行匿名化处理以得到第二匿名特征数据;第二待处理数据包括第二敏感数据和第二敏感数据对应的第二特征数据。
46.其中,匿名数据库是第一端110基于自身已有的数据或生成的伪数据进行特征匿名化处理以及敏感数据的隐私化处理,所构建的匿名数据库。匿名化处理是指将原始的特征数据进行概括描述或隐匿部分信息,以降低数据精度,防止攻击者通过特征数据关联到个体信息(如关联到敏感数据)。具体地,在匿名化处理中,可以将原始的特征数据替换为信息更加模糊的数据。特征匿名化信息是指对特征进行匿名化处理所用到的相关信息,可以包括特征的值与一个或多个层级的匿名化信息之间的归属关系,如特征分类信息、特征泛化信息、特征的数值区间(可以是整数数值区间或浮点数值区间)划分信息等。第一端110在构建匿名数据库时,使用特征匿名化信息。该信息由第一端110同步到第二端120,使得第二端120可以使用同样的特征匿名化信息对其数据中的特征进行匿名化处理。这样第一端110和第二端120对特征进行匿名化处理的方式相同,从而确保两端的数据形式统一。
47.第二待处理数据是第二端120自身的、待提供给第一端110的数据。第二待处理数据包括第二敏感数据和第二敏感数据对应的第二特征数据。本文中,第二待处理数据、第二敏感数据、第二特征数据中的“第二”表示来源于第二端120。对应的,下文中的第一待处理数据、第一敏感数据、第一特征数据中的“第一”表示来源于第一端110。特征数据是可作为准标识符的数据,如年龄、性别、职业、身高、体重等。敏感数据是隐私性较高的数据,如用户在app(application,应用程序)内的搜索信息、收付款信息、疾病信息等。在第二待处理数据中,除了第二敏感数据和第二特征数据外,还可以包括身份数据、非敏感数据等。身份数据可作为标识符,如身份证号、设备id等,考虑到身份数据进行匿名化处理后也可以作为准标识符,所以也可以将身份数据作为特征数据。非敏感数据是隐私性较低或不具有隐私性的数据。在一种实施方式中,考虑到身份数据暴露信息的风险较高,可以将第二待处理数据中的身份数据删除,考虑到非敏感数据可能不是第一端110所需的数据,可以将第二待处理数据中的非敏感数据删除,即身份数据或非敏感数据后续不提供给第一端110。
48.第一端110可以在从第二端120收集数据之前,构建好匿名数据库,这样在从第二端120收集数据时,可以将所收集的数据按照匿名数据库的形式存储到匿名数据库。下面对构建匿名数据库的过程进行示例性说明。
49.在一种实施方式中,在将构建匿名数据库所使用的特征匿名化信息发送至第二端之前,参考图3所示,数据收集方法还可以包括以下步骤s310至s350:
50.步骤s310,对第一待处理数据中的第一特征数据构造层级泛化信息;第一待处理数据包括第一敏感数据和第一敏感数据对应的第一特征数据。
51.其中,第一待处理数据是第一端110自身的、待进行隐私处理的数据。第一特征数据是第一待处理数据中可作为准标识符的数据,第一敏感数据是第一待处理数据中隐私性较高的数据。此外,第一待处理数据还可以包括身份数据、非敏感数据等,与上述对第二待处理数据的处理类似的,可以从第一待处理数据中删除身份数据和/或非敏感数据,使得这些数据不被收集到匿名数据库中,能够提高匿名数据库的数据质量,以更好地满足数据分析等用途。
52.在一种实施方式中,若第一端110自身不具有数据,或数据很少不足以构建匿名数据库,可以生成伪数据,以作为第一待处理数据。例如,可以基于已有数据的分布或其他先验知识,随机生成一些伪数据,这些伪数据与已有数据的分布相近,或者满足先验知识。可以将生成的伪数据作为第一待处理数据,或者将其添加到已有的数据中,以补充第一待处理数据。
53.特征数据可以是原始的数据,其具有完整的信息,如可以包括具体的年龄、性别、职业、身高、体重这些信息,暴露信息的风险较高。因此,可以将特征数据进行匿名化处理,不同的特征数据进行匿名化处理后,得到的结果可能相同,例如,将年龄中的12、15、18(岁)均模糊化为11~20(岁),原本3个不同的特征数据得到的结果相同。可见,特征数据的匿名化处理相当于分类的过程。本示例性实施方式中,可以对特征数据设置多层级的分类。例如,可以对年龄这一种特征设置第一层级的分类,包括0~10、11~20、21~30、31~40、41~50、51~60等类别,还可以设置第二层级的分类,包括0~20、21~40、41~60等类别。可见,层级越高,分类的粒度越粗,每个类别所包含的范围越大,对特征数据的泛化程度越高,信息损失越多。层级泛化信息用于表征第一特征数据的层级分类信息,以及第一特征数据与一个或多个层级的泛化类别之间的归属关系。应当理解,不同特征的层级泛化信息可以不同,对每一种特征来说,其层级泛化信息可以仅包括一个层级的泛化信息,也可以包括多个层级的泛化信息。
54.示例性的,层级泛化信息可以以泛化层级结构表的形式记录。例如,第一特征数据中存在特征“受教育情况”,表1示出了该特征的泛化层级结构表。由表1可见,该特征的原始数据包括16种不同的值,在第一层级的分类下,有7个泛化类别,在第二层级的分类下,有3个泛化类别,在第三层级的分类下,只有1个泛化类别。显然,随着层级的升高,特征的信息泛化程度越高,即信息越笼统。
55.表1
56.[0057][0058]
在一种实施方式中,第一特征数据可以包括字符型特征、整型特征、浮点型特征、列表型特征中的一种或多种。相应的,上述对第一待处理数据中的第一特征数据构造层级泛化信息,可以包括以下一种或多种方式:
[0059]

对于字符型(string)特征,通过将其中的部分字符替换为匿名化字符,以构造字符型特征的层级泛化信息。匿名化字符可以是“*”、“0”等不包含实际信息的字符或掩码,可起到掩盖信息的作用。在不同层级下,被替换的字符的数量或密度不同,其中高层级泛化信息中被替换的字符多于低层级泛化信息中被替换的字符,且高层级泛化信息中被替换的字符包括低层级泛化信息中被替换的字符。例如,某字符型特征的原始数据为“abcdefghij”,在第一层级下可以在每5个字符中替换掉2个字符,匿名化处理结果为“abc**fgh**”,在第二层级下可以在每5个字符中替换掉3个字符(包括第一层级下替换掉的那2个字符),匿名化处理结果为“ab***fg***”,第三层级下可以在每5个字符中替换掉4个字符(包括第二层级下替换掉的那3个字符),匿名化处理结果为“a****f****”。
[0060]
在一种实施方式中,可以对字符型特征指定长度,通过对字符型特征的数据填充匿名化字符,使其达到指定长度,这样同一字符型特征下的数据具有统一的长度,便于进行匿名化处理。
[0061]
示例性的,可以先将字符型特征的数据向左(或向右)对齐,并向数据中填充匿名化字符直到指定长度;然后按照从右到左(或从左到右)的顺序,按照设定的替换规则(替换规则可以包括替换的位置、长度或间隔)将部分字符替换为匿名化字符,例如可以设置将从右到左的前5个字符替换为匿名化字符,或者替换2个字符后保留5个字符再替换2个字符这样的间隔式替换,这样优先对最右端填充的匿名化字符进行替换,信息损失较小。可以设置一个或多个层级下的替换规则,以构造层级泛化信息。
[0062]

对于整型(int)特征,通过将整型特征的数值范围在一个或多个层级下划分为多个整数数值区间,以构造整型特征的层级泛化信息。其中,可以根据整型特征的数据分布或具体需求进行整数数值区间的划分,例如可以使整型特征的数据在各个整数数值区间内均匀分布。高层级泛化信息中的一个整数数值区间可以包括低层级泛化信息中的多个整数数值区间。举例来说,在上文中,年龄是一种整型特征,第一层级的整数数值区间可以包括0~10、11~20、21~30、31~40、41~50、51~60等,第二层级的整数数值区间可以包括0~
20、21~40、41~60等,一个高层级的整数数值区间可以是多个低层级的整数数值区间的并集。通过设置多层级的整数数值区间,可以得到整型特征的层级泛化信息,如可以输出由一个或多个层级的整数数值区间形成的泛化层级结构表。
[0063]

对于浮点型(float)特征,提供两种构造层级泛化信息的示例性方案。
[0064]
第一种方案是通过将浮点型特征的数值范围在一个或多个层级下划分为多个浮点数值区间,以构造浮点型特征的层级泛化信息。其中,浮点数值区间的划分与上述整数数值区间的划分相似,可以根据浮点型特征的数据分布或具体需求进行浮点数值区间的划分,例如可以使浮点型特征的数据在各个浮点数值区间内均匀分布。浮点数值区间与整数数值区间相比,区别在于浮点数值区间一般是连续的。高层级泛化信息中的一个浮点数值区间包括低层级泛化信息中的多个浮点数值区间。举例来说,身高是一种浮点型特征,可以设置第一层级的浮点数值区间为[0,120]、(120,150]、(150,155]、(155,160]、(160,165]、(165,170]、(170,175]、(175,180]、(180,185]、(185,190]、(190,200]、(200,+∞),设置第二层级的浮点数值区间为[0,150]、(150,160]、(160,170]、(170,180]、(180,190]、(190,+∞),一个高层级的浮点数值区间可以是多个低层级的浮点数值区间的并集。通过设置多层级的浮点数值区间,可以得到浮点型特征的层级泛化信息,如可以输出由一个或多个层级的浮点数值区间形成的泛化层级结构表。
[0065]
第二种方案是通过设置浮点型特征的数据在一个或多个层级下保留的小数位数,以构造浮点型特征的层级泛化信息,其中高层级泛化信息中所保留的小数位数少于低层级泛化信息中所保留的小数位数。举例来说,可以设置第一层级下保留3位小数,第二层级下保留2位小数,第三层级下保留1位小数,由此形成层级泛化信息。
[0066]

对于列表型(list)特征,通过设置在一个或多个层级下将列表型特征的数据中指定位置的数据进行隐匿,以构造列表型特征的层级泛化信息,其中高层级泛化信息中被隐匿的数据多于低层级泛化信息中被隐匿的数据,且高层级泛化信息中被隐匿的数据包括低层级泛化信息中被隐匿的数据。举例来说,特征“手机在一小时内打开的app”为列表型特征,包括时间和打开的app两列数据,并包括多行数据,每一行表示一次打开app的时间和打开的app。可以设置在第一层级下将前三行以外的数据进行隐匿,在第二层级下将前两行以外的数据进行隐匿,在第三层级下将第一行以外的数据进行隐匿。或者,可以设置在第一层级下将前三行与后三行以外的数据进行隐匿,在第二层级下将前两行与后两行以外的数据进行隐匿,在第三层级下将第一行与最后一行以外的数据进行隐匿。层级越高,被隐匿的数据越多。隐匿可以是将数据替换为匿名化字符或将数据删除。通过设置一个或多个层级下需要隐匿的数据位置,可以得到列表型特征的层级泛化信息。
[0067]
此外,除了上述4种特征外,其他类型的特征可视为枚举型特征,可以直接定义枚举型特征的层级泛化信息。如表1所示的“受教育情况”为枚举型特征,可以人为地为枚举型特征设置多层级的泛化类别,并人为指定枚举型特征的数值与各层级的泛化类别之间的归属关系,输出泛化层级结构表。
[0068]
在一种实施方式中,构造层级泛化信息的过程可以参考图4所示,输入第一特征数据后,可以对其中的每一种特征进行如下处理:判断该特征的类型,根据该特征的类型,采用对应的方式输出层级泛化信息。例如,可以将该特征的表达式输入switch函数,首先判断是否为string类型,在case string(即该特征为string类型)的情况下,向左/右对齐,填充
到指定长度,从右到左/从左到右按照指定间隔将部分字符替换为匿名化字符,构造层级泛化信息,由此输出该特征的层级泛化信息;若不是string类型,即判断string类型为false,则进一步判断是否为int类型,在case int(即该特征为int类型)的情况下,将数值范围划分为整数数值区间,构造层级泛化信息,由此输出该特征的层级泛化信息;若不是int类型,即判断int类型为false,则进一步判断是否为float类型,在case float(即该特征为float类型)的情况下,将数值范围划分为浮点数值区间,构造层级泛化信息,或者确定保留的小数位数,构造层级泛化信息,由此输出该特征的层级泛化信息;若不是float类型,即判断float类型为false,则进一步判断是否为list类型,在case list(即该特征为list类型)的情况下,保留列表前几行,其他部分隐匿,构造层级泛化信息,或者保留列表头和尾的若干行,其他部分隐匿,构造层级泛化信息,由此输出该特征的层级泛化信息;若不是list类型,即判断list类型为false,则执行default语句,可以将该特征视为枚举型特征,直接定义层级泛化信息,由此输出该特征的层级泛化信息。通过对每一种特征构造层级泛化信息,可以得到整体的层级泛化信息。
[0069]
步骤s320,基于层级泛化信息对第一特征数据进行匿名化处理,得到第一匿名特征数据,使得以第一匿名特征数据为准标识符,对第一待处理数据划分的等价类满足ks匿名条件;ks为[2,k]内的正整数。
[0070]
第一特征数据中可以包括多种特征,多种特征组合后,可能标识出个体,例如以年龄、性别、职业、身高、体重中的每一种特征难以关联到具体的人,但是将这些特征组合后,可能关联到具体的人,容易暴露信息。本示例性实施方式中,基于层级泛化信息对第一特征数据进行匿名化处理,也就是将第一特征数据替换为概括描述或隐匿部分信息的泛化类别,例如可以将表1中特征“受教育情况”的原始数据替换为第一层级、第二层级或第三层级的泛化类别。匿名化处理后得到第一匿名特征数据,其能够提高信息的模糊性,确保以第一匿名特征数据作为准标识符的情况下,无法关联个体信息。对第一匿名特征数据所需达到的数据匿名程度(即数据的泛化程度或模糊程度)设置了标准,即以第一匿名特征数据为准标识符对第一待处理数据划分的等价类,等价类需要满足ks匿名条件。具体地,每个等价类的第一匿名特征数据相同,ks匿名条件是指等价类的数据数量(即记录的条数)不小于ks,对第一待处理数据划分等价类后,每个等价类均满足ks匿名条件,即第一待处理数据中第一匿名特征数据相同的记录不少于ks条。ks不小于2,且不大于k,k为数据收集阶段匿名数据库需要满足的匿名条件,ks值越大,越不容易暴露信息。可以根据经验或具体需求设定ks值。在一种实施方式中,可以设置ks小于k,即在匿名数据库构建阶段对数据匿名程度的要求,可以低于数据收集阶段对数据匿名程度的要求。这是由于在数据收集阶段会收集到第二端120的数据,这些数据会添加到匿名数据库中,增加匿名数据库的数据匿名程度,因此在匿名数据库构建阶段可以设置相对低的匿名条件,以采用合适的力度对第一特征数据进行匿名化处理,这样能够防止数据的过度匿名化,也能够一定程度上减少计算量。
[0071]
在匿名化处理中,需要为第一特征数据中的不同特征选择合适的泛化层级。以表1中的特征“受教育情况”为例,若选择的泛化层级高,如选择第三层级,则数据匿名程度很高,但是信息损失也很严重,若选择的泛化层级低,如选择第一层级,则信息损失程度较低,但是数据匿名程度也较低,信息暴露的风险较高,因此需要确定合适的泛化层级。通过为每一种特征选择合适的泛化层级,能够使得匿名化处理后的第一匿名特征数据整体上满足ks匿名条件,从而在数据匿名程度与信息损失程度之间达到较好的平衡。
[0072]
在一种实施方式中,参考图5所示,上述基于层级泛化信息对第一特征数据进行匿名化处理,得到第一匿名特征数据,使得以第一匿名特征数据为准标识符,对第一待处理数据划分的等价类满足ks匿名条件,可以包括以下步骤s510和s520:
[0073]
步骤s510,使用层级泛化信息中的最高层级的泛化信息对第一特征数据进行匿名化处理,得到第一匿名特征数据。
[0074]
其中,最高层级的泛化信息表示最高的泛化程度,如表1中第三层级为最高层级。将第一特征数据中的每一种特征的原始数据均替换为最高层级的泛化类别,此时得到的第一匿名特征数据是整体上泛化程度最高的特征数据。
[0075]
步骤s520,通过以下方式对第一匿名特征数据进行迭代更新,直到以更新后的第一匿名特征数据为准标识符,对第一待处理数据划分的等价类恰好满足ks匿名条件:在第一特征数据中确定一种待降级特征,使用层级泛化信息中的低一层级的泛化信息对待降级特征重新进行匿名化处理或将待降级特征恢复为原始数据,以更新第一匿名特征数据。
[0076]
步骤s510中得到的第一匿名特征数据泛化程度最高,信息损失也最严重,通常会超额满足ks匿名条件,即以该第一匿名特征数据为准标识符,对第一待处理数据划分等价类,等价类的数据数量会远大于ks。因此,可以通过迭代更新第一匿名特征数据,逐步地将泛化程度降低到合适的水平,即恰好满足ks匿名条件的水平。恰好满足ks匿名条件可以是指,等价类的数据数量等于ks,或刚好大于ks(即当前的第一匿名特征数据满足ks匿名条件,若再更新一次第一匿名特征数据,则将不满足ks匿名条件)。
[0077]
在迭代更新中,每次在第一特征数据中选择一种特征作为待降级特征,使用层级泛化信息中的低一层级的泛化信息对待降级特征重新进行匿名化处理,也就是将待降级特征细化到低一层级的泛化类别上。需要说明的是,若待降级特征原本处于第一层级的泛化类别上,则可以将待降级特征恢复为原始数据,原始数据可视为第0层级,因此恢复到原始数据也相当于细化到低一层级。例如,选择表1中的特征“受教育情况”为待降级特征,若当前已使用第三层级的泛化信息进行了匿名化处理,将全部数据处理为“*”,则可以使用第二层级的泛化信息重新进行匿名化处理,以细化到第二层级的泛化类别上,则数据被处理为“高等教育”、“中等教育”或“初等教育”;若当前已使用第二层级的泛化信息进行了匿名化处理,则可以使用第一层级的泛化信息重新进行匿名化处理,以细化到第一层级的泛化类别上,则数据被处理为“大学教育”、“高中教育”、“职业教育”、“初中教育”、“大学后教育”、“小学教育”或“学前教育”;若当前已使用第一层级的泛化信息进行了匿名化处理,则可以将特征“受教育情况”恢复为原始数据。通过重新匿名化处理或恢复原始数据来更新第一匿名特征数据,使得第一匿名特征数据的泛化程度降低。并且,本示例性实施方式每次只更新一种特征,对该特征只降低一个层级,这使得每次更新后第一匿名特征数据的泛化程度发生较小的变化,有利于准确达到恰好满足ks匿名条件的水平。若每次更新时,更新多种特征,或者对特征降低多个层级(例如从表1中的第三层级降低到第一层级),则第一匿名特征数据的泛化程度变化较为剧烈,可能导致泛化程度降低地过多,不满足ks匿名条件,或者难以准确达到恰好满足ks匿名条件的水平。
[0078]
若某一次更新后,各等价类的数据数量中的最小值等于ks,则此时恰好满足ks匿名条件,可以结束迭代,输出更新后的第一匿名特征数据。若某一次更新后,各等价类的数据
0.330.590022315 0.290.6210316874 0.610.411081234 0.750.390196521 0.880.3300198893 0.530.1211632154
[0088]
对表2中的第一特征数据使用最高层级的泛化信息进行匿名化处理,可以得到表3所示的数据。表3中的前5列为当前的第一匿名特征数据,5种特征的原始数据均被处理为*,泛化程度很高。表4示出了表3对应的频数字典,表3中的8条数据的准标识符相同,即当前仅有一个等价类,其准标识符为{*,*,*,*,*},该等价类的频数为8,其远大于ks,因此可以对当前的第一匿名特征数据进行迭代更新,以降低其泛化程度。
[0089]
表3
[0090]
ramusagediskusagebluetoothdarkmodeschedulenumstep*****1354*****21465*****2315*****16874*****1234*****6521*****8893*****32154
[0091]
表4
[0092][0093][0094]
在低一层级的泛化类别中,特征bluetooth和darkmode的取值数量均为2,可以随机选择一个作为待降级特征,例如以bluetooth为待降级特征。需要说明的是,bluetooth的层级泛化信息比较简单,仅有一个泛化层级,因此低一层级即为原始数据,将bluetooth列恢复为原始数据,由此进行了一次更新,得到表5所示的数据,其中前5列为当前更新后的第一匿名特征数据。同时可以更新频数字典,如表6所示,此时存在两个等价类,其准标识符分别为{*,*,0,*,*}和{*,*,1,*,*},两个等价类均有4条数据,频数均为4。频数中的最小值(即4)表示当前的泛化程度,其仍然大于ks,因此可以继续对第一匿名特征数据进行迭代更新。
[0095]
表5
[0096]
ramusagediskusagebluetoothdarkmodeschedulenumstep**1**1354**0**21465**0**2315
**1**16874**1**1234**0**6521**0**8893**1**32154
[0097]
表6
[0098]
等价类频数{*,*,0,*,*}4{*,*,1,*,*}4
[0099]
在低一层级的泛化类别中,特征darkmode的取值数量为2,可以作为待降级特征。需要说明的是,darkmode的层级泛化信息也比较简单,仅有一个泛化层级,因此低一层级即为原始数据,将darkmode列恢复为原始数据,这样又进行了一次更新,得到表7所示的数据,其中前5列为当前更新后的第一匿名特征数据。同时可以更新频数字典,如表8所示,此时存在4个等价类,其准标识符分别为{*,*,0,0,*}、{*,*,0,1,*}、{*,*,1,0,*}和{*,*,1,1,*},每个等价类均有2条数据,频数均为2。频数中的最小值(即2)等于ks,这表明当前的第一匿名特征数据恰好满足ks匿名条件。可以结束迭代过程,完成对第一特征数据的匿名化处理,输出第一匿名特征数据。
[0100]
表7
[0101]
ramusagediskusagebluetoothdarkmodeschedulenumstep**11*1354**01*21465**00*2315**10*16874**10*1234**01*6521**00*8893**11*32154
[0102]
表8
[0103]
等价类频数{*,*,0,0,*}2{*,*,0,1,*}2{*,*,1,0,*}2{*,*,1,1,*}2
[0104]
步骤s330,将在匿名化处理中所使用的层级泛化信息中的目标层级的泛化信息记录为特征匿名化信息。
[0105]
每一种特征的层级泛化信息可以包括一个或多个层级的泛化信息。在对第一特征数据进行匿名化处理时,最终将每一种特征的数据处理为某个层级的泛化类别或者采用了原始数据,将该层级称为目标层级。目标层级的泛化信息是实际使用的泛化信息,可以将其
记录为特征匿名化信息,以在后续同步到第二端120。示例性的,对表1的特征“受教育情况”,若最终采用第二层级的泛化信息进行匿名化处理,将数据处理为“大学教育”、“高中教育”、“职业教育”、“初中教育”、“大学后教育”、“小学教育”或“学前教育”,可以将第二层级的泛化信息记录为特征“受教育情况”对应的特征匿名化信息,其包括第二层级的泛化类别有哪些、以及原始数据与第二层级的泛化类别之间的归属关系等信息。将全部特征的目标层级的泛化信息进行整合,得到完整的特征匿名化信息。
[0106]
步骤s340,对第一敏感数据进行隐私化处理。
[0107]
本公开对隐私化处理的具体方式不做限定,如可以包括差分隐私处理、数据脱敏数据等。示例性的,可以对第一敏感数据添加随机噪声,以实现差分隐私处理。由此提高第一敏感数据的安全性。
[0108]
步骤s350,结合第一匿名特征数据和经过隐私化处理的第一敏感数据,以构建匿名数据库。
[0109]
在前述步骤中,对第一待处理数据中的第一特征数据进行了匿名化处理,得到第一匿名特征数据,对第一待处理数据中的第一敏感数据进行了隐私化处理,将两部分处理后的数据结合起来,即为经过全面处理的第一待处理数据,将其构建为匿名数据库。可见,初始构建的匿名数据库包括第一匿名特征数据和经过隐私化处理的第一敏感数据。
[0110]
在一种实施方式中,参考图6所示,在结合第一匿名特征数据和经过隐私化处理的第一敏感数据,以构建匿名数据库之前,数据收集方法还可以包括以下步骤s610和s620:
[0111]
步骤s610,将第一待处理数据中每个等价类的第一敏感数据,与全部第一敏感数据计算数据分布相似性;
[0112]
步骤s620,若第一待处理数据中存在数据分布相似性不满足相似性要求的等价类,将该等价类作为待优化等价类,通过合并待优化等价类与第一待处理数据中的其他等价类,使合并后的等价类的数据分布相似性满足相似性要求,并根据合并结果更新特征匿名化信息。
[0113]
其中,用于计算数据分布相似性的第一敏感数据可以是未经隐私化处理的第一敏感数据,也可以是经过隐私化处理的第一敏感数据。因此,步骤s610和s620可以在步骤s340之前执行,也可以在步骤s340之后、步骤s350之前执行。
[0114]
将每个等价类的第一敏感数据,与全部第一敏感数据分别计算数据分布相似性,这样可以得到每个等价类对应的数据分布相似性。本公开对数据分布相似性的计算方式不做限定。例如,可以计算每个等价类的第一敏感数据的数据分布,与全部第一敏感数据的数据分布之间的搬土距离,搬土距离越大,表示数据分布相似性越低,如可以设置搬土距离阈值t,若某个等价类对应的搬土距离大于t,则表示数据分布相似性过低,不满足相似性要求。或者,可以将每个等价类的第一敏感数据的数据分布形成为向量(如可以对第一敏感数据进行直方图统计,根据统计结果生成向量),将全部第一敏感数据的数据分布也形成为向量,计算向量之间的相似度或距离,以表示数据分布相似性。
[0115]
相似性要求是指数据分布相似性应当达到一定的程度,如相似性要求可以是搬土距离小于或等于搬土距离阈值t,以表示等价类实现了t相似性。若第一待处理数据中存在数据分布相似性不满足相似性要求(如搬土距离大于搬土距离阈值t)的等价类,说明该等价类的第一敏感数据的分布与整体分布差别过大,容易暴露信息,可以将该等价类作为待
优化等价类,通过将其与其他等价类合并,使合并后的等价类的数据分布相似性满足相似性要求。合并两个或两个以上等价类时,可以将这些等价类的准标识符进行统一,例如将等价类a和等价类b合并时,可以选择等价类a的准标识符为基准,将等价类b的准标识符改变为与基准相同。在一种实施方式中,改变等价类b的准标识符意味着需要改变等价类b中的部分或全部特征的层级泛化信息,可以根据等价类的合并结果(主要是对准标识符的改变结果)更新部分或全部特征的目标层级的泛化信息,由此更新特征匿名化信息。
[0116]
在一种实施方式中,可以在其他等价类中随机选择一个,与待优化等价类进行合并。或者,可以在其他等价类中选择数据数量最少的等价类,与待优化等价类进行合并,使得合并后的等价类不会过大,造成不同等价类之间的不均衡。
[0117]
在一种实施方式中,上述合并待优化等价类与第一待处理数据中的其他等价类,可以包括以下步骤:
[0118]
将其他等价类中与待优化等价类的第一匿名特征数据最为相近的等价类,与待优化等价类进行合并。
[0119]
其中,第一匿名特征数据最为相近,即准标识符最为相近。这样合并等价类时,对准标识符的改变程度最低,这样对层级泛化信息的改变程度最低,即合并等价类的计算成本最低。
[0120]
在一种实施方式中,若第一待处理数据中存在多个等价类的数据分布相似性均不满足相似性要求,即存在多个待优化等价类,则可以按照其不满足相似性要求的程度从高到低排序,如可以将搬土距离大于搬土距离阈值t的多个等价类按照搬土距离从大到小排序,依次对每个待优化等价类进行合并。在合并时,可以优先将两个或两个以上待优化等价类进行合并,以提高效率。
[0121]
通过等价类合并,使每个等价类对应的数据分布相似性均满足相似性要求,这样每个等价类的第一敏感数据不会出现数据分布与整体分布差别过大的情况,使得第一端110或攻击方难以通过第一敏感数据的分布关联到特定的个体,从而降低了信息暴露的风险,提高了对于数据隐私的保护力度。
[0122]
下面通过3段伪代码对构建匿名数据库的过程进一步说明。
[0123]
首先是对第一特征数据进行匿名化处理以及对第一敏感数据进行隐私化处理的伪代码:
[0124][0125][0126]
然后是更新频数字典的临时变量(上述specialization)的伪代码:
[0127][0128]
最后是通过合并等价类,以满足t相似性要求的伪代码:
[0129][0130]
以上说明了第一端110构建匿名数据库的过程。在构建匿名数据库时,使用并记录了特征匿名化信息。第一端110可以在构建匿名数据库后的任意时间,将特征匿名化信息发送至第二端120,例如可以在构建匿名数据库后立即发送特征匿名化信息,也可以在需要收集数据或第二端120请求发送数据时,向第二端120发送特征匿名化信息。
[0131]
第二端120可以采用特征匿名化信息对第二特征数据进行匿名化处理,由于特征匿名化信息中记录了每一种特征的目标层级的泛化信息,或者特征匿名化信息中对每一种特征仅记录目标层级的泛化信息而不记录其它层级的泛化信息,第二端120可以基于每一种特征的目标层级的泛化信息,将第二特征数据中的每一种特征的数据泛化处理到目标层级,得到第二匿名特征数据。显然,第二匿名特征数据与匿名数据库中的第一匿名特征数据相比,每一种特征的泛化层级与泛化方式相同,因此两部分数据相适配,混合以后不易区分。
[0132]
在一种实施方式中,第二端120可以将第二匿名特征数据整理为匿名特征向量的形式,将其发送给第一端110,以便于第一端110的处理。
[0133]
在一种实施方式中,第二特征数据中可能存在无法根据特征匿名化信息进行匿名化处理的数据,例如第二特征数据中存在第一特征数据中没有的值,第一端110在对第一特征数据构造层级泛化信息时,可能未纳入这些值,因此第二端120无法根据特征匿名化信息对这些值进行分类。针对这种情况,第二端120可以将无法进行匿名化处理的数据处理为空的数据(如空的匿名特征向量),第一端110可以不对空的数据进行处理。
[0134]
继续参考图2,在步骤s220中,接收第二端发送的第二匿名特征数据,确定第二匿名特征数据在匿名数据库中所属的目标等价类,并判断增加第二匿名特征数据后的目标等价类是否满足k匿名条件;k为不小于2的正整数。
[0135]
其中,匿名数据库包括多个已有的等价类,即上述基于第一匿名特征数据形成的等价类。目标等价类是第二匿名特征数据在其中所属的等价类。即,第二匿名特征数据的准标识符与目标等价类的准标识符相同。
[0136]
若将第二匿名特征数据加入到匿名数据库中,则目标等价类的数据数量增加(即频数增加),匿名程度提高。可以判断增加第二匿名特征数据后的目标等价类是否满足k匿名条件。k可以根据经验或具体需求设定,如上所述,可以在数据收集阶段设置更严格的匿
名条件,则k可以大于上述ks。
[0137]
在一种实施方式中,上述判断增加第二匿名特征数据后的目标等价类是否满足k匿名条件,可以包括以下步骤:
[0138]
将属于目标等价类的第二匿名特征数据对应的数据数量进行累加,并与目标等价类的数据数量求和,若求和结果大于或等于k,则判断增加第二匿名特征数据后的目标等价类满足k匿名条件。
[0139]
其中,属于目标等价类的第二匿名特征数据可以有一组或多组,例如可能有多个第二端120均向第一端110发送了第二匿名特征数据,其中存在多组属于目标等价类的第二匿名特征数据,可以将这些第二匿名特征数据对应的数据数量进行累加,并与目标等价类原本的数据数量求和,该求和结果表示增加第二匿名特征数据后的目标等价类的数据数量,若其大于或等于k,则说明增加第二匿名特征数据后的目标等价类满足k匿名条件。由此能够对目标等价类是否满足k匿名条件进行准确判断。
[0140]
在一种实施方式中,上述将属于目标等价类的第二匿名特征数据对应的数据数量进行累加,可以包括以下步骤:
[0141]
将第一预设时间内接收到的属于目标等价类的第二匿名特征数据对应的数据数量累加。
[0142]
其中,第一预设时间可以是第一端110进行数据统计的周期,可以根据经验或具体需求设定。例如,第一预设时间可以是最近1小时,表示第一端110每间隔1小时,会对最近1小时内从第二端120接收到的第二匿名特征数据进行统计与判断。由此,第一端110无需实时进行数据收集,可以每次将第一预设时间内接收到的属于目标等价类的第二匿名特征数据对应的数据数量累加,由此判断将这些第二匿名特征数据添加到目标等价类后,目标等价类是否满足k匿名条件,进而确定是否对第一预设时间内的第二端120的数据进行收集。能够提高数据收集的处理效率。
[0143]
在一种实施方式中,第二端120在向第一端110发送第二匿名特征数据之前,可以对第二匿名特征数据进行隐私化处理,如可以进行差分隐私处理。这样,第一端110所接收到的第二匿名特征数据为经过隐私化处理的第二匿名特征数据,能够进一步提高第二匿名特征数据的安全性。
[0144]
继续参考图2,在步骤s230中,在判断增加第二匿名特征数据后的目标等价类满足k匿名条件的情况下,向第二端发送数据采集指令,并接收第二端响应于数据采集指令发送的经过隐私化处理的第二敏感数据。
[0145]
其中,数据采集指令表示第一端110同意采集第二端120的数据。第二端120接收到数据采集指令后,可以将经过隐私化处理的第二敏感数据发送给第一端110。第二端120对第二敏感数据进行的隐私化处理可以是差分隐私处理、数据脱敏等,其具体方式可以与第一端110对第一敏感数据进行的隐私化处理相同,也可以不同。
[0146]
本示例性实施方式中,第二端120通过两轮通信交互向第一端110提供第二匿名特征数据(或经过隐私化处理的第二匿名特征数据)以及经过隐私化处理的第二敏感数据,当存在多个第二端120的情况下,第一端110难以追溯到采集到的数据来源于哪一个具体的第二端120,也难以得知第二端120侧具体的准标识符和敏感信息,从而更加有效地保护第二端120的数据。
[0147]
继续参考图2,在步骤s240中,利用第二匿名特征数据和经过隐私化处理的第二敏感数据更新匿名数据库。
[0148]
第一端110可以将第二匿名特征数据和经过隐私化处理的第二敏感数据添加到匿名数据库中,以更新匿名数据库。添加第二匿名特征数据和经过隐私化处理的第二敏感数据后,目标等价类满足k匿名要求,即从第二端120收集的数据直接满足k匿名要求。这样无需第一端110做进一步的处理,也更加便于后续的使用。
[0149]
在一种实施方式中,在判断增加第二匿名特征数据后的目标等价类不满足k匿名条件的情况下,可以不向第二端发送数据采集指令,即不从第二端120采集第二匿名特征数据对应的(经过隐私化处理的)第二敏感数据,因为这些数据被采集后不满足k匿名条件,无法有效保证数据安全。
[0150]
在一种实施方式中,在接收第二端发送的第二匿名特征数据之后,数据采集方法还可以包括以下步骤:
[0151]
若确定第二匿名特征数据不属于匿名数据库中已有的等价类,则将第二匿名特征数据记录为待归类匿名特征数据;
[0152]
若在第二预设时间内累积的待归类匿名特征数据满足归类条件,则根据第二预设时间内累积的待归类匿名特征数据在匿名数据库中增加新的等价类。
[0153]
其中,第二匿名特征数据不属于匿名数据库中已有的等价类,即第二匿名特征数据可以形成新的特征类。将这样的第二匿名特征数据记录为待归类匿名特征数据。若待归类匿名特征数据较少,将其形成新的等价类后,该等价类的数据数量较少,匿名程度不足,无法对数据进行有效保护。因此,可以在第二预设时间内累积待归类匿名特征数据,并判断其是否满足归类条件。归类条件可以是关于待归类匿名特征数据的匿名条件,如可以是ks匿名条件或k匿名条件。第二预设时间是用于累积待归类匿名特征数据的时长,可以根据经验或具体需求设置第二预设时间,例如第二预设时间可以是最近的1小时、2小时等。在一种实施方式中,第二预设时间的时长可以大于第一预设时间的时长。
[0154]
示例性的,以ks匿名条件作为归类条件,第一端110可以对最近的2小时内接收到的待归类匿名特征数据进行累积,若累积的数据数量大于或等于ks,则表示累积的待归类匿名特征数据满足归类条件,可以将累积的待归类匿名特征数据形成为匿名数据库中新的等价类。进一步的,第一端110可以向第二端120发送关于待归类匿名特征数据的数据采集指令,以采集待归类匿名特征数据对应的第二敏感数据。或者,第一端110可以在接收到更多的属于该新的等价类的第二匿名特征数据,并判断增加第二匿名特征数据后该新的等价类满足k匿名条件的情况下,向第二端120发送关于待归类匿名特征数据与属于该新的等价类的第二匿名特征数据的数据采集指令,以采集待归类匿名特征数据与属于该新的等价类的第二匿名特征数据对应的第二敏感数据。
[0155]
通过在第二预设时间内累积待归类匿名特征数据,并判断其满足归类条件时建立新的等价类,可以保证该新的等价类的匿名性,以保护数据安全。
[0156]
在一种实施方式中,若在第二预设时间内累积的待归类匿名特征数据不满足归类条件,可以将第二预设时间内累积的待归类匿名特征数据删除,以降低数据存储成本。
[0157]
以上说明了由第一端110执行的数据收集方法。图7示出了由第二端120执行的数据收集方法,可以包括以下步骤s710至s740:
[0158]
步骤s710,接收由第一端发送的用于构建匿名数据库的特征匿名化信息;
[0159]
步骤s720,采用特征匿名化信息对第二待处理数据中的第二特征数据进行匿名化处理以得到第二匿名特征数据;第二待处理数据包括第二敏感数据和第二敏感数据对应的第二特征数据;
[0160]
步骤s730,将第二匿名特征数据发送至第一端,使第一端在判断增加第二匿名特征数据后的目标等价类满足k匿名条件的情况下,向第二端发送数据采集指令;目标等价类是第二匿名特征数据在匿名数据库中所属的等价类;
[0161]
步骤s740,响应于数据采集指令,将经过隐私化处理的第二敏感数据发送至第一端,使第一端利用第二匿名特征数据和经过隐私化处理的第二敏感数据更新匿名数据库。
[0162]
图7所示的方法为图2所示的方法中第二端120所执行的那一部分,相关的细节已在上文中进行了说明,此处不再赘述。
[0163]
基于图7所示的方法,一方面,提供了一种多方协作场景下的数据收集方案,能够确保第一端110从第二端120收集的数据能够直接满足k匿名要求,从而为数据提供有效的隐私保护,并降低数据后续处理与使用的成本。另一方面,第一端110和第二端120之间进行两轮通信交互,在第一轮通信中第二端120只向第一端110发送第二匿名特征数据,并不会暴露第二端120的敏感信息(如第二敏感数据),在第一端110发送数据采集指令后,第二端120才会在第二轮通信中发送经过隐私化处理的第二敏感数据,由此保证第二端120不会在第一端110不需要采集数据的情况下在第一轮通信中暴露敏感信息,提高第二端120的敏感信息的安全性。
[0164]
图8示出了构建匿名数据库和双端协同k匿名数据收集的示意图。本方案可以包括两个阶段:匿名数据库构建阶段和k匿名数据收集阶段,以下分别进行说明。
[0165]
在匿名数据库构建,第一端110将第一待处理数据划分为第一特征数据和第一敏感数据,此外还可以由身份数据、非敏感数据等,可以将其删除。对第一特征数据进行匿名化处理,得到第一匿名特征数据(即准标识符),并形成特征匿名化信息。对第一敏感数据进行隐私化处理,得到经过隐私化处理的第一敏感数据。将第一匿名特征数据和经过隐私化处理的第一敏感数据构建为匿名数据库。此外,还可以获取第一端110已有的其他数据,对其中的特征数据采用上述特征匿名化信息进行匿名化处理,对其中的敏感数据进行隐私化处理,并添加到匿名数据库中。由此完成对匿名数据库的构建。
[0166]
在k匿名数据收集阶段,第二端120具有第二待处理数据,包括第二特征数据和第二敏感数据。第一端110向第二端120发送特征匿名化信息,第二端120采用特征匿名化信息对第二特征数据进行匿名化处理,得到第二匿名特征数据。第二端120向第一端110发送第二匿名特征数据,第一端110基于匿名数据库判断增加第二匿名特征数据后的目标等价类是否满足k匿名条件,若满足,则向第二端120发送数据采集指令。第二端120响应于数据采集指令,将第二匿名特征数据与其对应的经过隐私化处理的第二敏感数据发送给第一端110,第一端110将接收到的第二匿名特征数据和经过隐私化处理的第二敏感数据添加到匿名数据库,以更新匿名数据库。由此实现第一端110和第二端120双端协同的k匿名数据收集。
[0167]
本公开的示例性实施方式还提供一种数据收集装置,配置于第一端110。参考图9所示,数据收集装置900可以包括以下模块:
[0168]
特征匿名化信息发送模块910,被配置为将构建匿名数据库所使用的特征匿名化信息发送至第二端,使第二端采用特征匿名化信息对第二待处理数据中的第二特征数据进行匿名化处理以得到第二匿名特征数据;第二待处理数据包括第二敏感数据和第二敏感数据对应的第二特征数据;
[0169]
第二匿名特征数据接收模块920,被配置为接收第二端发送的第二匿名特征数据,确定第二匿名特征数据在匿名数据库中所属的目标等价类,并判断增加第二匿名特征数据后的目标等价类是否满足k匿名条件;k为不小于2的正整数;
[0170]
数据采集模块930,被配置为在判断增加第二匿名特征数据后的目标等价类满足k匿名条件的情况下,向第二端发送数据采集指令,并接收第二端响应于数据采集指令发送的经过隐私化处理的第二敏感数据;
[0171]
匿名数据库更新模块940,被配置为利用第二匿名特征数据和经过隐私化处理的第二敏感数据更新匿名数据库。
[0172]
在一种实施方式中,上述判断增加第二匿名特征数据后的目标等价类是否满足k匿名条件,包括:
[0173]
将属于目标等价类的第二匿名特征数据对应的数据数量进行累加,并与目标等价类的数据数量求和,若求和结果大于或等于k,则判断增加第二匿名特征数据后的目标等价类满足k匿名条件。
[0174]
在一种实施方式中,上述将属于目标等价类的第二匿名特征数据对应的数据数量进行累加,包括:
[0175]
将第一预设时间内接收到的属于目标等价类的第二匿名特征数据对应的数据数量累加。
[0176]
在一种实施方式中,第二匿名特征数据接收模块920,还被配置为:
[0177]
在接收第二端发送的第二匿名特征数据之后,若确定第二匿名特征数据不属于匿名数据库中已有的等价类,则将第二匿名特征数据记录为待归类匿名特征数据;若在第二预设时间内累积的待归类匿名特征数据满足归类条件,则根据第二预设时间内累积的待归类匿名特征数据在匿名数据库中增加新的等价类。
[0178]
在一种实施方式中,数据收集装置900还包括匿名数据库构建模块,被配置为在特征匿名化信息发送模块910将构建匿名数据库所使用的特征匿名化信息发送至第二端之前,执行以下步骤:
[0179]
对第一待处理数据中的第一特征数据构造层级泛化信息;第一待处理数据包括第一敏感数据和第一敏感数据对应的第一特征数据;
[0180]
基于层级泛化信息对第一特征数据进行匿名化处理,得到第一匿名特征数据,使得以第一匿名特征数据为准标识符,对第一待处理数据划分的等价类满足ks匿名条件;ks为[2,k]内的正整数;
[0181]
将在匿名化处理中所使用的层级泛化信息中的目标层级的泛化信息记录为特征匿名化信息;
[0182]
对第一敏感数据进行隐私化处理;
[0183]
结合第一匿名特征数据和经过隐私化处理的第一敏感数据,以构建匿名数据库。
[0184]
在一种实施方式中,上述基于层级泛化信息对第一特征数据进行匿名化处理,得
到第一匿名特征数据,使得以第一匿名特征数据为准标识符,对第一待处理数据划分的等价类满足ks匿名条件,包括:
[0185]
使用层级泛化信息中的最高层级的泛化信息对第一特征数据进行匿名化处理,得到第一匿名特征数据;最高层级的泛化信息表示最高的泛化程度;
[0186]
通过以下方式对第一匿名特征数据进行迭代更新,直到以更新后的第一匿名特征数据为准标识符,对第一待处理数据划分的等价类恰好满足ks匿名条件:在第一特征数据中确定一种待降级特征,使用层级泛化信息中的低一层级的泛化信息对待降级特征重新进行匿名化处理或将待降级特征恢复为原始数据,以更新第一匿名特征数据。
[0187]
在一种实施方式中,上述在第一特征数据中确定一种待降级特征,包括:
[0188]
针对第一特征数据的每一种特征,在使用层级泛化信息中的低一层级的泛化信息对特征重新进行匿名化处理或将特征恢复为原始数据的情况下,获取特征对应的取值数量,将取值数量最小的特征确定为待降级特征。
[0189]
在一种实施方式中,匿名数据库构建模块,还被配置为:
[0190]
在结合第一匿名特征数据和经过隐私化处理的第一敏感数据,以构建匿名数据库之前,将第一待处理数据中每个等价类的第一敏感数据,与全部第一敏感数据计算数据分布相似性;若第一待处理数据中存在数据分布相似性不满足相似性要求的等价类,将该等价类作为待优化等价类,通过合并待优化等价类与第一待处理数据中的其他等价类,使合并后的等价类的数据分布相似性满足相似性要求,并根据合并结果更新特征匿名化信息。
[0191]
在一种实施方式中,上述合并待优化等价类与第一待处理数据中的其他等价类,包括:
[0192]
将其他等价类中与待优化等价类的第一匿名特征数据最为相近的等价类,与待优化等价类进行合并。
[0193]
在一种实施方式中,第一特征数据包括字符型特征、整型特征、浮点型特征、列表型特征中的一种或多种;上述对第一待处理数据中的第一特征数据构造层级泛化信息,包括以下一种或多种方式:
[0194]
对于字符型特征,通过设置在一个或多个层级下将字符型特征的数据中不同数量的字符替换为匿名化字符,以构造字符型特征的层级泛化信息,其中高层级泛化信息中被替换的字符多于低层级泛化信息中被替换的字符,且高层级泛化信息中被替换的字符包括低层级泛化信息中被替换的字符;
[0195]
对于整型特征,通过将整型特征的数值范围在一个或多个层级下划分为多个整数数值区间,以构造整型特征的层级泛化信息,其中高层级泛化信息中的一个整数数值区间包括低层级泛化信息中的多个整数数值区间;
[0196]
对于浮点型特征,通过将浮点型特征的数值范围在一个或多个层级下划分为多个浮点数值区间,以构造浮点型特征的层级泛化信息,其中高层级泛化信息中的一个浮点数值区间包括低层级泛化信息中的多个浮点数值区间;或者,通过设置浮点型特征的数据在一个或多个层级下保留的小数位数,以构造浮点型特征的层级泛化信息,其中高层级泛化信息中所保留的小数位数少于低层级泛化信息中所保留的小数位数;
[0197]
对于列表型特征,通过设置在一个或多个层级下将列表型特征的数据中指定位置的数据进行隐匿,以构造列表型特征的层级泛化信息,其中高层级泛化信息中被隐匿的数
据多于低层级泛化信息中被隐匿的数据,且高层级泛化信息中被隐匿的数据包括低层级泛化信息中被隐匿的数据。
[0198]
本公开的示例性实施方式还提供一种数据收集装置,配置于第二端120。参考图10所示,数据收集装置1000可以包括以下模块:
[0199]
特征匿名化信息接收模块1010,被配置为接收由第一端发送的用于构建匿名数据库的特征匿名化信息;
[0200]
特征匿名化处理模块1020,被配置为采用特征匿名化信息对第二待处理数据中的第二特征数据进行匿名化处理以得到第二匿名特征数据;第二待处理数据包括第二敏感数据和第二敏感数据对应的第二特征数据;
[0201]
第二匿名特征数据发送模块1030,被配置为将第二匿名特征数据发送至第一端,使第一端在判断增加第二匿名特征数据后的目标等价类满足k匿名条件的情况下,向第二端发送数据采集指令;目标等价类是第二匿名特征数据在匿名数据库中所属的等价类;
[0202]
数据采集指令响应模块1040,被配置为响应于数据采集指令,将经过隐私化处理的第二敏感数据发送至第一端,使第一端利用第二匿名特征数据和经过隐私化处理的第二敏感数据更新匿名数据库。
[0203]
上述装置900和装置1000中各部分的具体细节在方法部分实施方式中已经详细说明,未披露的细节内容可以参见方法部分的实施方式内容,因而不再赘述。
[0204]
本公开的示例性实施方式还提供了一种计算机可读存储介质,可以实现为一种程序产品的形式,其包括程序代码,当程序产品在电子设备上运行时,程序代码用于使电子设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。在一种可选的实施方式中,该程序产品可以实现为便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在电子设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0205]
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0206]
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0207]
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
[0208]
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程
式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0209]
本公开的示例性实施方式还提供一种电子设备,如可以是上述第一端110或第二端120。该电子设备可以包括处理器与存储器。存储器存储有处理器的可执行指令,如可以是程序代码。处理器通过执行该可执行指令来执行本示例性实施方式中的方法。
[0210]
下面参考图11,以通用计算设备的形式对电子设备进行示例性说明。应当理解,图11显示的电子设备1100仅仅是一个示例,不应对本公开实施方式的功能和使用范围带来限制。
[0211]
如图11所示,电子设备1100可以包括:处理器1110、存储器1120、总线1130、i/o(输入/输出)接口1140、网络适配器1150。
[0212]
存储器1120可以包括易失性存储器,例如ram 1121、缓存单元1122,还可以包括非易失性存储器,例如rom 1123。存储器1120还可以包括一个或多个程序模块1124,这样的程序模块1124包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。例如,程序模块1124可以包括上述装置中的各模块。
[0213]
总线1130用于实现电子设备1100的不同组件之间的连接,可以包括数据总线、地址总线和控制总线。
[0214]
电子设备1100可以通过i/o接口1140与一个或多个外部设备1200(例如键盘、鼠标、外置控制器等)进行通信。
[0215]
电子设备1100可以通过网络适配器1150与一个或者多个网络通信,例如网络适配器1150可以提供如3g/4g/5g等移动通信解决方案,或者提供如无线局域网、蓝牙、近场通信等无线通信解决方案。网络适配器1150可以通过总线1130与电子设备1100的其它模块通信。
[0216]
尽管图11中未示出,还可以在电子设备1100中设置其它硬件和/或软件模块,包括但不限于:显示器、微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0217]
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的示例性实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0218]
本领域技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施方式。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些
变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
[0219]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限定。

技术特征:
1.一种数据收集方法,应用于第一端,其特征在于,所述方法包括:将构建匿名数据库所使用的特征匿名化信息发送至第二端,使所述第二端采用所述特征匿名化信息对第二待处理数据中的第二特征数据进行匿名化处理以得到第二匿名特征数据;所述第二待处理数据包括第二敏感数据和所述第二敏感数据对应的所述第二特征数据;接收所述第二端发送的所述第二匿名特征数据,确定所述第二匿名特征数据在所述匿名数据库中所属的目标等价类,并判断增加所述第二匿名特征数据后的所述目标等价类是否满足k匿名条件;k为不小于2的正整数;在判断增加所述第二匿名特征数据后的所述目标等价类满足k匿名条件的情况下,向所述第二端发送数据采集指令,并接收所述第二端响应于所述数据采集指令发送的经过隐私化处理的所述第二敏感数据;利用所述第二匿名特征数据和经过隐私化处理的所述第二敏感数据更新所述匿名数据库。2.根据权利要求1所述的方法,其特征在于,所述判断增加所述第二匿名特征数据后的所述目标等价类是否满足k匿名条件,包括:将属于所述目标等价类的所述第二匿名特征数据对应的数据数量进行累加,并与所述目标等价类的数据数量求和,若求和结果大于或等于k,则判断增加所述第二匿名特征数据后的所述目标等价类满足k匿名条件。3.根据权利要求2所述的方法,其特征在于,所述将属于所述目标等价类的所述第二匿名特征数据对应的数据数量进行累加,包括:将第一预设时间内接收到的属于所述目标等价类的所述第二匿名特征数据对应的数据数量累加。4.根据权利要求1所述的方法,其特征在于,在接收所述第二端发送的所述第二匿名特征数据之后,所述方法还包括:若确定所述第二匿名特征数据不属于所述匿名数据库中已有的等价类,则将所述第二匿名特征数据记录为待归类匿名特征数据;若在第二预设时间内累积的待归类匿名特征数据满足归类条件,则根据所述第二预设时间内累积的待归类匿名特征数据在所述匿名数据库中增加新的等价类。5.根据权利要求1所述的方法,其特征在于,在将构建匿名数据库所使用的特征匿名化信息发送至第二端之前,所述方法还包括:对第一待处理数据中的第一特征数据构造层级泛化信息;所述第一待处理数据包括第一敏感数据和所述第一敏感数据对应的所述第一特征数据;基于所述层级泛化信息对所述第一特征数据进行匿名化处理,得到第一匿名特征数据,使得以所述第一匿名特征数据为准标识符,对所述第一待处理数据划分的等价类满足k
s
匿名条件;k
s
为[2,k]内的正整数;将在所述匿名化处理中所使用的所述层级泛化信息中的目标层级的泛化信息记录为所述特征匿名化信息;对所述第一敏感数据进行隐私化处理;结合所述第一匿名特征数据和经过隐私化处理的所述第一敏感数据,以构建所述匿名
数据库。6.根据权利要求5所述的方法,其特征在于,所述基于所述层级泛化信息对所述第一特征数据进行匿名化处理,得到第一匿名特征数据,使得以所述第一匿名特征数据为准标识符,对所述第一待处理数据划分的等价类满足k
s
匿名条件,包括:使用所述层级泛化信息中的最高层级的泛化信息对所述第一特征数据进行匿名化处理,得到第一匿名特征数据;最高层级的泛化信息表示最高的泛化程度;通过以下方式对所述第一匿名特征数据进行迭代更新,直到以更新后的第一匿名特征数据为准标识符,对所述第一待处理数据划分的等价类恰好满足k
s
匿名条件:在所述第一特征数据中确定一种待降级特征,使用所述层级泛化信息中的低一层级的泛化信息对所述待降级特征重新进行匿名化处理或将所述待降级特征恢复为原始数据,以更新所述第一匿名特征数据。7.根据权利要求6所述的方法,其特征在于,所述在所述第一特征数据中确定一种待降级特征,包括:针对所述第一特征数据的每一种特征,在使用所述层级泛化信息中的低一层级的泛化信息对所述特征重新进行匿名化处理或将所述特征恢复为原始数据的情况下,获取所述特征对应的取值数量,将取值数量最小的所述特征确定为待降级特征。8.根据权利要求5所述的方法,其特征在于,在结合所述第一匿名特征数据和经过隐私化处理的所述第一敏感数据,以构建所述匿名数据库之前,所述方法还包括:将所述第一待处理数据中每个等价类的所述第一敏感数据,与全部所述第一敏感数据计算数据分布相似性;若所述第一待处理数据中存在数据分布相似性不满足相似性要求的等价类,将该等价类作为待优化等价类,通过合并所述待优化等价类与所述第一待处理数据中的其他等价类,使合并后的等价类的数据分布相似性满足所述相似性要求,并根据合并结果更新所述特征匿名化信息。9.根据权利要求8所述的方法,其特征在于,所述合并所述待优化等价类与所述第一待处理数据中的其他等价类,包括:将所述其他等价类中与所述待优化等价类的第一匿名特征数据最为相近的等价类,与所述待优化等价类进行合并。10.根据权利要求5所述的方法,其特征在于,第一特征数据包括字符型特征、整型特征、浮点型特征、列表型特征中的一种或多种;所述对第一待处理数据中的第一特征数据构造层级泛化信息,包括以下一种或多种方式:对于所述字符型特征,通过设置在一个或多个层级下将所述字符型特征的数据中不同数量的字符替换为匿名化字符,以构造所述字符型特征的层级泛化信息,其中高层级泛化信息中被替换的字符多于低层级泛化信息中被替换的字符,且高层级泛化信息中被替换的字符包括低层级泛化信息中被替换的字符;对于所述整型特征,通过将所述整型特征的数值范围在一个或多个层级下划分为多个整数数值区间,以构造所述整型特征的层级泛化信息,其中高层级泛化信息中的一个整数数值区间包括低层级泛化信息中的多个整数数值区间;对于所述浮点型特征,通过将所述浮点型特征的数值范围在一个或多个层级下划分为
多个浮点数值区间,以构造所述浮点型特征的层级泛化信息,其中高层级泛化信息中的一个浮点数值区间包括低层级泛化信息中的多个浮点数值区间;或者,通过设置所述浮点型特征的数据在一个或多个层级下保留的小数位数,以构造所述浮点型特征的层级泛化信息,其中高层级泛化信息中所保留的小数位数少于低层级泛化信息中所保留的小数位数;对于所述列表型特征,通过设置在一个或多个层级下将所述列表型特征的数据中指定位置的数据进行隐匿,以构造所述列表型特征的层级泛化信息,其中高层级泛化信息中被隐匿的数据多于低层级泛化信息中被隐匿的数据,且高层级泛化信息中被隐匿的数据包括低层级泛化信息中被隐匿的数据。11.一种数据收集方法,应用于第二端,其特征在于,所述方法包括:接收由第一端发送的用于构建匿名数据库的特征匿名化信息;采用所述特征匿名化信息对第二待处理数据中的第二特征数据进行匿名化处理以得到第二匿名特征数据;所述第二待处理数据包括第二敏感数据和所述第二敏感数据对应的所述第二特征数据;将所述第二匿名特征数据发送至所述第一端,使所述第一端在判断增加所述第二匿名特征数据后的目标等价类满足k匿名条件的情况下,向所述第二端发送数据采集指令;所述目标等价类是所述第二匿名特征数据在所述匿名数据库中所属的等价类;响应于所述数据采集指令,将经过隐私化处理的所述第二敏感数据发送至所述第一端,使所述第一端利用所述第二匿名特征数据和经过隐私化处理的所述第二敏感数据更新所述匿名数据库。12.一种数据收集装置,配置于第一端,其特征在于,所述装置包括:特征匿名化信息发送模块,被配置为将构建匿名数据库所使用的特征匿名化信息发送至第二端,使所述第二端采用所述特征匿名化信息对第二待处理数据中的第二特征数据进行匿名化处理以得到第二匿名特征数据;所述第二待处理数据包括第二敏感数据和所述第二敏感数据对应的所述第二特征数据;第二匿名特征数据接收模块,被配置为接收所述第二端发送的所述第二匿名特征数据,确定所述第二匿名特征数据在所述匿名数据库中所属的目标等价类,并判断增加所述第二匿名特征数据后的所述目标等价类是否满足k匿名条件;k为不小于2的正整数;数据采集模块,被配置为在判断增加所述第二匿名特征数据后的所述目标等价类满足k匿名条件的情况下,向所述第二端发送数据采集指令,并接收所述第二端响应于所述数据采集指令发送的经过隐私化处理的所述第二敏感数据;匿名数据库更新模块,被配置为利用所述第二匿名特征数据和经过隐私化处理的所述第二敏感数据更新所述匿名数据库。13.一种数据收集装置,配置于第二端,其特征在于,所述装置包括:特征匿名化信息接收模块,被配置为接收由第一端发送的用于构建匿名数据库的特征匿名化信息;特征匿名化处理模块,被配置为采用所述特征匿名化信息对第二待处理数据中的第二特征数据进行匿名化处理以得到第二匿名特征数据;所述第二待处理数据包括第二敏感数据和所述第二敏感数据对应的所述第二特征数据;第二匿名特征数据发送模块,被配置为将所述第二匿名特征数据发送至所述第一端,
使所述第一端在判断增加所述第二匿名特征数据后的目标等价类满足k匿名条件的情况下,向所述第二端发送数据采集指令;所述目标等价类是所述第二匿名特征数据在所述匿名数据库中所属的等价类;数据采集指令响应模块,被配置为响应于所述数据采集指令,将经过隐私化处理的所述第二敏感数据发送至所述第一端,使所述第一端利用所述第二匿名特征数据和经过隐私化处理的所述第二敏感数据更新所述匿名数据库。14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11任一项所述的方法。15.一种电子设备,其特征在于,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至11任一项所述的方法。

技术总结
本公开提供数据收集方法、装置、存储介质与电子设备,涉及信息安全技术领域。其中,应用于第一端的数据收集方法包括:将构建匿名数据库所使用的特征匿名化信息发送至第二端;接收第二端发送的第二匿名特征数据,确定第二匿名特征数据所属的目标等价类,并判断增加第二匿名特征数据后的目标等价类是否满足K匿名条件;在判断满足K匿名条件的情况下,向第二端发送数据采集指令,并接收第二端响应于数据采集指令发送的经过隐私化处理的第二敏感数据;利用第二匿名特征数据和经过隐私化处理的第二敏感数据更新匿名数据库。本公开实现了多方协作场景下的数据收集与隐私保护,收集的数据满足K匿名条件,安全性较高,且数据处理与使用成本较低。本较低。本较低。


技术研发人员:吴钧杰 王俊 孟丹 宫建涛 谢堉鑫
受保护的技术使用者:OPPO广东移动通信有限公司
技术研发日:2023.04.10
技术公布日:2023/7/25
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐