一种医学影像数据的脱敏方法与流程

未命名 08-15 阅读:175 评论:0


1.本发明涉及数据处理技术领域,具体涉及一种医学影像数据的脱敏方法。


背景技术:

2.医学数据,是数字化医疗中产生的一系列电子数据,包括医学影像数据、患者的电子病历、检验报告等,其往往被用于各类回归性分析、人工智能模型的训练过程中。为符合相关的合规需求,医学数据在转为其他用途之前,通常需要进行脱敏处理,将涉及到患者隐私、可用于跟踪的相关标识信息进行去除后再进行使用。
3.现有技术中,已存在针对该类型的数据进行脱敏的技术方案。比如,中国专利cn202011511260.7公开了一种基于医疗数据的数据脱敏装置,该装置能够对数据中的数值部分进行识别,并在云端依照相关算法生成噪声进行混淆,从而实现脱敏。
4.但是,在实际实施过程中,发明人发现,由于各级医院的数字化系统建设进度不同、供应商不同、数据存档的需求也不同,导致在实际诊疗过程中,产生的医疗数据往往会产生一定的差异,比如,影像检查过程中的各类参数字段格式、产生的影像文件格式等,进而使得针对固定类型数据设计的脱敏方法效果不佳。


技术实现要素:

5.针对现有技术中存在的上述问题,现提供一种医学数据的脱敏方法。
6.具体技术方案如下:
7.一种医学影像数据的脱敏方法,包括:
8.步骤s1:获取待脱敏数据,对所述待脱敏数据进行识别以获取数据种类;
9.所述数据种类包括影像数据和关联于所述影像数据的患者检查数据;
10.步骤s2:根据所述数据种类调用对应的脱敏方法对所述待脱敏数据进行处理,得到待验证数据;
11.步骤s3:对所述待验证数据进行验证,生成验证结果。
12.另一方面,当所述待脱敏数据为所述患者检查数据时,所述步骤s2包括:
13.步骤a21:对所述患者检查数据进行解析,得到多个数据字段;
14.步骤a22:对所述数据字段进行分类,得到敏感信息字段和待赋值字段;
15.步骤a23:对所述敏感信息字段进行加密,以及,对所述待赋值字段重新赋值为星号,得到所述待验证数据。
16.另一方面,当所述待脱敏数据为所述影像数据时,所述步骤s2包括:
17.步骤b21:对所述影像数据进行识别,以得到文字区域;
18.步骤b22:针对每一个所述文字区域,分别获取所述文字区域邻接的背景区域;
19.步骤b23:基于所述背景区域的色彩和纹理对所述文字区域进行填充,以得到所述待验证数据。
20.另一方面,所述步骤s3包括:
21.步骤s31:对所有的所述待验证数据进行抽样,得到抽样数据;
22.步骤s32:对所述抽样数据验证完整性,得到完整性验证结果;
23.步骤s33:根据所述数据种类调用对应的验证方法对所述抽样数据进行验证,生成数据验证结果;
24.所述验证结果包括所述完整性验证结果和所述数据验证结果。
25.另一方面,所述步骤s31中,基于以下方法根据不同的所述数据种类对应的数据数量对所述待验证数据进行抽样:
[0026][0027]
式中,n

为第n个所述数据种类对应的所述待验证数据的抽样数量,z为z值,ε为置信区间,n为所述待验证数据的总量。
[0028]
另一方面,所述步骤s32中,当所述数据种类为影像数据时,所述完整性验证包括:
[0029]
步骤c31:对所述待验证数据依次提取所有的单帧图像;
[0030]
步骤c32:根据所述待验证数据所对应的检查部位分别对每一帧所述单帧图像进行检测,以获取至少一个检查关键点;
[0031]
步骤c33:根据所有的所述单帧图像中的所述检查关键点和所述检查部位生成所述完整性验证结果。
[0032]
另一方面,所述步骤s33中,针对所述患者检查数据,采用第一验证方法进行验证,所述第一验证方法包括:
[0033]
步骤d31:对所述待验证数据提取多个待检验字段;
[0034]
步骤d32:针对每个待检验字段,判断所述待检验字段为加密字段或星号字段;
[0035]
步骤d33:针对每个所述加密字段,判断所述加密字段的字段值格式是否为字符串格式,以及所述加密字段的字段值的长度是否满足预设的加密字段长度,生成第一判断结果;
[0036]
或者,针对每个所述星号字段,判断所述星号字段的字段值是否为星号,生成第二判断结果;
[0037]
步骤d34:根据所述第一判断结果和所述第二判断结果生成所述数据验证结果。
[0038]
另一方面,所述步骤s33中,针对所述影像数据,采用第二验证方法进行验证,所述第二验证方法包括:
[0039]
步骤e31对所述影像数据进行识别,判断所述影像数据中是否包含文字信息;
[0040]
若是,生成校验不通过的数据验证结果;
[0041]
若否,生成校验通过的数据验证结果。
[0042]
另一方面,所述影像数据包括扫查视频和扫查图像,所述患者检查数据包括dicom格式的检查数据和扫查参数。
[0043]
上述技术方案具有如下优点或有益效果:
[0044]
针对现有技术中的脱敏方案,针对多类型的数据脱敏效果不佳的问题,本方案通过在脱敏之前预先对待脱敏数据的数据种类进行识别,并调用对应的脱敏方法进行脱敏,随后再分别采用相应的验证方法对脱敏效果进行验证,以实现对不同数据来源的数据均能
够实现较好的脱敏效果。
附图说明
[0045]
参考所附附图,以更加充分的描述本发明的实施例。然而,所附附图仅用于说明和阐述,并不构成对本发明范围的限制。
[0046]
图1为本发明实施例的整体示意图;
[0047]
图2为本发明实施例中医学数字数据脱敏方法示意图;
[0048]
图3为本发明实施例中影像数据脱敏方法示意图;
[0049]
图4为本发明实施例中步骤s3子步骤示意图;
[0050]
图5为本发明实施例中步骤s32子步骤示意图;
[0051]
图6为本发明实施例中第一脱敏方法示意图;
[0052]
图7为本发明实施例中第二脱敏方法示意图。
具体实施方式
[0053]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0054]
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
[0055]
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
[0056]
本发明包括:
[0057]
一种医学影像数据的脱敏方法,如图1所示,包括:
[0058]
步骤s1:获取待脱敏数据,对所述待脱敏数据进行识别以获取数据种类;
[0059]
所述数据种类包括影像数据和关联于所述影像数据的患者检查数据;
[0060]
步骤s2:根据所述数据种类调用对应的脱敏方法对所述待脱敏数据进行处理,得到待验证数据;
[0061]
步骤s3:对所述待验证数据进行验证,生成验证结果。
[0062]
具体地,针对现有技术中的脱敏方案在复杂场景中脱敏效果不佳的问题,本实施例中,通过在对待脱敏数据进行脱敏之前,预先对其格式进行识别,从而判断出其数据种类;随后,依照不同的数据种类调用对应的脱敏方法对待脱敏数据进行处理;由于不同数据来源的数据,其在脱敏方法下的脱敏效果可能不稳定,因此,本实施例中,还进一步根据数据种类对待验证数据进行验证,得到验证结果,该验证结果用于衡量待脱敏数据是否被正确脱敏,若是,则输出脱敏数据;若否,则需要调整脱敏方法后重新进行脱敏。
[0063]
在实施过程中,上述方案作为一个软件实施例设置在相应的计算机设备中,用于接收外部输入的待脱敏数据,并依照相关方法进行脱敏、验证后形成脱敏数据输出。该待脱敏数据依照接入的不同数据来源,其可能是各类格式的影像数据和患者检查数据等。其中,影像数据包括.avi格式、.mp4格式或其他格式的扫查视频,或者,.png格式、.jpg格式的扫查图像;患者检查数据包括dicom格式的影像数据、电子病历、扫查参数等,扫查参数可包
括:来源、厂商、型号、深度、帧率、成像模式、分辨率,电子病历中可包括以下参数:序列号、患者id、患者姓名、患者年龄、患者地址、患者通讯信息、患者电话号码、其他患者id、其他患者姓名、患者备注信息。
[0064]
在一个实施例中,当待脱敏数据为患者检查数据时,如图2所示,步骤s2包括:
[0065]
步骤a21:对患者检查数据进行解析,得到多个数据字段;
[0066]
步骤a22:对数据字段进行分类,得到敏感信息字段和待赋值字段;
[0067]
步骤a23:对敏感信息字段进行加密,以及,对待赋值字段重新赋值为星号,得到待验证数据。
[0068]
具体地,为实现较好的脱敏效果,本实施例中,针对患者检查数据类型的待脱敏数据,通过对输入的患者检查数据进行解析并筛选,得到对应的多个数据字段;数据字段指患者检查数据包含的多个字段,以检验报告为例,该类患者检查数据可能包括:“患者名称”、“患者年龄”、“陪同家属”、“血糖值”等信息,其中,“患者名称”、“患者年龄”这类字段,其与患者的个人隐私直接相关,因此被标记为敏感信息字段;而“陪同家属”这类字段,其通常是诊疗机构依照相关业务需要进行采集的外围信息,其与患者的疾病进程没有关联,因此被标记为待赋值字段,需要通过重新赋值的方式进行遮盖;而“血糖值”这类化验指标,或其他问诊、化验得到的数据,其与患者的疾病直接相关,因此会被标记为数值字段,其不需要进行脱敏处理。随后,依照分类结果,对敏感信息字段调用相应的加密算法进行加密处理。在一个实施例中,采用了aes加密算法对敏感信息字段进行处理。而针对待赋值字段,该部分数据不需要进行保留,因此重新赋值为星号即可,以此来实现较好的脱敏效果。
[0069]
在一个实施例中,当待脱敏数据为影像数据时,如图3所示,步骤s2包括:
[0070]
步骤b21:对影像数据进行识别,以得到文字区域;
[0071]
步骤b22:针对每一个文字区域,分别获取文字区域邻接的背景区域;
[0072]
步骤b23:基于背景区域的色彩和纹理对文字区域进行填充,以得到待验证数据。
[0073]
具体地,为实现较好的脱敏效果,本实施例中,针对影像数据预先采用图像识别模型进行识别,该图像识别模型已预先基于含有文字的图像进行训练,能够对影像数据进行特征提取,进而预测得到对应于文字部分的检测框作为文字区域。由于在影像报告中,通常采用文本块的形式标注患者的相关信息,包括识别码、日期、相关参数等,因此通过检测文字区域的方式能够实现对该类信息较好的提取效果。随后,针对提取到的每一组文字区域,分别获取其邻接的背景区域,并对背景区域进行提取,得到背景区域的色彩均值、像素纹理,通过填充的方式对文字区域进行覆盖,实现了较好的脱敏效果。
[0074]
在一个实施例中,如图4所示,步骤s3包括:
[0075]
步骤s31:对所有的待验证数据进行抽样,得到抽样数据;
[0076]
步骤s32:对抽样数据验证完整性,得到完整性验证结果;
[0077]
步骤s33:根据数据种类调用对应的验证方法对抽样数据进行验证,生成数据验证结果;
[0078]
验证结果包括完整性验证结果和数据验证结果。
[0079]
具体地,为实现较好的验证效果,本实施例中,针对已脱敏的待验证数据,预先通过抽样的方式获取抽样数据;随后,针对抽样数据,预先判断抽样数据是否完整,得到完整性验证结果,以及,依照数据种类调用对应的验证方法进行验证,并结合完整性验证结果得
到最终的验证结果,实现了对脱敏过程的较好的衡量。
[0080]
在一个实施例中,步骤s31中,基于以下方法根据不同的数据种类对应的数据数量对待验证数据进行抽样:
[0081][0082]
式中,n

为第n个数据种类对应的待验证数据的抽样数量,z为z值,ε为置信区间,n为待验证数据的总量。
[0083]
具体地,为提高处理效率,本实施例中,在对待验证数据进行验证之前,预先引入了分层抽样方法对待验证数据进行抽样。在抽样过程中,为实现对各脱敏方式较好的验证效果,选择了基于不同的数据种类的待验证数据,在整体的待验证数据中的占比来确定实际抽样数量的方法。其中,经过实验,z值取1.96、置信区间设置为95%能够实现较好的验证效果。
[0084]
在一个实施例中,步骤s32中,当数据种类为影像数据时,如图5所示,完整性验证包括:
[0085]
步骤c31:对待验证数据依次提取所有的单帧图像;
[0086]
步骤c32:根据待验证数据所对应的检查部位分别对每一帧单帧图像进行检测,以获取至少一个检查关键点;
[0087]
步骤c33:根据所有的单帧图像中的检查关键点和检查部位生成完整性验证结果。
[0088]
具体地,为实现对影像数据类型的待验证数据较好的校验效果,本实施例中,针对该类型的待验证数据,从影像数据中抽取所有的单帧图像。针对该单帧图像,根据检查类型的不同可能是不同的扫查图像,比如,针对甲状腺部位进行超声扫查的扫查图像、针对脑部采集的磁共振图像、针对前臂部分采集的x光图像等。但是,不同类型的扫查图像,其通常都必须包括对应的检查部位。比如,以甲状腺部位进行的扫查为例,其必须包含甲状腺纵切的上极与下极、甲状腺的横切前缘与横切后缘、甲状腺左侧/峡部/右侧的完整影像。因此,针对不同类型的扫查图像,可预先进行检查关键点的选取,将上述必须包含的部分设置为检查关键点,并训练对应的图像检测模型。在实际验证过程中,通过将单帧图像输入该图像检测模型来判断该单帧图像中是否包含了所有的检查部位。若不包含,则表明在脱敏过程中,可能错误地对部分有效区域进行了遮盖,导致图像的完整性无法满足后续处理的需求。依照上述过程,对所有的单帧图像的识别结果进行汇总,生成对应的完整性验证结果。
[0089]
在一个实施例中,步骤s32中,当数据种类为患者检查数据时,采用对应的字段模板对患者检查数据进行匹配,以生成完整性验证结果。
[0090]
具体地,为实现对患者检查数据这类数据较好的验证效果,本实施例中,预先针对患者检查数据配置有相应的字段模板,字段模板中对应于患者检查数据所应当采集的内容,包括扫查参数、患者信息等;若患者检查数据能够对字段模板进行完整匹配,表明不存在缺失;若不能完整匹配,则表明在处理过程中患者检查数据产生了缺失,以此来生成完整性验证结果。
[0091]
在实施过程中,dicom格式的患者检查数据中,通常会包含检测时的扫查参数,包括来源、厂商、型号、深度、帧率、成像模式、分辨率,对上述参数进行校验判断其是否为星
号,从而生成完整性校验结果。
[0092]
在一个实施例中,步骤s33中,针对患者检查数据,采用第一验证方法进行验证,如图6所示,第一验证方法包括:
[0093]
步骤d31:对待验证数据提取多个待检验字段;
[0094]
步骤d32:针对每个待检验字段,判断待检验字段为加密字段或星号字段;
[0095]
步骤d33:针对每个加密字段,判断加密字段的字段值格式是否为字符串格式,以及加密字段的字段值的长度是否满足预设的加密字段长度,生成第一判断结果;
[0096]
或者,针对每个星号字段,判断星号字段的字段值是否为星号,生成第二判断结果;
[0097]
步骤d34:根据第一判断结果和第二判断结果生成数据验证结果。
[0098]
具体地,为实现对患者检查数据较好的验证效果,本实施例中,针对患者检查数据,对其进行字段提取,随后,判断每个待检验字段的类别,即,上述的敏感信息字段、待赋值字段和数值字段等,并依照其应当进行的脱敏方式划分为加密字段或星号字段。其中,加密字段指应当调用加密算法进行处理的敏感信息字段,星号字段指需要被重新赋值为星号的待赋值字段。其中,针对加密字段,采用判断其字段值的内容长度,以及字段值格式的方式进行判断。具体来说,在采用aes算法进行加密处理的实施例中,该加密字段的字段值应当体现为字符串格式,且长度大于128位;若是,则表明正确脱敏,若否则表明脱敏过程存在问题。通过上述方法实现了对脱敏字段较好的验证效果。而针对星号字段,则进一步地对其字段值进行读取,判断字段值是否为星号(*),进而生成第二判断结果。基于上述的第一判断结果和第二判断结果,可共同判断是否对患者检查数据进行了正确脱敏。
[0099]
在一个实施例中,步骤s33中,针对影像数据,采用第二验证方法进行验证,如图7所示,第二验证方法包括:
[0100]
步骤e31:对影像数据进行识别,判断影像数据中是否包含文字信息;
[0101]
若是,生成校验不通过的数据验证结果;
[0102]
若否,生成校验通过的数据验证结果。
[0103]
具体地,针对影像类型的数据,为实现较好的验证效果,本实施例中,选择了通过对影像数据进行识别、判断影像数据中是否存在文字信息来验证影像数据是否被正确脱敏。其中,针对影像数据,预先根据文字,包括字母、数字、汉字等的几何特征训练有对应的图像识别模型,可以根据输入图像所包含的几何特征检测并判断影像数据中是否包含文字信息,并生成验证结果,若不包含文字为通过,若包含则不通过。其中,该图像识别模型可基于卷积神经网络(cnn)、循环神经网络(rnn)和注意力机制网络等实现。
[0104]
以上仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。

技术特征:
1.一种医学影像数据的脱敏方法,其特征在于,包括:步骤s1:获取待脱敏数据,对所述待脱敏数据进行识别以获取数据种类;所述数据种类包括影像数据和关联于所述影像数据的患者检查数据;步骤s2:根据所述数据种类调用对应的脱敏方法对所述待脱敏数据进行处理,得到待验证数据;步骤s3:对所述待验证数据进行验证,生成验证结果。2.根据权利要求1所述的脱敏方法,其特征在于,当所述待脱敏数据为所述患者检查数据时,所述步骤s2包括:步骤a21:对所述患者检查数据进行解析,得到多个数据字段;步骤a22:对所述数据字段进行分类,得到敏感信息字段和待赋值字段;步骤a23:对所述敏感信息字段进行加密,以及,对所述待赋值字段重新赋值为星号,得到所述待验证数据。3.根据权利要求1所述的脱敏方法,其特征在于,当所述待脱敏数据为所述影像数据时,所述步骤s2包括:步骤b21:对所述影像数据进行识别,以得到文字区域;步骤b22:针对每一个所述文字区域,分别获取所述文字区域邻接的背景区域;步骤b23:基于所述背景区域的色彩和纹理对所述文字区域进行填充,以得到所述待验证数据。4.根据权利要求1所述的脱敏方法,其特征在于,所述步骤s3包括:步骤s31:对所有的所述待验证数据进行抽样,得到抽样数据;步骤s32:对所述抽样数据验证完整性,得到完整性验证结果;步骤s33:根据所述数据种类调用对应的验证方法对所述抽样数据进行验证,生成数据验证结果;所述验证结果包括所述完整性验证结果和所述数据验证结果。5.根据权利要求4所述的脱敏方法,其特征在于,所述步骤s31中,基于以下方法根据不同的所述数据种类对应的数据数量对所述待验证数据进行抽样:式中,n

为第n个所述数据种类对应的所述待验证数据的抽样数量,z为z值,ε为置信区间,n为所述待验证数据的总量。6.根据权利要求4所述的脱敏方法,其特征在于,所述步骤s32中,当所述数据种类为影像数据时,所述完整性验证包括:步骤c31:对所述待验证数据依次提取所有的单帧图像;步骤c32:根据所述待验证数据所对应的检查部位分别对每一帧所述单帧图像进行检测,以获取至少一个检查关键点;步骤c33:根据所有的所述单帧图像中的所述检查关键点和所述检查部位生成所述完整性验证结果。7.根据权利要求4所述的脱敏方法,其特征在于,所述步骤s33中,针对所述患者检查数
据,采用第一验证方法进行验证,所述第一验证方法包括:步骤d31:对所述待验证数据提取多个待检验字段;步骤d32:针对每个待检验字段,判断所述待检验字段为加密字段或星号字段;步骤d33:针对每个所述加密字段,判断所述加密字段的字段值格式是否为字符串格式,以及所述加密字段的字段值的长度是否满足预设的加密字段长度,生成第一判断结果;或者,针对每个所述星号字段,判断所述星号字段的字段值是否为星号,生成第二判断结果;步骤d34:根据所述第一判断结果和所述第二判断结果生成所述数据验证结果。8.根据权利要求4所述的脱敏方法,其特征在于,所述步骤s33中,针对所述影像数据,采用第二验证方法进行验证,所述第二验证方法包括:步骤e31对所述影像数据进行识别,判断所述影像数据中是否包含文字信息;若是,生成校验不通过的数据验证结果;若否,生成校验通过的数据验证结果。9.根据权利要求1所述的脱敏方法,其特征在于,所述影像数据包括扫查视频和扫查图像,所述患者检查数据包括dicom格式的检查数据和扫查参数。

技术总结
本发明涉及数据处理技术领域,具体涉及一种医学影像数据的脱敏方法,包括:步骤S1:获取待脱敏数据,对所述待脱敏数据进行识别以获取数据种类;所述数据种类包括影像数据和关联于所述影像数据的患者检查数据;步骤S2:根据所述数据种类调用对应的脱敏方法对所述待脱敏数据进行处理,得到待验证数据;步骤S3:对所述待验证数据进行验证,生成验证结果。有益效果在于:针对现有技术中的脱敏方案,针对多类型的数据脱敏效果不佳的问题,本方案通过在脱敏之前预先对待脱敏数据的数据种类进行识别,并调用对应的脱敏方法进行脱敏,随后再分别采用相应的验证方法对脱敏效果进行验证,以实现对不同数据来源的数据均能够实现较好的脱敏效果。果。果。


技术研发人员:陈冬银 朱瑞星 赵宛云
受保护的技术使用者:上海深至信息科技有限公司
技术研发日:2023.05.16
技术公布日:2023/8/14
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐