敏感信息的检测方法、装置、存储介质及计算机设备与流程

未命名 08-15 阅读:92 评论:0


1.本发明涉及信息技术领域,尤其是涉及一种敏感信息的检测方法、装置、存储介质及计算机设备。


背景技术:

2.敏感信息是指不当使用或未经授权被人接触或修改会不利于个人依法享有的个人隐私权的所有信息,因此为了保障个人权益,敏感信息的识别变得尤为重要。
3.目前,通常将正则表达式识别出的信息即认为是敏感信息。然而,这种方式检测出的信息并非是真正的敏感信息,导致敏感信息检测的精度较低。


技术实现要素:

4.本发明提供了一种敏感信息的检测方法、装置、存储介质及计算机设备,主要在于能够提高敏感信息的检测精度。
5.根据本发明的第一个方面,提供一种敏感信息的检测方法,包括:
6.获取待检测文本,并确定所述待检测文本中包含的疑似敏感信息;
7.在所述待检测文本中确定距离所述疑似敏感信息预设距离内内的文本内容;
8.判断所述文本内容中是否包含所述疑似敏感信息对应的敏感特征字符或非敏感特征字符;
9.若所述文本内容中包含所述敏感特征字符,则基于所述敏感特征字符,确定所述疑似敏感信息对应的第一敏感分值;或,
10.若所述文本内容中包含所述非敏感特征字符,则基于所述非敏感特征字符,确定所述疑似敏感信息对应的第二敏感分值;
11.基于所述第一敏感分值或所述第二敏感分值,判定所述疑似敏感信息是否为实际敏感信息。
12.可选地,所述在所述待检测文本中确定距离所述疑似敏感信息预设距离内内的文本内容,包括:
13.在所述待检测文本中确定距离所述疑似敏感信息前预设距离内的前置文本内容,以及距离所述疑似敏感信息后预设距离内的后置文本内容,并将所述前置文本内容和所述后置文本内容确定为所述文本内容。
14.可选地,判断所述文本内容中是否包含所述疑似敏感信息对应的敏感特征字符,包括:
15.确定所述疑似敏感信息所属的敏感类型,并确定与所述敏感类型相对应的预设敏感特征字符库;
16.判断所述文本内容中是否包含所述预设敏感特征字符库中的敏感特征字符;
17.判断所述文本内容中是否包含所述疑似敏感信息对应的非敏感特征字符,包括:
18.确定与所述敏感类型相对应的预设非敏感特征字符库;
19.判断所述文本内容中是否包含所述预设非敏感特征字符库中的非敏感特征字符。
20.可选地,所述基于所述敏感特征字符,确定所述疑似敏感信息对应的第一敏感分值,包括:
21.确定所述疑似敏感信息对应的基本敏感分值,以及确定所述敏感特征字符对应的敏感加分值;
22.将所述基本敏感分值与所述敏感加分值相加,得到所述疑似敏感信息对应的第一敏感分值。
23.可选地,所述基于所述非敏感特征字符,确定所述疑似敏感信息对应的第二敏感分值,包括:
24.确定所述非敏感特征字符对应的敏感减分值;
25.将所述疑似敏感信息对应的基本敏感分值与所述敏感减分值相减,得到所述疑似敏感信息对应的第二敏感分值。
26.可选地,基于所述第一敏感分值,判定所述疑似敏感信息是否为实际敏感信息,包括:
27.判断所述第一敏感分值是否大于预设敏感阈值;
28.若所述第一敏感分值大于预设敏感阈值,则判定所述疑似敏感信息为实际敏感信息;
29.若所述第一敏感分值小于或等于预设敏感阈值,则判定所述疑似敏感信息为非敏感信息。
30.可选地,基于所述第二敏感分值,判定所述疑似敏感信息是否为实际敏感信息,包括:
31.判断所述第二敏感分值是否大于预设敏感阈值;
32.若所述第二敏感分值大于预设敏感阈值,则判定所述疑似敏感信息为实际敏感信息;
33.若所述第二敏感分值小于或等于预设敏感阈值,则判定所述疑似敏感信息为非敏感信息。
34.根据本发明的第二个方面,提供一种敏感信息的检测装置,包括:
35.获取单元,用于获取待检测文本,并确定所述待检测文本中包含的疑似敏感信息;
36.第一确定单元,用于在所述待检测文本中确定距离所述疑似敏感信息预设距离内内的文本内容;
37.判断单元,用于判断所述文本内容中是否包含所述疑似敏感信息对应的敏感特征字符或非敏感特征字符;
38.第二确定单元,用于若所述文本内容中包含所述敏感特征字符,则基于所述敏感特征字符,确定所述疑似敏感信息对应的第一敏感分值;或,
39.第三确定单元,用于若所述文本内容中包含所述非敏感特征字符,则基于所述非敏感特征字符,确定所述疑似敏感信息对应的第二敏感分值;
40.判定单元,用于基于所述第一敏感分值或所述第二敏感分值,判定所述疑似敏感信息是否为实际敏感信息。
41.根据本发明的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程
序,该程序被处理器执行时实现以上敏感信息检测方法。
42.根据本发明的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以上敏感信息检测方法。
43.根据本发明提供的一种敏感信息的检测方法、装置、存储介质及计算机设备,与目前将正则表达式识别出的信息即认为是敏感信息的方式相比,本发明通过获取待检测文本,并确定所述待检测文本中包含的疑似敏感信息;与此同时,在所述待检测文本中确定距离所述疑似敏感信息预设距离内内的文本内容;并判断所述文本内容中是否包含所述疑似敏感信息对应的敏感特征字符或非敏感特征字符;若所述文本内容中包含所述敏感特征字符,则基于所述敏感特征字符,确定所述疑似敏感信息对应的第一敏感分值;或,若所述文本内容中包含所述非敏感特征字符,则基于所述非敏感特征字符,确定所述疑似敏感信息对应的第二敏感分值;最终,基于所述第一敏感分值或所述第二敏感分值,判定所述疑似敏感信息是否为实际敏感信息,由此通过在检测出疑似敏感信息后,在疑似敏感信息的前后预设距离内内判断是否存在敏感特征字符或非敏感特征字符,若存在敏感特征字符,则确定疑似敏感信息对应的第一敏感分值,并根据第一敏感分值判定疑似敏感信息是否为真正的敏感信息,若存在非敏感特征字符,则确定疑似敏感信息对应的第二敏感分值,并根据第二敏感分值判定疑似敏感信息是否为真正的敏感信息,从而通过判断初步识别出的疑似敏感信息的周围是否存在敏感特征或非敏感特征,通过敏感特征和非敏感特征来对初步识别出的敏感信息进行更深一步的甄别,能够提高敏感信息的检测精度。
附图说明
44.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
45.图1示出了本发明实施例提供的一种敏感信息的检测方法流程图;
46.图2示出了本发明实施例提供的另一种敏感信息的检测方法流程图;
47.图3示出了本发明实施例提供的一种敏感信息的检测装置的结构示意图;
48.图4示出了本发明实施例提供的另一种敏感信息的检测装置的结构示意图;
49.图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
50.下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。
51.目前,将正则表达式识别出的信息即认为是敏感信息的方式,导致敏感信息的检测精度较低。
52.为了解决上述问题,本发明实施例提供了一种敏感信息的检测方法,如图1所示,所述方法包括:
53.101、获取待检测文本,并确定所述待检测文本中包含的疑似敏感信息。
54.其中,待检测文本可以为任意文本,敏感信息包括身份证号、手机号、邮箱地址、银行卡号、银行卡密码等信息;疑似敏感信息可以是敏感信息,也可以不是敏感信息。
55.对于本发明实施例,可以利用预设正则表达式在待检测文本中识别出疑似敏感信息,需要说明的,本发明实施例还可以通过其他方式在待检测文本中识别出疑似敏感信息,并不限定于使用预设正则表达式的形式检测疑似敏感信息,之后对疑似敏感信息进行进一步地甄别,来判断疑似敏感信息是否为真正的敏感信息,从而能够提高敏感信息的检测精度。
56.102、在待检测文本中确定距离疑似敏感信息预设距离内内的文本内容。
57.其中,预设距离内是根据实际需求设定的数据,本发明实施例对预设距离内的数值大小不做具体限定。
58.对于本发明实施例,在待检测文本中识别出疑似敏感信息后,在待检测文本中确定疑似敏感信息的位置,并确定该位置的前后预设距离内内文本内容,该预设距离内可以是预设字节数量的形式,如确定疑似敏感信息的前后10个字节内的文本内容,之后判断该文本内容中是否存在给疑似敏感信息加分的特征,若存在,则计算疑似敏感信息的敏感分值,最终利用该敏感分值判定疑似敏感信息是否为真正的敏感信息,与此同时,还可以判断该文本内容中是否存在给疑似敏感信息减分的特征,若存在,则计算疑似敏感信息的敏感分值,最终利用该敏感分值判定疑似敏感信息是否为真正的敏感信息。由此通过判断初步识别出的疑似敏感信息的周围是否存在敏感特征或非敏感特征,通过敏感特征和非敏感特征来对初步识别出的敏感信息进行更深一步的甄别,从而能够提高敏感信息的检测精度。
59.103、判断文本内容中是否包含疑似敏感信息对应的敏感特征字符或非敏感特征字符。
60.其中,敏感特征字符是指对疑似敏感信息确定为真正敏感信息有帮助的字符,非敏感特征字符是指对疑似敏感信息确定为非敏感信息有帮助的字符。例如,若特征字符为“身份证号”,疑似敏感信息“110xxxxxxxxxxxxxxx”,则“身份证号”为疑似敏感信息对应的敏感特征字符;若特征字符为“姓名”,疑似敏感信息为“黄海”,则“姓名”为疑似敏感信息对应的敏感特征字符;若疑似敏感信息为“110xxxxxxxxxxxxxxx”,特征字符为“.12”,则“.12”为疑似敏感信息对应的非敏感特征字符。
61.104、若文本内容中包含敏感特征字符,则基于敏感特征字符,确定疑似敏感信息对应的第一敏感分值。
62.105、或若文本内容中包含非敏感特征字符,则基于非敏感特征字符,确定疑似敏感信息对应的第二敏感分值。
63.106、基于第一敏感分值或第二敏感分值,判定疑似敏感信息是否为实际敏感信息。
64.对于本发明实施例,若在疑似敏感信息的前后预设距离内内存在敏感特征字符,则在疑似敏感信息的初始分数基础上加上第一预设分值,得到疑似敏感信息对应的第一敏感分值,之后若第一敏感分值大于预设阈值,则确定疑似敏感信息为实际敏感信息;与此同时,若在疑似敏感信息的前后预设距离内内存在非敏感特征字符,则在疑似敏感信息的初始分数基础上减去第二预设分值,得到疑似敏感信息对应的第二敏感分值,之后若第二敏感分值小于或等于预设阈值,则确定疑似敏感信息为非敏感信息。由此通过判断初步识别出的疑似敏感信息的周围是否存在敏感特征或非敏感特征,通过敏感特征和非敏感特征来对初步识别出的敏感信息进行更深一步的甄别,能够提高敏感信息的检测精度。
65.根据本发明提供的一种敏感信息的检测方法,与目前将正则表达式识别出的信息即认为是敏感信息的方式相比,本发明通过获取待检测文本,并确定所述待检测文本中包含的疑似敏感信息;与此同时,在所述待检测文本中确定距离所述疑似敏感信息预设距离内内的文本内容;并判断所述文本内容中是否包含所述疑似敏感信息对应的敏感特征字符或非敏感特征字符;若所述文本内容中包含所述敏感特征字符,则基于所述敏感特征字符,确定所述疑似敏感信息对应的第一敏感分值;或,若所述文本内容中包含所述非敏感特征字符,则基于所述非敏感特征字符,确定所述疑似敏感信息对应的第二敏感分值;最终,基于所述第一敏感分值或所述第二敏感分值,判定所述疑似敏感信息是否为实际敏感信息,由此通过在检测出疑似敏感信息后,在疑似敏感信息的前后预设距离内内判断是否存在敏感特征字符或非敏感特征字符,若存在敏感特征字符,则确定疑似敏感信息对应的第一敏感分值,并根据第一敏感分值判定疑似敏感信息是否为真正的敏感信息,若存在非敏感特征字符,则确定疑似敏感信息对应的第二敏感分值,并根据第二敏感分值判定疑似敏感信息是否为真正的敏感信息,从而通过判断初步识别出的疑似敏感信息的周围是否存在敏感特征或非敏感特征,通过敏感特征和非敏感特征来对初步识别出的敏感信息进行更深一步的甄别,能够提高敏感信息的检测精度。
66.进一步的,为了更好的说明上述对敏感信息进行检测的过程,作为对上述实施例的细化和扩展,本发明实施例提供了另一种敏感信息的检测方法,如图2所示,所述方法包括:
67.201、获取待检测文本,并确定待检测文本中包含的疑似敏感信息。
68.具体地,可以在数据库或者网站中获取待检测文本,之后基于敏感信息格式,构建预设正则表达式,并利用构建好的预设正则表达式来识别待检测文本中的疑似敏感信息,之后对疑似敏感信息进行进一步甄别,最终根据甄别结果判断疑似敏感信息是否为真正的敏感信息,从而能够提高敏感信息的检测精度。
69.202、在待检测文本中确定距离疑似敏感信息预设距离内内的文本内容。
70.对于本发明实施例,在待检测文本中识别出疑似敏感信息后,还需要判断待检测文本中是否存在疑似敏感信息对应的加分特征字符或者减分特征字符,基于此,步骤202具体包括:在所述待检测文本中确定距离所述疑似敏感信息前预设距离内的前置文本内容,以及距离所述疑似敏感信息后预设距离内的后置文本内容,并将所述前置文本内容和所述后置文本内容确定为所述文本内容。
71.具体地,在待检测文本中确定疑似敏感信息的位置,之后以疑似敏感信息为基准,在疑似敏感信息的前面的预设距离内确定一段前置文本内容,以及在疑似敏感信息的后面的预设距离内确定一段后置文本内容,之后在前置文本内容或者后置文本内容中判断是否存在对疑似敏感信息起到加分作用的特征字符(敏感特征字符),若前置文本内容或后置文本内容中没有对疑似敏感信息起到加分作用的特征字符,则在前置文本内容或者后置文本内容中判断是否存在对疑似敏感信息起到减分作用的特征字符(非敏感特征字符),最终根据敏感特征字符或者非敏感特征字符,判断疑似敏感信息是否为真正的敏感信息,从而通过对意思敏感信息进行进一步地甄别,能够提高敏感信息的检测精度。
72.203、判断文本内容中是否包含所述疑似敏感信息对应的敏感特征字符或非敏感特征字符。
73.对于本发明实施例,在确定距离疑似敏感信息预设距离内的文本内容后,还需要判断文本内容中是否包含敏感特征字符或者非敏感特征字符,基于此,步骤203具体包括:确定所述疑似敏感信息所属的敏感类型,并确定与所述敏感类型相对应的预设敏感特征字符库;判断所述文本内容中是否包含所述预设敏感特征字符库中的敏感特征字符;或者确定与所述敏感类型相对应的预设非敏感特征字符库;判断所述文本内容中是否包含所述预设非敏感特征字符库中的非敏感特征字符。
74.其中,敏感类型包括身份信息敏感类名、手机号码敏感类型、邮箱地址敏感类型等,不同敏感类型对应不同预设敏感特征字符库或预设非敏感特征字符库;敏感特征字符库中存储着各种与敏感类型相关的敏感特征字符,预设非敏感特征字符库中存储着各种与敏感类型相关的非敏感特征字符。
75.具体地,若疑似敏感信息属于身份信息敏感类型,则确定与身份信息敏感类型相对应的敏感字符特征库,之后对距离疑似敏感信息预设距离内的文本内容进行分词处理,得到文本内容对应的各个分词,之后判断各个分词中是否存在预设敏感特征字符库中的字符,若存在,则确定文本内容中包含敏感特征字符,若不存在,则判断各个分词中是否存在预设非敏感特征字符库中的字符,若存在,则确定文本内容中包含非敏感特征字符。
76.204、若文本内容中包含敏感特征字符,则确定疑似敏感信息对应的基本敏感分值,以及确定敏感特征字符对应的敏感加分值。
77.205、将基本敏感分值与敏感加分值相加,得到疑似敏感信息对应的第一敏感分值。
78.其中,基本敏感分值是预先为疑似敏感信息设置的初始分数值,如50分等,不同敏感特征字符对应的敏感加分值可能不同,具体可以根据敏感特征字符的敏感度,或者与疑似敏感信息的关联程度来设定敏感加分值。
79.具体地,首先确定疑似敏感信息对应的基本分值,之后确定敏感特征字符对应的敏感加分值,之后将基本分值与敏感加分值相加,得到疑似敏感信息对应的第一敏感分值,例如,若文本内容为“身份证号:110xxxxxxxxxxxxxxx”,疑似敏感信息的基本分值设置为50分,身份证号为疑似敏感信息的敏感特征字符,其对应的敏感加分值可以设置为40分,则最终确定疑似敏感信息的第一敏感分值为90分,若文本内容为“证件号:110xxxxxxxxxxxxxxx”,疑似敏感信息的基本分值设置为50分,证件号为疑似敏感信息的敏感特征字符,其对应的敏感加分值可以设置为30分(因为证件号的敏感性低于身份证号的敏感性,所以证件号的敏感加分值比身份证号的敏感加分值低),则最终确定疑似敏感信息的第一敏感分值为80分。若文本内容为“姓名:黄海”,疑似敏感信息的基本分值设置为50分,姓名为疑似敏感信息的敏感特征字符,其对应的敏感加分值可以设置为30分,则最终确定疑似敏感信息的第一敏感分值为80分,若文本内容为“黄海是一个人”,疑似敏感信息的基本分值设置为50分,“是一个人”为疑似敏感信息的敏感特征字符,其对应的敏感加分值可以设置为20分,则最终确定疑似敏感信息的第一敏感分值为70分,最终根据第一敏感分值来判断疑似敏感信息是否为真正的敏感信息,由此通过在文本内容中为疑似敏感信息确定加分特征,能够提高敏感信息的检测精度。
80.206、若文本内容中包含非敏感特征字符,则确定非敏感特征字符对应的敏感减分值。
81.207、将疑似敏感信息对应的基本敏感分值与敏感减分值相减,得到疑似敏感信息对应的第二敏感分值。
82.其中,不同非敏感特征字符对应的敏感加分值可能不同,具体可以根据非敏感特征字符的非敏感度,或者与疑似敏感信息的关联程度来设定敏感减分值。
83.具体地,首先确定疑似敏感信息对应的基本分值,之后确定非敏感特征字符对应的敏感减分值,之后将基本分值与敏感减分值相减,得到疑似敏感信息对应的第二敏感分值,例如,若文本内容为“110xxxxxxxxxxxxxxx.12”,其中,识别出的身份证号的疑似敏感信息为“110xxxxxxxxxxxxxxx”,疑似敏感信息的基本分值设置为50分,“.12”为疑似敏感信息的非敏感特征字符(减分特征字符),其对应的敏感减分值可以设置为20分,则最终确定疑似敏感信息的第二敏感分值为30分,若文本内容为“110xxxxxxxxxxxxxxx不是身份证号”,疑似敏感信息的基本分值设置为50分,“不是身份证号”为疑似敏感信息的非敏感特征字符,其对应的敏感减分值可以设置为30分,则最终确定疑似敏感信息的第二敏感分值为20分,最终根据第二敏感分值来判断疑似敏感信息是否为真正的敏感信息,由此通过在文本内容中为疑似敏感信息确定加分特征或者减分特征,能够实现对疑似敏感信息的进一步甄别,从而提高了敏感信息的检测精度。
84.208、基于第一敏感分值或第二敏感分值,判定疑似敏感信息是否为实际敏感信息。
85.对于本发明实施例,若文本内容中存在疑似敏感信息对应的加分特征(敏感特征字符),则计算疑似敏感信息对应的第一敏感分值,之后需要根据第一敏感分值来确定疑似敏感信息是否为真正的敏感信息,基于此,步骤208具体包括:判断所述第一敏感分值是否大于预设敏感阈值;若所述第一敏感分值大于预设敏感阈值,则判定所述疑似敏感信息为实际敏感信息;若所述第一敏感分值小于或等于预设敏感阈值,则判定所述疑似敏感信息为非敏感信息。
86.其中,预设敏感阈值是根据实际需求设置的数值。具体地,若预设敏感阈值为80分,疑似敏感信息对应的第一敏感分值为90分,则确定疑似敏感信息为真正的敏感信息(实际敏感信息),若疑似敏感信息对应的第一敏感分值为30分,则确定疑似敏感信息为非敏感信息。
87.进一步地,若文本内容中存在疑似敏感信息对应的减分特征(非敏感特征字符),则计算疑似敏感信息对应的第二敏感分值,之后需要根据二敏感分值来确定疑似敏感信息是否为真正的敏感信息,基于此,步骤208具体包括:判断所述第二敏感分值是否大于预设敏感阈值;若所述第二敏感分值大于预设敏感阈值,则判定所述疑似敏感信息为实际敏感信息;若所述第二敏感分值小于或等于预设敏感阈值,则判定所述疑似敏感信息为非敏感信息。
88.具体地,若预设敏感阈值为80分,疑似敏感信息对应的第二敏感分值为20分,则确定疑似敏感信息为非敏感信息,若疑似敏感信息对应的第二敏感分值为90分,则确定疑似敏感信息为真正的敏感信息,由此通过判断疑似敏感信息是否存在加分特征或者减分特征,并通过加分特征或者减分特征来判定疑似敏感信息是否为真正的敏感信息,能够提高敏感信息的检测精度。
89.根据本发明提供的一种敏感信息的检测方法,与目前将正则表达式识别出的信息
即认为是敏感信息的方式相比,本发明通过获取待检测文本,并确定所述待检测文本中包含的疑似敏感信息;与此同时,在所述待检测文本中确定距离所述疑似敏感信息预设距离内内的文本内容;并判断所述文本内容中是否包含所述疑似敏感信息对应的敏感特征字符或非敏感特征字符;若所述文本内容中包含所述敏感特征字符,则基于所述敏感特征字符,确定所述疑似敏感信息对应的第一敏感分值;或,若所述文本内容中包含所述非敏感特征字符,则基于所述非敏感特征字符,确定所述疑似敏感信息对应的第二敏感分值;最终,基于所述第一敏感分值或所述第二敏感分值,判定所述疑似敏感信息是否为实际敏感信息,由此通过在检测出疑似敏感信息后,在疑似敏感信息的前后预设距离内内判断是否存在敏感特征字符或非敏感特征字符,若存在敏感特征字符,则确定疑似敏感信息对应的第一敏感分值,并根据第一敏感分值判定疑似敏感信息是否为真正的敏感信息,若存在非敏感特征字符,则确定疑似敏感信息对应的第二敏感分值,并根据第二敏感分值判定疑似敏感信息是否为真正的敏感信息,从而通过判断初步识别出的疑似敏感信息的周围是否存在敏感特征或非敏感特征,通过敏感特征和非敏感特征来对初步识别出的敏感信息进行更深一步的甄别,能够提高敏感信息的检测精度。
90.进一步地,作为图1的具体实现,本发明实施例提供了一种敏感信息的检测装置,如图3所示,所述装置包括:获取单元31、第一确定单元32、判断单元33、第二确定单元34、第三确定单元35和判定单元36。
91.所述获取单元31,可以用于获取待检测文本,并确定所述待检测文本中包含的疑似敏感信息。
92.所述第一确定单元32,可以用于在所述待检测文本中确定距离所述疑似敏感信息预设距离内内的文本内容。
93.所述判断单元33,可以用于判断所述文本内容中是否包含所述疑似敏感信息对应的敏感特征字符或非敏感特征字符。
94.所述第二确定单元34,可以用于若所述文本内容中包含所述敏感特征字符,则基于所述敏感特征字符,确定所述疑似敏感信息对应的第一敏感分值;或。
95.所述第三确定单元35,可以用于若所述文本内容中包含所述非敏感特征字符,则基于所述非敏感特征字符,确定所述疑似敏感信息对应的第二敏感分值。
96.所述判定单元36,可以用于基于所述第一敏感分值或所述第二敏感分值,判定所述疑似敏感信息是否为实际敏感信息。
97.在具体应用场景中,为了在待检测文本中确定距离疑似敏感信息预设距离内内的文本内容,所述第一确定单元32,具体可以用于在所述待检测文本中确定距离所述疑似敏感信息前预设距离内的前置文本内容,以及距离所述疑似敏感信息后预设距离内的后置文本内容,并将所述前置文本内容和所述后置文本内容确定为所述文本内容。
98.在具体应用场景中,为了判断文本内容中是否包含疑似敏感信息对应的敏感特征字符,如图4所示,所述判断单元33,包括:第一确定模块331和第一判断模块332。
99.所述第一确定模块331,可以用于确定所述疑似敏感信息所属的敏感类型,并确定与所述敏感类型相对应的预设敏感特征字符库。
100.所述第一判断模块332,可以用于判断所述文本内容中是否包含所述预设敏感特征字符库中的敏感特征字符。
101.所述第一确定模块331,还可以用于确定与所述敏感类型相对应的预设非敏感特征字符库。
102.所述第一判断模块332,可以用于判断所述文本内容中是否包含所述预设非敏感特征字符库中的非敏感特征字符。
103.在具体应用场景中,为了确定疑似敏感信息对应的第一敏感分值,所述第二确定单元34,包括第二确定模块341和相加模块342。
104.所述第二确定模块341,可以用于确定所述疑似敏感信息对应的基本敏感分值,以及确定所述敏感特征字符对应的敏感加分值。
105.所述相加模块342,可以用于将所述基本敏感分值与所述敏感加分值相加,得到所述疑似敏感信息对应的第一敏感分值。
106.在具体应用场景中,为了确定疑似敏感信息对应的第二敏感分值,所述第三确定单元35,包括第三确定模块351和相减模块352。
107.所述第三确定模块351,可以用于确定所述非敏感特征字符对应的敏感减分值。
108.所述相减模块352,可以用于将所述疑似敏感信息对应的基本敏感分值与所述敏感减分值相减,得到所述疑似敏感信息对应的第二敏感分值。
109.在具体应用场景中,为了判定疑似敏感信息是否为实际敏感信息,所述判定单元36,包括第二判断模块361和判定模块362。
110.所述第二判断模块361,可以用于判断所述第一敏感分值是否大于预设敏感阈值。
111.所述判定模块362,可以用于若所述第一敏感分值大于预设敏感阈值,则判定所述疑似敏感信息为实际敏感信息。
112.所述判定模块362,还可以用于若所述第一敏感分值小于或等于预设敏感阈值,则判定所述疑似敏感信息为非敏感信息。
113.在具体应用场景中,为了判定疑似敏感信息是否为实际敏感信息,所述第二判断模块361,还可以用于判断所述第二敏感分值是否大于预设敏感阈值。
114.所述判定模块362,还可以用于若所述第二敏感分值大于预设敏感阈值,则判定所述疑似敏感信息为实际敏感信息。
115.所述判定模块362,具体还可以用于若所述第二敏感分值小于或等于预设敏感阈值,则判定所述疑似敏感信息为非敏感信息。
116.需要说明的是,本发明实施例提供的一种敏感信息的检测装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
117.基于上述如图1所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取待检测文本,并确定所述待检测文本中包含的疑似敏感信息;在所述待检测文本中确定距离所述疑似敏感信息预设距离内内的文本内容;判断所述文本内容中是否包含所述疑似敏感信息对应的敏感特征字符或非敏感特征字符;若所述文本内容中包含所述敏感特征字符,则基于所述敏感特征字符,确定所述疑似敏感信息对应的第一敏感分值;或,若所述文本内容中包含所述非敏感特征字符,则基于所述非敏感特征字符,确定所述疑似敏感信息对应的第二敏感分值;基于所述第一敏感分值或所述第二敏感分值,判定所述疑似敏感信息是否为实际敏感信息。
118.基于上述如图1所示方法和如图3所示装置的实施例,本发明实施例还提供了一种计算机设备的实体结构图,如图5所示,该计算机设备包括:处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序,其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤:获取待检测文本,并确定所述待检测文本中包含的疑似敏感信息;在所述待检测文本中确定距离所述疑似敏感信息预设距离内内的文本内容;判断所述文本内容中是否包含所述疑似敏感信息对应的敏感特征字符或非敏感特征字符;若所述文本内容中包含所述敏感特征字符,则基于所述敏感特征字符,确定所述疑似敏感信息对应的第一敏感分值;或,若所述文本内容中包含所述非敏感特征字符,则基于所述非敏感特征字符,确定所述疑似敏感信息对应的第二敏感分值;基于所述第一敏感分值或所述第二敏感分值,判定所述疑似敏感信息是否为实际敏感信息。
119.通过本发明的技术方案,本发明通过获取待检测文本,并确定所述待检测文本中包含的疑似敏感信息;与此同时,在所述待检测文本中确定距离所述疑似敏感信息预设距离内内的文本内容;并判断所述文本内容中是否包含所述疑似敏感信息对应的敏感特征字符或非敏感特征字符;若所述文本内容中包含所述敏感特征字符,则基于所述敏感特征字符,确定所述疑似敏感信息对应的第一敏感分值;或,若所述文本内容中包含所述非敏感特征字符,则基于所述非敏感特征字符,确定所述疑似敏感信息对应的第二敏感分值;最终,基于所述第一敏感分值或所述第二敏感分值,判定所述疑似敏感信息是否为实际敏感信息,由此通过在检测出疑似敏感信息后,在疑似敏感信息的前后预设距离内内判断是否存在敏感特征字符或非敏感特征字符,若存在敏感特征字符,则确定疑似敏感信息对应的第一敏感分值,并根据第一敏感分值判定疑似敏感信息是否为真正的敏感信息,若存在非敏感特征字符,则确定疑似敏感信息对应的第二敏感分值,并根据第二敏感分值判定疑似敏感信息是否为真正的敏感信息,从而通过判断初步识别出的疑似敏感信息的周围是否存在敏感特征或非敏感特征,通过敏感特征和非敏感特征来对初步识别出的敏感信息进行更深一步的甄别,能够提高敏感信息的检测精度。
120.显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
121.以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

技术特征:
1.一种敏感信息的检测方法,其特征在于,包括:获取待检测文本,并确定所述待检测文本中包含的疑似敏感信息;在所述待检测文本中确定距离所述疑似敏感信息预设距离内内的文本内容;判断所述文本内容中是否包含所述疑似敏感信息对应的敏感特征字符或非敏感特征字符;若所述文本内容中包含所述敏感特征字符,则基于所述敏感特征字符,确定所述疑似敏感信息对应的第一敏感分值;或,若所述文本内容中包含所述非敏感特征字符,则基于所述非敏感特征字符,确定所述疑似敏感信息对应的第二敏感分值;基于所述第一敏感分值或所述第二敏感分值,判定所述疑似敏感信息是否为实际敏感信息。2.根据权利要求1所述的方法,其特征在于,所述在所述待检测文本中确定距离所述疑似敏感信息预设距离内内的文本内容,包括:在所述待检测文本中确定距离所述疑似敏感信息前预设距离内的前置文本内容,以及距离所述疑似敏感信息后预设距离内的后置文本内容,并将所述前置文本内容和所述后置文本内容确定为所述文本内容。3.根据权利要求1所述的方法,其特征在于,判断所述文本内容中是否包含所述疑似敏感信息对应的敏感特征字符,包括:确定所述疑似敏感信息所属的敏感类型,并确定与所述敏感类型相对应的预设敏感特征字符库;判断所述文本内容中是否包含所述预设敏感特征字符库中的敏感特征字符;判断所述文本内容中是否包含所述疑似敏感信息对应的非敏感特征字符,包括:确定与所述敏感类型相对应的预设非敏感特征字符库;判断所述文本内容中是否包含所述预设非敏感特征字符库中的非敏感特征字符。4.根据权利要求1所述的方法,其特征在于,所述基于所述敏感特征字符,确定所述疑似敏感信息对应的第一敏感分值,包括:确定所述疑似敏感信息对应的基本敏感分值,以及确定所述敏感特征字符对应的敏感加分值;将所述基本敏感分值与所述敏感加分值相加,得到所述疑似敏感信息对应的第一敏感分值。5.根据权利要求1所述的方法,其特征在于,所述基于所述非敏感特征字符,确定所述疑似敏感信息对应的第二敏感分值,包括:确定所述非敏感特征字符对应的敏感减分值;将所述疑似敏感信息对应的基本敏感分值与所述敏感减分值相减,得到所述疑似敏感信息对应的第二敏感分值。6.根据权利要求1所述的方法,其特征在于,基于所述第一敏感分值,判定所述疑似敏感信息是否为实际敏感信息,包括:判断所述第一敏感分值是否大于预设敏感阈值;若所述第一敏感分值大于预设敏感阈值,则判定所述疑似敏感信息为实际敏感信息;
若所述第一敏感分值小于或等于预设敏感阈值,则判定所述疑似敏感信息为非敏感信息。7.根据权利要求1所述的方法,其特征在于,基于所述第二敏感分值,判定所述疑似敏感信息是否为实际敏感信息,包括:判断所述第二敏感分值是否大于预设敏感阈值;若所述第二敏感分值大于预设敏感阈值,则判定所述疑似敏感信息为实际敏感信息;若所述第二敏感分值小于或等于预设敏感阈值,则判定所述疑似敏感信息为非敏感信息。8.一种敏感信息的检测装置,其特征在于,包括:获取单元,用于获取待检测文本,并确定所述待检测文本中包含的疑似敏感信息;第一确定单元,用于在所述待检测文本中确定距离所述疑似敏感信息预设距离内内的文本内容;判断单元,用于判断所述文本内容中是否包含所述疑似敏感信息对应的敏感特征字符或非敏感特征字符;第二确定单元,用于若所述文本内容中包含所述敏感特征字符,则基于所述敏感特征字符,确定所述疑似敏感信息对应的第一敏感分值;或,第三确定单元,用于若所述文本内容中包含所述非敏感特征字符,则基于所述非敏感特征字符,确定所述疑似敏感信息对应的第二敏感分值;判定单元,用于基于所述第一敏感分值或所述第二敏感分值,判定所述疑似敏感信息是否为实际敏感信息。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结
本发明公开了一种敏感信息的检测方法、装置、存储介质及计算机设备,涉及信息技术领域,主要在于能够提高敏感信息的检测精度。其中方法包括:获取待检测文本,并确定待检测文本中包含的疑似敏感信息;在待检测文本中确定距离疑似敏感信息预设距离内内的文本内容;判断文本内容中是否包含疑似敏感信息对应的敏感特征字符或非敏感特征字符;若文本内容中包含所述敏感特征字符,则基于敏感特征字符,确定疑似敏感信息对应的第一敏感分值;或,若文本内容中包含非敏感特征字符,则基于非敏感特征字符,确定疑似敏感信息对应的第二敏感分值;基于第一敏感分值或第二敏感分值,判定疑似敏感信息是否为实际敏感信息。信息是否为实际敏感信息。信息是否为实际敏感信息。


技术研发人员:王新颖 衡相忠 何鹏 范海斌
受保护的技术使用者:上海观安信息技术股份有限公司
技术研发日:2023.05.18
技术公布日:2023/8/14
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐