敏感信息的识别方法、装置、电子设备及存储介质与流程
未命名
07-12
阅读:114
评论:0
1.本公开涉及人工智能技术领域:
:,尤其涉及深度学习和信息安全等
技术领域:
:。
背景技术:
::2.目前,在互联网、金融、医疗、教育等行业都存在大量敏感信息泄露的案例,给个人、企业乃至国家造成了不可挽回的损失。3.而网页文本数据作为信息传播的重要载体,逐渐成为敏感信息泄露的主要源头,攻击者通过爬虫等攻击手段会不断访问包含敏感信息的页面,从而收集大量敏感信息,造成巨大的敏感信息泄露风险。因此,在信息共享、数据为主的时代,对网页文本中敏感信息的识别尤为重要。技术实现要素:4.本公开提供了敏感信息的识别方法、装置、电子设备及存储介质。5.根据本公开的一方面,提供了一种敏感信息的识别方法,包括:6.获取目标网页文本的实体信息;7.利用预设的敏感信息识别模型,对所述实体信息进行识别处理,以获得所述实体信息的识别结果,所述预设的敏感信息识别模型是对预训练模型进行知识蒸馏处理后获得的,所述预训练模型包括预训练网络、第一文本特征提取网络和第一分类器,所述预设的敏感信息识别模型包括第二文本特征提取网络和第二分类器;8.根据所述实体信息的识别结果,获得所述目标网页文本的敏感信息识别结果。9.根据本公开的另一方面,提供了一种敏感信息识别模型的训练方法,包括:10.获取第一训练数据和第二训练数据,其中,所述第一训练数据是有标签数据,所述第二训练数据是无标签数据;11.根据所述第一训练数据,对待训练的预训练模型进行迭代训练,以获得训练完成的预训练模型;所述预训练模型包括预训练网络、第一文本特征提取网络和第一分类器;12.利用训练完成的预训练模型,对所述第二训练数据进行识别处理,以获得所述第二训练数据的软标签;13.根据所述第二训练数据和所述第二训练数据的软标签,对待训练的敏感信息识别模型进行迭代训练,以获得敏感信息识别模型,所述敏感信息识别模型包括第二文本特征提取网络和第二分类器。14.根据本公开的再一方面,提供了一种敏感信息的识别装置,包括:15.获取单元,用于获取目标网页文本的实体信息;16.识别单元,用于利用预设的敏感信息识别模型,对所述实体信息进行识别处理,以获得所述实体信息的识别结果,所述预设的敏感信息识别模型是对预训练模型进行知识蒸馏处理后获得的,所述预训练模型包括预训练网络、第一文本特征提取网络和第一分类器,所述敏感信息识别模型包括第二文本特征提取网络和第二分类器;17.获得单元,用于根据所述实体信息的识别结果,获得所述目标网页文本的敏感信息识别结果。18.根据本公开的又一方面,提供了一种敏感信息识别模型的训练装置,包括:19.数据获取单元,用于获取第一训练数据和第二训练数据,其中,所述第一训练数据是有标签数据,所述第二训练数据是无标签数据;20.第一训练单元,用于根据所述第一训练数据,对待训练的预训练模型进行迭代训练,以获得训练完成的预训练模型;所述预训练模型包括预训练网络、第一文本特征提取网络和第一分类器;21.数据识别单元,用于利用训练完成的预训练模型,对所述第二训练数据进行识别处理,以获得所述第二训练数据的软标签;22.第二训练单元,用于根据所述第二训练数据和所述第二训练数据的软标签,对待训练的敏感信息识别模型进行迭代训练,以获得敏感信息识别模型,所述预设的敏感信息识别模型包括第二文本特征提取网络和第二分类器。23.根据本公开的又一方面,提供了一种电子设备,包括:24.至少一个处理器;以及25.与所述至少一个处理器通信连接的存储器;其中,26.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方面和任一可能的实现方式的方法。27.根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的方面和任一可能的实现方式的方法。28.根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方面和任一可能的实现方式的方法。29.由上述技术方案可知,一方面,本公开实施例通过获取目标网页文本的实体信息,进而可以利用预设的敏感信息识别模型,对所述实体信息进行识别处理,以获得所述实体信息的识别结果,使得能够根据所述实体信息的识别结果,获得所述目标网页文本的敏感信息识别结果,所述预设的敏感信息识别模型是对预训练模型进行知识蒸馏处理后获得的,所述预训练模型包括预训练网络、第一文本特征提取网络和第一分类器,所述预设的敏感信息识别模型包括第二文本特征提取网络和第二分类器,由于可以利用通过知识蒸馏处理后得到的结构简单的敏感信息识别模型,识别出目标网页文本中的敏感信息,可以快速地获得更加准确地敏感信息,从而提升了对敏感信息的识别的可靠性。30.由上述技术方案可知,另一方面,本公开实施例通过获取第一训练数据和第二训练数据,进而可以根据所述第一训练数据,对待训练的预训练模型进行迭代训练,以获得训练完成的预训练模型,并利用训练完成的预训练模型,对所述第二训练数据进行识别,以获得所述第二训练数据的软标签,进而可以根据所述第二训练数据和所述第二训练数据的软标签,对待训练的敏感信息识别模型进行迭代训练,以获得敏感信息识别模型,其中,所述第一训练数据是有标签数据,所述第二训练数据是无标签数据,所述预训练模型包括预训练网络、第一文本特征提取网络和第一分类器,所述敏感信息识别模型包括第二文本特征提取网络和第二分类器,由于通过利用具有标签的第一训练数据,训练得到结构较复杂的预训练模型,再利用训练完成的预训练模型和无标签的第二训练数据,获得用于训练结构较简单的敏感信息识别模型的软标签,以完成敏感信息识别模型的训练,有效地减少了需要标注的训练数据的数量,仅需少量标注数据便可以保证模型的识别性能和准确性,从而优化了模型训练的有效性。31.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明32.附图用于更好地理解本方案,不构成对本公开的限定。其中:33.图1是根据本公开第一实施例的示意图;34.图2是根据本公开第二实施例的示意图;35.图3是根据本公开第三实施例的示意图;36.图4是根据本公开第四实施例的示意图;37.图5是根据本公开第五实施例的示意图;38.图6是用来实现本公开实施例的敏感信息的识别方法或模型的训练方法的电子设备的框图。具体实施方式39.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。40.显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。41.需要说明的是,本公开实施例中所涉及的终端设备可以包括但不限于手机、个人数字助理(personaldigitalassistant,pda)、无线手持设备、平板电脑(tabletcomputer)等智能设备;显示设备可以包括但不限于个人电脑、电视等具有显示功能的设备。42.另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。43.在信息共享、数据为主的时代,为了保障信息安全,对网页文本数据敏感信息的识别尤为重要。44.目前,相关技术中的敏感信息的识别方式包括使用监督学习和使用无监督学习方式对敏感信息进行识别。具体地,基于监督学习的方式,可以是采取朴素贝叶斯方法将高频词集合中的关键词作为属性,对待处理的敏感数据进行分类识别。基于无监督学习的方式,可以是针对结构化数据集,使用聚类算法和关联规则算法,将数据集的属性识别为敏感属性集和非敏感属性集,再对敏感属性进行分类,并对各敏感属性类的平均敏感度进行量化来定义各属性类的敏感级别,从而实现敏感信息的分类分级。45.但是,相关技术中的敏感信息的识别方式识别效果和速度仍然不理想。46.因此,亟需提供一种敏感信息的识别方法,能够实现基于知识蒸馏的对网页文本数据敏感信息的识别,从而提升对敏感信息的识别检测的可靠性。47.图1是根据本公开第一实施例的示意图,如图1所示。48.101、获取目标网页文本的实体信息。49.102、利用预设的敏感信息识别模型,对所述实体信息进行识别处理,以获得所述实体信息的识别结果,所述预设的敏感信息识别模型是对预训练模型进行知识蒸馏处理后获得的,所述预训练模型包括预训练网络、第一文本特征提取网络和第一分类器,所述预设的敏感信息识别模型包括第二文本特征提取网络和第二分类器。50.103、根据所述实体信息的识别结果,获得所述目标网页文本的敏感信息识别结果。51.需要说明的是,敏感信息可以包括个人隐私信息、或者其他需要特别关注的信息。具体地,可以根据实际应用的场景,来确定敏感信息涉及的具体文字和类型。52.需要说明的是,101~103的执行主体的部分或全部可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(softwaredevelopmentkit,sdk)等功能单元,或者还可以为位于网络侧服务器中的处理引擎,或者还可以为位于网络侧的分布式系统,例如,网络侧的信息识别平台中的处理引擎或者分布式系统等,本实施例对此不进行特别限定。53.可以理解的是,所述应用可以是安装在本地终端上的本地程序(nativeapp),或者还可以是本地终端上的浏览器的一个网页程序(webapp),本实施例对此不进行限定。54.这样,可以通过获取目标网页文本的实体信息,进而可以利用预设的敏感信息识别模型,对所述实体信息进行识别处理,以获得所述实体信息的识别结果,使得能够根据所述实体信息的识别结果,获得所述目标网页文本的敏感信息识别结果,所述预设的敏感信息识别模型是对预训练模型进行知识蒸馏处理后获得的,所述预训练模型包括预训练网络、第一文本特征提取网络和第一分类器,所述预设的敏感信息识别模型包括第二文本特征提取网络和第二分类器,由于可以利用通过知识蒸馏处理后得到的结构简单的敏感信息识别模型,识别出目标网页文本中的敏感信息,实现了快速地获得更加准确地敏感信息,从而提升了对敏感信息的识别的可靠性。55.而且,由于可以通过结构简单的敏感信息识别模型对目标网页文本中敏感信息的有效识别,可以降低识别处理所使用的硬件资源,以及提升硬件运算效率,从而提升了资源使用率和处理速度。56.可选地,在本实施例的一个可能的实现方式中,在101中,获取所述目标网页文本,对所述目标网页文本进行切分处理,以获得所述目标网页文本的实体信息。57.在该实现方式的一个具体实现过程中,首先,可以对所述目标网页文本进行切分处理,得到所述目标网页文本的分词和分字。其次,可以利用预设的映射算法,对所述目标网页文本的分词和分字进行映射处理,以获得所述目标网页文本的句子标识序列。再次,可以根据所述句子标识序列,获得所述目标网页文本的实体信息。58.这样,可以通过先对目标网页文本进行切分处理,得到分词和分字,再利用预设的映射算法,对分词和分字进行映射处理,得到句子标识序列,以获得目标网页文本的实体信息。由此,可以便于后续可以对目标网页文本的实体信息进行有效地识别,从而进一步地提升了对敏感信息的识别的可靠性。59.该具体实现过程的一种情况,可以利用预设的文本切分规则,对所述目标网页文本进行切分处理,得到所述目标网页文本的分句、分词和分字。60.具体地,预设的文本切分规则可以包括基于句子的切分、基于词的切分和基于字的切分。61.在该具体实现过程中,预设的映射算法可以包括基于词和字分别与数字标识的预设映射关系,执行映射处理。62.该具体实现过程的另一种情况,得到所述目标网页文本的分词和分字后,可以利用预设的映射算法,将所述目标网页文本的分词和分字映射为数字标识,以获得所述目标网页文本的句子标识序列。63.具体地,句子标识序列可以包括句子id序列。64.在本实现方式中,目标网页文本的实体可以包括文本中的文本串或块,例如,句子,词,字等。目标网页文本的实体信息可以包括但不限于句子id序列。65.这样,在本实现方式中,通过对目标网页文本进行切分处理,得到目标网页文本的实体信息可以便于后续对目标网页文本的实体信息进行有效地识别,从而进一步地提升了对敏感信息的识别的可靠性。66.可选地,在本实施例的一个可能的实现方式中,在102中,具体可以将所述实体信息输入所述第二文本特征提取网络,以获得所述实体信息的上下文特征信息,进而可以将所述上下文特征信息输入所述第二分类器,以获得所述实体信息的识别结果。67.在该实现方式中,所述实体信息的识别结果可以包括实体开始位置、结束位置,以及基于开始位置和结束位置对构成的所有实体的概率最大的标签。68.在该实现方式的一个具体实现过程中,在获得实体信息的识别结果后,在103中,可以根据实体开始位置、结束位置以及基于开始位置和结束位置对所构成的所有实体的概率最大的标签,获得所述目标网页文本的敏感信息识别结果。69.这里,敏感信息识别结果可以包括该目标网页文本中的所有敏感信息。70.例如,xxx,是姓名;yyyyyy,是地址,等等。71.这样,在本实现方式中,可以通过利用第二文本特征提取网络和第二分类器,对输入的实体信息进行识别,可以实现对实体信息的快速准地识别,从而进一步地提升了对敏感信息的识别的可靠性。72.需要说明的是,本实现方式中所提供的具体实现过程,可以结合前述实现方式中所提供的多种具体实现过程,来实现本实施例的敏感信息的识别方法。详细的描述可以参见前述实现方式中的相关内容,此处不再赘述。73.可选地,在本实施例的一个可能的实现方式中,所述第二文本特征提取网络可以包括基于bilstm的网络,所述第二分类器可以包括基于span的分类器。74.在该实现方式中,所述预训练模型中的预训练网络可以包括但不限于基于ernie的预训练网络和基于bert的预训练网络。75.可以理解的是,第一文本特征提取网络和第二文本特征提取网络可以是相同结构的网络,即第一文本特征提取网络和第二文本特征提取网络均可以是基于bilstm的网络。第一分类器和第二分类器可以是相同结构的分类器。第一分类器和第二分类器可以均是基于span的分类器76.例如,预训练模型可以是bert-bilstm-span的模型,或,ernie-bilstm-span的模型。敏感信息识别模型可以是bilstm-span的模型。77.在该实现方式的一个具体实现过程中,可以基于预训练模型,利用数据蒸馏算法,得到敏感信息识别模型。78.这样,在本实现方式中,可以通过基于对结构较复杂的预训练模型进行蒸馏,得到结构更加简单短小的敏感信息识别模型,并利用该敏感信息识别模型对目标网页文本的实体信息,可以在能达到和预训练模型相近的识别效果的同时,可以实现对实体信息的快速识别,从而进一步地提升了对敏感信息的识别的可靠性。79.需要说明的是,本实现方式中所提供的具体实现过程,可以结合前述实现方式中所提供的多种具体实现过程,来实现本实施例的敏感信息的识别方法。详细的描述可以参见前述实现方式中的相关内容,此处不再赘述。80.本实施例中,可以通过获取目标网页文本的实体信息,进而可以利用预设的敏感信息识别模型,对所述实体信息进行识别处理,以获得所述实体信息的识别结果,使得能够根据所述实体信息的识别结果,获得所述目标网页文本的敏感信息识别结果,所述预设的敏感信息识别模型是对预训练模型进行知识蒸馏处理后获得的,所述预训练模型包括预训练网络、第一文本特征提取网络和第一分类器,所述预设的敏感信息识别模型包括第二文本特征提取网络和第二分类器,由于可以利用通过知识蒸馏处理后得到的结构简单的敏感信息识别模型,识别出目标网页文本中的敏感信息,可以实现快速地获得更加准确地敏感信息,从而提升了对敏感信息的识别的可靠性。81.另外,采用本实施例所提供的技术方案,通过对目标网页文本进行切分处理,得到目标网页文本的实体信息可以便于后续对目标网页文本的实体信息进行有效地识别,从而进一步地提升了对敏感信息的识别的可靠性。82.另外,采用本实施例所提供的技术方案,可以通过先对目标网页文本进行切分处理,得到分词和分字,再利用预设的映射算法,对分词和分字进行映射处理,得到句子标识序列,以获得目标网页文本的实体信息。由此,可以便于后续可以对目标网页文本的实体信息进行有效地识别,从而进一步地提升了对敏感信息的识别的可靠性。83.另外,采用本实施例所提供的技术方案,可以通过利用第二文本特征提取网络和第二分类器,对输入的实体信息进行识别,可以实现对实体信息的快速准地识别,从而进一步地提升了对敏感信息的识别的可靠性。84.另外,采用本实施例所提供的技术方案,可以通过基于对结构较复杂的预训练模型进行蒸馏,得到结构更加简单短小的敏感信息识别模型,并利用该敏感信息识别模型对目标网页文本的实体信息,可以在能达到和预训练模型相近的识别效果的同时,可以实现对实体信息的快速识别,从而进一步地提升了对敏感信息的识别的可靠性。85.图2是根据本公开第二实施例的示意图,如图2所示。86.201、获取第一训练数据和第二训练数据,其中,所述第一训练数据是有标签数据,所述第二训练数据是无标签数据。87.202、根据所述第一训练数据,对待训练的预训练模型进行迭代训练,以获得训练完成的预训练模型;所述预训练模型包括预训练网络、第一文本特征提取网络和第一分类器。88.203、利用训练完成的预训练模型,对所述第二训练数据进行识别,以获得所述第二训练数据的软标签。89.204、根据所述第二训练数据和所述第二训练数据的软标签,对待训练的敏感信息识别模型进行迭代训练,以获得敏感信息识别模型,所述敏感信息识别模型包括第二文本特征提取网络和第二分类器。90.需要说明的是,201~204的执行主体的部分或全部可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(softwaredevelopmentkit,sdk)等功能单元,或者还可以为位于网络侧服务器中的处理引擎,或者还可以为位于网络侧的分布式系统,例如,网络侧的模型训练平台中的处理引擎或者分布式系统等,本实施例对此不进行特别限定。91.可以理解的是,所述应用可以是安装在本地终端上的本地程序(nativeapp),或者还可以是本地终端上的浏览器的一个网页程序(webapp),本实施例对此不进行限定。92.这样,可以通过利用具有标签的第一训练数据,训练得到结构较复杂的预训练模型,再利用训练完成的预训练模型和无标签的第二训练数据,获得用于训练结构较简单的敏感信息识别模型的软标签,以完成敏感信息识别模型的训练,有效地减少了需要标注的训练数据的数量,仅需少量标注数据便可以保证模型的识别性能和准确性,从而优化了模型训练的有效性。93.可选地,在本实施例的一个可能的实现方式中,在201中,在获取第一训练数据的过程中,具体可以获取样本网页文本,进而可以对所述样本网页文本进行切分处理,以获得所述样本网页文本的分词和分字,使得能够利用预设的标注规则,对所述样本网页文本的分词和分字进行标注处理,以获得所述样本网页文本的标注标签。94.这里,预设的标注规则可以包括但不限于bio标注规则。95.示例性的,若敏感信息只包含一个单独的字,则以“b”开头;若敏感信息由两个及两个以上字组成,则实体的开始以“b”开头,中间及结尾以“i”开头,例如,姓名标签为“b-name”和“i-name”。对于非敏感信息则标记为“o”。96.可以理解的是,按照业务实际场景,确定标注哪些敏感信息。例如,涉及个人隐私的实践场景,需要标注姓名、地址、机构组织三个敏感实体。97.在该实现方式的一个具体实现过程中,首先,可以对样本网页文本进行分句分词与分字处理,得到处理后的文本数据,即句子实体、词实体和字实体等,并利用bio标注规则,对处理后的文本数据进行标注处理,以获得标注标签。其次,将分词和分字后的文本数据中的每个字实体映射为数字,得到句子id序列,即实体信息、以及标注标签id。再次,根据句子id序列中每个字实体的开始位置、结束位置与字实体的标注标签id,得到句子实体开始位置id序列和句子实体结束位置id序列。98.可以理解的是,这里,样本网页文本可以是第一样本网页文本,实体信息可以是第一实体信息。99.在该实现方式的另一个具体实现过程中,所述第二训练数据是无标签数据。在获取第二训练数据的过程中,具体可以获取第二训练数据的样本网页文本,进而可以对样本网页文本进行切分处理,以获得第二训练数据的实体信息。100.可以理解的是,这里,第二训练数据的样本网页文本可以是第二样本网页文本,第二训练数据的实体信息可以是第二实体信息。101.这样,可以完成训练数据的构造,以便于后续可以利用所构造的训练数据对应用的模型进行训练,从而保证了所训练的模型的识别性能。102.可选地,在本实施例的一个可能的实现方式中,在202中,具体可以将所述第一训练数据输入所述预训练网络,以获得所述第一训练数据对应的词向量特征,进而可以将所述词向量特征输入所述第一文本特征提取网络,以获得所述词向量特征对应的上下文特征信息,将所述上下文特征信息输入所述第一分类器,以获得所述样本实体信息的预测标签,使得能够根据所述样本实体信息的标注标签和所述样本实体信息的预测标签,对待训练的预训练模型进行迭代训练,以获得训练完成的预训练模型。103.在本实现方式中,所述第一训练数据包括样本网页文本的样本实体信息和样本实体信息的标注标签。104.在该实现方式的一个具体实现过程中,首先,可以将所述第一训练数据的样本实体信息输入所述预训练网络,以获得对应的词向量特征,其次,可以将所述词向量特征输入所述第一文本特征提取网络,以获得所述词向量特征对应的上下文特征信息。再次,将所述上下文特征信息输入所述第一分类器,以获得所述样本实体信息的预测标签,最后,可以根据所述样本实体信息的标注标签和所述样本实体信息的预测标签,对待训练的预训练模型进行迭代更新训练,直至满足训练终止条件,得到训练完成的预训练模型。105.在本实现方式中,预训练模型可以是基于预训练网络、第一文本特征提取网络和第一分类器构建的深度神经网络的模型,即是预训练大模型。106.这里,预训练大模型已经在大规模预料上学到了通用的语义表示,因此,使用预训练大模型,可以只需要少量样本数据和标注、以及少量训练资源和时间,即可获得很好的识别效果。107.示例性的,预训练模型可以是基于bert-bilstm-span构建的深度神经网络模型,或者,可以是基于ernie-bilstm-span构建的深度神经网络模型。108.可以理解的是,在实际应用中,各个行业涉及的敏感信息,即敏感实体,可能是不同的。所以,可以根据实际业务应用的场景,训练对应的预训练模型。109.这样,在本实现方式中,可以通过根据第一训练数据,对包括了预训练网络、第一文本特征提取网络和第一分类器的预训练模型进行训练,可以获得学习到第一训练数据相关特征的预训练模型,从而保证了预训练模型的学习效果。110.需要说明的是,本实现方式中所提供的获取样本数据的具体实现过程,可以结合前述实现方式中所提供的训练预训练模型多种具体实现过程,来实现本实施例的敏感信息识别模型的训练方法。详细的描述可以参见前述实现方式中的相关内容,此处不再赘述。111.可选地,在本实施例的一个可能的实现方式中,在204中,具体可以将所述第二训练数据输入所述第二文本特征提取网络,以获得所述第二训练数据的上下文特征信息,进而可以将所述第二训练数据的上下文特征信息输入所述第二分类器,以获得所述第二训练数据的预测标签,使得能够根据所述第二训练数据的软标签和所述第二训练数据的预测标签,对待训练的敏感信息识别模型进行迭代训练,以获得敏感信息识别模型。112.在本实现方式中,第二训练数据的软标签可以是预训练模型对无标签的第二训练数据进行识别处理所得到的预测软标签。113.具体地,这里,软标签可以是携带概率的标签,即用概率给它一个教不确定的标签。114.例如,针对一个词,预测该词是姓名的概率是0.8,是地名的概率是0.2。115.在该实现方式的一个具体实现过程中,根据第二训练数据和第二训练数据的软标签,对待训练的敏感信息识别模型进行迭代训练的过程中,首先,可以利用所述第二文本特征提取网络,提取出所述第二训练数据的上下文特征信息。其次,利用所述第二分类器,对第二训练数据的上下文特征信息进行分类处理,得到所述第二训练数据的预测标签。最后,根据所述第二训练数据的软标签和所述第二训练数据的预测标签,对待训练的敏感信息识别模型进行迭代训练,直至满足训练终止条件,得到训练完成的敏感信息识别模型。116.在本实现方式中,第二训练数据可以包括第二实体信息。第二实体信息可以包括句子id序列。第二训练数据的软标签可以包括句子实体开始位置id序列、句子实体结束位置id序列以及每个标签对应的概率。117.这里,训练终止条件可以包括但不限于模型收敛、达到训练次数的阈值等。118.在该实现方式的另一个具体实现过程中,可以将句子id序列、句子实体开始位置id序列、句子实体结束位置id序列以及每个标签对应的概率输入待训练的敏感信息识别模型,利用sgd随机梯度下降法进行训练,并通过多轮迭代更新优化参数直到收敛,得到训练完成的敏感信息识别模型。119.可以理解的是,敏感信息识别模型可以包括基于bilstm-span结构的模型、基于bilstm-crf结构的模型等。120.这样,在本实现方式中,可以通过根据第二训练数据和第二训练数据的软标签,对包括了第二文本特征提取网络和第二分类器的待训练的敏感信息识别模型进行训练,可以更好地学习到第二训练数据和第二训练数据的软标签相关信息,保证了敏感信息识别模型的学习效果,从而提升了敏感信息识别模型的性能。121.需要说明的是,本实现方式中所提供的对待训练的敏感信息识别模型进行迭代训练的具体实现过程,可以结合前述实现方式中所提供的多种具体实现过程,来实现本实施例的敏感信息识别模型的训练方法。详细的描述可以参见前述实现方式中的相关内容,此处不再赘述。122.本实施例中,可以通过利用具有标签的第一训练数据,训练得到结构较复杂的预训练模型,再利用训练完成的预训练模型和无标签的第二训练数据,获得用于训练结构较简单的敏感信息识别模型的软标签,以完成敏感信息识别模型的训练,有效地减少了需要标注的训练数据的数量,仅需少量标注数据便可以保证模型的识别性能和准确性,从而优化了模型训练的有效性。123.另外,采用本实施例所提供的技术方案,可以通过根据第一训练数据,对包括了预训练网络、第一文本特征提取网络和第一分类器的预训练模型进行训练,可以获得学习到第一训练数据相关特征的预训练模型,从而保证了预训练模型的学习效果。124.另外,采用本实施例所提供的技术方案,可以通过根据第二训练数据和第二训练数据的软标签,对包括了第二文本特征提取网络和第二分类器的待训练的敏感信息识别模型进行训练,可以更好地学习到第二训练数据和第二训练数据的软标签相关信息,保证了敏感信息识别模型的学习效果,从而提升了敏感信息识别模型的性能。125.图3是根据本公开第三实施例的示意图,如图3所示。126.为了更好地说明本实施例的方案,现结合该应用场景进行如下的详细说明。127.301、获取原始网页文本。128.302、对原始网页文本进行预处理,以获得第一训练数据。129.在实施例中,预处理可以包括分句分词和分字处理、标注标签处理,实体数字映射处理中的至少一项。130.在实施例中,首先,可以对原始网页文本进行分句分词和分字处理,得到处理后的文本数据,即句子实体、词实体和字实体等,并利用bio标注规则,对处理后的文本数据进行标注处理,以获得标注标签。其次,将分词分字后的文本数据中的每个字实体映射为数字,得到句子id序列,即实体信息、以及标注标签id。再次,根据句子id序列中每个字实体的开始位置、结束位置与字实体的标注标签id,得到句子实体开始位置id序列和句子实体结束位置id序列。131.具体地,可以将进行具有标注标签的处理后的数据作为第一训练数据。还可以将不具有标注标签的切分处理后的文本数据作为第二训练数据。132.可以理解的是,通过步骤301至302,可以获得用于模型训练的各种数据。训练数据可以是包含敏感信息的网页文本数据。133.303、根据第一训练数据,对待训练的预训练模型进行迭代训练,以获得训练完成的预训练模型。134.在本实施中,预训练模型可以采用bert-bilstm-span或ernie-bilstm-span结构构建深度神经网络的大模型。135.示例性的,基于bert-bilstm-span的预训练模型主要由bert网络、bilstm网络和span分类器构成。其中,bert网络可以由多个multi-head自注意力模块和前馈网络模块以及归一化和残差链接构成。训练数据经过bert预训练网络可获得相应的词向量,再将词向量输入到bilstm网络中提取文本上下文特征,再将文本上下文特征输入span分类器中,可以得到预测的网页文本的实体开始位置、结束位置、以及基于开始位置和结束位置对构成的所有实体的后验概率。并且,可以将概率得分最高的类别作为对应实体的标签,从而得到预测序列以及序列中各个实体的标签。136.304、获取第二训练数据。137.在本实施例中,可以从前述原始网页文本中获取第二训练数据,和/或,可以将实际应用场景的中的真实无标注样本作为第二训练数据。138.进一步地,可以对所获取第二训练数据进行分句分词分字处理,得到句子实体、词实体和字实体,并对句子实体、词实体和字实体进行实体数字映射处理,以获得处理后的第二训练数据。处理后的第二训练数据可以包括句子id序列等。139.305、利用训练完成的预训练模型,对第二训练数据进行识别处理,以获得第二训练数据的软标签。140.306、根据第二训练数据和第二训练数据的软标签,对待训练的敏感信息识别模型进行训练处理。141.307、判断模型是否已收敛。142.在本实施例中,若否,执行308,若是,执行309。143.308、执行sgd更新网络参数。144.在本实施例中,利用sgd梯度下降法,更新网络参数,并放回执行304至307的步骤。145.309、获得训练完成的敏感信息识别模型。146.可以理解的是,通过步骤303至309,可以训练得到敏感信息识别模型。换言之,根据预训练模型和训练数据,利用知识蒸馏算法,可以训练得到敏感信息识别模型。该敏感信息识别模型可以是基于bilstm-span结构的模型。147.需要说明的是,因为实际上各个行业的敏感信息,即敏感实体都是不同。即使是相同名字的敏感实体,其含义也不一定一样。如果训练一个通用的模型,其在各个个性化落地场景的效果肯定都不好。但是,个性化的落地场景,如果从0开始训练,则需要收集和标注大量的训练数据、同时消耗大量的训练资源和时间。但是,预训练大模型可以解决这个问题。预训练大模型已经在大规模预料上学到了通用的语义表示,是具备强大模型表达能力的训练好的基础通用模型。因而,在个性化的实际应用场景中,只需要收集少量训练数据和标注处理、以及少量训练处理的资源和时间,便可以获得很好的识别效果。针对每个个性化场景的专用模型的训练过程中,使用预训练大模型进行模型训练,均可以实现仅需少量标注数据便可以保证模型的识别性能和准确性。148.在实施例中,使用预训练大模型对相应地敏感信息识别的应用场景中的没有标注的第二训练数据进行批量预测,得到预测的软标签,再基于预测的软标签和第二训练数据,训练敏感信息识别模型,即训练一个结构简单的小模型。149.需要说明的是,通常,训练小模型时,如果标注数据少,较难学习到有效的特征信息,较难有强大的模型构建能力。因此,这里,基于训练好的预训练大模型,对大量实际应用场景中的真实无标注样本进行批量预测。训练好的预训练大模型的识别效果较好,后续训练小模型使用该预训练大模型所预测的软标签进行训练,便可以实现较有效地学习。150.此外,实际应用中,带概率的软标签用于模型训练,所产出的模型的性能和效果是远远优于使用硬标签进行模型训练。151.310、获取待识别的目标网页文本。152.311、对目标网页文本进行切分处理,得到目标网页文本的分词和分字。153.312、利用预设的映射算法,对目标网页文本的分词和分字进行映射处理,以获得目标网页文本的句子标识序列。154.313、利用训练完成的敏感信息识别模型,对目标网页文本的句子标识序列进行识别处理,得到敏感信息识别结果。155.在本实施中,将目标网页文本的句子标识序列,即句子id序列,输入训练完成的敏感信息识别模型,可以输出句子中实体开始位置、结束位置、以及基于开始位置和结束位置对所构成的所有实体的概率最大值的标签,以得到敏感信息识别结果。156.具体地,敏感信息识别结果可以包括但不限于句子中实体对应的敏感信息标签,即概率最大值的标签。157.在本实施例中,可以通过对网页文本进行分句、分词、分字、标注和建模,并利用基于知识蒸馏算法所得到敏感信息识别模型,完成对网页文本的敏感信息的识别,实现了在保证识别处理速度的同时,又有具有较好的识别效果。并且,在训练识别模型的过程中,可以只需要少量人工标注样本。由此,可以有效的减少人工标注样本的数量,提升了模型训练的效率和模型识别检测的效果,从而提升了对敏感信息的识别的可靠性。158.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本公开所必须的。159.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。160.图4是根据本公开第四实施例的示意图,如图4所示。本实施例的敏感信息的识别装置400可以包括获取单元401、识别单元402和获得单元403。其中,获取单元401,用于获取目标网页文本的实体信息;识别单元402,用于利用预设的敏感信息识别模型,对所述实体信息进行识别处理,以获得所述实体信息的识别结果,所述预设的敏感信息识别模型是对预训练模型进行知识蒸馏处理后获得的,所述预训练模型包括预训练网络、第一文本特征提取网络和第一分类器,所述预设的敏感信息识别模型包括第二文本特征提取网络和第二分类器;获得单元403,用于根据所述实体信息的识别结果,获得所述目标网页文本的敏感信息识别结果。161.需要说明的是,本实施例的敏感信息的识别装置的部分或全部可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(softwaredevelopmentkit,sdk)等功能单元,或者还可以为位于网络侧服务器中的处理引擎,或者还可以为位于网络侧的分布式系统,例如,网络侧的识别平台中的处理引擎或者分布式系统等,本实施例对此不进行特别限定。162.可以理解的是,所述应用可以是安装在本地终端上的本地程序(nativeapp),或者还可以是本地终端上的浏览器的一个网页程序(webapp),本实施例对此不进行限定。163.可选地,在本实施例的一个可能的实现方式中,所述获取单元401,具体可以用于获取所述目标网页文本,对所述目标网页文本进行切分处理,以获得所述目标网页文本的实体信息。164.可选地,在本实施例的一个可能的实现方式中,所述获取单元401,还可以用于对所述目标网页文本进行切分处理,得到所述目标网页文本的分词和分字,利用预设的映射算法,对所述目标网页文本的分词和分字进行映射处理,以获得所述目标网页文本的句子标识序列,以及,根据所述句子标识序列,获得所述目标网页文本的实体信息。165.可选地,在本实施例的一个可能的实现方式中,所述识别单元402,具体可以用于将所述实体信息输入所述第二文本特征提取网络,以获得所述实体信息的上下文特征信息将所述上下文特征信息输入所述第二分类器,以获得所述实体信息的识别结果。166.可选地,在本实施例的一个可能的实现方式中,所述第二文本特征提取网络包括基于bilstm的网络;所述第二分类器包括基于span的分类器。167.本实施例中,通过获取单元获取目标网页文本的实体信息,进而可以由识别单元利用预设的敏感信息识别模型,对所述实体信息进行识别处理,以获得所述实体信息的识别结果,所述预设的敏感信息识别模型是对预训练模型进行知识蒸馏处理后获得的,所述预训练模型包括预训练网络、第一文本特征提取网络和第一分类器,所述预设的敏感信息识别模型包括第二文本特征提取网络和第二分类器,使得获得单元能够根据所述实体信息的识别结果,获得所述目标网页文本的敏感信息识别结果,由于可以利用通过知识蒸馏处理后得到的结构简单的敏感信息识别模型,识别出目标网页文本中的敏感信息,可以快速地获得更加准确地敏感信息,从而提升了对敏感信息的识别的可靠性。168.另外,采用本实施例所提供的技术方案,通过对目标网页文本进行切分处理,得到目标网页文本的实体信息可以便于后续对目标网页文本的实体信息进行有效地识别,从而进一步地提升了对敏感信息的识别的可靠性。169.另外,采用本实施例所提供的技术方案,可以通过先对目标网页文本进行切分处理,得到分词和分字,再利用预设的映射算法,对分词和分字进行映射处理,得到句子标识序列,以获得目标网页文本的实体信息。由此,可以便于后续可以对目标网页文本的实体信息进行有效地识别,从而进一步地提升了对敏感信息的识别的可靠性。170.另外,采用本实施例所提供的技术方案,可以通过利用第二文本特征提取网络和第二分类器,对输入的实体信息进行识别,可以实现对实体信息的快速准地识别,从而进一步地提升了对敏感信息的识别的可靠性。171.另外,采用本实施例所提供的技术方案,可以通过基于对结构较复杂的预训练模型进行蒸馏,得到结构更加简单短小的敏感信息识别模型,并利用该敏感信息识别模型对目标网页文本的实体信息,可以在能达到和预训练模型相近的识别效果的同时,可以实现对实体信息的快速识别,从而进一步地提升了对敏感信息的识别的可靠性。172.图5是根据本公开第五实施例的示意图,如图5所示。本实施例的敏感信息识别模型的训练装置500可以包括数据获取单元501、第一训练单元502、数据识别单元503和第二训练单元504。其中,数据获取单元501,用于获取第一训练数据和第二训练数据,其中,所述第一训练数据是有标签数据,所述第二训练数据是无标签数据;第一训练单元502,用于根据所述第一训练数据,对待训练的预训练模型进行迭代训练,以获得训练完成的预训练模型;所述预训练模型包括预训练网络、第一文本特征提取网络和第一分类器;数据识别单元503,用于利用训练完成的预训练模型,对所述第二训练数据进行识别处理,以获得所述第二训练数据的软标签;第二训练单元504,用于根据所述第二训练数据和所述第二训练数据的软标签,对待训练的敏感信息识别模型进行迭代训练,以获得敏感信息识别模型,所述敏感信息识别模型包括第二文本特征提取网络和第二分类器。173.需要说明的是,本实施例的模型的训练装置的部分或全部可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(softwaredevelopmentkit,sdk)等功能单元,或者还可以为位于网络侧服务器中的处理引擎,或者还可以为位于网络侧的分布式系统,例如,网络侧的模型训练平台中的处理引擎或者分布式系统等,本实施例对此不进行特别限定。174.可以理解的是,所述应用可以是安装在本地终端上的本地程序(nativeapp),或者还可以是本地终端上的浏览器的一个网页程序(webapp),本实施例对此不进行限定。175.可选地,在本实施例的一个可能的实现方式中,所述第一训练数据包括样本网页文本的样本实体信息和样本实体信息的标注标签,所述第一训练单元502,具体可以用于将所述第一训练数据输入所述预训练网络,以获得所述第一训练数据对应的词向量特征,将所述词向量特征输入所述第一文本特征提取网络,以获得所述词向量特征对应的上下文特征信息,将所述上下文特征信息输入所述第一分类器,以获得所述样本实体信息的预测标签,以及,根据所述样本实体信息的标注标签和所述样本实体信息的预测标签,对待训练的预训练模型进行迭代训练,以获得训练完成的预训练模型。176.可选地,在本实施例的一个可能的实现方式中,所述第二训练单元504,具体可以用于将所述第二训练数据输入所述第二文本特征提取网络,以获得所述第二训练数据的上下文特征信息,将所述第二训练数据的上下文特征信息输入所述第二分类器,以获得所述第二训练数据的预测标签,以及,根据所述第二训练数据的软标签和所述第二训练数据的预测标签,对待训练的敏感信息识别模型进行迭代训练,以获得敏感信息识别模型。177.本实施例中,可以通过数据获取单元获取第一训练数据和第二训练数据,其中,所述第一训练数据是有标签数据,所述第二训练数据是无标签数据,进而可以由第一训练单元根据所述第一训练数据,对待训练的预训练模型进行迭代训练,以获得训练完成的预训练模型,所述预训练模型包括预训练网络、第一文本特征提取网络和第一分类器,由数据识别单元利用训练完成的预训练模型,对所述第二训练数据进行识别处理,以获得所述第二训练数据的软标签,使得第二训练单元可以根据所述第二训练数据和所述第二训练数据的软标签,对待训练的敏感信息识别模型进行迭代训练,以获得敏感信息识别模型,所述预设的敏感信息识别模型包括第二文本特征提取网络和第二分类器,由于通过在获得结构较复杂的预训练模型过程中,利用了具有标签的第一训练数据,并利用训练完成的预训练模型和无标签的第二训练数据,获得用于训练结构较简单的敏感信息识别模型的软标签,有效地减少了需要标注的训练数据的数量,仅需少量标注数据便可以保证模型的识别性能和准确性,从而优化了模型训练的有效性。178.另外,采用本实施例所提供的技术方案,可以通过根据第一训练数据,对包括了预训练网络、第一文本特征提取网络和第一分类器的预训练模型进行训练,可以获得学习到第一训练数据相关特征的预训练模型,从而保证了预训练模型的学习效果。179.另外,采用本实施例所提供的技术方案,可以通过根据第二训练数据和第二训练数据的软标签,对包括了第二文本特征提取网络和第二分类器的待训练的敏感信息识别模型进行训练,可以更好地学习到第二训练数据和第二训练数据的软标签相关信息,保证了敏感信息识别模型的学习效果,从而提升了敏感信息识别模型的性能。180.本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。181.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。182.图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。183.如图6所示,电子设备600包括计算单元601,其可以根据存储在只读存储器(rom)602中的计算机程序或者从存储单元608加载到随机访问存储器(ram)603中的计算机程序,来执行各种适当的动作和处理。在ram603中,还可存储电子设备600操作所需的各种程序和数据。计算单元601、rom602以及ram603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。184.电子设备600中的多个部件连接至i/o接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。185.计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如敏感信息的识别方法、模型的训练方法。例如,在一些实施例中,敏感信息的识别方法、模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由rom602和/或通信单元609而被载入和/或安装到电子设备600上。当计算机程序加载到ram603并由计算单元601执行时,可以执行上文描述的敏感信息的识别方法、模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行敏感信息的识别方法、模型的训练方法。186.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。187.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。188.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。189.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。190.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。191.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。当前第1页12当前第1页12
技术特征:
1.一种敏感信息的识别方法,包括:获取目标网页文本的实体信息;利用预设的敏感信息识别模型,对所述实体信息进行识别处理,以获得所述实体信息的识别结果,所述预设的敏感信息识别模型是对预训练模型进行知识蒸馏处理后获得的,所述预训练模型包括预训练网络、第一文本特征提取网络和第一分类器,所述预设的敏感信息识别模型包括第二文本特征提取网络和第二分类器;根据所述实体信息的识别结果,获得所述目标网页文本的敏感信息识别结果。2.根据权利要求1所述的方法,其中,所述获取目标网页文本的实体信息,包括:获取所述目标网页文本;对所述目标网页文本进行切分处理,以获得所述目标网页文本的实体信息。3.根据权利要求2所述的方法,其中,所述对所述目标网页文本进行切分处理,以获得所述目标网页文本的实体信息,包括:对所述目标网页文本进行切分处理,得到所述目标网页文本的分词和分字;利用预设的映射算法,对所述目标网页文本的分词和分字进行映射处理,以获得所述目标网页文本的句子标识序列;根据所述句子标识序列,获得所述目标网页文本的实体信息。4.根据权利要求1-3中任一项所述的方法,其中,所述利用预设的敏感信息识别模型,对所述实体信息进行识别处理,以获得所述实体信息的识别结果,包括:将所述实体信息输入所述第二文本特征提取网络,以获得所述实体信息的上下文特征信息;将所述上下文特征信息输入所述第二分类器,以获得所述实体信息的识别结果。5.根据权利要求1-4中任一项所述的方法,其中,所述第二文本特征提取网络包括基于bilstm的网络;所述第二分类器包括基于span的分类器。6.一种敏感信息识别模型的训练方法,包括:获取第一训练数据和第二训练数据,其中,所述第一训练数据是有标签数据,所述第二训练数据是无标签数据;根据所述第一训练数据,对待训练的预训练模型进行迭代训练,以获得训练完成的预训练模型;所述预训练模型包括预训练网络、第一文本特征提取网络和第一分类器;利用训练完成的预训练模型,对所述第二训练数据进行识别处理,以获得所述第二训练数据的软标签;根据所述第二训练数据和所述第二训练数据的软标签,对待训练的敏感信息识别模型进行迭代训练,以获得敏感信息识别模型,所述敏感信息识别模型包括第二文本特征提取网络和第二分类器。7.根据权利要求6所述的方法,其中,所述第一训练数据包括样本网页文本的样本实体信息和样本实体信息的标注标签,所述根据所述第一训练数据,对待训练的预训练模型进行迭代训练,以获得训练完成的预训练模型,包括:将所述第一训练数据输入所述预训练网络,以获得所述第一训练数据对应的词向量特征;将所述词向量特征输入所述第一文本特征提取网络,以获得所述词向量特征对应的上
下文特征信息;将所述上下文特征信息输入所述第一分类器,以获得所述样本实体信息的预测标签;根据所述样本实体信息的标注标签和所述样本实体信息的预测标签,对待训练的预训练模型进行迭代训练,以获得训练完成的预训练模型。8.根据权利要求6或7所述的方法,其中,所述根据所述第二训练数据和所述第二训练数据的软标签,对待训练的敏感信息识别模型进行迭代训练,以获得敏感信息识别模型,包括:将所述第二训练数据输入所述第二文本特征提取网络,以获得所述第二训练数据的上下文特征信息;将所述第二训练数据的上下文特征信息输入所述第二分类器,以获得所述第二训练数据的预测标签;根据所述第二训练数据的软标签和所述第二训练数据的预测标签,对待训练的敏感信息识别模型进行迭代训练,以获得所述敏感信息识别模型。9.一种敏感信息的识别装置,包括:获取单元,用于获取目标网页文本的实体信息;识别单元,用于利用预设的敏感信息识别模型,对所述实体信息进行识别处理,以获得所述实体信息的识别结果,所述预设的敏感信息识别模型是对预训练模型进行知识蒸馏处理后获得的,所述预训练模型包括预训练网络、第一文本特征提取网络和第一分类器,所述预设的敏感信息识别模型包括第二文本特征提取网络和第二分类器;获得单元,用于根据所述实体信息的识别结果,获得所述目标网页文本的敏感信息识别结果。10.根据权利要求9所述的装置,其中,所述获取单元,具体用于:获取所述目标网页文本;对所述目标网页文本进行切分处理,以获得所述目标网页文本的实体信息。11.根据权利要求10所述的装置,其中,所述获取单元,还用于:对所述目标网页文本进行切分处理,得到所述目标网页文本的分词和分字;利用预设的映射算法,对所述目标网页文本的分词和分字进行映射处理,以获得所述目标网页文本的句子标识序列;以及根据所述句子标识序列,获得所述目标网页文本的实体信息。12.根据权利要求9至11中任一项所述的装置,其中,所述识别单元,具体用于:将所述实体信息输入所述第二文本特征提取网络,以获得所述实体信息的上下文特征信息;将所述上下文特征信息输入所述第二分类器,以获得所述实体信息的识别结果。13.根据权利要求9至12中任一项所述的装置,其中,所述第二文本特征提取网络包括基于bilstm的网络;所述第二分类器包括基于span的分类器。14.一种敏感信息识别模型的训练装置,包括:数据获取单元,用于获取第一训练数据和第二训练数据,其中,所述第一训练数据是有标签数据,所述第二训练数据是无标签数据;第一训练单元,用于根据所述第一训练数据,对待训练的预训练模型进行迭代训练,以
获得训练完成的预训练模型;所述预训练模型包括预训练网络、第一文本特征提取网络和第一分类器;数据识别单元,用于利用训练完成的预训练模型,对所述第二训练数据进行识别处理,以获得所述第二训练数据的软标签;第二训练单元,用于根据所述第二训练数据和所述第二训练数据的软标签,对待训练的敏感信息识别模型进行迭代训练,以获得敏感信息识别模型,所述敏感信息识别模型包括第二文本特征提取网络和第二分类器。15.根据权利要求14所述的装置,其中,所述第一训练数据包括样本网页文本的样本实体信息和样本实体信息的标注标签,所述第一训练单元,具体用于:将所述第一训练数据输入所述预训练网络,以获得所述第一训练数据对应的词向量特征;将所述词向量特征输入所述第一文本特征提取网络,以获得所述词向量特征对应的上下文特征信息;将所述上下文特征信息输入所述第一分类器,以获得所述样本实体信息的预测标签;根据所述样本实体信息的标注标签和所述样本实体信息的预测标签,对待训练的预训练模型进行迭代训练,以获得训练完成的预训练模型。16.根据权利要求14或15所述的装置,其中,所述第二训练单元,具体用于:将所述第二训练数据输入所述第二文本特征提取网络,以获得所述第二训练数据的上下文特征信息;将所述第二训练数据的上下文特征信息输入所述第二分类器,以获得所述第二训练数据的预测标签;以及,根据所述第二训练数据的软标签和所述第二训练数据的预测标签,对待训练的敏感信息识别模型进行迭代训练,以获得所述敏感信息识别模型。17.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行根据权利要求1-8中任一项所述的方法。18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。
技术总结
本公开提供了敏感信息的识别方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及深度学习和信息安全等技术领域。一种具体实现方案为:获取目标网页文本的实体信息;利用预设的敏感信息识别模型,对所述实体信息进行识别处理,以获得所述实体信息的识别结果,所述预设的敏感信息识别模型是对预训练模型进行知识蒸馏处理后获得的,所述预训练模型包括预训练网络、第一文本特征提取网络和第一分类器,所述预设的敏感信息识别模型包括第二文本特征提取网络和第二分类器;根据所述实体信息的识别结果,获得所述目标网页文本的敏感信息识别结果。感信息识别结果。感信息识别结果。
技术研发人员:张丽 杜悦艺 孙亚生
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:2023.03.15
技术公布日:2023/7/7
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
