敏感数据安全防护方法和系统与流程

未命名 07-22 阅读:96 评论:0


1.本技术涉及软件技术,特别是一种敏感数据安全防护方法和系统。


背景技术:

2.随着现在ai技术的发展,使用ai撰写代码已经成为一种软件开发的方式,然而这样的方式存在一定的安全隐患,该安全隐患包括两方面,一部分是ai生成的代码可能存在缺陷或者漏洞,另一方面是利用ai处理数据时,可能会导致ai模型学习到一些敏感数据,使得出现安全问题。


技术实现要素:

3.本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提供一种敏感数据安全防护方法和系统,以防止敏感数据泄露,同时防止代码风险。
4.一方面本技术实施例,提供了一种敏感数据安全防护方法,包括:
5.监听浏览器和复制剪切板,当监听到复制剪切板所复制或剪切的内容来源于浏览器的预设ip地址或者域名时,对复制剪切板中的内容进行第一标记;
6.当被标记的复制剪切板内容被粘贴到代码编辑工具时,在代码编辑工具中对本次粘贴的内容进行第二标记。
7.在一些实施例中,还包括以下步骤:
8.当监听到复制剪切板所复制或剪切的内容来源于被标记为敏感数据的本地文件时,禁止将复制剪切板内容粘贴到浏览器;
9.所述敏感数据包括用户信息和代码。
10.在一些实施例中,还包括以下步骤:
11.当被第一标记后的内容被粘贴到本地文件时,对本地文件进行第三标记;
12.当被第三标记后的文件中的内容被粘贴到代码编辑工具时,在代码编辑工具中对本次粘贴的内容进行第二标记。
13.在一些实施例中,还包括以下步骤:
14.被第三标记的文件的部分内容或者全部内容被复制粘贴到第二个本地文件时,对所述第二个本地文件进行第三标记。
15.在一些实施例中,所述进行第二标记,具体是:
16.对被标记的代码段采用高亮或者加粗的方式进行标记;
17.其中,所述所有的字符均被独立标记。
18.在一些实施例中,被标记的代码段被配置为预设权限的用户可见。
19.在一些实施例中,还包括以下步骤:
20.当监听到复制剪切板所复制或剪切的内容来源于被标记为敏感数据的本地文件时,记录上述行为。
21.在一些实施例中,所述进行第三标记时,将被标记的文件的路径写入标记文档之
中。
22.在一些实施例中,对复制剪切板中的内容进行第一标记的前置条件包括:
23.检测复制剪切板中内容的成分,当复制粘贴板中包含的特定标点的比例大于阈值时,判定复制剪切板中的内容是代码。
24.另一方面本技术实施例提供了一种敏感数据安全防护系统,包括:
25.存储器,用于存储程序;
26.处理器,用于加载所述程序以执行所述的敏感数据安全防护方法。
27.本技术实施例通过监听浏览器和复制剪切板,当监听到复制剪切板所复制或剪切的内容来源于浏览器的预设ip地址或者域名时,对复制剪切板中的内容进行第一标记;当被标记的复制剪切板内容被粘贴到代码编辑工具时,在代码编辑工具中对本次粘贴的内容进行第二标记;通过这样的方式,可以标记来源于ai生成的代码,减少因为这些代码进入软件体系同产生风险,当研发人员将这些代码复制进代码系统中时,可以及时发现这些代码,有助于内部审视代码质量和评估安全风险。
附图说明
28.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图做一简单地介绍。
29.图1是本技术实施例所提供的一种敏感数据安全防护方法的流程图;
30.图2是本技术实施例所提供的一种标记过程的示意图。
具体实施方式
31.为使本技术的目的、技术方案和优点更加清楚,以下将参照本技术实施例中的附图,通过实施方式清楚、完整地描述本技术的技术方案,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
32.大语言模型(llm)是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径。随着这些大型语言模型的规模增长,其参数量级已经从千万级发展到数十万亿级别这些工具已经可以根据用户的指令生成具有特定功能的代码。但是由于模型的训练数据作为模型使用方式无法控制了,不确定模型所产生的解决方案是否存在风险。尤其是当解决方案足够复杂的情况下,不确定是否有漏洞。
33.随着技术的发展,这些大型语言模型,更加智能化,其不仅仅可以针对用户的内容进行回复,甚至可以进一步执行指令。而大部分ai模型,支持用户向其输送数据供其学习。这一情况如果用户使用不当,有可能会被ai模型学习甚至是窃取部分数据内容,产生极大的安全隐患。
34.参照图1,本技术实施例公开了一种敏感数据安全防护方法,该方法主要应用在开发人员的开发环境之中,这些环境包括开发人员的个人电脑,服务器等,本技术主要侧重于防范使用ai模型所产生的风险,可以嵌入到当前一些安全管理系统之中,作为针对ai模型的检测分支。本实施例方法包括:
35.s1、监听浏览器和复制剪切板,当监听到复制剪切板所复制或剪切的内容来源于浏览器的预设ip地址或者域名时,对复制剪切板中的内容进行第一标记。可以理解的是,可以通过利用一个随着系统启动而运行的程序,以后台的方式监听浏览器和复制剪切板,当用户从特定的网站(可以通过ip和网站域名确定)的时候,监听其复制粘贴板。当用户在特定网站复制内容的时候,会对这些内容进行标记。本步骤主要是为了监测用户是否通过ai生成网站产生代码,这些代码可能存在质量差,存在漏洞,或者存在其他风险等问题。这些问题将会影响软件工程的质量和安全问题。容易导致软件出现漏洞,尤其是当ai可以编写更加比较复杂的代码的情况下,通过人工审视的方式,也未必能够轻易发现问题。本步骤的目的是监视这一复制行为。
36.在本实施例中,其实主要的监视对象是代码。因此,可以进一步细分需要标记的内容。如果判定复制粘贴板上的是软件代码的时候,可以将对其进行进一步的监视,如果判断其不是代码的时候,可以不进行标记,即不在进行监视。
37.那么判断复制粘贴板中的是否代码可以通过以下方式:其中比较优选的方式是通过监视复制剪切板中内容的成分,当复制粘贴板中包含的特定标点的比例大于阈值时,判定复制剪切板中的内容是代码。其原理是代码通常是通过英语、或者英文符号和特定编程语言的标点符号构成的。例如,一般的常规语句中,比较少带有中括号,大括号,分号等。并且正常的语句中,标点符号占总字符数量的比例是比较低的。因此,可以通过检测符合常见代码语法的标点符合的数量在整体内容中的占比,可以比较准确且简单地识别出上述内容是否代码。
38.当然,作为替代的方式,也可以对粘贴内容进行编码,输入进行训练的模型(如语言模型,svm模型等)中进行分类,从而判断内容是否代码。当然,这一方式成本比较高。
39.s2、当被标记的复制剪切板内容被粘贴到代码编辑工具时,在代码编辑工具中对本次粘贴的内容进行第二标记。可以理解的是,当复制粘贴板中的内容被标记了,当监听到复制剪切板中的内容被粘贴到代码编辑工具时,向监听程序向代码编辑工具发送通知,代码编辑工具中的标记插件,标记插件对复制到代码编辑工具中的代码进行标记。每个字符均会标记。其中,标记的方式可以特定权限可见的,也可以是所有人可见的。标记的方式可以采取高亮,加粗等方式。
40.s3、当监听到复制剪切板所复制或剪切的内容来源于被标记为敏感数据的本地文件时,禁止将复制剪切板内容粘贴到浏览器;
41.所述敏感数据包括用户信息和代码。
42.可以理解的是,可以将本地的代码文件,涉及用户隐私的文件标记为敏感文件,此时,敏感文件的列表在监听程序启动时被加载。监听程序监听每个前台程序(即当前被用户操作的程序),若当前程序操作对象是敏感数据,则监视用户的复制行为。如果这些数据被复制到浏览器发送给ai模型,有可能会产生泄露。当然,与现有技术相比,本技术主要侧重是对ai模型的防范。其包括利用ai生成代码,这些代码混入软件工程可能会产生不利影响,也包括防范代码被灌输到第三方ai模型中,产生数据泄密等安全隐患。
43.在一些实施例中,还包括以下步骤:
44.s4、当被第一标记后的内容被粘贴到本地文件时,对本地文件进行第三标记。
45.s5、当被第三标记后的文件中的内容被粘贴到代码编辑工具时,在代码编辑工具
中对本次粘贴的内容进行第二标记。
46.可以理解的是,当被标记的内容被复制到本地文件是,可以将本地文件进行标记,此时,监听程序通过维护一个列表,记载一些可能包含ai生成代码的文件。此时,用户如果先将ai生成的代码复制到本地文件后再复制到代码编辑工具,依然会被标记。
47.s6、被第三标记的文件的部分内容或者全部内容被复制粘贴到第二个本地文件时,对所述第二个本地文件进行第三标记。所述进行第三标记时,将被标记的文件的路径写入标记文档之中。
48.可以理解的是,本实施例采用一种污染机制,当一个文件被标记后,其复制件和包含其部分内容的文档均会被标记。这样,可以防止用户绕过机制。其设计目的是为了让规范开发人员的作业过程,虽然无法完全阻止ai生成的代码进入软件工程(例如用户不进行复制,而是直接抄写),但是可以提醒或者迫使开发人员更慎重地审视代码,减少安全风险。留下的标记也方便代码评审中对这些代码进行慎重评估。
49.在一些实施例中,所述进行第二标记,具体是:
50.对被标记的代码段采用高亮或者加粗的方式进行标记;
51.其中,所述所有的字符均被独立标记。独立标记意味着在代码编辑中,只要有一个字符被没有被删除也会留下痕迹。
52.在一些实施例中,被标记的代码段被配置为预设权限的用户可见。例如,只有高级职位的开发人员可见。这样可以审视其他开发人员是否有使用ai进行编程的行为。
53.当监听到复制剪切板所复制或剪切的内容来源于被标记为敏感数据的本地文件时,记录上述行为。可以理解的是,采用这种策略,可以及时发现和阻止可能导致数据风险的情况。
54.另一方面本技术实施例提供了一种敏感数据安全防护系统,包括:
55.存储器,用于存储程序;
56.处理器,用于加载所述程序以执行所述的敏感数据安全防护方法。
57.注意,上述仅为本技术的较佳实施例及所运用技术原理。本领域技术人员会理解,本技术不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本技术的保护范围。因此,虽然通过以上实施例对本技术进行了较为详细的说明,但是本技术不仅仅限于以上实施例,在不脱离本技术构思的情况下,还可以包括更多其他等效实施例,而本技术的范围由所附的权利要求范围决定。

技术特征:
1.一种敏感数据安全防护方法,其特征在于,包括:监听浏览器和复制剪切板,当监听到复制剪切板所复制或剪切的内容来源于浏览器的预设ip地址或者域名时,对复制剪切板中的内容进行第一标记;当被标记的复制剪切板内容被粘贴到代码编辑工具时,在代码编辑工具中对本次粘贴的内容进行第二标记。2.根据权利要求1所述的敏感数据安全防护方法,其特征在于,还包括以下步骤:当监听到复制剪切板所复制或剪切的内容来源于被标记为敏感数据的本地文件时,禁止将复制剪切板内容粘贴到浏览器;所述敏感数据包括用户信息和代码。3.根据权利要求1所述的敏感数据安全防护方法,其特征在于,还包括以下步骤:当被第一标记后的内容被粘贴到本地文件时,对本地文件进行第三标记;当被第三标记后的文件中的内容被粘贴到代码编辑工具时,在代码编辑工具中对本次粘贴的内容进行第二标记。4.根据权利要求1所属的敏感数据安全防护方法,其特征在于,还包括以下步骤:被第三标记的文件的部分内容或者全部内容被复制粘贴到第二个本地文件时,对所述第二个本地文件进行第三标记。5.根据权利要求1所述的敏感数据安全防护方法,其特征在于,所述进行第二标记,具体是:对被标记的代码段采用高亮或者加粗的方式进行标记;其中,所述所有的字符均被独立标记。6.根据权利要求1所述的敏感数据安全防护方法,其特征在于,被标记的代码段被配置为预设权限的用户可见。7.根据权利要求1所述的敏感数据安全防护方法,其特征在于,还包括以下步骤:当监听到复制剪切板所复制或剪切的内容来源于被标记为敏感数据的本地文件时,记录上述行为。8.根据权利要求3所述的敏感数据安全防护方法,其特征在于,所述进行第三标记时,将被标记的文件的路径写入标记文档之中。9.根据权利要求1所述的敏感数据安全防护方法,其特征在于:对复制剪切板中的内容进行第一标记的前置条件包括:检测复制剪切板中内容的成分,当复制粘贴板中包含的特定标点的比例大于阈值时,判定复制剪切板中的内容是代码。10.一种敏感数据安全防护系统,其特征在于,包括:存储器,用于存储程序;处理器,用于加载所述程序以执行如权利要求1-9任一项所述的敏感数据安全防护方法。

技术总结
本申请公开了一种敏感数据安全防护方法和系统,方法包括:监听浏览器和复制剪切板,当监听到复制剪切板所复制或剪切的内容来源于浏览器的预设IP地址或者域名时,对复制剪切板中的内容进行第一标记;当被标记的复制剪切板内容被粘贴到代码编辑工具时,在代码编辑工具中对本次粘贴的内容进行第二标记。本申请可以防范安全风险。防范安全风险。防范安全风险。


技术研发人员:徐浩 罗剑芳 罗维佳 吴勇 丁卓 朱凯
受保护的技术使用者:广州掌动智能科技有限公司
技术研发日:2023.04.21
技术公布日:2023/7/21
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐