一种邮件过滤方法、装置、设备及存储介质与流程
未命名
07-26
阅读:121
评论:0
1.本技术涉及文本筛选技术领域,特别是涉及一种邮件过滤方法、装置、设备及存储介质。
背景技术:
2.互联网产业技术的发展带动了在线信息的实时交流,线上的信息的交流方式也变得越来越多样化,比如邮件、短信等。以邮件为例,随着使用邮件进行交流的频率越来高,网络用户不可避免地接收到越来越多的垃圾邮件。
3.在现有技术中,一般采用深度学习的方式训练出邮件过滤模型,旨在依靠所设计的算法,并通过大量的文字样本使人工智能能够识别出文件内容所能代表的实际含义,并依靠所理解的实际含义对相应的文件执行相应的处理措施。但是,在训练人工智能期间,往往需要提供大量的样本,同时,其所需求的学习时间也极长。难以以低成本、短时间的方式实现对邮件的过滤。
4.因此,如何实现低成本、准确的邮件过滤方法是本领域技术人员亟待解决的问题。
技术实现要素:
5.基于上述问题,本技术提供了一种邮件过滤方法、装置、设备及存储介质,以实现低成本且准确的邮件过滤。
6.本技术实施例公开了如下技术方案:
7.第一方面,本技术实施例提供一种邮件过滤方法,所述方法包括:
8.获取原始文本;其中所述原始文本由待处理邮件得到;
9.对所述原始文本进行预处理,得到目标词语;
10.根据所述目标词语确定目标关键词;
11.根据所述目标关键词确定所述待处理邮件对应的邮件类型;
12.根据所述邮件类型对待处理邮件选择性执行过滤操作。
13.可选地,所述对所述原始文本进行预处理,得到目标词语,包括:
14.将所述原始文本中的非正文部分进行去除,得到第一处理文本;
15.将所述第一处理文本按照预设字词去除规则进行处理,得到第二处理文本;
16.对所述第二处理文本进行分词处理,得到独立词语;
17.根据独立词语的前后顺序,提取相连词语间的内部联系;
18.根据所述独立词语间的内部联系程度,将所述独立词语转化生成所述目标词语。
19.可选地,所述对所述第二处理文本进行分词处理,得到独立词语,包括:
20.根据中文词库确定中文之间的关联概念;
21.根据所述关联概念对所述第二处理文本中的中文字符进行分词,得到独立词语。
22.可选地,所述根据所述目标词语确定目标关键词,包括:
23.确定所述目标词语的权重值;
24.按照权重值对所述目标词语进行排序,将排序后的目标词语作为目标关键词。
25.可选地,所述方法还包括:
26.获取训练文本;其中所述训练文本由训练集得到;
27.对所述训练文本进行预处理,得到目标训练词语;
28.根据所述目标训练词语确定训练关键词;
29.利用所述训练关键词对待训练模型进行训练,得到邮件过滤模型;其中所述待训练模型为经由迁移学习得到的模型。
30.第二方面,本技术实施例提供一种邮件过滤装置,所述装置包括:
31.获取模块,用于获取原始文本;其中所述原始文本由待处理邮件得到;
32.目标词语确定模块,用于对所述原始文本进行预处理,得到目标词语;
33.目标关键词确定模块,用于根据所述目标词语确定目标关键词;
34.邮件类型确定模块,用于根据所述目标关键词确定所述待处理邮件对应的邮件类型;
35.邮件过滤模块,用于根据所述邮件类型对待处理邮件选择性执行过滤操作。
36.可选地,所述目标词语确定模块,包括:
37.第一处理模块,用于将所述原始文本中的非正文部分进行去除,得到第一处理文本;
38.第二处理模块,用于将所述第一处理文本按照预设字词去除规则进行处理,得到第二处理文本;
39.分词模块,用于对所述第二处理文本进行分词处理,得到独立词语;
40.提取模块,用于根据独立词语的前后顺序,提取相连词语间的内部联系;
41.目标词语确定子模块,用于根据所述独立词语间的内部联系程度,将所述独立词语转化生成所述目标词语。
42.可选地,所述分词模块,具体用于:
43.根据中文词库确定中文之间的关联概念;
44.根据所述关联概念对所述第二处理文本中的中文字符进行分词,得到独立词语。
45.第三方面,本技术实施例提供一种计算机设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如第一方面所述的邮件过滤方法。
46.第四方面,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如第一方面所述的邮件过滤方法。
47.相较于现有技术,本技术具有以下有益效果:
48.本技术通过获取由待处理邮件得到的原始文本,对所述原始文本进行预处理得到目标词语,根据所述目标词语确定目标关键词,根据所述目标关键词确定所述待处理邮件对应的邮件类型,根据所述邮件类型对待处理邮件选择性执行过滤操作。其中,本技术通过对邮件的原始文本进行两次处理,得到目标关键词,精简文本内容,提取重要内容,且进一步通过目标关键词确定待处理邮件的邮件类型,并根据邮件类型对待处理邮件进行选择性过滤操作,可以通过目标关键词反映邮件的整体性质,能够实现快速、有效的邮件过滤。
附图说明
49.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
50.图1为本技术实施例提供的一种邮件过滤方法的流程图;
51.图2为本技术实施例提供的一种邮件过滤模型训练的流程图;
52.图3为本技术实施例提供的一种邮件过滤装置的结构示意图。
具体实施方式
53.正如前文描述,在针对邮件过滤的研究中发现,在现有技术中,一般采用深度学习的方式训练出邮件过滤模型,旨在依靠所设计的算法,并通过大量的文字样本使人工智能能够识别出文件内容所能代表的实际含义,并依靠所理解的实际含义对相应的文件执行相应的处理措施。但是,在训练人工智能期间,往往需要提供大量的样本,同时,其所需求的学习时间也极长。难以以低成本、短时间的方式实现对邮件的过滤。
54.为了解决上述问题,本技术实施例提供一种邮件过滤方法、装置、设备及存储介质。该方法包括:获取由待处理邮件得到的原始文本,对所述原始文本进行预处理得到目标词语,根据所述目标词语确定目标关键词,根据所述目标关键词确定所述待处理邮件对应的邮件类型,根据所述邮件类型对待处理邮件选择性执行过滤操作。
55.如此,本技术通过对邮件的原始文本进行两次处理,得到目标关键词,精简文本内容,提取重要内容,且进一步通过目标关键词确定待处理邮件的邮件类型,并根据邮件类型对待处理邮件进行选择性过滤操作,可以通过目标关键词反映邮件的整体性质,能够实现快速、有效的邮件过滤。
56.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
57.需要说明的是,本技术不仅适用于对邮件进行过滤,同样适用于对文件、短信或者其他通讯内容的过滤,在下述各实施例中,主要是介绍针对邮件的过滤方法及相关内容。
58.参见图1,该图为本技术实施例提供的一种邮件过滤方法的流程图,结合图1所示,本技术实施例所提供的邮件过滤方法,可以包括:
59.s101:获取原始文本。
60.其中,所述原始文本由待处理邮件得到。
61.原始文本意指未经过任何删减或处理的文本。
62.待处理邮件意指由用户邮箱接收的邮件。
63.需要说明的是,在本实施例中,待处理邮件会包括很多内容,因此需要将待处理邮件中的文本内容进行提取,以便于后续根据文本内容对待处理邮件进行识别和过滤。
64.s102:对所述原始文本进行预处理,得到目标词语。
65.需要说明的是,通过对原始文本进行预处理,可以将原始文本中非重要内容进行
去除,进一步精简文本内容,可以提高文本的质量。
66.作为一种可选的实施方式,步骤s102具体可以包括:
67.步骤11:将所述原始文本中的非正文部分进行去除,得到第一处理文本。
68.需要说明的是,非正文部分意指除邮件正文以外的内容,比如签名、时间的等等。在一种可实现的方式中,具体可以通过python的beautiful-soup库及黑白名单等技术对邮件中的非正文部分进行清洗去除,去除掉表情包、css代码等进行去除。
69.需要说明的是,对于需要过滤的邮件,这些邮件一般为垃圾邮件或者推销邮件,其相关内容一般会显示在邮件正文中,因此需要将非正文部分进行处理,以精简文本内容,提高后续识别的精度,进一步提高邮件过滤的准确度。
70.步骤12:将所述第一处理文本按照预设字词去除规则进行处理,得到第二处理文本。
71.需要说明的是,预设字词去除规则意指去除正文部分中无意义字词或语气词的规则,例如“了”、“么”等。
72.需要说明的是,通过对第一处理文本进行字词去除,可以进一步对精简文本内容,且便于后续独立词语的提取。
73.步骤13:对所述第二处理文本进行分词处理,得到独立词语。
74.独立词语意指经过分词得到的词语,在一种可实现的方式中可以通过jieba库对正文部分的中文字符进行分词。
75.作为一种示例,所述步骤13可以包括:
76.步骤131:根据中文词库确定中文之间的关联概念;
77.步骤132:根据所述关联概念对所述第二处理文本中的中文字符进行分词,得到独立词语。
78.需要说明的是,关联概念意指基于中文词库的各个中文字符之间的联系。
79.步骤14:根据独立词语的前后顺序,提取相连词语间的内部联系。
80.步骤15:根据所述独立词语间的内部联系程度,将所述独立词语转化生成所述目标词语。
81.需要说明的是,通过确定独立词语的先后顺序,可以确定独立词语的语言逻辑顺序,进一步根据提取得到的内部联系程度,确定出目标词语。具体举例来说,例如这杯水真烫啊,可拆成这杯水、真烫、啊,根据内部联系程度,可确定目标词语为水、烫。
82.s103:根据所述目标词语确定目标关键词。
83.需要说明的是,在一种可实现的方式中,具体可以通过bigru模型提取邮件正文的前后文信息以及利用attention mechanism方法突出文本中的重要信息,作为目标关键词。
84.作为一种可实现的实施方式,所述s103具体可以包括:
85.确定所述目标词语的权重值;
86.按照权重值对所述目标词语进行排序,将排序后的目标词语作为目标关键词。
87.s104:根据所述目标关键词确定所述待处理邮件对应的邮件类型。
88.邮件类型意指目标关键词对应的邮件的类型,比如推销类型、账单类型等等。
89.需要说明的是,将原始文本经由一系列处理得到目标关键词,再利用目标关键词确定邮件类型,即可确定出邮件是否为需要过滤的邮件,一方面精简了文本内容,另一方面
提高了邮件过滤的准确性。
90.s105:根据所述邮件类型对待处理邮件选择性执行过滤操作。
91.其中,选择性执行过滤操作意指根据邮件类型确定待处理邮件是否需要过滤,举例来说,邮件类型为文件类型,则不执行过滤操作;若邮件类型为推销类型,则需要执行过滤操作。
92.本技术实施例提供的邮件过滤方法,通过获取由待处理邮件得到的原始文本,对所述原始文本进行预处理得到目标词语,根据所述目标词语确定目标关键词,根据所述目标关键词确定所述待处理邮件对应的邮件类型,根据所述邮件类型对待处理邮件选择性执行过滤操作。其中,本技术通过对邮件的原始文本进行两次处理,得到目标关键词,精简文本内容,提取重要内容,且进一步通过目标关键词确定待处理邮件的邮件类型,并根据邮件类型对待处理邮件进行选择性过滤操作,可以通过目标关键词反映邮件的整体性质,能够实现快速、有效的邮件过滤。
93.基于上述实施例提供的邮件过滤方法,本技术实施例还提供一种邮件过滤模型的训练过程,参见图2,该图为本技术实施例提供的一种邮件过滤模型训练的流程图,结合图2所示,本技术实施例提供的邮件过滤模型的训练过程,具体可以包括:
94.s201:获取训练文本。
95.其中,所述训练文本由训练集得到,所述训练集中包括多个由历史邮件提取得到的原始文本。
96.s202:对所述训练文本进行预处理,得到目标训练词语。
97.s203:根据所述目标训练词语确定训练关键词。
98.需要说明的是,步骤s201~s203的实现过程与上述步骤s101~s103的实现过程相同,具体可参照上述步骤s101~s103,因此不再赘述。
99.s204:利用所述训练关键词对待训练模型进行训练,得到邮件过滤模型。
100.其中,所述待训练模型为经由迁移学习得到的模型。
101.需要说明的是,本实施例通过用迁移学习的思想,将transformer模型的全连接层去除,添加全局平均池化层、softmax层进行训练,以训练出高精度的邮件过滤模型。
102.本技术实施例提供的邮件过滤模型的训练过程,一方面通过确定训练关键词,实现精简文本内容,突出邮件的重点信息,优化训练数据,提高训练的模型的准确度,另一方面通过训练关键词对经过迁移学习的模型进行训练,区别于深度学习需要大量的训练样本,迁移学习可以运用已有的知识来学习新的知识,通过数据、任务或模型之间的相似性,将源域中学习到的模型应用到目标域,解决目标域缺少标签的问题,也解决了实际场景中可能并不能提供那么多的训练样本可供训练的问题。
103.基于上述实施例提供的邮件过滤方法,本技术实施例还提供一种邮件过滤装置,参见图3,该图为本技术实施例提供的一种邮件过滤装置的结构示意图,结合图3所示,本技术实施例提供的邮件过滤装置300,可以包括:
104.获取模块301,用于获取原始文本;其中所述原始文本由待处理邮件得到;
105.目标词语确定模块302,用于对所述原始文本进行预处理,得到目标词语;
106.目标关键词确定模块303,用于根据所述目标词语确定目标关键词;
107.邮件类型确定模块304,用于根据所述目标关键词确定所述待处理邮件对应的邮
件类型;
108.邮件过滤模块305,用于根据所述邮件类型对待处理邮件选择性执行过滤操作。
109.作为一种示例,所述目标词语确定模块302,包括:
110.第一处理模块,用于将所述原始文本中的非正文部分进行去除,得到第一处理文本;
111.第二处理模块,用于将所述第一处理文本按照预设字词去除规则进行处理,得到第二处理文本;
112.分词模块,用于对所述第二处理文本进行分词处理,得到独立词语;
113.提取模块,用于根据独立词语的前后顺序,提取相连词语间的内部联系;
114.目标词语确定子模块,用于根据所述独立词语间的内部联系程度,将所述独立词语转化生成所述目标词语。
115.作为一种示例,所述分词模块,具体用于:
116.根据中文词库确定中文之间的关联概念;
117.根据所述关联概念对所述第二处理文本中的中文字符进行分词,得到独立词语。
118.作为一种示例,所述装置300还包括:
119.训练文本获取模块,用于获取训练文本;其中所述训练文本由训练集得到;
120.预处理模块,用于对所述训练文本进行预处理,得到目标训练词语;
121.训练关键词确定模块,用于根据所述目标训练词语确定训练关键词;
122.模型训练模块,用于利用所述训练关键词对待训练模型进行训练,得到邮件过滤模型;其中所述待训练模型为经由迁移学习得到的模型。
123.本技术实施例所提供的邮件过滤装置与上述实施例提供的邮件过滤方法具有相同的有益效果,因此不再赘述。
124.本技术实施例还提供了对应的设备以及计算机存储介质,用于实现本技术实施例提供的方案。
125.其中,所述设备包括存储器和处理器,所述存储器用于存储指令或代码,所述处理器用于执行所述指令或代码,以使所述设备执行本技术任一实施例所述的邮件过滤方法。
126.所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现本技术任一实施例所述的邮件过滤方法。
127.本发明提供的一种邮件过滤方法、装置、设备及存储介质可用于金融领域或其他领域,例如,可用于金融领域中的邮件过滤应用场景。其他领域为除金融领域之外的任意领域,例如,文本筛选领域。上述仅为示例,并不对本发明提供的一种邮件过滤方法、装置、设备及存储介质的应用领域进行限定。
128.需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置及设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及设备实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元提示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
129.本技术实施例所提到的“第一”、“第二”(若存在)等名称中的“第一”、“第二”只是用来做名字标识,并不代表顺序上的第一、第二。
130.通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本技术的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(英文:read-only memory,rom)/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本技术各个实施例或者实施例的某些部分所述的方法。
131.以上所述,仅为本技术的一种具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应该以权利要求的保护范围为准。
技术特征:
1.一种邮件过滤方法,其特征在于,所述方法包括:获取原始文本;其中所述原始文本由待处理邮件得到;对所述原始文本进行预处理,得到目标词语;根据所述目标词语确定目标关键词;根据所述目标关键词确定所述待处理邮件对应的邮件类型;根据所述邮件类型对待处理邮件选择性执行过滤操作。2.根据权利要求1所述的邮件过滤方法,其特征在于,所述对所述原始文本进行预处理,得到目标词语,包括:将所述原始文本中的非正文部分进行去除,得到第一处理文本;将所述第一处理文本按照预设字词去除规则进行处理,得到第二处理文本;对所述第二处理文本进行分词处理,得到独立词语;根据独立词语的前后顺序,提取相连词语间的内部联系;根据所述独立词语间的内部联系程度,将所述独立词语转化生成所述目标词语。3.根据权利要求2所述的邮件过滤方法,其特征在于,所述对所述第二处理文本进行分词处理,得到独立词语,包括:根据中文词库确定中文之间的关联概念;根据所述关联概念对所述第二处理文本中的中文字符进行分词,得到独立词语。4.根据权利要求1所述的邮件过滤方法,其特征在于,所述根据所述目标词语确定目标关键词,包括:确定所述目标词语的权重值;按照权重值对所述目标词语进行排序,将排序后的目标词语作为目标关键词。5.根据权利要求1所述的邮件过滤方法,其特征在于,所述方法还包括:获取训练文本;其中所述训练文本由训练集得到;对所述训练文本进行预处理,得到目标训练词语;根据所述目标训练词语确定训练关键词;利用所述训练关键词对待训练模型进行训练,得到邮件过滤模型;其中所述待训练模型为经由迁移学习得到的模型。6.一种邮件过滤装置,其特征在于,所述装置包括:获取模块,用于获取原始文本;其中所述原始文本由待处理邮件得到;目标词语确定模块,用于对所述原始文本进行预处理,得到目标词语;目标关键词确定模块,用于根据所述目标词语确定目标关键词;邮件类型确定模块,用于根据所述目标关键词确定所述待处理邮件对应的邮件类型;邮件过滤模块,用于根据所述邮件类型对待处理邮件选择性执行过滤操作。7.根据权利要求6所述的邮件过滤装置,其特征在于,所述目标词语确定模块,包括:第一处理模块,用于将所述原始文本中的非正文部分进行去除,得到第一处理文本;第二处理模块,用于将所述第一处理文本按照预设字词去除规则进行处理,得到第二处理文本;分词模块,用于对所述第二处理文本进行分词处理,得到独立词语;提取模块,用于根据独立词语的前后顺序,提取相连词语间的内部联系;
目标词语确定子模块,用于根据所述独立词语间的内部联系程度,将所述独立词语转化生成所述目标词语。8.根据权利要求7所述的邮件过滤装置,其特征在于,所述分词模块,具体用于:根据中文词库确定中文之间的关联概念;根据所述关联概念对所述第二处理文本中的中文字符进行分词,得到独立词语。9.一种计算机设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-5任一项所述的邮件过滤方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如权利要求1-5任一项所述的邮件过滤方法。
技术总结
本申请公开了一种邮件过滤方法、装置、设备及存储介质,应用于金融领域或其他领域。该方法包括:获取由待处理邮件得到的原始文本,对所述原始文本进行预处理得到目标词语,根据所述目标词语确定目标关键词,根据所述目标关键词确定所述待处理邮件对应的邮件类型,根据所述邮件类型对待处理邮件选择性执行过滤操作。其中,本申请通过对邮件的原始文本进行两次处理,得到目标关键词,精简文本内容,提取重要内容,且进一步通过目标关键词确定待处理邮件的邮件类型,并根据邮件类型对待处理邮件进行选择性过滤操作,可以通过目标关键词反映邮件的整体性质,能够实现快速、有效的邮件过滤。有效的邮件过滤。有效的邮件过滤。
技术研发人员:王益超
受保护的技术使用者:中国银行股份有限公司
技术研发日:2023.04.23
技术公布日:2023/7/25
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
