一种管网领域的文本分类方法、装置、电子设备及介质与流程

未命名 08-15 阅读:65 评论:0


1.本发明涉及管网领域知识分类技术领域,具体而言,本发明涉及一种管网领域的文本分类方法、装置、电子设备及介质。


背景技术:

2.知识分类技术是人工智能的核心内容,现有的知识分类方法不足在于:
3.(1)根据有限样本训练的模型准确率不够
4.一般分类都是先标注样本,然后根据样本训练一个自然语言的分类模型,比如机器学习的svm、crf模型等、深度学习一般包括lstm、fasttex等,这和传统数据分析的采集样本建立统计模型的过程完全一样。由于获得高可信度的样本往往需要人工校验,因此,是一个长期且昂贵的过程,基于此,如果分类模型是基于小样本建立的,则会很难适应工程中出现的大量的、变化多端的、鲜活的语言情况,导致分类准确率较低,比如,在管网领域一个基于20万标注句子训练得到的crf(53个类)分类模型,其开放测试准确率只有74.5%,这不能满足大于74.5%,比如,80%准确率的工程基本要求。
5.(2)根据模型的分类不能满足人工智能即改即得的要求
6.一个20万语料的crf模型训练需要24小时,采用fasttext的hs模式也需要一个小时,而且还需要至少264g的计算资源,这些都不能满足工程上见到一个错误当场修改,然后当场看到效果,即改即得的实时性要求。
7.综上,现有技术中的分类模型的准确度不够高,训练时间长,不能满足实时性要求。


技术实现要素:

8.本发明所要解决的技术问题是提供了一种管网领域的文本分类方法、装置、电子设备及介质,旨在解决上述至少一个技术问题。
9.第一方面,本发明解决上述技术问题的技术方案如下:一种管网领域的文本分类方法,该方法包括:
10.获取管网领域的待扩展字典,所述待扩展字典中包括多个标题句子和每个所述标题句子对应的类别,所述待扩展字典的数据量小于设定值;
11.对于每个所述标题句子,确定所述标题句子对应的候选词条,所述候选词条为所述标题句子中与所述标题句子的真实语义最相似的词串;
12.对于每个所述候选词条,根据所述管网领域的基础背景语料和所述候选词条,对所述候选词条进行扩展,得到多个目标词条,所述基础背景语料中包括多个文本对应的词,所述基础背景语料的数据量大于所述设定值,所述基础背景语料是基于fasttext模型确定得到的;
13.根据各个所述候选词条中每个所述候选词条对应的各个所述目标词条,以及每个所述目标词条对应的类别,确定分类语料,以根据所述分类语料训练得到的分类模型确定
待分类文本的目标类别。
14.本发明的有益效果是:依据大模型小样本思想,将数据量小于设定值的待扩展字典作为样本,然后通过fasttext大规模语言模型对待扩展字典中每个所述标题句子对应的候选词条进行扩展,得到分类语料,所得到的分类语料数据量变大,且可以从多方便全面反映管网领域中分类词特征,这样基于分类语料训练得到的分类模型的准确度得到了提高。另外,通过字典这种可解释性方法满足了工程上对实时性和修改方便性的要求,在工程中取得了良好的应用效果。
15.在上述技术方案的基础上,本发明还可以做如下改进。
16.进一步,对于每个所述标题句子,上述确定所述标题句子对应的候选词条,包括:
17.对于每个所述标题句子,确定所述标题句子对应的至少一个词串;
18.对于每个所述标题句子,根据所述标题句子对应的至少一个词串和所述标题句子对应的类别,确定所述类别和所述至少一个词串中每个词串之间的第一相似度;
19.对于每个所述标题句子,根据所述标题句子对应的至少一个第一相似度,将所述至少一个第一相似度中最大第一相似度对应的词串作为所述候选词条。
20.采用上述进一步方案的有益效果是,通过计算每个所述标题句子的类别所述至少一个词串中每个词串之间的第一相似度,通过各个第一相似度的大小表征每个词串所表达的语义与标题句子的真实语义的相似程度,从而对于每个所述标题句子,可通过该标题句子对应的至少一个第一相似度,准确的确定出候选词条。
21.进一步,该方法还包括:
22.获取原始背景语料,所述原始背景语料中包括多个文本对应的词;
23.通过fasttext模型将所述原始背景语料中的每个字转换为设定维度的向量,得到所述基础背景语料;
24.对于每个所述候选词条,上述根据所述管网领域的基础背景语料和所述候选词条,对所述候选词条进行扩展,得到多个目标词条,包括:
25.对于每个所述候选词条,根据所述基础背景语料,确定所述候选词条和所述基础背景语料中的各个字的向量之间的第二相似度;
26.对于每个所述候选词条,根据所述候选词条对应的多个第二相似度,确定相似度大于相似阈值的多个目标词条。
27.采用上述进一步方案的有益效果是,通过fasttext模型可将原始背景语料中的每个字转换为设定维度的向量,以更加准确的表达原始背景语料中包括对应的每个词,为后续处理提供数据支持,且基于通过候选词条和所述基础背景语料中的各个字的向量之间的第二相似度,可以准确的确定出每个候选词条对应的多个目标词条。
28.进一步,上述根据各个所述候选词条中每个所述候选词条对应的各个所述目标词条,以及每个所述目标词条对应的类别,确定分类语料,以根据所述分类语料训练得到的分类模型确定待分类文本的目标类别,包括:
29.对于每个所述候选词条,将所述候选词条对应的各个所述目标词条,按照词条长度进行降序排序,得到排序后的目标词条;
30.根据各所述候选词条中每个所述候选词条对应的排序后的目标词条,确定所述分类语料,以根据所述分类语料训练得到所述分类模型;
31.获取所述待分类文本,所述待分类文本中包括待分类标题句子;
32.通过所述分类模型,确定所述待分类标题句子中最长词条对应的目标词条对应的类别,所述最长词条为所述待分类标题句子对应的各个候选词条中词条长度最长的候选词条;
33.根据所述待分类标题句子中最长词条对应的目标词条对应的类别,确定所述目标类别。
34.采用上述进一步方案的有益效果是,按照词条长度进行降序排序,可在后续确定待分类文本的目标类别的过程中,根据所述待分类标题句子中最长词条对应的目标词条对应的类别,确定目标类别,从而第一时间确定出待分类文本的目标类别,加快处理速度。
35.进一步,若上述待分类文本还包括待分类摘要,该方法还包括:
36.将所述待分类摘要拆分成至少一个句子;
37.对于每个句子,通过所述分类模型确定所述句子中最长词条对应的目标词条对应的类别;
38.根据所述至少一个句子中每个所述句子中最长词条对应的类别,确定所述待分类摘要对应的类别;
39.上述根据所述待分类标题句子中最长词条对应的目标词条对应的类别,确定所述目标类别,包括:
40.根据所述待分类标题句子中最长词条对应的类别和所述待分类摘要对应的类别,确定所述待分类文本对应的目标类别。
41.采用上述进一步方案的有益效果是,对于待分类文本,标题之外次重要的就是摘要,摘要基本上是整个待分类文本中各大部分的内容总结,是整个待分类文本的核心,因此,还可对摘要进行有效分类,以使得确定的待分类文本的目标类别更加准确。
42.进一步,上述根据所述至少一个句子中每个所述句子中最长词条对应的类别,确定所述待分类摘要对应的类别,包括:
43.根据所述至少一个句子中每个所述句子中最长词条对应的类别,确定属于同一个类别的句子的数量;
44.若属于同一个类别的句子的数量中存在一个数量最多的句子对应的类别,则将所述数量最多的句子对应的类别作为所述待分类摘要对应的类别;
45.若属于同一个类别的句子的数量中存在至少两个数量最多的句子对应的类别,则将所有句子中最长句子对应的类别作为所述待分类摘要对应的类别。
46.采用上述进一步方案的有益效果是,对于不同的属于同一个类别的句子的数量的情况,可具体根据属于同一个类别的句子的数量中数量最多的句子的数量情况,更加准确的确定待分类摘要对应的类别。
47.进一步,每个所述类别包括多个不同层级的类别,多个不同层级的类别包括业务域类别、业务级别类别和业务主题类别;该方法还包括:
48.获取多个文献中每个标题句子对应的类别和每个摘要对应的类别;
49.根据各个所述标题句子的类别和各个所述摘要的类别,确定各个类别之间的层级关系;
50.将各个所述标题摘要的类别和各个所述摘要的类别中的每个所述类别作为一个
节点,根据各个节点和各个节点之间的层级关系,确定树形结构的知识体系;
51.上述根据所述待分类标题句子中最长词条对应的类别和所述待分类摘要对应的类别,确定所述待分类文本对应的目标类别,包括:
52.根据所述待分类标题句子中最长词条对应的类别和所述待分类摘要对应的类别,确定所述待分类标题句子对应的类别和所述待分类摘要对应的类别分别在所述知识体系中的位置;
53.根据所述待分类标题对应的类别和所述待分类摘要对应的类别分别在所述知识体系中的位置,确定所述待分类文本对应的至少一个类别序列,对于每个所述类别序列,所述类别序列中包括层级关系依次降低的类别,每个所述类别序列为由不同层级的类别组成的序列;
54.根据所述至少一个类别序列,确定所述待分类文本对应的目标类别。
55.第二方面,本发明为了解决上述技术问题还提供了一种管网领域的文本分类装置,该装置包括:
56.字典获取模块,用于获取管网领域的待扩展字典,所述待扩展字典中包括多个标题句子和每个所述标题句子对应的类别,所述待扩展字典的数据量小于设定值;
57.候选词条确定模块,用于对于每个所述标题句子,确定所述标题句子对应的候选词条,所述候选词条为所述标题句子中与所述标题句子的真实语义最相似的词串;
58.扩展模块,用于对于每个所述候选词条,根据所述管网领域的基础背景语料和所述候选词条,对所述候选词条进行扩展,得到多个目标词条,所述基础背景语料中包括多个文本对应的词,所述基础背景语料的数据量大于所述设定值,所述基础背景语料是基于fasttext模型确定得到的;
59.分类语料确定模块,用于根据各个所述候选词条中每个所述候选词条对应的各个所述目标词条,以及每个所述目标词条对应的类别,确定分类语料,以根据所述分类语料训练得到的分类模型确定待分类文本的目标类别。
60.第三方面,本发明为了解决上述技术问题还提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行该计算机程序时实现本技术的一种管网领域的文本分类方法。
61.第四方面,本发明为了解决上述技术问题还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现本技术的一种管网领域的文本分类方法。
62.本技术附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本技术的实践了解到。
附图说明
63.为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍。
64.图1为本发明一个实施例提供的一种管网领域的文本分类方法的流程示意图;
65.图2为本发明一个实施例提供的一种待扩展字典的示意图;
66.图3为本发明一个实施例提供的一种原始背景语料的示意图;
67.图4为本发明一个实施例提供的一种分类语料的示意图;
68.图5为本发明一个实施例提供的一种知识体系的示意图;
69.图6为本发明一个实施例提供的一种待分类文本的目标类别的示意图;
70.图7为本发明一个实施例提供的一种管网领域的文本分类原理的示意图;
71.图8为本发明一个实施例提供的一种管网领域的文本分类技术流程的示意图;
72.图9为本发明一个实施例提供的一种管网领域的文本分类装置的结构示意图;
73.图10为本发明一个实施例提供的一种电子设备的结构示意图。
具体实施方式
74.以下对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
75.下面以具体实施例对本发明的技术方案以及本发明的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
76.本发明实施例所提供的方案可以适用于任何需要对管网领域的文本进行分类的应用场景中。本发明实施例所提供的方案可以由任一电子设备执行,比如,可以是用户的终端设备,包括以下至少一项:智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视、智能车载设备。
77.本发明实施例提供了一种可能的实现方式,如图1所示,提供了一种管网领域的文本分类方法的流程图,该方案可以由任一电子设备执行,例如,可以是终端设备,或者由终端设备和服务器共同执行。为描述方便,下面将以终端设备作为执行主体为例对本发明实施例提供的方法进行说明,如图1中所示的流程图,该方法可以包括以下步骤:
78.步骤s110,获取管网领域的待扩展字典,所述待扩展字典中包括多个标题句子和每个所述标题句子对应的类别,所述待扩展字典的数据量小于设定值;
79.步骤s120,对于每个所述标题句子,确定所述标题句子对应的候选词条,所述候选词条为所述标题句子中与所述标题句子的真实语义最相似的词串;
80.步骤s130,对于每个所述候选词条,根据所述管网领域的基础背景语料和所述候选词条,对所述候选词条进行扩展,得到多个目标词条,所述基础背景语料中包括多个文本对应的词,所述基础背景语料的数据量大于所述设定值,所述基础背景语料是基于fasttext模型确定得到的;
81.步骤s140,根据各个所述候选词条中每个所述候选词条对应的各个所述目标词条,以及每个所述目标词条对应的类别,确定分类语料,以根据所述分类语料训练得到的分类模型确定待分类文本的目标类别。
82.通过本发明的方法,依据大模型小样本思想,将数据量小于设定值的待扩展字典作为样本,然后通过fasttext大规模语言模型对待扩展字典中每个所述标题句子对应的候选词条进行扩展,得到分类语料,所得到的分类语料数据量变大,且可以从多方便全面反映管网领域中分类词特征,这样基于分类语料训练得到的分类模型的准确度得到了提高。另外,通过字典这种可解释性方法满足了工程上对实时性和修改方便性的要求,在工程中取得了良好的应用效果。
word_str]计算得到至少一个第一相似度。
95.步骤s130,对于每个所述候选词条,根据所述管网领域的基础背景语料和所述候选词条,对所述候选词条进行扩展,得到多个目标词条,所述基础背景语料中包括多个文本对应的词,所述基础背景语料的数据量大于所述设定值,所述基础背景语料是基于fasttext模型确定得到的;
96.其中,对候选词条进行扩展实质上指的是从基础背景语料中选择与候选词条相近的多个目标词条,以丰富同一个类别对应的词条的数量,为后续构建丰富的分类语料打下基础。其中,基础背景语料的数据量大于所述设定值表示的是基础背景语料的数据量较大,尽可能涵盖了管网领域内的各个方面的语料,这样可以使得待扩展字典得到充分的扩展。
97.可选的,上述基础背景语料是通过以下方式确定的:
98.获取原始背景语料,所述原始背景语料中包括多个文本对应的词,即原始背景语料中可以包括管网领域的多个文本(句子),这些句子可以来自文献、报告、咨询、专利等文章;比如,原始背景语料为266万相关文献、报告、咨询、专利等文章,通过分割符(比如“,,.。??!!::”)将各类型的文章拆分成2200万个句子,可代表管网的基本语境。其中,原始背景语料可参见图3中表1所示的原始语料。
99.通过fasttext模型将所述原始背景语料中的每个字转换为设定维度(比如,300维)的向量,得到所述基础背景语料,得到的基础背景语料可以是一个bin文件。
100.作为一个示例,可以通过fasttext模型将2200万句子通过逻辑核数32、内存500g的服务器运算5.5小时获得的,具体的词表大小为130万词、词向量维度为300维,训练词向量文件为3g,即通过fasttext模型将2200万句子转换为数据模型,对每个字赋予一个300维的向量,将文本转化为向量的过程。
101.其中,上述fasttext模型可通过以下方式训练得到:
102.采用python的fasttext包,读取基础语料(2200万个句子),通过对2200万个句子语料设置模型训练参数学习率0.1、维度300维、轮数30、最小词长2、优化目标是层次化目标(model=fasttext.train_supervised,lr=0.1,dim=300,epoch=30,word_ngrams=2,loss='hs'),并将模型保存为一个二进制文件(model.save_model("model/fasttext_model.bin"))获得所需要的fasttext大模型。
103.可选的,对于每个所述候选词条,上述根据所述管网领域的基础背景语料和所述候选词条,对所述候选词条进行扩展,得到多个目标词条,包括:
104.对于每个所述候选词条,根据所述基础背景语料,确定所述候选词条和所述基础背景语料中的各个字的向量之间的第二相似度;
105.对于每个所述候选词条,根据所述候选词条对应的多个第二相似度,确定相似度大于相似阈值的多个目标词条。
106.其中,相似阈值可基于实际设置,比如,0.8,则可将相似度大于0.8的字作为候选词条的相似词,即目标词条。
107.进一步的,还可以基于设定的筛选条件,确定目标词条,具体地,对于每个所述候选词条,上述根据所述候选词条对应的多个第二相似度,确定相似度大于相似阈值的多个目标词条,包括:
108.对于每个所述候选词条,根据所述候选词条对应的多个第二相似度,确定相似度
大于相似阈值的多个初始词条;
109.对于每个所述候选词条,从所述候选词条对应的多个初始词条筛选出词长度大于设定长度的初始词条作为目标词条。其中,设定长度可基于实际需求设置,比如,5。
110.在确定了每个候选词条对应的目标词条后,每个候选词条对应一个类别,为了进一步提高这个目标词条的类别的准确性,还可在实际中不断经过专家校对,以适应不同准确率要求,基于上述示例,对于多个候选词条,通过基础背景语料进行扩展后,可总共生成字典的大小为31万词的字典(目标词条)。
111.具体地,对于每个所述候选词条,上述根据所述管网领域的基础背景语料和所述候选词条,对所述候选词条进行扩展,得到多个目标词条,具体可通过以下程序实现:
112.通过模型计算选择与候选词word(候选词条)最相似的100个词条
113.(ss=unsupervised_model.get_nearest_neighbors(word,100))
114.生成包含100个词条以及每个初始词条对应的相似度值的2列表格
115.(ss=pd.dataframe(ss,columns=['sim','ww']))
[0116]
在表格中增加1列词长度(ss['len']=ss['ww'].str.len())
[0117]
在表格中筛选相似度》0.8的词并覆盖原表格(ss=ss[ss['sim']》0.8]),得到第一表格和初始词条;
[0118]
再从初始词条中筛选出词长度大于5的词并覆盖第一表格,从而获得相似度》0.8词长度》5的所有目标词条,(ss=ss[ss['len']》5])。
[0119]
步骤s140,根据各个所述候选词条中每个所述候选词条对应的各个所述目标词条,以及每个所述目标词条对应的类别,确定分类语料,以根据所述分类语料训练得到的分类模型确定待分类文本的目标类别。
[0120]
其中,分类语料中包括了多个目标词条和每个目标词条对应的类别,或者,分类语料中包括多个目标词条中每个目标词条对应的文献的名称,以及每个文献对应的类别。将分类语料作为训练样本,根据分类语料训练得到的分类模型,可基于现有技术中的分类模型训练方式实现,在此不再赘述。其中,上述分类语料可参见图4所示,图4中,包括类名以及文献两部分,文献指的是目标词条对应的文献的名称,类名表示的对应文献的类别。
[0121]
可选的,在得到各个所述候选词条中每个所述候选词条对应的各个所述目标词条之后,该方法还包括:
[0122]
对于每个所述候选词条,将所述候选词条对应的各个所述目标词条,按照词条长度进行降序排序,得到排序后的目标词条(对应图标8中所示的词条降序排列);这样在分类应用查字典的过程中,一个句子赋予一个最长词所对应的类(比如在“天然气管道交流干扰防护效果检测与评价报告”中“管道交流干扰防护”对应“管道巡护”类、“防护效果检测”术语对应“防爆防雷检测”类,由于“管道交流干扰防护”是这句话中长度最长的词,则该句对应的唯一类是“管道巡护”,这符合工程中词越长意义越具体月准确的基本认知,而对于其他短词不再往下查,不仅节约处理时间,也符合认知习惯。
[0123]
基于上述的原理,在本技术方案中,上述步骤s140,具体包括:
[0124]
对于每个所述候选词条,将所述候选词条对应的各个所述目标词条,按照词条长度进行降序排序,得到排序后的目标词条;
[0125]
根据各所述候选词条中每个所述候选词条对应的排序后的目标词条,确定所述分
类语料,以根据所述分类语料训练得到所述分类模型;
[0126]
获取所述待分类文本(可对应图8中所示的读入新文献),所述待分类文本中包括待分类标题句子;
[0127]
通过所述分类模型,确定所述待分类标题句子中最长词条对应的目标词条对应的类别,所述最长词条为所述待分类标题句子对应的各个候选词条中词条长度最长的候选词条;
[0128]
根据所述待分类标题句子中最长词条对应的目标词条对应的类别,确定所述目标类别。
[0129]
可选的,可将上述排序后的目标词条对应的分类语料保存为应用分类字典,或者,称为分类词典(对应图8所示的保存分类词典),该字典中类别和词条2个属性,形式可以如图2所示,其中的词条按照降序排列,即按照词条的长度进行降序排列。文献分类是对新文献查字典的过程,查字典在工程中比直接模型计算具有更强的解释性,因此在工业界更受欢迎。
[0130]
其中,上述分类模型可以是上述分类词典,则上述分类模型的输入可以为一句话的最长词条,该最长词条指的是能表达该句话的真实语义的多个候选词条中,词条长度最长的候选词条;输出为该最长词条对应的目标类别。
[0131]
作为一个示例,一句话为:“天然气管道交流干扰防护效果检测与评价报告”,这句话中按照词条长度进行降序排序后的各个候选词条分别为:“井项目管理实践与认识/管道交流干扰防护/钻井风险管理/钻井项目中应/防护效果检测”,其中,最长词条为“井项目管理实践与认识”,依据排序后的各个候选词条,从分类词典中查找对应的类别,如果最长词条“井项目管理实践与认识”在分类词典中可以查找到对应的类别,则将该类别作为这句话对应的目标类别,如果基于最长词条“井项目管理实践与认识”在分类词典中没有查找到对应的类别”,则可按照顺序将“管道交流干扰防护”作为新的最长词条,在分类词典中如果查找到“管道交流干扰防护”对应的类别,则将该类别作为该句话对应的目标类别,如果仍没查到对应的类别,则依次按顺序找之后的候选词条对应的类别,直到找到对应的类别位置。
[0132]
可选的,标题之外次重要的就是摘要,摘要基本上是整个文献各大部分的内容总结,是整个文献的核心,因此,对摘要进行有效分类也是非常重要的。若所述待分类文本(文献)还包括待分类摘要,则该方法还包括:
[0133]
可将摘要看成短文,将所述待分类摘要拆分成至少一个句子(对应图8中所示的将摘要切分为多句);具体可参见前文对原始背景语料进行分割的方式,将待分类摘要拆分成至少一个句子。每一个句子相当于一个标题,本质上摘要就是文献各小节的标题。
[0134]
对于每个句子,通过所述分类模型确定所述句子中最长词条对应的目标词条对应的类别,即每个句子对应的类别(对应图8中所示的确定摘要枚举的唯一类);
[0135]
根据所述至少一个句子中每个所述句子中最长词条对应的类别,确定所述待分类摘要对应的类别;其中,该句子中最长词条指的也是该句子对应的候选词条中词条长度最长的候选词条。基于前文确定标题句子的类别的方式,摘要中的每句话也可采用相同的方式确定每句话对应的类别,然后再基于各个句子对应的类别,确定待分类摘要对应的类别。
[0136]
可选的,上述根据所述至少一个句子中每个所述句子中最长词条对应的类别,确定所述待分类摘要对应的类别,包括:
[0137]
根据所述至少一个句子中每个所述句子中最长词条对应的类别,确定属于同一个类别的句子的数量;
[0138]
若属于同一个类别的句子的数量中存在一个数量最多的句子对应的类别,则将所述数量最多的句子对应的类别作为所述待分类摘要对应的类别(对应图8中所示的取频次最多的为摘要唯一类);
[0139]
若属于同一个类别的句子的数量中存在至少两个数量最多的句子对应的类别,则将所有句子中最长句子对应的类别作为所述待分类摘要对应的类别。
[0140]
其中,摘要只取一个类,对该摘要对应的各个句子对应的所有类别按频次进行排序,取出现频次最多的类别作为摘要的类别;如果频次都一样,则取所有句子中词条长度最长的那个类作为摘要的类别。
[0141]
在确定了待分类摘要的类别和待分类标题句子对应的类别之后,上述根据所述待分类标题句子中最长词条对应的目标词条对应的类别,确定所述目标类别,包括:根据所述待分类标题句子中最长词条对应的类别(即待分类标题句子对应的类别)和所述待分类摘要对应的类别,确定所述待分类文本对应的目标类别。
[0142]
可选的,每个所述类别包括多个不同层级的类别,多个不同层级的类别包括业务域类别、业务级别类别和业务主题类别;在基于前文描述的方法得到一个文献中标题句子的类别和摘要的类别之后,该方法还包括:
[0143]
获取多个文献中每个标题句子对应的类别和每个摘要对应的类别;
[0144]
根据各个所述标题句子的类别和各个所述摘要的类别,确定各个类别之间的层级关系;
[0145]
将各个所述标题摘要的类别和各个所述摘要的类别中的每个所述类别作为一个节点,根据各个节点和各个节点之间的层级关系,确定树形结构的知识体系;该知识体系可参见图5所示的表格3。
[0146]
由于之前确定的摘要对应的类别和标题句子类别各自对应的节点均是独立的,互相之间是没有关联的,但是这些节点之间本身是有关系的,这个关系可以通过知识体系表征,这样可通过后处理对这些孤立节点之间的关系进行识别、裁剪,从而得到符合行业认知的分类结果。
[0147]
在确定了知识体系后,基于该知识体系,可通过以下方式确定一个文献对应的目标类别,即上述根据所述待分类标题句子中最长词条对应的类别和所述待分类摘要对应的类别,确定所述待分类文本对应的目标类别(对一个图8中所示的后处理),包括:
[0148]
根据所述待分类标题句子中最长词条对应的类别和所述待分类摘要对应的类别,确定所述待分类标题句子对应的类别和所述待分类摘要对应的类别分别在所述知识体系中的位置(对应图8中所示的确定标题类和摘要类在知识体系中的位置);
[0149]
根据所述待分类标题句子对应的类别和所述待分类摘要对应的类别分别在所述知识体系中的位置,确定所述待分类文本对应的至少一个类别序列,对于每个所述类别序列,所述类别序列中包括层级关系依次降低的类别,每个类别序列为由不同层级的类别组成的序列;其中,对于待分类文本对应至少一个类别序列,每个类别序列为由不同层级的类别组成的序列,一个类别序列可以由待分类标题句子对应的类别和所述待分类摘要对应的类别组成。
[0150]
作为一个示例,一篇文献对应的类别序列为2个2级分类“投产实施”和“投产方案管理”各自对应的序列,一个类别序列为投产实施和投产前检查,另一个类别序列为投产方案管理和投产方案。
[0151]
作为又一个示例,文献的标题句子为“江西省天然气管道交流干扰检测与防护效果检测与评价报告”,摘要为“江西省天然气有限公司目前存在多处天然气管道与高压输电线路或电气化铁路相临的情况。国内外大量工程案例及研究结果表明,与埋地管道临近的高压交流输电线路或电气化铁路可通过电磁感应、电阻耦合等方式在管道上感应出交流电压和电流,交流干扰是威胁管道安全运行的一个重大隐患”,其中,2句摘要分别对应的类别为“管道巡护”和“防爆防雷检测”,则将这2个类在图5的表3中对应的行取出来构成一个2行的表格(类别序列),第1行(第一个类别序列):生产运维/管道保护管理/电气设备管理/防爆防雷检测,第2行(第二个类别序列):生产运维/管道保护管理/管道巡护管理/管道巡护)。
[0152]
根据所述至少一个类别序列,确定所述待分类文本对应的目标类别(对应图8中所示的取出文献类)。
[0153]
可选的,上述根据所述至少一个类别序列,确定所述待分类文本对应的目标类别的一种可选实施方式为:如果仅确定出一个类别序列,则将类别序列中的最后一个类别确定为待分类文本对应的目标类别,这个符合越靠近叶子节点越具体越准确的工程认知;如果确定出至少两个类别序列,则证明分类结果代表了对文献认知的不同方面,则可将这至少两个类别序列共同对应的上一层级的类别作为待分类文本对应的目标类别。对于其他情况,则可将标题句子对应的类别和摘要对应的类别共同作为待分类文本对应的目标类别,最终结果如图6所示的表5所示。
[0154]
作为一个示例,一篇文献对应的类别序列为2个2级分类“投产实施”和“投产方案管理”各自对应的序列,一个类别序列为投产实施和投产前检查,另一个类别序列为投产方案管理和投产方案,则将“投产实施”和“投产方案管理”这两个类别对应的上一层级的类别“投产管理”作为该篇文献对应的目标类别。
[0155]
为了更好的说明及理解本发明所提供的方法的原理,下面结合一个可选的具体实施例对本发明的方案进行说明。需要说明的是,该具体实施例中的各步骤的具体实现方式并不应当理解为对于本发明方案的限定,在本发明所提供的方案的原理的基础上,本领域技术人员能够想到的其他实现方式也应视为本发明的保护范围之内。
[0156]
在本示例中,参见图7对本技术方案进行进一步的描述:
[0157]
本技术方案的技术由数据层1、模型层2和应用层3组成。数据层的功能是存储语料、字典和模型,为上层应用提供数据支撑;模型层的任务就是建立fasttext模型、构建字典并应用字典进行分类;应用层3读入新的文献并展示分类结果。
[0158]
参见图7,所述数据层由领域语料1-1、fasttext模型1-2、分类字典1-3、知识体系1-4组成以及分类语料1-5组成。所述领域语料1-1如图3中的表1所示,将管网领域的266万相关文献、报告、咨询、专利等文章,经过分割符(,,.。??!!::)进行句子拆分为2200万个句子,构成管网的原始背景语料;所述fasttext模型1-2就是一个5.4g的bin文件(该模型的作用是将每个字转换为一个300维的向量),具体是将2200万个句子通过逻辑核数32、内存500g的服务器运算5.5小时获得的词表大小为130万词、词向量维度为300维,训练词向量文
件为3g的基础背景语料;所述分类字典(待扩展字典)1-3如图2中的表2所示,搜索展示的是一个个152个分类、每个分类500篇样本的分类词(标题句子)的扩展字典。
[0159]
然后,对于分类字典中的每个标题句子,找到最能代表这个标题句子的真实语义的短词6gram(比如对于句子“天然气管道交流干扰防护效果检测与评价报告”,采用“检测与评价报”来替代整个它),然后基于基础背景语料对这个候选词条(“检测与评价报”这个词串)进行fasttext相似度》0.8的处理,即扩展处理,得到每个候选词条对应的目标词条,总共生成字典的大小为31万词的字典,每个候选词条对应一个类,这个词条在实际中会不断经过专家校对以适应不同准确率要求。
[0160]
基于上述方式确定了每个标题句子的类别之后,可基于各个标题句子对应的类别,建立树状结构的知识体系,或者,根据前文的方案确定了每个摘要对应的类别之后,根据各个标题句子对应的类别和各个摘要对应的类别,建立树状结构的知识体系,知识体系1-4可参加图5中的表3所示,是一个按照业务域、各级业务以及业务主题进行划分的树形结构,代表了管网领域对于生产运维的共性的认识,是最典型的业务知识;
[0161]
基于上述方式确定了每个标题句子的类别之后,可基于各个标题句子对应的类别构建分类语料,所述分类语料1-5可参见图4中的表4所示,表4所示是152个类总共7.5万语料的记录形式,在分类语料中,由于fasttext模型本身是基于上下文无关语法的,所以在分类语料构建中只采用标题而不用正文(标题指文献名称,如“gbt 50698-2011埋地钢质管道交流干扰防护技术标准_条文说明”),因为标题完全代表了文献本身,而正文中的每个句子并不具有代表性。
[0162]
所述模型层2由训练fasttext模型2-1、标题截短2-2、分类词扩展2-3和分类计算2-4等部分组成,实现模型计算和字典生成的功能。所述训练fasttext模型2-1将输入2200万个句子语料转换为fasttext一个5.4g的bin模型,时间是5.5小时,作为所有待扩展字典扩展的基础;所述标题截短2-2模块在标题句子的所有词串组合(初始词条)中,寻找和类别在fasttext意义下最接近的那个词串,即候选词串(比如,对于句子“天然气管道交流干扰防护效果检测与评价报告”,在所有字串组合“天然气、然气管道、流干扰防护、护效果检测与”等各种长度的词串中,选择6个词串可以兼顾专业性和词意的代表性,得到“检测与评价报”最能代表这句话的意思),本文选择6gram,这样可以兼顾工程的独特性和词条的普适性,从而获得比较好的应用效果;所述分类词扩展2-3通过fasttext这个普适的大模型对6gram这个词进行扩展,取相似度》0.8和词长度》5的词条作为每个候选词条的目标词条,这样获得足够的字典条目;所述分类计算2-4是一个应用分类字典查询的输入句子中包含词条从而获得分类类别的过程(分类类别指表3描述的业务域、各级业务以及业务主题),还包括对标题、摘要和正问不同重要度进行后处理的过程(比如按照表3,如果一篇文献具有2个2级分类“投产实施”和“投产方案管理”,则将这2个类去掉而只采用它的上级类“投产管理”)。
[0163]
所述应用层3实现文本的读入和对分类结果进行展示,包括读入文本3-1、展示分类结果3-2等2个模块。所述模块读入文本3-1实现对文献的读入,将文本文件读入软件平台;所述展示分类结果3-2完成对分类结果的展示,一般展示结果是列出计算类别的结果如表5所示,然后根据这个结果后续进行人为校对。
[0164]
通过本发明的方案,通过基于管网领域fasttext大规模语言模型对小样本数据
(待扩展词典)进行规则分类,兼顾了大数据所刻画的行业语境和小样本数据所需要的准确度,同时通过字典这种可解释性方法满足了工程上对实时性和修改方便性的要求,在工程中取得了良好的应用效果,在152类的开放分类测试中,准确率达到85%,这已经满足了工程上对自然语言处理的基本要求。
[0165]
基于与图1中所示的方法相同的原理,本发明实施例还提供了一种管网领域的文本分类装置20,如图9中所示,该管网领域的文本分类装置20可以包括字典获取模块210、候选词条确定模块220、扩展模块230和分类语料确定模块240,其中:
[0166]
字典获取模块210,用于获取管网领域的待扩展字典,所述待扩展字典中包括多个标题句子和每个所述标题句子对应的类别,所述待扩展字典的数据量小于设定值;
[0167]
候选词条确定模块220,用于对于每个所述标题句子,确定所述标题句子对应的候选词条,所述候选词条为所述标题句子中与所述标题句子的真实语义最相似的词串;
[0168]
扩展模块230,用于对于每个所述候选词条,根据所述管网领域的基础背景语料和所述候选词条,对所述候选词条进行扩展,得到多个目标词条,所述基础背景语料中包括多个文本对应的词,所述基础背景语料的数据量大于所述设定值,所述基础背景语料是基于fasttext模型确定得到的;
[0169]
分类语料确定模块240,用于根据各个所述候选词条中每个所述候选词条对应的各个所述目标词条,以及每个所述目标词条对应的类别,确定分类语料,以根据所述分类语料训练得到的分类模型确定待分类文本的目标类别。
[0170]
可选的,对于每个所述标题句子,上述候选词条确定模块220在确定所述标题句子对应的候选词条时,具体用于:
[0171]
对于每个所述标题句子,确定所述标题句子对应的至少一个词串;根据所述标题句子对应的至少一个词串和所述标题句子对应的类别,确定所述类别和所述至少一个词串中每个词串之间的第一相似度;根据所述标题句子对应的至少一个第一相似度,将所述至少一个第一相似度中最大第一相似度对应的词串作为所述候选词条。
[0172]
可选的,该装置还包括:
[0173]
基础背景语料确定模块,用于获取原始背景语料,所述原始背景语料中包括多个文本对应的词;通过fasttext模型将所述原始背景语料中的每个字转换为设定维度的向量,得到所述基础背景语料;
[0174]
对于每个所述候选词条,上述扩展模块230,具体用于:对于每个所述候选词条,根据所述基础背景语料,确定所述候选词条和所述基础背景语料中的各个字的向量之间的第二相似度;根据所述候选词条对应的多个第二相似度,确定相似度大于相似阈值的多个目标词条。
[0175]
可选的,上述分类语料确定模块240,具体用于:
[0176]
对于每个所述候选词条,将所述候选词条对应的各个所述目标词条,按照词条长度进行降序排序,得到排序后的目标词条;根据各所述候选词条中每个所述候选词条对应的排序后的目标词条,确定所述分类语料,以根据所述分类语料训练得到所述分类模型;获取所述待分类文本,所述待分类文本中包括待分类标题句子;通过所述分类模型,确定所述待分类标题句子中最长词条对应的目标词条对应的类别,所述最长词条为所述待分类标题句子对应的各个候选词条中词条长度最长的候选词条;根据所述待分类标题句子中最长词
条对应的目标词条对应的类别,确定所述目标类别。
[0177]
可选的,若上述待分类文本还包括待分类摘要,该装置还包括:
[0178]
摘要类确定模块,用于将所述待分类摘要拆分成至少一个句子;对于每个句子,通过所述分类模型确定所述句子中最长词条对应的目标词条对应的类别;根据所述至少一个句子中每个所述句子中最长词条对应的类别,确定所述待分类摘要对应的类别;
[0179]
上述分类语料确定模块240在根据所述待分类标题句子中最长词条对应的目标词条对应的类别,确定所述目标类别时,具体用于:根据所述待分类标题句子中最长词条对应的类别和所述待分类摘要对应的类别,确定所述待分类文本对应的目标类别。
[0180]
可选的,上述摘要类确定模块在根据所述至少一个句子中每个所述句子中最长词条对应的类别,确定所述待分类摘要对应的类别时,具体用于:
[0181]
根据所述至少一个句子中每个所述句子中最长词条对应的类别,确定属于同一个类别的句子的数量;若属于同一个类别的句子的数量中存在一个数量最多的句子对应的类别,则将所述数量最多的句子对应的类别作为所述待分类摘要对应的类别;若属于同一个类别的句子的数量中存在至少两个数量最多的句子对应的类别,则将所有句子中最长句子对应的类别作为所述待分类摘要对应的类别。
[0182]
可选的,每个所述类别包括多个不同层级的类别,多个不同层级的类别包括业务域类别、业务级别类别和业务主题类别;该装置还包括:
[0183]
知识体系构建模块,用于获取多个文献中每个标题句子对应的类别和每个摘要对应的类别;根据各个所述标题句子的类别和各个所述摘要的类别,确定各个类别之间的层级关系;将各个所述标题摘要的类别和各个所述摘要的类别中的每个所述类别作为一个节点,根据各个节点和各个节点之间的层级关系,确定树形结构的知识体系;
[0184]
上述分类语料确定模块240在根据所述待分类标题句子中最长词条对应的类别和所述待分类摘要对应的类别,确定所述待分类文本对应的目标类别时,具体用于:
[0185]
根据所述待分类标题句子中最长词条对应的类别和所述待分类摘要对应的类别,确定所述待分类标题句子对应的类别和所述待分类摘要对应的类别分别在所述知识体系中的位置;根据所述待分类标题对应的类别和所述待分类摘要对应的类别分别在所述知识体系中的位置,确定所述待分类文本对应的至少一个类别序列,对于每个所述类别序列,所述类别序列中包括层级关系依次降低的类别,每个所述类别序列为由不同层级的类别组成的序列;根据所述至少一个类别序列,确定所述待分类文本对应的目标类别。
[0186]
本发明实施例的管网领域的文本分类装置可执行本发明实施例所提供的管网领域的文本分类方法,其实现原理相类似,本发明各实施例中的管网领域的文本分类装置中的各模块、单元所执行的动作是与本发明各实施例中的管网领域的文本分类方法中的步骤相对应的,对于管网领域的文本分类装置的各模块的详细功能描述具体可以参见前文中所示的对应的管网领域的文本分类方法中的描述,此处不再赘述。
[0187]
其中,上述管网领域的文本分类装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该管网领域的文本分类装置为一个应用软件;该装置可以用于执行本发明实施例提供的方法中的相应步骤。
[0188]
在一些实施例中,本发明实施例提供的管网领域的文本分类装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的管网领域的文本分类装置可以是采用硬
件译码处理器形式的处理器,其被编程以执行本发明实施例提供的管网领域的文本分类方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(asic,application specific integrated circuit)、dsp、可编程逻辑器件(pld,programmable logic device)、复杂可编程逻辑器件(cpld,complex programmable logic device)、现场可编程门阵列(fpga,field-programmable gate array)或其他电子元件。
[0189]
在另一些实施例中,本发明实施例提供的管网领域的文本分类装置可以采用软件方式实现,图9示出了存储在存储器中的管网领域的文本分类装置,其可以是程序和插件等形式的软件,并包括一系列的模块,包括字典获取模块210、候选词条确定模块220、扩展模块230和分类语料确定模块240,用于实现本发明实施例提供的管网领域的文本分类方法。
[0190]
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定。
[0191]
基于与本发明的实施例中所示的方法相同的原理,本发明的实施例中还提供了一种电子设备,该电子设备可以包括但不限于:处理器和存储器;存储器,用于存储计算机程序;处理器,用于通过调用计算机程序执行本发明任一实施例所示的方法。
[0192]
在一个可选实施例中提供了一种电子设备,如图10所示,图10所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本发明实施例的限定。
[0193]
处理器4001可以是cpu(central processing unit,中央处理器),通用处理器,dsp(digital signal processor,数据信号处理器),asic(application specific integrated circuit,专用集成电路),fpga(field programmable gate array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等。
[0194]
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0195]
存储器4003可以是rom(read only memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,ram(random access memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom(electrically erasable programmable read only memory,电可擦可编程只读存储器)、cd-rom(compact disc read only memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
[0196]
存储器4003用于存储执行本发明方案的应用程序代码(计算机程序),并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述方法实施例所示的内容。
[0197]
其中,电子设备也可以是终端设备,图10示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
[0198]
本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。
[0199]
根据本发明的另一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种实施例实现方式中提供的方法。
[0200]
可以以一种或多种程序设计语言或其组合来编写用于执行本发明的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0201]
应该理解的是,附图中的流程图和框图,图示了按照本发明各种实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0202]
本发明实施例提供的计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0203]
上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。
[0204]
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术
方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

技术特征:
1.一种管网领域的文本分类方法,其特征在于,包括以下步骤:获取管网领域的待扩展字典,所述待扩展字典中包括多个标题句子和每个所述标题句子对应的类别,所述待扩展字典的数据量小于设定值;对于每个所述标题句子,确定所述标题句子对应的候选词条,所述候选词条为所述标题句子中与所述标题句子的真实语义最相似的词串;对于每个所述候选词条,根据所述管网领域的基础背景语料和所述候选词条,对所述候选词条进行扩展,得到多个目标词条,所述基础背景语料中包括多个文本对应的词,所述基础背景语料的数据量大于所述设定值,所述基础背景语料是基于fasttext模型确定得到的;根据各个所述候选词条中每个所述候选词条对应的各个所述目标词条,以及每个所述目标词条对应的类别,确定分类语料,以根据所述分类语料训练得到的分类模型确定待分类文本的目标类别。2.根据权利要求1所述的方法,其特征在于,对于每个所述标题句子,所述确定所述标题句子对应的候选词条,包括:对于每个所述标题句子,确定所述标题句子对应的至少一个词串;对于每个所述标题句子,根据所述标题句子对应的至少一个词串和所述标题句子对应的类别,确定所述类别和所述至少一个词串中每个词串之间的第一相似度;对于每个所述标题句子,根据所述标题句子对应的至少一个第一相似度,将所述至少一个第一相似度中最大第一相似度对应的词串作为所述候选词条。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取原始背景语料,所述原始背景语料中包括多个文本对应的词;通过fasttext模型将所述原始背景语料中的每个字转换为设定维度的向量,得到所述基础背景语料;对于每个所述候选词条,所述根据所述管网领域的基础背景语料和所述候选词条,对所述候选词条进行扩展,得到多个目标词条,包括:对于每个所述候选词条,根据所述基础背景语料,确定所述候选词条和所述基础背景语料中的各个字的向量之间的第二相似度;对于每个所述候选词条,根据所述候选词条对应的多个第二相似度,确定相似度大于相似阈值的多个目标词条。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述根据各个所述候选词条中每个所述候选词条对应的各个所述目标词条,以及每个所述目标词条对应的类别,确定分类语料,以根据所述分类语料训练得到的分类模型确定待分类文本的目标类别,包括:对于每个所述候选词条,将所述候选词条对应的各个所述目标词条,按照词条长度进行降序排序,得到排序后的目标词条;根据各所述候选词条中每个所述候选词条对应的排序后的目标词条,确定所述分类语料,以根据所述分类语料训练得到所述分类模型;获取所述待分类文本,所述待分类文本中包括待分类标题句子;通过所述分类模型,确定所述待分类标题句子中最长词条对应的目标词条对应的类别,所述最长词条为所述待分类标题句子对应的各个候选词条中词条长度最长的候选词
条;根据所述待分类标题句子中最长词条对应的目标词条对应的类别,确定所述目标类别。5.根据权利要求4所述的方法,其特征在于,若所述待分类文本还包括待分类摘要,所述方法还包括:将所述待分类摘要拆分成至少一个句子;对于每个句子,通过所述分类模型确定所述句子中最长词条对应的目标词条对应的类别;根据所述至少一个句子中每个所述句子中最长词条对应的类别,确定所述待分类摘要对应的类别;所述根据所述待分类标题句子中最长词条对应的目标词条对应的类别,确定所述目标类别,包括:根据所述待分类标题句子中最长词条对应的类别和所述待分类摘要对应的类别,确定所述待分类文本对应的目标类别。6.根据权利要求5所述的方法,其特征在于,所述根据所述至少一个句子中每个所述句子中最长词条对应的类别,确定所述待分类摘要对应的类别,包括:根据所述至少一个句子中每个所述句子中最长词条对应的类别,确定属于同一个类别的句子的数量;若属于同一个类别的句子的数量中存在一个数量最多的句子对应的类别,则将所述数量最多的句子对应的类别作为所述待分类摘要对应的类别;若属于同一个类别的句子的数量中存在至少两个数量最多的句子对应的类别,则将所有句子中最长句子对应的类别作为所述待分类摘要对应的类别。7.根据权利要求5所述的方法,其特征在于,每个所述类别包括多个不同层级的类别,多个不同层级的类别包括业务域类别、业务级别类别和业务主题类别;所述方法还包括:获取多个文献中每个标题句子对应的类别和每个摘要对应的类别;根据各个所述标题句子的类别和各个所述摘要的类别,确定各个类别之间的层级关系;将各个所述标题摘要的类别和各个所述摘要的类别中的每个所述类别作为一个节点,根据各个节点和各个节点之间的层级关系,确定树形结构的知识体系;所述根据所述待分类标题句子中最长词条对应的类别和所述待分类摘要对应的类别,确定所述待分类文本对应的目标类别,包括:根据所述待分类标题句子中最长词条对应的类别和所述待分类摘要对应的类别,确定所述待分类标题句子对应的类别和所述待分类摘要对应的类别分别在所述知识体系中的位置;根据所述待分类标题对应的类别和所述待分类摘要对应的类别分别在所述知识体系中的位置,确定所述待分类文本对应的至少一个类别序列,对于每个所述类别序列,所述类别序列中包括层级关系依次降低的类别,每个所述类别序列为由不同层级的类别组成的序列;根据所述至少一个类别序列,确定所述待分类文本对应的目标类别。
8.一种管网领域的文本分类装置,其特征在于,包括:字典获取模块,用于获取管网领域的待扩展字典,所述待扩展字典中包括多个标题句子和每个所述标题句子对应的类别,所述待扩展字典的数据量小于设定值;候选词条确定模块,用于对于每个所述标题句子,确定所述标题句子对应的候选词条,所述候选词条为所述标题句子中与所述标题句子的真实语义最相似的词串;扩展模块,用于对于每个所述候选词条,根据所述管网领域的基础背景语料和所述候选词条,对所述候选词条进行扩展,得到多个目标词条,所述基础背景语料中包括多个文本对应的词,所述基础背景语料的数据量大于所述设定值,所述基础背景语料是基于fasttext模型确定得到的;分类语料确定模块,用于根据各个所述候选词条中每个所述候选词条对应的各个所述目标词条,以及每个所述目标词条对应的类别,确定分类语料,以根据所述分类语料训练得到的分类模型确定待分类文本的目标类别。9.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1-7中任一项所述的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的方法。

技术总结
本发明涉及一种管网领域的文本分类方法、装置、电子设备及介质,该方法包括:获取管网领域的待扩展字典;对于每个所述标题句子,确定所述标题句子对应的候选词条;对于每个所述候选词条,根据所述管网领域的基础背景语料和所述候选词条,对所述候选词条进行扩展,得到多个目标词条;根据各个所述候选词条中每个所述候选词条对应的各个所述目标词条,以及每个所述目标词条对应的类别,确定分类语料,以根据所述分类语料训练得到的分类模型确定待分类文本的目标类别。通过本发明的方法,在样本有限的前提下,提高分类模型的准确度,另外,通过字典这种可解释性方法满足了工程上对实时性和修改方便性的要求,在工程中取得了良好的应用效果。用效果。用效果。


技术研发人员:杨宝龙 任武 林嵩 杨玉锋 李莉 张新建 张正雄 吴官生 王玉霞
受保护的技术使用者:国家石油天然气管网集团有限公司
技术研发日:2023.04.12
技术公布日:2023/8/14
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐