信息挖掘方法、装置、设备以及存储介质与流程

未命名 08-15 阅读:84 评论:0


1.本技术涉及数据挖掘技术领域,具体而言,本技术涉及一种信息挖掘方法、装置、设备以及存储介质。


背景技术:

2.随着互联网技术的快速发展,网络信息呈爆炸式增长,这给基于海量信息的数据挖掘提供了良好的数据基础。数据挖掘是从数据中发现有用知识的过程。它广泛应用于银行、金融、保险、零售、物流、电子商务、科学研究、生物、医学、农业等行业的决策分析中。信息化时代,数据的规模不断增大,对海量数据进行挖掘的需求会越来越普遍,准确、高效地从中筛选出有用的知识已成为急需解决的问题。
3.在目标对象(如企业、人物等对象)的数据挖掘中,概念术语的挖掘是一种常见的数据挖掘方式。当前概念术语的挖掘大多依赖领域专家词典、分词统计手段等方式,然而,不同目标对象相关的概念术语存在种类繁多、增加速度快的特点,很难用领域专家词典去穷举或者发现新的概念术语,容易出现遗漏;基于通用分词技术的分词统计手段很难识别不同领域的概念术语,而且分词错误会传递,影响识别的准确度。


技术实现要素:

4.本技术实施例提供了一种信息挖掘方法、装置、设备以及存储介质,可以解决概念术语遗漏以及识别效果差的问题。为了实现该目的,本技术实施例提供了如下几个方案。
5.根据本技术实施例的一个方面,提供了一种信息挖掘方法,包括:
6.拆分目标对象的原始语料,并组合所述原始语料的拆分结果形成候选术语;
7.计算所述候选术语的置信度;
8.根据所述置信度从所述候选术语中得到目标对象的概念术语。
9.在一个可能的实现方式中,所述拆分目标对象的原始语料,并组合所述原始语料的拆分结果形成候选术语,包括:
10.对获取的所述原始语料进行分词处理得到分词结果;
11.根据选择的分词器和/或所述原始语料对应的挖掘方向对所述分词结果进行组合,生成候选术语。
12.在一个可能的实现方式中,所述计算所述候选术语的置信度,包括:
13.根据所述候选术语构建术语语义图;
14.利用所述术语语义图计算每个候选术语的置信度。
15.在一个可能的实现方式中,所述根据所述候选术语构建术语语义图,包括:
16.根据候选术语的词组性值筛选候选术语,并获取候选术语之间的语义相关度,根据筛选后的候选术语以及所述语义相关度构建术语语义图,所述词组性值表述所述候选术语为词组的可能性。
17.在一个可能的实现方式中,所述利用所述术语语义图计算每个候选术语的置信
度,包括:
18.初始化所述术语语义图中每个候选术语的置信度,基于置信度传播算法迭代更新每个候选术语的置信度,根据所述置信度的迭代结果确定每个候选术语的置信度。
19.在一个可能的实现方式中,所述根据所述置信度从所述候选术语中得到目标对象的概念术语,包括:
20.根据所述原始语料与候选术语的匹配性以及候选术语的置信度确定目标对象的概念术语,获取所述概念术语的上下位关系。
21.在一个可能的实现方式中,还包括:
22.获取所述候选术语、概念术语的验证结果,在通过所述验证结果确定不满足挖掘要求后,获取所述验证结果的纠错信息,根据所述纠错信息再次执行所述信息挖掘方法。
23.根据本技术实施例的另一个方面,提供了一种信息挖掘装置,包括:
24.候选术语提取模块,用于根据获取的目标对象的原始语料提取候选术语;
25.置信度计算模块,用于拆分目标对象的原始语料,并组合所述原始语料的拆分结果形成候选术语;
26.概念术语获取模块,用于根据所述置信度从所述候选术语得到目标对象的概念术语。
27.根据本技术实施例的又一个方面,提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现如上所述方法的步骤。
28.根据本技术实施例的再一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述方法的步骤。
29.本技术实施例提供的技术方案带来的有益效果是:拆分目标对象的原始语料,通过拆分结果的组合得到候选术语,计算候选术语的置信度,利用该置信度从候选术语中得到目标对象的概念术语。本技术实施例利用获取的原始语料提取候选术语,并根据候选术语的置信度得到目标对象的概念术语。因此,本技术实施例在获取候选术语后,利用置信度筛选与目标对象相关的概念术语,实现了不同领域概念术语的获取,无需通过领域专家词典进行术语挖掘,也不容易出现遗漏,且可以通过置信度筛选的方式,降低分词错误传递的可能性,提高了识别准确度,进而有效保证概念术语挖掘的准确性。
附图说明
30.为了更清楚地说明本技术实施例中的技术方案,下面将对本技术实施例描述中所需要使用的附图作简单的介绍。
31.图1为本技术实施例提供的一种信息挖掘方法的流程图;
32.图2为本技术实施例提供的术语语义图的示意图;
33.图3为本技术实施例提供的计算候选术语的置信度的流程图;
34.图4为本技术实施例提供的信息挖掘方法一实施例的流程图;
35.图5为本技术实施例提供的信息挖掘方法一实施例的示意图;
36.图6为本技术实施例提供的信息挖掘装置的结构图;
37.图7为本技术实施例提供的电子设备的结构图。
具体实施方式
38.下面结合本技术中的附图描述本技术的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本技术实施例的技术方案的示例性描述,对本技术实施例的技术方案不构成限制。
39.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本技术实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“a和/或b”指示实现为“a”,或者实现为“a”,或者实现为“a和b”。
40.为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式做进一步的详细描述。
41.下面通过对几个示例性实施方式的描述,对本发明实施例的技术方案以及本发明的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。
42.每个目标对象存在多个相关的概念术语。例如,目标对象为公司时,公司相关的概念很多,如公司所在的行业、企业本身等,都有与企业相关联的概念术语,即存在很大的概念术语挖掘范畴,所以概念术语的挖掘需要关联一个具体的业务,基于该业务挖掘出业务相关的概念术语。比如想从行业了解一家公司,那么它的概念术语有分类体系、有行业属性、有业务属性等;如果想从价值取向去了解一家公司(实际上创始团队的风格很大程度上代表了企业的风格),相关的概念术语有诸如“狼性”“平稳”“激进”“用户价值”等词汇;如果想从员工评价角度去了解一家企业,那么与其相关的概念术语则可能变为负面的词汇。
43.在明确挖掘的方向后,需要根据该方向搜集相关的原始语料,针对这些原始语料去做不同程度的挖掘。比如公司行业相关的原始语料包括公司的产品介绍、公司简介、行业新闻等,从这些原始语料中找到公司行业相关的概念术语。
44.但是,当前概念术语的挖掘大多依赖领域专家词典、分词统计手段等方式,然而,不同目标对象相关的概念术语存在种类繁多、增加速度快的特点,需要根据挖掘的方向设置相应的领域专家词典,工作量大,且很难用领域专家词典去穷举或者发现新的概念术语,容易出现遗漏;而基于通用分词技术分的分词统计手段很难识别不同领域的概念术语,而且分词错误会传递,影响识别的准确度。
45.本技术提供的信息挖掘方法、装置、设备及存储介质,旨在解决现有技术中存在的至少一个技术问题。
46.本技术实施例中提供了一种信息挖掘方法,可选地,该方法可以应用于任一电子设备,如手机、计算机设备、服务器设备等。如图1所示,该方法包括如下步骤s101~s103。
47.s101:拆分目标对象的原始语料,并组合原始语料的拆分结果形成候选术语。
48.可选地,根据挖掘的方向选择目标对象的原始语料。具体的,电子设备在获取挖掘方向后,可通过本地数据查找、存储设备导入、互联网查询等方式获取目标对象的原始语料。
49.在一个实施例中,目标对象为公司,挖掘方向为行业相关的概念术语,确定挖掘方向后,电子设备搜集公司的产品介绍、公司简介、行业新闻等与行业相关的原始语料。
50.在另一个实施例中,目标对象为公司,挖掘方向为员工评价,确定挖掘方向后,电子设备从求职app、工作交流软件等存在员工发言的对象中搜集职言数据,将该职言数据作为原始语料。
51.可选地,电子设备可以存储不同挖掘方向对应的原始语料或者原始语料的来源、获取方式。基于确定的挖掘方向获取原始语料。
52.可选地,拆分目标对象的原始语料,并组合原始语料的拆分结果形成候选术语,包括:对获取的原始语料进行分词处理得到分词结果(单词);根据选择的分词器和/或原始语料对应的挖掘方向对分词结果进行组合,生成候选术语。
53.可选地,大多数候选术语是由名词、形容词、动词组成并辅以名词结尾的名词短语,本技术在组合分词结果时,将满足((a|n)
+
|(a|n)
*
(np)

(a|n)
*
)n的词语确定为候选术语,其中,a为形容词,n为名词,p为介词,n之前的*或者+设置为k元。
54.具体的,k为2,在组合分词结果形成候选术语时,将两个分词结果组合在一起得到一个候选术语,如分词结果为人工、智能,将这两个分词结果组合在一起得到的候选术语为人工智能。
55.在其他实施例中,k的数值也可以根据实际需求设置为3、4、5以及其他数值。
56.可选地,通过选择的分词器对原始语料进行分词处理,分词器对原始语料进行分词处理,并对分词处理得到的词汇进行词性标注。其中,可以根据原始语料的来源、挖掘方向,原始语料的特性等原始语料的属性信息选择分词器,还可以根据所需的候选术语的格式选择分词器。
57.可选地,利用分词器对原始语料分词处理得到分词结果后,根据分词结果的词性得到候选术语的组合特点,基于该组合特点组合分词结果得到候选术语。
58.s102:计算候选术语的置信度。
59.可选地,因得到的候选术语包含很多无效信息或噪声,为了保证抽取的候选术语能正确描述目标对象,本技术通过计算置信度的方式对候选术语进行置信验证以提高候选术语抽取的精确性。
60.可选地,候选术语置信度的计算包括术语语义图构建和通过置信度传播确定候选术语最终的置信度。具体的,计算候选术语的置信度,包括:根据候选术语构建术语语义图;利用术语语义图计算每个候选术语的置信度。
61.可选地,术语语义图构建:主要包括节点和边的构建,其中节点的权值使用词组性值来计算,而边的权重采用基于bert(bidirectional encoder representations from transformers,基于transformer的双向编码器表征)词向量的cosine距离(向量距离)来计算。
62.在一个实施例中,根据候选术语构建术语语义图,包括:根据候选术语的词组性值筛选候选术语,并获取候选术语之间的语义相关度,根据筛选后的候选术语以及语义相关
度构建术语语义图,词组性值表述候选术语为词组的可能性。
63.可选地,使用点互信息算法计算候选术语中的单词同时出现在一句话或一篇文档中的概率,将该概率确定为该候选术语的词组性值。在其他实施例中,也可以使用基于信息熵或者基于马尔可夫模型来计算候选术语中的单词之间的相关性,将该相关性确定为候选术语的词组性值。还可以获取候选术语中各个单词的用于表述以其他单词的相关性的统计类特征,根据该统计类特征计算候选术语的词组性值。
64.获取候选术语的词组性值后,判断该词组性值是否大于预定数值,若大于预定数值,则确定该候选术语为合法词组,保留该候选术语。若否,则删除该候选术语。
65.可选地,将候选术语输入bert预训练模型,根据该bert预训练模型输出的训练结果得到每个候选术语的词向量,通过该词向量得到不同候选术语之间的余弦距离,进而通过该余弦距离确定不同候选术语之间的语义相关度。
66.在其他实施例中,还可以将候选术语输入其他如word2vec(用来产生词向量的相关模型)、glove(全称为global vectors for word representation,是一种词向量模型)等用于计算不同词汇之间相关性的模型,基于模型的输出结果确定两个候选术语之间的语义相关度。
67.在上述实施例中,为了提高模型输出结果的准确性,在进行数据挖掘时,使用与候选术语对应的领域或原始语料的数据对模型进行训练。或者使用与当前的挖掘方向、目标对象对应的数据训练模型。
68.利用词组性值得到为词组性值大于预定数值的候选术语,并且得到不同候选术语之间的语义相关度后,利用保留的候选术语构建术语语义图。其中,术语语义图中每个候选术语为节点,节点之间的边表示候选术语之间的语义相关度,并在术语语义图中标注每个节点的词组性值。
69.可选地,构建术语语义图后,利用术语语义图计算每个候选术语的置信度,包括:初始化术语语义图中每个候选术语的置信度,基于置信度传播算法迭代更新每个候选术语的置信度,根据置信度的迭代结果确定每个候选术语的置信度。利用将具有高置信度的候选术语的置信度传播给与它具有高语义相关度的相邻节点,从而帮助发现更多的潜候选术语。
70.s103:根据置信度从候选术语中得到目标对象的概念术语。
71.可选地,电子设备获取每个候选术语的置信度后,利用候选术语与原始语料的匹配性判断该候选术语是否与目标对象关联,获取存在关联的候选术语,并根据置信度从存在关联的候选术语中筛选置信度大于预设置信度的候选术语,将该候选术语作为目标对象的概念术语。其中,通过预设置信度去筛选置信度高的候选术语,将该候选术语作为目标对象的概念术语,该概念术语可以有多个,且不同来源的原始语料可产生不同的概念术语。
72.可选地,为了更准确的描述目标对象,电子设备通过字符串上下位匹配、dbscan聚类得到概念术语的上下位关系,通过该上下位关系得到与目标对象相关,位于核心层次的概念术语。
73.可选地,在获取上下位关系后,利用该上下位关系构建递归分类树,将递归分类树中位于根节点的概念术语作为目标对象核心的概念术语。
74.相比于现有技术,本技术提供的方案拆分目标对象的原始语料,通过拆分结果的
组合得到候选术语,计算候选术语的置信度,利用该置信度从候选术语中得到目标对象的概念术语。本技术实施例利用获取的原始语料提取候选术语,并根据候选术语的置信度得到目标对象的概念术语。因此,本技术实施例在获取候选术语后,利用置信度筛选与目标对象相关的概念术语,实现了不同领域概念术语的获取,无需领域专家词典,不容易出现遗漏,且通过置信度筛选的方式,降低分词错误传递的可能,提升了识别效果,保证了概念术语挖掘的准确性。
75.不同目标探测对象需要采取的参数调整方式不同,因此,针对s102,本技术实施例还提供了一种可能的实现方式,如图3所示,s102还包括:
76.s1021:根据候选术语构建术语语义图。
77.可选地,得到候选术语之后,如何度量候选术语的置信度,并根据置信度进行排序,是候选术语抽取的核心。抽取的过程实际是尽可能的召回相关的候选术语,实际里面包含了很多无效词汇或者噪声,需要进一步筛选。
78.本技术从候选术语出发,利用候选术语本身的词组性值以及候选术语之间的关系(语义相关度)来构建术语语义图。
79.在一个实施例中,根据候选术语构建术语语义图,包括:根据候选术语的词组性值筛选候选术语,并获取候选术语之间的语义相关度,根据筛选后的候选术语以及语义相关度构建术语语义图,词组性值表述候选术语为词组的可能性。
80.具体的,词组性值代表一个术语成词的可能性,使用点互信息算法来计算每个候选术语的词组性值。点互信息算法的计算可以采用如下公式(1)进行:
[0081][0082]
其中,在公式(1)中,p(x,y)表示候选术语中的单词x和单词y同时出现在文档(一句话/一篇文章等)的概率,p(x)是单词x出现的概率(单词x在文档出现的次数/总次数),p(y)是单词y出现的概率(单词y在文档出现的次数/总次数)。如果候选术语几个单词搭配在一起所组成的多词组合在大规模语料中的实际出现频率大大超出这几个单词偶然搭配在一起的理论概率(预设值),则该多词组合很可能是一个合法的词组,其词组性值越大。将pmi(x,y)作为候选术语的词组性值。
[0083]
可选地,利用候选术语之间的向量距离计算语义相关度。并且,考虑到语义网络可能很大,计算复杂性较高,所以可以设置预定阈值,将术语语义图中小于预定阈值的边可以抛弃(相当于为网络剪枝);可以通过bert预训练模型得到每个候选术语的词向量。bert预训练模型按照原始语料所属的领域输入训练数据进行预训练,比如使用目标对象为公司时,使用该公司对应领域的数据进行预训练),输出每个候选术语的词向量,然后通过该词向量计算余弦距离,使用余弦距离两个候选术语之间的相似度(语义相关度)。
[0084]
在一个实施例中,构建的术语语义图如图2所示,该术语语义图包括的候选术语为人工/智能、ai(artificial intelligence,人工智能)、ev(electric vehicle,电动汽车)、新能源汽车,候选术语“人工/智能”是由两个词“人工”和“智能”组成,其词组性值(pmi)为0.8,其与“ai”的语义相关度为0.6,“ai”的词组性值为1,其与“新能源汽车”的语义相关度为0.3,“新能源汽车”的词组性值为0.8,其与“ev”的语义相关度为0.8,“ev”的词组性值为1。
[0085]
s1022:利用术语语义图计算每个候选术语的置信度。
[0086]
可选地,在计算置信度时,初始化术语语义图中每个候选术语的置信度,基于置信度传播算法迭代更新每个候选术语的置信度,根据置信度的迭代结果确定每个候选术语的置信度。其中,置信度传播算法首先初始化每个术语的置信度,之后通过置信度传播、迭代的方式更新术语语义图中每个节点的置信度值,并最终通过有限次的迭代得到候选术语的置信度结果。通过置信度传播算法帮助发现更多的与目标对象相关的概念术语,减少概念术语的遗漏。
[0087]
可选地,初始化每个候选术语的置信度时,电子设备判断该候选术语是否被预定义(如存在专家网络或专家词典中),若是,则定义该候选术语的置信度为1,若否,则其置信度为0。
[0088]
在一个实施例中,定义a(ci)为节点ci在术语语义图中的邻居节点的集合,将vsk(cj,ci)为第k次迭代cj传播给ci的置信度值,z为归一化因子。因此,基于迭代的置信度传播算法为:
[0089][0090]
其中,vsk(cj,ci)=phcj*e(ci,cj)*confk(ci),phcj是cj的词组性值,e(ci,cj)是cj和ci的语义相关度,conf
k+1
(ci)为ci第k轮迭代后的置信度。
[0091]
在置信度传播算法中,若节点cj具有较高的词组性值(表明传播者自身的可信度高),并且cj和ci之间的语义相关度较高(表明传播者对被传播者越了解),则表明相较于其他传播节点,节点cj在决定节点ci是否为术语的传播中具有较高的权威性,则节点cj就可以将自身较多的置信度值传播给ci。
[0092]
在一个实施例中,构建术语语义图后,初始化术语语义图中每个节点的置信度得分,如果节点对应的候选术语在专家网络里(即预先定义),则其置信度为1,否则置信度为零。通过置信度传播算法计算每个节点到相邻节点的传播分数。其中,第k轮迭代时,cj节点传递给ci节点的分数vsk(cj,ci)=cj节点的词组性值*ci和cj的语义相似度*第k轮cj的置信度。将所有相邻节点的传播分数相加并取平均得到每个节点的置信度,并在每轮计算完后,进行归一化。第k轮结束以后,得到所有候选术语的置信度。
[0093]
本技术实施例还提供了一种可能的实现方式,如图4、图5所示,图4为本技术实施例提供的信息挖掘方法一实施例的流程图,图5为本技术实施例提供的信息挖掘方法一实施例的示意图。结合图4、图5作进一步说明。
[0094]
在本实施例中,信息挖掘方法包括:
[0095]
s201:拆分目标对象的原始语料,并组合原始语料的拆分结果形成候选术语。
[0096]
可选地,对获取的原始语料进行分词处理得到分词结果,根据选择的分词器和/或原始语料对应的挖掘方向对分词结果进行组合,生成候选术语。其中,电子设备可以存储不同分词器和/或原始语料对应的挖掘方向对应的词语组合模式,根据该词语组合模式组合分词结果得到候选术语。
[0097]
可选地,每个候选术语组合的分词结果数量小于或等于预设值,具体的,预设值为2。
[0098]
在另一个实施例中,通过分词器对原始语料分词处理得到多个单词以及单词的词
性标注,根据该词性标注、语言学规则组合单词得到候选术语。其中,通过语言学规则对词性标注进行分析,根据分析结果确定候选术语的词性组合特点,基于该词性组合特点组合单词形成候选术语。
[0099]
s202:根据候选术语构建术语语义图。
[0100]
s203:利用术语语义图计算每个候选术语的置信度。
[0101]
s204:根据原始语料与候选术语的匹配性以及候选术语的置信度确定目标对象的概念术语,获取概念术语的上下位关系。
[0102]
可选地,将原始语料与候选术语进行匹配以获取候选术语与原始语料的关联性,获取存在关联性或关联性满足预设条件(如关联性大于预设数值或者出现次数大于预设次数)的候选术语,从获取的候选术语中筛选与目标对象相关的候选术语,并在筛选出候选术语后,将该候选术语中置信度大于预设置信度的候选术语作为目标对象的概念术语。
[0103]
可选地,对概念术语进行字符串上下位匹配和dbscan聚类以确定概念术语之间的上下位关系以及概念术语对应的上位词,将该上位词确定为目标对象核心的概念术语。
[0104]
可选地,在获取上下位关系后,利用该上下位关系构建递归分类树,将递归分类树中位于根节点的概念术语作为目标对象核心的概念术语。
[0105]
其中,可以使用lsd、msd、三向快速排序算法等字符串上下位匹配算法对概念术语排序,也可以使用word2vec等聚类方式获取概念术语之间的上下位关系。
[0106]
在一个实施例中,通过字符串上下位匹配的方式对概念术语进行排序,从而获取概念术语中的上位词。如字符串上下位匹配后的字符串为:酱香型白酒-》白酒-》酒,则白酒是酱香型白酒的上位词,酒是白酒的上位词,还比如“智能”是“人工智能”的上位词。
[0107]
在一个实施例中,dbscan聚类主要是为了发现相近子概念术语的集合。dbscan聚类为密度聚类算法,其采用欧式距离来衡量概念术语之间的距离,每个概念术语的术语向量(即位置)可以使用bert预训练模型输出。通过该dbscan聚类处理后,距离相近的概念术语会被聚成一个簇,同时能够获取簇中的多个核心对象,确定密度可达的核心对象为父术语,这样可以发现上下位关系。
[0108]
s205:获取候选术语、概念术语的验证结果,在通过验证结果确定不满足挖掘要求后,获取验证结果的纠错信息,根据纠错信息再次执行信息挖掘方法。
[0109]
可选地,电子设备确定目标对象的概念术语后,输出该概念术语以及相关的概念术语,获取验证对象输出的验证结果,基于验证结果判断是否满足挖掘要求(准确性大于验证阈值、不存在错误概念术语或者输出了全部的概念术语),若满足挖掘要求,则确定信息挖掘结束。若不满足挖掘要求,则根据验证结果得到纠错信息(如错误的概念术语、未被挖掘到的概念术语、错误的概念术语、候选术语的置信度修改信息、语义相关度修改信息等),根据该纠错信息对错误的部分进行相应修改,基于修改的内容执行信息挖掘方法,直至输出的结果满足挖掘要求。
[0110]
可选地,验证对象为验证人员,验证方式包括:1、输出置信度较低(低于第一置信度数值)的候选术语,获取验证对象的确认结果;2、对得到的概念术语进行随机抽样,获取验证对象输出的抽样结果,根据抽样结果确定概念术语的准确率,根据得到的验证结果进行多次迭代,在人工纠错找不到问题或者达到符合挖掘要求的标准后,停止迭代。
[0111]
本技术采用上述信息挖掘方法,产出目标对象的概念术语,比之前单纯用词典形
式多召回了28%;比之前用分词统计的方式准确率提升了33%,总体使用率大幅提升。其可以用于搜索、推荐、crm线索领域,对于提升体验、性能、人效等发挥了很大的价值。
[0112]
需要说明的是,在本技术的可选实施例中,所涉及到的数据(如候选术语、置信度、概念术语等数据),当本技术以上实施例运用到具体产品或技术中时,需要获得使用对象许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。也就是说,本技术实施例中如果涉及到与对象有关的数据,这些数据需要经由对象授权同意、且符合国家和地区的相关法律法规和标准的情况下获取的。
[0113]
本技术实施例还提供一种信息挖掘装置,如图6所示,信息挖掘装置300包括候选术语提取模块301、置信度计算模块302、概念术语挖掘模块303,候选术语提取模块301用于拆分目标对象的原始语料,并组合原始语料的拆分结果形成候选术语;置信度计算模块302,用于计算候选术语的置信度;概念术语获取模块303,用于根据置信度从候选术语得到目标对象的概念术语。
[0114]
可选地,拆分目标对象的原始语料,并组合原始语料的拆分结果形成候选术语,包括:对获取的原始语料进行分词处理得到分词结果;根据选择的分词器和/或原始语料对应的挖掘方向对所述分词结果进行组合,生成候选术语。
[0115]
可选地,计算所述候选术语的置信度,包括:根据候选术语构建术语语义图;利用术语语义图计算每个候选术语的置信度。
[0116]
可选地,根据所述候选术语构建术语语义图,包括:根据候选术语的词组性值筛选候选术语,并获取候选术语之间的语义相关度,根据筛选后的候选术语以及语义相关度构建术语语义图,词组性值表述候选术语为词组的可能性。
[0117]
可选地,利用术语语义图计算每个候选术语的置信度,包括:初始化术语语义图中每个候选术语的置信度,基于置信度传播算法迭代更新每个候选术语的置信度,根据置信度的迭代结果确定每个候选术语的置信度。
[0118]
可选地,根据置信度从候选术语中得到目标对象的概念术语,包括:根据原始语料与候选术语的匹配性以及候选术语的置信度确定目标对象的概念术语,获取概念术语的上下位关系。
[0119]
可选地,还包括获取所述候选术语、概念术语的验证结果,在通过验证结果确定不满足挖掘要求后,获取验证结果的纠错信息,根据纠错信息再次执行信息挖掘方法。
[0120]
在一个可选实施例中提供了一种电子设备,如图7所示,图7所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本技术实施例的限定。
[0121]
处理器4001可以是cpu(central processing unit,中央处理器),通用处理器,dsp(digital signal processor,数据信号处理器),asic(application specific integrated circuit,专用集成电路),fpga(field programmable gate array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本技术公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的
组合等。
[0122]
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0123]
存储器4003可以是rom(read only memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,ram(random access memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom(electrically erasable programmable read only memory,电可擦可编程只读存储器)、cd-rom(compact disc read only memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
[0124]
存储器4003用于存储执行本技术实施例的计算机程序,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序,以实现前述方法实施例所示的步骤。
[0125]
其中,电子设备可以是任何一种可与对象进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(personal digital assistant,pda)、游戏机、交互式网络电视(internet protocol television,iptv)、智能式穿戴式设备等。
[0126]
所述电子设备还可以包括网络设备和/或对象设备。其中,所述网络设备包括,但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(cloudcomputing)的由大量主机或网络服务器构成的云。
[0127]
所述电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(virtual private network,vpn)等。
[0128]
本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述信息挖掘方法实施例的步骤及相应内容。
[0129]
本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除图示或文字描述以外的顺序实施。
[0130]
应该理解的是,虽然本技术实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本技术实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本技术实施例对此不限制。
[0131]
以上所述仅是本技术部分实施场景的可选实施方式,应当指出,对于本技术领域
的普通技术人员来说,在不脱离本技术的方案技术构思的前提下,采用基于本技术技术思想的其他类似实施手段,同样属于本技术实施例的保护范畴。

技术特征:
1.一种信息挖掘方法,其特征在于,包括:拆分目标对象的原始语料,并组合所述原始语料的拆分结果形成候选术语;计算所述候选术语的置信度;根据所述置信度从所述候选术语中得到目标对象的概念术语。2.根据权利要求1所述的方法,其特征在于,所述拆分目标对象的原始语料,并组合所述原始语料的拆分结果形成候选术语,包括:对获取的所述原始语料进行分词处理得到分词结果;根据选择的分词器和/或所述原始语料对应的挖掘方向对所述分词结果进行组合,生成候选术语。3.根据权利要求1所述的方法,其特征在于,所述计算所述候选术语的置信度,包括:根据所述候选术语构建术语语义图;利用所述术语语义图计算每个候选术语的置信度。4.根据权利要求3所述的方法,其特征在于,所述根据所述候选术语构建术语语义图,包括:根据候选术语的词组性值筛选候选术语,并获取候选术语之间的语义相关度,根据筛选后的候选术语以及所述语义相关度构建术语语义图,所述词组性值表述所述候选术语为词组的可能性。5.根据权利要求3所述的方法,其特征在于,所述利用所述术语语义图计算每个候选术语的置信度,包括:初始化所述术语语义图中每个候选术语的置信度,基于置信度传播算法迭代更新每个候选术语的置信度,根据所述置信度的迭代结果确定每个候选术语的置信度。6.根据权利要求1所述的方法,其特征在于,所述根据所述置信度从所述候选术语中得到目标对象的概念术语,包括:根据所述原始语料与候选术语的匹配性以及候选术语的置信度确定目标对象的概念术语,获取所述概念术语的上下位关系。7.根据权利要求1-6中的任一项所述的方法,其特征在于,还包括:获取所述候选术语、概念术语的验证结果,在通过所述验证结果确定不满足挖掘要求后,获取所述验证结果的纠错信息,根据所述纠错信息再次执行所述信息挖掘方法。8.一种信息挖掘装置,其特征在于,包括:候选术语提取模块,用于拆分目标对象的原始语料,并组合所述原始语料的拆分结果形成候选术语;置信度计算模块,用于计算所述候选术语的置信度;概念术语获取模块,用于根据所述置信度从所述候选术语得到目标对象的概念术语。9.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-7任一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。

技术总结
本申请提供了一种信息挖掘方法、装置、设备以及存储介质,涉及数据挖掘技术领域。该信息挖掘方法包括:拆分目标对象的原始语料,并组合原始语料的拆分结果形成候选术语;计算候选术语的置信度;根据置信度从候选术语中得到目标对象的概念术语。因此,本申请能够在获取候选术语后,利用置信度筛选与目标对象相关的概念术语,实现了不同领域概念术语的获取,无需通过领域专家词典进行术语挖掘,也不容易出现遗漏,且可以通过置信度筛选的方式,降低分词错误传递的可能性,提高了识别准确度,保证了概念术语挖掘的准确性。了概念术语挖掘的准确性。了概念术语挖掘的准确性。


技术研发人员:单月光 翦浩
受保护的技术使用者:北京淘友天下技术有限公司
技术研发日:2023.04.13
技术公布日:2023/8/14
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐