指标体系的构建方法、装置、设备及计算机可读存储介质与流程

未命名 10-09 阅读:104 评论:0


1.本技术涉及指标体系的构建领域,特别涉及一种指标体系的构建方法、装置、设备及计算机可读存储介质。


背景技术:

2.指标是用于衡量目标的参数,可以通过某一个或多个指标实现对目标的某一方面的描述和度量。指标体系是用于衡量一个专题、一种业务或描述一个具体工作任务的指标的集合,通常在针对某一具体的业务时,零散的指标无法充分说明问题,此时将具有相互联系的指标系统化的组织起来,形成指标体系,以对该业务进行充分的描述和度量。
3.从文件中生成指标体系一般需要依赖人工,通过人工阅读理解文件,并手动地从文件中整理出指标体系的层级结构,再基于文件中的描述逐个判断、摘取需要的指标放入对应的层级结构中。依赖人工构建指标体系,耗时耗力,且在面对较复杂或较大的文件内容时,难免出现漏写错写,使得最终得到的指标体系错误较多,需要频繁的校验与返工。


技术实现要素:

4.为克服相关技术中存在的问题,本技术提供了一种指标体系的构建方法、装置、设备及计算机可读存储介质,能够解决上述问题。
5.根据本技术实施例的第一方面,提供一种指标体系的构建方法,所述方法包括:
6.获取待构建文件,并从所述待构建文件中获取用于构建指标体系的相关元素;
7.获取预先建立的指标知识库,所述指标知识库中包含用于构建指标体系且添加有标签的样本元素,所述标签用于对相应的样本元素进行分类;
8.根据所述相关元素确定与所述待构建文件对应的目标标签,并根据确定的所述目标标签从所述指标知识库中推荐目标样本元素;所述目标样本元素的标签为所述目标标签或者与所述目标标签相关联;
9.根据所述相关元素和推荐的所述目标样本元素构建所述待构建文件的指标体系。
10.根据本技术实施例的第二方面,提供一种指标体系的构建装置,所述装置包括:
11.获取单元,用于获取待构建文件,并从所述待构建文件中获取用于构建指标体系的相关元素;
12.知识库单元,用于获取预先建立的指标知识库,所述指标知识库中包含用于构建指标体系且添加有标签的样本元素,所述标签用于对相应的样本元素进行分类;
13.推荐单元,用于根据所述相关元素确定与所述待构建文件对应的目标标签,并根据确定的所述目标标签从所述指标知识库中推荐目标样本元素;所述目标样本元素的标签为所述目标标签或者与所述目标标签相关联;
14.构建单元,用于根据所述相关元素和推荐的所述目标样本元素构建所述待构建文件的指标体系。
15.根据本技术实施例的第三方面,提供一种电子设备,包括:处理器、存储器;
16.所述存储器,用于存储计算机程序;
17.所述处理器,用于通过调用所述计算机程序,执行如第一方面所述的指标体系的构建方法。
18.根据本技术实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的指标体系的构建方法。
19.本技术的实施例提供的技术方案可以包括以下有益效果:
20.本技术预先建立指标知识库,该知识库中包含用于构建指标体系的添加有标签的样本元素,在获取的待构建文件中的元素不足以直接构建指标体系的情况下,可以通过确定目标标签,从预先建立的知识库中根据标签推荐样本元素,以用推荐的样本元素对待构建文件中的元素进行补齐,从而构建出待构建文件的指标体系。本技术对指标通过打标签的形式进行分类,并在欠缺构建指标体系的必要元素时,推荐相关联的元素进行补齐,使得不完整包含指标体系的构建文件也能够基于积累的知识库构建出相应的指标体系。
21.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
22.此处的附图被并入说明书中并构成本技术的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
23.图1是本技术根据一示例性实施例示出的一种指标体系的示意图。
24.图2是本技术根据一示例性实施例示出的一种指标体系的构建方法的示意流程图。
25.图3是本技术根据一示例性实施例示出的一种指标体系的构建方法的示意流程图。
26.图4是本技术根据一示例性实施例示出的一种指标体系的构建装置所在电子设备的结构示意图。
27.图5是本技术根据一示例性实施例示出的一种指标体系的构建装置的框图。
具体实施方式
28.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
29.在本技术使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术。在本技术和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
30.应当理解,尽管在本技术可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本技术范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第
一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
31.相关技术中,可以依赖训练出的算法,从包含完整指标体系的文件中提取出相关的指标与指标体系的层级结构,并构建指标体系。然而,若获取的文件自身所包含的内容不够完整,例如欠缺指标体系的层级目录、欠缺必要的指标等,自然提取出的相关元素也不足以完整地构建出指标体系。
32.因此,如何在文件有欠缺的情况下构建指标体系,这一技术问题还仍未得到解决。
33.图1是根据本技术的实施例示出的一种指标体系和指标的示意图。图1示出了一种教育区域质量评估指标体系的示意图,其中,该指标体系的主题即为教育(或教育区域质量评估)。在图1所示的指标体系中,括号中的数字表示在该指标目录下存在的指标的数量。例如,教育区域质量评估指标体系共包含83个指标,其中,结构质量下共包含9个指标,过程质量下包含56个指标,效果质量下共包含18个指标,碍于篇幅原因,图1中仅展示了其中的部分指标目录下的目录层次以及最末层目录下挂载的部分具体指标,本实施例中也仅对图1中展示的这部分指标和指标目录进行简单介绍。在结构质量这一层的指标目录下,可以进一步区分为包含2个指标的办学思想与包含7个指标的办学条件,而办学条件这一指标目录下可以进一步划分更下一层的指标目录,如图1中所示的:生均财政拨款水平,教学仪器设备配置,校舍及信息化教学条件。其中校舍及信息化教学条件这一目录下又可包括以下5个指标:生均校内实践教学工位数,信息化教学条件,生均行政办公用房面积,生均辅助用房面积,生均教学用房面积。
34.也即,图1所示的整体构建出了一个指标体系(的部分),其由两部分组成:最底层的各个指标,以及各指标所属的指标目录。
35.通过上述指标体系,以及该指标体系下各层级的目录,能够实现对教育区域质量的多方面的综合评价。因此,若能够生成类似图1所示的指标体系,对需要在该主题下进行评估与被评估的双方都具有良好的指导作用。
36.在图1所示的指标体系中,可以看到图1所示的指标体系共包含5层结构,具体包括4层指标目录和最末层的指标:从第一层指标体系目录、指标主题教育区域质量评估,到第五层指标生均校内实践教学工位数等,可见想要构建一个完整的指标体系必须包含完整的指标体系目录以及挂载在各个指标目录下的完整的指标。
37.在一实施例中,通过识别文件中的表格结构,可以获取用于构建指标体系的完整的指标体系目录和各个指标。以下方所示的《xxxx省教育发展主要指标》表格为例。
38.39.[0040][0041]
表1
[0042]
在表1中,包含了三层指标体系目录(即,xxxx省教育发展——学段与规模——幼儿园在园人数,分别对应的两层指标目录、一层指标),并且最末层目录下的各指标均完整,意味着可以根据上表创建一个完整的指标体系,其中,表格中2020年与2025年对应的数据并非指标,在实际创建指标体系的过程中也不需要用到该数据,因而在表格中利用xxx来对实际数据进行替代。
[0043]
然而,若获取的文件自身所包含的内容不够完整,例如欠缺指标体系的层级目录、欠缺必要的指标等,自然提取出的相关元素也不足以完整地构建出指标体系。相关技术无法在文件欠缺构建指标体系的元素的情况下,构建对应的指标体系。
[0044]
为解决上述问题,本技术提出了一种指标体系的构建方法。图2是根据本技术的实施例示出的一种指标体系的构建方法的示意流程图,所述方法包括:
[0045]
s201:获取待构建文件,并从所述待构建文件中获取用于构建指标体系的相关元素;
[0046]
s202:获取预先建立的指标知识库,所述指标知识库中包含用于构建指标体系且添加有标签的样本元素,所述标签用于对相应的样本元素进行分类;
[0047]
s203:根据所述相关元素确定与所述待构建文件对应的目标标签,并根据确定的所述目标标签从所述指标知识库中推荐目标样本元素;所述目标样本元素的标签为所述目标标签或者与所述目标标签相关联;
[0048]
s204:根据所述相关元素和推荐的所述目标样本元素构建所述待构建文件的指标体系。
[0049]
在一实施例中,用于构建指标体系的元素包括以下至少之一:完整的指标体系目录,与所述指标体系目录最末层指标目录相匹配的指标。想要构建出完整的指标体系,则必然至少需要完整的指标体系目录,或所述指标体系目录最末层指标目录相匹配的指标。而当无法从待构建文件中获取这些必要元素的情况下,本技术能够基于预先建立的指标知识库对这些必要元素进行推荐,以进行补足,使得待构建文件具备构建完整指标体系的条件。
[0050]
在一实施例中,在获取的相关元素存在缺失而无法构建指标体系的情况下,基于所述相关元素确定与所述待构建文件对应的目标标签,再根据该标签从指标知识库中推荐目标样本元素,所述目标样本元素的标签为所述目标标签或者与所述目标标签相关联。由于指标知识库中的样本元素利用标签进行了分类,因而根据相关元素确定的待构建文件目
标标签,其所属的样本元素能够与待构建文件存在一定的关联性,也即具有该标签的样本元素有更大概率能够与待构建文件中提取出的相关元素组合,以形成一个完整的指标体系。例如,根据从待构建文件中提取出的相关元素,确定与该构件文件目标标签为“教育”,则在指标知识库中,具有“教育”这一标签的样本元素相比其他标签的元素有更大概率能够与待构建文件相匹配,能够结合相关元素以形成一个完整的指标体系。
[0051]
在一实施例中,指标知识库中的标签也可以具有层级关系,即样本元素所具有的标签,可以为多个相互关联的标签,也可以为表示了层级关系的标签的序列。例如,标签所形成的分类体系可以包括五大类:政治、经济、生态、文化、社会;也可以包括四个方面:公共服务、公共管理、公共安全、经济发展。而任一样本元素可能在属于五大类中的“文化”体系的同时,也属于四个方面中的“公共服务”体系。另一方面,在各大分类体系下又包含各种不同的小的分类所形成的标签,为表示各层标签之间的层级关系,样本元素的标签可以以序列的形式进行表示。例如,样本元素的标签可以用序列的方式表示为:公共服务》幼儿养育》优孕优生》孕妇》孕产妇健康检查,根据所述相关元素确定的标签越具体,序列越清晰,则根据该序列推荐的样本元素关联性就越强。
[0052]
在一实施例中,具有关联关系的标签包括以下至少之一:与确定的标签相同,在语义关系上包含确定的标签,在语义关系上或被确定的标签包含。例如根据相关元素确定的标签为“优孕优生”,则具有关联关系的标签,包括相同的标签,包括标签序列中的其他标签,例如“幼儿养育”,“孕产妇健康检查”等。
[0053]
在一实施例中,所述样本元素包括以下至少之一:指标体系目录,指标。在从所述待构建文件中获取的相关元素存在缺失无法构建指标体系的情况下,则推荐相应的必要的样本元素。例如,若相关元素缺失指标体系目录,则推荐样本元素中的指标体系目录;若相关元素缺失与指标体系目录相匹配的指标集合,则推荐样本元素中的相匹配的指标集合。
[0054]
在一实施例中,根据所述相关元素和推荐的样本元素构建所述待构建文件的指标体系。由于样本元素与待构建文件中获取的相关元素具有相同的标签,表明样本元素匹配与待构建文件。因此,样本元素可以对相关元素形成补足,与相关元素一同构建匹配于待构建文件的完整的指标体系。
[0055]
本技术通过预先建立包含有标签的样本元素的指标知识库,能够在待构建文件中提取出的相关元素不足以构建指标体系的情况下,根据标签与待构建文件的关联,推荐能够用于补足相关元素的样本元素,并构建对应的指标体系。
[0056]
在一实施例中,从获取的待构建文件中获取能够用于构建指标体系的相关元素,所述相关元素包括以下至少之一:指标体系主题,部分指标体系目录,部分指标的集合。在所述相关元素并不包含全部的能够用于构建指标体系的元素的情况下,即不包含完整的指标体系目录与所述指标体系目录各层级关系相匹配的指标的情况下,本技术能够基于所述相关元素,构建出待构建文件对应的指标体系。其中,指标体系主题可以为待构建文件的标题或待构建文件中的表格的标题,也可以是基于对待构建文件的文本内容的语义分析获取的其中的关键词。
[0057]
在一实施例中,本技术中的语义分析可以包括以下至少之一的含义:通过语义相似度分析、情感识别、意图识别等模型,对待构建文件、相关元素以及样本元素进行分析、推演及理解,以实现相应的需求。
[0058]
在一实施例中,所述相关元素通过以下方法获得:识别所述待构建文件中的表格结构;对所述表格结构中的内容进行提取;和/或,识别所述待构建文件的文本内容;对所述文本内容进行语义分析,并根据语义分析的结果确定所述相关元素。在需要构建指标体系的待构建文件中,一般会包含表格结构,且表格结构中会存在部分能够用于构建指标体系的指标,因此,可以优先对表格结构中的内容进行提取,以获取指标体系目录和/或指标;也可以识别待构建文件的文本内容,并进行语义分析,根据语义分析的结果,判定待构建文件相关的指标体系主题,以及可能存在的指标体系目录和指标。
[0059]
在一实施例中,所述识别所述待构建文件中的表格结构;对所述表格结构中的内容进行提取,具体包括:根据待构建文件的不同格式,采用不同的方式获取所述表格结构;对表格进行处理,以使跨页表格合并,并对重复内容与冗杂列进行筛除;在表格结构中包含指标体系的构成元素的情况下,根据表头对表格进行拆分,以获取指标、指标体系目录中的至少之一。需注意的是,一篇待构建文件中也可以包含多个指标体系,因此,若在表格结构中识别到包含多个指标体系对应的构成元素,则可以根据表头对多个指标体系进行拆分,再分别获取相关元素。
[0060]
在一实施例中,所述根据待构建文件的不同格式,采用不同的方式获取所述表格结构,具体可以是:对于word格式的文档、excel格式的表格、pdf格式的文档以及html格式的文件,可以提取待构建文件中的表格结构;而对于扫描类pdf文件,则可以先将扫描类文件转换为图片,再对转换后的图片进行一定的处理,例如调整对比度等参数,然后通过计算机视觉(computer vision,简称cv)算法区分出文档中单元格的边框,再通过所述边框获取图片的表格结构。
[0061]
在一实施例中,表格中需要筛选并去除的内容包括:数值,重复内容,表头。例如在上述表1的实施例中,对该表进行处理可以筛除表头“维度”所在的行,全部为数值的“2020年”、“2025年”所在列,以及均为重复内容的“指标属性”所在的列。对表格中剩余内容进行提取,即可得到所述相关元素。需说明的是,表1为一示例性实施例,实际得到的表格结构可以是残缺的,可以是不完整的,可以是不包含如表1所示的完整指标体系目录或指标的,但是对相关元素的提取逻辑是一致的。
[0062]
在一实施例中,所述识别所述待构建文件的文本内容;对所述文本内容进行语义分析,并根据语义分析的结果确定所述相关元素,包括:结合指标知识库中对样本元素添加标签的方式,对待构建文件的文本内容进行解析,以获取待构建文件中的相关元素。其中,包括识别待构建文件中的正文标题、段落标题、段落正文内容、文件目录等。
[0063]
在一实施例中,所述指标体系包括指标体系目录和指标;所述指标体系目录包括至少一个层级的指标目录,所述指标挂载于最末层级的目标指标目录;所述指标对应的标签包括所述目标指标目录到所述指标体系目录的根指标目录之间的具有层级关系的指标目录。即,可以将一个指标的所有上层指标目录,按照指标体系目录中从层级关系,构建指标目录的序列,并将该指标目录的序列作为该指标的标签。
[0064]
例如图1所示的实施例中,生均校内实践教学工位数这一指标的标签可以为:教育区域质量评估指标体系》结构质量》办学条件》校舍及信息化教学条件。同理,在图1中,其他指标的标签也可以确定出来,并且部分指标的标签相同或相似。
[0065]
根据待构建文件中的相关元素欠缺的内容的不同,可以采用不同的方式确定与待
构建文件对应的目标标签,并根据目标标签对样本元素进行推荐。为方便理解,下面将以图1所示的指标体系为例,对图3中的指标体系的构建方法的示意流程图进行讲解。
[0066]
如图3所示,图3为本技术根据一示例性实施例示出的指标体系的构建方法的示意流程图。
[0067]
在一实施例中,所述根据所述相关元素确定与所述待构建文件对应的目标标签,包括:
[0068]
s301:在所述相关元素中包含所述指标体系目录的情况下,根据所述指标体系目录确定所述指标体系目录中的所述至少一个层级的指标目录与各层级的指标目录之间的层级关系;
[0069]
s302:将所述至少一个层级的指标目录按照所述指标目录之间的层级关系组合,得到至少一个所述目标标签。
[0070]
在一实施例中,相关元素中包含指标体系目录,根据该指标体系目录可以确定各层级的指标目录,以及各层级指标目录之间的层级关系,再将各指标目录按照层级关系组合以得到目标标签。即,通过指标体系目录,可以确定根指标目录,并确定该根指标目录的下一层指标目录,以此构建指标目录的序列作为目标标签。
[0071]
例如,从某待构建文件中确定出的指标体系目录如图1所示的实施例中的指标体系目录一致(即欠缺第五层的具体指标),则可以根据指标体系目录确定出如“教育区域质量评估指标体系》结构质量》办学条件》校舍及信息化教学条件”的标签,也可以确定出如“教育区域质量评估指标体系》结构质量》办学条件》生均财政拨款水平”的标签。
[0072]
在一实施例中,在确定出目标标签后,通过在指标知识库中匹配相同的标签,进而确定要推荐的目标样本元素。即,向包含完整指标体系目录的相关元素推荐相同或相近指标下对应的具体指标。
[0073]
在一实施例中,在所述相关元素中包含所述指标体系目录的情况下,根据确定出的目标标签,可以从指标知识库中推荐指标目录以对该指标体系目录进行补完,并在补完指标体系目录的情况下,进一步结合推荐的指标目录来推荐具体的指标。
[0074]
若所述相关元素中包含完整的指标体系目录,则推荐的样本元素中仅包含相关元素中欠缺的对应各体系目录层级结构的部分指标的集合,以补足相关元素中可能存在的指标集合,进而能够根据完整的指标体系目录与对应的完整指标集合形成指标体系;若所述相关元素中包含的指标体系目录不完整,有残缺,则推荐的样本元素中还包含具有与相关元素中残缺的指标体系目录相似的指标体系目录,以及相关元素中欠缺的对应各体系目录层级结构的部分指标的集合,以对指标体系目录与指标集合进行补足,进而根据补足后的元素形成指标体系。
[0075]
在一实施例中,将所述各层级关系作为所述待构建文件的目标标签,并根据目标标签从所述指标知识库中推荐目标样本元素,所述目标样本元素包括指标。知识库中的样本元素的标签,可以通过对指标进行语义分析来确定,也可以将一个指标在指标目录中的层级关系作为该指标的标签。
[0076]
例如,若要通过本技术提出的方法构建如图1所示的指标体系,相关元素中包括从第一层“教育区域质量评估指标体系”到第四层“生均财政拨款水平”的所有完整的指标体系目录,则为构建指标体系还欠缺第五层的具体指标,例如欠缺“生均校内实践教学工位
数”等指标。在本实施例中,“校舍及信息化教学条件”对应的层级关系及各层的指标目录具体为:教育区域质量评估》结构质量》办学条件》校舍及信息化教学条件。可以将对应的指标目录按该层级关系构成目标标签,在知识库中查找相同标签的样本元素,再将具有该相同标签的指标,作为“校舍及信息化教学条件”这一指标目录下挂载的指标。
[0077]
在一实施例中,在得到至少一个所述目标标签之后,所述方法还包括:针对至少一个所述目标标签,基于所述目标标签包括的各层级的指标目录的语义,根据所述指标知识库中与所述各层级的指标目录语义相似的指标,对所述目标标签进行扩展。在确定出目标标签后,可以基于目标标签包括的各层级的指标目录的语义,对目标标签进行语义相似性的变化,以扩展目标标签。
[0078]
例如,确定出如“教育区域质量评估指标体系》结构质量》办学条件》校舍及信息化教学条件”的目标标签,基于语义,将“校舍及信息化教学条件”确定为“信息化教学条件”,则扩展的新的目标标签为“教育区域质量评估指标体系》结构质量》办学条件》信息化教学条件”,同理,也可以同时对目标标签中的多个层级的指标目录进行语义变换,例如扩展的新的目标标签为“教育》结构质量》物质条件》信息化教学条件”。
[0079]
在一实施例中,所述根据所述相关元素确定与所述待构建文件对应的目标标签,包括:
[0080]
s311:在所述相关元素中不包含指标体系目录但包含指标体系主题的情况下,根据所述指标体系主题确定所属类别,再根据所述所属类别确定所述目标标签。
[0081]
在一实施例中,指标体系主题可以为待构建文件的标题或待构建文件中的表格的标题,也可以是基于对待构建文件的文本内容的语义分析获取的其中的关键词。所属类别包括在预先建立的指标知识库中的标签的类别,例如上文实施例中提到的五大类:政治、经济、生态、文化、社会;或四个方面:公共服务、公共管理、公共安全、经济发展等几个大类。
[0082]
在一实施例中,根据所述指标体系主题确定所述类别,进而确定目标标签,并根据所述标签从指标知识库中推荐具有关联关系的目标标签的样本元素,包括:指标知识库中沉淀的、符合所述指标体系主题的指标体系对应的指标体系目录及指标集合。另一方面,也可以通过transe等图计算方法,对指标知识库中的、与待构建文件的来源相同的文件的指标体系目录及指标进行推荐。
[0083]
在一实施例中,根据所述指标体系主题确定所属类别,再根据所述所属类别确定目标标签。可以通过对指标体系主体的语义分析,获取其所属的类别,再从知识库中确定目标标签,以推荐该目标标签下的已有的指标体系目录和具体的指标。
[0084]
例如,若知识库中包括如图1所示的指标体系,图1所示的指标体系也以形成样本元素,则若获取的新的待构建文件的指标体系主题,通过语义分析,对应的目标标签可以匹配如图1所示的指标体系,则将图1所示的指标体系中的指标目录和指标推荐给新的待构建文件。
[0085]
在一实施例中,所述根据所述相关元素确定与所述待构建文件对应的目标标签,包括:
[0086]
s321:在所述相关元素中不包含指标体系目录和指标体系主题,但包含指标集合的情况下,从所述指标知识库中确定匹配于所述指标集合的样本指标集合,根据所述样本指标集合对应的标签确定所述目标标签。
[0087]
在一实施例中,对于相关元素中的指标集合,通过在指标知识库中查找,以确定匹配于指标集合的样本指标集合,再根据样本指标集合对应的标签来确定目标标签。
[0088]
以指标集合中的一个指标为例,如从待构建文件中获取的指标集合中的一个具体指标为“生均校内实践教学工位数”,通过在指标知识库中对该指标进行匹配,匹配到了位于知识库中的如图1所示的完整指标体系中的一个样本指标“生均校内实践教学工位数”,则将该样本指标的标签作为相关元素的其中一个目标标签,该样本指标的标签可以是“教育区域质量评估指标体系》结构质量》办学条件》校舍及信息化教学条件”。
[0089]
在一实施例中,还可以对待构建文件中的文本内容进行识别,将待构建文件中的每一个段落与指标知识库匹配,以确定每一个段落的指标,进而由各段落对应的指标确定所述相关元素中的指标集合。在这一实施例中,可以在确定每一个段落对应的指标的同时,将指标知识库中对应指标的标签作为相关元素的标签。
[0090]
在一实施例中,在仅包含指标集合的情况下,推荐的具有关联关系的标签的样本元素包括:在该标签下的指标体系目录;还可以包括:在该标签下的样本指标的集合,以对待构建文件中的指标集合进行补充。
[0091]
根据推荐的样本元素,指标集合可以对应相应的指标体系目录的层级结构,以实现构建完整的指标体系。
[0092]
在一实施例中,所述根据确定的所述目标标签从所述指标知识库中推荐目标样本元素,包括:根据所述目标标签中包含的各层级的指标目录以及所述指标集合与所述样本指标集合的匹配关系,确定所述指标集合中各指标对应的所述至少一个层级的指标目录与层级关系;将所述各指标分别挂载于最末层级的目标指标目录,再按照所述层级关系将所述指标集合对应的所述目标指标目录挂载于上一层的指标目录下,以构建对应的指标体系目录;将所述样本指标集合和所述对应的指标体系目录作为推荐的所述目标样本元素。
[0093]
具体地,对于相关元素中的指标集合,在确定了对应的目标标签的情况下,可以采用聚类的方式将指标集合聚类,进而由下至上地形成完整的指标体系。指标集合中的各指标通过匹配指标知识库中的样本指标,将样本指标的标签作为自身的标签,而该标签为指标对应的指标目录与层级关系所构成的序列。因此,若相关元素中的指标集合中有多个指标,在某一层级具有相同的指标目录,则在该层级可以将这些指标进行聚类。
[0094]
例如,相关元素中多个指标匹配的样本指标为图1中的“生均校内实践教学工位数”、“信息化教学条件”以及在教学仪器设备配置下的某一个具体指标,这些指标对应的标签分别为“教育区域质量评估指标体系》结构质量》办学条件》校舍及信息化教学条件”、“教育区域质量评估指标体系》结构质量》办学条件》校舍及信息化教学条件”、“教育区域质量评估指标体系》结构质量》办学条件》教学仪器设备配置”,则可以将“生均校内实践教学工位数”、“信息化教学条件”聚类至同一个指标目录“校舍及信息化教学条件”下,将上述“在教学仪器设备配置下的某一个具体指标”聚类在“教学仪器设备配置”这一指标目录下,更进一步,对指标目录“校舍及信息化教学条件”和“教学仪器设备配置”再次进行聚类,以获取更上一层的指标目录,直至最终聚类至根目录“教育区域质量评估指标体系”下。
[0095]
在一实施例中,根据指标集合确定出指标体系目录,可以根据该指标体系目录从知识库中推荐相应的指标,以对指标集合进行补充。可以通过从待构建文件中获取的部分指标集合,确定出指标体系目录,并在确定出指标体系目录后,从知识库中推荐相应的指
标,以使最终形成的指标体系中的指标不仅包含相关元素中的部分指标集合,还包含推荐的样本元素中的指标集合。
[0096]
本技术根据待构建文件中获取的相关元素具体欠缺的元素不同,采用不同的方式确定标签并推荐对应的样本元素,以补足相关元素,从而构建该文件对应的指标体系。
[0097]
在一实施例中,所述相关元素通过以下方法获得:识别所述待构建文件中的表格结构;对所述表格结构中的内容进行提取;和/或,识别所述待构建文件的文本内容;对所述文本内容进行语义分析,并根据语义分析的结果确定所述相关元素。
[0098]
其中,识别所述待构建文件中的表格结构,并对表格结构中的内容进行提取,该方法在前文已经介绍过,此处不多做赘述。
[0099]
在一实施例中,识别所述待构建文件的文本内容;对所述文本内容进行语义分析,并根据语义分析的结果确定所述相关元素。
[0100]
基于待构建文件的文本内容,将文本内容划分为不同的段落,再依次对各个段落进行语义分析以确定相关元素。
[0101]
具体的,语义分析时可以通过对关键字词进行抓取,该关键字词的前后文可能包含指标目录以及指标目录间的层级关系,例如抓取段落中可能出现的“包括”、“如下”等关键字词,以获取该关键字词前后可能存在的指标目录与层级关系;语义分析时,还可以通过对高频字词进行分析,刨除日常用语中的高频词汇,文本内容中出现的高频字词可能包含指标体系主题和/或指标集合的语义等,例如,若文本内容中大量出现“教育”,则该待构建文件的指标体系主题可能与“教育”相关;还可以将段落中的文本内容与指标知识库进行匹配,则基于匹配结果,确定该段落中可能存在的指标集合和/或指标目录。
[0102]
在一实施例中,还包括:根据构建的所述待构建文件的指标体系更新所述指标知识库中的所述样本元素,以进行所述指标知识库的积累。
[0103]
将构建的指标体系中,所涉及的相关联的指标体系目录、各体系目录的层级结构对应的指标的集合、标签、指标体系的主题等,添加入指标知识库,以使得后续相似的待构建文件可以有更多数据参考。指标知识库中的数据越多越详细,越有利于实现缺失构建指标体系的必要元素的待构建文件的指标体系的构建。
[0104]
在一实施例中,还包括:接收输入的补充信息;根据所述补充信息对所述待构建文件的指标体系进行确认和/或对所述待构建文件的指标体系的内容进行补充。
[0105]
由于根据标签向待构建文件推荐样本元素存在一定的误差,尤其在指标知识库中存储的样本元素数量较少时,误差概率更大,因此可以在推荐样本元素后或者形成指标体系后,交给人工进行审阅、确认,人工可以通过输入补充信息以对指标体系进行确认,也可以通过输入补充信息来对指标体系的内容进行补充,包括但不限于:对各层级目录中的指标进行补充或修改,对指标体系目录进行补充或修改。
[0106]
下面对本技术中的指标知识库的建立进行简要介绍。
[0107]
在一实施例中,所述指标知识库中的所述样本元素通过下述方式获取:获取样本文件,所述样本文件中包含样本指标体系;从所述样本文件中获取用于构建所述样本指标体系的样本元素。样本文件中可以包含完整的指标体系,使得根据所述样本文件中提取出的样本元素即可构建对应的样本指标体系。例如上述表1所示的实施例,在表1中获取的指标、指标体系目录,即可构建对应的样本指标体系。
[0108]
在一实施例中,所述样本文件可以通过以下至少一种方式获取:通过人工导入已有的文件,通过采集互联网文件,通过接口接收的文件,通过模型萃取的方法得到的文件。对获取的样本文件进行处理,以实现对非结构化、半结构化以及结构化的样本文件中的样本元素的采集。其中,从样本文件中获取样本元素的方式与上述从待构建文件中获取相关元素的方式相似,本技术在此不多做赘述。
[0109]
在一实施例中,还包括:根据所述样本指标体系确定对应的样本指标和样本指标体系目录;根据所述样本指标体系目录确定任一样本指标的目标指标目录到根指标目录之间的具有层级关系的指标目录;将所述具有层级关系的指标目录作为对应所述任一样本指标的标签;其中,所述样本元素包括以下至少之一:所述样本指标、所述样本指标体系目录、所述样本指标的标签。
[0110]
将样本指标、对应的样本指标体系目录以及对应的标签一同进行存储,以使得在匹配到样本元素中的任一部分时,可以确定其余的部分。
[0111]
在一实施例中,也可以从样本文件中获取零散的指标与指标体系目录,以作为备用的样本元素,也能起到一定的补足效果。
[0112]
在一实施例中,指标知识库中的样本元素,可以包括指标的基本信息和配置信息,基本信息用于表示指标的基本特点,也可以是贴标签的依据之一,配置信息用于表示指标的设置配置。例如,指标的基本信息可以包括以下至少之一:指标名称、指标的来源部门、指标的定义、指标的更新频率、指标的对应文件;配置信息可以包括以下至少之一:指标体系目录的层级关系、指标的标签中心、指标的计算公式。
[0113]
在一实施例中,对于获取的样本元素,可以存储在mysql、neo4j、文件/图谱存储服务器、es等数据库内,以构建指标知识库,作为对欠缺必要元素的待构建文件的相关元素的补充。
[0114]
在一实施例中,对于获取的样本元素,通过算法对样本元素自动打标签、归类。例如,可以通过轻量级的基于变换器的双向编码器表示技术(a lite bidirectional encoder representations from transformers,简称albert)模型提取文本特征,再通过seq2seq和attention算法对经过历史样本元素沉淀积累的标签进行抽取。具体的,可以通过改变输出概率的计算方式和交叉熵的计算方式,改变输出的全连接层,再通过使用seq2seq+attention的框架来实现对样本元素添加标签及进行归类。
[0115]
在一实施例中,对于获取的样本元素,可以不通过历史样本元素的积累的标签来进行抽取,而是根据接收到的所述指标的基本信息来对样本元素中的指标进行无监督聚类。其中,指标的基本信息包括以下至少之一:指标的名称、指标的来源部门、指标的定义、指标的更新频率。通过对输入的指标的基本信息通过自然语言预处理后,albert模型能够将文本进行向量化,并通过一趟聚类(one-pass cluster)等模型来进行无监督聚类。以及,对于特定的样本文件,可以通过输入给定的特定标签,对该样本文件中的样本元素进行聚类,以形成新的标签。
[0116]
本技术构建了一个指标知识库,其中存储了添加有标签的样本元素,在需要对待构建文件创建指标体系时,可以通过该指标知识库中的相关联的样本元素,对待构建文件中欠缺的、构成指标体系的必要的元素进行补充,以实现对不包含完整指标体系的待构建文件构建出指标体系的技术效果。
[0117]
与本技术的方法项实施例对应,本技术还提供了相应的指标体系的构建装置实施例。
[0118]
图4是一示例性实施例提供的一种设备的示意结构图。请参考图4,在硬件层面,该设备包括处理器410、网络接口420、内存430以及非易失性存储器440,当然还可能包括其他业务所需要的硬件。本技术一个或多个实施例可以基于软件方式来实现,比如由处理器410从非易失性存储器440中读取对应的计算机程序到内存430中然后运行。当然,除了软件实现方式之外,本技术一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
[0119]
请参见图5,图5是本技术一实施例中指标体系的构建装置的框图。该指标体系的构建装置可以应用于如图4所示的电子设备中,以实现本技术的技术方案。其中,所述装置包括:
[0120]
获取单元510,用于获取待构建文件,并从所述待构建文件中获取用于构建指标体系的相关元素;
[0121]
知识库单元520,用于获取预先建立的指标知识库,所述指标知识库中包含用于构建指标体系且添加有标签的样本元素,所述标签用于对相应的样本元素进行分类;
[0122]
推荐单元530,用于根据所述相关元素确定与所述待构建文件对应的目标标签,并根据确定的所述目标标签从所述指标知识库中推荐目标样本元素;所述目标样本元素的标签为所述目标标签或者与所述目标标签相关联;
[0123]
构建单元540,用于根据所述相关元素和推荐的所述目标样本元素构建所述待构建文件的指标体系。
[0124]
可选的,所述指标体系包括指标体系目录和指标;所述指标体系目录包括至少一个层级的指标目录,所述指标挂载于最末层级的目标指标目录;所述指标对应的标签包括所述目标指标目录到所述指标体系目录的根指标目录之间的具有层级关系的指标目录。
[0125]
可选的,所述根据所述相关元素确定与所述待构建文件对应的目标标签,包括:
[0126]
在所述相关元素中包含所述指标体系目录的情况下,根据所述指标体系目录确定所述指标体系目录中的所述至少一个层级的指标目录与各层级的指标目录之间的层级关系;
[0127]
将所述至少一个层级的指标目录按照所述指标目录之间的层级关系组合,得到至少一个所述目标标签。
[0128]
可选的,在得到至少一个所述目标标签之后,还包括:
[0129]
针对至少一个所述目标标签,基于所述目标标签包括的各层级的指标目录的语义,根据所述指标知识库中与所述各层级的指标目录语义相似的指标,对所述目标标签进行扩展。
[0130]
可选的,所述根据所述相关元素确定与所述待构建文件对应的目标标签,包括:
[0131]
在所述相关元素中不包含指标体系目录但包含指标体系主题的情况下,根据所述指标体系主题确定所属类别,再根据所述所属类别确定所述目标标签。
[0132]
可选的,所述根据所述相关元素确定与所述待构建文件对应的目标标签,包括:
[0133]
在所述相关元素中不包含指标体系目录和指标体系主题,但包含指标集合的情况
下,从所述指标知识库中确定匹配于所述指标集合的样本指标集合,根据所述样本指标集合对应的标签确定所述目标标签。
[0134]
可选的,所述根据确定的所述目标标签从所述指标知识库中推荐目标样本元素,包括:
[0135]
根据所述目标标签中包含的各层级的指标目录以及所述指标集合与所述样本指标集合的匹配关系,确定所述指标集合中各指标对应的所述至少一个层级的指标目录与层级关系;
[0136]
将所述各指标分别挂载于最末层级的目标指标目录,再按照所述层级关系将所述指标集合对应的所述目标指标目录挂载于上一层的指标目录下,以构建对应的指标体系目录;
[0137]
将所述样本指标集合和所述对应的指标体系目录作为推荐的所述目标样本元素。
[0138]
可选的,所述相关元素通过以下方法获得:
[0139]
识别所述待构建文件中的表格结构;对所述表格结构中的内容进行提取;
[0140]
和/或,
[0141]
识别所述待构建文件的文本内容;对所述文本内容进行语义分析,并根据语义分析的结果确定所述相关元素。
[0142]
可选的,还包括:
[0143]
根据构建的所述待构建文件的指标体系更新所述指标知识库中的所述样本元素,以进行所述指标知识库的积累。
[0144]
可选的,还包括:
[0145]
接收输入的补充信息;
[0146]
根据所述补充信息对所述待构建文件的指标体系进行确认和/或对所述待构建文件的指标体系的内容进行补充。
[0147]
可选的,所述指标知识库中的所述样本元素通过下述方式获取:
[0148]
获取样本文件,所述样本文件中包含样本指标体系;
[0149]
从所述样本文件中获取用于构建所述样本指标体系的样本元素。
[0150]
可选的,还包括:
[0151]
根据所述样本指标体系确定对应的样本指标和样本指标体系目录;
[0152]
根据所述样本指标体系目录确定任一样本指标的目标指标目录到根指标目录之间的具有层级关系的指标目录;
[0153]
将所述具有层级关系的指标目录作为对应所述任一样本指标的标签;其中,
[0154]
所述样本元素包括以下至少之一:所述样本指标、所述样本指标体系目录、所述样本指标的标签。
[0155]
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
[0156]
对于装置实施例而言,由于其基本对应于方法实施例,所以相关指出参见方法实施例的部分说明即可。以上所描述的装置实施例只是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需
要选择其中的部分或者全部模块来实现本技术方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0157]
本领域技术人员应明白,本技术一个或多个实施例可提供为方法、系统或计算机程序产品。因此,本技术一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0158]
本技术一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本本技术一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0159]
以上所述仅为本技术一个或多个实施例的实施例而已,并不用于限制本技术一个或多个实施例。对于本领域技术人员来说,本技术一个或多个实施例可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在权利要求范围之内。

技术特征:
1.一种指标体系的构建方法,其特征在于,所述方法包括:获取待构建文件,并从所述待构建文件中获取用于构建指标体系的相关元素;获取预先建立的指标知识库,所述指标知识库中包含用于构建指标体系且添加有标签的样本元素,所述标签用于对相应的样本元素进行分类;根据所述相关元素确定与所述待构建文件对应的目标标签,并根据确定的所述目标标签从所述指标知识库中推荐目标样本元素;所述目标样本元素的标签为所述目标标签或者与所述目标标签相关联;根据所述相关元素和推荐的所述目标样本元素构建所述待构建文件的指标体系。2.根据权利要求1所述的方法,其特征在于,所述指标体系包括指标体系目录和指标;所述指标体系目录包括至少一个层级的指标目录,所述指标挂载于最末层级的目标指标目录;所述指标对应的标签包括所述目标指标目录到所述指标体系目录的根指标目录之间的具有层级关系的指标目录。3.根据权利要求2所述的方法,其特征在于,所述根据所述相关元素确定与所述待构建文件对应的目标标签,包括:在所述相关元素中包含所述指标体系目录的情况下,根据所述指标体系目录确定所述指标体系目录中的所述至少一个层级的指标目录与各层级的指标目录之间的层级关系;将所述至少一个层级的指标目录按照所述指标目录之间的层级关系组合,得到至少一个所述目标标签。4.根据权利要求3所述的方法,其特征在于,在得到至少一个所述目标标签之后,所述方法还包括:针对至少一个所述目标标签,基于所述目标标签包括的各层级的指标目录的语义,根据所述指标知识库中与所述各层级的指标目录语义相似的指标,对所述目标标签进行扩展。5.根据权利要求2所述的方法,其特征在于,所述根据所述相关元素确定与所述待构建文件对应的目标标签,包括:在所述相关元素中不包含指标体系目录但包含指标体系主题的情况下,根据所述指标体系主题确定所属类别,再根据所述所属类别确定所述目标标签。6.根据权利要求2所述的方法,其特征在于,所述根据所述相关元素确定与所述待构建文件对应的目标标签,包括:在所述相关元素中不包含指标体系目录和指标体系主题,但包含指标集合的情况下,从所述指标知识库中确定匹配于所述指标集合的样本指标集合,根据所述样本指标集合对应的标签确定所述目标标签。7.根据权利要求6所述的方法,其特征在于,所述根据确定的所述目标标签从所述指标知识库中推荐目标样本元素,包括:根据所述目标标签中包含的各层级的指标目录以及所述指标集合与所述样本指标集合的匹配关系,确定所述指标集合中各指标对应的所述至少一个层级的指标目录与层级关系;将所述各指标分别挂载于最末层级的目标指标目录,再按照所述层级关系将所述指标集合对应的所述目标指标目录挂载于上一层的指标目录下,以构建对应的指标体系目录;
将所述样本指标集合和所述对应的指标体系目录作为推荐的所述目标样本元素。8.一种指标体系的构建装置,其特征在于,所述装置包括:获取单元,用于获取待构建文件,并从所述待构建文件中获取用于构建指标体系的相关元素;知识库单元,用于获取预先建立的指标知识库,所述指标知识库中包含用于构建指标体系且添加有标签的样本元素,所述标签用于对相应的样本元素进行分类;推荐单元,用于根据所述相关元素确定与所述待构建文件对应的目标标签,并根据确定的所述目标标签从所述指标知识库中推荐目标样本元素;所述目标样本元素的标签为所述目标标签或者与所述目标标签相关联;构建单元,用于根据所述相关元素和推荐的所述目标样本元素构建所述待构建文件的指标体系。9.一种电子设备,其特征在于,包括:处理器、存储器;所述存储器,用于存储计算机程序;所述处理器,用于通过调用所述计算机程序,执行如权利要求1-7中任一项所述的指标体系的构建方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7任一项所述的指标体系的构建方法。

技术总结
一种指标体系的构建方法、装置、设备及计算机可读存储介质。所述方法包括:获取待构建文件,并从待构建文件中获取用于构建指标体系的相关元素;获取预先建立的指标知识库,指标知识库中包含用于构建指标体系且添加有标签的样本元素,标签用于对相应的样本元素进行分类;根据相关元素确定与待构建文件对应的目标标签,并根据确定的目标标签从指标知识库中推荐目标样本元素;目标样本元素的标签为目标标签或者与目标标签相关联;根据相关元素和推荐的目标样本元素构建待构建文件的指标体系。本申请通过标签对元素进行分类,并在待构建文件有欠缺时,通过推荐知识库中的元素进行补充,以构建相应的指标体系。以构建相应的指标体系。以构建相应的指标体系。


技术研发人员:盛能嘉 谢素丹
受保护的技术使用者:杭州数梦工场科技有限公司
技术研发日:2023.05.26
技术公布日:2023/10/8
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐