一种学校专业知识图谱的构建方法及系统与流程

未命名 07-22 阅读:115 评论:0


1.本发明属于信息匹配与分析领域,具体涉及一种学校专业知识图谱的构建方法及系统。


背景技术:

2.现有的毕业生就业以及企业招聘需求的信息匹配方式通常是由企业招聘者直接在发布的招聘信息中设置各职位相应的专业要求,求职学生根据招聘信息中的专业要求,选择与自身专业所匹配的职位,并投递简历;企业招聘者在收到简历后,也会根据应聘学生的简历中的学校专业,判断应聘者在学校专业方面是否能够满足简历对应的职位的需求。
3.然而,随着教育的普及和大学的扩招,大学生的数量越来越多,同时科技的高速发展也衍生出了大量的新行业,为了适应这些新增行业又增添了很多的新型专业,且各个学校的专业名称与国家标准专业名称、各个学校之间的专业名称也有一定的出入;企业招聘者在发布职位时也只能根据经验进行职位的专业要求设置,专业名称并没有统一的标准,从而造成求职学生在投递职位时难以确定自己所学专业与职位要求的专业是否一致、企业招聘者在查看简历时难以确定求职者的专业是否能胜任所发布的职位的情况,最终可能造成人才遗漏以及招聘、就业成本的提升。


技术实现要素:

4.本发明的目的在于提供一种学校专业知识图谱的构建方法及系统,用于解决现有技术中的专业名称没有统一的标准的信息匹配方式使得求职者自身与企业招聘者均难以确定求职者的学校专业是否能匹配职位专业要求导致的人才遗漏以及招聘、就业成本提升的问题。
5.为了实现上述目的,本发明提供了一种学校专业知识图谱的构建方法,步骤如下:
6.1)获取学校及专业相关数据;所述学校及专业相关数据包括国家标准专业集合数据、各学校专业集合数据和各学校专业开设课程数据;所述各学校专业包括不同学校开设的不同专业以及同一学校开设的不同专业;
7.2)对所述学校及专业相关数据进行预处理,得到学校及专业对应的词语集合;
8.3)根据学校及专业对应的词语集合,得到各专业之间的专业相似度并相应得到各专业之间的专业关联关系;所述各专业之间的专业相似度包括各国家标准专业分别与各学校专业相比较的专业相似度,以及各学校专业之间相比较的专业相似度;
9.4)根据获取的学校及专业相关数据,得到各学校专业自身的信息关联关系;根据所述各专业之间的专业关联关系以及各学校专业自身的信息关联关系,生成学校专业知识图谱。
10.上述技术方案的有益效果为:所构建的学校专业知识图谱能够结合多维度的学校及专业相关数据得到出更为符合实际情况的专业相似度,使得对求职者的学校专业是否能匹配职位专业要求的判断能够更加准确,从而更好的解决大学生在就业的过程中和企业招
聘者在招聘的过程中遇到的人才遗漏和招聘、就业成本提升的问题。
11.进一步地,所述对所述学校及专业相关数据进行预处理,得到学校及专业对应的词语集合的方式为:
12.构建分词器模型,加载停用词词典和分词词典,并通过分词器模型对获取的学校及专业相关数据中的每一条数据进行处理,以去除停用词;所述停用词包括语气助词和/或无意义的词语;
13.通过分词器模型对去除停用词后的每一条数据进行切分,形成各个词语集合,每个词语集合均与一条学校及专业相关数据中的数据对应,且各个词语集合之间互不影响。
14.进一步地,根据学校及专业对应的词语集合,得到各专业之间的专业相似度的方式为:
15.根据学校及专业对应的词语集合,分别计算得到各专业之间的名称相似度、语义相似度以及课程相似度;所述各专业之间的名称相似度、语义相似度以及课程相似度包括各国家标准专业分别与各学校专业相比较的名称相似度和语义相似度,还包括各学校专业之间相比较的名称相似度、语义相似度以及课程相似度;
16.将各国家标准专业分别与各学校专业相比较的名称相似度和语义相似度分别乘以相应的加权系数后相加,得到各国家标准专业分别与各学校专业相比较的专业相似度;将各学校专业之间相比较的名称相似度、语义相似度以及课程相似度分别乘以相应的加权系数后相加,得到将各学校专业之间相比较的专业相似度。
17.上述技术方案的有益效果为:通过不同方面的相似度进行加权相加获取各专业之间的专业相似度,所得到的专业相似度能够更准确全面地反映各专业之间的实际相似程度,提高专业相似度计算的准确性。
18.进一步地,学校及专业对应的词语集合包括国家标准专业集合数据对应的词语集合以及各学校专业集合数据对应的词语集合;其中,每个国家标准专业对应的词语集合对应一个国家标准专业名称,每个学校专业对应的词语集合对应一个学校专业名称;
19.所述各国家标准专业分别与各学校专业相比较的、各学校专业之间相比较的名称相似度的计算方式为:
20.对国家标准专业集合数据和各学校专业集合数据对应的词语集合中的词语进行合并、去重及排序,形成一个与专业对应的专业语料词典;
21.根据所述专业语料词典,对国家标准专业对应的每个词语集合以及各学校专业对应的每个词语集合中的每一个词进行独热编码:针对一个词语集合生成若干个每个维度的分量都为0的向量,各个向量分别与该词语集合中的各个词相对应,且这些向量的维数通过专业语料词典的长度确定;再根据词语集合中的每一个词在语料词典中的位置,分别将与各个词对应的向量中的分量标记为1,得到词语集合中的每一个词对应的位置向量;
22.将每一个词语集合中的所有词对应的位置向量进行维度合并,合并成分别包含国家标准专业对应的和各学校专业对应的每个词语集合中所有词在专业语料词典中的位置信息的向量,并使用相似度算法对各个合并后的向量进行两两计算,将计算得到的相似度对应作为各国家标准专业分别与各学校专业相比较的名称相似度或各学校专业之间相比较的名称相似度。
23.进一步地,所述各国家标准专业分别与各学校专业相比较的、各学校专业之间相
比较的语义相似度的计算方式为:
24.对各国家标准专业分别与各学校专业相比较的或各学校专业之间相比较的名称相似度进行判断,如果存在各国家标准专业分别与各学校专业相比较的或各学校专业之间相比较的名称相似度大于等于名称相似度阈值,则直接将对应的语义相似度设为第一设定值;否则使用基于同义词词林的词语相似度计算方法,对国家标准专业对应的每个词语集合以及各学校专业对应的每个词语集合进行语义相似度计算,将计算得到的相似度对应作为各国家标准专业分别与各学校专业相比较的语义相似度以及各学校专业之间相比较的语义相似度。
25.上述技术方案的有益效果为:在名称相似度可能判断失灵的情况下,采用语义相似度作为补充,能够尽量避免专业相似度的计算受专业名称同义多变等情况的影响。
26.进一步地,学校及专业对应的词语集合还包括各学校专业开设课程数据对应的词语集合;其中,每个学校专业开设课程数据对应的词语集合对应一个学校专业名称下所开设的所有课程;
27.所述各学校专业之间相比较的课程相似度的计算方式为:
28.对各学校专业开设课程数据对应的词语集合进行合并、去重及排序,形成一个与各学校专业开设课程对应的课程语料词典;
29.根据所述课程语料词典,对每个学校专业开设课程数据对应的每个词语集合中的每一个词进行独热编码:针对一个词语集合生成若干个每个维度的分量都为0的向量,各个向量分别与该词语集合中的各个词相对应,且这些向量的维数通过课程语料词典的长度确定;再根据词语集合中的每一个词在语料词典中的位置,分别将与各个词对应的向量中的分量标记为1,得到词语集合中的每一个词对应的位置向量;
30.将每一个词语集合中的所有词对应的位置向量进行维度合并,合并成分别包含每个词语集合中所有词在课程语料词典中的位置信息的向量,并使用相似度算法对各个合并后的向量进行两两计算,将计算得到的相似度对应作为各专业之间的课程相似度。
31.进一步地,相应得到各专业之间的专业关联关系的方式为:
32.将各国家标准专业分别与各学校专业之间以及各学校专业之间的专业相似度与设定的相似阈值以及相等阈值进行比较,其中相似阈值小于相等阈值;
33.若存在两个专业之间的专业相似度大于等于相似阈值且小于相等阈值,则将这两个专业之间的专业关联关系设为相似;若存在两个专业之间的专业相似度大于等于相等阈值,则将这两个专业之间的专业关联关系设为相等;若存在两个专业之间的专业相似度小于相似阈值,则判断这两个专业之间没有专业关联关系,舍弃掉相应的数据。
34.上述技术方案的有益效果为:根据专业相似度判定专业关联关系并相应舍弃部分数据能够减少冗余数据,避免没有专业关联关系的专业相关数据对存在专业关联关系的专业展示造成影响,导致最终的知识图谱不够直观。
35.进一步地,所述学校及专业相关数据还包括各学校专业基本数据和各学校相关信息;所述各学校专业基本数据所述包括专业排名、专业培养方向和专业曾用名数据;所述各学校相关信息包括学校排名和学校办学层次数据;
36.所述各学校专业自身的信息关联关系包括学校专业基本信息关联关系、学校基本信息关联关系以及学校专业开设课程关联关系;
37.根据获取的学校及专业相关数据,得到各学校专业自身的信息关联关系的方式为:通过各学校专业基本数据得到学校专业基本信息关联关系;通过各学校相关信息得到学校基本信息关联关系;通过各学校专业开设课程数据得到学校专业开设课程关联关系。
38.上述技术方案的有益效果为:所构建的学校专业知识图谱不仅包含专业关联关系,能够让大学生求职者和企业招聘者能更清楚的明白所学专业与所需专业之间的关联关系,还包含各学校专业自身的的信息关联关系,能够引导求职学生投递专业名称不一样但方向一致的工作,还能够帮助企业招聘者从学校专业方面对求职者的实际能力进行初步评估,便于对求职者是否能够胜任相应工作进行判断。
39.进一步地,根据所述专业关联关系以及各学校专业自身的信息关联关系,生成学校专业知识图谱的方式为:
40.根据获取的学校及专业相关数据,分别构建出不同的实体;所述构建出的实体包括各个国家标准专业实体、学校专业实体、学校名称实体、学校基本信息实体、学校专业基本信息实体以及专业开设课程实体;
41.将所述构建出的实体与各专业之间的专业关联关系、各学校专业自身的信息关联关系分别进行匹配对应,生成学校专业知识图谱。
42.本发明还提供了一种学校专业知识图谱的构建系统,包括处理器,所述处理器用于执行程序指令,以实现上述的学校专业知识图谱的构建方法。
43.该学校专业知识图谱的构建系统能够实现与上述的学校专业知识图谱的构建方法相同的有益效果。
附图说明
44.图1为本发明学校专业知识图谱的构建方法实施例中学校专业知识图谱的整体构建方法示意图;
45.图2为本发明学校专业知识图谱的构建方法实施例中获取的学校及专业相关数据示意图;
46.图3为本发明学校专业知识图谱的构建方法实施例中对学校及专业相关数据进行预处理的流程框图;
47.图4为本发明学校专业知识图谱的构建方法实施例中对国家标准专业对应的每个词语集合以及各学校专业对应的每个词语集合中的每一个词进行独热编码的流程框图;
48.图5为本发明学校专业知识图谱的构建方法实施例中各专业之间的语义相似度的计算方式的流程框图;
49.图6为本发明学校专业知识图谱的构建方法实施例中各专业之间的课程相似度的计算方式的流程框图;
50.图7为本发明学校专业知识图谱的构建方法实施例中计算各专业之间的专业相似度的的流程框图;
51.图8为本发明学校专业知识图谱的构建方法实施例中的生成学校专业知识图谱的方式示意图;
52.图9为本发明学校专业知识图谱的构建方法实施例中生成的学校专业知识图谱示意图。
具体实施方式
53.为了使本发明的目的、技术方案及优点更加清楚明了,以下结合附图及实施例,对本发明进行进一步详细说明。
54.学校专业知识图谱的构建方法实施例:
55.本实施例提供了一种学校专业知识图谱的构建方法的技术方案,参照图1(图1将构建方法的各个步骤体现为对应的处理模块),该构建方法具体步骤如下:
56.1)获取学校及专业相关数据;参照图2,通过数据采集模块获取的学校及专业相关数据主要包括国家标准专业集合数据(如“a专业、b专业、c专业
…”
)、各学校专业集合数据(如“某学校的专业包括a专业、b专业、c专业
…”
)和各学校专业开设课程数据(如“某学校某专业开设的课程包括a课程、b课程、c课程
…”
),还包括学校及专业相关数据还包括各学校专业基本数据和各学校相关信息;其中各学校专业基本数据包括专业排名、专业培养方向和专业曾用名数据;各学校相关信息包括学校排名和学校办学层次数据;为保证比对的全面性,各学校专业包括不同学校开设的不同专业以及同一学校开设的不同专业;
57.需要明确的是,学校及专业相关数据的来源为政府教育部相关网站、各学校网站以及各学校分学院网站,且这些数据会周期性的根据网站上更新的内容进行相应更新;获取学校及专业相关数据时可以通过爬虫的形式进行采集,也可以使用人工的形式进行采集;数据采集到的格式会进行初步加工处理成具有层级关系的二维表格并存储到数据库中,供其他步骤使用。
58.2)对获取的学校及专业相关数据进行预处理,得到学校及专业对应的词语集合;参照图3,对学校及专业相关数据进行预处理,得到学校及专业对应的词语集合的方式为:
59.2.1)构建分词器模型,加载停用词词典和分词词典;
60.2.2)通过分词器模型对获取的学校及专业相关数据中的每一条数据进行处理,以去除停用词;这里的停用词包括语气助词和/或无意义的词语,如:的、了等语气助词或无具体意义的词语;以“数学与统计学”为示例,经过预处理去除停用词“与”之后为:“数学统计学”;
61.2.3)通过分词器模型对去除停用词后的每一条数据进行切分,形成各个词语集合,每个词语集合均与一条学校及专业相关数据中的数据对应,且各个词语集合之间互不影响;以上述步骤生成的“数学统计学”为例:将“数学统计学”进行切分,形成的词语集合为{数学,统计学}。
62.步骤2)中分词器模型的实现可以使用开源项目jieba分词进行实现,也可以使用其它开源项目,例如:ikanalyzer、word2vec深度学习模型等项目进行实现,本实例不做任何限定;根据实际的实施经验,可以优先采用用jieba分词器进行分词模型构建,其优点在于对中文文档的切分更为友好和准确,并且处理中产生的中间数据和处理后产生的结果数据都会处理成一个新的有关系层级的二维表格并存储到数据库中供后续步骤使用,不会覆盖数据库中的原始数据;
63.3)根据学校及专业对应的词语集合,得到各专业之间的专业相似度并相应得到各专业之间的专业关联关系;各专业之间的专业相似度包括各国家标准专业分别与各学校专业相比较的专业相似度,以及各学校专业之间相比较的专业相似度;
64.其中,根据学校及专业对应的词语集合,得到各专业之间的专业相似度并相应得
到各专业之间的专业关联关系的方式具体为:
65.3.1)根据学校及专业对应的词语集合,分别计算得到各专业之间的名称相似度、语义相似度以及课程相似度;本实施例中,学校及专业对应的词语集合包括国家标准专业集合数据对应的词语集合以及各学校专业集合数据对应的词语集合;其中,每个国家标准专业对应的词语集合对应一个国家标准专业(即国家标准专业分类中记录的某个专业)的名称,每个学校专业对应的词语集合对应一个学校专业(即某个学校开设的某个专业)的名称;各专业之间的名称相似度、语义相似度以及课程相似度包括各国家标准专业分别与各学校专业相比较的名称相似度和语义相似度,还包括各学校专业之间相比较的名称相似度、语义相似度以及课程相似度,具体计算方式如下:
66.①
各国家标准专业分别与各学校专业相比较的、各学校专业之间相比较的名称相似度的计算方式为:
67.首先,对国家标准专业集合数据和各学校专业集合数据对应的词语集合中的词语进行合并、去重及排序,形成一个与专业对应的专业语料词典d1,其长度记为n1;需要注意的是,根据所采集到的数据集的不同,最终形成的专业语料字典d1和其长度n1也不尽相同;该计算专业语料词典d1的操作可以在对学校及专业相关数据进行预处理的步骤进行,如图3所示;
68.然后,参照图4,根据专业语料词典,对国家标准专业对应的每个词语集合以及各学校专业对应的每个词语集合中的每一个词进行独热编码;独热编码即针对一个词语集合c生成若干个每个维度的分量都为0的向量,各个向量分别与该词语集合c中的各个词相对应,且这些向量的维数通过专业语料词典的长度确定,本实施例中,这些向量的维数即为专业语料词典d1的长度n1;再根据词语集合中的每一个词在语料词典中的位置,分别将与各个词对应的向量中的分量标记为1,得到词语集合中的每一个词对应的位置向量;例如:词语集合{数学,统计学}中,词语“数学”对应的向量为{0,0,

1,0,

0},词语“统计学”对应的向量为{0,1,...0,0,...0};
69.将每一个词语集合中的所有词对应的位置向量进行维度合并,合并成分别包含国家标准专业对应的和各学校专业对应的每个词语集合中所有词在专业语料词典中的位置信息的n1维向量;例如:词语集合{数学,统计学}对应的合并后的向量为{0,1,...1,0,...0};本实施例中为了降低存储压力和快速计算,将直接合并形成的n1维向量压缩为密集向量,再将压缩后的密集向量作为合并后的向量用于后续步骤;示例:词语集合{数学,统计学}经过简单合并后的向量{0,1,...1,0,...0}压缩为密集向量{n1#1,10#1,1},也即词语集合{数学,统计学对应的合并后的向量为密集向量{n1#1,10#1,1};其中,n1代表向量的长度,“#1,10”代表向量中第1位和第10位不为0,“#1,1”代表不为0的位置的值分别为1和1;
70.使用相似度算法对各个合并后的向量进行两两计算,得到相似度s1,将计算得到的相似度s1对应作为各国家标准专业分别与各学校专业相比较的名称相似度或各学校专业之间相比较的名称相似度,因此上述方式既能够用于计算某一个国家标准专业与一个学校专业之间的名称相似度,也可以用于计算某两个学校专业之间的名称相似度,只要通过对应的词语集合按照上述计算方式计算相似度s1即可,每个学校专业对应的词语集合对应一个学校专业的名称;该步骤的计算结果保存为一个集合r{专业名1,专业名2,名称相似度s1},例如:{数学与统计学,应用统计学,0.78}。对于相似度计算方法,本实施例不做限定,
可优先使用余弦相似度算法,也可以使用其它相似度计算方法,如:欧式距离、汉明距离、杰卡德相似系数等方法。
71.②
各国家标准专业分别与各学校专业相比较的、各学校专业之间相比较的语义相似度的计算方式为:
72.对各国家标准专业分别与各学校专业相比较的或各学校专业之间相比较的名称相似度进行判断,如果存在各国家标准专业分别与各学校专业相比较的或各学校专业之间相比较的名称相似度大于名称相似度阈值,则直接将对应的语义相似度设为第一设定值;否则使用基于同义词词林的词语相似度计算方法,对国家标准专业对应的每个词语集合以及各学校专业对应的每个词语集合进行语义相似度计算,将计算得到的相似度对应作为各国家标准专业分别与各学校专业相比较的语义相似度以及各学校专业之间相比较的语义相似度;
73.本实施例中,将名称相似度阈值设为0.97;进行比较时,若相似度s1》=0.97,即各专业之间的名称相似度大于等于名称相似度阈值,由于名称相似度足够高,因此不再进行语义相似度判断,而是直接将语义相似度s2置为第一设定值(本实施例中的第一设定值为1.0),并将词语相似度计算得到的结果集合r进行扩充为{专业名1,专业名2,名称相似度s1,语义相似度s2},其中s2=1.0;
74.若相似度s1《0.97,即各专业之间的名称相似度小于名称相似度阈值,由于名称相似度不高,需要进行语义相似度判断,使用基于同义词词林的词语相似度计算方法进行语义相似度计算,其中词林采用“哈工大信息检索研究室同义词词林扩展版”,最终得出语义相似度s2,参照图5,具体计算步骤如下:
75.i)将两个专业名(一个国家标准专业和一个学校专业,或者两个不同的学校专业)各自的词语集合c进行去重,保留剩余的词语并进行两两结合并生成一组集合a{a1,a2,...},示例:词语集合{数学,统计学}和词语集合{应用,统计学},经过去重后为{数学}、{应用},两两结合后得到a1:{数学,应用};
76.ii)如果去重后无词语,则直接将s2置为1.0,否则进行步骤iii);
77.iii),查询每一个词语在词林中的编码,为5层结构,如果任意一个词语不在词林中,则直接将s2置为0.1,否则进行步骤iv);
78.iv)如果第一层结构不一样,则直接将s2置为0.1,否则进行步骤v);
79.v)如果第二层结构不一样,则计算编码差值k,以及第二层的总分支数m2,最终得出s2=0.65*cos(m1*π/180)*((m1-k+1)/m1),否则进行步骤vi);
80.vi)如果第三层结构不一样,则计算编码差值k,以及第三层的总分支数m3,最终得出s2=0.80*cos(m2*π/180)*((m2-k+1)/m2),否则进行步骤vii);
81.vii)如果第四层结构不一样,则计算编码差值k,以及第四层的总分支数m4,最终得出s2=0.90*cos(m3*π/180)*((m3-k+1)/m3),否则进行步骤viii);
82.viii)如果第五层结构不一样,则计算编码差值k,以及第五层的总分支数m5,最终得出s2=0.96*cos(m4*π/180)*((m4-k+1)/m4),否则s2=1.0;
83.将计算得到的语义相似度s2合并至集合r中,扩充为{专业名1,专业名2,名称相似度s1,语义相似度s2},其中s2为上述步骤i)至步骤viii)中的计算结果;步骤i)至步骤viii)中的计算公式中的参数是根据实际语义情况进行设置的,尽可能地使得相似度计算
结果最贴合实际,在其他实施例中可以根据实际的相似度计算结果再进行调优。
84.③
由于学校及专业对应的词语集合还包括各学校专业开设课程数据对应的词语集合;其中,每个学校专业开设课程数据对应的词语集合对应一个学校专业名称下所开设的所有课程;则参照图6,各学校专业之间相比较的课程相似度的计算方式为:
85.对各学校专业开设课程数据对应的词语集合进行合并、去重及排序,形成一个与各学校专业开设课程对应的课程语料词典d2,其长度记为n2;
86.根据课程语料词典,对每个学校专业开设课程数据对应的每个词语集合中的每一个词进行独热编码:针对一个词语集合生成若干个每个维度的分量都为0的向量,各个向量分别与该词语集合中的各个词相对应,且这些向量的维数通过课程语料词典的长度n2确定,本实施例中,这些向量的维数即为课程语料词典d2的长度n2;再根据词语集合中的每一个词在语料词典中的位置,分别将与各个词对应的向量中的分量标记为1,得到词语集合中的每一个词对应的位置向量;例如,数学与统计学专业开设课程为(即为学校专业开设课程数据):概率论、数据分析、几何代数和数理统计,其在专业课程字典d2中的位置分别为:1,3,5,7,则合并形成的向量为{1,0,1,0,1,0,1,0,0,0,...},长度为n2;
87.将每一个词语集合中的所有词对应的位置向量进行维度合并,合并成分别包含每个词语集合中所有词在课程语料词典中的位置信息的向量;本实施例中为了降低存储压力和快速计算,将直接合并形成的n1维向量压缩为密集向量,再将压缩后的密集向量作为合并后的向量用于后续步骤;例如,合并形成的向量{1,0,1,0,1,0,1,0,0,0,...}压缩为密集向量{n2#1,3,5,7#1,3,5,7},其中,n2代表向量的长度,#1,3,5,7代表向量中第1、第3、第5和第7位不为0,#1,3,5,7代表不为0的位置的值分别为1、1、1、1;
88.使用相似度算法对各个合并后的向量进行两两计算,将计算得到的相似度s3对应作为各专业之间的课程相似度,并扩充至集合r中,扩充后的集合为:{专业名1,专业名2,名称相似度s1,语义相似度s2,课程相似度s3};需要注意的是,在计算国家与各学校专业的相似度时,由于国家标准专业不存在课程相关数据,因此,课程相似度s3不存在,此时这无需扩充集合r,也即各国家标准专业分别与各学校专业相比较的专业相似度在计算时所采用的集合r仍为:集合为:{专业名1,专业名2,名称相似度s1,语义相似度s2}。对于相似度计算方法,本实施例不做限定,可优先使用余弦相似度算法,也可以使用其它相似度计算方法,如:欧式距离、汉明距离、杰卡德相似系数等方法。
89.3.2)将各国家标准专业分别与各学校专业相比较的名称相似度和语义相似度分别乘以相应的加权系数后相加,得到各国家标准专业分别与各学校专业相比较的专业相似度;将各学校专业之间相比较的名称相似度s1、语义相似度s2以及课程相似度s3分别乘以相应的加权系数后相加,得到将各学校专业之间相比较的专业相似度;
90.参照图7,即加权计算最终的专业相似度s,如果集合r中有名称相似度s1、语义相似度s2及课程相似度s3,则加权计算最终的专业相似度s的计算公式为:s=s1*0.3+s2*0.2+s3*0.5,并将集合r更新为{专业名1,专业名2,专业相似度s};如果集合r中只有名称相似度s1和语义相似度s2,则加权计算最终的专业相似度s的计算公式为:s=s1*0.6+s2*0.4,并将集合r更新为{专业名1,专业名2,专业相似度s};在其他实施例中,两个计算公式的加权系数均可以根据实际情况进行调整;也即本实施例中,在计算国家标准专业与学校专业相似度时,s的计算方式为:s=s1*0.6+s2*0.4;在计算学校与学校之间的专业相似度时,s
的计算方式为:s=s1*0.3+s2*0.2+s3*0.5。
91.然后,将各国家标准专业分别与各学校专业之间以及各学校专业之间的专业相似度s与设定的相似阈值以及相等阈值进行比较;其中相似阈值小于相等阈值,从而相应得到各专业之间的专业关联关系:
92.若存在两个专业之间的专业相似度大于等于相似阈值且小于相等阈值,则将这两个专业之间的专业关联关系设为相似;若存在两个专业之间的专业相似度大于等于相等阈值,则将这两个专业之间的专业关联关系设为相等;若存在两个专业之间的专业相似度小于相似阈值,则判断这两个专业之间没有专业关联关系,舍弃掉相应的数据;本实施例中,相似阈值设为0.7,相等阈值设为0.95;即若s《0.7则舍弃该专业相似度s对应的集合r{专业名1,专业名2,专业相似度s},若0.95》s》=0.7则将关联关系l1置为相似,若s》=0.95,则将关联关系l1置为相等;并相应地将未被舍弃将集合r{专业名1,专业名2,专业相似度s}更新为集合r{专业名1,专业名2,专业关联关系l1}。
93.4)根据获取的学校及专业相关数据,得到各学校专业自身的信息关联关系;根据步骤3)中得到的各专业之间的专业关联关系以及各学校专业自身的信息关联关系,生成学校专业知识图谱。
94.由于获取的学校及专业相关数据包括学校及专业相关数据还包括各学校专业基本数据和各学校相关信息;其中各学校专业基本数据包括专业排名、专业培养方向和专业曾用名数据;各学校相关信息包括学校排名和学校办学层次数据,则各学校专业自身的信息关联关系包括学校专业基本信息关联关系l2、学校基本信息关联关系l3以及学校专业开设课程关联关系l4;
95.如图8所示,根据获取的学校及专业相关数据,得到各学校专业自身的信息关联关系的方式为:通过各学校专业基本数据得到学校专业基本信息关联关系l2;通过各学校相关信息得到学校基本信息关联关系l3;通过各学校专业开设课程数据得到学校专业开设课程关联关系l4;根据获取的学校及专业相关数据,分别构建出不同的实体;本实施例中,构建出的实体包括各个国家标准专业实体e1、学校专业实体e2、学校名称实体e3、学校基本信息实体e4、学校专业基本信息实体e5、专业开设课程实体e6;
96.将构建出的实体e1~e5与专业关联关系l1、各信息关联关系l2~l4加载至图数据库neo4j中,分别进行匹配对应,生成学校专业知识图谱;生成的学校专业知识图谱如图9所示,能够供求职者和企业招聘者查询使用,以对相应地专业是否符合职位要求进行评判。
97.由此可见,本实施例中的构建方法所构建的学校专业知识图谱能够让大学生求职者和企业招聘者能更清楚的明白所学专业与所需专业之间的关联关系,还能够引导求职学生投递专业名称不一样但方向一致的工作,如:会计学可以报名财务管理方向的工作;同时也可以让企业招聘者更清晰的明白应聘者的学校信息、专业信息、专业开设课程以及是否与职位所要求的能力相匹配;并且,所构建的学校专业知识图谱不仅仅是以专业名称进行相似度区分,而是结合多维度、多方法计算出更为准确的相似度,能更好的解决大学生在就业的过程中和企业招聘者在招聘的过程中遇到的人才遗漏和招聘、就业成本提升的问题。
98.学校专业知识图谱的构建系统实施例:
99.本实施例给出了一种学校专业知识图谱的构建系统的技术方案;该学校专业知识图谱的构建系统包括处理器,用于执行程序指令,以实现如上述学校专业知识图谱的构建
方法实施例中的学校专业知识图谱的构建方法。
100.由于该学校专业知识图谱的构建系统的具体工作方式以及工作原理已经在上述的学校专业知识图谱的构建方法实施例中进行了详细说明,因此此处不再赘述。
101.本发明具有如下特点:
102.1)所构建的学校专业知识图谱不仅仅是以专业名称进行相似度区分,而是结合多维度、多方法计算出更为准确的相似度,能更好的解决大学生在就业的过程中和企业招聘者在招聘的过程中遇到的人才遗漏和招聘、就业成本提升的问题。
103.2)所构建的学校专业知识图谱不仅包含专业关联关系,能够让大学生求职者和企业招聘者能更清楚的明白所学专业与所需专业之间的关联关系,还包含各学校专业自身的的信息关联关系,能够引导求职学生投递专业名称不一样但方向一致的工作,还能够帮助企业招聘者从学校专业方面对求职者的实际能力进行初步评估,便于对求职者是否能够胜任相应工作进行判断。
104.应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。

技术特征:
1.一种学校专业知识图谱的构建方法,其特征在于,步骤如下:1)获取学校及专业相关数据;所述学校及专业相关数据包括国家标准专业集合数据、各学校专业集合数据和各学校专业开设课程数据;所述各学校专业包括不同学校开设的不同专业以及同一学校开设的不同专业;2)对所述学校及专业相关数据进行预处理,得到学校及专业对应的词语集合;3)根据学校及专业对应的词语集合,得到各专业之间的专业相似度并相应得到各专业之间的专业关联关系;所述各专业之间的专业相似度包括各国家标准专业分别与各学校专业相比较的专业相似度,以及各学校专业之间相比较的专业相似度;4)根据获取的学校及专业相关数据,得到各学校专业自身的信息关联关系;根据所述各专业之间的专业关联关系以及各学校专业自身的信息关联关系,生成学校专业知识图谱。2.根据权利要求1所述的学校专业知识图谱的构建方法,其特征在于,所述对所述学校及专业相关数据进行预处理,得到学校及专业对应的词语集合的方式为:构建分词器模型,加载停用词词典和分词词典,并通过分词器模型对获取的学校及专业相关数据中的每一条数据进行处理,以去除停用词;所述停用词包括语气助词和/或无意义的词语;通过分词器模型对去除停用词后的每一条数据进行切分,形成各个词语集合,每个词语集合均与一条学校及专业相关数据中的数据对应,且各个词语集合之间互不影响。3.根据权利要求1所述的学校专业知识图谱的构建方法,其特征在于,根据学校及专业对应的词语集合,得到各专业之间的专业相似度的方式为:根据学校及专业对应的词语集合,分别计算得到各专业之间的名称相似度、语义相似度以及课程相似度;所述各专业之间的名称相似度、语义相似度以及课程相似度包括各国家标准专业分别与各学校专业相比较的名称相似度和语义相似度,还包括各学校专业之间相比较的名称相似度、语义相似度以及课程相似度;将各国家标准专业分别与各学校专业相比较的名称相似度和语义相似度分别乘以相应的加权系数后相加,得到各国家标准专业分别与各学校专业相比较的专业相似度;将各学校专业之间相比较的名称相似度、语义相似度以及课程相似度分别乘以相应的加权系数后相加,得到将各学校专业之间相比较的专业相似度。4.根据权利要求3所述的学校专业知识图谱的构建方法,其特征在于,学校及专业对应的词语集合包括国家标准专业集合数据对应的词语集合以及各学校专业集合数据对应的词语集合;其中,每个国家标准专业对应的词语集合对应一个国家标准专业名称,每个学校专业对应的词语集合对应一个学校专业名称;所述各国家标准专业分别与各学校专业相比较的、各学校专业之间相比较的名称相似度的计算方式为:对国家标准专业集合数据和各学校专业集合数据对应的词语集合中的词语进行合并、去重及排序,形成一个与专业对应的专业语料词典;根据所述专业语料词典,对国家标准专业对应的每个词语集合以及各学校专业对应的每个词语集合中的每一个词进行独热编码:针对一个词语集合生成若干个每个维度的分量都为0的向量,各个向量分别与该词语集合中的各个词相对应,且这些向量的维数通过专业
语料词典的长度确定;再根据词语集合中的每一个词在语料词典中的位置,分别将与各个词对应的向量中的分量标记为1,得到词语集合中的每一个词对应的位置向量;将每一个词语集合中的所有词对应的位置向量进行维度合并,合并成分别包含国家标准专业对应的和各学校专业对应的每个词语集合中所有词在专业语料词典中的位置信息的向量,并使用相似度算法对各个合并后的向量进行两两计算,将计算得到的相似度对应作为各国家标准专业分别与各学校专业相比较的名称相似度或各学校专业之间相比较的名称相似度。5.根据权利要求3所述的学校专业知识图谱的构建方法,其特征在于,所述各国家标准专业分别与各学校专业相比较的、各学校专业之间相比较的语义相似度的计算方式为:对各国家标准专业分别与各学校专业相比较的或各学校专业之间相比较的名称相似度进行判断,如果存在各国家标准专业分别与各学校专业相比较的或各学校专业之间相比较的名称相似度大于等于名称相似度阈值,则直接将对应的语义相似度设为第一设定值;否则使用基于同义词词林的词语相似度计算方法,对国家标准专业对应的每个词语集合以及各学校专业对应的每个词语集合进行语义相似度计算,将计算得到的相似度对应作为各国家标准专业分别与各学校专业相比较的语义相似度以及各学校专业之间相比较的语义相似度。6.根据权利要求3所述的学校专业知识图谱的构建方法,其特征在于,学校及专业对应的词语集合还包括各学校专业开设课程数据对应的词语集合;其中,每个学校专业开设课程数据对应的词语集合对应一个学校专业名称下所开设的所有课程;所述各学校专业之间相比较的课程相似度的计算方式为:对各学校专业开设课程数据对应的词语集合进行合并、去重及排序,形成一个与各学校专业开设课程对应的课程语料词典;根据所述课程语料词典,对每个学校专业开设课程数据对应的每个词语集合中的每一个词进行独热编码:针对一个词语集合生成若干个每个维度的分量都为0的向量,各个向量分别与该词语集合中的各个词相对应,且这些向量的维数通过课程语料词典的长度确定;再根据词语集合中的每一个词在语料词典中的位置,分别将与各个词对应的向量中的分量标记为1,得到词语集合中的每一个词对应的位置向量;将每一个词语集合中的所有词对应的位置向量进行维度合并,合并成分别包含每个词语集合中所有词在课程语料词典中的位置信息的向量,并使用相似度算法对各个合并后的向量进行两两计算,将计算得到的相似度对应作为各专业之间的课程相似度。7.根据权利要求1-6任一项所述的学校专业知识图谱的构建方法,其特征在于,相应得到各专业之间的专业关联关系的方式为:将各国家标准专业分别与各学校专业之间以及各学校专业之间的专业相似度与设定的相似阈值以及相等阈值进行比较,其中相似阈值小于相等阈值;若存在两个专业之间的专业相似度大于等于相似阈值且小于相等阈值,则将这两个专业之间的专业关联关系设为相似;若存在两个专业之间的专业相似度大于等于相等阈值,则将这两个专业之间的专业关联关系设为相等;若存在两个专业之间的专业相似度小于相似阈值,则判断这两个专业之间没有专业关联关系,舍弃掉相应的数据。8.根据权利要求1-6任一项所述的学校专业知识图谱的构建方法,其特征在于,所述学
校及专业相关数据还包括各学校专业基本数据和各学校相关信息;所述各学校专业基本数据包括专业排名、专业培养方向和专业曾用名数据;所述各学校相关信息包括学校排名和学校办学层次数据;所述各学校专业自身的信息关联关系包括学校专业基本信息关联关系、学校基本信息关联关系以及学校专业开设课程关联关系;根据获取的学校及专业相关数据,得到各学校专业自身的信息关联关系的方式为:通过各学校专业基本数据得到学校专业基本信息关联关系;通过各学校相关信息得到学校基本信息关联关系;通过各学校专业开设课程数据得到学校专业开设课程关联关系。9.根据权利要求1-6任一项所述的学校专业知识图谱的构建方法,其特征在于,根据所述专业关联关系以及各学校专业自身的信息关联关系,生成学校专业知识图谱的方式为:根据获取的学校及专业相关数据,分别构建出不同的实体;所述构建出的实体包括各个国家标准专业实体、学校专业实体、学校名称实体、学校基本信息实体、学校专业基本信息实体以及专业开设课程实体;将所述构建出的实体与各专业之间的专业关联关系、各学校专业自身的信息关联关系分别进行匹配对应,生成学校专业知识图谱。10.一种学校专业知识图谱的构建系统,其特征在于,包括处理器,所述处理器用于执行程序指令,以实现如权利要求1-9任一项所述的学校专业知识图谱的构建方法。

技术总结
本发明属于信息匹配与分析领域,具体涉及一种学校专业知识图谱的构建方法及系统本发明所构建的学校专业知识图谱不仅仅是以专业名称进行相似度区分,而是结合多维度、多方法计算出更为准确的相似度,能解决学生在就业过程中和企业招聘者在招聘过程中遇到的人才遗漏和招聘、就业成本提升的问题;并且所构建的学校专业知识图谱不仅包含专业关联关系,能够让大学生求职者和企业招聘者能更清楚的明白所学专业与所需专业之间的关联关系,还包含各学校专业自身的的信息关联关系,能够引导求职学生投递专业名称不一样但方向一致的工作,还能够帮助企业招聘者从学校专业方面对求职者的实际能力进行初步评估,便于对求职者是否能够胜任相应工作进行判断。够胜任相应工作进行判断。够胜任相应工作进行判断。


技术研发人员:焦征海 常江 吴泽尧 张景龙 谷海涛 张伟 马令匀
受保护的技术使用者:完美数联(杭州)科技有限公司
技术研发日:2023.03.28
技术公布日:2023/7/20
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐