一种社交媒体特定事件知识图谱构建方法及系统
未命名
07-22
阅读:135
评论:0
1.本发明涉及数据处理技术领域,具体涉及一种社交媒体特定事件知识图谱构建方法及系统。
背景技术:
2.随着移动互联网的普及,各种社交软件已经成为社交网络时代互联网上主要的数据来源,而社交网络舆情资源具有海量、分布、异构、多粒度等多种特性,从海量舆情资源中分析某个热点事件或舆论事件成为一个难题。若能以图形化方式向相关用户表示经过分类整理的结构化知识,摆脱从人工过滤网页寻找答案的模式,则可以为互联网的海量、异构、动态的大数据表达、组织、管理以及利用提供一种更为有效的方式,使得网络的智能化水平更高,更加接近于人类的认知思维。借助知识图谱,可以在web网页之上建立概念间的链接关系,从而以最小的代价将互联网中积累的信息组织起来,成为可以被利用的知识。通过对社交媒体数据文本的分析可以实现事件的检测和详细信息抽取,在此基础上,进而可以分析事件的舆情。社交媒体和社交网络特定事件的知识图谱构建对于政府、组织和企业开展舆情分析、事件预测、决策分析等具有重要的意义。因此,如何构建社交媒体特定事件知识图谱并对其进行有效分析便成为该领域需要解决的一个关键性问题。
技术实现要素:
3.针对现有技术的不足,本发明旨在提供一种社交媒体特定事件知识图谱构建方法及系统。
4.为了实现上述目的,本发明采用如下技术方案:
5.一种针对社交媒体特定事件的知识图谱构建方法,包括如下步骤:
6.步骤s1、抓取原始的社交媒体数据,进行实体提取:
7.1.1)基于crf算法实现中文分词;
8.1.2)基于clara算法实现词性标注;
9.1.3)提取属性为人名、机构名、地名、时间、普通名词、方位名词、处所名词、作品名、其他专名、名动词的标签,作为知识表达实体;
10.步骤s2、对社交媒体数据,基于步骤s1抽取得到的实体进行关系抽取:从文本中识别出一对实体以及实体间的语义关系,构成关系知识表达三元组;
11.步骤s3、实体链接,把知识表达实体和知识表达三元组导入neo4j得到可视化知识图谱;
12.步骤s4、知识融合:对知识表达实体和知识表达三元组进行二次优化,依次进行停用词过滤、dedupe实体对齐、最大连通片提取,进行dedupe实体对齐时载入ownthink数据库;再判断此时的知识表达三元组是否和所研究的特定事件相关,若相关则输出知识融合实体和知识融合三元组,若不相关则人工添加或删除停用词,构成每个特定事件的独有停用词库,再进行停用词过滤、dedupe实体对齐、最大连通片提取,一直循环直至所有知识表
达三元组都和所研究的特定事件相关;
13.步骤s5、对所得的三元组文件进行质量评估。
14.进一步地,步骤s2的具体过程为:
15.2.1)提取语义角色:通过基于bert的srl模型,识别句子中的论元;
16.2.2)基于转移的依存句法分析arc-eager模型,关联谓词-论元;
17.2.3)在论元结构中,匹配命名实体,构成谓词-论元关系,输出知识表达三元组。
18.更进一步地,步骤2.3)中,如果只找到头实体或尾实体无法构成三元组关系的,不能作为知识表达三元组输出。
19.进一步地,步骤s1和步骤s2的运行采用并发操作,所有句子的实体提取和关系提取放入并发池,开启多进程来同时执行多任务。
20.进一步地,步骤s3的具体过程为:
21.3.1)建立链接到本地neo4j图数据库;
22.3.2)导入提取的知识表达实体,包括命名实体名及其属性;
23.3.3)导入知识表达三元组。
24.进一步地,步骤s4的具体过程为:
25.4.1)停用词过滤:对知识表达提取的实体进行过滤,去除停用词,达到去噪声的目的,从而增加知识图谱的可读性;
26.4.2)实体对齐和消歧:
27.4.2.1)在通过停用词过滤后的知识表达三元组数据集中,单独抽取实体,利用第三方知识库ownthink构建实体及其属性数据集作为dedupe模型的输入;
28.4.2.2)实体聚类;
29.4.2.3)同源替换:根据实体聚类结果,将知识表达三元组数据集中具有同一个cluster id的实体都统一成同一种表达方式;
30.4.2.4)评价指标计算:将人工标注实体的聚类结果true id作为ground truth,与预测结果cluster id进行对比计算准确率、召回率与f-1值;
31.4.2.5)最大连通片提取:通过bfs循环遍历来找到所有连通的子图,并使用邻接矩阵的形式存储子图,最后通过排序找到节点数最多的连通子图,即为最大连通片。
32.更进一步地,步骤4.1)中,人工根据特定事件数据情况进行添加和删减停用词,每一个社交媒体特定事件都构建一个独有的停用词库,包括公共停用词和特定停用词。
33.更进一步地,步骤4.1)的具体过程为:
34.(1)在优化后的三元组和实体中,人工查找与所研究的特定事件无关的备选实体;
35.(2)通过多人众包投票机制决定备选实体是否加入停用词库;
36.(3)更新后的停用词库对原始的知识表达三元组重新优化,回到步骤(1);
37.(4)反复迭代,直至停用词库未更新,则输出完成停用词过滤的三元组和实体文件。
38.进一步地,步骤s5的具体过程为:
39.5.1)对所得的三元组文件进行实体、关系、训练集、测试集的提取;
40.5.2)对提取的实体以及关系使用transe进行嵌入表达;
41.5.3)训练样本,得到corrupt_triple;
42.5.4)对测试集样本进行raw测试法评价,得到三元组排名;根据所得排名,计算raw测试法下mr、mrr、hit@10的性能指标值;
43.5.5)对测试集样本进行filter测试法评价,得到三元组排名;根据所得排名,计算filter测试法下mr、mrr、hit@10的性能指标值;
44.其中mean rank指标值越小越好,mrr和hit@10指标值越大越好。
45.本发明还提供一种用于实现上述方法的系统,包括实体提取模块、关系抽取模块、实体链接模块、知识融合模块和质量评估模块;
46.所述实体提取模块用于按照上述方法的步骤s1对原始的社交媒体数据进行实体提取;
47.所述关系抽取模块用于按照上述方法的步骤s2对实体提取模块提取的知识表达实体进行关系抽取,输出知识表达三元组;
48.实体链接模块用于按照上述方法的步骤s3把知识表达实体和知识表达三元组导入neo4j得到可视化知识图谱;
49.知识融合模块用于按照上述方法的步骤s4进行知识融合,实现对可视化知识图谱的二次优化;
50.所述质量评估模块用于上述方法的步骤s5进行质量评估。
51.本发明的有益效果在于:本发明方法中,实体识别通过增加实体类型的数量,扩大了知识图谱知识节点规模;关系抽取中,通过谓词-论元(实体)关系,提高了关系抽取的内容质量;实体链接中,通过图数据库的链接,开发了可展示的后台系统;知识融合中,通过停用词过滤、实体对齐消歧、最大连通片提取优化过滤与特定事件无关的实体和三元组关系;质量评估中,通过3组指标验证了三元组关系的可靠性。整体来说,本发明构建了一套针对社交媒体和社交网络特定事件的知识图谱构建方法,并从全流程优化的视角对实体提取、谓词-论元关系、事件停用词库进行构建和优化,并从三元组语义关系的角度对全流程进行了迭代优化。
附图说明
52.图1为本发明实施例1方法的实施原理示意图。
具体实施方式
53.以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
54.实施例1
55.本实施例提供一种针对社交媒体特定事件的知识图谱构建方法,如图1所示,包括如下步骤:
56.步骤s1、抓取原始的社交媒体数据,对数据进行清洗过滤后进行实体提取:
57.1.1)基于crf算法实现中文分词;
58.1.2)基于clara算法实现词性标注;
59.1.3)提取属性为人名、机构名、地名、时间、普通名词、方位名词、处所名词、作品
名、其他专名、名动词的标签,作为知识表达实体。
60.需要注意的是,语义角色中的实体数量》提取出的实体数量,因为语义角色中的实体未必最终形成知识表达的三元组关系。提取的知识表达实体是出现在知识表达三元组结果中的实体。
61.在本实施例中,实体提取的评价指标包括有分词、词性和命名实体。以百度paddlenlp的分词、词性、命名实体的提取结果作为训练集的正确结果,本实施例中实体提取输出的分词、词性、命名实体结果为测试集,计算准确率和召回率。
62.步骤s2、对社交媒体数据,基于步骤s1抽取得到的实体进行关系抽取:
63.2.1)提取语义角色:通过基于bert的srl模型,识别句子中的论元;
64.2.2)基于转移的依存句法分析arc-eager模型,关联谓词-论元;
65.2.3)在论元结构中,匹配命名实体,构成谓词-论元(实体)关系,输出知识表达三元组。
66.需要注意的是,步骤2.3)中,如果只找到头实体或尾实体无法构成三元组关系的,不能作为知识表达三元组输出。
67.需要说明的是,步骤s1和步骤s2的运行采用并发操作。每一个句子提取实体、提取关系的步骤一致,循环效率过低,因此,所有句子的实体提取和关系提取放入并发池,开启多进程来同时执行多任务。
68.在本实施例中,关系抽取涉及的评价指标包括有语义角色、词依存句法和语义依存。评价方式有2种:
①
以百度paddlenlp的语义角色、依存句法、语义依存为ground truth进行评价。
②
根据关系抽取模型得到的知识表达三元组划分为训练集、测试集进行评价。
69.在第
①
种评价方式中,把paddlenlp的语义角色、依存句法、语义依存作为训练集的正确结果,本实施例关系抽取输出的语义角色、依存句法、语义依存结果为测试集,计算准确率和召回率。
70.在第
②
种评价方式中,把得到的知识表达三元组随机划分为50%训练集和50%测试集,计算准确率和召回率。
71.在本实施例中,语义角色的实体列表中,可以手动添加标记语义角色。在提取的知识表达三元组关系中,扩大对比的关系的内容,从而优化知识三元组关系。
72.步骤s3、实体链接,把知识表达实体和知识表达三元组导入neo4j得到可视化知识图谱:
73.3.1)建立链接到本地neo4j图数据库;
74.3.2)导入提取的知识表达实体,包括命名实体名及其属性;
75.3.3)导入知识表达三元组。
76.步骤s4、知识融合:知识融合是对知识表达实体和知识表达三元组进行二次优化,分别进行停用词过滤、dedupe实体对齐、最大连通片提取,进行dedupe实体对齐时载入ownthink数据库。再判断此时的三元组是否和所研究的特定事件相关,若相关则输出知识融合实体和知识融合三元组,若不相关则人工添加或删除停用词,构成每个特定事件的独有停用词库,再进行停用词过滤、dedupe实体对齐、最大连通片提取,一直循环此步骤直至所有三元组都和所研究的特定事件相关。具体过程为:
77.4.1)停用词过滤:对知识表达提取的实体进行过滤,目的是通过去除一些无关紧
要的字词,达到去噪声的目的,从而增加知识图谱的可读性。
78.在英文里,比如“the”,“a”,“an”等单词或“$”,“%”,“&”等标点符号,都可以作为停用词来处理;
79.在中文里,比如“啊”、“一则”、“不尽然”等词汇或“『”、
“▲”
、
“⑥”
等符号,都可以作为停用词来处理。
80.考虑到数据文本存在中英文混杂的现象,故收集了中文和英文的停用词词典。除此之外,对于不同的社交媒体事件需要去掉一些与本事件无关的字词,所以需要通过人工根据特定事件数据情况进行添加和删减,每一个社交媒体特定事件都构建一个独有的停用词库,包括公共停用词和特定停用词。
81.4.2)实体对齐和消歧:实体对齐的目的在于发现知识图谱中指代相同事物具有相同意思的实体,是知识图谱融合的关键技术。实体消歧的本质在于一个词有很多可能的意思,也就是在不同的上下文中所表达的含义不太一样。具体过程如下:
82.4.2.1)在通过停用词过滤后的知识表达三元组数据集中,单独抽取实体,利用第三方知识库ownthink构建实体及其属性数据集作为dedupe模型的输入;
83.4.2.2)实体聚类,在dedupe模型训练的过程中存在active learning阶段,需要人工判断少量实体之间是否存在同义,来增加聚类结果的准确性。
84.4.2.3)同源替换:根据实体聚类结果,将知识表达三元组数据集中具有同一个cluster id的实体都统一成同一种表达方式。比如,“沪”、“上海”、“魔都”都表示上海,对齐后,将三个实体都替换为“上海”,增加实体之间的联系。
85.4.2.4)评价指标计算:将人工标注实体的聚类结果true id作为ground truth,与预测结果cluster id进行对比计算实体对齐模型的准确率(precision)、召回率(recall)与f-1值(f-measure)。
86.4.2.5)最大连通片提取:最大连通片提取是知识融合的最后一步,目的是通过剪枝去掉一些与所研究的特定事件主题无关或者剥离于所研究的特定事件的知识表达三元组关系。本质上是通过bfs循环遍历来找到所有连通的子图,并使用邻接矩阵的形式存储子图,最后通过排序找到节点数最多的连通子图,即为最大连通片。
87.在实体对齐和消歧阶段已经将与所研究的特定事件相关的知识表达三元组连接到知识表达三元组数据集的最大连通片上,非最大连通片所包含的信息几乎都是与所研究的特定事件无关的,经过人工调整,最后提取最大连通片,该最大连通片能够较完整的表示该特定事件的主要内容。
88.需要说明的是,在知识融合中,涉及两处人工标注操作。
89.首先是停用词过滤,对于一些公共的停用词无需人工介入,但是由于在原始语料中存在与主题事件无关的字段,因此需要对抽取出来的正确但与本事件无关的实体进行过滤,本实施例方法采取多人众包投票的形式进行特定停用词剔除,具体流程如下:
90.(1)在优化后的三元组和实体中,人工查找与所研究的特定事件无关的备选实体;
91.(2)通过多人众包投票机制决定备选的实体是否加入停用词库;
92.(3)更新后的停用词库对原始的知识表达三元组重新优化,回到步骤(1);
93.(4)反复迭代,直至停用词未更新,则输出完成停用词过滤的三元组和实体文件。
94.其次是对dedupe模型预测结果的评估,需要人工进行实体贴标聚类,并将结果与
模型预测结果相比,具体流程如下:
95.1)多人对特定事件的实体数据集进行聚类标注。标注规则:所有实体根据实体id进行升序排列,从小到大的id进行聚类标注,若判断两个实体表达同一个意思,则标注为同一个true id,其中true id从0开始;
96.2)对于得到的聚类结果使用person系数进行两两相似性计算;
97.3)在相似性较高的区域中选择最高的两组数据集,人工进行拟合得到最后人工聚类的最佳结果。
98.步骤s5、质量评估:
99.5.1)对所得的三元组文件进行实体、关系、训练集、测试集的提取;
100.5.2)对提取的实体以及关系使用transe进行嵌入表达;
101.5.3)训练样本,得到corrupt_triple(由训练集经过实体替换后得到的不存在训练集中的三元组);
102.5.4)对测试集样本进行raw测试法评价,得到三元组排名;
103.5.5)根据所得排名,计算raw测试法下mean rank(mr)、mean reciprocal rank(mrr)、hit@10的性能指标值;
104.5.6)对测试集样本进行filter测试法评价,得到三元组排名;
105.5.7)根据所得排名,计算filter测试法下mr、mrr、hit@10的性能指标值;
106.按下式计算mean reciprocal ranking(mrr)平均倒数排名
[0107][0108]
其中s是三元组集合,|s|是三元组的个数,ranki表示第i个三元组的链接预测排名。
[0109]
mean rank(mr)是看每个testing triple中正确答案也就是真实的t到底能在上述序列中排多少位,比如说t1排100,t2排200,t3排60.......,再对这些排名求平均,就得到了mean rank;按如下公式计算:
[0110][0111]
hit@10检验每个testing triple正确答案是否排在序列的前十,如果在的话就计数+1。最终排在前十的个数/总个数即为hit@10指标。按如下公式计算:
[0112][0113]
其中mean rank指标值越小越好,mrr和hit@10指标值越大越好。
[0114]
需要说明的是,假设在训练集训练出的样本不仅存在负样本还存在正样本时,盲目将这些样本与测试样本一起测试,可能会造成训练出的正样本排序在测试样本之上,从而对实验结果造成误差,因此要对训练集训练出的样本进行过滤,将正样本删除,该过程称为filter测试;没有该过程称为raw测试。
[0115]
为了保证实验的合理性及准确性,每一次训练时所得到的测试集不同,因此对20次训练结果取均值作为最终评价指标。在训练样本得到负样本以及测试样本时,存在实体进行随机替换成其它实体的步骤,由于实体的替换具有随机性,导致评价结果也具有随机
性,为了保证实验结果的客观性,所以对所得输出结果进行20次重复实验,统计实验结果并计算出各评价指标平均值当作最终评价依据。
[0116]
实施例2
[0117]
本实施例提供一种用于实现实施例1所述方法的系统,包括实体提取模块、关系抽取模块、实体链接模块、知识融合模块和质量评估模块;
[0118]
所述实体提取模块用于按照实施例1方法的步骤s1对原始的社交媒体数据进行实体提取;
[0119]
所述关系抽取模块用于按照实施例1方法的步骤s2进行关系抽取,输出知识表达三元组;
[0120]
实体链接模块用于按照实施例1方法的步骤s3把知识表达实体和知识表达三元组导入neo4j得到可视化知识图谱;
[0121]
知识融合模块用于按照实施例1方法的步骤s4进行知识融合,实现对可视化知识图谱的二次优化;
[0122]
所述质量评估模块用于按照实施例1方法的步骤s5进行质量评估。
[0123]
在本实施例中,所述实体链接模块提供了neo4j-base模块、neo4j-mate模块、neo4j-pro模块、neo4j-ui模块;
[0124]
neo4j-base模块主要提供工具类的使用,主要功能类包括csvutil、excelutil、dbutil、neo4jutil、fileutil等。其中csvuitl和excelutil为三元组文件导入和解析提供支撑;dbutil为获取数据字典提供方法调用;neo4jutil连接neo4j数据提供相应的支撑,fileutil为提供文件上传提供支撑;
[0125]
neo4j-mate模块主要用于实现mysql数据库元数据dao层关系映射,方便访问数据,并为后期提供可扩展接口。
[0126]
neo4j-pro模块用于为实现neo4j数据和mysql数据的访问,直接为前台提供controller层和service层调用;
[0127]
neo4j-ui模块为基于vue和d3.js的前端页面模块,完成了系统全部的ui功能,并与neo4j-pro配合,实现了从neo4j中查询数据到web中进行展示,以及在web进行操作同步到neo4j数据库全部分功能。
[0128]
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。
技术特征:
1.一种针对社交媒体特定事件的知识图谱构建方法,其特征在于,包括如下步骤:步骤s1、抓取原始的社交媒体数据,进行实体提取:1.1)基于crf算法实现中文分词;1.2)基于clara算法实现词性标注;1.3)提取属性为人名、机构名、地名、时间、普通名词、方位名词、处所名词、作品名、其他专名、名动词的标签,作为知识表达实体;步骤s2、对社交媒体数据,基于步骤s1抽取得到的实体进行关系抽取:从文本中识别出一对实体以及实体间的语义关系,构成关系知识表达三元组;步骤s3、实体链接,把知识表达实体和知识表达三元组导入neo4j得到可视化知识图谱;步骤s4、知识融合:对知识表达实体和知识表达三元组进行二次优化,依次进行停用词过滤、dedupe实体对齐、最大连通片提取,进行dedupe实体对齐时载入ownthink数据库;再判断此时的知识表达三元组是否和所研究的特定事件相关,若相关则输出知识融合实体和知识融合三元组,若不相关则人工添加或删除停用词,构成每个特定事件的独有停用词库,再进行停用词过滤、dedupe实体对齐、最大连通片提取,一直循环直至所有知识表达三元组都和所研究的特定事件相关;步骤s5、对所得的三元组文件进行质量评估。2.根据权利要求1所述的方法,其特征在于,步骤s2的具体过程为:2.1)提取语义角色:通过基于bert的srl模型,识别句子中的论元;2.2)基于转移的依存句法分析arc-eager模型,关联谓词-论元;2.3)在论元结构中,匹配命名实体,构成谓词-论元关系,输出知识表达三元组。3.根据权利要求2所述的方法,其特征在于,步骤2.3)中,如果只找到头实体或尾实体无法构成三元组关系的,不能作为知识表达三元组输出。4.根据权利要求1所述的方法,其特征在于,步骤s1和步骤s2的运行采用并发操作,所有句子的实体提取和关系提取放入并发池,开启多进程来同时执行多任务。5.根据权利要求1所述的方法,其特征在于,步骤s3的具体过程为:3.1)建立链接到本地neo4j图数据库;3.2)导入提取的知识表达实体,包括命名实体名及其属性;3.3)导入知识表达三元组。6.根据权利要求1所述的方法,其特征在于,步骤s4的具体过程为:4.1)停用词过滤:对知识表达提取的实体进行过滤,去除停用词,达到去噪声的目的,从而增加知识图谱的可读性;4.2)实体对齐和消歧:4.2.1)在通过停用词过滤后的知识表达三元组数据集中,单独抽取实体,利用第三方知识库ownthink构建实体及其属性数据集作为dedupe模型的输入;4.2.2)实体聚类;4.2.3)同源替换:根据实体聚类结果,将知识表达三元组数据集中具有同一个cluster id的实体都统一成同一种表达方式;4.2.4)评价指标计算:将人工标注实体的聚类结果true id作为ground truth,与预测
结果cluster id进行对比计算准确率、召回率与f-1值;4.2.5)最大连通片提取:通过bfs循环遍历来找到所有连通的子图,并使用邻接矩阵的形式存储子图,最后通过排序找到节点数最多的连通子图,即为最大连通片。7.根据权利要求6所述的方法,其特征在于,步骤4.1)中,人工根据特定事件数据情况进行添加和删减停用词,每一个社交媒体特定事件都构建一个独有的停用词库,包括公共停用词和特定停用词。8.根据权利要求6所述的方法,其特征在于,步骤4.1)的具体过程为:(1)在优化后的三元组和实体中,人工查找与所研究的特定事件无关的备选实体;(2)通过多人众包投票机制决定备选实体是否加入停用词库;(3)更新后的停用词库对原始的知识表达三元组重新优化,回到步骤(1);(4)反复迭代,直至停用词库未更新,则输出完成停用词过滤的三元组和实体文件。9.根据权利要求1所述的方法,其特征在于,步骤s5的具体过程为:5.1)对所得的三元组文件进行实体、关系、训练集、测试集的提取;5.2)对提取的实体以及关系使用transe进行嵌入表达;5.3)训练样本,得到corrupt_triple;5.4)对测试集样本进行raw测试法评价,得到三元组排名;根据所得排名,计算raw测试法下mr、mrr、hit@10的性能指标值;5.5)对测试集样本进行filter测试法评价,得到三元组排名;根据所得排名,计算filter测试法下mr、mrr、hit@10的性能指标值;其中mean rank指标值越小越好,mrr和hit@10指标值越大越好。10.一种用于实现权利要求1-9任一所述方法的系统,其特征在于,包括实体提取模块、关系抽取模块、实体链接模块、知识融合模块和质量评估模块;所述实体提取模块用于按照权利要求1-9任一所述方法的步骤s1对原始的社交媒体数据进行实体提取;所述关系抽取模块用于按照权利要求1-9任一所述方法的步骤s2对实体提取模块提取的知识表达实体进行关系抽取,输出知识表达三元组;实体链接模块用于按照权利要求1-9任一所述方法的步骤s3把知识表达实体和知识表达三元组导入neo4j得到可视化知识图谱;知识融合模块用于按照权利要求1-9任一所述方法的步骤s4进行知识融合,实现对可视化知识图谱的二次优化;所述质量评估模块用于权利要求1-9任一所述方法的步骤s5进行质量评估。
技术总结
本发明公开了一种针对社交媒体特定事件的知识图谱构建方法及系统,包括实体提取、关系抽取、实体链接、知识融合和质量评估。通过实体提取扩大了知识图谱知识节点规模;关系抽取中,通过谓词-论元关系,提高了关系抽取的内容质量;实体链接中,通过图数据库的链接,开发了可展示的后台系统;知识融合中,通过停用词过滤、实体对齐消歧、最大连通片提取优化过滤与特定事件无关的实体和三元组关系;质量评估中,验证了三元组关系的可靠性。本发明构建了针对社交媒体和社交网络特定事件的知识图谱构建方法,并从全流程优化的视角对实体提取、谓词-论元关系、事件停用词库进行构建和优化,并从三元组语义关系的角度对全流程进行了迭代优化。代优化。代优化。
技术研发人员:刘建国 李仁德 王山山 郭强
受保护的技术使用者:上海财经大学
技术研发日:2023.04.20
技术公布日:2023/7/21
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种具有存料结构的引脚整形装置的制作方法 下一篇:一种可固定工件的加热机的制作方法
