正负面情感分析方法、装置、设备及存储介质与流程

未命名 08-27 阅读:147 评论:0


1.本发明涉及舆情分析技术领域,具体涉及一种正负面情感分析方法、装置、设备及存储介质。


背景技术:

2.识别舆情的正负面倾向,是舆情分析平台对舆情进行整理分析的重要一环。针对不同领域,不同主体、不同行业对应的立场不同,因此进行的正负面计算也不相同,这就使得单一的模型一般无法解决所有行业问题。
3.相关技术中,通常在bert预训练模型的基础上进行微调,做文本分类训练,以进行不同舆情文本的正负面倾向分类。但是,对于不同的领域,需要不同的技术人员进行人工标注,耗费人力;且,当标注人员专业技能欠缺时,还会存在标注错误的现象,从而导致最终分类模型的准确度较差。
4.因此,相关技术中存在专有领域情感正负面计算准确度较差、耗费人力的技术问题。


技术实现要素:

5.有鉴于此,本发明的目的在于提供一种正负面情感分析方法、装置、设备及存储介质,以克服目前专有领域情感正负面计算准确度较差、耗费人力的技术问题。
6.为实现以上目的,本发明采用如下技术方案:
7.一方面,一种正负面情感分析方法,包括:
8.获取待分析数据,基于预先设置的实体识别词库、每个领域的主题词库,提取所述待分析数据中的实体词和主题词;
9.根据预先设置的先验知识、所述待分析数据中的实体词和主题词,得到领域主题特征,将所述待分析数据转换为模型输入格式待分析数据;
10.将所述模型输入格式待分析数据输入预先构建的正负面情感分析模型中,得到所述待分析数据的正负面情感概率值;其中,所述预先构建的正负面情感分析模型是基于模型输入格式样本数据及对应的正负面情感标签进行训练后得到,所述正负面情感标签是根据样本数据预先确定的,并与所述样本数据一一对应。
11.可选的,所述实体识别词库包括实体词和每个实体词的概念分类;其中所述概念分类根据先验知识进行分类;所述实体识别词库的构建方法,包括:
12.识别实体词数据集中的实体词,构建初级实体词库;其中,所述实体词数据集为根据海量数据集进行构建;
13.对所述初级实体词库中的实体词进行去重处理,得到去重后初级实体词库;
14.根据先验知识,对所述去重后初级实体词库中的实体词进行概念分类;
15.将去重后初级实体词库中的实体词和对应的概念分类,作为实体识别词库。
16.可选的,所述每个领域的主题词库的构建方法,包括:
17.对领域数据集中的数据根据结巴分词法进行分词,得到不同分词;其中,所述领域数据集为根据领域收集的海量数据进行构建;所述分词包括主题词;
18.通过逆文档频率计算每个分词的重要度权重;
19.基于每个分词的重要度权重,根据逐点互信息方法,计算主题词和主题词之间的牢固度;
20.根据所述主题词和主题词之间的牢固度、对应主题词的重要度权重,计算得到不同主题词和主题词组成的新重要度权重,作为不同主题词串的新重要度权重;其中,所述主题词串为根据具备不同牢固度的主题词和主题词构成;
21.通过不同的主题词串及对应的新重要度权重,构建所述领域的主题词库;其中,主题词库中的每个主题词均为主题词串。
22.可选的,所述通过不同的主题词串及对应的新重要度权重,构建所述领域的主题词库,包括:
23.根据新重要度权重的高低顺序对对应的主题词串进行排序;
24.确定新重要度权重在排序的前预设范围的主题词串或新重要度权重大于预设阈值的主题词串为该领域的主题词串,构建该领域的主题词库。
25.可选的,所述根据所述主题词和主题词之间的牢固度、对应主题词的重要度权重,计算得到不同主题词和主题词组成的新重要度权重,作为不同主题词串的新重要度权重,包括:
26.计算具备牢固度的对应的所有主题词的重要度权重的和;
27.计算所述和与对应的所述主题词和主题词之间的牢固度的乘积,将所述乘积作为所述新重要度权重。
28.可选的,所述正负面情感分析模型的构建方法,包括:
29.在样本集中获取样本数据,所述样本集中的样本均设置情感正负面标签;其中,样本集中的样本数据为通过领域关键词,收集获取;
30.基于预先设置的实体识别词库、每个领域的主题词库,提取所述样本数据中的实体词和主题词;
31.根据预先设置的先验知识、所述样本数据中的实体词和主题词,得到领域主题特征,将所述样本数据转换为模型输入格式样本数据;
32.将模型输入格式的样本数据输入至bert模型中,得到句向量和字级别向量序列;其中,所述子级别向量序列中包括多个字级别向量;
33.仅保留领域主题特征,计算平均池化,得到第一特征向量;
34.仅保留除所述领域主题特征之外的特征,计算池化,得到第二特征向量;
35.计算所述第一特征向量和第二特征向量的差值;
36.拼接所述句向量、第一特征向量、第二特征向量、差值,得到最终特征,将所述最终特征输入到全连接层,所述全连接层与输出层相连;
37.计算损失函数,对模型进行训练,得到正负面情感分析模型。
38.可选的,还包括:
39.在所述输出层,利用softmax分类器对全连接层输出的特征分类的结果进行情感分析得到情感分析结果。
40.又一方面,一种正负面情感分析装置,包括:
41.获取模块,用于获取待分析数据,基于预先设置的实体识别词库、每个领域的主题词库,提取所述待分析数据中的实体词和主题词;
42.转换模块,用于根据预先设置的先验知识、所述待分析数据中的实体词和主题词,得到领域主题特征,将所述待分析数据转换为模型输入格式待分析数据;
43.分析模块,用于将所述模型输入格式待分析数据输入预先构建的正负面情感分析模型中,得到所述待分析数据的正负面情感概率值;其中,所述预先构建的正负面情感分析模型是基于模型输入格式样本数据及对应的正负面情感标签进行训练后得到,所述正负面情感标签是根据样本数据预先确定的,并与所述样本数据一一对应。
44.又一方面,一种正负面情感分析设备,包括:处理器和存储器,所述处理器与存储器相连:
45.其中,所述处理器,用于调用并执行所述存储器中存储的程序;
46.所述存储器,用于存储所述程序,所述程序至少用于执行上述任一项所述的正负面情感分析方法。
47.又一方面,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述中任一项所述的正负面情感分析方法。
48.本发明提供的技术方案至少具备如下有益效果:
49.通过预先构建实体识别词库和领域的主题词库,从而实现自动对待分析数据中的主题词和实体词的提取,从而根据先验知识与主题词和实体词进行对应,将待分析数据转换为模型输入格式待分析数据,并输入到预先构建的正负面情感分析模型中,得到待分析数据的正负面情感概率值,其中,在对待分析数据进行处理中,考虑了具体的领域,从而提升了分析结果的准确性;另外,对实体词和领域内的主题词的自动提取,避免了人工需要逐一词汇进行标注的技术问题,解放了大部分人工标注的工作,节约了人力和时间,而引入了专业领域的主题词的先验知识,进一步提升了模型的语义理解能力。
附图说明
50.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
51.图1为本发明一实施例提供的一种正负面情感分析方法的流程示意图;
52.图2为本发明一实施例提供的一种实体识别词库中的实体词及对应的概念类别;
53.图3为本发明一实施例提供的一种正负面情感分析模型的架构示意图;
54.图4为本发明一实施例提供的一种正负面情感分析装置的结构示意图;
55.图5为本发明一实施例提供的一种正负面情感分析设备的结构示意图。
具体实施方式
56.为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基
于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
57.如背景技术记载,针对现有的舆情分析平台的全量数据,需要对一些专有领域的行业数据进行情感正负面计算,因为针对的主体不同、行业不同就对应的立场不同,所以的正负面计算也不一样。根据不同的专有领域,来计算情感正负面是精细化舆情分析的强烈需求。
58.相关技术中存在专有领域情感正负面计算准确度较差、耗费人力的技术问题。
59.基于此,本发明实施例提供一种正负面情感分析方法、装置、设备及存储介质。
60.图1为本发明一实施例提供的一种正负面情感分析方法的流程示意图,参阅图1,本实施例可以包括以下步骤:
61.步骤s11、获取待分析数据,基于预先设置的实体识别词库、每个领域的主题词库,提取待分析数据中的实体词和主题词。
62.步骤s12、根据预先设置的先验知识、待分析数据中的实体词和主题词,得到领域主题特征,将待分析数据转换为模型输入格式待分析数据。
63.步骤s13、将模型输入格式待分析数据输入预先构建的正负面情感分析模型中,得到待分析数据的正负面情感概率值;其中,预先构建的正负面情感分析模型是基于模型输入格式样本数据及对应的正负面情感标签进行训练后得到,正负面情感标签是根据样本数据预先确定的,并与样本数据一一对应。
64.在一个具体的正负面情感分析过程中,可以在获取舆情信息后,将任一舆情信息作为待分析数据,从而对该待分析数据进行正负面情感分析。
65.在确定待分析数据后,通过预先设置构建的实体识别词库和每个领域的主题词库来提取待分析数据中的实体词和主题词。例如,待分析数据可以为“黄某a又去某地m了!”可以识别到其中的“黄某a”属于实体词中的人名,“某地m”可以属于主题词中的地名。
66.在得到实体词和主题词后,根据先验知识进行匹配,即,“黄某a”对应的先验知识为“角色1”;“某地m”对应的先验知识为“机构1”。其中,先验知识为根据互联网知识,预先进行存储设定。领域主题特征为“公司负责人”。
67.在得到对应得先验知识后,可以将待分析数据转位模型输入格式待分析数据。例如,当待分析数据为“黄某a又去某地m了!”时,其对应的转换后的模型输入格式待分析数据为“cls黄某a又去某地m了!seq[角色1]又去[机构1]!seq”;当待分析数据为“xx公司负责人不作为,导致员工福利都取消了。”时,其对应的转换后的模型输入格式待分析数据为“clsxx公司负责人不作为,导致员工福利都取消了。seq[企业]负责人[特征],导致员工福利都取消了。seq”。其中,[特征]即为专有领域学习的领域主题特征,即,领域主题特征,[企业][角色1][机构1]等都为输入的先验知识。
[0068]
在得到模型输入格式待分析数据后,将模型输入格式待分析数据输入到正负面情感分析模型中进行分析,从而得到待分析数据的正负面情感概率值。例如,可以得到待分析数据“黄某a又去某地m了!”的负面情感概率值为87.5%,则可以根据该概率值判断该待分析数据为负面情感。
[0069]
可以理解的是,通过预先构建实体识别词库和领域的主题词库,从而实现自动对待分析数据中的主题词和实体词的提取,从而根据先验知识与主题词和实体词进行对应,
ieba进行分词,通过idf(逆文档频率)来计算每个分词的重要度权重idf值。由于,主题词越长,越能准确的代表此主体,越短干扰性就越大。故,在此本技术引入了pmi(逐点互信息)方法来计算上述idf中主题词与主题词之间的牢固度,从而来挖掘出主题词串。
[0084]
在计算得到主题词和主题词之间的牢固度后,将该牢固度对应的主题词作为主题词串,根据主题词串的牢固度和主题词串中主题词的重要度权重,来计算该主题词串的新重要度权重,通过不同主题词串及对应的新重要度权重,构建每个领域的主题词库。
[0085]
可以理解的是,通过采用pmi方法来构建主题词库,提升了主题词与主题词之间的关联程度,提升了主题词串的语义相关度。
[0086]
在一些实施例中,通过不同的主题词串及对应的新重要度权重,构建领域的主题词库,包括:
[0087]
根据新重要度权重的高低顺序对对应的主题词串进行排序;
[0088]
确定新重要度权重在排序的前预设范围的主题词串或新重要度权重大于预设阈值的主题词串为该领域的主题词串,构建该领域的主题词库。
[0089]
例如,前预设范围可以为前60%,预设阈值可以为72%等。
[0090]
可以理解的是,通过对新重要度权重对应的主题词串进行排序,从而可以精准获取需要采用的主题词串,从而构成主题词库。
[0091]
在一些实施例中,根据主题词和主题词之间的牢固度、对应主题词的重要度权重,计算得到不同主题词和主题词组成的新重要度权重,作为不同主题词串的新重要度权重,包括:
[0092]
计算具备牢固度的对应的所有主题词的重要度权重的和;
[0093]
计算和与对应的主题词和主题词之间的牢固度的乘积,将乘积作为新重要度权重。
[0094]
具体的,在进行结巴分词后,可以通过如下公式(1)来计算每个分词的重要度权重idf的值,通过如下公式(2)来计算每个分词的出现的概率p(w):
[0095][0096]
其中,对于任一分词,以及任一条数据,nd表示语料集中文本的总数;n
wd
表示语料集中包含分词w的文本总数。
[0097][0098]
其中,n(w)表示词w在语料集中出现的次数,s表示语料集中所有的词个数,i表示从第一个词开始;
[0099]
根据逐点互信息方法,计算主题词和主题词之间的牢固度pmi,可以表示为公式(3)和公式(4),
[0100]
[0101][0102]
其中,p(w1,w2)表示任一两个词w1和w2共现的概率(共现就是在文章中同时出现在前后相邻的位置);n(w1,w2)表示任一两个词w1和w2在语料集中共现的次数;m表示有语料集中所有词的个数;i,j表示任一两个词的索引;p(w)表示公式(2)中任一词的概率。
[0103]
在计算得到两个分词wi和分词wj的重要度权重、二者的牢固度pmi(wi,wj)后,根据公式(5)计算该主题词串的新重要度权重:
[0104]
最终权值:idf_new=(idf
wi
+idf
wj
)*pmi(wi,wj)公式(5)。
[0105]
对本技术中预先构建的正负面情感分析模型的构建方法进行说明。在一些实施例中,正负面情感分析模型的构建方法,包括:
[0106]
在样本集中获取样本数据,样本集中的样本均设置情感正负面标签;其中,样本集中的样本数据为通过领域关键词,收集获取;
[0107]
基于预先设置的实体识别词库、每个领域的主题词库,提取样本数据中的实体词和主题词;
[0108]
根据预先设置的先验知识、样本数据中的实体词和主题词,将样本数据转换为模型输入格式样本数据;
[0109]
将模型输入格式的样本数据输入至bert模型中,得到句向量和字级别向量序列;其中,子级别向量序列中包括多个字级别向量;
[0110]
仅保留领域主题特征,计算平均池化,得到第一特征向量;
[0111]
仅保留除领域主题特征之外的特征,计算池化,得到第二特征向量;
[0112]
计算第一特征向量和第二特征向量的差值;
[0113]
拼接句向量、第一特征向量、第二特征向量、差值,得到最终特征,将最终特征输入到全连接层,全连接层与输出层相连;
[0114]
计算损失函数,对模型进行训练,得到正负面情感分析模型。
[0115]
在一些实施例中,还包括:
[0116]
在输出层,利用softmax分类器对全连接层输出的特征分类的结果进行情感分析得到情感分析结果。
[0117]
图3为本发明一实施例提供的一种正负面情感分析模型的架构示意图。
[0118]
在进行模型构建时,可以将样本集划分为训练集、测试集,从而利用训练集中的样本进行训练,利用测试集中的样本进行测试。样本集中的样本数据为通过领域关键词,收集获取,样本均设置情感正负面标签。通过模型输入格式样本数据及对应的正负面情感标签进行训练后得到正负面情感分析模型。
[0119]
对模型的训练过程进行说明:
[0120]
在训练集中采集到样本数据后,对样本数据进行处理,从而将每条样本数据转换为模型输入格式,其中,转换过程与上述转换过程相同,本技术中不做赘述,请参阅上述实施例。其中,样本数据可以为舆情数据。
[0121]
可以将处理后的模型输入格式的包含标签的样本数据输入到bert模型中,在经过bert模型编码之后得到句向量cls和字级别向量序列(即,token向量序列[h1,h2,h3...hn]);其中,子级别向量序列中包括多个字级别向量。
[0122]
参阅图3,对于tokens,可以对领域主题特征,即[特征]进行保留,其他部分进行mask,即向量值不参与self-attion计算,相当于赋值0;对mask完之后的隐向量进行self-attention计算,计算过程可以为:
[0123]
通过全连接层的矩阵变换,变换成三个形状相同的矩阵q,k,v;如下
[0124]qi,s
=w
q,shi
+b
q,s
[0125]ki,s
=w
k,shi
+b
k,s
[0126]vi,s
=w
v,shi
+b
v,s
[0127]
其中,q
i,s
,k
i,s v
i,s
为通过矩阵转换得到的(i,s)维度的三个形状相同的矩阵;w
k,s
,w
q,s
,w
v,s
为三个初始化的学习参数,需要训练的参数;b
q,s
,b
k,s
,b
v,s
为偏置即防止过拟合加入的计算部分。
[0128]
通过矩阵变换之后,得到q,k,v向量序列,如下:
[0129]
[q
1,s
,q
2,s
,...,q
n,s
],[k
1,s
,k
2,s
,...,k
n,s
],[v
1,s
,v
2,s
,...,v
n,s
]
[0130][0131]
h=tanh(w
t
*z+b
t
)
[0132][0133]
其中,dk为隐藏层隐向量的维度,z为自注意力的计算权值,q,k,v为上述计算的转换矩阵;h为加入了一层全连接层,tanh是全连接层的激活函数,w
t
是全连接层的学习参数,b
t
是全连接层的偏置即防止过拟合;avg_pooling是对全连接层h的输出求计算均值池化,即,k是h的第一维度。
[0134]
其中,h1为仅保留领域主题特征,计算平均池化,得到的第一特征向量。
[0135]
对领域主题特征进行mask,其他部分对应的隐向量进行保留,根据上述计算方法,计算第二特征向量h2。
[0136]
计算h2与h1的差异性,如下:
[0137][0138]
最终特征可表示为:即所有特征向量进行拼接而成,最终通过一层全连接层(fully connected layer)输入到输出层(output layer)。
[0139]
最终特征通过一层全连接层输出层如下:
[0140]
f(xi)=tanh(w*hiddeni+b)
[0141]
通过softmax函数输出分类结果概率分别:
[0142][0143]
通过交叉熵来计算loss,并进行误差反向传播更新参数:
[0144]
[0145]
其中:p(y)为正负面情感类别的真实标签,q(y)为上述softmax函数计算出来的预测类别概率分布。
[0146]
最后通过loss反向传播进行模型参数训练,得到最终的正负面情感分析模型。
[0147]
可以理解的是,在模型构建过程中,对领域主题特征和非领域主题特征进行语义网络差异化学习,从而获取准确的上下文语义特征,从而来计算情感正负面属性,提升了模型计算情感正负面属性的准确性。
[0148]
基于一个总的发明构思,本发明实施例提供一种正负面情感分析装置,用于实现上述方法实施例。
[0149]
图4为本发明一实施例提供的一种正负面情感分析装置的结构示意图,参阅图4,该装置可以包括以下结构:
[0150]
获取模块41,用于获取待分析数据,基于预先设置的实体识别词库、每个领域的主题词库,提取待分析数据中的实体词和主题词;
[0151]
转换模块42,用于根据预先设置的先验知识、待分析数据中的实体词和主题词,得到领域主题特征,将待分析数据转换为模型输入格式待分析数据;
[0152]
分析模块43,用于将模型输入格式待分析数据输入预先构建的正负面情感分析模型中,得到待分析数据的正负面情感概率值;其中,预先构建的正负面情感分析模型是基于模型输入格式样本数据及对应的正负面情感标签进行训练后得到,正负面情感标签是根据样本数据预先确定的,并与样本数据一一对应。
[0153]
可选的,还包括:构建模块,用于识别实体词数据集中的实体词,构建初级实体词库;其中,实体词数据集为根据海量数据集进行构建;
[0154]
对初级实体词库中的实体词进行去重处理,得到去重后初级实体词库;
[0155]
根据先验知识,对去重后初级实体词库中的实体词进行概念分类;
[0156]
将去重后初级实体词库中的实体词和对应的概念分类,作为实体识别词库。
[0157]
可选的,构建模块,还用于对领域数据集中的数据根据结巴分词法进行分词,得到不同分词;其中,领域数据集为根据领域收集的海量数据进行构建;分词包括主题词;
[0158]
通过逆文档频率计算每个分词的重要度权重;
[0159]
基于每个分词的重要度权重,根据逐点互信息方法,计算主题词和主题词之间的牢固度;
[0160]
根据主题词和主题词之间的牢固度、对应主题词的重要度权重,计算得到不同主题词和主题词组成的新重要度权重,作为不同主题词串的新重要度权重;其中,主题词串为根据具备不同牢固度的主题词和主题词构成;
[0161]
通过不同的主题词串及对应的新重要度权重,构建领域的主题词库;其中,主题词库中的每个主题词均为主题词串。
[0162]
可选的,构建模块,具体用于根据新重要度权重的高低顺序对对应的主题词串进行排序;
[0163]
确定新重要度权重在排序的前预设范围的主题词串或新重要度权重大于预设阈值的主题词串为该领域的主题词串,构建该领域的主题词库。
[0164]
可选的,构建模块,具体用于计算具备牢固度的对应的所有主题词的重要度权重的和;
[0165]
计算和与对应的主题词和主题词之间的牢固度的乘积,将乘积作为新重要度权重。
[0166]
可选的,构建模块,还用于在样本集中获取样本数据,样本集中的样本均设置情感正负面标签;其中,样本集中的样本数据为通过领域关键词,收集获取;
[0167]
基于预先设置的实体识别词库、每个领域的主题词库,提取样本数据中的实体词和主题词;
[0168]
根据预先设置的先验知识、样本数据中的实体词和主题词,得到领域主题特征,将样本数据转换为模型输入格式样本数据;
[0169]
将模型输入格式的样本数据输入至bert模型中,得到句向量和字级别向量序列;其中,子级别向量序列中包括多个字级别向量;
[0170]
仅保留领域主题特征,计算平均池化,得到第一特征向量;
[0171]
仅保留除领域主题特征之外的特征,计算池化,得到第二特征向量;
[0172]
计算第一特征向量和第二特征向量的差值;
[0173]
拼接句向量、第一特征向量、第二特征向量、差值,得到最终特征,将最终特征输入到全连接层,全连接层与输出层相连;
[0174]
计算损失函数,对模型进行训练,得到正负面情感分析模型。
[0175]
可选的,构建模块,还用于在输出层,利用softmax分类器对全连接层输出的特征分类的结果进行情感分析得到情感分析结果。
[0176]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0177]
通过预先构建实体识别词库和领域的主题词库,从而实现自动对待分析数据中的主题词和实体词的提取,从而根据先验知识与主题词和实体词进行对应,将待分析数据转换为模型输入格式待分析数据,并输入到预先构建的正负面情感分析模型中,得到待分析数据的正负面情感概率值,其中,在对待分析数据进行处理中,考虑了具体的领域,从而提升了分析结果的准确性;另外,对实体词和领域内的主题词的自动提取,避免了人工需要逐一词汇进行标注的技术问题,解放了大部分人工标注的工作,节约了人力和时间,而引入了专业领域的主题词的先验知识,进一步提升了模型的语义理解能力。
[0178]
基于一个总的发明构思,本发明实施例还提供一种正负面情感分析设备,用于实现上述方法实施例。
[0179]
图5为本发明一实施例提供的一种正负面情感分析设备的结构示意图,参阅图5,本实施例的正负面情感分析设备包括处理器51和存储器52,处理器51与存储器52相连。其中,处理器51用于调用并执行存储器52中存储的程序;存储器52用于存储程序,程序至少用于执行以上实施例中的正负面情感分析方法。
[0180]
本技术实施例提供的正负面情感分析设备的具体实施方案可以参考以上任意实施例的正负面情感分析方法的实施方式,此处不再赘述。
[0181]
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
[0182]
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义
是指至少两个。
[0183]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
[0184]
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0185]
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0186]
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
[0187]
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0188]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0189]
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

技术特征:
1.一种正负面情感分析方法,其特征在于,包括:获取待分析数据,基于预先设置的实体识别词库、每个领域的主题词库,提取所述待分析数据中的实体词和主题词;根据预先设置的先验知识、所述待分析数据中的实体词和主题词,得到领域主题特征,将所述待分析数据转换为模型输入格式待分析数据;将所述模型输入格式待分析数据输入预先构建的正负面情感分析模型中,得到所述待分析数据的正负面情感概率值;其中,所述预先构建的正负面情感分析模型是基于模型输入格式样本数据及对应的正负面情感标签进行训练后得到,所述正负面情感标签是根据样本数据预先确定的,并与所述样本数据一一对应。2.根据权利要求1所述的方法,其特征在于,所述实体识别词库包括实体词和每个实体词的概念分类;其中所述概念分类根据先验知识进行分类;所述实体识别词库的构建方法,包括:识别实体词数据集中的实体词,构建初级实体词库;其中,所述实体词数据集为根据海量数据集进行构建;对所述初级实体词库中的实体词进行去重处理,得到去重后初级实体词库;根据先验知识,对所述去重后初级实体词库中的实体词进行概念分类;将去重后初级实体词库中的实体词和对应的概念分类,作为实体识别词库。3.根据权利要求1所述的方法,其特征在于,所述每个领域的主题词库的构建方法,包括:对领域数据集中的数据根据结巴分词法进行分词,得到不同分词;其中,所述领域数据集为根据领域收集的海量数据进行构建;所述分词包括主题词;通过逆文档频率计算每个分词的重要度权重;基于每个分词的重要度权重,根据逐点互信息方法,计算主题词和主题词之间的牢固度;根据所述主题词和主题词之间的牢固度、对应主题词的重要度权重,计算得到不同主题词和主题词组成的新重要度权重,作为不同主题词串的新重要度权重;其中,所述主题词串为根据具备不同牢固度的主题词和主题词构成;通过不同的主题词串及对应的新重要度权重,构建所述领域的主题词库;其中,主题词库中的每个主题词均为主题词串。4.根据权利要求3所述的方法,其特征在于,所述通过不同的主题词串及对应的新重要度权重,构建所述领域的主题词库,包括:根据新重要度权重的高低顺序对对应的主题词串进行排序;确定新重要度权重在排序的前预设范围的主题词串或新重要度权重大于预设阈值的主题词串为该领域的主题词串,构建该领域的主题词库。5.根据权利要求3所述的方法,其特征在于,所述根据所述主题词和主题词之间的牢固度、对应主题词的重要度权重,计算得到不同主题词和主题词组成的新重要度权重,作为不同主题词串的新重要度权重,包括:计算具备牢固度的对应的所有主题词的重要度权重的和;计算所述和与对应的所述主题词和主题词之间的牢固度的乘积,将所述乘积作为所述
新重要度权重。6.根据权利要求1所述的方法,其特征在于,所述正负面情感分析模型的构建方法,包括:在样本集中获取样本数据,所述样本集中的样本均设置情感正负面标签;其中,样本集中的样本数据为通过领域关键词,收集获取;基于预先设置的实体识别词库、每个领域的主题词库,提取所述样本数据中的实体词和主题词;根据预先设置的先验知识、所述样本数据中的实体词和主题词,得到领域主题特征,将所述样本数据转换为模型输入格式样本数据;将模型输入格式的样本数据输入至bert模型中,得到句向量和字级别向量序列;其中,所述子级别向量序列中包括多个字级别向量;仅保留领域主题特征,计算平均池化得到第一特征向量;仅保留除所述领域主题特征之外的特征,计算池化得到第二特征向量;计算所述第一特征向量和第二特征向量的差值;拼接所述句向量、第一特征向量、第二特征向量、差值,得到最终特征,将所述最终特征输入到全连接层,所述全连接层与输出层相连;计算损失函数,对模型进行训练,得到正负面情感分析模型。7.根据权利要求6所述的方法,其特征在于,还包括:在所述输出层,利用softmax分类器对全连接层输出的特征分类的结果进行情感分析得到情感分析结果。8.一种正负面情感分析装置,其特征在于,包括:获取模块,用于获取待分析数据,基于预先设置的实体识别词库、每个领域的主题词库,提取所述待分析数据中的实体词和主题词;转换模块,用于根据预先设置的先验知识、所述待分析数据中的实体词和主题词,得到领域主题特征,将所述待分析数据转换为模型输入格式待分析数据;分析模块,用于将所述模型输入格式待分析数据输入预先构建的正负面情感分析模型中,得到所述待分析数据的正负面情感概率值;其中,所述预先构建的正负面情感分析模型是基于模型输入格式样本数据及对应的正负面情感标签进行训练后得到,所述正负面情感标签是根据样本数据预先确定的,并与所述样本数据一一对应。9.一种正负面情感分析设备,其特征在于,包括:处理器和存储器,所述处理器与存储器相连:其中,所述处理器,用于调用并执行所述存储器中存储的程序;所述存储器,用于存储所述程序,所述程序至少用于执行权利要求1-7任一项所述的正负面情感分析方法。10.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1~7中任一项所述的正负面情感分析方法。

技术总结
本发明涉及一种正负面情感分析方法、装置、设备及存储介质,属于舆情分析技术领域。该方法、装置、设备及存储介质通过预先构建实体识别词库和领域主题词库,从而实现自动对待分析数据中的主题词和实体词的提取,将先验知识与主题词和实体词进行对应,将待分析数据转换为模型输入格式待分析数据,并输入到预先构建的正负面情感分析模型中,得到待分析数据的正负面情感概率值,其中,对实体词和领域内的主题词的自动提取,避免了人工需要逐一词汇进行标注的技术问题,解放了大部分人工标注的工作,节约了人力和时间,而引入了专业领域的主题词的先验知识,进一步提升了模型的语义理解能力。能力。能力。


技术研发人员:韩勇 李青龙 骆飞 赵冲
受保护的技术使用者:北京智慧星光信息技术有限公司
技术研发日:2023.02.13
技术公布日:2023/8/24
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐