一种面向金融的语言情感分析和标注方法
未命名
08-15
阅读:114
评论:0
1.本发明涉及机器学习技术领域,具体而言,涉及一种面向金融的语言情感分析和标注方法。
背景技术:
2.随着信息技术的快速发展,互联网成为了重要的信息源。据统计,网络环境中80%以上的信息是以非结构化的文本形式存在的。舆情文本已成为金融信息的重要载体之一,如企业的财务公告、财经门户的新闻事件、金融论坛中投资者的经验分享、证券机构的研究报告、微信公众号的财经分析以及交易网站的产品评论等。上述海量的文本数据中蕴藏着丰富的知识,收集此类信息,并挖掘其中蕴含的知识,对有效防范和化解风险、实时发现金融事件以及提供常态化决策支持,将会是强有力的支撑。
3.目前,通常采用人工的方式,来挖掘和分析舆情文本数据中蕴含的知识。然而,由于舆情文本数据的体量较大,海量文本数据中蕴含的知识体系又极为复杂,因此这种人工挖掘和分析的方式,会影响舆情文本数据的分析效率,也无法保证舆情文本分析结果的准确度。
技术实现要素:
4.本发明提供一种面向金融的语言情感分析和标注方法,主要在于能够提高海量舆情文本数据的分析效率和精度。
5.根据本发明实施例的第一方面,提供一种面向金融的语言情感分析和标注方法,包括:
6.获取待分析的舆情文本;
7.根据预设文字索引表,确定所述舆情文本中每个字符对应的索引;
8.根据所述每个字符对应的索引,确定所述舆情文本对应的输入向量矩阵;
9.将所述舆情文本对应的输入向量矩阵输入至预设舆情分析模型中进行文本情感分类,得到所述舆情文本对应的情感分类结果,其中,在所述预设舆情分析模型的精调训练过程中对舆情训练样本进行局部文字遮挡;
10.基于所述情感分类结果对所述舆情文本进行情感极性标注。
11.根据本发明实施例的第二方面,提供一种面向金融的语言情感分析和标注装置,包括:
12.获取单元,用于获取待分析的舆情文本;
13.第一确定单元,用于根据预设文字索引表,确定所述舆情文本中每个字符对应的索引;
14.第二确定单元,用于根据所述每个字符对应的索引,确定所述舆情文本对应的输入向量矩阵;
15.分析单元,用于将所述舆情文本对应的输入向量矩阵输入至预设舆情分析模型中
进行文本情感分类,得到所述舆情文本对应的情感分类结果,其中,在所述预设舆情分析模型的精调训练过程中对舆情训练样本进行局部文字遮挡;
16.标注单元,用于基于所述情感分类结果对所述舆情文本进行情感极性标注。
17.根据本发明实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
18.获取待分析的舆情文本;
19.根据预设文字索引表,确定所述舆情文本中每个字符对应的索引;
20.根据所述每个字符对应的索引,确定所述舆情文本对应的输入向量矩阵;
21.将所述舆情文本对应的输入向量矩阵输入至预设舆情分析模型中进行文本情感分类,得到所述舆情文本对应的情感分类结果,其中,在所述预设舆情分析模型的精调训练过程中对舆情训练样本进行局部文字遮挡;
22.基于所述情感分类结果对所述舆情文本进行情感极性标注。
23.根据本发明实施例的第四方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
24.获取待分析的舆情文本;
25.根据预设文字索引表,确定所述舆情文本中每个字符对应的索引;
26.根据所述每个字符对应的索引,确定所述舆情文本对应的输入向量矩阵;
27.将所述舆情文本对应的输入向量矩阵输入至预设舆情分析模型中进行文本情感分类,得到所述舆情文本对应的情感分类结果,其中,在所述预设舆情分析模型的精调训练过程中对舆情训练样本进行局部文字遮挡;
28.基于所述情感分类结果对所述舆情文本进行情感极性标注。
29.本发明实施例的创新点包括:
30.1、以bert预训练模型为基础框架,利用舆情样本数据对模型进行精调训练,构建预设舆情分析模型,以实现自动分析舆情文本情感极性的功能是本发明实施例的创新点之一。
31.2、在精调训练过程中对舆情训练样本进行局部文字遮挡,以增强模型快速学习上下文语义的能力是本发明实施例的创新点之一。
32.本发明提供的一种面向金融的语言情感分析和标注方法,与现有人工挖掘和分析的方式相比,能够获取待分析的舆情文本,并根据预设文字索引表,确定所述舆情文本中每个字符对应的索引,与此同时,根据所述每个字符对应的索引,确定所述舆情文本对应的输入向量矩阵,接着将所述舆情文本对应的输入向量矩阵输入至预设舆情分析模型中进行文本情感分类,得到所述舆情文本对应的情感分类结果,其中,在所述预设舆情分析模型的精调训练过程中对舆情训练样本进行局部文字遮挡,最终基于所述情感分类结果对所述舆情文本进行情感极性标注。由此可知,本发明通过以bert预训练模型为基础框架,利用舆情样本数据对模型进行精调训练,构建预设舆情分析模型,并利用构建的预设舆情分析模型自动分析舆情文本的情感极性,能够提高海量舆情文本数据的分析效率和精度。此外,由于本发明在模型精调训练的过程中对舆情训练样本进行了局部文字遮挡,因此能够增强预设舆情分析模型学习上下文语义的能力,从而能够进一步提高模型的分析精度。
33.上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,
而可依照说明书的内容予以实施,并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。
附图说明
34.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
35.图1示出了本发明实施例提供的一种面向金融的语言情感分析和标注方法流程示意图;
36.图2示出了本发明实施例提供的bert模型的整体框架示意图;
37.图3示出了本发明实施例提供的舆情数据样本;
38.图4示出了本发明实施例提供的一种面向金融的语言情感分析和标注装置的结构示意图;
39.图5示出了本发明实施例提供的另一种面向金融的语言情感分析和标注装置的结构示意图;
40.图6示出了本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
41.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
42.需要说明的是,本发明实施例及附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
43.由于舆情文本数据的体量较大,海量文本数据中蕴含的知识体系又极为复杂,现有人工挖掘和分析的方式,会影响舆情文本数据的分析效率,也无法保证舆情文本分析结果的准确度。
44.为了克服上述缺陷,本发明实施例提供了一种面向金融的语言情感分析和标注方法,如图1所示,该方法包括:
45.步骤101、获取待分析的舆情文本。
46.其中,待分析的舆情文本可以为舆情新闻标题。
47.本发明实施例主要适用于利用预设舆情分析模型自动分析舆情文本情感极性的场景。本发明实施例的执行主体为能够构建预设舆情分析模型,并利用其自动分析舆情文本情感极性的装置或者设备,具体可以设置在服务器一侧。
48.对于本发明实施例,先获取待分析的舆情文本,之后对待分析的舆情文本进行分词处理。需要说明的是,在本发明实施例中不仅可以将待分析的舆情文本拆分成各个分词,
还可以对其进行更细力度粒度的拆分,即将待分析的舆情文本拆分成单个字符。例如,待分析的舆情文本为“债市行情良好”,经过分词处理之后,得到“债”,“市”,“行”,“情”,“良”,“好”,“。”。接着在文本的首尾分别加入“[cls]”和“[sep]”,并将不足预设序列长度的段落序列填充为零向量(padding),对超过预设序列长度的段落序列则进行截断。其中,预设序列长度可以根据实际的业务需求进行设定,如设定预设序列长度为40。
[0049]
步骤102、根据预设文字索引表,确定所述舆情文本中每个字符对应的索引。
[0050]
其中,预设文字索引表中包括不同文字对应的索引。
[0051]
对于本发明实施例,在待分析的舆情文本经过上述处理之后,根据预设文字索引表,确定其中每个字符对应的索引,由此能够得到待分析的舆情文本的索引矩阵。
[0052]
步骤103、根据所述每个字符对应的索引,确定所述舆情文本对应的输入向量矩阵。
[0053]
对于本发明实施例,为了确定待分析的舆情文本的输入向量矩阵,步骤103具体包括:根据所述每个字符对应的索引,确定所述舆情文本对应的字向量矩阵;根据所述每个字符在所述舆情文本中的位置信息,确定所述舆情文本对应的位置向量矩阵;根据所述每个字符在所述舆情文本中所属的语句,确定所述舆情文本对应的文本向量矩阵;将所述字向量矩阵、所述位置向量矩阵和所述文本向量矩阵相加,得到所述舆情文本对应的输入向量矩阵。
[0054]
具体地,待分析的舆情文本的输入向量矩阵包括字向量矩阵、位置向量矩阵和文本向量矩阵。对于字向量矩阵,可以根据每个字符对应的索引,确定待分析的舆情文本对应的索引矩阵,从而确定待分析的舆情文本对应的字向量矩阵;对于位置向量矩阵,可以根据每个字符在待分析的舆情文本中的位置信息确定;对于文本向量矩阵,可以根据每个字符在待分析的舆情文本中的所属语句确定。
[0055]
最终将字向量矩阵、位置向量矩阵和文本向量矩阵相加,便可以得到待分析的舆情文本对应的输入向量矩阵。
[0056]
步骤104、将所述舆情文本对应的输入向量矩阵输入至预设舆情分析模型中进行文本情感分类,得到所述舆情文本对应的情感分类结果。
[0057]
其中,舆情文本的情感分类结果包括正面和负面。本发明实施例在预设舆情分析模型的精调训练过程中对舆情训练样本进行局部文字遮挡,以增强模型快速学习上下文语义的能力。该预设舆情分析模型包括增强语义向量提取模型和情感分类模型,增强语义向量提取模型为bert模型,情感分类模型为单层线性分类器,即本发明实施例采用的预设舆情分析模型以bert模型为基础框架,并外接一层线性分类器。此外,本发明实施例采用的bert模型本质上是双向transformer的编码器(encoder),舍弃了原有的解码器(decoder),使得模型具有较强的双向编码能力和特征提取能力,bert模型的整体框架如图2所示。
[0058]
对于本发明实施例,为了自动分析舆情文本的情感极性,步骤104具体包括:将所述舆情文本对应的输入向量矩阵输入至所述增强语义向量提取模型中进行增强语义提取,得到所述舆情文本中每个字符对应的增强语义向量;将所述每个字符对应的增强语义向量输入至所述情感分类模型中进行情感分类,得到所述舆情文本对应的情感分类结果。
[0059]
进一步地,增强语义向量提取模型包括注意力层和前馈神经网络层,所述将所述舆情文本对应的输入向量矩阵输入至所述增强语义向量提取模型中进行增强语义提取,得
到所述舆情文本中每个字符对应的增强语义向量,包括:将所述输入向量矩阵分别与所述注意力层的相应权重矩阵相乘,得到所述输入向量矩阵对应的查询向量矩阵、键向量矩阵和值向量矩阵;根据所述查询向量矩阵、所述键向量矩阵和所述值向量矩阵,计算所述注意力层输出的注意力矩阵;根据所述注意力矩阵,确定所述舆情文本中每个字符对应的增强语义向量。
[0060]
具体地,先将待分析的舆情文本对应的输入向量矩阵输入至bert模型编码器的注意力层进行处理,该输入向量矩阵通过与不同的权重矩阵相乘,能够得到查询向量矩阵、键向量矩阵和值向量矩阵。之后根据查询向量矩阵、键向量矩阵和值向量矩阵,计算注意力层输出的注意力矩阵,具体公式如下:
[0061][0062]
其中,q为查询向量矩阵,k为键向量矩阵,v为值向量矩阵,dk为键向量的维数。由此按照上述公式可以得到注意力层输出的注意力矩阵,接着将该注意力矩阵输入至bert模型编码器的前馈神经网络层进行处理,输出每个字符对应的增强语义向量。
[0063]
最终将每个字符对应的增强语音向量输入至单层线性分类器中进行情感极性分类,得到待分析的舆情文本对应的情感分类结果,并在界面中展示该情感分类结果。
[0064]
进一步地,为了实现自动分析舆情文本情感极性的功能,本发明实施例需要预先构建好预设舆情分析模型。基于此,在将所述舆情文本对应的输入向量矩阵输入至预设舆情分析模型中进行文本情感分类,得到所述舆情文本对应的情感分类结果之前,所述方法还包括:收集舆情数据样本;对所述舆情数据样本进行预处理,得到预处理后的舆情数据样本;根据所述预处理后的舆情数据样本,确定所述舆情训练样本;基于所述舆情训练样本,构建所述预设舆情分析模型。其中,该预设舆情分析模型包括增强语义向量提取模型和情感分类模型,增强语义向量提取模型为bert模型,情感分类模型为单层线性分类器。
[0065]
具体地,先收集大量的舆情新闻标题作为原始的舆情数据样本,并对其进行预处理,如图3所示,这些舆情数据样本根据舆情情感极性可以分为正面和负面两类,根据一级风险标签可以分为经营预警、管理预警、市场预警、产品预警、财务预警、项目预警等。
[0066]
由于同一条新闻可能存在多个涉事主体,不同的主体发生的不同金融事件会被判定为不同的一级风险标签,因此对于同一条舆情新闻,可能存在多个一级风险标签,同理该现象也存在于情感极性的分类标签中。因此,为了保证同一条新闻仅存在唯一一个情感极性标签和一级风险标签,本发明实施例清除同一新闻标题对应多个标签的样本。此外,为了保证每个样本均绑定一个标签,本发明实施例清除了标签为缺省值(nan)的样本。
[0067]
进一步地,对于一级风险标签,同一标签可能会存在不同表述的情况,例如,“经营预警”和“经营”,“管理预警”和“管理”。因此,针对这一类标签,本发明实施例进行统一化处理,即针对“经营预警”和“经营”,统一使用“经营预警”作为这两种样本的统一标签。由此经过上述处理,能够得到预处理后的舆情数据样本。
[0068]
最终按照80%、10%和10%的配比,将预处理后的舆情数据样本及其标签分别划分为训练集、验证集和测试集。该训练集中的数据即为舆情训练样本。
[0069]
进一步地,针对预设舆情分析模型的具体构建过程,作为一种可选实施方式,所述
方法包括:获取初始增强语义向量提取模型和初始情感分类模型;将所述舆情训练样本对应的输入向量矩阵输入至所述初始增强语义向量提取模型的注意力层进行处理,得到舆情训练样本对应的初始注意力矩阵;对所述初始注意力矩阵进行调整,得到调整后的初始注意力矩阵;根据所述调整后的初始注意力矩阵,确定所述舆情训练样本中每个字符对应的初始增强语义向量;将所述舆情训练样本中每个字符对应的初始增强语义向量输入至所述初始情感分类模型中进行情感分类,得到所述舆情训练样本对应的预测情感分类结果;根据所述预测情感分类结果和所述舆情训练样本对应的实际情感分类结果,对所述初始增强语义向量提取模型和所述初始情感分类模型进行联合迭代训练,重复模型迭代训练过程,直至满足预设条件时,停止迭代训练,输出训练好的增强语义向量提取模型和情感分类模型;根据所述增强语义向量提取模型和所述情感分类模型,确定所述预设舆情分析模型。
[0070]
进一步地,所述对所述初始注意力矩阵进行调整,得到调整后的初始注意力矩阵,包括:随机确定所述舆情训练样本中的遮挡字符;根据所述遮挡字符和非遮挡字符,构建遮挡矩阵,其中,在所述遮挡矩阵中所述遮挡字符所在位置的数值为1,非遮挡字符所在位置的数值为0;利用所述遮挡矩阵,对所述初始注意力矩阵进行调整,得到调整后的初始注意力矩阵。
[0071]
其中,所述初始增强语义向量提取模型已经过预训练。
[0072]
具体地,采用遮挡语言模型(masked language model,mlm)和下一句预测(next sentence prediction,nsp)两种方法对bert模型进行预训练。对于mlm,其关键之处在于引入带[mask]标记的语言模型训练,即在原始的舆情训练样本中,通过随机抽取的方式,选中其中15%的字符,将字符替换为[mask]。在这些被选中的字符中,[mask]标记字符存在3个选择:第一个选择是有80%的概率通过[mask]标记该字符,比如“债券是一种有价证券”替换为“债券是一种有[mask]证券”;第二个选择是有10%的概率用一个随机字符替换该字符,比如“债券是一种有价证券”替换为“债券是一种有用证券”;第三个选择是有10%的概率保持该字符不变,比如“债券是一种有价证券”替换为“债券是一种有价证券”。
[0073]
经过上述操作,会导致bert模型的编码器在训练过程中,不清楚原文本由哪些字符组成,哪些字符被替换为[mask]标记,甚至被替换为其他字符。类似这种高度不确定的猜谜任务,倒逼着模型具有快速学习该字上下文语义的能力。此外,由于原文本中只有15%的字符参与了[mask]标记操作,因此并不会严重破坏原语言的表达能力和语法规则。
[0074]
对于nsp任务,该任务旨在预测位置次序相邻的两句话是否为真实的上下句。该任务主要为了服务问答、推理、句子主题关系等nlp任务。该任务的数据集样本由两个句子和对应的标签构成,其主要分为2种类型:1)50%的样本为原始文本中真实的上下文(正样本);2)50%的样本中的下文为原始文本中随机抽取的一句话(负样本)。
[0075]
本发明实施例通过采用mlm和nsp两种方法对bert模型进行预训练,能够确定bert模型中的初始参数,为后面的精调训练提供基础。
[0076]
在得到bert预训练模型之后,结合初始单层线性分类器,得到初始舆情分析模型,之后将舆情训练样本输入至初始舆情分析模型进行情感分类,得到舆情训练样本对应的预测情感分类结果。接着根据舆情训练样本对应的预测情感分类结果和真实情感分类结果,计算损失函数值,并根据该损失函数值对初始舆情分析模型进行精调训练,构建预设舆情分析模型。
[0077]
进一步地,本发明实施例采用的bert预训练模型,共12层,每层的隐变量为768维,12个注意力头,共110m参数。所用词向量包括自带的预训练词向量(21128个),位置向量(128种),语句分块向量(2种,以0和1分别区分上下句)。此外,为了方便后续向量统一求和操作,外接的线性分类器由dropout层、线性层和softmax层构成。其中,dropout率设为0.1,线性层的输入维度为768,输出维度为2。此外,该模型使用adamw优化器,学习率为0.00005,每批次样本数为128,最大训练轮次为12,损失函数为交叉熵损失。训练过程停止的条件为:至少满足2轮在验证集上的损失不再下降。
[0078]
由此可知,本发明实施例为了实现自动分析舆情文本情感极性的功能,采用了bert预训练模型作为基础框架,并利用舆情样本数据对模型进行精调训练,稳定收敛的舆情分析模型能够对待分析的舆情文本进行智能打标,从而能够辅助业务人员对企业、资产进行精细打分。
[0079]
步骤105、基于所述情感分类结果对所述舆情文本进行情感极性标注。
[0080]
对于本发明实施例,在得到情感分类结果之后,可以对舆情文本进行自动标注,例如,如果舆情文本是正面,则标记1;如果舆情文本是负面,则标记0。
[0081]
进一步地,本发明实施例为了能够展示情感分类结果,还针对分析系统进行了可视化设计。本发明实施例对于数据可视化的要求比较高,不仅需要显示各类图表,展示大规模数据,还需要保障整体的视觉效果。相比于传统操作dom的前端开发方式,本发明实施例更关注应用中数据的变化,因此采用react完成ui的渲染。由于react可以基于模块进行开发,因此能够增加整体应用的可拓展性,以及整体系统的性能和稳定性,不仅如此,react还有其他强大的生态系统,提供数以万计的扩展组件,在可视化设计的过程中,本发明实施例使用了以下开源工具,包括:apache echarts、mui、formik、chroma.js、axios、redux。其中,apache echarts是一个基于javascript的开源可视化图表库,可以流畅的运行在pc和移动设备上,兼容当前绝大部分浏览器(ie9/10/11,chrome,firefox,safari等),底层依赖矢量图形库zrender,提供直观,交互丰富,可高度个性化定制的数据可视化图表;mui是一款通过react组件库来实现material design风格的ui界面框架,使用它可以快速搭建出赏心悦目的应用界面;formik是一个可以在react中构建表单的组件,可以帮助用户解决问题,并避免产生过多的性能成本:chroma.js是一个微型的javascript库,适用于各种颜色的处理,可实现各种颜色的转换和色阶处理;axios提供了易于扩展的接口;redux是一个管理和更新应用状态的工具库,它以集中式store(centralized store)的方式对整个应用中使用的状态进行集中管理,其规则确保状态只能以可预测的方式更新。
[0082]
进一步地,本发明实施例还涉及分析系统的后端设计,由于舆情分析模型是通过pytorch/tensorflow等python开源机器学习框架开发训练完成的,并且分析系统需要实时调用机器学习模型来进行债市舆情文本的评估和预测,因此本发明实施例需要支持后端程序可以实时调用基于python机器学习框架开发的模型。
[0083]
为了能够提供前端可视化交互界面所需的数据,以及支持常规的用户登录和管理等功能,本发明实施例设计的后端系统需要同时兼具web api的基本功能,以满足前端数据的增删改查需求,与此同时,后端系统还需要支持与后台数据库的对接,支持基本的数据存储、查询和修改功能。
[0084]
进一步地,为了更好的和基于python机器学习框架开发的模型进行整合,以及支
持前端界面所需的后端api交互端口,本发明实施例采用fastapi作为后端restful api的开发框架,用以支持上传舆情文本数据集、查阅已上传数据集、支持用户数据的增删改查等基本功能。
[0085]
fastapi是一个使用python编写的轻量级web应用框架,flask使用bsd授权,fastapi也被称为“microframework”,因为它使用简单的核心,用extension增加其他功能。flask没有默认使用的数据库、窗体验证工具。然而,flask保留了扩增的弹性,可以用extension加入这些功能:orm、窗体验证工具、文件上传、各种开放式身份验证技术。
[0086]
进一步地,本发明实施例还涉及分析系统的数据库设计,本发明实施例对于数据库有如下关键功能需求:支持批量的存入训练数据和测试数据集;支持快速检索海量舆情文本,可通过单个关键字或多个关键字检索;支持基本的用户和舆情元数据的数据保存、添加、删除和修改。
[0087]
考虑到上述功能和其他条件,本发明实施例采用mongodb数据库,mongodb是一个基于分布式文件存储的数据库,由c++语言编写,旨在为web应用提供可扩展的高性能数据存储解决方案,mongodb是一个介于关系数据库和非关系数据库之间的产品。
[0088]
进一步地,本发明实施例将构建的分析系统部署在自建机房,且不会与外网相连,考虑到自建机房的部署环境,本发明实施例选择采用docker容器作为前端、后端及数据库的部署方案。作为一种新兴的虚拟化方式,docker跟传统的虚拟化方式相比具有众多的优势,首先,docker容器的启动可以在秒级实现,这相比传统的虚拟机方式要快得多。其次,docker对系统资源的利用率很高,一台主机上可以同时运行数千个docker容器。容器除了运行其中应用外,基本不消耗额外的系统资源,使得应用的性能很高,同时系统的开销尽量小。传统虚拟机方式运行10个不同的应用就要起10个虚拟机,而docker只需要启动10个隔离的应用即可。
[0089]
具体说来,docker在如下几个方面具有较大的优势。对开发和运维(devop)人员来说,最希望的就是一次创建或配置,可以在任意地方正常运行,开发者可以使用一个标准的镜像来构建一套开发容器,开发完成之后,运维人员可以直接使用这个容器来部署代码,docker可以快速创建容器,快速迭代应用程序,并让整个过程全程可见,使团队中的其他成员更容易理解应用程序是如何创建和工作的,容器的启动时间是秒级的,大量地节约开发、测试、部署的时间;docker容器的运行不需要额外的hypervisor支持,它是内核级的虚拟化,因此可以实现更高的性能和效率;docker容器几乎可以在任意的平台上运行,包括物理机、虚拟机、公有云、私有云、个人电脑、服务器等,这种兼容性可以让用户把一个应用程序从一个平台直接迁移到另外一个;使用docker,只需要小小的修改,就可以替代以往大量的更新工作,所有的修改都以增量的方式被分发和更新,从而实现自动化并且高效的管理。
[0090]
具体部署时,本发明实施例会以docker image镜像的形式交付,并提供所需的使用文档,仅需用户将该docker image部署到具有docker系统的机房host或者虚拟机上即可开箱即用。
[0091]
本发明实施例提供的一种面向金融的语言情感分析和标注方法,通过以bert预训练模型为基础框架,利用舆情样本数据对模型进行精调训练,构建预设舆情分析模型,并利用构建的预设舆情分析模型自动分析舆情文本的情感极性,能够提高海量舆情文本数据的分析效率和精度。此外,由于本发明实施例在模型精调训练的过程中对舆情训练样本进行
了局部文字遮挡,因此能够增强预设舆情分析模型学习上下文语义的能力,从而能够进一步提高模型的分析精度。
[0092]
进一步地,作为图1的具体实现,本发明实施例提供了一种面向金融的语言情感分析和标注装置,如图4所示,所述装置包括:获取单元31、第一确定单元32、第二确定单元33、分析单元34和标注单元35。
[0093]
所述获取单元31,可以用于获取待分析的舆情文本;
[0094]
所述第一确定单元32,可以用于根据预设文字索引表,确定所述舆情文本中每个字符对应的索引;
[0095]
所述第二确定单元33,可以用于根据所述每个字符对应的索引,确定所述舆情文本对应的输入向量矩阵;
[0096]
所述分析单元34,可以用于将所述舆情文本对应的输入向量矩阵输入至预设舆情分析模型中进行文本情感分类,得到所述舆情文本对应的情感分类结果,其中,在所述预设舆情分析模型的精调训练过程中对舆情训练样本进行局部文字遮挡。
[0097]
所述标注单元35,可以用于基于所述情感分类结果对所述舆情文本进行情感极性标注。
[0098]
在具体应用场景中,所述第二确定单元33,可以具体用于根据所述每个字符对应的索引,确定所述舆情文本对应的字向量矩阵;根据所述每个字符在所述舆情文本中的位置信息,确定所述舆情文本对应的位置向量矩阵;根据所述每个字符在所述舆情文本中所属的语句,确定所述舆情文本对应的文本向量矩阵;将所述字向量矩阵、所述位置向量矩阵和所述文本向量矩阵相加,得到所述舆情文本对应的输入向量矩阵。
[0099]
在具体应用场景中,所述预设舆情分析模型包括增强语义向量提取模型和情感分类模型,所述分析单元34,如图5所示,包括:提取模块341和分类模块342。
[0100]
所述提取模块341,可以用于将所述舆情文本对应的输入向量矩阵输入至所述增强语义向量提取模型中进行增强语义提取,得到所述舆情文本中每个字符对应的增强语义向量。
[0101]
所述分类模块342,可以用于将所述每个字符对应的增强语义向量输入至所述情感分类模型中进行情感分类,得到所述舆情文本对应的情感分类结果。
[0102]
进一步地,所述增强语义向量提取模型包括注意力层,所述提取模块341,可以具体用于将所述输入向量矩阵分别与所述注意力层的相应权重矩阵相乘,得到所述输入向量矩阵对应的查询向量矩阵、键向量矩阵和值向量矩阵;根据所述查询向量矩阵、所述键向量矩阵和所述值向量矩阵,计算所述注意力层输出的注意力矩阵;根据所述注意力矩阵,确定所述舆情文本中每个字符对应的增强语义向量。
[0103]
在具体应用场景中,所述装置还包括:预处理单元36和构建单元37。
[0104]
所述获取单元31,还可以用于收集舆情数据样本。
[0105]
所述预处理单元36,可以用于对所述舆情数据样本进行预处理,得到预处理后的舆情数据样本。
[0106]
所述第一确定单元32,还可以用于根据所述预处理后的舆情数据样本,确定所述舆情训练样本。
[0107]
所述构建单元37,可以用于基于所述舆情训练样本,构建所述预设舆情分析模型。
[0108]
进一步地,所述构建单元37,包括:获取模块371、处理模块372、调整模块373、确定模块374、分类模块375和训练模块376。
[0109]
所述获取模块371,可以用于获取初始增强语义向量提取模型和初始情感分类模型,所述初始增强语义向量提取模型已经过预训练。
[0110]
所述处理模块372,可以用于将所述舆情训练样本对应的输入向量矩阵输入至所述初始增强语义向量提取模型的注意力层进行处理,得到舆情训练样本对应的初始注意力矩阵。
[0111]
所述调整模块373,可以用于对所述初始注意力矩阵进行调整,得到调整后的初始注意力矩阵。
[0112]
所述确定模块374,可以用于根据所述调整后的初始注意力矩阵,确定所述舆情训练样本中每个字符对应的初始增强语义向量。
[0113]
所述分类模块375,可以用于将所述舆情训练样本中每个字符对应的初始增强语义向量输入至所述初始情感分类模型中进行情感分类,得到所述舆情训练样本对应的预测情感分类结果。
[0114]
所述训练模块376,可以用于根据所述预测情感分类结果和所述舆情训练样本对应的实际情感分类结果,对所述初始增强语义向量提取模型和所述初始情感分类模型进行联合迭代训练,重复模型迭代训练过程,直至满足预设条件时,停止迭代训练,输出训练好的增强语义向量提取模型和情感分类模型。
[0115]
所述确定模块374,还可以用于根据所述增强语义向量提取模型和所述情感分类模型,确定所述预设舆情分析模型。
[0116]
进一步地,所述调整模块373,可以具体用于随机确定所述舆情训练样本中的遮挡字符;根据所述遮挡字符和非遮挡字符,构建遮挡矩阵,其中,在所述遮挡矩阵中所述遮挡字符所在位置的数值为1,非遮挡字符所在位置的数值为0;利用所述遮挡矩阵,对所述初始注意力矩阵进行调整,得到调整后的初始注意力矩阵。
[0117]
需要说明的是,本发明实施例提供的一种面向金融的语言情感分析和标注装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
[0118]
基于上述如图1所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取待分析的舆情文本;根据预设文字索引表,确定所述舆情文本中每个字符对应的索引;根据所述每个字符对应的索引,确定所述舆情文本对应的输入向量矩阵;将所述舆情文本对应的输入向量矩阵输入至预设舆情分析模型中进行文本情感分类,得到所述舆情文本对应的情感分类结果,其中,在所述预设舆情分析模型的精调训练过程中对舆情训练样本进行局部文字遮挡;基于所述情感分类结果对所述舆情文本进行情感极性标注。
[0119]
基于上述如图1所示方法和如图4所示装置的实施例,本发明实施例还提供了一种电子设备的实体结构图,如图6所示,该电子设备包括:处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序,其中,存储器42和处理器41均设置在总线43上,所述处理器41执行所述程序时实现以下步骤:获取待分析的舆情文本;根据预设文字索引表,确定所述舆情文本中每个字符对应的索引;根据所述每个字符对应的索引,确定所述舆情文本对应的输入向量矩阵;将所述舆情文本对应的输入向量矩阵输入至预设舆情分析模
型中进行文本情感分类,得到所述舆情文本对应的情感分类结果,其中,在所述预设舆情分析模型的精调训练过程中对舆情训练样本进行局部文字遮挡;基于所述情感分类结果对所述舆情文本进行情感极性标注。
[0120]
本发明实施例通过以bert预训练模型为基础框架,利用舆情样本数据对模型进行精调训练,构建预设舆情分析模型,并利用构建的预设舆情分析模型自动分析舆情文本的情感极性,能够提高海量舆情文本数据的分析效率和精度。此外,由于本发明实施例在模型精调训练的过程中对舆情训练样本进行了局部文字遮挡,因此能够增强预设舆情分析模型学习上下文语义的能力,从而能够进一步提高模型的分析精度。
[0121]
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
[0122]
本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
[0123]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。
技术特征:
1.一种面向金融的语言情感分析和标注方法,其特征在于,包括:获取待分析的舆情文本;根据预设文字索引表,确定所述舆情文本中每个字符对应的索引;根据所述每个字符对应的索引,确定所述舆情文本对应的输入向量矩阵;将所述舆情文本对应的输入向量矩阵输入至预设舆情分析模型中进行文本情感分类,得到所述舆情文本对应的情感分类结果,其中,在所述预设舆情分析模型的精调训练过程中对舆情训练样本进行局部文字遮挡;基于所述情感分类结果对所述舆情文本进行情感极性标注。2.根据权利要求1所述的方法,其特征在于,所述根据所述每个字符对应的索引,确定所述舆情文本对应的输入向量矩阵,包括:根据所述每个字符对应的索引,确定所述舆情文本对应的字向量矩阵;根据所述每个字符在所述舆情文本中的位置信息,确定所述舆情文本对应的位置向量矩阵;根据所述每个字符在所述舆情文本中所属的语句,确定所述舆情文本对应的文本向量矩阵;将所述字向量矩阵、所述位置向量矩阵和所述文本向量矩阵相加,得到所述舆情文本对应的输入向量矩阵。3.根据权利要求1所述的方法,其特征在于,所述预设舆情分析模型包括增强语义向量提取模型和情感分类模型,所述将所述舆情文本对应的输入向量矩阵输入至预设舆情分析模型中进行文本情感分类,得到所述舆情文本对应的情感分类结果,包括:将所述舆情文本对应的输入向量矩阵输入至所述增强语义向量提取模型中进行增强语义提取,得到所述舆情文本中每个字符对应的增强语义向量;将所述每个字符对应的增强语义向量输入至所述情感分类模型中进行情感分类,得到所述舆情文本对应的情感分类结果。4.根据权利要求3所述的方法,其特征在于,所述增强语义向量提取模型包括注意力层,所述将所述舆情文本对应的输入向量矩阵输入至所述增强语义向量提取模型中进行增强语义提取,得到所述舆情文本中每个字符对应的增强语义向量,包括:将所述输入向量矩阵分别与所述注意力层的相应权重矩阵相乘,得到所述输入向量矩阵对应的查询向量矩阵、键向量矩阵和值向量矩阵;根据所述查询向量矩阵、所述键向量矩阵和所述值向量矩阵,计算所述注意力层输出的注意力矩阵;根据所述注意力矩阵,确定所述舆情文本中每个字符对应的增强语义向量。5.根据权利要求1所述的方法,其特征在于,在所述将所述舆情文本对应的输入向量矩阵输入至预设舆情分析模型中进行文本情感分类,得到所述舆情文本对应的情感分类结果之前,所述方法还包括:收集舆情数据样本;对所述舆情数据样本进行预处理,得到预处理后的舆情数据样本;根据所述预处理后的舆情数据样本,确定所述舆情训练样本;基于所述舆情训练样本,构建所述预设舆情分析模型。
6.根据权利要求5所述的方法,其特征在于,所述基于所述舆情训练样本,构建所述预设舆情分析模型,包括:获取初始增强语义向量提取模型和初始情感分类模型,所述初始增强语义向量提取模型已经过预训练;将所述舆情训练样本对应的输入向量矩阵输入至所述初始增强语义向量提取模型的注意力层进行处理,得到舆情训练样本对应的初始注意力矩阵;对所述初始注意力矩阵进行调整,得到调整后的初始注意力矩阵;根据所述调整后的初始注意力矩阵,确定所述舆情训练样本中每个字符对应的初始增强语义向量;将所述舆情训练样本中每个字符对应的初始增强语义向量输入至所述初始情感分类模型中进行情感分类,得到所述舆情训练样本对应的预测情感分类结果;根据所述预测情感分类结果和所述舆情训练样本对应的实际情感分类结果,对所述初始增强语义向量提取模型和所述初始情感分类模型进行联合迭代训练,重复模型迭代训练过程,直至满足预设条件时,停止迭代训练,输出训练好的增强语义向量提取模型和情感分类模型;根据所述增强语义向量提取模型和所述情感分类模型,确定所述预设舆情分析模型。7.根据权利要求6所述的方法,其特征在于,所述对所述初始注意力矩阵进行调整,得到调整后的初始注意力矩阵,包括:随机确定所述舆情训练样本中的遮挡字符;根据所述遮挡字符和非遮挡字符,构建遮挡矩阵,其中,在所述遮挡矩阵中所述遮挡字符所在位置的数值为1,非遮挡字符所在位置的数值为0;利用所述遮挡矩阵,对所述初始注意力矩阵进行调整,得到调整后的初始注意力矩阵。8.一种面向金融的语言情感分析和标注装置,其特征在于,包括:获取单元,用于获取待分析的舆情文本;第一确定单元,用于根据预设文字索引表,确定所述舆情文本中每个字符对应的索引;第二确定单元,用于根据所述每个字符对应的索引,确定所述舆情文本对应的输入向量矩阵;分析单元,用于将所述舆情文本对应的输入向量矩阵输入至预设舆情分析模型中进行文本情感分类,得到所述舆情文本对应的情感分类结果,其中,在所述预设舆情分析模型的精调训练过程中对舆情训练样本进行局部文字遮挡;标注单元,用于基于所述情感分类结果对所述舆情文本进行情感极性标注。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
技术总结
本发明公开了一种面向金融的语言情感分析和标注方法,本发明涉及机器学习技术领域,其中包括:获取待分析的舆情文本;根据预设文字索引表,确定所述舆情文本中每个字符对应的索引;根据所述每个字符对应的索引,确定所述舆情文本对应的输入向量矩阵;将所述舆情文本对应的输入向量矩阵输入至预设舆情分析模型中进行文本情感分类,得到所述舆情文本对应的情感分类结果,其中,在所述预设舆情分析模型的精调训练过程中对舆情训练样本进行局部文字遮挡;基于所述情感分类结果对所述舆情文本进行情感极性标注。本发明能够提高海量舆情文本数据的分析效率和精度。本数据的分析效率和精度。本数据的分析效率和精度。
技术研发人员:华娇娇 唐华云 周泽龙 万海 赵曦滨 商丽丽 王延昭 黄鑫玉
受保护的技术使用者:清华大学
技术研发日:2023.03.22
技术公布日:2023/8/14
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种面向群组协同任务的信息传输方法与流程 下一篇:一种即食干贝及其制备方法与流程
