基于上市公司年报的情感信息的未来收益率预测方法与流程

未命名 08-12 阅读:116 评论:0


1.本发明提出了一种基于上市公司年报的情感信息的未来收益率预测方法,利用长短期记忆神经网络在上市公司年度报告中进行情感分析,来探究资产收益率与年报中情感取向之间的关系,属于自然语言处理、深度学习和数据挖掘领域。


背景技术:

2.现有研究表明,年报中管理层的情感态度与公司后一年的业绩是相关的,这些结果说明了管理层的情感信息与后一年的业绩息息相关,因此,如何挖掘年报中的情感信息至关重要,并且与资产收益率的预测相联系也是必须的。
3.不同的新闻媒体对上市公司的解读有可能具有难以确定的可信度,但是上市公司公开的财务报告具有强制性、公开性、客观事实等特点,因此对年度报告进行情感分析以及资产收益率的预测具有十分重大的意义。
4.然而现有技术缺乏对上市公式年报的情感信息进行客观分析的工具,也缺乏分析上市公司年报的情感信息预测未来收益率的方法。


技术实现要素:

5.本发明要克服现有技术的上述缺点,提供一种基于上市公司年报的情感信息的未来收益率的预测方法。
6.本发明提供一种上市公司年报分析方法,帮助投资者进行市场分析和战略投资,通过构建金融领域的情感词典和极性词典,并采用现有的较为成熟的分词处理技术对年报进行分词处理以及向量化,将部分年报进行手动化情感标注用于训练,将标注好的数据以及标签用堆栈lstm模型进行训练,从而得到情感取向和资产收益率之间的关系,来提供一种对市场投资的帮助。
7.为实现以上目的,本发明采用以下技术方案:
8.本发明提供基于上市公司年报的情感信息的未来收益率预测方法,包括以下步骤:
9.s1、构建情感词典标签。其中包括正向情感倾向词语、负面情感倾向词语;
10.s2、获取各种上市公司信息文本,并对获取的各种文本进行处理,以得到各种文本对应的相应内容文件;
11.s3、构建文本分词和向量化模型,将文本分词和向量化处理;
12.s4、确定部分年报的情感状态,形成训练集;
13.s5、将训练样本用于堆栈lstm模型训练,得到优秀的分类模型;
14.s6、将堆栈lstm模型用于预测其他文本数据,建立资产收益率和情感取向的线性回归公式,得出预测结果。
15.作为优选方案,所述上市公司信息文本为各上市公司官网发布的年报。
16.作为优选方案,步骤s1包括:
17.s1.1、情感词典使用为loughran&mcdonald的2018情感词典,提取其中的正负面词语作为本发明的初始情感词典,里面词语权值取值范围为[0,2];
[0018]
s1.2、词语权值可由人为主观判断,[1,2]表示正面性,[0,1]表示负面性。
[0019]
作为优选方案,步骤s2包括:
[0020]
s2.1、利用爬虫技术爬取上市公司年报数据并保存为文本格式;
[0021]
s2.2、对获取到的各种文本进行清理,以得到清理后的各种文本。
[0022]
作为优选方案,步骤s2.2中包括,将pdf文件转化为html模板,利用perl的html模板进行如下步骤:删除所有图片、删除表格、删除不包含中文字符的字段、删除年报中固定格式行。
[0023]
作为优选方案,步骤s3包括:
[0024]
s3.1、借助中文分词系统将文本进行分词处理;
[0025]
s3.2、将文本利用word2vec向量化。
[0026]
作为优选方案,步骤s3.1中,中文分词操作采用jieba库进行分词,采用搜索引擎模式,分词主要的目的是用于将分词后的词语集合与本系统现有的情感词典进行匹配,并统计在每个年报中出现的词语和它们出现次数,以及积极词汇总数和消极词汇总数,将这些信息都记录在数据库并进入到下一步。举个例子,如果年报中出现[“本年度收益率明显下降”],那么将被分词为[“本年度”,“收益率”,“明显”,“下降”],然后将这些词语与情感词典中的词语相匹配,记录出现频率。
[0027]
作为优选方案,步骤s3.2中,利用word2vec中的连续词袋模型进行向量化处理,连续词袋模型最大的特征就是可以利用一个位置附近的词推出这个位置可能的词。
[0028]
作为优选方案,步骤s4包括:
[0029]
s4.1、统计部分年报的积极词语和消极词语总数,定义情感取向;
[0030]
s4.2、将情感取向用数字代替,并给年报做好标签形成训练集;
[0031]
作为优选方案,步骤s4.1中,将年报中积极词语和消极词语与构造的情感词典相对比,统计词语总数,分别记为m,n。情感取向公式定义如下:
[0032][0033]
其中,mi、ni表示具体的某个词语在单个文件中出现的次数,k表示文本中出现的情感词语总数,wi代表对应词语的权值。
[0034]
作为优选方案,步骤s4.2中,将情感取向用数字代替后,标注一部分年报,从而得到了训练集。
[0035]
作为优选方案,步骤s5包括:
[0036]
s5.1、构建堆栈lstm模型,并且在模型上改进,使得模型在年报数据处理上具有好的效果;
[0037]
s5.2、将步骤s4中得到的训练集加载到模型中训练,得到训练好的模型。
[0038]
作为优选方案,步骤s5.1中,堆栈lstm模型采用双层结构,上一层的输出作为下一层的输入,具体操作为在前向层从1~t时间点执行lstm,在逆向层沿着t~1时间点执行lstm,最后保存两个隐含层内每个时间点的结果。最后在各时间点上联合两层的结果,得到
最终值。具体公式如下:
[0039][0040]
其中,h
t
代表正向传播层,h'
t
逆向传播层,o
t
代表最后的结果输出层,f表示sigmoid激活函数,g代表softmax激活函数,ω1、ω2、ω3、ω4、ω5、ω6代表连接权重。
[0041]
作为优选方案,步骤s5.2中,模型用python语言搭建完成后,将数据输入到模型中进行训练,得到调整好的模型。
[0042]
作为优选方案,步骤s6包括:
[0043]
s6.1、用训练好的模型可预测其他年报的情感取向。
[0044]
s6.2、建立年报中资产收益率和情感取向的线性回归函数,从而预测下年资产收益率。
[0045]
作为优选方案,步骤s6.2中,资产收益率和得到的情感取向生成一个线性回归公式,那么之后得到的情感取向就可以转化为下一年资产收益率的数据。具体公式简写如下:
[0046]w预计
=f(emo)(3)
[0047]
其中,线性回归函数具体回归图像可由matlab实现。
[0048]
将上市公司前几年的年度报告预测的资产收益率结果与实际资产收益率结果进行对比,得到单个公司情感分析样本可能存在的语调偏差w,w计算公式如下:
[0049][0050]
其中,n为统计到的年报总数。
[0051]
从而上述的预测值可写为:
[0052]w预计
=f(emo)+w(5)
[0053]
本发明的工作原理分析:本发明提出了一种基于深度学习的上市公司年报分析方法,依赖于双向lstm神经网络对年报中的管理层态度进行情感取向分析,得出情感取向和资产收益率的关系,并构建线性回归公式,通过回归公式和情感取向,预测出下一年的资产收益率。
[0054]
本发明的优点:本发明结合神经网络的方式挖掘上市公司年报中的情感信息,并利用数学的方式构建出线性回归公式,提出了一种新的年报分析的方法,并与资产收益率相结合,提出新的资产收益率预测方法。
附图说明
[0055]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0056]
图1是本发明方法的流程图。
[0057]
图2是本发明利用word2vec中的连续词袋模型进行向量化处理的模型输入、输出示例图。
具体实施方式
[0058]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0059]
需要说明的是,在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
[0060]
实施例1
[0061]
如图1所示,一种基于深度学习的上市公司年报分析方法,包括如下步骤:
[0062]
s1、构建情感词典标签。其中包括正向情感倾向词语、负面情感倾向词语;具体包括:
[0063]
s1.1、情感词典使用为loughran&mcdonald的2018情感词典,提取其中的正负面词语作为本发明的初始情感词典,里面词语权值取值范围为[0,2];
[0064]
s1.2、词语权值可由人为主观判断,[1,2]表示正面性,[0,1]表示负面性。
[0065]
s2、获取各种上市公司信息文本,并对获取的各种文本进行处理,以得到各种文本对应的相应内容文件;具体包括:
[0066]
s2.1、利用爬虫技术爬取上市公司年报数据并保存为文本格式;
[0067]
s2.2、对获取到的各种文本进行清理,将pdf文件转化为html模板,利用perl的html模板进行如下步骤:删除所有图片、删除表格、删除不包含中文字符的字段、删除年报中固定格式行,得到清理后的各种文本。
[0068]
s3、构建文本分词和向量化模型,将文本分词和向量化处理;具体包括:
[0069]
s3.1、借助中文分词系统将文本进行分词处理;
[0070]
中文分词操作采用jieba库进行分词,采用搜索引擎模式,分词主要的目的是用于将分词后的词语集合与本系统现有的情感词典进行匹配,并统计在每个年报中出现的词语和它们出现次数,以及积极词汇总数和消极词汇总数,将这些信息都记录在数据库并进入到下一步。举个例子,如果年报中出现[“本年度收益率明显下降”],那么将被分词为[“本年度”,“收益率”,“明显”,“下降”],然后将这些词语与情感词典中的词语相匹配,记录出现频率。
[0071]
s3.2、将文本利用word2vec向量化;
[0072]
利用word2vec中的连续词袋模型进行向量化处理,连续词袋模型最大的特征就是可以利用一个位置附近的词推出这个位置可能的词。模型输入、输出如图2所示。
[0073]
s4、确定部分年报的情感状态,形成训练集;具体包括:
[0074]
s4.1、统计部分年报的积极词语和消极词语总数,定义情感取向;
[0075]
将年报中积极词语和消极词语与构造的情感词典相对比,统计词语总数,分别记为m,n。情感取向公式定义如下:
[0076][0077]
其中,mi、ni表示具体的某个词语在单个文件中出现的次数,k表示文本中出现的情感词语总数,wi代表对应词语的权值。
[0078]
s4.2、将情感取向用数字代替,标注一部分年报,给年报做好标签形成训练集;
[0079]
s5、将训练样本用于堆栈lstm模型训练,得到优秀的分类模型;具体包括:
[0080]
s5.1、构建堆栈lstm模型,并且在模型上改进,使得模型在年报数据处理上具有好的效果;
[0081]
堆栈lstm模型采用双层结构,上一层的输出作为下一层的输入,具体操作为在前向层从1~t时间点执行lstm,在逆向层沿着t~1时间点执行lstm,最后保存两个隐含层内每个时间点的结果。最后在各时间点上联合两层的结果,得到最终值。具体公式如下:
[0082][0083]
其中,h
t
代表正向传播层,h'
t
逆向传播层,o
t
代表最后的结果输出层,f表示sigmoid激活函数,g代表softmax激活函数,ω1、ω2、ω3、ω4、ω5、ω6代表连接权重。
[0084]
s5.2、将步骤s4中得到的训练集加载到模型中训练,模型用python语言搭建完成后,将数据输入到模型中进行训练,得到调整好的模型。
[0085]
s6、将堆栈lstm模型用于预测其他文本数据,建立资产收益率和情感取向的线性回归公式,得出预测结果;具体包括:
[0086]
s6.1、用训练好的模型可预测其他年报的情感取向;
[0087]
s6.2、建立年报中资产收益率和情感取向的线性回归函数,从而预测下年资产收益率;
[0088]
资产收益率和得到的情感取向生成一个线性回归公式,那么之后得到的情感取向就可以转化为下一年资产收益率的数据。具体公式简写如下:
[0089]w预计
=f(emo)(3)
[0090]
其中,线性回归函数具体回归图像可由matlab实现。
[0091]
将上市公司前几年的年度报告预测的资产收益率结果与实际资产收益率结果进行对比,得到单个公司情感分析样本可能存在的语调偏差w,w计算公式如下:
[0092][0093]
其中,n为统计到的年报总数。
[0094]
从而上述的预测值可写为:
[0095]w预计
=f(emo)+w(5)
[0096]
实施例2
[0097]
本实施例涉及一种基于深度学习的年报分析系统,包括:
[0098]
1.数据获取模块,用于从web上爬取上市公司年报作为数据文件;
[0099]
2.文件预处理模块,用于对所述数据文件进行预处理;
[0100]
3.分词提取和向量化模块,用于对所述文件预处理模块的结果进行提取;
[0101]
4.模型预测模块,用于分析年报中的情感取向,然后用线性回归公式预测资产收益率。

技术特征:
1.基于上市公司年报的情感信息的未来收益率预测方法,包括以下步骤:s1、构建情感词典标签;其中包括正向情感倾向词语、负面情感倾向词语;s2、获取各种上市公司信息文本,并对获取的各种文本进行处理,以得到各种文本对应的相应内容文件;s3、构建文本分词和向量化模型,将文本分词和向量化处理;s4、确定部分年报的情感状态,形成训练集;s5、将训练样本用于堆栈lstm模型训练,得到优秀的分类模型;s6、将堆栈lstm模型用于预测其他文本数据,建立资产收益率和情感取向的线性回归公式,得出预测结果。2.基于上市公司年报的情感信息的未来收益率预测方法,其特征在于,步骤s1包括:s1.1、情感词典使用为loughran&mcdonald的2018情感词典,提取其中的正负面词语作为本发明的初始情感词典,里面词语权值取值范围为[0,2];s1.2、词语权值可由人为主观判断,[1,2]表示正面性,[0,1]表示负面性。3.基于上市公司年报的情感信息的未来收益率预测方法,其特征在于,步骤s3包括:s2.1、利用爬虫技术爬取上市公司年报数据并保存为文本格式;s2.2、对获取到的各种文本进行清理,以得到清理后的各种文本,包括,将pdf文件转化为html模板,利用perl的html模板进行如下步骤:删除所有图片、删除表格、删除不包含中文字符的字段、删除年报中固定格式行。4.基于上市公司年报的情感信息的未来收益率预测方法,其特征在于,步骤s3包括:s3.1、借助中文分词系统将文本进行分词处理;包括:中文分词操作采用jieba库进行分词,采用搜索引擎模式,分词主要的目的是用于将分词后的词语集合与本系统现有的情感词典进行匹配,并统计在每个年报中出现的词语和它们出现次数,以及积极词汇总数和消极词汇总数,将这些信息都记录在数据库并进入到下一步;s3.2、将文本利用word2vec向量化,包括:利用word2vec中的连续词袋模型进行向量化处理,连续词袋模型最大的特征就是可以利用一个位置附近的词推出这个位置可能的词。5.基于上市公司年报的情感信息的未来收益率预测方法,其特征在于,步骤s4包括:s4.1、统计部分年报的积极词语和消极词语总数,定义情感取向;包括:将年报中积极词语和消极词语与构造的情感词典相对比,统计词语总数,分别记为m,n;情感取向公式定义如下:其中,m
i
、n
i
表示具体的某个词语在单个文件中出现的次数,k表示文本中出现的情感词语总数,w
i
代表对应词语的权值;s4.2、将情感取向用数字代替,并给年报做好标签形成训练集;包括:将情感取向用数字代替后,标注一部分年报,从而得到了训练集。
6.基于上市公司年报的情感信息的未来收益率预测方法,其特征在于,步骤s5包括:s5.1、构建堆栈lstm模型,并且在模型上改进,使得模型在年报数据处理上具有好的效果;包括:堆栈lstm模型采用双层结构,上一层的输出作为下一层的输入,具体操作为在前向层从1~t时间点执行lstm,在逆向层沿着t~1时间点执行lstm,最后保存两个隐含层内每个时间点的结果;最后在各时间点上联合两层的结果,得到最终值;具体公式如下:其中,h
t
代表正向传播层,h

t
逆向传播层,o
t
代表最后的结果输出层,f表示sigmoid激活函数,g代表softmax激活函数,ω1、ω2、ω3、ω4、ω5、ω6代表连接权重;s5.2、将步骤s4中得到的训练集加载到模型中训练,得到训练好的模型,包括:模型用python语言搭建完成后,将数据输入到模型中进行训练,得到调整好的模型。7.基于上市公司年报的情感信息的未来收益率预测方法,其特征在于,步骤s6包括:s6.1、用训练好的模型可预测其他年报的情感取向;s6.2、建立年报中资产收益率和情感取向的线性回归函数,从而预测下年资产收益率,包括:资产收益率和得到的情感取向生成一个线性回归公式,那么之后得到的情感取向就可以转化为下一年资产收益率的数据;具体公式简写如下:w
预计
=f(emo)
ꢀꢀꢀꢀ
(3)其中,线性回归函数具体回归图像可由matlab实现;将上市公司前几年的年度报告预测的资产收益率结果与实际资产收益率结果进行对比,得到单个公司情感分析样本可能存在的语调偏差w,w计算公式如下:其中,n为统计到的年报总数;从而上述的预测值可写为:w
预计
=f(emo)+w(5)。

技术总结
基于上市公司年报的情感信息的未来收益率预测方法,包括:S1、构建情感词典标签。其中包括正向情感倾向词语、负面情感倾向词语;S2、获取各种上市公司信息文本,并对获取的各种文本进行处理,以得到各种文本对应的相应内容文件;S3、构建文本分词和向量化模型,将文本分词和向量化处理;S4、确定部分年报的情感状态,形成训练集;S5、将训练样本用于堆栈LSTM模型训练,得到优秀的分类模型;S6、将堆栈LSTM模型用于预测其他文本数据,建立资产收益率和情感取向的线性回归公式,得出预测结果。本发明给出了挖掘上市公司年报中的情感信息进行未来收益率预测的方法。益率预测的方法。益率预测的方法。


技术研发人员:季白杨
受保护的技术使用者:杭州碧湾信息技术有限公司
技术研发日:2023.05.26
技术公布日:2023/8/9
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐