一种人为原因报告类事件信息文本分析与分类方法

未命名 07-20 阅读:201 评论:0


1.本发明属于文本挖掘技术领域,特别是涉及一种人为原因报告类事件信息文本分析与分类方法。


背景技术:

2.民航系统是一个复杂的巨系统。人、机、环、管中的各因素相互制约、相互联系,为民航各企事业单位提供了数量庞大且繁琐的安全信息。航空安全信息系统、民航企事业单位的安全管理系统汇集了大量的安全信息,其中涉及人为因素信息主要包括机组原因导致的各类不安全事件信息。面对这些庞杂的自然语言形式的事件文本,目前通用的统计分析、人工分析方法在信息分析方式、分析深度以及分析效率等方面还存在一定的局限性,因此,如何提高非结构化,数量较为庞大的文本描述事件信息的分析、利用效率,从中获取关键风险信息和潜在规律,为事故预防和安全管理工作提供实质性的建议和方向是航空安全信息领域亟需解决的问题。
3.随着强制报告信息收集量的日益增加,产生了传统的统计分析、趋势分析以及单起事故或事件致因分析已逐渐无法满足通过数据驱动实现精准安全管理的矛盾,因为统计和趋势分析大都停留在数据的宏观层面。由于局方和企业都尚缺乏对大量数据的深入挖掘和综合分析应用,无法为由人为因素导致的不安全事件的主动预防、超前预防提供具有指导意义的知识。


技术实现要素:

4.本发明的目的是提供一种人为原因报告类事件信息文本分析与分类方法,以解决上述现有技术存在的问题。
5.为实现上述目的,本发明提供了一种人为原因报告类事件信息文本分析与分类方法,包括以下步骤:
6.获取包含事件信息的研究样本;
7.基于所述研究样本获取文本数据;
8.基于自然语言处理工具对所述文本数据进行操作行为文本特征提取;
9.基于所述文本特征进行事件信息风险挖掘,获取关键特征词集合;
10.基于所述关键特征词集合进行事件信息风险可视化,获取事件发生因果关系链,基于所述事件发生因果关系链获取安全控制措施策略。
11.可选地,基于所述研究样本获取文本数据的过程包括:
12.获取所述研究样本中的事件信息;
13.将所述事件信息中的“简要经过”和“原因分析”进行数据合并,获取所述文本数据。
14.可选地,基于自然语言处理工具对所述文本数据进行操作行为文本特征提取的过程包括:
15.对所述文本数据进行预处理,获取规范化数据;
16.构建用户自定义词典与概念词典,基于语言技术平台对所述规范化数据进行分词与词性标注,获取词性标注结果;
17.采用依存句法分析方法对所述规范化数据进行语法成分识别,分析所述语法成分间的从属关系,获取语法分析结果;
18.以列表的形式对所述词性标注结果以及所述语法分析结果进行存储;
19.基于中文语法启发式规则进行文本特征提取;
20.采用语义角色标注的提取方法对所述文本特征进行补充;
21.基于所述文本数据构建验证集,通过计算准确率、召回率和f1值对所述文本特征提取的整体性能进行验证。
22.可选地,对所述文本数据进行预处理的过程包括:
23.基于python正则表达式对所述文本数据进行名词提取;
24.基于停用词表以及人工监督过滤所述文本数据中与人为操作特征无关的样本内容。
25.可选地,基于中文语法启发式规则进行文本特征提取的方法包括主谓宾关系抽取、主语和宾语的内容补全、核心动词含义补全、动宾关系补全、主谓宾并列结构的处理、含有介宾关系的主谓动补结构。
26.可选地,基于所述文本特征进行事件信息风险挖掘的过程包括:
27.构建lda主题模型;
28.基于所述lda主题模型获取文档-主题概率分布、主题-词分布以及主题概率强度图;
29.基于python编程进行风险主题拟合以及主题关键特征词显示;
30.对所述主题关键特征词以及原始数据进行归纳分析,基于分析结果对风险主题进行定义;
31.基于所述主题概率强度图获取排名靠前的风险主题;
32.通过风险主题与特征词对应,将所述主题关键特征词组合,获取所述关键特征词集合。
33.可选地,基于所述lda主题模型获取文档-主题概率分布、主题-词分布以及主题概率强度图的过程包括:
34.通过所述lda主题模型的输入层将所述文本特征传输至处理层,通过处理层对所述文本特征进行二次预处理,通过输出层输出文档-主题概率分布、主题-词分布以及主题概率强度图。
35.可选地,基于所述关键特征词集合进行事件信息风险可视化的过程包括:
36.基于所述关键特征词集合中主题的共现次数获取风险主题共现矩阵;
37.基于gephi可视化软件对所述风险主题共现矩阵进行可视化,获取风险主题共现网络图谱;
38.对所述风险主题共现网络图谱进行平均加权度和pagerank值计算,将排名靠前的平均加权度、pagerank值与排名靠前的风险主题进行强度对比;
39.分别对强度对比后的风险主题构建风险主题语义图谱;
40.对所述风险主题语义图谱进行核心文本特征筛选,获取所述事件发生因果关系链。
41.本发明的技术效果为:
42.本发明实现了以“离散化数据—结构化信息—可视化知识”为主线的机组原因事件信息数据抽取与深入挖掘方法。经过数据处理、知识挖掘及知识可视化等过程完成了机组人为因素事件信息风险主题语义图谱构建,实现了从语义和语用的角度深入挖掘信息中隐含的风险主题及核心的风险因素,对以机组人为因素事件信息为代表的航空安全信息资源开发利用和研究模式进行了探索。
附图说明
43.构成本技术的一部分的附图用来提供对本技术的进一步理解,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
44.图1为本发明实施例中的人为原因报告类事件信息文本分析与分类方法流程图。
具体实施方式
45.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
46.需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
47.实施例一
48.如图1所示,本实施例中提供一种人为原因报告类事件信息文本分析与分类方法。
49.本实施例针对中文民航事件信息,结合航安网上2017-2020年的机组原因事件信息及专家意见,综合考虑决定选用2017-2020年“偏离姿态/高度”类型事件信息作为研究样本,将1066条偏离姿态/高度类型事件信息中的“简要经过”和“原因分析”两列数据合并,一起作为文本挖掘的数据来源。
50.第一阶段是机组操作行为文本特征提取。首先对文本数据进行预处理,通过python正则表达式抽取出仅包含“机组、机长、副驾驶、左座、右座、pf、pm、观察员、第三成员”的句子。同时再结合停用词表以及少量的人工监督,过滤掉样本数据中与机组操作特征无关的样本内容,例如:事件发生日期或过程时间、起飞机场或跑道、机型等航段等,得到规范化的数据。接着为了解决分词不准与一义多词问题,构建了一份用户自定义词典与概念词典,采用语言技术平台(ltp)内置的中文分词模型segmentor和词性标注模型postagger对文本数据进行分词和词性标注,进一步为后续文本特征抽取和聚类分析奠定基础。通过依存句法分析的方法,识别句子中的“主、谓、宾、定、状、补”这些语法成分,并分析这些语法成分之间的从属关系,以列表的形式存储句子的词性标注结果和依存句法分析结果。结合中文语法启发式规则,提出从非结构化的机组原因事件信息中提出文本特征的方法,包括主谓宾关系抽取、主语和宾语的内容补全、核心动词含义补全、动宾关系补全、主谓宾并列结构的处理、含有介宾关系的主谓动补结构这六部分。同时采用语义角色标注的提取方法,把触发词、施事者和受事者结合在一起,形成《施事者,触发词,受事者》文本特征,作为文本
特征提取的重要补充。最后人工标注了10%的数据作为验证集,通过计算准确率、召回率和f1值来验证文本特征提取方法的整体性能。
51.第二阶段是基于文本特征的机组原因事件信息风险主题挖掘。本阶段采用的方法是lda主题模型,输入层是将第一阶段预处理的文本特征输入到处理层;处理层则是通过对文本数据进行二次预处理,删掉“[]、,、机组、pf、机长”等与主题挖掘无关的数据,作为lda主题模型的数据输入;输出层包括文档-主题概率分布,主题-词分布和主题强度图,其中,文档-主题概率分布表如表1所示,主题-词概率分布表如表2所示。
[0052]
表1
[0053][0054]
表2
[0055][0056][0057]
利用python编程调用lda主题模型,拟合6个主题,每个主题显示前7个关键特征词,基于lda主题模型得到文档-主题概率分布、主题-词分布以及主题概率强度图。通过对主题-词概率分布表中的每一组主题关键特征词以及原始数据的归纳分析,可将六个主题分别定义为动作幅度差错、注意力分配、动作时间差错、遗漏、动作目标差错、违规。通过主题概率强度图可知排名前三的风险主题分别是注意力分配、违规和动作目标差错。通过相互对应的潜在风险主题与文本特征词,将这些关键特征词分门别类的组织起来,形成一组关键特征词集合,便于安全管理人员对所收集到的某一类型安全信息进行深入分析和研究,挖掘安全信息中潜在的规律。
[0058]
第三阶段是基于文本特征的机组原因事件信息风险主题可视化。通过关键特征词
在两两主题之间的共现次数得到风险主题共现矩阵,并将风险主题共现矩阵输入到gephi可视化软件中,通过调整各种参数对矩阵数据进行可视化实现,得到风险主题共现网络图谱。然后对主题语义图谱的平均加权度和pagerank值进行计算,得出注意力分配、动作目标差错、违规风险主题的平均加权度值和pagerank值都位居前三,其中,违规风险主题节点的部分pagerank值如表3所示,动作目标差错风险主题的部分pagerank如表4所示,这与第二阶段的风险主题强度相符。
[0059]
表3
[0060][0061][0062]
表4
[0063][0064]
应用gephi对“偏离姿/态高度”不安全事件的文本特征进行可视化展示,可以直观地捕捉到与核心节点有关的文本特征语义信息。在构建总体风险主题语义图谱的基础上,分别对违规、动作目标差错和注意力分配构建风险主题语义图谱,风险主题语义图谱通过将文本特征可视化的方式辅助信息分析人员从语义图谱的有向边以及节点迅速捕捉到重要性强的风险主题所包含的具体文本特征,抓住核心内容,从源头上解读不安全事件发展
的过程,提高信息分析效率和深度。最后筛选语义图谱中的核心文本特征构建“偏离姿态/高度”事件发生因果关系链,并据此提出安全控制措施策略。
[0065]
本发明在研究数据的中文基本语法结构基础上,提出基于依存句法分析和语义角色标注的9种文本特征提取算法,通过判断句子中各个词语依存句法和语义角色标签,实现了以《主语,谓语,宾语》的结构化形式自动提取事件信息中机组的操作行为特征,共提取机组原因事件信息文本特征4420组。同时,分析提取1066条样本数据总耗时为4870s,表明能够在较短的时间内对机组原因事件信息文本特征进行提取。为了验证文本特征自动提取方法的性能,本技术人工标注了10%的数据作为验证集。人工标注共得到324个文本特征,基于文本特征自动提取方法共得到了269个文本特征,其中经人工验证结果正确的为213个。
[0066]
从表1中的文本特征提取实验结果可以看出,文本特征提取的准确率p为79.18%,召回率r为65.74%,f1值为71.84%,其中准确率指的是提取结果中正确的个数占全部提取结果的比率;召回率指的是正确的结果被找出来的比率;f1值是准确率和召回率的调和平均。表明文本特征提取方法的整体性能尚可。各自具体的评价公式如下:
[0067][0068][0069][0070]
表5
[0071][0072]
本发明基于文本特征提取的可靠性和高效性,利用lda主题模型挖掘机组原因事件信息中潜在的风险主题和共性规律,通过主题强度与风险主题共现图谱得出重要性排名前三的核心风险主题并构建出核心风险主题语义图谱。通过计算pagerank值和有向边得到核心风险主题所对应的核心文本特征,从而有针对性地对核心风险主题背后的原因进行深入分析,从因果关系的角度建立样本不安全事件发生的因果关系链并提出安全控制措施。
[0073]
以上所述,仅为本技术较佳的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应该以权利要求的保护范围为准。

技术特征:
1.一种人为原因报告类事件信息文本分析与分类方法,其特征在于,包括以下步骤:获取包含事件信息的研究样本;基于所述研究样本获取文本数据;基于自然语言处理工具对所述文本数据进行操作行为文本特征提取;基于所述文本特征进行事件信息风险挖掘,获取关键特征词集合;基于所述关键特征词集合进行事件信息风险可视化,获取事件发生因果关系链,基于所述事件发生因果关系链获取安全控制措施策略。2.根据权利要求1所述的人为原因报告类事件信息文本分析与分类方法,其特征在于,基于所述研究样本获取文本数据的过程包括:获取所述研究样本中的事件信息;将所述事件信息中的“简要经过”和“原因分析”进行数据合并,获取所述文本数据。3.根据权利要求1所述的人为原因报告类事件信息文本分析与分类方法,其特征在于,基于自然语言处理工具对所述文本数据进行操作行为文本特征提取的过程包括:对所述文本数据进行预处理,获取规范化数据;构建用户自定义词典与概念词典,基于语言技术平台对所述规范化数据进行分词与词性标注,获取词性标注结果;采用依存句法分析方法对所述规范化数据进行语法成分识别,分析所述语法成分间的从属关系,获取语法分析结果;以列表的形式对所述词性标注结果以及所述语法分析结果进行存储;基于中文语法启发式规则进行文本特征提取;采用语义角色标注的提取方法对所述文本特征进行补充;基于所述文本数据构建验证集,通过计算准确率、召回率和f1值对所述文本特征提取的整体性能进行验证。4.根据权利要求3所述的人为原因报告类事件信息文本分析与分类方法,其特征在于,对所述文本数据进行预处理的过程包括:基于python正则表达式对所述文本数据进行名词提取;基于停用词表以及人工监督过滤所述文本数据中与人为操作特征无关的样本内容。5.根据权利要求3所述的人为原因报告类事件信息文本分析与分类方法,其特征在于,基于中文语法启发式规则进行文本特征提取的方法包括主谓宾关系抽取、主语和宾语的内容补全、核心动词含义补全、动宾关系补全、主谓宾并列结构的处理、含有介宾关系的主谓动补结构。6.根据权利要求1所述的人为原因报告类事件信息文本分析与分类方法,其特征在于,基于所述文本特征进行事件信息风险挖掘的过程包括:构建lda主题模型;基于所述lda主题模型获取文档-主题概率分布、主题-词分布以及主题概率强度图;基于python编程进行风险主题拟合以及主题关键特征词显示;对所述主题关键特征词以及原始数据进行归纳分析,基于分析结果对风险主题进行定义;基于所述主题概率强度图获取排名靠前的风险主题;
通过风险主题与特征词对应,将所述主题关键特征词组合,获取所述关键特征词集合。7.根据权利要求6所述的人为原因报告类事件信息文本分析与分类方法,其特征在于,基于所述lda主题模型获取文档-主题概率分布、主题-词分布以及主题概率强度图的过程包括:通过所述lda主题模型的输入层将所述文本特征传输至处理层,通过处理层对所述文本特征进行二次预处理,通过输出层输出文档-主题概率分布、主题-词分布以及主题概率强度图。8.根据权利要求1所述的人为原因报告类事件信息文本分析与分类方法,其特征在于,基于所述关键特征词集合进行事件信息风险可视化的过程包括:基于所述关键特征词集合中主题的共现次数获取风险主题共现矩阵;基于gephi可视化软件对所述风险主题共现矩阵进行可视化,获取风险主题共现网络图谱;对所述风险主题共现网络图谱进行平均加权度和pagerank值计算,将排名靠前的平均加权度、pagerank值与排名靠前的风险主题进行强度对比;分别对强度对比后的风险主题构建风险主题语义图谱;对所述风险主题语义图谱进行核心文本特征筛选,获取所述事件发生因果关系链。

技术总结
本发明公开了一种人为原因报告类事件信息文本分析与分类方法,包括:获取包含事件信息的研究样本;基于研究样本获取文本数据;基于自然语言处理工具对文本数据进行操作行为文本特征提取;基于文本特征进行事件信息风险挖掘,获取关键特征词集合;基于关键特征词集合进行事件信息风险可视化,获取事件发生因果关系链,基于事件发生因果关系链获取安全控制措施策略。本发明通过数据处理、知识挖掘及知识可视化过程完成了人为因素事件信息风险主题语义图谱构建,实现了从语义和语用的角度深入挖掘信息中隐含的风险主题及核心的风险因素,对以机组人为因素事件信息为代表的航空安全信息资源开发利用和研究模式进行了探索。全信息资源开发利用和研究模式进行了探索。全信息资源开发利用和研究模式进行了探索。


技术研发人员:刘俊杰 于佳楠 贺俊锋 叶英豪
受保护的技术使用者:中国民航大学
技术研发日:2023.04.19
技术公布日:2023/7/18
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐