一种分布式光伏运营工单数据采集分析方法与流程

未命名 08-17 阅读:100 评论:0


1.本发明涉及数据处理技术领域,具体涉及一种分布式光伏运营工单数据采集分析方法。


背景技术:

2.随着智能电网建设的推进,其规划、运行和维护产生的数据量呈指数增长,这些海量的电力数据对生产、经营和安全运行起着重要作用。光伏运营工单数据是记录和管理光伏发电系统运维和维护过程中产生的相关工作任务和信息的数据。基于数据分析结果,可以进行故障诊断和趋势分析,找出系统的薄弱环节和常见故障模式,以制定相应的改进措施。当前大多数的工单数据并没有得到有效利用,由于其中大部分属于半结构化和非结构化的文本数据,很难被机器识别并利用,伴随各种新型光伏系统的并网,使电力运行的不确定性极大的提高,产生巨量的报修、投诉、查询、反馈、服务的工单数据。但由于人工和自动化设备报表存在一定误差,且实际运维情况存在复杂性,使得工单数据的标注类型与实际报表类型不符,造成工作效率的浪费和服务器调用负载,降低监测调整运维活动的效率。


技术实现要素:

3.本发明提供一种分布式光伏运营工单数据采集分析方法,以解决复杂的光伏运营工单数据的实际类型与标注类型不符降低运维活动的效率的问题,所采用的技术方案具体如下:本发明一个实施例提供一种分布式光伏运营工单数据采集分析方法,该方法包括以下步骤:获取每条工单数据的核心词汇和其他词汇;获取每条工单数据的预设工单类型,并根据预设工单类型获取工单数据对于不同工单类型的标注系数;根据每条工单数据中每个工单类型的核心词的数量和字符长度获取工单数据对工单类型的第一系数权重;在每条工单数据中找到每个核心词的描述词,根据核心词的描述词之间的特征获取核心词的第二系数权重;根据工单数据对工单类型的第一系数权重、核心词的第二系数权重,每一个工单类型的核心词数量以及每个工单类型的标注系数获取每个工单类型的修正标注系数;根据每个工单类型的修正标注系数获取主要分类完成分布式光伏运营工单数据的分析。
4.优选的,所述获取每条工单数据的核心词汇和其他词汇的方法为:对每条工单数据使用结巴分词,得到核心词、助词、数字以及补充词,其中补充词是所有词性中除了核心词、助词、数字外的所有词汇。
5.优选的,所述根据每条工单数据中每个工单类型的核心词的数量和字符长度获取工单数据对工单类型的第一系数权重的方法为:
将获取到的词汇中的助词记为无效词,除了助词之外的词汇统称为有效词,获取所有有效词的字符长度,根据每条工单数据中每个工单类型下对应的核心词数量与所有工单类型下对应的核心词数量的比值与每条工单数据中每个工单类型下对应的核心词的字符长度与有效词的字符长度的比值获取工单数据对工单类型的第一系数权重。
6.优选的,所述根据每条工单数据中每个工单类型下对应的核心词数量与所有工单类型下对应的核心词数量的比值与每条工单数据中每个工单类型下对应的核心词的字符长度与有效词的字符长度的比值获取工单数据对工单类型的第一系数权重的方法为:式中,表示第i条工单数据中第k个工单类型的核心词,表示第i条工单数据中第k个工单类型的核心词的数量,表示第i条工单数据中第k个工单类型中第c个核心词, 表示第i条工单数据中第k个工单类型中第c个核心词的字符长度,表示第i条工单数据中的无效词, 表示第i条工单数据中所有无效词的数量,表示第i条工单数据中的第j个无效词,表示第i条工单数据中的第j个无效词的字符长度,表示第i条工单数据中的核心词,表示第i条工单数据中所有核心词的数量,表示第i条工单数据的所有字符长度,表示第i条工单数据对第k个工单类型的第一系数权重。
7.优选的,所述在每条工单数据中找到每个核心词的描述词,根据核心词的描述词之间的特征获取核心词的第二系数权重的方法为:在工单数据中的词汇类型中有核心词、助词、数字、补充词、对于每一个核心词,若数字和补充词是为了描述该核心词存在的,那么数字和补充词作为核心词的描述词;根据核心词的描述词得到核心词的描述强度,根据核心词的描述强度以及核心词的所有描述词的有效性获取核心词的第二系数权重。
8.优选的,所述根据核心词的描述词得到核心词的描述强度的方法为:对于核心词的任意两个描述词计算两者的义原相似度,将核心词的所有描述词都两两之间获取义原相似度,将核心词所有描述词两两之间的义原相似度的均值作为核心词的描述强度。
9.优选的,所述根据核心词的描述强度以及核心词的所有描述词的有效性获取核心词的第二系数权重的方法为:对于每个核心词,获取核心词的所有描述词数量,将每个描述词的字符长度进行累加得到描述长度,令描述长度和核心词的描述强度相乘得到第一乘积,将工单数据中所有词汇的字符长度和工单数据中所有无效词的字符程度作差得到工单数据的有效长度,将第一乘积和有效长度的比值作为核心词的第二系数权重。
10.优选的,所述根据工单数据对工单类型的第一系数权重、核心词的第二系数权重,每一个工单类型的核心词数量以及每个工单类型的标注系数获取每个工单类型的修正标
注系数的方法为:式中,表示第i条工单数据中第k个工单类型的核心词,表示第i条工单数据中第k个工单类型的核心词的数量,表示第i条工单数据对第k个工单类型的第一系数权重,表示第i条工单数据中第k个工单类型的第c个核心词的第二系数权重,表示第i条工单数据中第k个工单类型的标注系数,表示线性归一化函数,表示第i条工单数据中第k个工单类型的修正标注系数。
11.本发明的有益效果是:本发明针对现有光伏运营单位在采集数据的过程中存在人为和自动化的误差以及实际运维故障复杂使得报表工单的标注类型与实际类型存在误差的情况,通过分析数据中核心词自身对工单的类型影响获得第一类型系数权重,并结合修饰词与核心词的关系获得第二类型系数权重,得到工单类型系数,提取工单类型系数中的最大值作为工单的主要类型,构建分布式存储器,达到纠正工单类型、增加运维活动的监测效率。
附图说明
12.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
13.图1为本发明一个实施例所提供的一种分布式光伏运营工单数据采集分析方法的流程示意图。
具体实施方式
14.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
15.请参阅图1,其示出了本发明一个实施例提供的一种分布式光伏运营工单数据采集分析方法流程图,该方法包括以下步骤:步骤s001,采集工单数据并获取工单数据的核心词汇。
16.光伏设备运行过程采集的工单数据包括工单编号等大量数据,由于光伏设备运行过程中的问题较多,而现有工单类型具有局限性,使得部分工单数据存在误报或报表人员不清楚多种的工况应对应哪种工单类型,使得在采集工单数据并分布式存储过程中,工单被分配到非归属的分布式存储空间,造成智慧电网系统的运行效率降低和存储负载增大。根据分布式光伏设备自身的工单数据读取器读取所有工单数据,每条工单数据为回执或建
议的一小段数据,在此以一条工单数据为例:“2月13号,户号为8452358的客户来电反映,客户1月未收到当月电费通知单,客户表示之前都是月初收到当月电费通知单的,客户表示疑惑,请供电公司进尽快核实并反馈给用户”。
17.对于工单数据用于构建分布式存储系统,故而首先需要对工单数据进行数据清洗,由于工单数据中存在大量的中文字词,中文词语的最小单元是字,但传统上绝大多数以字构成的词组组成句子用以表达工单数据所记录的意思,而每个句子中可能包括核心词、数字、助词、补充词等,对于获取到的原始工单数据,其中包含了大量重复无意义的词语,因此需要进行数据清洗,消除日期、工单号、等对工单类型判定的无效词汇,防止对文本挖掘的干扰。
18.对每条工单数据使用结巴分词获取工单数据中的各种词性,在本实施例中以核心词、数字、助词、补充词为例说明,在除了核心词、助词、数字外的所有词都称为补充词,对于核心词给出核心词库,核心词库中为能体现出运营工单类型的词汇。举例说明,以“工作人员找不到变压器地址来电告知希望工作人员再去鞍池西路98弄3 号查看”为例,其中“查看”为核心词,“98”、“3”为数字,“再”为助词,其余为补充词。
19.至此,获取了每条工单数据的核心词汇和其他词汇。
20.步骤s002,根据不同工单数据对应的不同工单类型的核心词数量和字符长度获取工单数据对工单类型的第一系数权重。
21.由于工单数据的数量较多,且报表通常为人工描述实际问题,使得工单数据中存在部分类型与描述的工单类型不符的问题,因此本方法通过使用工单数据提取到的工单类型核心词汇并结合非核心词汇对核心词汇的进行修饰补充,在本步骤中根据助词来对核心词进行修饰,分析描述类型与报表的类型的一致性。
22.具体的,首先,每条工单数据在报表时,报表的人会选择工单的类型,根据选择的工单类型对工单数据进行预设,对于每条工单数据的所有可能的工单类型中,将其进行标记,将该条工单数据中预设的工单类型进行标注,标注系数为e,在本实施例中标注系数e为0.5,将预设的工单类型记为标准工单类型,将该条工单数据所有可能的工单类型中非预设的工单类型进行标注,标注系数为0。
23.每个工单数据中存在一个或多个可以描述报单的故障类型的词汇,但由于实际工单故障的构成复杂,可能性较多,使得报单人员在根据故障递交工单时,实际故障与报单的工单类型不符,因此需要根据描述报单的故障类型词汇对工单分类。
24.进一步的,对于每条工单数据,获取所有核心词,将核心词中属于标准工单类型的核心词提取出来记为标准核心词,对于分词得到的所有词汇的词性中,助词是对工单分类没有效果,其是作为一种语气代词出现的,无明显意义,因此将助词记为无效词,其余的词汇作为有效词,获取有效词的长度,根据标准核心词的数量和长度与词汇的数量和有效词的长度的比值得到工单数据对每个工单类型的第一系数权重,公式如下:式中,表示第i条工单数据中第k个工单类型的核心词,表示
第i条工单数据中第k个工单类型的核心词的数量,表示第i条工单数据中第k个工单类型中第c个核心词, 表示第i条工单数据中第k个工单类型中第c个核心词的字符长度,表示第i条工单数据中的无效词, 表示第i条工单数据中所有无效词的数量,表示第i条工单数据中的第j个无效词,表示第i条工单数据中的第j个无效词的字符长度,表示第i条工单数据中的核心词,表示第i条工单数据中所有核心词的数量,表示第i条工单数据的所有字符长度,表示第i条工单数据对第k个工单类型的第一系数权重。其中工单数据中每个字符的长度为1,每个文字或数字都表示一个字符。属于第个工单类型的核心词数量在所有核心词数量中的占比越多,说明第i条工单数据属于第个工单类型的可能性越大。
25.至此,获得了每个工单数据对每个工单类型的第一系数权重。
26.步骤s003,根据核心词的描述词获取第二系数权重,并集合第一系数权重和工单类型的标注系数获取每个工单类型的修正标注系数。
27.工单数据中可能存在不止一个核心词,因此在分析工单类型时,需要选取主要的类型作为构建分布式存储器的标准;本实施例根据在同一条工单数据中的补充词对核心词的修饰程度,对标注的工单类型加权获得类型系数。工单数据中有效词包括核心词、数字和补充词,其中数值和补充词是其所属的核心词的修饰,且补充词的数量越多,长度越长,则说明该核心词越重要,并且认为同一个核心词的补充词之间越相似,其对核心词的修饰效果越强,则说明该核心词越能表述工单类型。
28.具体的,在每条工单数据中,补充词和数字都是依托于核心词存在的,因此获取与每个核心词相关联的补充词和数字作为描述词,计算每个核心词的任意两个描述词的义原相似度,义原相似度为现有技术,其是根据词汇的上下文和词汇关系获取词汇的相似度最大值,在此不多做赘述。
29.将每个核心点的所有描述词两两之间的义原相似度的均值作为核心词的描述强度,描述强度的值为[0,1]内的数。补充词以及数字为实词,实词作为对核心词的修饰,表现对核心词的强调作用,意思越相近,则强调效果越强,表明该核心词在该工单数据中所占意思越重要,该工单类型与核心词的类型越接近。
[0030]
获取每个核心词相关联的补充词和数字的字符长度,根据每个核心词的关联的补充词和数字的字符长度以及描述强度获取核心词的第二系数权重,公式如下:式中,表示第i条工单数据中的第t个核心词的关联补充词,表示第i条工单数据中的第t个核心词的关联补充词的数量,表示第i条工单数据中的第t个核心词的第z1个关联补充词,表示第i条工单数据中的第t个核心词的第
z1个关联补充词的字符长度,表示第i条工单数据中的第t个核心词的关联数字,表示第i条工单数据中的第t个核心词的关联数字的数量,表示第i条工单数据中的第t个核心词的第z2个关联数字,表示第i条工单数据中的第t个核心词的第z2个关联字符的字符长度,表示第i条工单数据中的无效词, 表示第i条工单数据中所有无效词的数量,表示第i条工单数据中的第j个无效词,表示第i条工单数据中的第j个无效词的字符长度,表示第i条工单数据的所有字符长度,表示第i条工单数据的第t个核心词的第二系数权重。
[0031]
核心词的关联数字和关联补充词的长度在工单数据内有效词的长度占比越大,说明该词汇描述的越多,结合描述强度,第二系数权重越大表示该核心词所对应的类型越可能是工单类型。
[0032]
根据核心词的第二系数权重、工单数据对每个工单类型的第一系数权重以及标注系数得到工单数据的类型系数,公式如下:式中,表示第i条工单数据中第k个工单类型的核心词,表示第i条工单数据中第k个工单类型的核心词的数量,表示第i条工单数据对第k个工单类型的第一系数权重,表示第i条工单数据中第k个工单类型的第c个核心词的第二系数权重,表示第i条工单数据中第k个工单类型的标注系数,表示线性归一化函数,表示第i条工单数据中第k个工单类型的修正标注系数。
[0033]
第一系数权重表示工单数据内所有核心词属于第k个工单类型的权重,权重越大则说明描述第k个工单类型的核心词越多,则越可能是第k个工单类型;第二系数权重表示每个核心词的描述特性,该工单数据内描述核心词的词汇越多,则该核心词表述的工单数据意思越强,说明该核心词表述的语义越可能是工单的语义。
[0034]
至此,获取了每条工单数据的对不同工单类型的修正标注系数。
[0035]
步骤s004,根据修正标注系数对所有工单数据分类并构建分布式存储器完成工单数据分析。
[0036]
通过上述步骤获取了每条工单数据对不同工单类型的修正标注系数,由于会出现报表填写错误等情况,因此选取最大的修正标注系数对应的工单类型作为主要类型用来构建分布式存储器。
[0037]
对所有工单数据使用主要类型分类得到多个分布式数据簇,将每一个数据簇作为一个数据种类,得到光伏工单数据的分布式存储器,提取分布式存储器内的数据完成分布式光伏运营工单数据的分析。
[0038]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精
神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种分布式光伏运营工单数据采集分析方法,其特征在于,该方法包括以下步骤:获取每条工单数据的核心词汇和其他词汇;获取每条工单数据的预设工单类型,并根据预设工单类型获取工单数据对于不同工单类型的标注系数;根据每条工单数据中每个工单类型的核心词的数量和字符长度获取工单数据对工单类型的第一系数权重;在每条工单数据中找到每个核心词的描述词,根据核心词的描述词之间的特征获取核心词的第二系数权重;根据工单数据对工单类型的第一系数权重、核心词的第二系数权重,每一个工单类型的核心词数量以及每个工单类型的标注系数获取每个工单类型的修正标注系数;根据每个工单类型的修正标注系数获取主要分类完成分布式光伏运营工单数据的分析。2.根据权利要求1所述的一种分布式光伏运营工单数据采集分析方法,其特征在于,所述获取每条工单数据的核心词汇和其他词汇的方法为:对每条工单数据使用结巴分词,得到核心词、助词、数字以及补充词,其中补充词是所有词性中除了核心词、助词、数字外的所有词汇。3.根据权利要求1所述的一种分布式光伏运营工单数据采集分析方法,其特征在于,所述根据每条工单数据中每个工单类型的核心词的数量和字符长度获取工单数据对工单类型的第一系数权重的方法为:将获取到的词汇中的助词记为无效词,除了助词之外的词汇统称为有效词,获取所有有效词的字符长度,根据每条工单数据中每个工单类型下对应的核心词数量与所有工单类型下对应的核心词数量的比值与每条工单数据中每个工单类型下对应的核心词的字符长度与有效词的字符长度的比值获取工单数据对工单类型的第一系数权重。4.根据权利要求3所述的一种分布式光伏运营工单数据采集分析方法,其特征在于,所述根据每条工单数据中每个工单类型下对应的核心词数量与所有工单类型下对应的核心词数量的比值与每条工单数据中每个工单类型下对应的核心词的字符长度与有效词的字符长度的比值获取工单数据对工单类型的第一系数权重的方法为:式中,表示第i条工单数据中第k个工单类型的核心词,表示第i条工单数据中第k个工单类型的核心词的数量,表示第i条工单数据中第k个工单类型中第c个核心词, 表示第i条工单数据中第k个工单类型中第c个核心词的字符长度,表示第i条工单数据中的无效词, 表示第i条工单数据中所有无效词的数量,表示第i条工单数据中的第j个无效词,表示第i条工单数据中的第j个无效词的字符长度,表示第i条工单数据中的核心词,表示第i条工单数据中所有核心词的数量,表示第i条工单数据的所有字符长度,表示第i条工单数据
对第k个工单类型的第一系数权重。5.根据权利要求1所述的一种分布式光伏运营工单数据采集分析方法,其特征在于,所述在每条工单数据中找到每个核心词的描述词,根据核心词的描述词之间的特征获取核心词的第二系数权重的方法为:在工单数据中的词汇类型中有核心词、助词、数字、补充词、对于每一个核心词,若数字和补充词是为了描述该核心词存在的,那么数字和补充词作为核心词的描述词;根据核心词的描述词得到核心词的描述强度,根据核心词的描述强度以及核心词的所有描述词的有效性获取核心词的第二系数权重。6.根据权利要求5所述的一种分布式光伏运营工单数据采集分析方法,其特征在于,所述根据核心词的描述词得到核心词的描述强度的方法为:对于核心词的任意两个描述词计算两者的义原相似度,将核心词的所有描述词都两两之间获取义原相似度,将核心词所有描述词两两之间的义原相似度的均值作为核心词的描述强度。7.根据权利要求5所述的一种分布式光伏运营工单数据采集分析方法,其特征在于,所述根据核心词的描述强度以及核心词的所有描述词的有效性获取核心词的第二系数权重的方法为:对于每个核心词,获取核心词的所有描述词数量,将每个描述词的字符长度进行累加得到描述长度,令描述长度和核心词的描述强度相乘得到第一乘积,将工单数据中所有词汇的字符长度和工单数据中所有无效词的字符程度作差得到工单数据的有效长度,将第一乘积和有效长度的比值作为核心词的第二系数权重。8.根据权利要求1所述的一种分布式光伏运营工单数据采集分析方法,其特征在于,所述根据工单数据对工单类型的第一系数权重、核心词的第二系数权重,每一个工单类型的核心词数量以及每个工单类型的标注系数获取每个工单类型的修正标注系数的方法为:式中,表示第i条工单数据中第k个工单类型的核心词,表示第i条工单数据中第k个工单类型的核心词的数量,表示第i条工单数据对第k个工单类型的第一系数权重,表示第i条工单数据中第k个工单类型的第c个核心词的第二系数权重,表示第i条工单数据中第k个工单类型的标注系数,表示线性归一化函数,表示第i条工单数据中第k个工单类型的修正标注系数。

技术总结
本发明涉及数据处理技术领域,提出了一种分布式光伏运营工单数据采集分析方法,包括:获取每条工单数据的核心词汇和其他词汇;并获取工单数据不同工单类型的标注系数;根据工单数据中每个工单类型的核心词特征获取工单数据对工单类型的第一系数权重;在工单数据中找到核心词的描述词,根据核心词的描述词之间的特征获取核心词的第二系数权重;根据第一系数权重、第二系数权重,核心词数量以及工单类型的标注系数获取工单类型的修正标注系数;根据每个工单类型的修正标注系数完成分布式光伏运营工单数据的分析。本发明可以纠正工单类型、并增加运维活动的监测效率。并增加运维活动的监测效率。并增加运维活动的监测效率。


技术研发人员:张佳祺 周信行 徐凌寒 曹苾玥 齐丹丹
受保护的技术使用者:广东电网有限责任公司广州供电局
技术研发日:2023.07.19
技术公布日:2023/8/16
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐