一种基于NLP与热点词元分析的用电诉求辨析方法和系统与流程
未命名
07-23
阅读:150
评论:0
一种基于nlp与热点词元分析的用电诉求辨析方法和系统
技术领域
1.本发明涉及一种基于nlp与热点词元分析的用电诉求辨析方法和系统,属于电力数据处理技术领域。
背景技术:
2.供电服务指挥中心在服务过程中收到的非抢修类诉求工单很多,数以百万计的用户,其用电环境和用电诉求五花八门,有7大类、272小类,依靠客服中心标记工单类型,为对用户用电诉求进行了初步分类。但是,用户中有大量的老年人,他们在填写工单时经常会添加情感因素,导致工单出现方言词汇并且口语化严重,另外工单还存在由于填写疏忽导致工单上出现同音词错别字的情况,增加了客服人工分辨难度,导致工单意图无法识别准确,对工单精细化处理的影响较大,增加了用户投诉风险。
技术实现要素:
3.本发明的技术问题是解决工单中方言和错别字影响用电诉求辨析准确性的问题。
4.为解决上述技术问题,本发明提出的第一技术方案是:一种基于nlp与热点词元分析的用电诉求辨析方法,包括以下步骤:
5.s1、对用电诉求工单上的文字进行提取,得到文字集合;
6.s2、通过上下文语义对文字集合分割,得到基础词元,将分割得到的基础词元与专业词元进行对比合并,得到专业基础词元;
7.s3、筛选专业基础词元中意思表示或者是标准热点词元的潜在热点词元,与多维热点词元集合进行相关度计算,大于相关度阈值的潜在热点词元作为关键词;所述标准热点词元由本领域专家给出;
8.s4、将关键词按照不同语序拼接,得到关键词拼接句集合;
9.s5、将关键词拼接句集合中的每一项与诉求分类库中的每一诉求逐一计算关联度,以最大的关联度对应的诉求分类库中的一项诉求作为用电诉求辨析结果;所述诉求分类库是分类的历史用电诉求档案经过提取受理内容的自然文本段落,利用nlp自然语言进行词法、语法辨析,进而聚类得到的关键词分类库。
10.进一步,步骤s3所述多维热点词元集合的表达式是n=(x,x(cs),x(om)),其中x是用电诉求标准热点词集,x(cs)和x(om)分别是标准热点词集对应的方言词集和同音词集。
11.进一步,步骤s3所述相关度计算公式如下式(1),
[0012][0013]
式(1)中,ai为第i个词元在潜在热点词元中出现的频率,值取1;bi为第i个词元在多维热点词元集合中出现的频率。
[0014]
进一步,步骤s5所述关联度计算公式如下式(2),
[0015][0016]
式(2)中,ai为第i个关键词在关键词拼接句集合中出现的频率;bj为第j个关键词在诉求分类库的单项诉求中出现的频率;n1表示关键词拼接句单一向量中关键词数量;n3表示诉求数据单一向量中关键词数量。
[0017]
为解决上述技术问题,本发明提出的第二技术方案是:一种基于nlp与热点词元分析的用电诉求辨析系统,包括以下模块:
[0018]
诉求提取模块,用于提取用户诉求工单上的文字,得到文字集合;
[0019]
词元识别模块,通过上下文语义对文字集合分割,得到基础词元,将分割得到的基础词元与专业词元进行对比合并,得到专业基础词元;
[0020]
关键词提取模块,用于筛选专业基础词元中意思表示或者是标准热点词元的潜在热点词元,与多维热点词元集合进行相关度计算,大于相关度阈值的潜在热点词元作为关键词。
[0021]
关键词拼接模块,用于将关键词按照不同语序拼接,得到若干个关键词拼接句;
[0022]
诉求辨析模块,用于计算关键词拼接句集合中的每一项与诉求分类库中诉求关联度,以最大的关联度对应的诉求分类库中的单项诉求作为用电诉求;
[0023]
所述数据库模块,用于分类储存诉求分类库数据、标准热点词数据和表示标准热点词含义的方言词和同音词数据组成的多维热点词库数据。
[0024]
从以上技术方案可以看出,本发明具有以下优点:
[0025]
本发明通过筛选出用电诉求工单潜在热点词元与多维热点词元集合,即用电诉求标准热点词集、表示标准热点词含义的方言词集和同音词集的维度组合,计算相关度,将大于相关度阈值的潜在热点词元设为关键词,再计算关键词拼接句与诉求分类库中诉求的关联度,将关联度最高的诉求作为用户用电诉求意图,解决了现有技术无法识别方言和同音字错误,导致用电诉求工单意图识别不准确的问题,能够提升用户用电诉求的辨析效果。
附图说明
[0026]
图1为本实施例的一种基于nlp与热点词元分析的用电诉求辨析方法的流程图。
[0027]
图2为本实施例的一种基于nlp与热点词元分析的用电诉求辨析系统的结构示意图。
具体实施方式
[0028]
如图1所示,本发明提供的一种电力用户诉求筛选方法,以下为本发明提供的一种电力用户诉求筛选方法和系统实施例的具体描述,包括以下步骤:
[0029]
s1、对用电诉求工单上的文字进行提取,得到文字集合;
[0030]
s2、通过上下文语义对文字集合分割,得到基础词元,将分割得到的基础词元与专业词元进行对比合并,得到专业基础词元;
[0031]
s3、筛选专业基础词元中意思表示或者是标准热点词元的潜在热点词元,与多维热点词元集合进行相关度计算,大于相关度阈值的潜在热点词元作为关键词,标准热点词
元由本领域专家给出;
[0032]
例如,对用户诉求工单上的文字进行提取后得到文字集合“a位置一次接线电路故障检修”,通过上下文语义对文字集合分割,得到基础词元“a,位置,一次,接线,电路,故障,检修”其中,“一次接线”属于专业词元,将基础词元合并,最终得到“a,位置,一次接线,电路,故障,检修”。专业词元在https://www.taodocs.com/p-282955323.html网址中下载。
[0033]
由本领域专家根据经验给出不同用电诉求工单标准热点词元,网络下载方言词字典和同音词字典,利用基于字典的query算法提取表示热点词含义的方言词和同音词,再将用电诉求标准热点词、表示标准热点词含义的方言词和同音词维度组合,得到多维热点词元集合n=(x,x(cs),x(om)),其中x是用电诉求标准热点词集,x(cs)和x(om)分别是标准热点词对应的方言词集和同音词集。例如,热点词汇数据库中诉求的第k项用电诉求标准热点词xk对应有s种同义的方言词(xk(c1),xk(c2),...,xk(cs)),和m种可能错误的同音词(xk(o1),xk(o2),...,xk(om))。
[0034]
然后,将潜在热点词元与多维热点词元集合计算相关度,相关度计算公式如下:
[0035][0036]
其中,ai为第i个词元在潜在热点词元中出现的频率,值取1;bi为第i个词元在多维热点词元集合中出现的频率。
[0037]
最后,设置相关度阈值,相关度i
xgd
大于阈值的热点词设为关键词。例如,通过计算和筛选,在(电路、垫路、电炉、电子路)中选择电路为关键词。
[0038]
s4、将关键词按照不同语序拼接,得到关键词拼接句集合;
[0039]
s5、将关键词拼接句集合中的每一项与诉求分类库中的每一诉求逐一计算关联度,以最大的关联度对应的诉求分类库中的一项诉求作为用电诉求辨析结果,诉求分类库是分类的历史用电诉求档案经过提取受理内容的自然文本段落,利用nlp自然语言进行词法、语法辨析,进而聚类得到的关键词分类库。
[0040]
将关键词拼接句集合中的每一项与诉求分类库中的每一诉求数据逐一计算关联度,关联度计算公式如下:
[0041][0042]
其中,ai为第i个关键词在关键词拼接句集合中出现的频率;bj为第j个关键词在诉求分类库的单项诉求中出现的频率;n1表示关键词拼接句单一向量中关键词数量;n3表示诉求数据单一向量中关键词数量。
[0043]
本实施例还提出一种基于nlp与热点词元分析的用电诉求辨析系统,包括以下模块:
[0044]
诉求提取模块,用于提取用户诉求工单上的文字,得到文字集合;
[0045]
词元识别模块,通过上下文语义对文字集合分割,得到基础词元,将分割得到的基础词元与专业词元进行对比合并,得到专业基础词元;
[0046]
关键词提取模块,用于筛选专业基础词元中意思表示或者是标准热点词元的潜在
热点词元,与多维热点词元集合进行相关度计算,大于相关度阈值的潜在热点词元作为关键词;
[0047]
关键词拼接模块,用于将关键词按照不同语序拼接,得到若干个关键词拼接句;
[0048]
诉求辨析模块,用于计算关键词拼接句集合中的每一项与诉求分类库中诉求关联度,以最大的关联度对应的诉求分类库中的单项诉求作为用电诉求;
[0049]
所述数据库模块,用于分类储存诉求分类库数据、标准热点词数据和表示标准热点词含义的方言词和同音词数据组成的多维热点词库数据。
技术特征:
1.一种基于nlp与热点词元分析的用电诉求辨析方法,其特征在于,包括以下步骤:s1、对用电诉求工单上的文字进行提取,得到文字集合;s2、通过上下文语义对文字集合分割,得到基础词元,将分割得到的基础词元与专业词元进行对比合并,得到专业基础词元;s3、筛选专业基础词元中意思表示或者是标准热点词元的潜在热点词元,与多维热点词元集合进行相关度计算,大于相关度阈值的潜在热点词元作为关键词;所述标准热点词元由本领域专家给出;s4、将关键词按照不同语序拼接,得到关键词拼接句集合;s5、将关键词拼接句集合中的每一项与诉求分类库中的每一诉求逐一计算关联度,以最大的关联度对应的诉求分类库中的一项诉求作为用电诉求辨析结果;所述诉求分类库是分类的历史用电诉求档案经过提取受理内容的自然文本段落,利用nlp自然语言进行词法、语法辨析,进而聚类得到的关键词分类库。2.根据权利要求1所述的一种基于nlp与热点词元分析的用电诉求辨析方法,其特征在于,步骤s3所述多维热点词元集合的表达式是n=(x,x(c
s
),x(o
m
)),其中x是用电诉求标准热点词集,x(c
s
)和x(o
m
)分别是标准热点词集对应的方言词集和同音词集。3.根据权利要求1所述的一种基于nlp与热点词元分析的用电诉求辨析方法,其特征在于,步骤s3所述相关度计算公式如下式(1),式(1)中,a
i
为第i个词元在潜在热点词元中出现的频率,值取1;b
i
为第i个词元在多维热点词元集合中出现的频率。4.根据权利要求1所述的一种基于nlp与热点词元分析的用电诉求辨析方法,其特征在于,步骤s5所述关联度计算公式如下式(2),式(2)中,a
i
为第i个关键词在关键词拼接句集合中出现的频率;b
j
为第j个关键词在诉求分类库的单项诉求中出现的频率;n1表示关键词拼接句单一向量中关键词数量;n3表示诉求数据单一向量中关键词数量。5.一种基于nlp与热点词元分析的用电诉求辨析系统,其特征在于,包括以下模块:诉求提取模块,用于提取用户诉求工单上的文字,得到文字集合;词元识别模块,通过上下文语义对文字集合分割,得到基础词元,将分割得到的基础词元与专业词元进行对比合并,得到专业基础词元;关键词提取模块,用于筛选专业基础词元中意思表示或者是标准热点词元的潜在热点词元,与多维热点词元集合进行相关度计算,大于相关度阈值的潜在热点词元作为关键词;关键词拼接模块,用于将关键词按照不同语序拼接,得到若干个关键词拼接句;诉求辨析模块,用于计算关键词拼接句集合中的每一项与诉求分类库中诉求关联度,以最大的关联度对应的诉求分类库中的单项诉求作为用电诉求;
所述数据库模块,用于分类储存诉求分类库数据、标准热点词数据和表示标准热点词含义的方言词和同音词数据组成的多维热点词库数据。
技术总结
本发明涉及一种基于NLP与热点词元分析的用电诉求辨析方法和系统,属于电力数据处理技术领域。本发明通过筛选出用电诉求工单潜在热点词元与多维热点词元集合,即用电诉求标准热点词集、表示标准热点词含义的方言词集和同音词集的维度组合,计算相关度,将大于相关度阈值的潜在热点词元设为关键词,再计算关键词拼接句与诉求分类库中诉求的关联度,将关联度最高的诉求作为用户用电诉求意图,解决了现有技术无法识别方言和同音字错误导致用电诉求工单意图识别不准确的问题,能够提升用户用电诉求的辨析效果。求的辨析效果。求的辨析效果。
技术研发人员:殷蓓 夏琳慜 高淑婷 吕湛 祁伟 高敏
受保护的技术使用者:国网江苏省电力有限公司南京供电分公司
技术研发日:2023.04.26
技术公布日:2023/7/22
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
