一种基于多模态的政务服务投诉预警方法及装置与流程
未命名
10-18
阅读:188
评论:0
1.本发明涉及人工智能和投诉预警技术领域,更具体的说是涉及一种基于多模态的政务服务投诉预警方法及装置。
背景技术:
2.互联网时代,人们习惯于在互联网上记录所见所闻和发表看法,比较流行的社交平台比如微博、微信、抖音、社区论坛等,每天都会产生庞大的信息量,很多社会热点最早会在这类平台上讨论和传播,社交媒体数据是探查社会热点和人民群众声音的有效数据源。
3.目前,各个地区为了解决群众的问题,也设置了各种的建议、投诉及留言的通道平台。这些平台可以搜集人们政务服务效果的反馈,需要及时进行处理。
4.当前,政务服务投诉是采用人工方式来识别预警的,此方式工作量大,工作效率较低,人员成本也较高,不能快速识别,不便于及时通知相关部门进行处理。
技术实现要素:
5.有鉴于此,本发明提供至少解决上述部分技术问题的一种基于多模态的政务服务投诉预警方法及装置,可以自动高效的、精准的识别政务话题,进行情感分析,便于对政务服务投诉进行预警,提高了工作效率,降低了工作量和成本,有助于及时通知相关部门对发现的潜在问题进行处理,有利于提升政务服务水平及效率。
6.为实现上述目的,本发明采取的技术方案为:
7.第一方面,本发明实施例提供一种基于多模态的政务服务投诉预警方法,包括以下步骤:
8.s1、采集多模态的网络数据,并将采集的数据按照预设方式分类存储;
9.s2、对存储的多模态网络数据进行数据转换及融合处理;
10.s3、利用社区聚类算法对融合后的数据进行政务话题识别;
11.s4、对识别的政务话题进行情感分析,得到正向情感和负向情感的话题摘要;
12.s5、统计分析负向情感话题摘要的关注度,若关注度的维度指标超过预设阈值时,向相关部门进行政务服务投诉预警。
13.优选的,所述步骤s1中,按照预设时间采集多模态的网络数据,多模态的网络数据包括:网络媒体中的文本数据、图片数据、音频数据和视频数据。
14.优选的,所述步骤s1中,采集的多模态的网络数据按照格式、来源、时间进行分类存储。
15.优选的,所述步骤s2中,所述数据转换包括:
16.通过视频的关键帧提取,将视频数据转换成图片数据;
17.通过asr语音识别技术,将音频数据转换成文本数据;
18.利用神经网络模型对采集的图片数据及转换的图片数据分别进行图生文处理,转换为文本数据。
19.优选的,所述步骤s2中,所述融合处理为:将转换的文本数据与原始采集的文本数据进行融合,融合方法包括:
20.由视频关键帧图片转化的文本数据作为一个文档处理;
21.作为一个来源的采集图片,生成的文字描述合并为一个文档处理;
22.社区论坛中一个主贴或话题下面的所有评论作为一个文档处理;
23.问政平台上一条反映问题加上回复作为一个文档处理。
24.优选的,每个文档被分配一个id,id后续跟着趋势实体词。
25.优选的,所述步骤s3中,所述利用社区聚类算法对融合后的数据进行政务话题识别包括:
26.s3.1、将所有文档进行分词和词频统计,提取趋势实体词;
27.s3.2、构建趋势实体的共现矩阵和趋势热词图;
28.s3.3、基于社区聚类算法对趋势热词图的节点进行聚类;
29.s3.4、利用深度学习的神经网络模型对聚类后的趋势热词进行处理,识别出政务话题。
30.优选的,所述步骤s5中,所述关注度的维度指标包括:贴文的评论数、评论号的粉丝数、话题关联的文档数、话题趋势热词的网络搜索数。
31.第二方面,本发明实施例还提供一种基于多模态的政务服务投诉预警装置,应用上述的一种基于多模态的政务服务投诉预警方法,实现政务话题的智能精准识别,进行情感分析,对潜在的政务服务投诉问题进行预警,该装置包括:
32.数据采集模块,用于采集多模态的网络数据,并将采集的数据按照预设方式分类存储;
33.多模态数据融合模块,用于对存储的多模态网络数据进行数据转换及融合处理;
34.政务话题发现模块,用于利用社区聚类算法对融合后的数据进行政务话题识别;
35.情感分析模块,用于对识别的政务话题进行情感分析,得到正向情感和负向情感的话题摘要;
36.统计分析模块,用于统计分析负向情感话题摘要的关注度,若关注度的维度指标超过预设阈值时,向相关部门进行政务服务投诉预警。
37.与现有技术相比,本发明至少具有如下有益效果:
38.本发明提供了一种基于多模态的政务服务投诉预警方法及装置,通过采集多模态的网络数据,捕捉政务服务社会反馈,进行政务热点话题识别和情感分析判断分类,可以提前获取潜在的政务服务投诉隐患,便于对政务服务投诉进行预警,提高了工作效率,降低了工作量和成本,有助于及时通知相关部门对发现的潜在问题进行处理,有利于提升政务服务水平及效率。
39.本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
40.下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
41.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
42.附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
43.图1为本发明实施例提供的一种基于多模态的政务服务投诉预警方法的流程示意图。
44.图2为本发明实施例提供的特征提取模型的原理示意图。
45.图3为本发明实施例提供的语言模型的原理示意图。
46.图4为本发明实施例提供的趋势实体的共现矩阵示意图。
47.图5为本发明实施例提供的趋势热词图。
48.图6为本发明实施例提供的社区聚类示意图。
49.图7为本发明实施例提供的一种基于多模态的政务服务投诉预警装置的结构示意图。
具体实施方式
50.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
51.因此,以下对本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
52.参照图1所示,本发明提供了一种基于多模态的政务服务投诉预警方法,该方法包括以下步骤:
53.s1、采集多模态的网络数据,并将采集的数据按照预设方式分类存储;
54.s2、对存储的多模态网络数据进行数据转换及融合处理;
55.s3、利用社区聚类算法对融合后的数据进行政务话题识别;
56.s4、对识别的政务话题进行情感分析,得到正向情感和负向情感的话题摘要;
57.s5、统计分析负向情感话题摘要的关注度,若关注度的维度指标超过预设阈值时,向相关部门进行政务服务投诉预警。
58.下面对本发明方法的具体实施方式进行详细的说明:
59.本发明可以以某地区政府为主体,通过采集和分析网络问政平台问题反映和答复、微博、社区论坛、以及抖音等社交媒体人们的发布文字、图片、视频等内容,基于多模态数据融合技术,将多信息来源、多信息形式的数据融合分析,获取政务相关的热点话题,通过话题的情感分析,分别获取负面话题和正面话题集合,按照社会关注度由高到低排序,生成每日政务话题简报,推送到地区政务平台。当个别负面话题的关注度超过一个阈值,将被打上预警标志,对存在的隐患问题尽快处理。该方法的具体实施方式如下:
60.一、网络数据采集:
61.各地区为了搜集人们对政务服务的态度,设置了各种的留言、建议、投诉等通道的问政平台,比如重庆网络问政平台等。这些平台直接搜集人们对政务服务效果的反馈,若能在更加前期的时候就智能自动的获取这些投诉问题的隐患,在事件萌芽时期及时采取措施处理,那么就能减少事情的影响面。
62.互联网时代,人们习惯于在互联网上记录所见所闻和发表看法,目前比较流行的社交平台比如微博、微信、抖音、社区论坛等,每天产生庞大的信息量,很多社会热点最早会会在这类平台上讨论和传播,社交媒体数据是探查社会热点和人民声音的有效数据源。
63.本实施例中,首先采集上述各平台的多模态的网络数据,可以定义周期任务,例如每12小时采集一次,采集的网络数据有文本、图片、音频和视频。并将采集的数据按照预设方式分类存储;优选的,采集后数据按照格式、来源、时间存储起来,以便于后续高效的进行数据处理。
64.二、多模态数据融合
65.通过采集获取的网络数据格式多样,为了后续的分析,需要进行数据融合处理。目前大多数多模态工作,最终只处理图像和文本形式的数据,即把视频数据转为图像,把音频数据转为文本格式。然而,本发明后续话题识别的数据只有文本,以便于进行准确的情感分析,因此,本发明实施例中最终所有格式的数据都是处理成文本。本发明实施例中,具体的处理过程如下:
66.1.通过视频的关键帧提取,将视频转换成一组图片:
67.每个视频都是一个图像序列,其内容比一张图像丰富很多,表现力强,信息量大。对视频的分析通常是基于视频帧,但视频帧通常存在大量冗余,对视频帧的提取也存在漏帧、冗余的现象。视频的关键帧是指体现各个镜头显著特征的那些图片。通过关键帧提取能够有效减少内容的重复,减少处理时间。
68.在一个具体的实施例中,关键帧的提取方法包括四类:
69.第一类:基于图像内容的方法
70.第二类:基于运动分析的方法
71.第三类:基于轨迹曲线点密度特征的关键帧检测算法
72.第四类:基于聚类的方法
73.实施时,可优选的采用基于聚类的方法。
74.2.通过语音识别技术(asr),将音频数据转换成文本:
75.声音本身是一种波,在本实施例中,将语音转换成文本的过程如下:
76.1)给音频进行信号处理后,便要按帧(毫秒级)拆分,并对拆分出的小段波形按照人耳特征变成多维向量信息;
77.2)将这些帧信息识别成状态(可以理解为中间过程,一种比音素还要小的过程);
78.3)再将状态组合形成音素(通常3个状态=1个音素);
79.4)最后将音素组成字词(例如d
àꢀ
ji
ā h
ǎ
o)并串连成句 。如此,可以实现由语音转换成文字了。
80.3.将网络采集的图片进行图生文处理:
81.大模型时代,很多大模型具备输入图片数据直接生成描述文字的能力,在模块中
集成大模型或者调用api即可实现图片转文字的处理。
82.对于本发明来说,后续任务是话题发现,因此更重视的是图片中体现的要素,或者说实体,依赖现有的计算机视觉技术,也可以获取很好的效果。
83.在本实施例中,采用神经网络模型自动生成图片描述,主要分为两部分:一是特征提取,二是语言模型。
84.1)特征提取模型:
85.在本实施例中,特征提取模型是一个深度卷积神经网络,将输入图片特征抽取出来,采用固定长度的向量表示图片的内部特征,具体流程参见图2所示。
86.2)语言模型:
87.在本实施例中,语言模型是一个生成式神经网络模型,主要是基于存在的文字序列预测下一个文字的概率。对于图片转文字的任务,是基于图片向量特征预测文字的顺序,依此生成图片描述,具体流程参见图3所示。
88.4.文本数据的融合:
89.在本实施例中,将多模态的数据全部转化成文本之后,跟原始采集的文本数据进行融合。融合的规则是:
90.1)由视频关键帧图片转化的文本数据作为一个文档处理;
91.2)作为一个来源的采集图片,例如一条微博发布的组图,生成的文字描述合并为一个文档处理;
92.3)社区论坛中一个主贴或话题下面的所有评论作为一个文档处理,若评论过多,优选的先进行清洗去掉无效评论,之后对有效评论进行采样。
93.4)地方问政平台上一条反映问题加上回复作为一个文档处理。
94.5.给每个文档分配一个唯一的id:
95.将多模态的数据处理融合之后,每个文档被分配一个id,这个id后续也会一直跟着每个趋势实体词,这个操作可以保证后续实体聚类之后依然能够召回原始的文档。
96.三、政务话题识别:
97.在本实施例中,政务话题识别主要基于社区聚类算法来实现。本发明通过趋势热词的提取、聚类,首先获取属于热点话题的趋势热词,可以称之为锚文本,确定各个话题的锚文本之后,基于社区聚类算法对趋势热词进行聚类,形成话题簇,对每一个话题簇再召回包含锚文本最多的文档生成概括的上下文,在对此上下文进行重要信息段落提取,这里优选的采用无监督的textrank算法抽取重要信息。主要步骤如下:
98.1.提取趋势实体词和词频:
99.将所有文档进行分词和词频统计,对于获取的词频列表进一步进行tf-idf处理,取词频最高的前1000个词作为趋势实体词。
100.2.构建趋势实体的共现矩阵:
101.共现矩阵是描述趋势热词出现在同一个文档的情况,矩阵的元素是对应行和列的两个热词共现的频次,共现矩阵如图4所示,其中“0”表示没有共同出现在一起过,“ei”代表从所有文档中提取的趋势实体词,(i∈1.2.3...n)。
102.3.构建趋势热词图:
103.趋势热词图如图5所示,图节点是每个趋势热词,如果两个趋势热词的共现矩阵中
对应元素位置不为0,那么这两个词之间存在关系边,矩阵元素值的大小代表关系强度,数据越大关系越强。
104.4.聚类:
105.基于社区聚类算法,例如louvain,对趋势热词图的节点聚类,共现频次越高的节点也趋向于聚在一簇中,这里可以理解为社区,聚类结果如图6所示。每个社区包含一定量的趋势热词,去掉热词非常少的社区,例如低于5个热词不进入后续处理流程。每个形成的社区对应未来一个热点话题。
106.在本实施例中,由于每个热词带有文档的id,可以根据id召回包含热词的文档,可以选择含有趋势热词密度高的前10个文档。
107.5.政务话题识别:
108.基于社区聚类获取的热点话题包括社会的各个方面,本发明关注的是其中涉及政府服务方面的,政务话题的识别可以当成是文本分类问题处理。本发明中采用的文本分类模型是基于深度学习的神经网络模型。通过趋势实体热词的向量化处理和标注,构建政务训练数据集。将趋势实体词列表输入该模型,输出政务类和非政务类两类标签。
109.6.概括热点话题:
110.每个社区包含10个文档片段。在本实施例中,基于textrank算法提取10个文档片段的主要信息,作为话题摘要。
111.四、话题情感分析:
112.在本实施例中,基于社区聚类获取的话题摘要进行情感分析,分类为:正向、中心、负向三种极性;最终正向情感和负向情感的话题摘要作为后续推送的候选列表。
113.五、预警统计分析:
114.预警分析至关重要,当装置捕获到当前近12小时的热点话题之后,对一条话题摘要进行关注度的分析。在本实施例中,关注度相关的维度优选的包括:微博贴文的评论数、评论微博号的粉丝数、话题关联的文档数、话题趋势热词的网络搜索数等。
115.对于负面话题而言,关注度高意味着可能酿成重大投诉事件。在本实施例中,通过对较长时间的话题扩散效果评估,确定了4个关注度维度指标的权重分别是0.4/0.3/0.2/0.1,这里最高权重为评论微博号的粉丝数,这是个强扩散型指标,体现后续发酵强度;第二高权重为话题关联文档数,这个是横向影响指标,体现当前话题分布情况;后面两个分别是微博贴文评论数和趋势热词网络搜索数。
116.进一步地,确定关注度指标的阈值,通过历史的话题和投诉事件的对比,确定预警的关注度阈值,关注度超过阈值的负面话题会置顶并加上预警标志。最终正面话题摘要和负面话题摘要会通过接入政府问政平台推送给相关部门进行及时处理。
117.由上述实施例中的描述,本领域技术人员可获知本发明提供了一种基于多模态的政务服务投诉预警方法,该方法中通过互联网多模态数据捕捉政务服务社会反馈,构建社会政务服务反馈与投诉的关联关系,通过政务热点话题识别和情感分析,可以自动智能的提前获取潜在的政务投诉隐患问题并预警,提高了工作效率,降低了工作量和成本,有助于及时通知相关部门对潜在隐患问题进行处理,有利于提升政务服务水平及效率。
118.参见图7所示,本发明还提供了一种基于多模态的政务服务投诉预警装置,应用上述实施例中的一种基于多模态的政务服务投诉预警方法,实现政务话题的智能精准识别,
进行情感分析,对潜在的政务服务投诉问题进行预警,该装置包括:
119.数据采集模块,用于采集多模态的网络数据,并将采集的数据按照预设方式分类存储;
120.多模态数据融合模块,用于对存储的多模态网络数据进行数据转换及融合处理;
121.政务话题发现模块,用于利用社区聚类算法对融合后的数据进行政务话题识别;
122.情感分析模块,用于对识别的政务话题进行情感分析,得到正向情感和负向情感的话题摘要;
123.统计分析模块,用于统计分析负向情感话题摘要的关注度,若关注度的维度指标超过预设阈值时,向相关部门进行政务服务投诉预警。
124.本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容,在此不再赘述。
125.本发明实施例还提供一种存储介质,其上存储有计算设备可读的一个或多个程序,一个或多个程序包括指令,指令当由计算设备执行时,使得计算设备执行上述实施例中的一种基于多模态的政务服务投诉预警方法。
126.本发明实施例中,存储介质例如可以是电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备以及上述的任意合适的组合。
127.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统装置或计算机程序产品等。因此,本发明可采用完全硬件实施例、完全软件实施例,或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
128.应当注意的是,词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。
129.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
130.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
技术特征:
1.一种基于多模态的政务服务投诉预警方法,其特征在于,包括以下步骤:s1、采集多模态的网络数据,并将采集的数据按照预设方式分类存储;s2、对存储的多模态网络数据进行数据转换及融合处理;s3、利用社区聚类算法对融合后的数据进行政务话题识别;s4、对识别的政务话题进行情感分析,得到正向情感和负向情感的话题摘要;s5、统计分析负向情感话题摘要的关注度,若关注度的维度指标超过预设阈值时,向相关部门进行政务服务投诉预警。2.根据权利要求1所述的一种基于多模态的政务服务投诉预警方法,其特征在于,所述步骤s1中,按照预设时间采集多模态的网络数据,采集的多模态的网络数据包括:网络媒体中的文本数据、图片数据、音频数据和视频数据。3.根据权利要求2所述的一种基于多模态的政务服务投诉预警方法,其特征在于,所述步骤s1中,采集的多模态的网络数据按照格式、来源、时间进行分类存储。4.根据权利要求2所述的一种基于多模态的政务服务投诉预警方法,其特征在于,所述步骤s2中,所述数据转换包括:通过视频的关键帧提取,将视频数据转换成图片数据;通过asr语音识别技术,将音频数据转换成文本数据;利用神经网络模型对采集的图片数据及转换的图片数据分别进行图生文处理,转换为文本数据。5.根据权利要求4所述的一种基于多模态的政务服务投诉预警方法,其特征在于,所述步骤s2中,所述融合处理为:将转换的文本数据与原始采集的文本数据进行融合,融合方法包括:由视频关键帧图片转化的文本数据作为一个文档处理;作为一个来源的采集图片,生成的文字描述合并为一个文档处理;社区论坛中一个主贴或话题下面的所有评论作为一个文档处理;问政平台上一条反映问题加上回复作为一个文档处理。6.根据权利要求5所述的一种基于多模态的政务服务投诉预警方法,其特征在于,每个文档被分配一个id,id后续跟着趋势实体词。7.根据权利要求5所述的一种基于多模态的政务服务投诉预警方法,其特征在于,所述步骤s3中,所述利用社区聚类算法对融合后的数据进行政务话题识别包括:s3.1、将所有文档进行分词和词频统计,提取趋势实体词;s3.2、构建趋势实体的共现矩阵和趋势热词图;s3.3、基于社区聚类算法对趋势热词图的节点进行聚类;s3.4、利用深度学习的神经网络模型对聚类后的趋势热词进行处理,识别出政务话题。8.根据权利要求1所述的一种基于多模态的政务服务投诉预警方法,其特征在于,所述步骤s5中,所述关注度的维度指标包括:贴文的评论数、评论号的粉丝数、话题关联的文档数、话题趋势热词的网络搜索数。9.一种基于多模态的政务服务投诉预警装置,其特征在于,应用如权利要求1-8任一项所述的一种基于多模态的政务服务投诉预警方法;该装置包括:数据采集模块,用于采集多模态的网络数据,并将采集的数据按照预设方式分类存储;
多模态数据融合模块,用于对存储的多模态网络数据进行数据转换及融合处理;政务话题发现模块,用于利用社区聚类算法对融合后的数据进行政务话题识别;情感分析模块,用于对识别的政务话题进行情感分析,得到正向情感和负向情感的话题摘要;统计分析模块,用于统计分析负向情感话题摘要的关注度,若关注度的维度指标超过预设阈值时,向相关部门进行政务服务投诉预警。
技术总结
本发明公开了一种基于多模态的政务服务投诉预警方法及装置,方法包括:采集多模态的网络数据,并将采集的数据按照预设方式分类存储;对存储的多模态网络数据进行数据转换及融合处理;利用社区聚类算法对融合后的数据进行政务话题识别;对识别的政务话题进行情感分析,得到正向情感和负向情感的话题摘要;统计分析负向情感话题摘要的关注度,若关注度的维度指标超过预设阈值时,向相关部门进行政务服务投诉预警;该方法可以自动精准的识别政务话题,进行情感分析判断,便于对政务服务投诉隐患进行预警,提高了工作效率,降低了工作量和成本,有助于及时通知相关部门对发现的潜在问题进行处理,有利于提升政务服务水平及效率。有利于提升政务服务水平及效率。有利于提升政务服务水平及效率。
技术研发人员:张欣亮 韩冰 陈萌 郑鹰 张雪飞 付强 于帆 张敬娟
受保护的技术使用者:中国标准化研究院
技术研发日:2023.09.01
技术公布日:2023/10/11
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
