综合多模型的网络热点话题传播模式分类方法及系统与流程
未命名
07-27
阅读:115
评论:0
1.本发明涉及数据挖掘技术领域。更具体地说,本发明涉及一种综合多模型的网络热点话题传播模式分类方法及系统。
背景技术:
2.随着社交网络的不断发展,人与人之间的具体不断拉近,话题的传播速度也越来越快。特别是目前互联网已经成为了话题交流的聚集地,人们在互联网上可以随时随地发表想法、转发话题或评论事件。但由于用户偏好、话题特点等因素的不同,不同话题在互联网上的流通速度、参与用户及发展态势是不同的,这就给很多用户带来一个问题,如何才能知道一个话题的热度情况以及传播的模式,从而帮助判断某个话题是否值得关注或得知大家对该话题的关注程度。因此,针对以上问题,找到一种科学地、合理地、适应性强的方法,对社交媒体上的各种话题的传播模式进行分类和判断具有较强的实际意义。
3.近些年来,网络话题传播途径发生了天翻地覆的变化,相较于以前具有相应迅速、传播速度快、传播渠道广、平台多元化等特点,目前国内的微博,国外的平台等是其中重要的话题传播平台,平台上的热搜、热点等都是多数人关心的话题,因此判断话题的传播模式不能仅仅在一个平台上有效,能够扩展应用到多个数据源中也是重要的问题,如此才能对满足更为复杂的需求。
技术实现要素:
4.本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。
5.本发明还有一个目的是提供一种综合多模型的网络热点话题传播模式分类方法,其创新性地将话题的传播模式分类为正常传播、扩散传播和抑制传播,并构建了一种普适的网络热点话题传播模式识别分类方法,能够有效地判断话题的传播类型,即使在话题部分维度数据缺失的情况下仍然具有较好的分类结果。
6.为了实现根据本发明的这些目的和其它优点,提供了一种综合多模型的网络热点话题传播模式分类方法,其包括以下步骤:
7.步骤一、收集平台t时间段内的目标热点话题的帖子数据;
8.步骤二、基于帖子数据计算帖子基本维度信息,其包括帖子总数量,转发帖数量、原创帖数量、炒作帖数量、转发帖占比、原创帖占比和炒作帖占比;
9.步骤三、基于帖子基本维度信息,统计单位时间段t1内帖子数量,并绘制关于时间-帖子数量的话题热度变化曲线;
10.步骤四、提取目标热点话题的竞争性话题,并计算竞争性话题数量;
11.步骤五、基于帖子数据,量化目标热点话题的传播角色的信息,具体为:计算目标热点话题的各类传播角色对应的人数,传播角色包括话题始发者、主要传播者、观点引导者和传播跟随者;
12.步骤六、基于帖子基本维度信息、话题热度变化曲线、竞争性话题数量和各类传播
角色对应的人数,通过漏斗模型和网络模型,进行目标热点话题的传播模式识别分类。
13.优选的是,所述的综合多模型的网络热点话题传播模式分类方法,网络模型由randomforestclassifier、lightgbm、xgboost、logisticregression四种基础模型融合得到。
14.优选的是,所述的综合多模型的网络热点话题传播模式分类方法,步骤六、具体包括:
15.s61、基于帖子基本维度信息、话题热度变化曲线、竞争性话题数量和各类传播角色对应的人数,通过漏斗模型层层过滤,进行目标热点话题的传播模式识别分类;若漏斗模型识别分类得到了目标热点话题的传播模式的第一结果,则进入s62,否则无结果进入s63;
16.s62、第一结果作为识别分类结果进行输出;
17.或以帖子基本维度信息、竞争性话题数量和各类传播角色对应的人数作为输入至网络模型中,得到四个基础模型对应的目标热点话题的传播模式的四个第二结果;将第一结果与四个第二结果按各类传播模式进行分类并统计各类传播模式对应的数量,选择数量最多的传播模式作为最终的识别分类结果进行输出;
18.s63、以帖子基本维度信息、竞争性话题数量和各类传播角色对应的人数作为输入至网络模型中,得到四个基础模型对应的目标热点话题的传播模式的四个第三结果;将四个第三结果按各类传播模式进行分类并统计各类传播模式对应的数量,选择数量最多的传播模式作为最终的识别分类结果进行输出。
19.优选的是,所述的综合多模型的网络热点话题传播模式分类方法,还包括:
20.步骤七、通过漏斗模型对目标热点话题的传播模式的特征进行描述,具体包括:
21.步骤71、通过漏斗模型获取目标热点话题热度特征描述:若目标热点话题帖子总数量b<0.1a,则目标热点话题热度特征描述为热度极低,若0.1a≤b<a,则目标热点话题热度特征描述为热度偏低,若a≤b<4a,则目标热点话题热度特征描述为热度较高,若4a≤b,则目标热点话题热度特征描述为热度极高;a为预设帖子数量阈值;
22.步骤72、通过漏斗模型获取目标热点话题帖子位置特征描述:将目标热点话题帖子发帖地区进行分类,并统计各个发帖地区对应的帖子数量,若存在三个发帖地区对应的帖子数量的总和大于目标热点话题帖子总数量,则目标热点话题帖子位置特征描述为帖子位置分布不均衡,否则描述为帖子位置分布均衡;
23.步骤73、通过漏斗模型获取目标热点话题传播角色信息特征描述:目标热点话题的各类传播角色对应的人数作为特征进行描述;
24.步骤74、将目标热点话题的传播模式的特征描述,随识别分类结果一并输出。
25.优选的是,所述的综合多模型的网络热点话题传播模式分类方法,步骤s61中基于帖子基本维度信息、话题热度变化曲线、竞争性话题数量和各类传播角色对应的人数,通过漏斗模型层层过滤,进行目标热点话题的传播模式识别分类,具体为:
26.s610、基于帖子基本维度信息,计算平均帖子数量d,基于话题热度变化曲线,获取曲线斜率最小点以及与其相邻的下一个点对应的帖子数量e和f,若(f-e)》3d,同时与曲线斜率最小点相邻的下一个点后面连续n个点的帖子数量均不大于f,则识别分类得到了目标热点话题的传播模式为抑制传播并作为第一结果,否则无结果;其中,d=n/(t/t1),n为帖子总数量;
27.s611、计算平均竞争性话题数量h,计算预设时间阈值内竞争性话题数量i,若i》3h,则识别分类得到了目标热点话题的传播模式为抑制传播并作为第一结果,否则无结果;
28.s612、若s610和s611其中一个得到第一结果,则结束过滤,否则进入s613;
29.s613、若转发帖占比大于第一比例阈值或/和若炒作帖占比大于第二比例阈值,则识别分类得到了目标热点话题的传播模式为扩散传播并作为第一结果,若话题原创帖占比大于第三比例阈值,则识别分类得到了目标热点话题的传播模式为正常传播并作为第一结果,则否则无结果。
30.优选的是,所述的综合多模型的网络热点话题传播模式分类方法,提取目标热点话题的竞争性话题,具体为:
31.收集平台t时间段内的其他所有话题的帖子数据,基于标签和过滤词表从其他所有话题的帖子数据中筛选备选竞争性话题,将备选竞争性话题按照帖子数量由高到低的方式排序,提取前m%的备选竞争性话题作为候选竞争性话题;
32.基于话题的帖子属性,获取目标热点话题的帖子id集合和候选竞争性话题的帖子id集合,并计算目标热点话题的帖子时间序列和候选竞争性话题的帖子时间序列;基于话题的用户属性,获取目标热点话题的用户id集合和候选竞争性话题的用户id集合,并计算目标热点话题的用户时间序列和候选竞争性话题的用户时间序列;
33.通过动态时间规整算法,分别基于目标热点话题的帖子时间序列和候选竞争性话题的帖子时间序列,计算得到目标热点话题与候选竞争性话题的帖子时间序列相似度x1和用户时间序列相似度x2;
34.计算目标热点话题的帖子id集合和候选竞争性话题的帖子id集合的交集数量,得目标热点话题与候选竞争性话题的帖子id相似度x3;
35.计算目标热点话题的用户id集合和候选竞争性话题的用户id集合的交集数量,得目标热点话题与候选竞争性话题的用户id相似度x4;
36.基于公式一,对帖子时间序列相似度x1、用户时间序列相似度x2、帖子id相似度x3和用户id相似度x4分别进行标准化;
[0037][0038]
基于公式二,计算目标热点话题和候选竞争性话题的总体相似度st;
[0039]
st=r1*x1+r2*x2+r3*x3+r4*x4公式二;
[0040]
公式二中,r1、r2、r3、r4为加权系数,r1+r2+r3+r4=1;
[0041]
将候选竞争性话题,按照总体相似度st由高到低的方式排序,提取前m%的候选竞争性话题作为目标热点话题的竞争性话题。
[0042]
本发明还提供一种综合多模型的网络热点话题传播模式分类系统,其用于实现上述的分类方法,分类系统包括:
[0043]
采集模块,其用于收集平台t时间段内的目标热点话题的帖子数据;
[0044]
第一计算模块,其用于基于帖子数据计算帖子基本维度信息,其包括帖子总数量,转发帖数量、原创帖数量、炒作帖数量、转发帖占比、原创帖占比和炒作帖占比;
[0045]
第二计算模块,其用于基于帖子基本维度信息,统计单位时间段t1内帖子数量,并绘制关于时间-帖子数量的话题热度变化曲线;
[0046]
第三计算模块,其用于提取目标热点话题的竞争性话题,并计算竞争性话题数量;
[0047]
第四计算模块,其用于基于帖子数据,量化目标热点话题的传播角色的信息,具体为:计算目标热点话题的各类传播角色对应的人数,传播角色包括话题始发者、主要传播者、观点引导者和传播跟随者;
[0048]
识别分类模块,其用于基于帖子基本维度信息、话题热度变化曲线、竞争性话题数量和各类传播角色对应的人数,通过漏斗模型和网络模型,进行目标热点话题的传播模式识别分类。
[0049]
本发明至少包括以下有益效果:
[0050]
1、考虑到不同平台数据具有不同的属性,同时使用漏斗模型和网络模型,本技术基于帖子基本维度信息、话题热度变化曲线、竞争性话题数量和各类传播角色对应的人数的属性信息,对话题传播模式进行分类,根据数据的属性情况选择不同的模型和特异的属性,这使得发明能够在数据属性充分的条件下获得更好的分类效果,在数据属性较少的情况下也能准确地进行分类;
[0051]
2、本发明使用漏斗模型、randomforestclassifier、lightgbm、xgboost、logisticregression模型,训练速度快,能够快速地对话题传播模式进行判断,时间效率高;
[0052]
3、本发明不仅仅可对热点话题传播模式进行准确的识别分类,同时在漏斗模型中能够有效地对话题的各维度属性进行描述,帮助用户理解为什么该话题属于某类传播模式。
[0053]
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
[0054]
图1为本发明所述的综合多模型的网络热点话题传播模式分类方法的流程示意图;
[0055]
图2为本发明实施例中目标热点话题对应的话题热度变化曲线。
具体实施方式
[0056]
下面结合附图及实施例对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
[0057]
应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。
[0058]
需要说明的是,下述实施方案中所述实验方法,如无特殊说明,均为常规方法,所述试剂和材料,如无特殊说明,均可从商业途径获得。
[0059]
在本发明的描述中,术语“横向”、“纵向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,并不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0060]
如图1所示,本发明提供一种综合多模型的网络热点话题传播模式分类方法,其包
括以下步骤:
[0061]
步骤100、收集平台t时间段内的目标热点话题的帖子数据;
[0062]
开启任务之前,需提供目标热点话题的话题名称、话题传播时间跨度即传播开始时间和结束时间,传播开始时间到结束时间即为时间段t,本技术可适用多个通道的话题的分析(一个目标热点话题的传播模式分类任务对应一个通道),例如微博、facebook或twitter等通道平台,根据话题名称和时间跨度从数据库中提取目标话题下的所有帖子数据。为了保证任务的快速部署,可以在开启任务前就将话题数据存储在数据库中,一边方法能够更快速地提取数据,数据库可选择elasticsearch分布式存储数据库。每条帖子数据(基础属性)包含帖子的转发评论、原创属性、帖子文本内容、帖子发布用户、帖子发布时间,对于转发或评论的帖子,还应给出原帖用户;
[0063]
步骤200、基于帖子数据计算帖子基本维度信息,帖子基本维度信息包括帖子总数量,转发帖数量、原创帖数量、炒作帖数量、转发帖占比、原创帖占比和炒作帖占比;
[0064]
对帖子数据进行量化,根据每条帖子数据(基础属性),得到给定时间范围内,话题各类帖子的数量和占比(每类帖子的比例,且每类帖子的比例等于该类帖子数量与帖子总数量的比值),并获得地理位置、传播热度变化情况等指标;
[0065]
炒作帖被定义为重复度较高的帖子,通过计算所有文本的不重复集合,分别计算文本在所有帖子中的重复次数,重复次数较高的文本被识别为炒作内容。详细识别步骤为:首先是针对帖子数据进行数据预处理(基于过滤词表,过滤掉无效信息),删除网页链接、表情符号、停用词等无用文本,再计算所有文本的不重复集合,分别计算文本的重复次数,重复次数超过100的文本被识别为炒作帖子。
[0066]
步骤300、基于帖子基本维度信息,统计单位时间段t1内帖子数量,并绘制关于时间-帖子数量的话题热度变化曲线;
[0067]
将时间跨度细分为小时间窗口即单位时间段t1,(例如时间t为从早上九点到晚上九点,单位时间段t1的时间窗口为一小时,包括12个时间窗口其分别为9-10点,10-11点,11-12点,12-13点,13-14点,14-15点,15-16点,16-17点,17-18点,18-19点,19-20点,20-21点),并统计每个小时间窗口下该话题的帖子数,得到时间段-话题帖子数量,以时间段为x轴,帖子数量为y轴,绘制关于时间-帖子数量的话题热度变化曲线,连续的小时间窗口的热度反映话题的热度变化情况;
[0068]
步骤400、提取目标热点话题的竞争性话题,并计算竞争性话题数量;提取目标热点话题的竞争性话题,具体为:
[0069]
s41、收集平台t时间段内的其他所有话题的帖子数据,基于标签和过滤词表从其他所有话题的帖子数据中筛选备选竞争性话题,将备选竞争性话题按照帖子数量由高到低的方式排序,提取前m%的备选竞争性话题作为候选竞争性话题;备选竞争性话题的提取具体为:基于目标热点话题提取标签,选取前50%的标签作为关键词从其他所有话题中提取可选竞争性话题,基于过滤词表从可选竞争性话题中筛选出备选竞争性话题;
[0070]
s42、基于话题的帖子属性(帖子id,帖子数量),获取目标热点话题的帖子id集合和候选竞争性话题的帖子id集合,并计算目标热点话题的帖子时间序列和候选竞争性话题的帖子时间序列;基于话题的用户属性(用户id,用户数量),获取目标热点话题的用户id集合和候选竞争性话题的用户id集合,并计算目标热点话题的用户时间序列和候选竞争性话
题的用户时间序列;
[0071]
s43、通过动态时间规整算法,分别基于目标热点话题的帖子时间序列和候选竞争性话题的帖子时间序列,利用公式三,计算得到目标热点话题与候选竞争性话题的帖子时间序列相似度x1和用户时间序列相似度x2;
[0072][0073]
其中,w=(w1,w2,...,wk)为一条从序列坐标开始到结束的路径;wk表示路径经过的某格点所保存的序列q和序列c之间某两点(qi,cj)之间的欧氏距离的平方wk=(q
i-cj)2;从而获得帖子时间序列相似度x1(post-sequence-num)和用户时间序列相似度x2(user-sequence-num)。
[0074]
s44、计算目标热点话题的帖子id集合和候选竞争性话题的帖子id集合的交集数量,得目标热点话题与候选竞争性话题的帖子id相似度x3[0075]
(post-intersections-num),如公式四所示;
[0076]
post-intersections-num
[0077]
=len(set(raw-post-id)∩set(candidate-post-id))
ꢀꢀꢀ
公式四
[0078]
s45、计算目标热点话题的用户id集合和候选竞争性话题的用户id集合的交集数量,得目标热点话题与候选竞争性话题的用户id相似度x4(user-intersections-num),如公式五所示;
[0079]
user-intersections-num
[0080]
=len(set(raw-user-id)∩set(candidate-user-id))
ꢀꢀꢀ
公式五
[0081]
公式四和公式五中set(raw-post-id)和set(raw-user-id)为目标话题帖子id集合和用户id集合,set(candidate-post-id)、set(candidate-user-id)为候选竞争性话题的帖子id集合和用户id集合;
[0082]
s46、基于公式一,对帖子时间序列相似度x1、用户时间序列相似度x2、帖子id相似度x3和用户id相似度x4分别进行标准化;
[0083][0084]
公式中的x
min
、x
max
分别多个候选竞争性话题对应的多个相似度值中的最小值和最大值;
[0085]
s47、基于公式二,计算目标热点话题和候选竞争性话题的总体相似度st(total-similarity);
[0086]
st=r1*x1+r2*x2+r3*x3+r4*x4ꢀꢀꢀ
公式二;
[0087]
公式二中,r1、r2、r3、r4为加权系数,r1+r2+r3+r4=1;
[0088]
例如,对标准化后的时序相似度和集合相似度进行加权求和,获取总体相似度,总相似度计算如公式六所示:
[0089]
total-similarity
[0090]
=0.3*post-sequence-similarityy+0.3*user-equence-similarity+0.2*post-set-similarity+0.2*userset-similarity
[0091]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式六
[0092]
其中,公式六中,post-sequence-similarity和user-equence-similarity为标准化后的帖子时间序列相似度和用户时间序列相似度;post-set-similarity和user-set-similarity为标准化后的帖子集合相似度和用户集合相似度;此处,r1、r2、r3和r4分别取0.3、0.3、0.2、0.2;
[0093]
s48、将候选竞争性话题,按照总体相似度st由高到低的方式排序,提取前m%的候选竞争性话题作为目标热点话题的竞争性话题;m%的取值优选的取10%;
[0094]
步骤500、基于帖子数据,量化目标热点话题的传播角色的信息,具体为:计算目标热点话题的各类传播角色对应的人数,传播角色包括话题始发者、主要传播者、观点引导者和传播跟随者;
[0095]
传播角色识别主要分为四类角色,分别是始发者、主要传播者、观点引导者和传播跟随者,其识别主要依赖于设定的规则;
[0096]
识别流程为根据任务数据,构建一个包含用户所有发帖内容、用户原创帖最早发布时间、传播影响力、观点匹配程度、发帖数量、平均发帖长度和是否有原创行为等列的数据表,其次再依据下述规则识别各用户:
[0097]
始发者:有原创帖,且原创帖的最早发布时间在所选时间段的前1%;
[0098]
主要传播者:根据被转发数和被评论数计算传播影响力,选取前k%的用户;
[0099]
观点引导者:首先计算与观点关键词的匹配程度,其次按照最早发布日期进行排序,选取前k%的用户为引导者;
[0100]
传播跟随者:按照发文数量[升序]、发文的平均长度[升序]以及是否有原创行为[升序]进行排序,选取前k%的用户作为传播跟随者;k%可根据实际分析选择1%~10%中数值;
[0101]
步骤600、基于帖子基本维度信息、话题热度变化曲线、竞争性话题数量和各类传播角色对应的人数,通过漏斗模型和网络模型,进行目标热点话题的传播模式识别分类,具体包括:
[0102]
s61、基于帖子基本维度信息、话题热度变化曲线、竞争性话题数量和各类传播角色对应的人数,通过漏斗模型层层过滤,进行目标热点话题的传播模式识别分类:
[0103]
s610、基于帖子基本维度信息,计算平均帖子数量d,基于话题热度变化曲线,获取曲线斜率最小点以及与其相邻的下一个点对应的帖子数量e和f,若
[0104]
(f-e)》3d,同时与曲线斜率最小点相邻的下一个点后面连续n个点的帖子数量均不大于f,则识别分类得到了目标热点话题的传播模式为抑制传播并作为第一结果,否则无结果;其中,d=n/(t/t1),n为帖子总数量;
[0105]
s611、计算平均竞争性话题数量h,计算预设时间阈值内(t)竞争性话题数量i,若i》3h,则识别分类得到了目标热点话题的传播模式为抑制传播并作为第一结果,否则无结果;h为数据库中预存的已有传播模式的多个话题数据对应的多个竞争性话题数量的平均值;
[0106]
s612、若s610和s611其中一个得到第一结果,则结束过滤,否则进入s613;
[0107]
s613、若转发帖占比大于第一比例阈值或/和若炒作帖占比大于第二比例阈值,则识别分类得到了目标热点话题的传播模式为扩散传播并作为第一结果,若话题原创帖占比大于第三比例阈值,则识别分类得到了目标热点话题的传播模式为正常传播并作为第一结
果,则否则无结果;
[0108]
若漏斗模型识别分类得到了目标热点话题的传播模式的第一结果,则进入s62,否则无结果进入s63;
[0109]
s62、第一结果作为识别分类结果进行输出;
[0110]
或以帖子基本维度信息、竞争性话题数量和各类传播角色对应的人数作为输入至网络模型中,得到四个基础模型对应的目标热点话题的传播模式的四个第二结果;将第一结果与四个第二结果按各类传播模式进行分类并统计各类传播模式对应的数量,选择数量最多的传播模式作为最终的识别分类结果进行输出;
[0111]
s63、以帖子基本维度信息、竞争性话题数量和各类传播角色对应的人数作为输入至网络模型中,得到四个基础模型对应的目标热点话题的传播模式的四个第三结果;将四个第三结果按各类传播模式进行分类并统计各类传播模式对应的数量,选择数量最多的传播模式作为最终的识别分类结果进行输出;
[0112]
步骤700、通过漏斗模型对目标热点话题的传播模式的特征进行描述,具体包括:
[0113]
步骤71、通过漏斗模型获取目标热点话题热度特征描述:若目标热点话题帖子总数量b<0.1a,则目标热点话题热度特征描述为热度极低,若0.1a≤b<a,则目标热点话题热度特征描述为热度偏低,若a≤b<4a,则目标热点话题热度特征描述为热度较高,若4a≤b,则目标热点话题热度特征描述为热度极高;a为预设帖子数量阈值;
[0114]
步骤72、通过漏斗模型获取目标热点话题帖子位置特征描述:将目标热点话题帖子发帖地区进行分类,并统计各个发帖地区对应的帖子数量,若存在三个发帖地区对应的帖子数量的总和大于目标热点话题帖子总数量,则目标热点话题帖子位置特征描述为帖子位置分布不均衡,否则描述为帖子位置分布均衡;
[0115]
步骤73、通过漏斗模型获取目标热点话题传播角色信息特征描述:目标热点话题的各类传播角色对应的人数作为特征进行描述;
[0116]
步骤74、将目标热点话题的传播模式的特征描述,随识别分类结果一并输出。
[0117]
网络模型中的四种模型训练、测试完毕后,对四种模型的结果进行voting,选择数量较多的类别作为最终话题的传播类别。通常而言,如果漏斗模型能够将话题的传播类型正确判断,则默认使用漏斗模型的判断结果,否则使用网络模型的进行传播模式分类,目标热点话题传播模式分类结果被保存在数据库中,以便随时展示给用户及日后继续分析和使用。
[0118]
漏斗模型和网络模型对训练集数据具有较强的依赖性,这意味着训练集不同,方法判断出的传播模式也是不同的。由于传播模式本身存在较强的主观性,在提供训练集时,如果选择的训练集话题热度、转发率整体偏高,方法也会相应自适应地提高判断扩散传播的基准;反之,如果人为添加的训练集将热度相对较低的话题也作为扩散传播,方法也会相应地降低扩散传播判断的基准。
[0119]
另一方面,网络模型和漏斗模型的使用方面也可任意调整,可以选择仅使用漏斗模型或仅使用网络模型,也可以对两种模型的结果设置权重,选择两个结果的加权值(哪种传播类型的数量最多就选用哪种作为结果)作为最终的传播模式分类结果。
[0120]
本发明还提供一种综合多模型的网络热点话题传播模式分类系统,其用于实现上述的分类方法,分类系统包括:
[0121]
采集模块,其用于收集平台t时间段内的目标热点话题的帖子数据;
[0122]
第一计算模块,其用于基于帖子数据计算帖子基本维度信息,其包括帖子总数量,转发帖数量、原创帖数量、炒作帖数量、转发帖占比、原创帖占比和炒作帖占比;
[0123]
第二计算模块,其用于基于帖子基本维度信息,统计单位时间段t1内帖子数量,并绘制关于时间-帖子数量的话题热度变化曲线;
[0124]
第三计算模块,其用于提取目标热点话题的竞争性话题,并计算竞争性话题数量;
[0125]
第四计算模块,其用于基于帖子数据,量化目标热点话题的传播角色的信息,具体为:计算目标热点话题的各类传播角色对应的人数,传播角色包括话题始发者、主要传播者、观点引导者和传播跟随者;
[0126]
识别分类模块,其用于基于帖子基本维度信息、话题热度变化曲线、竞争性话题数量和各类传播角色对应的人数,通过漏斗模型和网络模型,进行目标热点话题的传播模式识别分类。
[0127]
这里说明的设备数量和处理规模是用来简化本发明的说明的。对本发明的应用、修改和变化对本领域的技术人员来说是显而易见的。
[0128]
实施例
[0129]
微博平台上的2016年11月18日00:00到2016年11月19日00:00时间段内“乔任梁事件”热点话题;
[0130]
步骤一、首先以“乔任梁”为关键词从微博上提取时间段t(2016年11月18日00:00到2016年11月19日00:00)的目标热点话题的所有帖子数据;
[0131]
步骤二、基于帖子数据,计算目标热点话题的帖子总数量,转发帖数量、原创帖数量、炒作帖数量,进一步计算原创帖占比(29.23%)(第三比例阈值为37.1%)、转发帖占比(47.09%)(第一比例阈值是53.37%)、炒作帖占比(14.15%)(第二比例阈值为34.82%);
[0132]
步骤三、基于帖子基本维度信息,统计单位时间段t1(20min)内帖子数量,并绘制关于时间-帖子数量的话题热度变化曲线,如图2所示;
[0133]
步骤四、根据本发明提供的方法,从微博上提取目标热点话题的竞争性话题,并计算竞争性话题数量;计算得到13个不相似竞争性话题;
[0134]
步骤五、基于帖子数据,量化目标热点话题的传播角色的信息,具体为:计算目标热点话题的各类传播角色对应的人数,传播角色包括话题始发者、主要传播者、观点引导者和传播跟随者;计算得到该话题始发者100名,主要传播者4名,观点引导者61名,传播跟随着500名;
[0135]
步骤六、由漏斗模型判断得到,该话题热度偏低(目标热点话题总数量3844,预设帖子数量阈值为11661;符合公式0.1a≤b<a,为热点偏低),地域分布较为平衡(人数最多的三个地区对应的帖子数之和没有超过目标帖子总数量的50%),不属于抑制传播(分析图2可知,在热度下降后没有始终保持较低水平),判断该话题属于正常传播(根据步骤二的数据可分析得到);同时融合模型计算得到,该话题为正常传播,则该话题传播模式类别为正常传播。
[0136]
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限
于特定的细节和这里示出与描述的图例。
技术特征:
1.综合多模型的网络热点话题传播模式分类方法,其特征在于,包括以下步骤:步骤一、收集平台t时间段内的目标热点话题的帖子数据;步骤二、基于帖子数据计算帖子基本维度信息,其包括帖子总数量,转发帖数量、原创帖数量、炒作帖数量、转发帖占比、原创帖占比和炒作帖占比;步骤三、基于帖子基本维度信息,统计单位时间段t1内帖子数量,并绘制关于时间-帖子数量的话题热度变化曲线;步骤四、提取目标热点话题的竞争性话题,并计算竞争性话题数量;步骤五、基于帖子数据,量化目标热点话题的传播角色的信息,具体为:计算目标热点话题的各类传播角色对应的人数,传播角色包括话题始发者、主要传播者、观点引导者和传播跟随者;步骤六、基于帖子基本维度信息、话题热度变化曲线、竞争性话题数量和各类传播角色对应的人数,通过漏斗模型和网络模型,进行目标热点话题的传播模式识别分类。2.如权利要求1所述的综合多模型的网络热点话题传播模式分类方法,其特征在于,网络模型由randomforestclassifier、lightgbm、xgboost、logisticregression四种基础模型融合得到。3.如权利要求2所述的综合多模型的网络热点话题传播模式分类方法,其特征在于,步骤六、具体包括:s61、基于帖子基本维度信息、话题热度变化曲线、竞争性话题数量和各类传播角色对应的人数,通过漏斗模型层层过滤,进行目标热点话题的传播模式识别分类;若漏斗模型识别分类得到了目标热点话题的传播模式的第一结果,则进入s62,否则无结果进入s63;s62、第一结果作为识别分类结果进行输出;或以帖子基本维度信息、竞争性话题数量和各类传播角色对应的人数作为输入至网络模型中,得到四个基础模型对应的目标热点话题的传播模式的四个第二结果;将第一结果与四个第二结果按各类传播模式进行分类并统计各类传播模式对应的数量,选择数量最多的传播模式作为最终的识别分类结果进行输出;s63、以帖子基本维度信息、竞争性话题数量和各类传播角色对应的人数作为输入至网络模型中,得到四个基础模型对应的目标热点话题的传播模式的四个第三结果;将四个第三结果按各类传播模式进行分类并统计各类传播模式对应的数量,选择数量最多的传播模式作为最终的识别分类结果进行输出。4.如权利要求3所述的综合多模型的网络热点话题传播模式分类方法,其特征在于,还包括:步骤七、通过漏斗模型对目标热点话题的传播模式的特征进行描述,具体包括:步骤71、通过漏斗模型获取目标热点话题热度特征描述:若目标热点话题帖子总数量b<0.1a,则目标热点话题热度特征描述为热度极低,若0.1a≤b<a,则目标热点话题热度特征描述为热度偏低,若a≤b<4a,则目标热点话题热度特征描述为热度较高,若4a≤b,则目标热点话题热度特征描述为热度极高;a为预设帖子数量阈值;步骤72、通过漏斗模型获取目标热点话题帖子位置特征描述:将目标热点话题帖子发帖地区进行分类,并统计各个发帖地区对应的帖子数量,若存在三个发帖地区对应的帖子数量的总和大于目标热点话题帖子总数量,则目标热点话题帖子位置特征描述为帖子位置
分布不均衡,否则描述为帖子位置分布均衡;步骤73、通过漏斗模型获取目标热点话题传播角色信息特征描述:目标热点话题的各类传播角色对应的人数作为特征进行描述;步骤74、将目标热点话题的传播模式的特征描述,随识别分类结果一并输出。5.如权利要求4所述的综合多模型的网络热点话题传播模式分类方法,其特征在于,步骤s61中基于帖子基本维度信息、话题热度变化曲线、竞争性话题数量和各类传播角色对应的人数,通过漏斗模型层层过滤,进行目标热点话题的传播模式识别分类,具体为:s610、基于帖子基本维度信息,计算平均帖子数量d,基于话题热度变化曲线,获取曲线斜率最小点以及与其相邻的下一个点对应的帖子数量e和f,若(f-e)>3d,同时与曲线斜率最小点相邻的下一个点后面连续n个点的帖子数量均不大于f,则识别分类得到了目标热点话题的传播模式为抑制传播并作为第一结果,否则无结果;其中,d=n/(t/t1),n为帖子总数量;s611、计算平均竞争性话题数量h,计算预设时间阈值内竞争性话题数量i,若i>3h,则识别分类得到了目标热点话题的传播模式为抑制传播并作为第一结果,否则无结果;s612、若s610和s611其中一个得到第一结果,则结束过滤,否则进入s613;s613、若转发帖占比大于第一比例阈值或/和若炒作帖占比大于第二比例阈值,则识别分类得到了目标热点话题的传播模式为扩散传播并作为第一结果,若话题原创帖占比大于第三比例阈值,则识别分类得到了目标热点话题的传播模式为正常传播并作为第一结果,则否则无结果。6.如权利要求5所述的综合多模型的网络热点话题传播模式分类方法,其特征在于,提取目标热点话题的竞争性话题,具体为:收集平台t时间段内的其他所有话题的帖子数据,基于标签和过滤词表从其他所有话题的帖子数据中筛选备选竞争性话题,将备选竞争性话题按照帖子数量由高到低的方式排序,提取前m%的备选竞争性话题作为候选竞争性话题;基于话题的帖子属性,获取目标热点话题的帖子id集合和候选竞争性话题的帖子id集合,并计算目标热点话题的帖子时间序列和候选竞争性话题的帖子时间序列;基于话题的用户属性,获取目标热点话题的用户id集合和候选竞争性话题的用户id集合,并计算目标热点话题的用户时间序列和候选竞争性话题的用户时间序列;通过动态时间规整算法,分别基于目标热点话题的帖子时间序列和候选竞争性话题的帖子时间序列,计算得到目标热点话题与候选竞争性话题的帖子时间序列相似度x1和用户时间序列相似度x2;计算目标热点话题的帖子id集合和候选竞争性话题的帖子id集合的交集数量,得目标热点话题与候选竞争性话题的帖子id相似度x3;计算目标热点话题的用户id集合和候选竞争性话题的用户id集合的交集数量,得目标热点话题与候选竞争性话题的用户id相似度x4;基于公式一,对帖子时间序列相似度x1、用户时间序列相似度x2、帖子id相似度x3和用户id相似度x4分别进行标准化;
基于公式二,计算目标热点话题和候选竞争性话题的总体相似度st;st=r1*x1+r2*x2+r3*x3+r4*x4公式二;公式二中,r1、r2、r3、r4为加权系数,r1+r2+r3+r4=1;将候选竞争性话题,按照总体相似度st由高到低的方式排序,提取前m%的候选竞争性话题作为目标热点话题的竞争性话题。7.综合多模型的网络热点话题传播模式分类系统,其用于实现如权利要求1~6任意一项所述的分类方法,其特征在于,分类系统包括:采集模块,其用于收集平台t时间段内的目标热点话题的帖子数据;第一计算模块,其用于基于帖子数据计算帖子基本维度信息,其包括帖子总数量,转发帖数量、原创帖数量、炒作帖数量、转发帖占比、原创帖占比和炒作帖占比;第二计算模块,其用于基于帖子基本维度信息,统计单位时间段t1内帖子数量,并绘制关于时间-帖子数量的话题热度变化曲线;第三计算模块,其用于提取目标热点话题的竞争性话题,并计算竞争性话题数量;第四计算模块,其用于基于帖子数据,量化目标热点话题的传播角色的信息,具体为:计算目标热点话题的各类传播角色对应的人数,传播角色包括话题始发者、主要传播者、观点引导者和传播跟随者;识别分类模块,其用于基于帖子基本维度信息、话题热度变化曲线、竞争性话题数量和各类传播角色对应的人数,通过漏斗模型和网络模型,进行目标热点话题的传播模式识别分类。
技术总结
本发明公开了一种综合多模型的网络热点话题传播模式分类方法,其包括以下步骤:步骤一、收集平台t时间段内的目标热点话题的帖子数据;步骤二、基于帖子数据计算帖子基本维度信息;步骤三、绘制关于时间-帖子数量的话题热度变化曲线;步骤四、提取目标热点话题的竞争性话题,并计算竞争性话题数量;步骤五、基于帖子数据,量化目标热点话题的传播角色的信息;步骤六、通过漏斗模型和网络模型,进行目标热点话题的传播模式识别分类。本发明构建了一种普适的网络热点话题传播模式识别分类方法,能够有效地判断话题的传播类型,即使在话题部分维度数据缺失的情况下仍然具有较好的分类结果。果。果。
技术研发人员:张丽 张旭 张翔宇 王鹏 陈彤
受保护的技术使用者:国家计算机网络与信息安全管理中心
技术研发日:2023.05.06
技术公布日:2023/7/25
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
