基于重复序列模式挖掘的用户购买行为分析方法及装置
未命名
10-09
阅读:165
评论:0
1.本发明属于数据挖掘技术领域,具体是一种基于重复序列模式挖掘的用户购买行为分析方法及装置。
背景技术:
2.在电子商务环境中,了解用户的购买行为对于企业的发展和竞争力至关重要。随着互联网和移动技术的迅速发展,越来越多的消费者选择在线购物,并产生了大量的购买数据。这些数据蕴含着宝贵的信息,可以揭示用户的偏好、购买习惯以及产品需求,从而帮助企业制定精准的市场营销策略和个性化的产品推荐。
3.然而,传统的购买行为分析方法通常只注重对购买频次和金额等统计指标的分析,无法深入挖掘用户购买行为的内在规律和潜在模式。例如,仅仅知道某个用户是否购买了该商品并不足以了解其真实的购买偏好和行为模式。因此,企业需要一种更加精细和准确的购买行为分析方法,以获取更全面的用户洞察和商业智能。
4.本专利提出了重复序列模式挖掘方法,旨在发现用户购买行为中的重复序列模式和规律。在用户购买数据中,往往存在着一些重复的购买序列,即用户在不同时间点频繁购买的商品组合或按照相同顺序分批次购买的商品组合。这些重复序列潜藏着用户的购买习惯、喜好和行为规律,可以为企业提供深入的用户洞察和行业趋势分析。基于重复序列模式挖掘的用户购买行为分析方法及装置的提出,为企业决策提供了更加准确和有价值的参考。通过挖掘重复序列模式,该方法能够揭示用户的购买偏好、购买周期、跨类别购买等重要特征,为企业优化产品布局、制定个性化的营销策略提供指导。同时,该方法还可以帮助企业发现用户之间的潜在关联模式,例如购买协同行为和用户群体特征,为精准的推荐系统和社交化营销提供支持。
5.综上所述,基于重复序列模式挖掘的用户购买行为分析方法及装置在电子商务和市场营销领域具有重要的实际意义。它不仅可以提升企业的竞争力和盈利能力,还能够提升用户的购物体验和满意度,实现企业与用户之间的双赢局面。
技术实现要素:
6.本发明针对现有分析方法的不足,提供一种基于重复序列模式挖掘的用户购买行为分析方法及装置,将购买行为表示为序列,通过发现序列数据中的频繁重复模式来分析顾客购买行为,进一步为企业提供策略支持。
7.本发明解决上述技术问题的技术方案如下:
8.第一方面,本发明提供一种基于重复序列模式挖掘的用户购买行为分析方法,所述分析方法包括以下步骤:
9.步骤1,输入一段时间内客户购买行为序列数据库d,商家定义最小支持度阈值minsup;
10.步骤2,扫描数据库,构建各项的倒排索引表ii-list,记录每件商品的销售记录情
况,包括出现在哪位顾客的购买序列中、在哪个时间戳购买;购买不同商品称为不同的项,项用i表示,依次计算各项的支持度sup(i,d),如果sup(i,d)≥minsup,则将该项记为1长度的1项集具有自适应间隙的频繁重复模式,具有自适应间隙的频繁重复模式用nfp表示,nfp的长度用j表示;
11.步骤3,通过项集内部模式连接策略,递归循环j长度的具有自适应间隙的频繁重复模式两两连接生成j+1长度候选模式,直至不能产生新的候选模式为止;依次计算各候选模式的模式支持度sup(p,d),并与minsup进行比较,如果sup(p,d)≥minsup,则该候选模式为j+1长度的1项集nfp,获得所有不同长度的1项集nfps,表示顾客频繁在同一时间购买的商品组合,记1项集nfps的大小为r;
12.所述项集内部模式连接策略的过程是:如果两个给定模式的前缀相同,则将第二个模式的最后一项直接拼接在第一个模式的最后一项之后,实现项集内部模式连接,否则不能进行内部模式连接;
13.步骤4,通过项集外部模式连接策略,递归循环r项集大小的nfp两两连接生成r+1项集大小候选模式,直至不能产生新的候选模式为止;
14.依次计算候选模式的模式支持度sup(p,d),并与minsup进行比较,获得所有项集大小的nfps,即顾客频繁购买的商品组合,包括同时购买和非同时购买;
15.所述项集外部模式连接策略的过程是:给定两个包含多个项集的模式,如果第一个包含多个项集的模式的后m-1个项集与第二个包含多个项集的模式的前m-1个项集相同,则将第二个包含多个项集的模式的第m个项集拼接在第一个包含多个项集的模式最后,实现项集外部模式连接,否则不能进行外部模式连接。
16.所述步骤3包括以下子步骤:
17.步骤3.1,步骤2中产生的1长度的1项集nfps,利用项集内部模式连接策略对1长度的1项集nfp两两结合生成候选模式,生成的候选模式大小不变,长度+1;
18.步骤3.2,依次计算步骤3.1生成的候选模式的模式支持度sup(p,d),如果sup(p,d)≥minsup,则该候选模式为2长度的1项集nfp,将该候选模式与其对应的出现位置存储到频繁重复模式字典中,频繁重复模式字典中key对应nfp,value对应模式的出现位置;
19.1项集模式支持度计算过程为:在倒排索引表中获得候选模式中所包含项的出现位置数组,对所有项的出现位置数组取交集,获得的集合为候选模式的出现位置,集合中包含元素的个数为模式支持度sup(p,d);
20.步骤3.3,对2长度的1项集nfps利用项集内部模式连接策略两两结合生成新的候选模式,重复步骤3.2获得3长度的1项集nfps,进行下一次循环递归,直到根据项集内部模式连接策略无法生成新的候选模式生成为止,获得所有长度的1项集nfps,1项集nfps的大小用r表示;
21.获得所有1项集nfps,并将其以及出现位置存储在频繁重复模式字典中。
22.所述步骤4包括以下子步骤:
23.步骤4.1,将步骤3中产生的1项集nfps利用项集外部模式连接策略两两结合生成2项集大小的候选模式,利用项集外部模式连接策略生成的候选模式大小+1;
24.步骤4.2,依次计算步骤4.1中生成的2项集大小的候选模式的模式支持度,如果sup(p,d)≥minsup,则该候选模式为2项集大小的nfp,将该候选模式与其对应的出现位置
存储到频繁重复模式字典中;
25.多项集模式支持度计算过程为:在频繁重复模式字典中获得候选模式的前缀模式和最后一个项集的出现位置数组,对两个出现位置数组进行匹配操作,如果最后一个项集的出现位置大于前缀模式出现的出现位置,记为匹配成功1次,该位置为候选模式的1个出现位置,遍历完所有出现位置后,获得候选模式的出现位置与模式支持度sup(p,d);
26.步骤4.3,利用项集外部模式连接策略,对步骤4.2中获得的2项集大小的nfp进行连接,生成3项集大小的候选模式,再迭代步骤4.2-4.3,直到没有新的候选模式生成为止;
27.获得不同项集大小的nfps,所有nfps都存储在频繁重复模式字典中,代表用户频繁进行的一些购买行为,商家依据此类模式进行营销方案制定。
28.第二方面,本发明还保护一种基于重复序列模式挖掘的用户购买行为分析装置,用于自动化地实施所述的基于重复序列模式挖掘的用户购买行为分析方法。该装置包括数据采集模块、1项集重复序列模式挖掘模块、多项集重复序列模式挖掘模块、以及挖掘结果分析评估模块,通过集成这些组件,实现对用户购买行为的全面分析和评估。
29.数据采集模块,用于实时采集电子商务网站数据,将用户的购买行为转化为项与项集的形式,形成购买行为序列,实时传入;传入的同时进行数据预处理工作,对于倒排索引表中已存在的商品,更新其在新序列中的出现位置;对于未存在的商品,将其加入,并更新出现位置;
30.1项集重复序列模式挖掘模块,用于发现所有满足用户给定最小阈值的1项集模式,即客户多次同时购买的商品组合;将倒排索引表与用户给定最小阈值作为输入,筛选被购买次数高于用户给定最小阈值的商品,使用项集内部模式连接策略生成候选模式,计算其支持度,筛选支持度高于阈值的商品组合,获得的所有商品组合即为客户会多次同时购买的商品;
31.多项集重复序列模式挖掘模块,用于发现所有满足用户给定最小阈值的多项集模式,即客户频繁分批购买的商品组合;将1项集重复序列模式挖掘模块的输出与用户给定最小阈值作为输入,使用项集外部模式连接策略生成候选模式,计算其模式支持度,筛选模式支持度高于用户给定最小阈值的商品组合,获得的商品组合即为客户会频繁分批次购买的商品;
32.挖掘结果分析评估模块,用于为商家提供营销策略;将1项集重复序列模式挖掘模块和多项集重复序列模式挖掘模块筛选出的商品组合展示给商家,并依据上述结果进行分析,1项集重复序列模式挖掘模块的结果表示顾客多次同时购买这些商品,给出“建议在相邻位置摆放这些商品”的意见;多项集重复序列模式挖掘模块的结果表示顾客多次分批次购买的商品组合,对于一些已经购买前置商品的顾客进行后置商品的推销策略。
33.本发明中步骤3的目的是获得只包含1个项集的模式,步骤4是在步骤3获得的模式的基础上获得包含多个项集的模式。本发明中长度为模式中包含的项的个数,大小为模式中包含的项集的个数,例如模式[ac][c],长度为3,大小为2,是一个2项集模式。
[0034]
本发明基于重复序列模式挖掘技术,通过对用户购买数据中的重复序列进行分析,能够深入挖掘用户的购买行为规律和潜在模式。相比传统的购买行为分析方法,本发明具有以下优势和效果:
[0035]
1.本发明所提供的方法,不仅考虑了商品是否被购买,而且计算了商品的实际购
买次数,从而更加全面和准确的对用户购买行为进行分析,以揭示用户的购买习惯、行为规律和关联模式,为企业决策提供有价值的参考和指导。
[0036]
2.本发明采用倒排索引表,减少对原始购买序列的多次扫描,利用项集内部模式连接策略与项集外部模式连接策略,缩减搜索空间,加快重复序列模式挖掘算法的速度。
[0037]
3.本发明针对1项集和多项集的候选模式分别提出了对应的模式支持度计算策略,在保证计算结果正确的情况下快速计算其支持度,提高了计算效率,
[0038]
4.本发明提供的装置能够自动化地实施购买行为分析,减少了人工处理的工作量和错误率,提高了分析的效率和准确性,为企业提供个性化的营销策略,提高产品的市场竞争力和用户满意度。
[0039]
综上所述,本发明提供的基于重复序列模式挖掘的用户购买行为分析方法及装置具有广泛的应用前景,在电子商务领域和市场营销领域具有重要的实际意义和经济效益。
附图说明
[0040]
图1为本发明实施例提供的基于重复序列模式挖掘的用户购买行为分析方法的流程示意图;
[0041]
图2为1项集模式支持度计算示例图;
[0042]
图3为多项集模式支持度计算示例图。
具体实施方式
[0043]
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0044]
首先介绍重复序列模式挖掘中的相关定义以及两个候选模式生成策略:
[0045]
定义1:设i={i1,i2,
…
,i
t
}为数据库中项的集合,i代表用户的一个购买行为,也就是项;项集v是i的子集,代表用户同一时间下的购买行为集合;序列s=s1s2…
sn是由n个项集构成的,代表一段时间内的用户购买行为。购买行为序列数据库d包含若干条购买序列,记作d={s1,s2,
…
,sd},d为购买行为序列数据库中购买序列的数量。
[0046]
定义2:具有自适应间隙的购买行为模式可以表示为p=p1*p2*
…
*pm或p=p1p2…
pm,其中pk(1≤k≤m)为i的子集(也就是项集v),并且*表示任意数量的项集。
[0047]
定义3:给定购买序列s=s1s2…
sn和模式p=p1p2…
pm,l=《l1,l2,
…
,lm》是模式p在序列s中的出现,当且仅当(1≤l1<l2<
…
<lk≤n)。假设存在另一个出现l'=《l1',l2',
…
,lm'》,当任意1≤q≤k,lq≠lq'时,l和l'被称为无重叠出现。
[0048]
定义4:模式p在购买序列s中的支持度是无重叠出现的最大次数,记作sup(p,s)。模式p在购买行为序列数据库d中的支持是每个购买序列中支持度的总和,记作
[0049]
定义5:在购买行为序列数据库d中,如果一个模式的支持度不低于用户给定的最小支持度阈值minsup,即sup(p,d)≥minsup,则称p是具有自适应间隙的频繁重复模式
(nfp)。
[0050]
策略1:(项集内部模式连接策略)给定两个仅包含1个项集的模式p1=[i1i2…im-1im
]和p2=[i1'i2'
…im-1
'im'],如果[i1i2…im-1im
]=[i1'i2'
…im-1
'im'],那么可以将两个模式连接生成新的模式即如果两个模式的前缀相同,则将第二个模式p2的最后一项直接拼接在第一个模式p1的最后一项之后,实现项集内部模式连接,否则不能进行内部模式连接。
[0051]
策略2:(项集外部模式连接策略)给定两个包含多个项集的模式p1=p1p2…
p
m-1
pm和p2=p1'p2'
…
p
m-1
'pm',如果p2…
p
m-1
pm=p1'p2'
…
p
m-1
',那么可以将两个模式连接生成新的模式即如果第一个包含多个项集的模式的后m-1个项集与第二个包含多个项集的模式的前m-1个项集相同,则将第二个包含多个项集的模式的第m个项集拼接在第一个包含多个项集的模式最后,实现项集外部模式连接,否则不能进行外部模式连接。
[0052]
下面结合图1介绍本发明中的具体算法过程:
[0053]
如图1所示的是一种基于重复序列模式挖掘的用户购买行为分析方法,应用于用户购买行为分析的重复序列模式挖掘,
[0054]
步骤1,输入一段时间内用户购买行为序列数据库,商家定义最小支持度阈值minsup。
[0055]
本发明方法的目的是发现所有给定购买行为序列数据库中的频繁重复模式,将一个多序列的序列数据库和自定义的最小支持度阈值作为输入。
[0056]
步骤2,扫描数据库,构建用户购买行为各项的倒排索引表ii-list,即记录每件商品的销售记录情况,包括出现在哪位顾客的购买序列中、在哪个时间戳购买。购买不同商品称为不同的项,项用i表示,依次计算各项的支持度sup(i,d),如果sup(i,d)≥minsup,则将该项记为频繁重复模式,代表商品销量较高,频繁重复模式长度为j,此时j=1。
[0057]
具体的,创建字典结构体(key-value)用以存储倒排索引表,key记录数据库中包含的项,对应的value为一个二维数组,记录key中存储项的出现位置。依次扫描每条序列,扫描到未被记录在keys中的项时,增加新项,并在对应的value中记该位置;扫描到已存储在keys中的项时,只需要在对应的value中增加该位置。完成一遍扫描后即可得到每件商品的对应购买时间记录,即各项的倒排索引表。
[0058]
然后,依次计算每个项对应的value数组元素的个数,即支持度sup(i,d),判断是否满足sup(i,d)≥minsup,记录所有满足该条件的项,获得1长度的1项集nfps(具有自适应间隙的频繁重复模式),对于1长度的1项集nfps j=1;i表示项。
[0059]
步骤3,通过项集内部模式连接策略,对1长度的1项集nfps递归循环,j长度的自适应间隙的频繁重复模式两两连接生成j+1长度候选模式,直至不能产生新的候选模式为止。通过模式匹配技术依次计算不同长度的候选模式的模式支持度sup(p,d),并与minsup进行比较,获得所有1项集的具有自适应间隙的频繁重复模式,即顾客频繁在同一时间购买的商品组合。
[0060]
具体的,所述步骤3包括以下子步骤:
[0061]
步骤3.1,将步骤2中产生的1长度的1项集nfps利用项集内部模式连接策略两两结
合生成候选模式,由于项集内部有序,因此本步骤只需要将排名较高的项附加到排名较低的项之后,生成的候选模式大小不变,长度+1。初始时j=1。
[0062]
步骤3.2,依次计算步骤3.1生成的候选模式的模式支持度sup(p,d),如果sup(p,d)≥minsup,则该候选模式为2长度的1项集nfp,将该模式与其对应的出现位置存储到频繁重复模式字典中,key对应nfp,value对应该模式的出现位置。
[0063]
1项集模式支持度计算过程为:在倒排索引表中获得候选模式中所包含项的出现位置数组,对所有项的出现位置数组取交集,获得的集合即为候选模式的出现位置,集合中包含元素的个数为模式支持度sup(p,d)。
[0064]
步骤3.3,对2长度的1项集nfps利用项集内部模式连接策略两两结合生成新的候选模式,重复步骤3.2获得3长度的1项集nfps,进行下一次循环递归,直到根据项集内部模式连接策略无法生成新的候选模式生成为止,获得所有长度的1项集nfps,1项集nfps的大小用r表示。
[0065]
获得所有1项集nfps,并将其以及出现位置存储在频繁重复模式字典中,以便后续步骤中使用。
[0066]
步骤4,通过项集外部模式连接策略,递归循环r项集大小的nfps两两连接生成r+1项集大小候选模式,直至不能产生新的候选模式为止。通过模式匹配技术依次计算候选模式的模式支持度sup(p,d),并与minsup进行比较,获得所有项集大小的nfps,即顾客频繁购买的商品组合,包括同时购买和非同时购买。
[0067]
具体的,所述步骤4包括以下子步骤:
[0068]
步骤4.1,将步骤3中产生的1项集nfps利用项集外部模式连接策略两两结合生成2项集大小的候选模式。由于项集与项集之间没有前后顺序,因此任意两个1项集nfp都可以前后连接,利用项集外部模式连接策略生成的候选模式大小+1。
[0069]
步骤4.2,依次计算步骤4.1中生成的2项集大小的候选模式的模式支持度,如果sup(p,d)≥minsup,则该候选模式为2项集大小的nfp,将该候选模式与其对应的出现位置存储到频繁重复模式字典中,key对应nfp,value对应该模式的出现位置。
[0070]
多项集模式支持度计算过程为:在频繁重复模式字典中获得候选模式的前缀模式和最后一个项集的出现位置数组,对两个出现位置数组进行匹配操作,如果最后一个项集的出现位置大于前缀模式出现的出现位置,即可记为匹配成功1次,该位置即为候选模式的1个出现位置,遍历完所有出现位置后,可以获得候选模式的出现位置与模式支持度sup(p,d)。
[0071]
步骤4.3,利用项集外部模式连接策略,对步骤4.2中获得的2项集大小的nfp进行连接,生成3项集大小的候选模式,再迭代步骤4.2-4.3,直到没有新的候选模式生成为止。
[0072]
通过上述步骤,获得的所有不同项集大小的nfps都存储在频繁重复模式字典中,这些模式代表用户频繁进行的一些购买行为,商家可以依据此类模式进行合理的营销方案制定,以提升市场竞争力。
[0073]
本技术中nfps加s表示多个nfp。
[0074]
优选实施例
[0075]
本优选实施例中购买行为序列数据库样例如表1所示:
[0076]
表1:购买行为序列数据库样例
[0077]
序列id序列s1[acd][abce][ce][cef][ce]s2[bd][af][ace][de][acd]s3[ac][bc][e][f]
[0078]
首先,根据步骤1,输入如表1所示的一段时间内客户购买行为序列数据库,该数据库包含3条序列,以s3为例,该序列表示用户3先同时购买a类和c类商品,然后购买b类和c类商品,接下来购买e类商品,最后购买f类商品。商家自定义最小支持度阈值minsup=5,表示需要发现用户购买5次以上的商品及商品组合。
[0079]
根据步骤2,扫描数据库,构建各项的倒排索引表ii-list如表2所示:
[0080]
表2:倒排索引表ii-list
[0081]
项i倒排索引(出现位置)a[[1,2],[2,3,5],[1]]b[[2],[1],[2]]c[[1,2,3,4,5],[3,5],[1,2]]d[[1],[1,4,5],[]]e[[2,3,4,5],[3,4],[3]]f[[4],[2],[4]]
[0082]
表2表示的是各个商品被购买的时间和数量记录,以'd'为例,[[1],[1,4,5],[]]表示用户1在第1次购买中选购了d类商品;用户2在第1次、第4次和第5次购买中都选购了d类商品;用户3没有购买过d类商品,d类商品总共被购买过4次。
[0083]
根据倒排索引表可以发现,a类产品被购买过6次;b类产品被购买过3次;c类商品被购买过9次;d类商品被购买过4次;e类商品被购买过7次;f类商品被购买过3次。通过与minsup对比,可以发现[a]、[c]、[e]为1长度的1项集nfps。
[0084]
根据步骤3.1,首先将上述步骤中产生的1长度的1项集nfps利用项集内部模式连接策略进行两两连接,生成了[ac]、[ae]、[ce]三个候选模式。
[0085]
根据步骤3.2,依次计算三个候选模式的支持度,以模式[ac]为例,如图2所示,将'a'对应的倒排索引[[1,2],[2,3,5],[1]]和'c'对应的倒排索引[[1,2,3,4,5],[3,5],[1,2]]一一取交集,可以得到[[1,2],[3,5],[1],表示用户1在第1次和第2次购买中都同时购买了a类和c类商品;用户2在第3次和第5次购买中都同时购买了a类和c类商品;用户3在第1次购买中同时购买了a类和c类商品。因此,sup([ac],d)=5≥minsup,该模式属于2长度的1项集nfp。同理,可以得到所有2长度的1项集nfps为[ac]、[ce],表示用户更倾向于同时购买a类c类商品和c类e类商品。
[0086]
根据步骤3.3,需要对上述获得的2长度的nfps进行项集内部模式连接,由于[ac]的第一个项为a,[ce]的第一个项为c,a≠c,因此,该步骤中无法获得新的候选模式,步骤3结束,获得的1项集nfps为:[a]、[c]、[e]、[ac]和[ce]。
[0087]
根据步骤4.1,需要对所有1项集nfps利用项集外部模式连接策略进行两两连接,产生2项集候选模式:[a][a]、[a][c]、[a][e]、[a][ac]、[a][ce]、[c][a]、[c][c]、[c][e]、[c][ac]、[c][ce]、[e][a]、[e][c]、[e][e]、[e][ac]、[e][ce]、[ac][a]、[ac][c]、[ac][e]、[ac][ac]、[ac][ce]、[ce][a]、[ce][c]、[ce][e]、[ce][ac]和[ce][ce]。
[0088]
项集外部模式连接策略,判断1项集nfps中的两个模式中一个模式的除第一个项集外的其余项集与另外一个模式除最后一个项集外的其余项集是否都相同,如果都相同,则认为可将两个模式进行拼接,拼接后的模式的大小加1。
[0089]
根据步骤4.2,依次计算候选模式的支持度,以[a][a]为例,对前缀模式[a]的出现位置[[1,2],[2,3,5],[1]]和最后一个项集[a]的出现位置[[1,2],[2,3,5],[1]]进行匹配。如图3所示,以s2为例,第一层结点为2、3、5表示前缀模式[a]的出现位置,第二层结点为2、3、5表示最后一个项集[a]的出现位置,第一层的第一个结点为2,在第二层中第一个大于2的结点为3,因此,《2,3》为模式[a][a]的第一条出现,将出现位置记作3;继续看第一层的第2个结点为3,在第二层中未被使用且大于3的结点为5,因此,《3,5》为模式[a][a]的第二条出现,将出现位置记作5;第一层的最后一个结点为5,但是第二层没有比5大的结点,所以没有新的出现,综上,模式[a][a]在序列s2上的出现位置为[3,5]。同样的计算方法,可以得到[a][a]的出现位置为[[2],[3,5],[]],表示用户1在第2次购买中复购a类商品;用户2在第3次和第5次购买中都复购了a类商品;用户3没有复购。因此,sup([a][a],d)=3《minsup,该模式不属于nfp。同理,通过计算所有候选模式的模式支持度可以得到所有2项集nfps为[a][c]、[a][e]、[c][c]和[c][e],表示用户在购买完a类商品后更倾向于购买c类或者e类商品,在购买完c类商品后更倾向于购买c类或者e类商品。
[0090]
根据步骤4.3,需要对上述获得的2项集nfps进行项集外部模式连接策略,以模式[a][c]为例,该模式可以和模式[c][c]连接生成[a][c][c],可以和模式[c][e]连接生成[a][c][e]。同理,这一步骤中获得的候选模式为:[a][c][c]、[a][c][e]、[c][c][c]和[c][c][e]。迭代进行步骤4.2,依次计算每个候选模式的模式支持度,由于候选模式的模式支持度均小于minsup,因此没有新的nfp产生,重复序列模式挖掘结束。本实施例挖掘结果如表3所示,仅有1项集nfps和2项集nfps。
[0091]
表3:挖掘结果
[0092]
nfp出现位置支持度[a][[1,2],[2,3,5],[1]]6[c][[1,2,3,4,5],[3,5],[1,2]]9[e][[2,3,4,5],[3,4],[3]]7[ac][[1,2],[3,5],[1]]5[ce][[2,3,4,5],[3],[]]5[a][c][[2,3],[3,5],[2]]5[a][e][[2,3],[3,4],[3]]5[c][c][[2,3,4,5],[5],[2]]6[c][e][[2,3,4,5],[4],[3]]6
[0093]
表3表示的是重复序列模式挖掘的挖掘结果,挖掘产生的nfp为用户频繁重复购买的商品或者商品组合,模式的出现位置表示不同用户的购买习惯,支持度代表该模式在所给数据库中的无重叠出现次数,表示所有用户在此购物网站对该商品(组合)的购买次数。依据以上信息可以帮助商家制定个性化营销策略,从而达到提高产品的市场竞争力和用户满意度的目的。
[0094]
上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的
技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
[0095]
本发明未述及之处适用于现有技术。
技术特征:
1.一种基于重复序列模式挖掘的用户购买行为分析方法,其特征在于,所述分析方法包括以下步骤:步骤1,输入一段时间内客户购买行为序列数据库d,商家定义最小支持度阈值minsup;步骤2,扫描数据库,构建各项的倒排索引表ii-list,记录每件商品的销售记录情况,包括出现在哪位顾客的购买序列中、在哪个时间戳购买;购买不同商品称为不同的项,项用i表示,依次计算各项的支持度sup(i,d),如果sup(i,d)≥minsup,则将该项记为1长度的1项集具有自适应间隙的频繁重复模式,具有自适应间隙的频繁重复模式用nfp表示,nfp的长度用j表示;步骤3,通过项集内部模式连接策略,递归循环j长度的具有自适应间隙的频繁重复模式两两连接生成j+1长度候选模式,直至不能产生新的候选模式为止;依次计算各候选模式的模式支持度sup(p,d),并与minsup进行比较,如果sup(p,d)≥minsup,则该候选模式为j+1长度的1项集nfp,获得所有不同长度的1项集nfps,表示顾客频繁在同一时间购买的商品组合,记1项集nfps的大小为r;所述项集内部模式连接策略的过程是:如果两个给定模式的前缀相同,则将第二个模式的最后一项直接拼接在第一个模式的最后一项之后,实现项集内部模式连接,否则不能进行内部模式连接;步骤4,通过项集外部模式连接策略,递归循环r项集大小的nfp两两连接生成r+1项集大小候选模式,直至不能产生新的候选模式为止;依次计算候选模式的模式支持度sup(p,d),并与minsup进行比较,获得所有项集大小的nfps,即顾客频繁购买的商品组合,包括同时购买和非同时购买;所述项集外部模式连接策略的过程是:给定两个包含多个项集的模式,如果第一个包含多个项集的模式的后m-1个项集与第二个包含多个项集的模式的前m-1个项集相同,则将第二个包含多个项集的模式的第m个项集拼接在第一个包含多个项集的模式最后,实现项集外部模式连接,否则不能进行外部模式连接。2.根据权利要求1所述的用户购买行为分析方法,其特征在于,所述步骤3包括以下子步骤:步骤3.1,步骤2中产生的1长度的1项集nfps,利用项集内部模式连接策略对1长度的1项集nfp两两结合生成候选模式,生成的候选模式大小不变,长度+1;步骤3.2,依次计算步骤3.1生成的候选模式的模式支持度sup(p,d),如果sup(p,d)≥minsup,则该候选模式为2长度的1项集nfp,将该候选模式与其对应的出现位置存储到频繁重复模式字典中,频繁重复模式字典中key对应nfp,value对应模式的出现位置;1项集模式支持度计算过程为:在倒排索引表中获得候选模式中所包含项的出现位置数组,对所有项的出现位置数组取交集,获得的集合为候选模式的出现位置,集合中包含元素的个数为模式支持度sup(p,d);步骤3.3,对2长度的1项集nfps利用项集内部模式连接策略两两结合生成新的候选模式,重复步骤3.2获得3长度的1项集nfps,进行下一次循环递归,直到根据项集内部模式连接策略无法生成新的候选模式生成为止,获得所有长度的1项集nfps,1项集nfps的大小用r表示;获得所有1项集nfps,并将其以及出现位置存储在频繁重复模式字典中。
3.根据权利要求1所述的用户购买行为分析方法,其特征在于,所述步骤4包括以下子步骤:步骤4.1,将步骤3中产生的1项集nfps利用项集外部模式连接策略两两结合生成2项集大小的候选模式,利用项集外部模式连接策略生成的候选模式大小+1;步骤4.2,依次计算步骤4.1中生成的2项集大小的候选模式的模式支持度,如果sup(p,d)≥minsup,则该候选模式为2项集大小的nfp,将该候选模式与其对应的出现位置存储到频繁重复模式字典中;多项集模式支持度计算过程为:在频繁重复模式字典中获得候选模式的前缀模式和最后一个项集的出现位置数组,对两个出现位置数组进行匹配操作,如果最后一个项集的出现位置大于前缀模式出现的出现位置,记为匹配成功1次,该位置为候选模式的1个出现位置,遍历完所有出现位置后,获得候选模式的出现位置与模式支持度sup(p,d);步骤4.3,利用项集外部模式连接策略,对步骤4.2中获得的2项集大小的nfp进行连接,生成3项集大小的候选模式,再迭代步骤4.2-4.3,直到没有新的候选模式生成为止;获得不同项集大小的nfps,所有nfps都存储在频繁重复模式字典中,代表用户频繁进行的一些购买行为,商家依据此类模式进行营销方案制定。4.一种基于重复序列模式挖掘的用户购买行为分析装置,用于自动化地实施权利要求1-3任一所述的基于重复序列模式挖掘的用户购买行为分析方法。5.根据权利要求4所述的装置,其特征在于,所述装置包括:数据采集模块、1项集重复序列模式挖掘模块、多项集重复序列模式挖掘模块、以及挖掘结果分析评估模块;数据采集模块,用于实时采集电子商务网站数据,将用户的购买行为转化为项与项集的形式,形成购买行为序列,实时传入;传入的同时进行数据预处理工作,对于倒排索引表中已存在的商品,更新其在新序列中的出现位置;对于未存在的商品,将其加入,并更新出现位置;1项集重复序列模式挖掘模块,用于发现所有满足用户给定最小阈值的1项集模式,即客户多次同时购买的商品组合;将倒排索引表与用户给定最小阈值作为输入,筛选被购买次数高于用户给定最小阈值的商品,使用项集内部模式连接策略生成候选模式,计算其支持度,筛选支持度高于阈值的商品组合,获得的所有商品组合即为客户会多次同时购买的商品;多项集重复序列模式挖掘模块,用于发现所有满足用户给定最小阈值的多项集模式,即客户频繁分批购买的商品组合;将1项集重复序列模式挖掘模块的输出与用户给定最小阈值作为输入,使用项集外部模式连接策略生成候选模式,计算其模式支持度,筛选模式支持度高于用户给定最小阈值的商品组合,获得的商品组合即为客户会频繁分批次购买的商品;挖掘结果分析评估模块,用于为商家提供营销策略;将1项集重复序列模式挖掘模块和多项集重复序列模式挖掘模块筛选出的商品组合展示给商家,并依据上述结果进行分析,1项集重复序列模式挖掘模块的结果表示顾客多次同时购买这些商品,给出“建议在相邻位置摆放这些商品”的意见;多项集重复序列模式挖掘模块的结果表示顾客多次分批次购买的商品组合,对于一些已经购买前置商品的顾客进行后置商品的推销策略。
技术总结
本发明为基于重复序列模式挖掘的用户购买行为分析方法及装置,包括以下步骤:输入一段时间内客户购买行为序列数据库D,商家定义最小支持度阈值minsup;扫描数据库,构建各项的倒排索引表II-List,记录每件商品的销售记录情况;通过项集内部模式连接策略,递归循环j长度的具有自适应间隙的频繁重复模式两两连接生成j+1长度候选模式,直至不能产生新的候选模式为止,获得所有不同长度的1项集NFPs;通过项集外部模式连接策略,递归循环r项集大小的NFP两两连接生成r+1项集大小候选模式,直至不能产生新的候选模式为止,获得所有项集大小的NFPs。不仅考虑了商品是否被购买,而且计算了商品的实际购买次数,从而更加全面和准确的对用户购买行为进行分析。对用户购买行为进行分析。对用户购买行为进行分析。
技术研发人员:耿萌 武优西 刘靖宇 董志红 张雅杰 李艳
受保护的技术使用者:河北工业大学
技术研发日:2023.08.07
技术公布日:2023/10/7
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
