一种广告点击率预测方法、系统、计算机及可读存储介质与流程

未命名 07-13 阅读:96 评论:0


1.本发明属于广告点击率预测的技术领域,具体地涉及一种广告点击率预测方法、系统、计算机及可读存储介质。


背景技术:

2.广告点击率是在线广告营销的一个重要评价依据,但是广告点击数据随机性和环境原因,导致广告点击数据非常稀疏和不平衡,在提取广告数据的特征时,由于广告数据的随机性,使得提取出的特征之间的联系不紧密,无法准确获取特征之间的联系以及相应的特征信息,且由于广告数据的稀疏性,导致提取出的特征为高维的稀疏特征,使得在模型根据提取出的特征进行点击率预测时误差较大,无法根据广告数据准确的预测出广告点击率。


技术实现要素:

3.为了解决上述技术问题,本发明提供了一种广告点击率预测方法、系统、计算机及可读存储介质,用于解决现有技术中存在的技术问题。
4.第一方面,该发明提供以下技术方案,一种广告点击率预测方法,所述方法包括:获取广告的运行日志数据以构建原始样本集,按预设比例将所述原始样本集划分为测试样本集与训练样本集;对所述测试样本集进行迁移处理,以得到处理测试特征集;对所述处理测试特征集进行特征向量转化,以得到测试特征向量;对所述训练样本集依次进行迁移处理与特征向量转化,以得到训练特征向量,将所述训练特征向量输入预设神经网络预测模型中进行训练,以得到训练神经网络预测模型,将所述测试特征向量输入所述训练神经网络预测模型中,以输出广告点击率的预测结果;所述对所述测试样本集进行迁移处理,以得到处理测试特征集的步骤包括:计算所述测试样本集中所有特征数据的特征值与属性值,在所述测试样本集中选取特征值为空或者属性值相同的特征数据,将其作为普通特征,并在所述测试样本集中将所述普通特征进行剔除,以得到重点特征;基于所述重点特征并根据k邻近算法构建相似矩阵a:;式中,表示邻近个数,表示第个重点特征的欧式距离,第个重点特征的欧式距离;根据所述相似矩阵构建邻接图并基于所述邻接图求解选择特征,对所述选择特征进行迁移映射处理,以得到处理测试特征。
5.相比现有技术,本技术的有益效果为:本技术首先获取广告的运行日志数据以构
建原始样本集,按预设比例将所述原始样本集划分为测试样本集与训练样本集;而后对所述测试样本集进行迁移处理,以得到处理测试特征集;然后对所述处理测试特征集进行特征向量转化,以得到测试特征向量;最后对所述训练样本集依次进行迁移处理与特征向量转化,以得到训练特征向量,将所述训练特征向量输入预设神经网络预测模型中进行训练,以得到训练神经网络预测模型,将所述测试特征向量输入所述训练神经网络预测模型中,以输出广告点击率的预测结果,本发明通过将测试样本集进行迁移处理之后,可获取广告数据中的潜在特征联系以及特征信息,解决了因数据不平横而导致模型预测信息不够的问题,同时对处理测试特征集进行特征向量转化,可对提取的高维稀疏特征进行域内关系学习,进一步提取特征之间的联系与信息,并对高维特征的域内关系进行学习,以对特征进行充分表达,进一步提高模型预测的准确率以及预测速度。
6.较佳的,所述根据所述相似矩阵构建邻接图并基于所述邻接图求解选择特征,对所述选择特征进行迁移映射处理,以得到处理测试特征的步骤包括:基于所述重点特征构建邻接图并确定所述邻接图对应的对角矩阵c:;式中,表示第个重点特征对应的相似矩阵,表示重点特征的数量;基于所述对角矩阵c确定所述邻接图的拉普拉斯矩阵,并根据所述拉普拉斯矩阵求解得到若干选择特征:;式中,为特征值,为重点特征,为重点特征的转置矩阵;将所述选择特征迁移映射到特征视图中,并计算所述选择特征的映射误差:;式中,为选择特征的数量,为映射之前的选择特征,为映射之后的选择特征,为特征迁移映射矩阵;选择小于误差阈值的迁移误差所对应的选择特征作为处理测试特征集。
7.较佳的,所述对所述处理测试特征集进行特征向量转化,以得到测试特征向量的步骤包括:提取所述处理测试特征集的正样本数据集,并在所述正样本数据集中选取分组特征,基于所述分组特征将所述正样本数据集进行切分,以得到若干子数据集,并在每个所述子数据集中选取序列特征;基于所述分组特征与所述序列特征计算差异度与覆盖率,并基于所述差异度与所述覆盖率进行特征分组,以得到若干个由分组特征与序列特征组成的特征组合;基于所述序列特征提取每个所述特征组合中的上下文序列,并基于所述上下文序列生成若干测试特征向量。
8.较佳的,所述基于所述分组特征与所述序列特征计算差异度与覆盖率的步骤包括:计算每个所述子数据集对应的序列特征的分布面积,并计算每两个所述子数据集
的不重叠面积比例,取所有所述不重叠面积比例的平均值作为差异度;计算所述处理测试特征集与所述正样本数据集对应在所述序列特征上的洛伦兹曲线,计算两所述洛伦兹曲线的下面积之间的比例,以得到覆盖率。
9.较佳的,所述基于所述序列特征提取每个所述特征组合中的上下文序列,并基于所述上下文序列生成若干测试特征向量的步骤包括:提取所述特征组合中每个所述子数据集对应的序列特征作为上下文序列;对每个所述子数据集均计算其在所述上下文序列中的序列特征下的共现次数,并基于所述共现次数生成关联矩阵;对于关联矩阵存在,将阶矩阵对角矩阵的特征值从左上至右下从大到小依次排列,并选取其中最大的前g个特征值,以得到转换矩阵,将转换矩阵拆分折叠到矩阵以及矩阵的转置矩阵中:;式中,为第一折叠矩阵,为第二折叠矩阵;定义损失函数,并根据所述损失函数迭代求解第一折叠矩阵与第二折叠矩阵,并将所述第一折叠矩阵与所述第二折叠矩阵分解得到若干测试特征向量,其中,所述损失函数的表达式为:;式中,为关联矩阵中的第行第列的元素,为第一折叠矩阵中第行第列的元素,为第二折叠矩阵中第行第列的元素,为第一折叠矩阵中第行的所有元素,第一折叠矩阵中第列的所有元素,与为正则化系数。
10.较佳的,将所述训练特征向量输入预设神经网络预测模型中进行训练,以得到训练神经网络预测模型,将所述测试特征向量输入所述训练神经网络预测模型中,以输出广告点击率的预测结果的步骤包括:通过遗传算子初始化所述预设神经网络预测模型的模型权重,将训练特征向量输入所述预设神经网络预测模型中进行训练,并计算对应的训练误差;根据所述训练误差计算所述遗传算子的适应度,并根据所述适应度对所述遗传算子进行测试并选取优良遗传算子;对所述优良遗传算子依次进行复制、交叉选择以及变异处理,以对所述预设神经网络预测模型进行若干次迭代优化并得到若干迭代算子;选取训练误差最小对应的迭代算子作为最终算子,将所述最终算子映射到所述预设神经网络预测模型,以得到最终权值,将所述最终权值输入所述预设神经网络预测模型中,以得到训练神经网络预测模型;将所述测试特征向量输入所述训练神经网络预测模型中,以输出广告点击率的预测结果。
11.第二方面,该发明提供以下技术方案,一种广告点击率预测系统,所述系统包括:样本划分模块,用于获取广告的运行日志数据以构建原始样本集,按预设比例将
所述原始样本集划分为测试样本集与训练样本集;处理模块,用于对所述测试样本集进行迁移处理,以得到处理测试特征集;转化模块,用于对所述处理测试特征集进行特征向量转化,以得到测试特征向量;预测模块,用于对所述训练样本集依次进行迁移处理与特征向量转化,以得到训练特征向量,将所述训练特征向量输入预设神经网络预测模型中进行训练,以得到训练神经网络预测模型,将所述测试特征向量输入所述训练神经网络预测模型中,以输出广告点击率的预测结果;所述处理模块包括:特征筛选子模块,用于计算所述测试样本集中所有特征数据的特征值与属性值,在所述测试样本集中选取特征值为空或者属性值相同的特征数据,将其作为普通特征,并在所述测试样本集中将所述普通特征进行剔除,以得到重点特征;相似矩阵构建子模块,用于基于所述重点特征并根据k邻近算法构建相似矩阵a:;式中,表示邻近个数,表示第个重点特征的欧式距离,第个重点特征的欧式距离;迁移子模块,用于根据所述相似矩阵构建邻接图并基于所述邻接图求解选择特征,对所述选择特征进行迁移映射处理,以得到处理测试特征。
12.第三方面,该发明提供以下技术方案,一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的广告点击率预测方法。
13.第四方面,该发明提供以下技术方案,一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的广告点击率预测方法。
附图说明
14.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
15.图1为本发明第一实施例提供的广告点击率预测方法的流程图;图2为本发明第一实施例提供的广告点击率预测方法中步骤s2的详细流程图;图3为本发明第一实施例提供的广告点击率预测方法中步骤s23的详细流程图;图4为本发明第一实施例提供的广告点击率预测方法中步骤s3的详细流程图;图5为本发明第一实施例提供的广告点击率预测方法中步骤s32的详细流程图;图6为本发明第一实施例提供的广告点击率预测方法中步骤s33的详细流程图;图7为本发明第一实施例提供的广告点击率预测方法中步骤s4的详细流程图;图8为本发明第二实施例提供的广告点击率预测系统的结构框图;图9为本发明另一实施例提供的计算机的硬件结构框图。
16.以下将结合附图对本发明实施例作进一步说明。
具体实施方式
17.为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
18.除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
19.实施例一如图1所示,在本发明的第一个实施例中,该发明提供以下技术方案,一种广告点击率预测方法,所述方法包括:s1、获取广告的运行日志数据以构建原始样本集,按预设比例将所述原始样本集划分为测试样本集与训练样本集;具体的,广告的运行日志数据中包括广告信息、该广告被用户点击的信息数据以及未被点击的数据,且在整个运行日志数据中,广告被点击的信息数据所占比例较小,由于广告数据的不平衡与稀疏性,因此需要对广告数据进行后续处理;同时,整个运行日志数据具体为一段时序数据,因此可将其按照比例划分为测试样本集与训练样本集,同时为了保证模型训练的精度,因此预设比例为2:8,其中,测试样本数据集占总数的20%,训练样本数据占总数的80%。
20.s2、对所述测试样本集进行迁移处理,以得到处理测试特征集;具体的,在该步骤中,通过对测试样本集进行迁移处理,可充分考虑数据的稀疏与不平衡性,利用特征迁移以及特征视图的映射,可提高输入模型的预测数据信息量,同时也可建立稀疏特征之间的联系,保证了特征信息的有效性,进而可提高模型预测的精准度。
21.如图2所示,其中,所述步骤s2包括:s21、计算所述测试样本集中所有特征数据的特征值与属性值,在所述测试样本集中选取特征值为空或者属性值相同的特征数据,将其作为普通特征,并在所述测试样本集中将所述普通特征进行剔除,以得到重点特征;具体的,在广告数据中,被用户点击的广告数据占总数据的比例较小,因此在该步骤中,需要寻找被用户点击的数据特征,以提高模型的预测准确率,而在测试样本集中,特征值为空或者属性值相同的特征对点击率的预测没有帮助,反而增加特征迁移处理的运算难度,同时也会降低模型的预测时间,因此将普通特征进行剔除,将重点特征进行保留,重点特征可反映用户点击该广告的特征。
22.s22、基于所述重点特征并根据k邻近算法构建相似矩阵a:;式中,表示邻近个数,表示第个重点特征的欧式距离,第个重点特征的欧式距离。
23.s23、根据所述相似矩阵构建邻接图并基于所述邻接图求解选择特征,对所述选择特征进行迁移映射处理,以得到处理测试特征;
如图3所示,其中,所述步骤s23包括:s231、基于所述重点特征构建邻接图并确定所述邻接图对应的对角矩阵c:;式中,表示第个重点特征对应的相似矩阵,表示重点特征的数量;其中,在构建邻接图时,会对应生成一个对角矩阵,该对角矩阵具体表示在重点特征之中每个数据节点连接的权重所组成的矩阵,其可用于计算邻接图的拉普拉斯矩阵。
24.s232、基于所述对角矩阵c确定所述邻接图的拉普拉斯矩阵,并根据所述拉普拉斯矩阵求解得到若干选择特征:;式中,为特征值,为重点特征,为重点特征的转置矩阵;具体的,在该步骤中,选择特征为上述公式的解,同时对应为选择特征的特征值,而选择特征为在重点特征中被选择的前若干个特征,而特征值的数量与选择特征相同,且特征值从小至大依次排列。
25.s233、将所述选择特征迁移映射到特征视图中,并计算所述选择特征的映射误差:;式中,为选择特征的数量,为映射之前的选择特征,为映射之后的选择特征,为特征迁移映射矩阵;具体的,当存在一个特征视图时,将选择特征映射到该特征视图后,会产生k个视图,当存在两个特征视图时,则会产生k(k-1)/2个视图,因此通过将选择特征映射到特征视图之后,可寻找到重要特征之间的联系,以求得到更多的预测信息。
26.s234、选择小于误差阈值的迁移误差所对应的选择特征作为处理测试特征集;具体的,在理想情况下,迁移误差趋近于0的效果最好,但在实际的特征中,迁移误差趋近于0所对应的选择特征的数量过少,一旦特征量小则无法反映准确表达数据,也会影响模型预测的准确率,因此,通过设置一误差阀值可增加选择特征的数量,以扩大处理测试特征集的数量,提高预测的准确度,且值得一提的是,误差阈值的大小可根据选择特征的样本量决定。
27.s3、对所述处理测试特征集进行特征向量转化,以得到测试特征向量;具体的,通过对处理测试特征集进行特征向量转化,可以对高维稀疏特征的域内关系进行学习,以充分获取特征中所包含的特征信息,对特征进行充分表达。
28.如图4所示,其中,所述步骤s3包括:s31、提取所述处理测试特征集的正样本数据集,并在所述正样本数据集中选取分组特征,基于所述分组特征将所述正样本数据集进行切分,以得到若干子数据集,并在每个所述子数据集中选取序列特征;具体的,由于在上述步骤中,已经舍去了普通特征,但在处理测试特征集中可能还会存在一些混合特征,即点击数据与未点击数据混合,因此在该步骤中,将点击数据所对应的特征从处理测试特征集中提取出来,以得到了正样本数据集,正样本数据集可充分反映
特征信息,其中分组特征为任意选取的特征,在实际的切分过程中,通过每次切分任意选取一个分组特征,因此可得到与正样本数据集中元素数量相同个数的分组特征;对应的,序列特征为产生序列的特征,其余每个子数据集对应,因此分组特征与序列特征的数量相同,且在后续的特征组合中,每一个特征组合均包含一个分组特征与序列特征。
29.s32、基于所述分组特征与所述序列特征计算差异度与覆盖率,并基于所述差异度与所述覆盖率进行特征分组,以得到若干个由分组特征与序列特征组成的特征组合;如图5所示,其中,所述步骤s32包括:s321、计算每个所述子数据集对应的序列特征的分布面积,并计算每两个所述子数据集的不重叠面积比例,取所有所述不重叠面积比例的平均值作为差异度;具体的,由于序列特征有若干个,因此所计算出的差异度也有若干组,通过差异度可判断子数据集之间的差异程度,差异度越大则表示该子数据子中的序列有其特殊之处,可根据具体情况根据差异度判断不同的特征组合。
30.s322、计算所述处理测试特征集与所述正样本数据集对应在所述序列特征上的洛伦兹曲线,计算两所述洛伦兹曲线的下面积之间的比例,以得到覆盖率;具体的,该步骤中的下面积是指洛伦兹曲线与x轴之间围成的面积,在步骤s321中,正样本数据集中元素的取值可能仅为所有取值集合的子集,且其分布程度可能会与原始的分布有一定的差别,因此在该步骤中,通过计算原始的处理测试特征集与提取出的正样本数据集之间特征内覆盖度以对特征组合进行判断;值得说明的是,在上述步骤s321与步骤s322中给出了两个特征组合的判断指标,分别为差异度与覆盖率,基于两个指标可判断各种特征组合对分布表示的适用性,具体判断过程需要参阅后续的实验结果。
31.s33、基于所述序列特征提取每个所述特征组合中的上下文序列,并基于所述上下文序列生成若干测试特征向量;具体的,上下文序列表示具有表达特征含义的上下文信息,其可表达目标的含义,同时上下文序列中的元素具备相似性,该相似性应用于统计场景下,以表达多个特征组合之间包含的特征信息。
32.如图6所示,其中,所述步骤s33包括:s331、提取所述特征组合中每个所述子数据集对应的序列特征作为上下文序列;具体的,在抽取上下文序列时,需要对抽取过程进行优化,将过长的序列进行打断,并将过短的序列进行删除,以保证上下序列的特征表达能力。
33.s332、对每个所述子数据集均计算其在所述上下文序列中的序列特征下的共现次数,并基于所述共现次数生成关联矩阵;具体的,在上下文序列中,可将上下文序列中的元素当成一个标志物,共现次数则表示出现在同一个序列中的连续的标志物的组合,因此在关联矩阵中,行中的每个元素则表示其余行的标志物与本行的标志物的共同出现的次数,即共现次数,因此关联矩阵中的每一行可表示为某一个标志物的一个表述。
34.s333、对于关联矩阵存在,将阶矩阵对角矩阵的特征值从
左上至右下从大到小依次排列,并选取其中最大的前g个特征值,以得到转换矩阵,将转换矩阵拆分折叠到矩阵以及矩阵的转置矩阵中:;式中,为第一折叠矩阵,为第二折叠矩阵;具体的,为传统的奇异值分解过程,但传统中的奇异值分解适用于正交矩阵,但本实施例中的关联矩阵并不一定为正交矩阵,因此在本实施中中,将一个阶矩阵对角矩阵开根号,将其拆分为两个相乘,并分别将两个折叠至矩阵以及矩阵的转置矩阵,进而形成了第一折叠矩阵与第二折叠矩阵;值得说明的时,为了减少运算的难度以及复杂度,在本实施例中,将矩阵对角矩阵中的元素从大到小进行排列并选取其中前g个特征值,以减少运算难度与复杂度,同时由于选取了前g个特征值,则在中后列的值为空,中后行的值为空,因此可生成第一折叠矩阵与第二折叠矩阵。
35.s334、定义损失函数,并根据所述损失函数迭代求解第一折叠矩阵与第二折叠矩阵,并将所述第一折叠矩阵与所述第二折叠矩阵分解得到若干测试特征向量,其中,所述损失函数的表达式为:;式中,为关联矩阵中的第行第列的元素,为第一折叠矩阵中第行第列的元素,为第二折叠矩阵中第行第列的元素,为第一折叠矩阵中第行的所有元素,第一折叠矩阵中第列的所有元素,与为正则化系数;具体的,通过迭代求解矩阵,可提高运算速度同时也能够控制矩阵分解的时间。
36.s4、对所述训练样本集依次进行迁移处理与特征向量转化,以得到训练特征向量,将所述训练特征向量输入预设神经网络预测模型中进行训练,以得到训练神经网络预测模型,将所述测试特征向量输入所述训练神经网络预测模型中,以输出广告点击率的预测结果;具体的,在该步骤中,训练样本集需要经过如测试样本集一样的处理步骤,即经过上述步骤s2与上述步骤s3中所公开了的处理步骤,如此保证测试样本与训练样本的一致性。
37.如图7所示,其中,所述步骤s4包括:s41、通过遗传算子初始化所述预设神经网络预测模型的模型权重,将训练特征向量输入所述预设神经网络预测模型中进行训练,并计算对应的训练误差。
38.s42、根据所述训练误差计算所述遗传算子的适应度,并根据所述适应度对所述遗传算子进行测试并选取优良遗传算子。
39.具体的,此步骤中测试为优劣测试,目的为了选取具有竞争力的算子并将其遗传至下一代。
40.s43、对所述优良遗传算子依次进行复制、交叉选择以及变异处理,以对所述预设
神经网络预测模型进行若干次迭代优化并得到若干迭代算子;具体的,交叉选择过程为按预设概率从上代遗传算子中选择若干隔离作为双亲算子,并拷贝到下一代,变异处理具体为对于选中的算子,随机在其中选取任意一个算子进行取反运算,以得到新的变异的算子,重复上述过程逐代演化产生越来越精确的近似解。
41.s44、选取训练误差最小对应的迭代算子作为最终算子,将所述最终算子映射到所述预设神经网络预测模型,以得到最终权值,将所述最终权值输入所述预设神经网络预测模型中,以得到训练神经网络预测模型;具体的,确定训练误差最小的作为最终算子,该最终算子为精准的最佳算子,将其映射到神经网络中,即本实施例中的模型中,训练模型的模型权值,以得到最终权值。
42.s45、将所述测试特征向量输入所述训练神经网络预测模型中,以输出广告点击率的预测结果。
43.本实施例一的好处在于:本技术首先获取广告的运行日志数据以构建原始样本集,按预设比例将所述原始样本集划分为测试样本集与训练样本集;而后对所述测试样本集进行迁移处理,以得到处理测试特征集;然后对所述处理测试特征集进行特征向量转化,以得到测试特征向量;最后对所述训练样本集依次进行迁移处理与特征向量转化,以得到训练特征向量,将所述训练特征向量输入预设神经网络预测模型中进行训练,以得到训练神经网络预测模型,将所述测试特征向量输入所述训练神经网络预测模型中,以输出广告点击率的预测结果,本发明通过将测试样本集进行迁移处理之后,可获取广告数据中的潜在特征联系以及特征信息,解决了因数据不平横而导致模型预测信息不够的问题,同时对处理测试特征集进行特征向量转化,可对提取的高维稀疏特征进行域内关系学习,进一步提取特征之间的联系与信息,并对高维特征的域内关系进行学习,以对特征进行充分表达,进一步提高模型预测的准确率以及预测速度。
44.实施例二如图8所示,在本发明的第二个实施例提供了一种广告点击率预测系统,所述系统包括:样本划分模块1,用于获取广告的运行日志数据以构建原始样本集,按预设比例将所述原始样本集划分为测试样本集与训练样本集;处理模块2,用于对所述测试样本集进行迁移处理,以得到处理测试特征集;转化模块3,用于对所述处理测试特征集进行特征向量转化,以得到测试特征向量;预测模块4,用于对所述训练样本集依次进行迁移处理与特征向量转化,以得到训练特征向量,将所述训练特征向量输入预设神经网络预测模型中进行训练,以得到训练神经网络预测模型,将所述测试特征向量输入所述训练神经网络预测模型中,以输出广告点击率的预测结果。
45.其中,所述处理模块2包括:特征筛选子模块,用于计算所述测试样本集中所有特征数据的特征值与属性值,在所述测试样本集中选取特征值为空或者属性值相同的特征数据,将其作为普通特征,并在所述测试样本集中将所述普通特征进行剔除,以得到重点特征;相似矩阵构建子模块,用于基于所述重点特征并根据k邻近算法构建相似矩阵a:
;式中,表示邻近个数,表示第个重点特征的欧式距离,第个重点特征的欧式距离;迁移子模块,用于根据所述相似矩阵构建邻接图并基于所述邻接图求解选择特征,对所述选择特征进行迁移映射处理,以得到处理测试特征。
46.所述迁移子模块包括:邻接单元,用于基于所述重点特征构建邻接图并确定所述邻接图对应的对角矩阵c:;式中,表示第个重点特征对应的相似矩阵,表示重点特征的数量;特征确定单元,用于基于所述对角矩阵c确定所述邻接图的拉普拉斯矩阵,并根据所述拉普拉斯矩阵求解得到若干选择特征:;式中,为特征值,为重点特征,为重点特征的转置矩阵;误差计算单元,用于将所述选择特征迁移映射到特征视图中,并计算所述选择特征的映射误差:;式中,为选择特征的数量,为映射之前的选择特征,为映射之后的选择特征,为特征迁移映射矩阵;误差对比单元,用于选择小于误差阈值的迁移误差所对应的选择特征作为处理测试特征集。
47.所述转化模块3包括:提取子模块,用于提取所述处理测试特征集的正样本数据集,并在所述正样本数据集中选取分组特征,基于所述分组特征将所述正样本数据集进行切分,以得到若干子数据集,并在每个所述子数据集中选取序列特征;组合确定子模块,用于基于所述分组特征与所述序列特征计算差异度与覆盖率,并基于所述差异度与所述覆盖率进行特征分组,以得到若干个由分组特征与序列特征组成的特征组合;向量生成子模块,用于基于所述序列特征提取每个所述特征组合中的上下文序列,并基于所述上下文序列生成若干测试特征向量。
48.所述组合确定子模块包括:差异度计算单元,用于计算每个所述子数据集对应的序列特征的分布面积,并计算每两个所述子数据集的不重叠面积比例,取所有所述不重叠面积比例的平均值作为差异度;覆盖率计算单元,用于计算所述处理测试特征集与所述正样本数据集对应在所述
序列特征上的洛伦兹曲线,计算两所述洛伦兹曲线的下面积之间的比例,以得到覆盖率。
49.所述向量生成子模块包括:序列提取单元,用于提取所述特征组合中每个所述子数据集对应的序列特征作为上下文序列;关联矩阵生成单元,用于对每个所述子数据集均计算其在所述上下文序列中的序列特征下的共现次数,并基于所述共现次数生成关联矩阵;折叠单元,用于对于关联矩阵存在,将阶矩阵对角矩阵的特征值从左上至右下从大到小依次排列,并选取其中最大的前g个特征值,以得到转换矩阵,将转换矩阵拆分折叠到矩阵以及矩阵的转置矩阵中:;式中,为第一折叠矩阵,为第二折叠矩阵;分解单元,用于定义损失函数,并根据所述损失函数迭代求解第一折叠矩阵与第二折叠矩阵,并将所述第一折叠矩阵与所述第二折叠矩阵分解得到若干测试特征向量,其中,所述损失函数的表达式为:;式中,为关联矩阵中的第行第列的元素,为第一折叠矩阵中第行第列的元素,为第二折叠矩阵中第行第列的元素,为第一折叠矩阵中第行的所有元素,第一折叠矩阵中第列的所有元素,与为正则化系数。
50.所述预测模块4包括:初始化子模块,用于通过遗传算子初始化所述预设神经网络预测模型的模型权重,将训练特征向量输入所述预设神经网络预测模型中进行训练,并计算对应的训练误差;适应度计算子模块,用于根据所述训练误差计算所述遗传算子的适应度,并根据所述适应度对所述遗传算子进行测试并选取优良遗传算子;算子处理子模块,用于对所述优良遗传算子依次进行复制、交叉选择以及变异处理,以对所述预设神经网络预测模型进行若干次迭代优化并得到若干迭代算子;映射子模块,用于选取训练误差最小对应的迭代算子作为最终算子,将所述最终算子映射到所述预设神经网络预测模型,以得到最终权值,将所述最终权值输入所述预设神经网络预测模型中,以得到训练神经网络预测模型;预测子模块,用于将所述测试特征向量输入所述训练神经网络预测模型中,以输出广告点击率的预测结果。
51.在本发明的另一些实施例中,本发明实施例提供以下技术方案,一种计算机,包括存储器102、处理器101以及存储在所述存储器102上并可在所述处理器101上运行的计算机程序,所述处理器101执行所述计算机程序时实现如上所述的广告点击率预测方法。
52.具体的,上述处理器101可以包括中央处理器(cpu),或者特定集成电路(application specific integrated circuit,简称为asic),或者可以被配置成实施本技术实施例的一个或多个集成电路。
53.其中,存储器102可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器102可包括硬盘驱动器(hard disk drive,简称为hdd)、软盘驱动器、固态驱动器(solid state drive,简称为ssd)、闪存、光盘、磁光盘、磁带或通用串行总线(universal serial bus,简称为usb)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器102可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器102可在数据处理装置的内部或外部。在特定实施例中,存储器102是非易失性(non-volatile)存储器。在特定实施例中,存储器102包括只读存储器(read-only memory,简称为rom)和随机存取存储器(random access memory,简称为ram)。在合适的情况下,该rom可以是掩模编程的rom、可编程rom(programmable read-only memory,简称为prom)、可擦除prom(erasable programmable read-only memory,简称为eprom)、电可擦除prom(electrically erasable programmable read-only memory,简称为eeprom)、电可改写rom(electrically alterable read-only memory,简称为earom)或闪存(flash)或者两个或更多个以上这些的组合。在合适的情况下,该ram可以是静态随机存取存储器(static random-access memory,简称为sram)或动态随机存取存储器(dynamic random access memory,简称为dram),其中,dram可以是快速页模式动态随机存取存储器(fast page mode dynamic random access memory,简称为fpmdram)、扩展数据输出动态随机存取存储器(extended date out dynamic random access memory,简称为edodram)、同步动态随机存取内存(synchronous dynamic random-access memory,简称sdram)等。
54.存储器102可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器101所执行的可能的计算机程序指令。
55.处理器101通过读取并执行存储器102中存储的计算机程序指令,以实现上述广告点击率预测方法。
56.在其中一些实施例中,计算机还可包括通信接口103和总线100。其中,如图9所示,处理器101、存储器102、通信接口103通过总线100连接并完成相互间的通信。
57.通信接口103用于实现本技术实施例中各模块、装置、单元和/或设备之间的通信。通信接口103还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
58.总线100包括硬件、软件或两者,将计算机的部件彼此耦接在一起。总线100包括但不限于以下至少之一:数据总线(data bus)、地址总线(address bus)、控制总线(control bus)、扩展总线(expansion bus)、局部总线(local bus)。举例来说而非限制,总线100可包括图形加速接口(accelerated graphics port,简称为agp)或其他图形总线、增强工业标准架构(extended industry standard architecture,简称为eisa)总线、前端总线(front side bus,简称为fsb)、超传输(hyper transport,简称为ht)互连、工业标准架构(industry standard architecture,简称为isa)总线、无线带宽(infiniband)互连、低引脚数(low pin count,简称为lpc)总线、存储器总线、微信道架构(micro channel architecture,简称为mca)总线、外围组件互连(peripheral component interconnect,简称为pci)总线、pci-express(pci-x)总线、串行高级技术附件(serial advanced technology attachment,简称为sata)总线、视频电子标准协会局部(video electronics standards association local bus,简称为vlb)总线或其他合适的总线或者两个或更多
个以上这些的组合。在合适的情况下,总线100可包括一个或多个总线。尽管本技术实施例描述和示出了特定的总线,但本技术考虑任何合适的总线或互连。
59.该计算机可以基于获取到广告点击率预测系统,执行本技术的广告点击率预测方法,从而实现广告点击率的预测。
60.在本发明的再一些实施例中,结合上述的广告点击率预测方法,本发明实施例提供以下技术方案,一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的广告点击率预测方法。
61.本领域技术人员可以理解,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
62.可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
63.应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或它们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
64.以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
65.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。

技术特征:
1.一种广告点击率预测方法,其特征在于,所述方法包括:获取广告的运行日志数据以构建原始样本集,按预设比例将所述原始样本集划分为测试样本集与训练样本集;对所述测试样本集进行迁移处理,以得到处理测试特征集;对所述处理测试特征集进行特征向量转化,以得到测试特征向量;对所述训练样本集依次进行迁移处理与特征向量转化,以得到训练特征向量,将所述训练特征向量输入预设神经网络预测模型中进行训练,以得到训练神经网络预测模型,将所述测试特征向量输入所述训练神经网络预测模型中,以输出广告点击率的预测结果;所述对所述测试样本集进行迁移处理,以得到处理测试特征集的步骤包括:计算所述测试样本集中所有特征数据的特征值与属性值,在所述测试样本集中选取特征值为空或者属性值相同的特征数据,将其作为普通特征,并在所述测试样本集中将所述普通特征进行剔除,以得到重点特征;基于所述重点特征并根据k邻近算法构建相似矩阵a:;式中,表示邻近个数,表示第个重点特征的欧式距离,第个重点特征的欧式距离;根据所述相似矩阵构建邻接图并基于所述邻接图求解选择特征,对所述选择特征进行迁移映射处理,以得到处理测试特征。2.根据权利要求1所述的广告点击率预测方法,其特征在于,所述根据所述相似矩阵构建邻接图并基于所述邻接图求解选择特征,对所述选择特征进行迁移映射处理,以得到处理测试特征的步骤包括:基于所述重点特征构建邻接图并确定所述邻接图对应的对角矩阵c:;式中,表示第个重点特征对应的相似矩阵,表示重点特征的数量;基于所述对角矩阵c确定所述邻接图的拉普拉斯矩阵,并根据所述拉普拉斯矩阵求解得到若干选择特征:;式中,为特征值,为重点特征,为重点特征的转置矩阵;将所述选择特征迁移映射到特征视图中,并计算所述选择特征的映射误差:;式中,为选择特征的数量,为映射之前的选择特征,为映射之后的选择特征,为特征迁移映射矩阵;选择小于误差阈值的迁移误差所对应的选择特征作为处理测试特征集。3.根据权利要求1所述的广告点击率预测方法,其特征在于,所述对所述处理测试特征
集进行特征向量转化,以得到测试特征向量的步骤包括:提取所述处理测试特征集的正样本数据集,并在所述正样本数据集中选取分组特征,基于所述分组特征将所述正样本数据集进行切分,以得到若干子数据集,并在每个所述子数据集中选取序列特征;基于所述分组特征与所述序列特征计算差异度与覆盖率,并基于所述差异度与所述覆盖率进行特征分组,以得到若干个由分组特征与序列特征组成的特征组合;基于所述序列特征提取每个所述特征组合中的上下文序列,并基于所述上下文序列生成若干测试特征向量。4.根据权利要求3所述的广告点击率预测方法,其特征在于,所述基于所述分组特征与所述序列特征计算差异度与覆盖率的步骤包括:计算每个所述子数据集对应的序列特征的分布面积,并计算每两个所述子数据集的不重叠面积比例,取所有所述不重叠面积比例的平均值作为差异度;计算所述处理测试特征集与所述正样本数据集对应在所述序列特征上的洛伦兹曲线,计算两所述洛伦兹曲线的下面积之间的比例,以得到覆盖率。5.根据权利要求3所述的广告点击率预测方法,其特征在于,所述基于所述序列特征提取每个所述特征组合中的上下文序列,并基于所述上下文序列生成若干测试特征向量的步骤包括:提取所述特征组合中每个所述子数据集对应的序列特征作为上下文序列;对每个所述子数据集均计算其在所述上下文序列中的序列特征下的共现次数,并基于所述共现次数生成关联矩阵;对于关联矩阵存在,将阶矩阵对角矩阵的特征值从左上至右下从大到小依次排列,并选取其中最大的前g个特征值,以得到转换矩阵,将转换矩阵拆分折叠到矩阵以及矩阵的转置矩阵中:;式中,为第一折叠矩阵,为第二折叠矩阵;定义损失函数,并根据所述损失函数迭代求解第一折叠矩阵与第二折叠矩阵,并将所述第一折叠矩阵与所述第二折叠矩阵分解得到若干测试特征向量,其中,所述损失函数的表达式为:;式中,为关联矩阵中的第行第列的元素,为第一折叠矩阵中第行第列的元素,为第二折叠矩阵中第行第列的元素,为第一折叠矩阵中第行的所有元素,第一折叠矩阵中第列的所有元素,与为正则化系数。6.根据权利要求1所述的广告点击率预测方法,其特征在于,将所述训练特征向量输入预设神经网络预测模型中进行训练,以得到训练神经网络预测模型,将所述测试特征向量输入所述训练神经网络预测模型中,以输出广告点击率的预测结果的步骤包括:通过遗传算子初始化所述预设神经网络预测模型的模型权重,将训练特征向量输入所
述预设神经网络预测模型中进行训练,并计算对应的训练误差;根据所述训练误差计算所述遗传算子的适应度,并根据所述适应度对所述遗传算子进行测试并选取优良遗传算子;对所述优良遗传算子依次进行复制、交叉选择以及变异处理,以对所述预设神经网络预测模型进行若干次迭代优化并得到若干迭代算子;选取训练误差最小对应的迭代算子作为最终算子,将所述最终算子映射到所述预设神经网络预测模型,以得到最终权值,将所述最终权值输入所述预设神经网络预测模型中,以得到训练神经网络预测模型;将所述测试特征向量输入所述训练神经网络预测模型中,以输出广告点击率的预测结果。7.一种广告点击率预测系统,其特征在于,所述系统包括:样本划分模块,用于获取广告的运行日志数据以构建原始样本集,按预设比例将所述原始样本集划分为测试样本集与训练样本集;处理模块,用于对所述测试样本集进行迁移处理,以得到处理测试特征集;转化模块,用于对所述处理测试特征集进行特征向量转化,以得到测试特征向量;预测模块,用于对所述训练样本集依次进行迁移处理与特征向量转化,以得到训练特征向量,将所述训练特征向量输入预设神经网络预测模型中进行训练,以得到训练神经网络预测模型,将所述测试特征向量输入所述训练神经网络预测模型中,以输出广告点击率的预测结果;所述处理模块包括:特征筛选子模块,用于计算所述测试样本集中所有特征数据的特征值与属性值,在所述测试样本集中选取特征值为空或者属性值相同的特征数据,将其作为普通特征,并在所述测试样本集中将所述普通特征进行剔除,以得到重点特征;相似矩阵构建子模块,用于基于所述重点特征并根据k邻近算法构建相似矩阵a:;式中,表示邻近个数,表示第个重点特征的欧式距离,第个重点特征的欧式距离;迁移子模块,用于根据所述相似矩阵构建邻接图并基于所述邻接图求解选择特征,对所述选择特征进行迁移映射处理,以得到处理测试特征。8.一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的广告点击率预测方法。9.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的广告点击率预测方法。

技术总结
本发明提供了一种广告点击率预测方法、系统、计算机及可读存储介质,该方法包括获取广告的运行日志数据以构建原始样本集,按预设比例将原始样本集划分为测试样本集与训练样本集;对测试样本集进行迁移处理,以得到处理测试特征集;对处理测试特征集进行特征向量转化,以得到测试特征向量;对训练样本集依次进行迁移处理与特征向量转化,以得到训练特征向量,将训练特征向量输入预设神经网络预测模型中进行训练,以得到训练神经网络预测模型,将测试特征向量输入训练神经网络预测模型中,以输出广告点击率的预测结果,本发明提取特征之间的联系与信息,进一步提高模型预测的准确率以及预测速度。以及预测速度。以及预测速度。


技术研发人员:姚尧之 黄亚雄 廖常训
受保护的技术使用者:江西时刻互动科技股份有限公司
技术研发日:2023.06.07
技术公布日:2023/7/12
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐