联邦变分自编码主题模型训练方法、主题预测方法及装置

未命名 08-15 阅读:86 评论:0


1.本技术涉及文本主题预测技术领域,尤其涉及联邦变分自编码主题模型训练方法、主题预测方法及装置。


背景技术:

2.主题模型是广泛适用于社会事件数据的建模。传统隐含狄利克雷分布(latent dirichlet allocation,lda)在概率隐语义分析(probabilistic latent semantic analysis, plsa)模型的基础上加入了贝叶斯概率思想,学习文档的特征表示,为每个文档建模多个主题,有效地解决了数据表示的维度和隐含语义挖掘的问题。近二十年来以lda为首的贝叶斯主题模型一直是主题分析的主线。但是随着深度学习的发展,目前的新算法更多的转向了使用神经网络的神经主题模型(neuraltopic models,ntms),旨在通过神经网络学习潜在的文档与主题之间的关系,在理想情况下获得更高质量的主题。
3.变分自动编码主题模型(autoencoding variational inference for topic models,avitm)由一个编码器-解码器架构和一个推理网络组成,推理网络将词袋( bag of word,bow )文档表示映射为连续的潜在表示,解码器网络重构该词袋。它的生成过程类似于lda,但狄利克雷先验是通过高斯分布来近似的,而加权的专家乘积代替了单个单词上的多项式分布,目的是为了更方便的神经网络训练和使主题更符合人类的判断。
4.然而,现有的变分自动编码主题模型的训练方式虽然考虑到数据集中场景下的如何去提取文档与主题之间的关系,但在现实情况中在构建一个共享的主题模型以进行多个文档集合之间的比较时,需要满足隐私约束条件。这种限制在多种分析领域中均会遇到,因为数据源机构可能因为机密性或数据保护条例等规定将文本数据作为个人隐私,不愿或不允许将其文本数据进行共享。因此,如何在满足隐私约束的同时保证变分自动编码主题模型的预测精度是亟需解决的问题。


技术实现要素:

5.鉴于此,本技术实施例提供了联邦变分自编码主题模型训练方法、主题预测方法及装置,以消除或改善现有技术中存在的一个或更多个缺陷。
6.本技术的一个方面提供了一种联邦变分自编码主题模型训练方法,包括:在当前的剪枝训练轮次中,接收联邦学习系统中的各个节点各自采用本地的文本训练数据训练得到的局部变分自编码主题模型的模型参数和神经元累计梯度,并对各个所述局部变分自编码主题模型的模型参数进行聚类以生成当前的目标变分自编码主题模型;基于各个所述局部变分自编码主题模型的神经元累计梯度对所述目标变分自编码主题模型进行神经元剪枝处理,得到当前的全局变分自编码主题模型;若所述全局变分自编码主题模型当前已收敛或当前的剪枝训练轮次为预设训练次数中的最后一次,则将该全局变分自编码主题模型作为用于根据输入的文本数据对应输出该文本数据所属主题类型的联邦变分自编码主题模型。
7.进一步地,所述基于各个所述局部变分自编码主题模型的神经元累计梯度对所述目标变分自编码主题模型进行神经元剪枝处理,得到当前的全局变分自编码主题模型,包括:根据当前的剪枝训练轮次对应的单次剪枝率,其中,所述单次剪枝率小于或等于预设的针对联邦变分自编码主题模型的目标剪枝率;以当前的剪枝训练轮次对应的单次剪枝率对所述目标变分自编码主题模型进行神经元剪枝处理以得到对应的剪枝后的目标变分自编码主题模型;在被剪枝的神经元中查找是否包含有神经元累计梯度大于梯度阈值的神经元,若是,则在所述目标变分自编码主题模型中恢复该神经元累计梯度大于梯度阈值的神经元,以生成对应的全局变分自编码主题模型。
8.进一步地,在所述基于各个所述局部变分自编码主题模型的神经元累计梯度对所述目标变分自编码主题模型进行神经元剪枝处理之前,还包括:接收针对联邦变分自编码主题模型的目标剪枝率以及预设的渐进式剪枝策略;根据所述目标剪枝率以及所述渐进式剪枝策略分别设置预设训练次数中的各个剪枝训练轮次各自对应的单次剪枝率。
9.进一步地,所述渐进式剪枝策略包括:平均剪枝策略;相对应的,所述根据所述目标剪枝率以及所述渐进式剪枝策略分别设置预设训练次数中的各个剪枝训练轮次各自对应的单次剪枝率,包括:基于所述平均剪枝策略,以相同的差值将所述目标剪枝率划分为百分比依次递增的各个单次剪枝率,且依次递增的各个所述单次剪枝率与依次执行的各个剪枝训练轮次之间一一对应。
10.进一步地,所述渐进式剪枝策略包括:快速剪枝策略;相对应的,所述根据所述目标剪枝率以及所述渐进式剪枝策略分别设置预设训练次数中的各个剪枝训练轮次各自对应的单次剪枝率,包括:基于所述快速剪枝策略,以依次递减的各个差值将所述目标剪枝率划分为百分比依次递增的各个单次剪枝率,且依次递增的各个所述单次剪枝率与依次执行的各个剪枝训练轮次之间一一对应。
11.进一步地,在所述接收联邦学习系统中的各个节点各自采用本地的文本训练数据训练得到的局部变分自编码主题模型的模型参数和神经元累计梯度之前,还包括:根据预设的剪枝轮次间隔,将预设训练次数中的各个训练轮次分别划分为剪枝训练轮次和非剪枝训练轮次,并将对应的划分结果分别发送至联邦学习系统中的各个节点进行存储,以使各个所述节点在非剪枝训练轮次中仅发生各自训练得到的局部变分自编码主题模型的模型参数;相对应的,所述联邦变分自编码主题模型训练方法还包括:在当前的非剪枝训练轮次中,接收各个所述节点各自采用本地的文本训练数据训练得到的局部变分自编码主题模型的模型参数,并对各个所述局部变分自编码主题模型的模型参数进行聚类以得到当前的全局变分自编码主题模型。
12.进一步地,在所述接收联邦学习系统中的各个节点各自采用本地的文本训练数据训练得到的局部变分自编码主题模型的模型参数和神经元累计梯度之前,还包括:
接收联邦学习系统中的各个节点分别发送的词汇集合,其中,每个所述节点预先对本地的语料库进行预处理以得到各自对应的词汇集合;对各个词汇集合进行聚合处理以形成对应的全局词汇库;将所述全局词汇库和全局变分自编码主题模型的初始权重分别发送至联邦学习系统中的各个节点,以使各个所述节点根据所述全局词汇库和全局变分自编码主题模型的初始权重对本地的局部变分自编码主题模型进行初始化处理,而后基于在本地词汇集合中获取的文本训练数据对已初始化的局部变分自编码主题模型进行训练,得到局部变分自编码主题模型的模型参数和神经元累计梯度,若经判定当前的训练轮次为剪枝训练轮次,则发出本地的局部变分自编码主题模型的模型参数和神经元累计梯度;相对应的,在所述得到当前的全局变分自编码主题模型之后,还包括:若所述全局变分自编码主题模型当前未收敛或当前的剪枝训练轮次不为预设训练次数中的最后一次,则将该全局变分自编码主题模型的模型参数分别发送至各个所述节点,以使各个所述节点基于接收到的模型参数针对各自对应的局部变分自编码主题模型执行下一个所述训练轮次的模型训练。
13.本技术的第二个方面提供了一种文本主题预测方法,包括:接收文本数据;将所述文本数据输入预设的联邦变分自编码主题模型,以使该联邦变分自编码主题模型输出所述文本数据对应的主题类型,其中,所述联邦变分自编码主题模型预先基于所述的联邦变分自编码主题模型训练方法训练得到。
14.本技术的第三个方面提供了一种联邦变分自编码主题模型训练装置,包括:联邦学习模块,用于在当前的剪枝训练轮次中,接收联邦学习系统中的各个节点各自采用本地的文本训练数据训练得到的局部变分自编码主题模型的模型参数和神经元累计梯度,并对各个所述局部变分自编码主题模型的模型参数进行聚类以生成当前的目标变分自编码主题模型;模型剪枝模块,用于基于各个所述局部变分自编码主题模型的神经元累计梯度对所述目标变分自编码主题模型进行神经元剪枝处理,得到当前的全局变分自编码主题模型;模型生成模块,用于若所述全局变分自编码主题模型当前已收敛或当前的剪枝训练轮次为预设训练次数中的最后一次,则将该全局变分自编码主题模型作为用于根据输入的文本数据对应输出该文本数据所属主题类型的联邦变分自编码主题模型。
15.本技术的第四个方面提供了一种文本主题预测装置,包括:数据接收模块,用于接收文本数据;模型预测模块,用于将所述文本数据输入预设的联邦变分自编码主题模型,以使该联邦变分自编码主题模型输出所述文本数据对应的主题类型,其中,所述联邦变分自编码主题模型预先基于所述的联邦变分自编码主题模型训练方法训练得到。
16.本技术的第五个方面提供了一种联邦学习系统,包括:服务器和分别与所述服务器之间通信连接的各个客户端设备;所述服务器用于执行本技术的第一个方面提供的联邦变分自编码主题模型训练方法,各个所述客户端设备分别用于作为各个所述节点;
所述服务器和所述客户端设备还可以执行本技术的第二个方面提供的文本主题预测方法。
17.本技术的第六个方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的联邦变分自编码主题模型训练方法,或者,实现第二方面所述的文本主题预测方法。
18.本技术的第七个方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现第一方面所述的联邦变分自编码主题模型训练方法,或者,实现第二方面所述的文本主题预测方法。
19.本技术提供的联邦变分自编码主题模型训练方法,在当前的剪枝训练轮次中,接收联邦学习系统中的各个节点各自采用本地的文本训练数据训练得到的局部变分自编码主题模型的模型参数和神经元累计梯度,并对各个所述局部变分自编码主题模型的模型参数进行聚类以生成当前的目标变分自编码主题模型,通过采用联邦学习系统分别对变分自编码主题模型进行训练,能够采用多方协作的方式,在保护本地数据隐私的前提下共同训练变分自编码主题模型,使变分自编码主题模型能够获得更为全面的数据信息,能够在满足隐私约束的同时训练得到高质量的主题模型,进而能够提高主题模型预测文本数据所属的主题类型的预测精度及可靠性。基于各个所述局部变分自编码主题模型的神经元累计梯度对所述目标变分自编码主题模型进行神经元剪枝处理,得到当前的全局变分自编码主题模型,利用模型剪枝技术,能够有效克服联邦学习的通信瓶颈和计算瓶颈,能够有效减少联邦学习过程中的网络上的通信开销以及客户端本地训练所占用的计算资源,进而能够有效提高联邦变分自编码主题模型的训练效率。若所述全局变分自编码主题模型当前已收敛或当前的剪枝训练轮次为预设训练次数中的最后一次,则将该全局变分自编码主题模型作为用于根据输入的文本数据对应输出该文本数据所属主题类型的联邦变分自编码主题模型,能够进一步提高联邦学习过程的有效性及可靠性。也就是说,本技术能够在有效保护本地数据隐私的基础上,能够有效降低模型训练过程的通信和计算开销,能够有效提高采用训练得到的主题模型预测文本数据所属主题类型的预测精度及可靠性。
20.本技术的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本技术的实践而获知。本技术的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。
21.本领域技术人员将会理解的是,能够用本技术实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本技术能够实现的上述和其他目的。
附图说明
22.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,并不构成对本技术的限定。附图中的部件不是成比例绘制的,而只是为了示出本技术的原理。为了便于示出和描述本技术的一些部分,附图中对应部分可能被放大,即,相对于依据本技术实际制造的示例性装置中的其它部件可能变得更大。在附图中:图1为本技术一实施例中的联邦变分自编码主题模型训练方法的第一种流程示意图。
23.图2为本技术一实施例中的联邦变分自编码主题模型训练方法的第二种流程示意图。
24.图3为本技术一实施例中的联邦变分自编码主题模型训练方法的第三种流程示意图。
25.图4为本技术另一实施例中的文本主题预测方法的流程示意图。
26.图5为本技术一实施例中的联邦变分自编码主题模型训练装置的结构示意图。
27.图6为本技术另一实施例中的文本主题预测装置的结构示意图。
28.图7为本技术应用实例提供的联邦变分自编码主题模型的训练过程举例示意图。
具体实施方式
29.为使本技术的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本技术做进一步详细说明。在此,本技术的示意性实施方式及其说明用于解释本技术,但并不作为对本技术的限定。
30.在此,还需要说明的是,为了避免因不必要的细节而模糊了本技术,在附图中仅仅示出了与根据本技术的方案密切相关的结构和/或处理步骤,而省略了与本技术关系不大的其他细节。
31.应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
32.在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。
33.在下文中,将参考附图描述本技术的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
34.主题模型是一种广泛应用于许多领域的数据分析方法,其中包括科技创新(science,technology,and innovation,sti)文档分析。例如,上下文主题模型(contextualized topic models,ctms )是在avitm的基础上构建的,通过上下文嵌入来整合先验知识。sti文档分析领域中,主题模型已被广泛应用于比较不同机构资助项目的主题,揭示特定区域或组织的研究优势等问题。然而,在构建一个共享的主题模型以进行多个文档集合之间的比较时,面临着一些挑战,因为这需要满足隐私约束条件。这种限制在sti分析领域中经常遇到,因为资助机构可能因为机密性或《通用数据保护条例》等规定的个人隐私而不愿或不允许共享其文档集合。
35.基于此,需要在满足隐私约束的同时获得高质量的主题模型,以有效提高在对文本数据进行主题预测的精度和可靠性。本技术的设计人员首先想到采用联邦学习来解决训练用文本数据的来源隐私约束的问题,联邦学习(federated learning, fl)是一种分布式框架,根据该框架有一个或多个中心服务器协调,充当设置协议、隐私保证和节点更新聚合的中介,然后在一组设备上充当客户端训练模型,在训练全局模型的同时保证数据在本地的隐私性。由于fl具有去 究专注于设计类似lda或基于非负矩阵分解(nonnegativematrix factorization, nmf)的联邦框架,而另一些研究则选择提出联邦通用主题模型。也就是说,联邦学习是一种分布式框架,根据该框架在一组设备上训练模型,同时保持数据本地化。因此可以考虑采用主题模型(federated topic modeling, ftm),一个基于梅特罗波利
斯-黑斯廷斯算法的框架,用于lda主题模型的集体训练;还有学者提出了另一种联邦主题模型私人和一致的主题发现(private andconsistent topic discovery, pc
ꢀ‑ꢀ
td),但采用了基于嵌入空间的联邦推理框架。最近,还有学者提出了基于nmf的主题建模框架fed nmf。尽管之前的算法通过将其传统的推理过程与安全聚合协议相结合来定制比特姆主题模型方法,但在使用ntm作为支持技术的联邦环境中构建主题模型的工作还很少。
36.然而,在联邦算法的实现中,在每一个全局模型训练轮次中,每一个参与方都需要给服务器发送完整的模型参数更新。由于现代的深度神经网络(deep neural networks, dnn)模型通常有数百万个参数,向服务器发送如此多的数值将会导致巨大的通信开销,并且这样的通信开销会随着客户端数量和迭代轮次的增加而增加。当存在大量客户端时,从客户端上传模型参数至服务器将成为强化联邦学习的瓶颈。并且联邦模型的应用场景下的节点往往是各种手机等终端设备,存在计算量有限的问题,难以部署较为复杂的模型。换句话说,在联邦算法的实现中,在每一个全局模型训练轮次中,每一个参与方都需要给服务器发送完整的模型参数更新,这会造成巨大的通信开销,导致模型的训练时间急剧增加。并且联邦模型的应用场景下的节点往往是各种手机等终端设备,存在计算量有限的问题,难以部署较为复杂的模型。
37.因此,在采用联邦学习来解决如何在满足隐私约束的同时保证变分自动编码主题模型的预测精度是亟需解决的问题的基础上,还需要解决联邦学习带来了的巨大的通信开销和计算资源开销的问题。
38.因此,本技术实施例分别提供一种联邦变分自编码主题模型训练方法、文本主题预测方法、用于实现联邦变分自编码主题模型训练方法的联邦变分自编码主题模型训练装置及实体设备(如服务器等)、用于实现文本主题预测方法的文本主题预测装置及实体设备(如客户端设备等)以及联邦学习系统等,目的是训练一个联邦变分自编码主题模型进行主题和文档的交叉比较,以预测文档的主题类型。在联邦学习过程中,不需要客户端彼此共享或与服务器共享本地语料,这样的全局模型增加了每个客户端从各自对应的语料库中学习到的非协作主题模型的知识增益,同时通过使用模型剪枝技术,保证联邦变分自编码主题模型可以更快的收敛,保证联邦变分自编码主题模型的质效均衡。
39.在本技术的一个或多个实施例中,联邦变分自编码主题模型是一种联邦主题模型,在联邦学习场景下,多个客户端在保证数据本地化和数据隐私的前提下,共同训练一个主题模型,达到与在数据集中情况下训练主题模型类似的效果。
40.在本技术的一个或多个实施例中,变分自编码主题模型(autoencoding variational inference for topic models,avitm)是基于变分自编码机的主题模型,也是一个神经主题模型,它用变分自编码机代替lda中的狄利克雷分布对文档和主题分布进行建模,用于捕捉更复杂的文档与主题之间的分布关系。变分自编码机是一个使用自动编码机和变分推理技术的生成模型,它能学习复杂高维数据的潜在结构。
41.在本技术的一个或多个实施例中,模型剪枝是一种通过移除神经网络中不必要或者冗余的神经元结构来减小神经元规模的深度学习技术。它的目标是在保持模型精度的同时加速模型训练,降低模型大小和推断时间。
42.具体通过下述实施例进行详细说明。
43.本技术实施例提供一种可由联邦变分自编码主题模型训练装置实现的联邦变分
自编码主题模型训练方法,参见图1,所述联邦变分自编码主题模型训练方法具体包含有如下内容:步骤100:在当前的剪枝训练轮次中,接收联邦学习系统中的各个节点各自采用本地的文本训练数据训练得到的局部变分自编码主题模型的模型参数和神经元累计梯度,并对各个所述局部变分自编码主题模型的模型参数进行聚类以生成当前的目标变分自编码主题模型。
44.在步骤100中,剪枝训练轮次是整个联邦变分自编码主题模型中的预设训练次数中的各个训练轮次的类型之一,可以理解的是,各个训练轮次还可以划分有非剪枝训练轮次,也即是说,为了进一步提高联邦变分自编码主题模型训练效率,并不需要在每一轮训练过程中都对模型的神经元进行剪枝处理。
45.在本技术的一个或多个实施例中,所述模型参数中可以至少包含有模型的权重,所述神经元累计梯度是指该局部变分自编码主题模型中的各个神经元各自依次在每一训练轮次中的梯度的累计加和值。
46.可以理解的是,局部变分自编码主题模型是指由联邦学习系统中的各个节点分别用各自本地文本训练数据训练得到的变分自编码主题模型,目标变分自编码主题模型是指在剪枝训练轮次中待进行神经元剪枝的聚合后的变分自编码主题模型,全局变分自编码主题模型是指在剪枝训练轮次中剪枝后的变分自编码主题模型,全局变分自编码主题模型还指在非剪枝训练轮次中由各个局部变分自编码主题模型聚合后得到的变分自编码主题模型。其中,节点可以采用客户端设备实现。
47.在本技术的一个或多个实施例中,全局模型即为全局变分自编码主题模型的简称,而局部模型即为局部变分自编码主题模型的简称。
48.步骤200:基于各个所述局部变分自编码主题模型的神经元累计梯度对所述目标变分自编码主题模型进行神经元剪枝处理,得到当前的全局变分自编码主题模型。
49.在步骤200中,在服务器接收到客户端(即在两轮迭代之间的边界处)的模型参数更新后进行对目标变分自编码主题模型进行剪枝,此时剪枝间隔可以始终为每轮迭代次数的整数倍。
50.步骤300:若所述全局变分自编码主题模型当前已收敛或当前的剪枝训练轮次为预设训练次数中的最后一次,则将该全局变分自编码主题模型作为用于根据输入的文本数据对应输出该文本数据所属主题类型的联邦变分自编码主题模型。
51.在步骤300中,可以直到网络中权重的相对变化不再进行,或者直到达到预定义的迭代次数后,停止迭代。
52.从上述描述可知,本技术实施例提供的联邦变分自编码主题模型训练方法,通过采用联邦学习系统分别对变分自编码主题模型进行训练,能够采用多方协作的方式,在保护本地数据隐私的前提下共同训练变分自编码主题模型,使变分自编码主题模型能够获得更为全面的数据信息,能够在满足隐私约束的同时训练得到高质量的主题模型,进而能够提高主题模型预测文本数据所属的主题类型的预测精度及可靠性。利用模型剪枝技术,能够有效克服联邦学习的通信瓶颈和计算瓶颈,能够有效减少联邦学习过程中的网络上的通信开销以及客户端本地训练所占用的计算资源,进而能够有效提高联邦变分自编码主题模型的训练效率。
53.为了在降低通信开销的基础上,有效提高剪枝的可靠性及智能化程度,在本技术实施例提供的一种联邦变分自编码主题模型训练方法中,参见图2,所述联邦变分自编码主题模型训练方法中的步骤200具体包含有如下内容:步骤210:根据当前的剪枝训练轮次对应的单次剪枝率,其中,所述单次剪枝率小于或等于预设的针对联邦变分自编码主题模型的目标剪枝率。
54.具体来说,在剪枝中较常用的剪枝方法是震级剪枝,即通过神经元的权重绝对值大小来对神经元进行剪枝,神经元的权重越小代表这个神经元在组成模型的时候越没有显著的贡献。但考虑到一些神经元虽然初始权重很小,但在训练过程中可能会起到重要作用,且考虑到模训练后期模型较为稳定,因此需要适应性降低剪枝率。
55.步骤220:以当前的剪枝训练轮次对应的单次剪枝率对所述目标变分自编码主题模型进行神经元剪枝处理以得到对应的剪枝后的目标变分自编码主题模型。
56.步骤230:在被剪枝的神经元中查找是否包含有神经元累计梯度大于梯度阈值的神经元,若是,则在所述目标变分自编码主题模型中恢复该神经元累计梯度大于梯度阈值的神经元,以生成对应的全局变分自编码主题模型。
57.可以理解的是,所述梯度阈值可以根据实际应用情形进行设置,在步骤230中,若未在被剪枝的神经元中查找到包含有神经元累计梯度大于梯度阈值的神经元,则直接将剪枝后的目标变分自编码主题模型的作为当前的全局变分自编码主题模型。
58.为了提高剪枝的有效性及可靠性,进而进一步降低通信开销,在本技术实施例提供的一种联邦变分自编码主题模型训练方法中,参见图2,所述联邦变分自编码主题模型训练方法中的步骤200之前还具体包含有如下内容:步骤010:接收针对联邦变分自编码主题模型的目标剪枝率以及预设的渐进式剪枝策略;步骤020:根据所述目标剪枝率以及所述渐进式剪枝策略分别设置预设训练次数中的各个剪枝训练轮次各自对应的单次剪枝率。
59.具体来说,联邦变分自编码主题模型训练装置(如服务器)预先根据用户录入的针对联邦变分自编码主题模型的目标剪枝率以及预设的渐进式剪枝策略来设置预设训练次数中的各个剪枝训练轮次各自对应的单次剪枝率,能够有效提高后续对目标变分自编码主题模型进行神经元剪枝处理的效率及便捷性。
60.为了在降低通信开销的基础上提高模型训练及预测精度,在本技术实施例提供的一种联邦变分自编码主题模型训练方法中,所述渐进式剪枝策略包括:平均剪枝策略,参见图3,所述联邦变分自编码主题模型训练方法中的步骤020具体包含有如下内容:步骤021:基于所述平均剪枝策略,以相同的差值将所述目标剪枝率划分为百分比依次递增的各个单次剪枝率,且依次递增的各个所述单次剪枝率与依次执行的各个剪枝训练轮次之间一一对应。
61.具体来说,为了在剪枝的同时保留训练过程中尽可能多的信息,将目标剪枝率平均分配到整个训练过程。如设定目标剪枝率为50%,则在模型训练过程达到一半时,达到25%的目标剪枝率。在模型训练完成的时候达到最终的50%的目标剪枝率。这种剪枝方式对于模型训练过程的加速有限,但是可以保证剪枝后的模型达到更高的精度。在模型预测过程中可以大幅减少模型预测时间。
62.为了提高训练效率并进一步降低通信开销,在本技术实施例提供的一种联邦变分自编码主题模型训练方法中,所述渐进式剪枝策略包括:快速剪枝策略,参见图3,所述联邦变分自编码主题模型训练方法中的步骤020还可以具体包含有如下内容:步骤022:基于所述快速剪枝策略,以依次递减的各个差值将所述目标剪枝率划分为百分比依次递增的各个单次剪枝率,且依次递增的各个所述单次剪枝率与依次执行的各个剪枝训练轮次之间一一对应。
63.具体来说,为了加快模型训练速度,在模型训练初期就快速达到目标剪枝率,然后在达到目标剪枝率之后以较小的模型规模继续训练模型。这种方式可能丢失更多的有用信息,但是可以更快的完成模型的训练。这种剪枝方式可以大幅减少模型的训练时间,但是在剪枝过程中可能丢失过多的有用信息,模型最终的精度可能会受到影响。
64.为了进一步降低通信开销,并进一步提高联邦学习过程的有效性及可靠性,在本技术实施例提供的一种联邦变分自编码主题模型训练方法中,参见图3,所述联邦变分自编码主题模型训练方法中的步骤100之前还可以具体包含有如下内容:步骤030:根据预设的剪枝轮次间隔,将预设训练次数中的各个训练轮次分别划分为剪枝训练轮次和非剪枝训练轮次,并将对应的划分结果分别发送至各个所述节点进行存储,以使各个所述节点在非剪枝训练轮次中仅发生各自训练得到的局部变分自编码主题模型的模型参数。
65.具体来说,联邦变分自编码主题模型训练装置(如服务器)预先将剪枝训练轮次和非剪枝训练轮次分别发送至各个所述节点进行存储,进而能够有效提高各个节点确定每次发送何种数据的便捷性。
66.相对应的,在所述联邦变分自编码主题模型训练方法中的步骤300之前还具体包含有如下内容:步骤110:在当前的非剪枝训练轮次中,接收联邦学习系统中的各个节点各自采用本地的文本训练数据训练得到的局部变分自编码主题模型的模型参数,并对各个所述局部变分自编码主题模型的模型参数进行聚类以得到当前的全局变分自编码主题模型。
67.为了进一步提高联邦学习过的有效性及可靠性,在本技术实施例提供的一种联邦变分自编码主题模型训练方法中,参见图3,所述联邦变分自编码主题模型训练方法中的步骤100之前还可以具体包含有如下内容:步骤040:接收联邦学习系统中的各个节点分别发送的词汇集合,其中,每个所述节点预先对本地的语料库进行预处理以得到各自对应的词汇集合;步骤050:对各个词汇集合进行聚合处理以形成对应的全局词汇库;步骤060:将所述全局词汇库和全局变分自编码主题模型的初始权重分别发送至各个所述节点,以使各个所述节点根据所述全局词汇库和全局变分自编码主题模型的初始权重对本地的局部变分自编码主题模型进行初始化处理,而后基于在本地词汇集合中获取的文本训练数据对已初始化的局部变分自编码主题模型进行训练,得到局部变分自编码主题模型的模型参数和神经元累计梯度,若经判定当前的训练轮次为剪枝训练轮次,则发出本地的局部变分自编码主题模型的模型参数和神经元累计梯度。
68.相对应的,在所述联邦变分自编码主题模型训练方法中的步骤110或步骤200之后还可以具体包含有如下内容:
步骤310:若所述全局变分自编码主题模型当前未收敛或当前的剪枝训练轮次不为预设训练次数中的最后一次,则将该全局变分自编码主题模型的模型参数分别发送至各个所述节点,以使各个所述节点基于接收到的模型参数针对各自对应的局部变分自编码主题模型执行下一个所述训练轮次的模型训练。
69.基于前述的联邦变分自编码主题模型训练方法的实施例,本技术还提供一种可由文本主题预测装置执行的文本主题预测方法,参见图4,所述文本主题预测方法具体包含有如下内容:步骤400:接收文本数据;步骤500:将所述文本数据输入预设的联邦变分自编码主题模型,以使该联邦变分自编码主题模型输出所述文本数据对应的主题类型,其中,所述联邦变分自编码主题模型预先基于所述的联邦变分自编码主题模型训练方法训练得到。
70.从上述描述可知,本技术实施例提供的文本主题预测方法,能够在满足隐私约束的同时训练得到高质量的主题模型,进而能够提高主题模型预测文本数据所属的主题类型的预测精度及可靠性。
71.从软件层面来说,本技术还提供一种用于执行所述联邦变分自编码主题模型训练方法中全部或部分内的联邦变分自编码主题模型训练装置,参见图5,所述联邦变分自编码主题模型训练装置具体包含有如下内容:联邦学习模块10,用于在当前的剪枝训练轮次中,接收联邦学习系统中的各个节点各自采用本地的文本训练数据训练得到的局部变分自编码主题模型的模型参数和神经元累计梯度,并对各个所述局部变分自编码主题模型的模型参数进行聚类以生成当前的目标变分自编码主题模型。
72.模型剪枝模块20,用于基于各个所述局部变分自编码主题模型的神经元累计梯度对所述目标变分自编码主题模型进行神经元剪枝处理,得到当前的全局变分自编码主题模型。
73.模型生成模块30,用于若所述全局变分自编码主题模型当前已收敛或当前的剪枝训练轮次为预设训练次数中的最后一次,则将该全局变分自编码主题模型作为用于根据输入的文本数据对应输出该文本数据所属主题类型的联邦变分自编码主题模型。
74.本技术提供的联邦变分自编码主题模型训练装置的实施例具体可以用于执行上述实施例中的联邦变分自编码主题模型训练方法的实施例的处理流程,其功能在此不再赘述,可以参照上述联邦变分自编码主题模型训练方法实施例的详细描述。
75.所述联邦变分自编码主题模型训练装置进行联邦变分自编码主题模型训练的部分可以在服务器中执行,也可以在客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本技术对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器,用于联邦变分自编码主题模型训练的具体处理。
76.上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个
服务器组成的服务器集群,或者分布式装置的服务器结构。
77.上述服务器与所述客户端设备端之间可以使用任何合适的网络协议进行通信,包括在本技术提交日尚未开发出的网络协议。所述网络协议例如可以包括tcp/ip协议、udp/ip协议、http协议、https协议等。当然,所述网络协议例如还可以包括在上述协议之上使用的rpc协议(remote procedure call protocol,远程过程调用协议)、rest协议(representational state transfer,表述性状态转移协议)等。
78.从上述描述可知,本技术实施例提供的联邦变分自编码主题模型训练装置,通过采用联邦学习系统分别对变分自编码主题模型进行训练,能够采用多方协作的方式,在保护本地数据隐私的前提下共同训练变分自编码主题模型,使变分自编码主题模型能够获得更为全面的数据信息,能够在满足隐私约束的同时训练得到高质量的主题模型,进而能够提高主题模型预测文本数据所属的主题类型的预测精度及可靠性。利用模型剪枝技术,能够有效克服联邦学习的通信瓶颈和计算瓶颈,能够有效减少联邦学习过程中的网络上的通信开销以及客户端本地训练所占用的计算资源,进而能够有效提高联邦变分自编码主题模型的训练效率。
79.从软件层面来说,本技术还提供一种用于执行所述文本主题预测方法中全部或部分内的文本主题预测装置,参见图6,所述文本主题预测装置具体包含有如下内容:数据接收模块40,用于接收文本数据;模型预测模块50,用于将所述文本数据输入预设的联邦变分自编码主题模型,以使该联邦变分自编码主题模型输出所述文本数据对应的主题类型,其中,所述联邦变分自编码主题模型预先基于所述的联邦变分自编码主题模型训练方法训练得到。
80.本技术提供的文本主题预测装置的实施例具体可以用于执行上述实施例中的文本主题预测方法的实施例的处理流程,其功能在此不再赘述,可以参照上述文本主题预测方法实施例的详细描述。
81.所述文本主题预测装置进行文本主题预测的部分可以在客户端设备中完成。
82.基于前述联邦变分自编码主题模型训练装置和文本主题预测装置的实施例,本技术还提供一种联邦学习系统的实施例,所述联邦学习系统具体包含有如下内容:服务器和分别与所述服务器之间通信连接的各个客户端设备;所述服务器用于执行所述联邦变分自编码主题模型训练方法,各个所述客户端设备分别用于作为各个所述节点。
83.所述服务器和所述客户端设备还可以执行本技术的第二个方面提供的文本主题预测方法。
84.为了进一步说明本方案,本技术还提供一种采用联邦学习系统执行联邦变分自编码主题模型训练方法的具体应用实例,主题建模已成为处理大量文档集合的有效技术,用于发现其中的潜在主题和模式。然而,涉及多方数据的交叉分析时,保护数据隐私成为一个重要问题。为此,联邦主题建模应运而生,它允许多方在不泄露私有数据的情况下共同训练主题模型。在每一个全局模型训练轮次中,每一个参与方都需要给服务器发送完整的模型参数更新,这会造成巨大的通信开销,导致模型的训练时间急剧增加。并且联邦模型的应用场景下的节点往往是各种手机等终端设备,存在计算量有限的问题,难以部署较为复杂的模型。基于此,本技术应用实例主要分为三个步骤:数据预处理、联邦变分自编码主题模型
的联邦学习、联邦变分自编码主题模型的渐进式剪枝。
85.首先对文档数据进行预处理,主要保留名词这一些对于主题分辨能力较强的词语,并将数据集转化为词袋文档用于模型训练。然后由联邦学习系统中的各个客户端发送本地节点的词汇,联邦学习系统中的服务器等待接收到所有节点的词汇,然后将它们合并成一个公共的全局词汇库,用于初始化带有权重w
(0)
的全局模型。等所有客户端从服务器接收回公共的全局词汇库,用于初始化带有权重w
(0)
的全局模型后,进行联邦变分自编码主题模型的联邦训练过程。在联邦变分自编码主题模型的训练过程中,使用渐进式剪枝算法,隔一定轮数客户端会将神经网络结点的权重和累计梯度发送到服务器端,然后服务器会据此对联邦变分自编码主题模型进行剪枝操作。经过剪枝操作可以大大减少网络上的通信开销和客户端本地训练的运算开销,且设置模型剪枝率在联邦变分自编码主题模型训练后期足够小,保证联邦变分自编码主题模型可以更快的收敛,保证联邦变分自编码主题模型的质效均衡。
86.所述联邦变分自编码主题模型训练方法的应用实例具体包含有如下内容:一、预处理预处理工作共分为三步:如果训练使用的数据集是中文的,需要对其进行必要的文本预处理。即,各个客户端设备均需要对本地的语料库c(例如,客户端n2的语料库c2)进行清洗和分词之后才能继续进行后续的处理。
87.s1:数据清洗在预处理过程中,可以采取以下步骤对训练用的语料库进行清洗:(a)去掉停顿字;(b)剔除频次《20的词;(c)过滤掉网络地址url(uniform resource locator)、表情符号、井字标签(hashtag)和非中文字符;(d)删除长度小于10的段落。
88.注意,缩略语、首字母缩写和俚语仍然用于后面的主题建模。
89.s2:分词处理通过jieba分词工具可以自定义的创建停用词字典,根据训练数据集的特性添加停用词词典,使jieba分词工具在进行分词工作的时候帮助其识别在训练数据集场景所出现的词语。并使用词性标注功能,将形容词、副词等去除,主要保留名词这一些对于主题分辨能力较强的词语。jieba分词工具是python中文分词组件,是针对中文的自然语言处理的分词工具,其原理是利用一个中文词库(如前述的停用词词典),确定汉字之间的关联概率,并将汉字间概率大的组成词组以形成分词结果。
90.s3:数据转化最后,各个客户端设备均将各自得到的数据集进行词袋转化,以得到各自对应的词汇集合v
l
,其中,v
l
表示第l个客户端发送的词汇集合,l=1、2

l;l表示客户端的总数。
91.二、联邦变分自编码主题模型训练图7展示了本技术应用实例提出的联邦变分自编码主题模型的训练过程。
92.1、词汇共识阶段词汇共识阶段可以具体包含有下述步骤s4-s6:
s4:服务器等待接收所有客户端n
l
即图7中的客户端n1、客户端n2至客户端n
l
的词汇集合v
l
;s5:服务器将各个所述词汇集合v
l
聚合成一个公共集合,即全局词汇库v;s6:服务器将全局词汇库v和全局联邦变分自编码主题模型的初始权重w
(0)
分发给各个所述客户端设备,以使各个所述客户端设备后续根据该全局词汇库v初始化全局联邦变分自编码主题模型。
93.2、联邦平均阶段联邦平均阶段可以具体包含有下述步骤s7-s12:s7:所有客户端设备均从服务器接收全局词汇库v和初始权重w
(0)
,并采用全局词汇库v分别初始化各自本地的带有初始权重w
(0)
的全局联邦变分自编码主题模型。
94.s8:在每个客户端设备上,客户端设备使用本地的小批量语料库数据(即本地的语料库c中的部分或全部数据)对所述全局联邦变分自编码主题模型进行一定次数的训练,分别得到各个所述客户端设备各自训练得到的局部联邦变分自编码主题模型及本轮训练对应的模型参数;例如第一轮训练对应的模型参数w
l(1)
,包括:客户端设备n1的第一轮训练对应的模型参数w
1(1)
、客户端设备n2的第一轮训练对应的模型参数w
2(1)
和客户端设备n
l
的第一轮训练对应的模型参数w
l(1)
;第二轮训练对应模型参数w
l(2)
,包括:客户端设备n1的第二轮训练对应的模型参数w
1(2)
、客户端设备n2的第二轮训练对应的模型参数w
2(2)
和客户端设备n
l
的第二轮训练对应的模型参数w
l(2)
等。
95.s9:各个所述客户端设备分别将训练得到的局部联邦变分自编码主题模型及第一轮训练对应的模型参数w
l(1)
上传到服务器。
96.s10:服务器等待所有客户端发送其本地训练的局部联邦变分自编码主题模型,并对各个所述局部联邦变分自编码主题模型进行聚合得到第一轮训练对应的全局联邦变分自编码主题模型的新的全局模型参数,例如第一轮训练对应的全局模型参数w
(1)
、第二轮训练对应的全局模型参数w
(2)
等。
97.s11:服务器将该全局主题模型更新后的本轮训练对应的全局模型参数发送给所有客户端。
98.s12:所有客户端设备均从服务器接收本轮训练对应的模型参数,而返回重复执行步骤 s8至步骤s10,直到网络中权重的相对变化不再进行,或者直到达到预定义的迭代次数后,停止迭代。
99.上述训练过程举例可以参见表1所示的算法1。算法1显示了服务器和客户端节点的运行情况。在算法描述中,agg(

)表示聚集函数,它有多个聚集选项。其中,最常见的是联邦平均,即将每个客户端的模型参数进行求和平均得到全局主题模型。
100.表1
101.三、联邦变分自编码主题模型的渐进式剪枝在联邦变分自编码主题模型算法的实现中,在每一个全局模型训练轮次中,每一个参与方都需要给服务器发送完整的模型参数更新。由于现代的神经网络模型通常有数百万个参数,给协调方发送如此多的数值将会导致巨大的通信开销,并且这样的通信开销会随着参与方数量和迭代轮次的增加而增加。通信开销成为了联邦学习模型训练速度的主要瓶颈。除了通信瓶颈之外,在联邦学习的应用场景中,客户端设备往往是一些边缘计算设备(如手机),它们的计算和通信资源更为有限,难以用庞大模型进行推断。
102.基于此,本技术应用实例使用一种新的渐进式剪枝技术。在联邦主题模型训练过程中,每隔一定轮数客户端会将神经网络结点的权重和累计梯度发送到服务器端,然后服务器会据此对神经主题模型进行剪枝操作。
103.本技术应用实例通过模型剪枝操作可以有效压缩联邦变分自编码主题模型的参数数量,有效的减少通信和计算负担,加快模型的训练速度。
104.渐进式剪枝的具体说明如下:定义:令k表示迭代总次数,gn(w(k))表示全局模型在目标模型参数w(k)处的随机梯度,在客户n上的全参数空间上计算。此外,令mw(k)表示一个掩码向量,如果w(k)未被剪枝,则该向量为1, 符号“*”表示元素之间的积。客户n可以指代前述的客户端n
l
,l=1、2

l。
105.在上述步骤s7至步骤s12的联邦训练期间,本技术应用实例采用的渐进式剪枝过程可以与标准的联邦学习(fedavg)过程一起执行以进一步实现自适应剪枝,在服务器接收到客户端(即在两轮迭代之间的边界处)的参数更新后进行对模型进行剪枝,此时剪枝间隔始终为每轮迭代次数的整数倍。
106.在每个剪枝过程中,渐进式剪枝找到一组最优的剩余模型参数。然后,对参数进行相应的剪枝或添加回来,使用得到的模型和掩码进行训练,直到下一个剪枝过程。
107.在剪枝中较常用的剪枝方法是震级剪枝,即通过神经元的权重绝对值大小来对神经元进行剪枝,神经元的权重越小代表这个神经元在组成模型的时候越没有显著的贡献。但考虑到一些神经元虽然初始权重很小,但在训练过程中可能会起到重要作用,且考虑到模训练后期模型较为稳定,因此需要适应性降低剪枝率。
108.基于此,本技术应用实例的剪枝策略是在客户端本地训练时累计记录神经元的累计梯度,且n=1、2

l,(例如客户端n2的梯度表示为z2),累积梯度值较大表示该神经元在未来更可能起作用。
109.具体剪枝流程如图7所示,具体包含有如下内容:s13:在剪枝轮客户端将包含有最新轮训练对应的模型参数和神经元的累计梯度zn一起发送到服务器,例如,客户端n1发送包含有第二轮训练对应的模型参数w
1(2)
和神经元的累计梯度z1,客户端n2发送包含有第二轮训练对应的模型参数w
2(2)
和神经元的累计梯度z2,客户端n
l
发送包含有第二轮训练对应的模型参数w
l(2)
和神经元的累计梯度z3。
110.s14:服务器使用联邦平均算法先将接收自各个客户端的模型参数和梯度进行平均,得到未剪枝的全局模型和各神经元的平均梯度。
111.s15:服务器根据全局模型各神经元的权重对全局模型的神经元进行剪枝,使用mw(k)将相应位置赋值为0,然后再根据被剪枝的神经元的累积梯度,将累积梯度较大的神经元再恢复到模型当中,即将mw(k)相应位置赋值为1。
112.待模型剪枝过程完成之后,将全局模型进行w(k)* mw(k)的运算,例如对真正的实现剪枝操作,随后将模型转化为稀疏矩阵储存,再将转变后的稀疏矩阵作为新的全局模型的模型参数发送到各客户端进行新一轮的联邦学习。例如,全局模型的第二轮训练对应的全局模型参数w
(2)
经剪枝后,得到将转变后的稀疏矩阵作为新的全局模型的模型参数。
113.四、目标剪枝率在上述内容的基础上,由于在渐进式剪枝算法中是多次剪枝到达最终的目标剪枝率。那么为了达到目标剪枝率,本技术应用实例还可以采用两种方式来设定每一次剪枝的目标剪枝率来达到最终的目标剪枝率。
114.1、目标剪枝率的第一种设定为了在剪枝的同时保留训练过程中尽可能多的信息,将目标剪枝率平均分配到整个训练过程。如设定目标剪枝率为50%,则在模型训练过程达到一半时,达到25%的目标剪枝率。在模型训练完成的时候达到最终的50%的目标剪枝率,本技术应用实例将使用这一种剪枝策略的联邦变分自编码机主题模型可以叫做prune-fedavitm。这种剪枝方式对于模型训练过程的加速有限,但是可以保证剪枝后的模型达到更高的精度。在模型推理过程中可以大幅减少模型推理时间。
115.2、目标剪枝率的第二种设定为了加快模型训练速度,在模型训练初期就快速达到目标剪枝率,然后在达到目标剪枝率之后以较小的模型规模继续训练模型。这种方式可能丢失更多的有用信息,但是可以更快的完成模型的训练。
116.本技术应用实例将这一种剪枝策略的联邦变分自编码机主题模型叫做fastprune-fedavitm。这种剪枝方式可以大幅减少模型的训练时间,但是在剪枝过程中可能丢失过多的有用信息,模型最终的精度可能会受到影响。
117.两种方式只是每次剪枝的目标剪枝率不同,具体的剪枝过程举例均可以参见表2所示的算法2。
118.表2
119.综上所述,本技术应用实例提供的联邦变分自编码主题模型训练方法,具有如下有益效果:1)通过提供一种应用模型剪枝的联邦学习主题模型方式,采用多方协作的方式,在保护本地数据隐私的前提下共同训练主题模型,使模型可以获得更全面的数据信息。并且利用模型剪枝技术,有效克服了联邦学习通信瓶颈和计算瓶颈。
120.2)本技术应用实例使用了一种新的渐进式剪枝技术。在联邦主题模型训练过程中,每隔一定轮数客户端会将神经网络结点的权重(即模型参数)和累计梯度发送到服务器端,然后服务器会据此对神经主题模型进行剪枝操作。经过剪枝操作可以大大减少网络上
的通信开销、客户端本地训练的运算开销。在模型训练完成之后,经过剪枝的联邦主题模型可以大幅加快模型推理技术;3)为了应对不同的需求提出两种不同的确定模型剪枝率的方法,第一种方法是在整个模型训练过程中缓慢进行剪枝,这种方式对于模型训练过程的加速有限,但是可以保证剪枝后的模型达到更高的精度。在模型推理过程中可以大幅减少模型推理时间。第二种策略是为了加快模型训练速度,在模型训练初期就快速达到目标剪枝率,然后在达到目标剪枝率之后以较小的模型规模继续训练模型。这种方式可能丢失更多的有用信息,但是可以更快的完成模型的训练。
121.本技术实施例还提供了一种电子设备,该电子设备可以包括处理器、存储器、接收器及发送器,处理器用于执行上述实施例提及的联邦变分自编码主题模型训练和/或文本主题预测方法,其中处理器和存储器可以通过总线或者其他方式连接,以通过总线连接为例。该接收器可通过有线或无线方式与处理器、存储器连接。
122.处理器可以为中央处理器(central processing unit,cpu)。处理器还可以为其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmablegate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
123.存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本技术实施例中的联邦变分自编码主题模型训练和/或文本主题预测方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的联邦变分自编码主题模型训练和/或文本主题预测方法。
124.存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
125.所述一个或者多个模块存储在所述存储器中,当被所述处理器执行时,执行实施例中的联邦变分自编码主题模型训练和/或文本主题预测方法。
126.在本技术的一些实施例中,用户设备可以包括处理器、存储器和收发单元,该收发单元可包括接收器和发送器,处理器、存储器、接收器和发送器可通过总线系统连接,存储器用于存储计算机指令,处理器用于执行存储器中存储的计算机指令,以控制收发单元收发信号。
127.作为一种实现方式,本技术中接收器和发送器的功能可以考虑通过收发电路或者收发的专用芯片来实现,处理器可以考虑通过专用处理芯片、处理电路或通用芯片实现。
128.作为另一种实现方式,可以考虑使用通用计算机的方式来实现本技术实施例提供的服务器。即将实现处理器,接收器和发送器功能的程序代码存储在存储器中,通用处理器通过执行存储器中的代码来实现处理器,接收器和发送器的功能。
129.本技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述联邦变分自编码主题模型训练和/或文本主题预测方法的步骤。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、软盘、硬盘、可移动存储盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质。
130.本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(asic)、适当的固件、插件、功能卡等等。当以软件方式实现时,本技术的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
131.需要明确的是,本技术并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本技术的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本技术的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
132.本技术中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征以上所述仅为本技术的优选实施例,并不用于限制本技术,对于本领域的技术人员来说,本技术实施例可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。

技术特征:
1.一种联邦变分自编码主题模型训练方法,其特征在于,包括:在当前的剪枝训练轮次中,接收联邦学习系统中的各个节点各自采用本地的文本训练数据训练得到的局部变分自编码主题模型的模型参数和神经元累计梯度,并对各个所述局部变分自编码主题模型的模型参数进行聚类以生成当前的目标变分自编码主题模型;基于各个所述局部变分自编码主题模型的神经元累计梯度对所述目标变分自编码主题模型进行神经元剪枝处理,得到当前的全局变分自编码主题模型;若所述全局变分自编码主题模型当前已收敛或当前的剪枝训练轮次为预设训练次数中的最后一次,则将该全局变分自编码主题模型作为用于根据输入的文本数据对应输出该文本数据所属主题类型的联邦变分自编码主题模型。2.根据权利要求1所述的联邦变分自编码主题模型训练方法,其特征在于,所述基于各个所述局部变分自编码主题模型的神经元累计梯度对所述目标变分自编码主题模型进行神经元剪枝处理,得到当前的全局变分自编码主题模型,包括:根据当前的剪枝训练轮次对应的单次剪枝率,其中,所述单次剪枝率小于或等于预设的针对联邦变分自编码主题模型的目标剪枝率;以当前的剪枝训练轮次对应的单次剪枝率对所述目标变分自编码主题模型进行神经元剪枝处理以得到对应的剪枝后的目标变分自编码主题模型;在被剪枝的神经元中查找是否包含有神经元累计梯度大于梯度阈值的神经元,若是,则在所述目标变分自编码主题模型中恢复该神经元累计梯度大于梯度阈值的神经元,以生成对应的全局变分自编码主题模型。3.根据权利要求2所述的联邦变分自编码主题模型训练方法,其特征在于,在所述基于各个所述局部变分自编码主题模型的神经元累计梯度对所述目标变分自编码主题模型进行神经元剪枝处理之前,还包括:接收针对联邦变分自编码主题模型的目标剪枝率以及预设的渐进式剪枝策略;根据所述目标剪枝率以及所述渐进式剪枝策略分别设置预设训练次数中的各个剪枝训练轮次各自对应的单次剪枝率。4.根据权利要求3所述的联邦变分自编码主题模型训练方法,其特征在于,所述渐进式剪枝策略包括:平均剪枝策略;相对应的,所述根据所述目标剪枝率以及所述渐进式剪枝策略分别设置预设训练次数中的各个剪枝训练轮次各自对应的单次剪枝率,包括:基于所述平均剪枝策略,以相同的差值将所述目标剪枝率划分为百分比依次递增的各个单次剪枝率,且依次递增的各个所述单次剪枝率与依次执行的各个剪枝训练轮次之间一一对应。5.根据权利要求3所述的联邦变分自编码主题模型训练方法,其特征在于,所述渐进式剪枝策略包括:快速剪枝策略;相对应的,所述根据所述目标剪枝率以及所述渐进式剪枝策略分别设置预设训练次数中的各个剪枝训练轮次各自对应的单次剪枝率,包括:基于所述快速剪枝策略,以依次递减的各个差值将所述目标剪枝率划分为百分比依次递增的各个单次剪枝率,且依次递增的各个所述单次剪枝率与依次执行的各个剪枝训练轮次之间一一对应。
6.根据权利要求1所述的联邦变分自编码主题模型训练方法,其特征在于,在所述接收联邦学习系统中的各个节点各自采用本地的文本训练数据训练得到的局部变分自编码主题模型的模型参数和神经元累计梯度之前,还包括:根据预设的剪枝轮次间隔,将预设训练次数中的各个训练轮次分别划分为剪枝训练轮次和非剪枝训练轮次,并将对应的划分结果分别发送至联邦学习系统中的各个节点进行存储,以使各个所述节点在非剪枝训练轮次中仅发生各自训练得到的局部变分自编码主题模型的模型参数;相对应的,所述联邦变分自编码主题模型训练方法还包括:在当前的非剪枝训练轮次中,接收各个所述节点各自采用本地的文本训练数据训练得到的局部变分自编码主题模型的模型参数,并对各个所述局部变分自编码主题模型的模型参数进行聚类以得到当前的全局变分自编码主题模型。7.根据权利要求6所述的联邦变分自编码主题模型训练方法,其特征在于,在所述接收联邦学习系统中的各个节点各自采用本地的文本训练数据训练得到的局部变分自编码主题模型的模型参数和神经元累计梯度之前,还包括:接收联邦学习系统中的各个节点分别发送的词汇集合,其中,每个所述节点预先对本地的语料库进行预处理以得到各自对应的词汇集合;对各个词汇集合进行聚合处理以形成对应的全局词汇库;将所述全局词汇库和全局变分自编码主题模型的初始权重分别发送至联邦学习系统中的各个节点,以使各个所述节点根据所述全局词汇库和全局变分自编码主题模型的初始权重对本地的局部变分自编码主题模型进行初始化处理,而后基于在本地词汇集合中获取的文本训练数据对已初始化的局部变分自编码主题模型进行训练,得到局部变分自编码主题模型的模型参数和神经元累计梯度,若经判定当前的训练轮次为剪枝训练轮次,则发出本地的局部变分自编码主题模型的模型参数和神经元累计梯度;相对应的,在所述得到当前的全局变分自编码主题模型之后,还包括:若所述全局变分自编码主题模型当前未收敛或当前的剪枝训练轮次不为预设训练次数中的最后一次,则将该全局变分自编码主题模型的模型参数分别发送至各个所述节点,以使各个所述节点基于接收到的模型参数针对各自对应的局部变分自编码主题模型执行下一个所述训练轮次的模型训练。8.一种文本主题预测方法,其特征在于,包括:接收文本数据;将所述文本数据输入预设的联邦变分自编码主题模型,以使该联邦变分自编码主题模型输出所述文本数据对应的主题类型,其中,所述联邦变分自编码主题模型预先基于权利要求1至7任一项所述的联邦变分自编码主题模型训练方法训练得到。9.一种联邦变分自编码主题模型训练装置,其特征在于,包括:联邦学习模块,用于在当前的剪枝训练轮次中,接收联邦学习系统中的各个节点各自采用本地的文本训练数据训练得到的局部变分自编码主题模型的模型参数和神经元累计梯度,并对各个所述局部变分自编码主题模型的模型参数进行聚类以生成当前的目标变分自编码主题模型;模型剪枝模块,用于基于各个所述局部变分自编码主题模型的神经元累计梯度对所述
目标变分自编码主题模型进行神经元剪枝处理,得到当前的全局变分自编码主题模型;模型生成模块,用于若所述全局变分自编码主题模型当前已收敛或当前的剪枝训练轮次为预设训练次数中的最后一次,则将该全局变分自编码主题模型作为用于根据输入的文本数据对应输出该文本数据所属主题类型的联邦变分自编码主题模型。10.一种电子设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的联邦变分自编码主题模型训练方法,或者,实现如权利要求8所述的文本主题预测方法。

技术总结
本申请提供联邦变分自编码主题模型训练方法、主题预测方法及装置,方法包括:在当前的剪枝训练轮次中,接收联邦学习系统中的各个节点各自采用本地的文本训练数据训练得到的局部变分自编码主题模型的模型参数和神经元累计梯度,并对各个局部变分自编码主题模型的模型参数进行聚类以生成目标变分自编码主题模型;基于各个局部变分自编码主题模型的神经元累计梯度对目标变分自编码主题模型进行神经元剪枝处理,得到当前的全局变分自编码主题模型。本申请能够在有效保护本地数据隐私的基础上,能够有效降低模型训练过程的通信和计算开销,能够有效提高采用训练得到的主题模型预测文本数据所属主题类型的预测精度及可靠性。文本数据所属主题类型的预测精度及可靠性。文本数据所属主题类型的预测精度及可靠性。


技术研发人员:李雅文 马成洁 梁美玉 薛哲
受保护的技术使用者:北京邮电大学
技术研发日:2023.07.07
技术公布日:2023/8/13
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐