基于知识蒸馏的轻量化网络的CSI反馈方法与流程

未命名 10-18 阅读:107 评论:0

基于知识蒸馏的轻量化网络的csi反馈方法
技术领域
1.本发明涉及csi反馈算法技术领域,具体为基于知识蒸馏的轻量化网络的csi反馈方法。


背景技术:

2.深度学习(deep learning)以其在数据总结和提取内在联系方面的卓越能力,在工业界和学术界都吸引了大量学者的研究目光。而随着深度学习的兴起,通信领域那些没有令人满意的经典信号处理算法甚至没有清晰的分析模型的问题也有了新的解决思路和方法。研究者们发现,深度学习技术不仅在图像分类上有杰出表现,而且在自然语言处理、图像压缩等方面也有突出的应用。因此,许多通信领域的研究者也开始尝试将深度学习技术应用在解决通信问题上,并取得了一系列优秀的成果。根据这些研究成果表明,与传统的解决方案相比,基于深度学习的通信算法可以更加有效地解决信道估计、信号检测和csi反馈压缩等问题。
3.现有技术中,基站和终端设备在硬件上的计算和存储能力限制了基于深度学习的csi反馈模型的发展。为了解决模型体量大和有限的硬件资源的矛盾,许多研究人员在手动设计轻量化网络模型和网络模型压缩这两个方面入手来解决问题。目标是尽量减少模型的复杂程度,同时保持模型的性能在一个较高的水平。
4.但是,手动设计轻量化网络模型耗时长并且依赖于专家经验,网络模型压缩需要特殊的训练策略来保证模型和数据的拟合度。


技术实现要素:

5.本发明的目的在于提供基于知识蒸馏的轻量化网络的csi反馈方法,以解决上述背景技术中提出的问题。
6.为实现上述目的,本发明提供如下技术方案:基于知识蒸馏的轻量化网络的csi反馈方法,所述csi反馈方法包括以下步骤:
7.s1.采用与cost 2100模型一样的设置仿真生成下行csi数据;
8.s2.进行数据清洗;
9.s3.数据清洗完毕后,将csi数据处理成模型可接受的输入,将csi数据处理成一个n
×2×
na×nt
的矩阵,n是样本的数量,2代表信道数据被分为了实部与虚部,na代表了原始数据中有效数据的行数,n
t
是基站的天线数;
10.s4.构造教师模型,教师模型选择使用crnet,crnet由编码器和解码器构成,编码器由若干个卷积层、一条残差连接和一个全连接层组成,解码器由一个全连接、一个卷积层、两个crblock和一个sigmoid组成;
11.s5.构造完教师模型后,对教师模型进行预训练,设置合适的学习率和批次大小,将教师模型训练至拟合状态;
12.s6.构造学生模型,学生模型的结构与教师模型基本一致,对crnet教师模型中所
有的全连接层进行二值化,得到学生模型bcrnet;
13.s7.将下行csi数据输入到学生模型中进行前向传播,得到csi的重建输出和解码器第一个全连接层的输出;
14.s8.将同样的下行csi数据输入到教师模型中得到解码器第一个全连接层的输出;
15.s9.计算回归损失函数和蒸馏损失函数并更新模型参数,计算学生模型的重建输出和真实值的mse损失值,计算学生模型的全连接层输出和教师模型的全连接层输出的蒸馏损失值。计算损失函数的梯度,根据梯度更新模型,重复步骤s7到步骤s9,直到学生模型收敛。
16.优选的,步骤s1中,包括以下步骤:
17.采用与cost 2100模型一样的设置来仿真生成下行csi数据,在模拟仿真时,考虑室内和室外两种场景,室内场景采用了了5.3ghz,室外场景采用300mhz,设置基站的天线数为32,fdd系统的子信道数量设置为1024。
18.优选的,步骤s2中,包括以下步骤:
19.进行数据清洗,若某条csi数据中有空缺值,则直接删掉条csi数据。
20.优选的,步骤s3中,包括以下步骤:
21.数据清洗完毕后,将csi数据处理成模型可接受的输入,通过离散傅里叶变化discrete fourier transform,dft将信道数据h从空间-频率域转化到角度-延迟域,h

=fchf
lh
,其中,h是空间-频率域的csi数据,fc是维度为nc×
nc的dft矩阵,f
th
是维度为n
t
×nt
的dft矩阵,h

是角度-延迟域的csi数据,由于h

的前na行包含了数值较大的有效数据,其余的数据基本为很微小甚至是0值,只取h

的前na行数据,得到了ha,ha是一个n
×2×
na×nt
的矩阵,n是样本的数量,2代表信道数据被分为了实部与虚部,na代表了原始数据中有效数据的行数,n
t
是基站的天线数。
22.优选的,步骤s4中,包括以下步骤:
23.编码器由一个3
×
3的卷积层、一个1
×
9的卷积层、一个9
×
1的卷积层、一个1
×
1的卷积层、一个残差连接和一个全连接层,每个卷积层后面会接一个批标准化层,残差连接中包含一个3
×
3的卷积层,解码器由一个全连接、一个5
×
5的卷积层、两个crblock和一个sigmoid组成,每个crblock由一个3
×
3的卷积层、一个1
×
9的卷积层、一个9
×
1的卷积层、一个1
×
1的卷积层和两个残差连接组成,一个残差连接将5
×
5的卷积层的输出直接与crblock的输出加和,另外一个残差连接包含了一个1
×
5的卷积层和一个5
×
1的卷积层。
24.优选的,步骤s5中,包括以下步骤:
25.设置批次大小为200,学习率采用线性热身的余弦退火策略,初始学习率为2e-3,最终学习率为5e-5,训练迭代次数为2500,前30次迭代为学习的线性热身阶段,2500次迭代后,教师模型训练至拟合状态。
26.优选的,步骤s6中,包括以下步骤:
27.全连接层包含的参数数量远高于卷积层,对全连接层进行压缩可以更有效地减少模型的存储空间开销,对crnet教师模型中所有的全连接层进行二值化得到学生模型bcrnet,经过二值化后,全连接中的参数均为同一数值,只是正负符号有所不同,所以只需要1比特来存储,二值化使得全连接层的存储空间开销缩小了32倍。
28.优选的,步骤s7中,包括以下步骤:
29.将下行csi数据输入到学生模型中进行前向传播,得到csi输入到模型中得到的重建输出:其中,是经过模型输出的重建的下行csi数据,h是下行csi数据,是学生模型的解码器,φs是学生模型的编码器,θ
φ
是编码器的参数,是解码器的参数;将下行csi数据输入到学生模型中进行前向传播,得到csi在解码器第一个全连接层的输出:其中,是经过模型输出的重建的下行csi数据,h是下行csi数据,是学生模型的解码器,fcs是学生模型的编码器中的第一个全连接层,θ
φ
是全连接层的参数,θ
fc
是全连接层的参数。
30.优选的,步骤s8中,包括以下步骤:
31.将下行csi数据输入到教师模型中进行前向传播,得到csi在解码器第一个全连接层的输出:其中,是经过模型输出的重建的下行csi数据,h是下行csi数据,是学生模型的解码器,fc
t
是学生模型的编码器中的第一个全连接层,θ
φ
是全连接层的参数,θ
fc
是全连接层的参数。
32.优选的,步骤s9中,包括以下步骤:
33.计算学生模型的重建输出和真实值的重建损失值和学生模型的全连接层输出和教师模型的全连接层输出的蒸馏损失值:其中,l是损失函数,α是重建损失和蒸馏损失的平衡超参数,计算损失函数的梯度,根据梯度更新模型,重复步骤s7到步骤s9,直到学生模型收敛:其中,g是损失函数的梯度,θ是更新前模型的参数,θ

是更新后模型的参数,lr是学习率。
34.与现有技术相比,本发明的有益效果是:
35.本发明提出的基于知识蒸馏的轻量化网络的csi反馈方法,引入了知识蒸馏(knowledge distillation,kd)来修炼性能良好的轻量化网络模型。知识蒸馏可以将“知识”从一个或多个复杂的教师模型“蒸馏”到一个简单的学生模型,让学生模型尽可能地拥有教师模型的能力。在此基础上,本文进一步将教师模型的编码器的第一个全连接的输出作为蒸馏的对象,能够更高效地帮助学生模型获取到教师模型的知识,提高学生模型的性能。
具体实施方式
36.为了使本发明的目的、技术方案进行清楚、完整地描述,及优点更加清楚明白。应当理解,此处所描述的具体实施例是本发明一部分实施例,而不是全部的实施例,仅仅用以解释本发明实施例,并不用于限定本发明实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
37.本发明提供一种技术方案:基于知识蒸馏的轻量化网络的csi反馈方法,csi反馈方法包括以下步骤:
38.s1.采用与cost 2100模型一样的设置仿真生成下行csi数据;采用与cost 2100模型一样的设置来仿真生成下行csi数据,在模拟仿真时,考虑室内和室外两种场景,室内场
景采用了了5.3ghz,室外场景采用300mhz,设置基站的天线数为32,fdd系统的子信道数量设置为1024;
39.s2.进行数据清洗;,若某条csi数据中有空缺值,则直接删掉条csi数据;
40.s3.数据清洗完毕后,将csi数据处理成模型可接受的输入,将csi数据处理成一个n
×2×
na×nt
的矩阵,n是样本的数量,2代表信道数据被分为了实部与虚部,na代表了原始数据中有效数据的行数,n
t
是基站的天线数;数据清洗完毕后,将csi数据处理成模型可接受的输入,通过离散傅里叶变化discrete fourier transform,dft将信道数据h从空间-频率域转化到角度-延迟域,h

=fchf
lh
,其中,h是空间-频率域的csi数据,fc是维度为nc×
nc的dft矩阵,f
th
是维度为n
t
×nt
的dft矩阵,h

是角度-延迟域的csi数据,由于h

的前na行包含了数值较大的有效数据,其余的数据基本为很微小甚至是0值,只取h

的前na行数据,得到了ha,ha是一个n
×2×
na×nt
的矩阵,n是样本的数量,2代表信道数据被分为了实部与虚部,na代表了原始数据中有效数据的行数,n
t
是基站的天线数;
41.s4.构造教师模型,教师模型选择使用crnet,crnet由编码器和解码器构成,编码器由若干个卷积层、一条残差连接和一个全连接层组成,解码器由一个全连接、一个卷积层、两个crblock和一个sigmoid组成;编码器由一个3
×
3的卷积层、一个1
×
9的卷积层、一个9
×
1的卷积层、一个1
×
1的卷积层、一个残差连接和一个全连接层,每个卷积层后面会接一个批标准化层,残差连接中包含一个3
×
3的卷积层,解码器由一个全连接、一个5
×
5的卷积层、两个crblock和一个sigmoid组成,每个crblock由一个3
×
3的卷积层、一个1
×
9的卷积层、一个9
×
1的卷积层、一个1
×
1的卷积层和两个残差连接组成,一个残差连接将5
×
5的卷积层的输出直接与crblock的输出加和,另外一个残差连接包含了一个1
×
5的卷积层和一个5
×
1的卷积层;
42.s5.构造完教师模型后,对教师模型进行预训练,设置合适的学习率和批次大小,将教师模型训练至拟合状态;设置批次大小为200,学习率采用线性热身的余弦退火策略,初始学习率为2e-3,最终学习率为5e-5,训练迭代次数为2500,前30次迭代为学习的线性热身阶段,2500次迭代后,教师模型训练至拟合状态;
43.s6.构造学生模型,学生模型的结构与教师模型基本一致,对crnet教师模型中所有的全连接层进行二值化,得到学生模型bcrnet;全连接层包含的参数数量远高于卷积层,对全连接层进行压缩可以更有效地减少模型的存储空间开销,对crnet教师模型中所有的全连接层进行二值化得到学生模型bcrnet,经过二值化后,全连接中的参数均为同一数值,只是正负符号有所不同,所以只需要1比特来存储,二值化使得全连接层的存储空间开销缩小了32倍;
44.s7.将下行csi数据输入到学生模型中进行前向传播,得到csi的重建输出和解码器第一个全连接层的输出;将下行csi数据输入到学生模型中进行前向传播,得到csi输入到模型中得到的重建输出:其中,是经过模型输出的重建的下行csi数据,h是下行csi数据,是学生模型的解码器,φs是学生模型的编码器,θ
φ
是编码器的参数,是解码器的参数;将下行csi数据输入到学生模型中进行前向传播,得到csi在解码器第一个全连接层的输出:其中,是经过模型输
出的重建的下行csi数据,h是下行csi数据,是学生模型的解码器,fcs是学生模型的编码器中的第一个全连接层,θ
φ
是全连接层的参数,θ
fc
是全连接层的参数;
45.s8.将同样的下行csi数据输入到教师模型中得到解码器第一个全连接层的输出;将下行csi数据输入到教师模型中进行前向传播,得到csi在解码器第一个全连接层的输出:其中,是经过模型输出的重建的下行csi数据,h是下行csi数据,是学生模型的解码器,fc
t
是学生模型的编码器中的第一个全连接层,θ
φ
是全连接层的参数,θ
fc
是全连接层的参数;
46.s9.计算回归损失函数和蒸馏损失函数并更新模型参数,计算学生模型的重建输出和真实值的mse损失值,计算学生模型的全连接层输出和教师模型的全连接层输出的蒸馏损失值。计算损失函数的梯度,根据梯度更新模型,重复步骤s7到步骤s9,直到学生模型收敛;计算学生模型的重建输出和真实值的重建损失值和学生模型的全连接层输出和教师模型的全连接层输出的蒸馏损失值:其中,l是损失函数,α是重建损失和蒸馏损失的平衡超参数,计算损失函数的梯度,根据梯度更新模型,重复步骤s7到步骤s9,直到学生模型收敛:其中,g是损失函数的梯度,θ是更新前模型的参数,θ

是更新后模型的参数,lr是学习率。
47.尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

技术特征:
1.基于知识蒸馏的轻量化网络的csi反馈方法,其特征在于:所述csi反馈方法包括以下步骤:s1.采用与cost 2100模型一样的设置仿真生成下行csi数据;s2.进行数据清洗;s3.数据清洗完毕后,将csi数据处理成模型可接受的输入,将csi数据处理成一个n
×2×
n
a
×
n
t
的矩阵,n是样本的数量,2代表信道数据被分为了实部与虚部,n
a
代表了原始数据中有效数据的行数,n
t
是基站的天线数;s4.构造教师模型,教师模型选择使用crnet,crnet由编码器和解码器构成,编码器由若干个卷积层、一条残差连接和一个全连接层组成,解码器由一个全连接、一个卷积层、两个crblock和一个sigmoid组成;s5.构造完教师模型后,对教师模型进行预训练,设置合适的学习率和批次大小,将教师模型训练至拟合状态;s6.构造学生模型,学生模型的结构与教师模型基本一致,对crnet教师模型中所有的全连接层进行二值化,得到学生模型bcrnet;s7.将下行csi数据输入到学生模型中进行前向传播,得到csi的重建输出和解码器第一个全连接层的输出;s8.将同样的下行csi数据输入到教师模型中得到解码器第一个全连接层的输出;s9.计算回归损失函数和蒸馏损失函数并更新模型参数,计算学生模型的重建输出和真实值的mse损失值,计算学生模型的全连接层输出和教师模型的全连接层输出的蒸馏损失值,计算损失函数的梯度,根据梯度更新模型,重复步骤s7到步骤s9,直到学生模型收敛。2.根据权利要求1所述的基于知识蒸馏的轻量化网络的csi反馈方法,其特征在于:步骤s1中,包括以下步骤:采用与cost 2100模型一样的设置来仿真生成下行csi数据,在模拟仿真时,考虑室内和室外两种场景,室内场景采用了了5.3ghz,室外场景采用300mhz,设置基站的天线数为32,fdd系统的子信道数量设置为1024。3.根据权利要求1所述的基于知识蒸馏的轻量化网络的csi反馈方法,其特征在于:步骤s2中,包括以下步骤:进行数据清洗,若某条csi数据中有空缺值,则直接删掉条csi数据。4.根据权利要求1所述的基于知识蒸馏的轻量化网络的csi反馈方法,其特征在于:步骤s3中,包括以下步骤:数据清洗完毕后,将csi数据处理成模型可接受的输入,通过离散傅里叶变化discrete fourier transform,dft将信道数据h从空间-频率域转化到角度-延迟域,h

=f
c
hf
lh
,其中,h是空间-频率域的csi数据,f
c
是维度为n
c
×
n
c
的dft矩阵,f
th
是维度为n
t
×
n
t
的dft矩阵,h

是角度-延迟域的csi数据,由于h

的前n
a
行包含了数值较大的有效数据,其余的数据基本为很微小甚至是0值,只取h

的前n
a
行数据,得到了h
a
,h
a
是一个n
×2×
n
a
×
n
t
的矩阵,n是样本的数量,2代表信道数据被分为了实部与虚部,n
a
代表了原始数据中有效数据的行数,n
t
是基站的天线数。5.根据权利要求1所述的基于知识蒸馏的轻量化网络的csi反馈方法,其特征在于:步骤s4中,包括以下步骤:
编码器由一个3
×
3的卷积层、一个1
×
9的卷积层、一个9
×
1的卷积层、一个1
×
1的卷积层、一个残差连接和一个全连接层,每个卷积层后面会接一个批标准化层,残差连接中包含一个3
×
3的卷积层,解码器由一个全连接、一个5
×
5的卷积层、两个crblock和一个sigmoid组成,每个crblock由一个3
×
3的卷积层、一个1
×
9的卷积层、一个9
×
1的卷积层、一个1
×
1的卷积层和两个残差连接组成,一个残差连接将5
×
5的卷积层的输出直接与crblock的输出加和,另外一个残差连接包含了一个1
×
5的卷积层和一个5
×
1的卷积层。6.根据权利要求1所述的基于知识蒸馏的轻量化网络的csi反馈方法,其特征在于:步骤s5中,包括以下步骤:设置批次大小为200,学习率采用线性热身的余弦退火策略,初始学习率为2e-3,最终学习率为5e-5,训练迭代次数为2500,前30次迭代为学习的线性热身阶段,2500次迭代后,教师模型训练至拟合状态。7.根据权利要求1所述的基于知识蒸馏的轻量化网络的csi反馈方法,其特征在于:步骤s6中,包括以下步骤:全连接层包含的参数数量远高于卷积层,对全连接层进行压缩可以更有效地减少模型的存储空间开销,对crnet教师模型中所有的全连接层进行二值化得到学生模型bcrnet,经过二值化后,全连接中的参数均为同一数值,只是正负符号有所不同,所以只需要1比特来存储,二值化使得全连接层的存储空间开销缩小了32倍。8.根据权利要求1所述的基于知识蒸馏的轻量化网络的csi反馈方法,其特征在于:步骤s7中,包括以下步骤:将下行csi数据输入到学生模型中进行前向传播,得到csi输入到模型中得到的重建输出:其中,是经过模型输出的重建的下行csi数据,h是下行csi数据,是学生模型的解码器,φ
s
是学生模型的编码器,θ
φ
是编码器的参数,是解码器的参数;将下行csi数据输入到学生模型中进行前向传播,得到csi在解码器第一个全连接层的输出:其中,是经过模型输出的重建的下行csi数据,h是下行csi数据,是学生模型的解码器,fc
s
是学生模型的编码器中的第一个全连接层,θ
φ
是全连接层的参数,θ
fc
是全连接层的参数。9.根据权利要求1所述的基于知识蒸馏的轻量化网络的csi反馈方法,其特征在于:步骤s8中,包括以下步骤:将下行csi数据输入到教师模型中进行前向传播,得到csi在解码器第一个全连接层的输出:其中,是经过模型输出的重建的下行csi数据,h是下行csi数据,是学生模型的解码器,fc
t
是学生模型的编码器中的第一个全连接层,θ
φ
是全连接层的参数,θ
fc
是全连接层的参数。10.根据权利要求1所述的基于知识蒸馏的轻量化网络的csi反馈方法,其特征在于:步骤s9中,包括以下步骤:计算学生模型的重建输出和真实值的重建损失值和学生模型的全连接层输出和教师模型的全连接层输出的蒸馏损失值:其中,l是
损失函数,α是重建损失和蒸馏损失的平衡超参数,计算损失函数的梯度,根据梯度更新模型,重复步骤s7到步骤s9,直到学生模型收敛:其中,g是损失函数的梯度,θ是更新前模型的参数,θ

是更新后模型的参数,lr是学习率。

技术总结
本发明涉及CSI反馈算法技术领域,具体为基于知识蒸馏的轻量化网络的CSI反馈方法,包括以下步骤:采用与COST 2100模型一样的设置仿真生成下行CSI数据;进行数据清洗;数据清洗完毕后,将CSI数据处理成模型可接受的输入,将CSI数据处理成一个N


技术研发人员:吉宝伦 王炳亮 张文龙 刘晗 公衍臣
受保护的技术使用者:浪潮通信信息系统有限公司
技术研发日:2023.07.10
技术公布日:2023/10/15
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐