一种期望传播信号检测优化方法、装置、电子设备及存储介质

未命名 07-28 阅读：162 评论：0

1.本发明涉及一种期望传播信号检测优化方法、装置、电子设备及存储介质，属于信号检测技术领域。

背景技术：

2.在数字通信的背景下，需要数字接收器来对接收到的信号做检测来恢复出原始信号。由于信号在传播过程中，充满了各种未知干扰，例如噪声、阴影等，想要恢复出原始信号，就需要信号检测，信号检测是一种通过特定算法将接收信号恢复为原始信号的方法。数字接收器必须被设计成基于接收到的信号来提供每个可能符号被传输的概率。如今，有许多经典的线性与非线性的检测算法，如最大似然检测、最大比合并、迫零均衡、最小均方误差等。相比于这些经典算法，期望传播(ep)算法以求能使得kl散度相对于真实后验概率密度函数最小的高斯后验概率密度函数，从而能获得更好的信号检测性能。期望传播(ep)算法是一种随机变量后验概率边缘分布的近似计算方法，于2001年提出，已经在人工智能和机器学习领域得到广泛应用，并在信号检测领域引起了大量的关注，ep算法的核心思想在于以多项式级别的复杂度，来迭代地近似后验概率分布，因此，该算法在信号检测中有很大的潜力。
3.针对高速移动场景下快时变信道的无线通信问题，为解决传统波形在高速移动场景下的多普勒频移问题，出现一种称为正交时频空间(otfs)的新波形，该系统在时延-多普勒域内进行信号的调制和解调，从而满足高多普勒频移的信令需求。
4.由于期望传播(ep)这种迭代算法存在不定的阻尼因子和迭代次数，所以只能根据仿真经验确定一个固定值，存在检测不稳定、迭代次数多、复杂性高等问题。

技术实现要素：

5.本发明的目的在于提供一种期望传播信号检测优化方法、装置、电子设备及存储介质，能够提高信号检测的稳定性和可靠性。
6.为达到上述目的，本发明提供如下技术方案：
7.第一方面，本发明提供一种期望传播信号检测优化方法，包括：
8.利用预构建的强化学习模型，对预获取的期望传播算法进行优化，获取改进的期望传播算法；
9.将所述改进的期望传播算法运用到预构建的正交时频空间系统模型中，进行信号检测，实现期望传播信号检测优化；
10.其中，所述强化学习模型为由演员-评论员算法模型改进获取的优势演员-评论员算法模型。
11.结合第一方面，进一步的，利用优势演员-评论员算法模型，对预获取的期望传播算法进行优化，获取改进的期望传播算法包括：
12.将期望传播算法的信噪比、运行速度和当前迭代次数作为优势演员-评论员算法
模型的状态信息，将优势演员-评论员算法模型中的基线函数设为期望传播算法使用固定阻尼因子时的信号检测误差值；
13.将期望传播算法的每一次迭代作为一层网络，并将每一层网络进行串联，获取串联网络流图；
14.在所述串联网络流图的每一层内相同位置加入训练参数α
l
、γ
l
、β
l
，并将训练参数α
l
、γ
l
、β
l
初始化为0、1、1；
15.结合所述状态信息和基线函数，训练阻尼因子参数β
l
，并利用训练参数α
l
和γ
l
加快期望传播算法的收敛速度，以损失函数最小为目标，采用批量梯度下降算法，在不同信号传输过程中对期望传播算法进行训练，获取改进的期望传播算法。
16.结合第一方面，进一步的，所述不同信号传输过程包括不同信噪比、不同运行速度和不同迭代次数下的信号传输过程。
17.结合第一方面，进一步的，所述正交时频空间系统模型的表达式如公式(1)所示：
[0018][0019]
公式(1)中，y为接收信号，y∈r
mn
×1，h为信道矩阵，h∈r
mn
×
mn
，x为发送信号，x∈r
mn
×1，w为噪声，w∈r
mn
×1，m为延迟维度总点数，n为多普勒域总点数；
[0020]
对发送信号x进行isfft变换，获取发送信号x的频域表达式，所述发送信号x的频域表达式如公式(2)所示：
[0021][0022]
公式(2)中，x[n，m]为发送信号x在时域格点n和频域格点m处的频域表达式，x[k，l]为发送信号x在时域格点k和频域格点l处的频域表达式，n为时域格点n，m为频域格点m，k为时域格点k，l为频域格点l；
[0023]
对接收信号y进行维纳变换，将接收信号y变换为时频域接收信号y(f，t)，接收信号y的频域表达式如公式(3)所示：
[0024]
y[m，n]＝y(f，t)|
t＝nt，f＝mδf
ꢀꢀꢀꢀ
(3)
[0025]
公式(3)中，y[m，n]为接收信号的频域表达式，t为采样事件，δf为采样频率；
[0026]
对时频域接收信号y(f，t)进行sfft变换，获取延迟多普勒域接收信号，所述延迟多普勒域接收信号的表达式如公式(4)所示：
[0027][0028]
公式(4)中，y[k，l]为延迟多普勒域接收信号的表达式。
[0029]
结合第一方面，进一步的，将所述改进的期望传播算法运用到预构建的正交时频空间系统模型中，进行信号检测，实现期望传播信号检测优化包括：
[0030]
采用贝叶斯估计法，获取正交时频空间系统模型中发送信号的真实先验概率密度函数和信道的转移概率密度函数；
[0031]
根据所述发送信号的真实先验概率密度函数和信道的转移概率密度函数，对发送信号的真实先验值和近似值的外边缘分布做矩匹配，获取所述发送信号的真实先验概率密度函数的高斯近似的均值和方差；
[0032]
根据所述发送信号的真实先验概率密度函数的高斯近似的均值和方差，利用所述改进的期望传播算法，进行信号检测，恢复发送信号，实现期望传播信号检测优化。
[0033]
第二方面，本发明提供一种期望传播信号检测优化装置，包括：
[0034]
算法优化模块：用于利用预构建的强化学习模型，对预获取的期望传播算法进行优化，获取改进的期望传播算法；
[0035]
信号检测模块：用于将所述改进的期望传播算法运用到预构建的正交时频空间系统模型中，进行信号检测，实现期望传播信号检测优化；
[0036]
其中，所述强化学习模型为由演员-评论员算法模型改进获取的优势演员-评论员算法模型。
[0037]
第三方面，本发明提供一种电子设备，包括处理器及存储介质；
[0038]
所述存储介质用于存储指令；
[0039]
所述处理器用于根据所述指令进行操作以执行根据第一方面任一项所述方法的步骤。
[0040]
第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面任一项所述方法的步骤。
[0041]
与现有技术相比，本发明的有益效果是：
[0042]
本发明所提供的期望传播信号检测优化方法，通过强化学习模型，对传统的期望传播算法进行优化，获取改进的期望传播算法，并将改进的期望传播算法运用到正交时频空间系统模型中，能够实现期望传播信号检测优化；在迭代的同时根据环境不断更改每次的阻尼因子，并引入新的阻尼因子来加速原有算法的收敛性，从而提高检测的稳定性、减少迭代次数、降低复杂性。
附图说明
[0043]
图1是本发明实施例提供的期望传播信号检测优化方法流程图；
[0044]
图2是本发明实施例提供的a2c-ep算法与ep算法、mmse算法在4qam调制、移动速度为200km/h的比较结果示意图；
[0045]
图3是本发明实施例提供的a2c-ep算法与ep算法、mmse算法在16qam调制、移动速度为200km/h的比较结果示意图。
具体实施方式
[0046]
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
[0047]
下面详细描述本专利的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本专利，而不能理解为对本专利的限制。在不冲突的情况下，本技术实施例以及实施例中的技术特征可以相互组合。
[0048]
实施例一：
[0049]
图1是本发明实施例一提供的一种期望传播信号检测优化方法流程图，本流程图仅仅示出了本实施例方法的逻辑顺序，在互不冲突的前提下，在本发明其它可能的实施例中，可以以不同于图1所示的顺序完成所示出或描述的步骤。
[0050]
本实施例提供的期望传播信号检测优化方法可应用于终端，可以由期望传播信号检测优化装置来执行，该装置可以由软件和/或硬件的方式实现，该装置可以集成在终端中，例如：任一具备通信功能的平板电脑或计算机设备。参见图1，本实施例的方法具体包括如下步骤：
[0051]
步骤一：利用预构建的强化学习模型，对预获取的期望传播算法进行优化，获取改进的期望传播算法；
[0052]
强化学习模型为由演员-评论员算法模型改进获取的优势演员-评论员算法模型。
[0053]
在演员-评论员算法(actor-critic)中，策略网络相当于演员，它基于状态做出动作，此处状态是指信噪比、运动速度和当前算法迭代次数的集合。而价值网络相当于评论员，它给演员的表现打分，量化在当前状态的情况下做出动作的好坏程度。与演员-评论员算法(actor-critic)不同的是，优势演员-评论员算法(advantage actor-critic)引入了优势(advantage)，用来衡量预测baseline和实际baseline的差。
[0054]
优势演员-评论员算法(advantage actor-critic)拥有的两个神经网络，分别对应actor网络和critic网络。actor直接负责输出每个动作(action)的概率，有多少个action就有多少个输出，critic输出的是动作价值q，即critic通过动作价值q去学习这些奖惩机制。学习完成以后，actor负责修改参数，而critic会根据actor的修改给予指导与评价，因为critic能通过学习环境与奖励之间的关系看到现在所处状态的潜在奖励。同时优势演员-评论员算法(advantage actor-critic)会给动作价值q增加一个基线函数baseline，基线函数的特点是能在不改变策略梯度的同时降低其方差。我们用q值减去这个baseline来判断当前逻辑的好坏。
[0055]
利用优势演员-评论员算法模型，对预获取的期望传播算法进行优化，获取改进的期望传播算法包括如下步骤：
[0056]
步骤a：将期望传播算法的信噪比、运行速度和当前迭代次数作为优势演员-评论员算法模型的状态信息，将优势演员-评论员算法模型中的基线函数设为期望传播算法使用固定阻尼因子时的信号检测误差值；
[0057]
步骤b：将期望传播算法的每一次迭代作为一层网络，并将每一层网络进行串联，获取串联网络流图；
[0058]
步骤c：在串联网络流图的每一层内相同位置加入训练参数α
l
、γ
l
、β
l
，并将训练参数α
l
、γ
l
、β
l
初始化为0、1、1；
[0059]
步骤d：结合状态信息和基线函数，训练阻尼因子参数β
l
，并利用训练参数α
l
和γ
l
加快期望传播算法的收敛速度，以损失函数最小为目标，采用批量梯度下降算法，在不同信号传输过程中对期望传播算法进行训练，获取改进的期望传播算法；
[0060]
其中，不同信号传输过程包括不同信噪比、不同运行速度和不同迭代次数下的信号传输过程。
[0061]
由于期望传播算法(ep算法)是一种迭代算法，因此把每一次迭代都当作网络中的一层，并将每一层串联起来，这样就把迭代式ep算法展开成层与层之间的串联网络流图，利用这些网络流图就可以实现原本迭代式的近似消息传递的信号检测算法。同时，在每一层内的相同位置加入可训练参数α
l
、γ
l
、β
l
，并将其初始化为0、1、1。其中，β
l
的作用与原有的固定阻尼因子相同，α
l
、γ
l
是为了让原有ep算法收敛速度更快，将这种与优势演员-评论员
算法(advantage actor-critic)相结合的ep算法称为a2c-ep算法，即改进的期望传播算法。
[0062]
为了让ep检测算法具备更好的检测性能，需要不断地训练来调整每层的训练参数α
l
、γ
l
、β
l
，该训练方法采用的是离线训练。深度学习的训方法有很多，该网络的训练是通过批量梯度下降的学习训练方式，批量梯度下降的好处就在于可以得到全局最优并且方便实现，从而可以得到使网络检测性能最好的参数值。经过大量的训练，原ep算法即可在不同的环境下(不同的信噪比、移动速度、迭代次数)获取最佳阻尼因子来降低误码率，提高算法检测性能。
[0063]
优势演员-评论员算法(advantage actor-critic)中的critic是通过与环境交互收集数据来学习的一个价值函数，此函数的目的在于评价actor的表现，并指导actor下一阶段的动作。而actor能够通过与环境交互，并通过结合critic提供的价值函数，用策略梯度学习得到一个最佳的策略步骤。
[0064]
actor和critic分别为不同的神经网络，其激活函数为tanh，网络参数即神经元的权重集合分别为θ和w，此处采用深度学习中xavier的方法即可得到初始值，这种方法的好处在于能通过保持输入和输出的方差一致(服从相同的分布)避免梯度消失和梯度爆炸问题，使得信号在神经网络中可以传递得更深，在经过多层神经元后保持在合理的范围(不至于太小或太大)。
[0065]
同时定义状态s为信噪比、运动速度和当前算法迭代次数的集合，定义初始的特征向量为[0,200km/h,0]，之后将输入actor网络，输出动作action，得到新的状态s
new
和并反馈奖励值r。
[0066]
将得到的和再输入critic网络当中，可以分别得到对应的输出动作价值q与q
new
，优势演员-评论员算法(advantage actor-critic)中将q分解成了状态价值函数v(s)和优势函数a(s,action)，状态价值函数表示了智体agent从状态s开始时所期望获得的未来收益，使用价值函数可以很方便地评价不同策略的好坏，而优势函数表达在状态s下，某动作action相对于平均而言的优势，从数量关系来看，就是随机变量相对均值的偏差。
[0067]
分解的目的是为了克服演员-评论员算法(actor-critic)中critic网络的线性函数常出现大方差造成收敛不稳定性的问题。接下来就来计算td误差：
[0068]
δ＝r+ρv(s
new
)-v(s)
[0069]
其中，ρ为衰减因子，r为奖励值，其取值依据是拟得的信号与真实信号间的误差。
[0070]
得到td误差后就需要回过来梯度更新actor和critic的网络参数，更新方式如下：
[0071][0072]
其中∈、τ分别为两个网络训练的步长，π
θ
(s,action)是优势演员-评论员算法(advantage actor-critic)的策略函数，其含义是在给定状态s下，选择行动action的概率。
[0073]
步骤二：将改进的期望传播算法运用到预构建的正交时频空间系统模型中，进行信号检测，实现期望传播信号检测优化；
[0074]
正交时频空间系统模型(otfs)能够很好地减轻信号多径传播带来的损耗和码间串扰(isi)，在发送端构造二维的延迟多普勒域网络，其大小为m
×
n，其中m为延迟维度总点数，n为多普勒域总点数。发射端和接收端的目的是在时延多普勒域中实现qam调制，放置在时延多普勒域中的qam信号全部都经历了相同的二维卷积信道，而且能够降低时间和频率选择性衰落所带来的影响，并最后在接收端接收到信号。
[0075]
正交时频空间系统模型的表达式如公式(1)所示：
[0076]
y＝hx+w
ꢀꢀꢀꢀ
(1)
[0077]
公式(1)中，y为接收信号，y∈r
mn
×1，h为信道矩阵，h∈r
mn
×
mn
，x为发送信号，x∈r
mn
×1，w为噪声，w∈r
mn
×1，m为延迟维度总点数，n为多普勒域总点数。
[0078]
对发送信号x进行isfft变换，获取发送信号x的频域表达式，发送信号x的频域表达式如公式(2)所示。
[0079][0080]
公式(2)中，x[n，m]为发送信号x在时域格点n和频域格点m处的频域表达式，x[k，l]为发送信号x在时域格点k和频域格点l处的频域表达式，n为时域格点n，m为频域格点m，k为时域格点k，l为频域格点l。
[0081]
使用海森堡变换处理发送信号x，得到s(t)，s(t)经过发送滤波器后，进入无线信道，考虑到高速移动场景下，信号有各自的时延和多普勒频偏，所以接收信号一定与原始发送信号有误差，在不知道发送信号的情况下，要通过接收信号来恢复出原始信号，这也是下述信号检测的作用。经过无线信道的传输后，得到接收信号r(t)。其中，信道中存在加性高斯白噪声w(t)，其元素是独立同分布的零均值循环对称复高斯随机变量，方差均值为σ2。在接受端进行响应的逆变换即可得到延迟多普勒信号。首先，经过维纳变换将接收到的信号变换为时频域，对接收信号y进行维纳变换，将接收信号y变换为时频域接收信号y(f，t)，接收信号y的频域表达式如公式(3)所示：
[0082]
y[m，n]＝y(f，t)|
t＝nt，f＝mδf
ꢀꢀꢀꢀ
(3)
[0083]
公式(3)中，y[m，n]为接收信号的频域表达式，t为采样事件，δf为采样频率。
[0084]
对时频域接收信号y(f，t)进行sfft变换，获取延迟多普勒域接收信号，延迟多普勒域接收信号的表达式如公式(4)所示：
[0085][0086]
公式(4)中，y[k，l]为延迟多普勒域接收信号的表达式。
[0087]
在接收到信号y后，利用改进的期望传播算法恢复原有的发送信号x。
[0088]
将改进的期望传播算法运用到预构建的正交时频空间系统模型中，进行信号检测，实现期望传播信号检测优化包括如下步骤：
[0089]
步骤a：采用贝叶斯估计法，获取正交时频空间系统模型中发送信号的真实先验概率密度函数和信道的转移概率密度函数；
[0090]
步骤b：根据发送信号的真实先验概率密度函数和信道的转移概率密度函数，对发送信号的真实先验值和近似值的外边缘分布做矩匹配，获取发送信号的真实先验概率密度函数的高斯近似的均值和方差；
[0091]
步骤c：根据发送信号的真实先验概率密度函数的高斯近似的均值和方差，利用改进的期望传播算法，进行信号检测，恢复发送信号，实现期望传播信号检测优化。
[0092]
将ep算法的信噪比、速度、当前迭代层数看作状态信息s(snr,speed,l)，将每次迭代计算看作一次智体agent与环境交互的过程，agent的action为选取ep算法当前迭代的参数，reward设置为其中，k表示第k个符号数，表示ep算法在使用固定阻尼因子β并在第l次迭代情况下的误比特率，表示使用非固定阻尼因子的误比特率。当前迭代结束后的输出数据将作为下一个状态的输入，当达到最大迭代次数时，对应一个episode的结束。episode可以理解为强化学习中的一轮或一个回合的学习，该算法中设定为500。
[0093]
假设otfs发射信号x以列向量x＝(x1,x2,
…
,xm×n)
t
的形式表示，并且元素的取值是数据比特流经过星座图的映射产生，其中mod为调制阶数。令为otfs的信道矩阵。
[0094]
与传统ep信号检测算法的目的一样，a2c-ep算法的任务是根据接收信号y来估计原始的发送信号x，恢复出来的估计值用表示，在算法中可由后验概率密度分布的高斯近似的均值表示。与传统ep算法一样，改进算法依然使用了贝叶斯估计方法，在信号检测中，这是一种常见的参数估计方法。
[0095]
在信号检测中，将发射信号x后验均值e[x|y]作为估计值，信号第k个元素xk的估计值为：
[0096][0097]
其中，p(xk|y)是后验概率密度分布p(x|y)的边缘分布，由叶贝斯公式：
[0098][0099]
可得到信道的转移概率密度函数为：
[0100]
p(y|x)
∝
cn(y；hx,σ2i)
[0101]
其中，cn表示均值为hx，协方差矩阵为σ2i的循环对称复高斯向量y的概率密度函数；
[0102]
p(x)为发射信号向量x的真实先验概率密度函数：
[0103][0104]
根据叶贝斯公式计算出p(x|y)时，复杂度会达到指数级别，因此，ep算法转而用后验概率密度分布p(x|y)的高斯近似q(x)来参与信号x的检测，高斯近似q(x)的表达式如下：
[0105]
[0106]
是真实先验p(xk)的高斯近似，假设和分别为其均值和协方差，分别构成向量和
[0107]
要得到的均值与方差，需要通过矩匹配(moment matching)的方法，矩匹配是一种常用的数据分布匹配方法，它的作用是将一个已知分布的随机变量映射为另一个分布的随机变量。通过矩匹配，可以将一个复杂的分布转换为一个简单的分布，比如高斯分布，从而简化数据处理和建模的过程。
[0108]
根据后验概率分布的高斯近似计算公式，可以得到其在l次迭代过程中的值：
[0109][0110]
假设其高斯分布的均值和协方差矩阵分别为μ
[l]
和s
[l]
，可得分布：
[0111]q[l]
(x)
∝
cn(x；μ
[l]
,s
[l]
)
[0112]
其中均值和协方差矩阵的值分别为：
[0113][0114]
在算法中，用后验概率密度分布的高斯近似的均值μ
[l]
表示信号第k个元素的估计值即
[0115]
随着迭代次数l＝1,2,
…
,10的增加，可以通过引入外边缘分布的方法使得和做矩匹配，从而不断更新在第l次迭代时的均值和方差外边缘分布是指在一个联合分布中，对某个或某些变量进行边缘化后得到的分布。其作用是简化问题，将多维问题转化为单维问题，方便进行分析和应用。外边缘分布可以用来计算某个变量的概率分布，或者用于模型选择和比较。计算公式如下：
[0116][0117]
根据公式推导即可得到外边缘分布均值和方差分别为：
[0118][0119]
a2c-ep算法包括如下步骤：
[0120]
步骤
①
：对a2c-ep算法中的参数初始化；
[0121]
在迭代次数l为0时将所有均值(边缘分布均值真实先验的高斯近似的均值设定为全零向量，将所有方差(边缘分布方差真实先验的高斯近似的方差)设定为全1向量。
[0122]
计算迭代次数l为0时，后验概率分布的高斯近似的均值μ
[0]
和协方差矩阵s
[0]
，得到信号x第k个元素的估计值
[0123]
给定信道矩阵h，从接收端得到接收信号y，开始进行以下迭代过程。
[0124]
步骤
②
：把变量h、y、μ
[l]
和s
[l]
到第l次的迭代算法中，各个变量的含义如表1所示。
[0125]
表1算法输入变量的含义
[0126][0127]
步骤
ⅰ
、利用参与矩匹配(moment matching)：
[0128]
[0129]
上式中是后验概率密度分布p(x|y))对应的非正态化高斯分布，计算其均值和协方差矩阵
[0130]
步骤
ⅱ
、设置非正态化高斯分布：
[0131][0132]
使得均值等于方差等于从而得到：
[0133][0134]
可见，以上两个公式为l+1次迭代时的均值和方差
[0135]
步骤
ⅲ
、带入到当前actor网络，输出动作action，获取第l次迭代过程中训练的阻尼因子β
l
，对步骤
ⅱ
的结果进行阻尼化，并更新均值：
[0136][0137]
步骤
ⅳ
、更新l+1时外边缘分布的均值和方差并从action中获取训练的阻尼因子α
l
和γ
l
对均值和方差进行阻尼更新：
[0138][0139]
步骤
ⅴ
、得到l+1时的估计信号值令并得到当前的奖励值：
[0140][0141]
式子中的代表使用固定阻尼因子得到的信号估计值。
[0142]
步骤
ⅵ
、利用步骤
ⅴ
中所得奖励值r
l
，计算td误差，更新actor、critic网络，并继续步骤
②
，进入下一次a2c-ep算法在l+1时的迭代，直到l为10时终止迭代。
[0143]
无论是采用基于数据驱动的深度学习还是强化学习，都需要结合数据进过大量的训练，在该算法中的网络训练中，利用了深度学习中关于梯度的反向传播技术和梯度下降法来训练第l次迭代中的阻尼因子α
l
、γ
l
、β
l
，初始情况下的[α
l
、γ
l
、β
l
]是[0、1、1]。
[0144]
在开始训练神经网络的时候，要对权值先进行随机初始化。随机化是指随机的信噪比、速度和迭代次数。显然，初始化的参数一般都不会得到很好的结果。但在训练的过程中，我们希望在训练结束的时候，损失函数的函数值变得特别小，而且提升网络是有可能的，因为我们可以通过调节权值去改变函数。
[0145]
通过上述步骤，已经将a2c-ep的迭代式算法展开为与多层全连接网络结构类似的结构并接入到神经网络中，接下来就需要训练神经网络以达到优化的目的。详细来讲，在第l轮训练当中，设定损失函数为为将其最小化，参数αe、γe、β
l
通过使用批量梯度下降算法的训练方式进行调整。其中，损失函数的输入是网络预测值与真实目标值，然后计算出一个距离值，专门用来衡量该网络在这个当前状况上的效果如何。在完成第l轮训练后，第l轮的训练参数作为下一轮训练参数的初始值，因此下一轮的损失函数就变为同理，不断继续采用该训练方式进行调整。
[0146]
通过大量的训练，即可将网络中所有参数训练完。该网络的训练轮数episode设定为500，采用批量的梯度下降法还可以克服训练梯度消失的问题从而实现训练的有效化。该网络与原ep检测算法进行了很好的融合，因此该网络也继承了原ep算法优越的检测性能，并通过训练阻尼因子的方式产生检测性能更好的a2c-ep检测算法。
[0147]
仿真结果如图2、图3所示。该仿真系统载波总数m为64，多载波符号数n为16，采样频率为1
×
106hz，移动速度为200km/h，载波频率为3.5
×
109hz，信道模型为瑞利信道，多普勒频偏为[0，-5，-7，-9，-11，-14]，时延为[1，3，6，8，9，11]，并且调制阶数采用4qam和16qam。
[0148]
本实施例提供的期望传播信号检测优化方法，通过强化学习模型，对传统的期望传播算法进行优化，获取改进的期望传播算法，并将改进的期望传播算法运用到正交时频空间系统模型中，能够实现期望传播信号检测优化；在迭代的同时根据环境不断更改每次的阻尼因子，并引入新的阻尼因子来加速原有算法的收敛性，从而提高检测的稳定性、减少迭代次数、降低复杂性。算法使用的强化学习是一个既关注迭代中间层又关注迭代最终层的网络，并且通过设计中间激励的方式，从而在避免稀疏奖励的同时又达到了提升迭代中间层收敛性能的目的。优于传统ep信号检测算法的是，不仅复杂度没有提升，而且抗干扰性能也得到了一定的优化。
[0149]
实施例二：
[0150]
本实施例提供一种期望传播信号检测优化装置，包括：
[0151]
算法优化模块：用于利用预构建的强化学习模型，对预获取的期望传播算法进行优化，获取改进的期望传播算法；
[0152]
信号检测模块：用于将改进的期望传播算法运用到预构建的正交时频空间系统模型中，进行信号检测，实现期望传播信号检测优化；
[0153]
其中，强化学习模型为由演员-评论员算法模型改进获取的优势演员-评论员算法
模型。
[0154]
本发明实施例所提供的期望传播信号检测优化装置可执行本发明任意实施例所提供的期望传播信号检测优化方法，具备执行方法相应的功能模块和有益效果。
[0155]
实施例三：
[0156]
本实施例提供一种电子设备，包括处理器及存储介质；
[0157]
存储介质用于存储指令；
[0158]
处理器用于根据指令进行操作以执行实施例一中方法的步骤。
[0159]
实施例四：
[0160]
本实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现实施例一中方法的步骤。
[0161]
本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0162]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0163]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0164]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0165]
以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

技术特征：
1.一种期望传播信号检测优化方法，其特征在于，包括：利用预构建的强化学习模型，对预获取的期望传播算法进行优化，获取改进的期望传播算法；将所述改进的期望传播算法运用到预构建的正交时频空间系统模型中，进行信号检测，实现期望传播信号检测优化；其中，所述强化学习模型为由演员-评论员算法模型改进获取的优势演员-评论员算法模型。2.根据权利要求1所述的期望传播信号检测优化方法，其特征在于，利用优势演员-评论员算法模型，对预获取的期望传播算法进行优化，获取改进的期望传播算法包括：将期望传播算法的信噪比、运行速度和当前迭代次数作为优势演员-评论员算法模型的状态信息，将优势演员-评论员算法模型中的基线函数设为期望传播算法使用固定阻尼因子时的信号检测误差值；将期望传播算法的每一次迭代作为一层网络，并将每一层网络进行串联，获取串联网络流图；在所述串联网络流图的每一层内相同位置加入训练参数并将训练参数初始化为0、1、1；结合所述状态信息和基线函数，训练阻尼因子参数并利用训练参数和加快期望传播算法的收敛速度，以损失函数最小为目标，采用批量梯度下降算法，在不同信号传输过程中对期望传播算法进行训练，获取改进的期望传播算法。3.根据权利要求2所述的期望传播信号检测优化方法，其特征在于，所述不同信号传输过程包括不同信噪比、不同运行速度和不同迭代次数下的信号传输过程。4.根据权利要求1所述的期望传播信号检测优化方法，其特征在于，所述正交时频空间系统模型的表达式如公式(1)所示：y＝hx+w
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)公式(1)中，y为接收信号，y∈r
mn
×1，h为信道矩阵，h∈r
mn
×
mn
，x为发送信号，x∈r
mn
×1，w为噪声，w∈r
mn
×1，m为延迟维度总点数，n为多普勒域总点数；对发送信号x进行isfft变换，获取发送信号x的频域表达式，所述发送信号x的频域表达式如公式(2)所示：公式(2)中，x[n，m]为发送信号x在时域格点n和频域格点m处的频域表达式，x[k，l]为发送信号x在时域格点k和频域格点l处的频域表达式，n为时域格点n，m为频域格点m，k为时域格点k，l为频域格点l；对接收信号y进行维纳变换，将接收信号y变换为时频域接收信号y(f，t)，接收信号y的频域表达式如公式(3)所示：y[m，n]＝ y(f，t)|
t＝nt，f＝mδf
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)公式(3)中，y[m，n]为接收信号的频域表达式，t为采样事件，δf为采样频率；对时频域接收信号y(f，t)进行sfft变换，获取延迟多普勒域接收信号，所述延迟多普
勒域接收信号的表达式如公式(4)所示：公式(4)中，y[k，l]为延迟多普勒域接收信号的表达式。5.根据权利要求1所述的期望传播信号检测优化方法，其特征在于，将所述改进的期望传播算法运用到预构建的正交时频空间系统模型中，进行信号检测，实现期望传播信号检测优化包括：采用贝叶斯估计法，获取正交时频空间系统模型中发送信号的真实先验概率密度函数和信道的转移概率密度函数；根据所述发送信号的真实先验概率密度函数和信道的转移概率密度函数，对发送信号的真实先验值和近似值的外边缘分布做矩匹配，获取所述发送信号的真实先验概率密度函数的高斯近似的均值和方差；根据所述发送信号的真实先验概率密度函数的高斯近似的均值和方差，利用所述改进的期望传播算法，进行信号检测，恢复发送信号，实现期望传播信号检测优化。6.一种期望传播信号检测优化装置，其特征在于，包括：算法优化模块：用于利用预构建的强化学习模型，对预获取的期望传播算法进行优化，获取改进的期望传播算法；信号检测模块：用于将所述改进的期望传播算法运用到预构建的正交时频空间系统模型中，进行信号检测，实现期望传播信号检测优化；其中，所述强化学习模型为由演员-评论员算法模型改进获取的优势演员-评论员算法模型。7.一种电子设备，其特征在于，包括处理器及存储介质；所述存储介质用于存储指令；所述处理器用于根据所述指令进行操作以执行根据权利要求1～5任一项所述方法的步骤。8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1～5任一项所述方法的步骤。

技术总结
本发明公开了一种期望传播信号检测优化方法、装置、电子设备及存储介质，属于信号检测技术领域，方法包括：利用预构建的强化学习模型，对预获取的期望传播算法进行优化，获取改进的期望传播算法；将所述改进的期望传播算法运用到预构建的正交时频空间系统模型中，进行信号检测，实现期望传播信号检测优化；其中，所述强化学习模型为由演员-评论员算法模型改进获取的优势演员-评论员算法模型。该方法能够提高信号检测的稳定性和可靠性。提高信号检测的稳定性和可靠性。提高信号检测的稳定性和可靠性。

技术研发人员：侯晓赟王一晁王庆尧蔡嘉晨曾至昊
受保护的技术使用者：南京邮电大学
技术研发日：2023.05.12
技术公布日：2023/7/26

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种去离子器及热管理系统的制作方法 下一篇：一种源极跟随器电压失配调整电路的制作方法

一种期望传播信号检测优化方法、装置、电子设备及存储介质

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种期望传播信号检测优化方法、装置、电子设备及存储介质

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表