关于深度学习:深度学习在物理层信号处理中的应用研究

摘要：本文次要介绍基于深度学习的物理层利用，并提出一种基于深度 Q 网络（DQN）的 MIMO 零碎地位信息验证计划，接收者在多变未知的信道环境下利用深度 Q 网络不断更新。

随着挪动流量出现的爆发式增长、高可靠性和低时延的通信场景给以后网络带来了更大的复杂性和计算挑战。据 IBM 报道，挪动数据量到 2020 年将超过 40 万亿 Gbits，比 2009 年减少 44 倍，连贯总设施量将达到 500 亿。为了满足这一需要，须要新的通信实践和翻新技术来满足 5G 零碎的需要。近些年深度学习范式的倒退使引起了学术界和工业界对基于深度学习的无线通信技术的钻研，钻研后果证实了深度学习技术能够进步无线通信零碎的性能，并有后劲利用在物理层进行烦扰调整、信道预计和信号检测、信号处理等方面。

深度学习的概念源于人工神经网络（ANN）的钻研，由 Hinton 等人于 2006 年提出。如图 1 所示，深度学习通过建设具备阶层构造的 ANN，往往蕴含一个输出层、多个暗藏层和一个输入层。每个层之间采纳不同的权重与邻层之间进行连贯，通过对输出信息进行逐层提取和筛选，能够实现端到端的监督学习和非监督学习。深度神经网络包含前馈神经网络（FNN）、循环神经网络（RNN）、卷积神经网络（CNN）、反抗生成网络（GAN）和深度信念网络等。其中基于门控的 RNN，例如长短期记忆（LSTM）网络对于输出有肯定的记忆性能，因而常被用于物理层信号处理和信道状态信息估计等。此外，深度学习也可参加构建强化学习（RL）零碎，造成深度强化学习，例如深度 Q 网络（DQN）[1]，能够用于对物理层信号处理策略制订的优化。

作为 RNN 的一个变体，长短期记忆网络能够无效解决简略循环神经网络的梯度爆炸或隐没问题。RNN 通过隐状态来存储历史信息。在简略的 RNN 中，隐状态的每个时刻都会被重写，因而能够看作是一种短期记忆。而在 LSTM 网络中，记忆单元保留要害信息的工夫要长于短期记忆。LSTM 网络引入门机制来管制信息传递的门路。门机制取值在 0 到 1 之间，来管制信息通过的比例。LSTM 网络次要包含了 3 个门，其中忘记门管制上一个时刻的外部状态须要忘记多少信息；输出门管制以后时刻的候选状态保留多少信息；输入门管制以后时刻的外部状态有多少信息须要输入给内部状态。

DQN 将 CNN 与 Q 学习联合起来，采纳 Q 学习的目标值函数来结构深度学习的指标函数，利用记忆回放机制来解决数据之间的关联性问题，并采纳迭代更新解决零碎稳定性问题。假如环境在时刻所处的状态为，代理依据肯定的策略来采取动作，并取得处分。而后，环境在时刻转移到以转移概率转移到了下一个状态。在 DQN 中，代理通过一系列口头与环境进行交互，目标是最大化累积处分。

同时，采纳基于卷积神经网络的教训回放来进行 Q 函数的一直近似。在教训回放中，代理每一步应用 ξ -greedy 来抉择动作，并将每个时刻的学习教训保留在教训池中。在算法的参数更新循环里，对记忆池里的样本进行随机采样或批量随机采样，通过 Q 学习对模型进行参数更新。并通过 CNN 来依据之前的教训，一直近似最大的 Q 值。CNN 的损失函数就是近似的 Q 值与实在 Q 值之间的偏差，通过梯度降落算法一直调整神经网络的权重，就可一直缩小损失函数的值。

近年来，学术界和工业界曾经呈现了一些深度学习利用于物理层的相干工作，钻研后果发表深度学习能够进步物理层性能。本大节从物理层信号处理的角度，从信道状态信息（CSI）预计、信号编解码、烦扰调整和信号检测四个方面对目前已有的相干工作进行举例和阐明。

准确的 CSI 获取对于保障无线通信零碎的链路性能至关重要。无线网络依据信道预计状态来抉择具体的信号管制计划，例如，当 CSI 较低时，物理层采纳低阶调制计划来反抗顽劣的通信状态从而升高误码率。5G 通信零碎采纳多输出多输入（MIMO）、毫米波和非正交多址接入（NOMA）等技术，使得通信单方领有更多的传输信道，信道预计问题也变得更加简单。传统的 CSI 预计计划须要执行具备高复杂度的矩阵运算，受到了计算资源和时延的限度。

利用深度学习来失去 CSI 信息时空和上下行之间的关联性，曾经被证实能够进步 CSI 预计的效率，并缩小所需上下行参考信息的数据量 [2]。如图 2 所示，论文[3] 提出将历史 CSI 数据通过一个二维卷积神经网络提取频率特色矢量，再利用一个一维卷积神经网络来从频率特色矢量中提取状态特色矢量。最初，一个 LSTM 网络用来进行 CSI 状态预测。因为二维卷积神经网络最后是用来解决图片数据的，因而，作者将 CSI 原始数据宰割成单元格，每个单元格对应一个图片像素。每个频带的 CSI 和辅助信息对应的像素组成一个频道。因而，N 个频带的数据将被转换成 N 个频道的像素信息，并输出到学习框架中。

深度学习在信源编码和信道编码方面的利用，也证实了其能够进步编码效率并升高网络的 BER。基于深度学习框架的联结编码方案能够通过循环神经网络实现对本文的源编码（结构化），而后将结构化的信息输出双向的 LSTM 网络，并最终输入最终传输的二进制数据流。在接收端，LSTM 用来进行解码解决。论文 [4] 提出了就有全连贯深度神经网络的编码器，用来进步基于相信流传算法的 HPDC 解码效率。O’Shea 等人在 [5] 中将整个物理层建模为一个蕴含了调制、信道编码和信号分类性能的自编码器，并利用卷积神经网络来对自编码器进行训练。如图 3 所示，在多密集层神经网络的学习框架中，输出信号被编码为独热编码（One-hot encoding），无线信道建模为一个噪声层。穿插熵损失函数和随机梯度降落算法用来训练模型，在输入端将最高概率的输入信号作为解码后果。

MIMO 零碎中的烦扰调整通过线性预编码技术来调整发射信号，使得接收端的干扰信号能够管制在一个降维子空间里，从而冲破 MIMO 零碎烦扰问题带来的吞吐量限度。现有工作中曾经有钻研结果表明，利用深度学习能够进步烦扰调整网络中的吞吐量，并获得优化后果。He 等人在 [6] 中提出了采纳 DQN 来取得烦扰调整下最优的用户抉择策略。在该机制中，地方调度器用来收集所有信道状态和每个用户的缓存状态，并将信道资源分配给每个用户。信道的时变过程用一个无限状态马尔科夫模型来进行建模，零碎的状态定义为每个用户的信道状态和缓存情况。地方调度器用来为零碎训练处最佳策略，对应的零碎动作定义为是否为每个用户调配信道资源来进行数据的传输，来最大化烦扰调整网络的吞吐量。DQN 也可被用于认知无线电网络中次用户与主用户之间的烦扰打消，次用户利用跳频和移动性来抵挡烦扰者[7]。

基于 DL 的检测算法能够显著进步通信零碎的性能，尤其适当传统的解决模块须要联结优化或是信道无奈用常见的分析模型来表征时。论文 [8] 提出了一个五层全连贯的 DNN 框架嵌入到 OFDM 接收器中来进行联结信道预计和信号检测。将接管到的信号以及对应的传输数据和导频作为输出，DNN 能够推断出信道信息，而且能够用来预测发送的数据。在 MIMO 中检测中，基于贝叶斯最优检测器的迭代办法曾经被证实有较优的性能和中等的计算复杂度。但在很多更简单的环境下，未知的信道散布条件将限度这种检测器的成果。利用深度学习算法，能够依据肯定的输出数据来复原模型参数，从而进步检测器的自适应能力。同时，在一些状况下，深度学习算法还能够利用一些语义信息，例如接收器的地位和四周车辆节点的信息，来进行波束预测，从而进步零碎性能。

在基于位置服务的场景中，车辆或者用户须要一直发送信标音讯来报告本人的地位，从而进步位置服务和网络性能。但有些车辆或用户会抉择发送虚伪的地位来获取更多的资源，影响了网络服务的效用。

在 MIMO 零碎中，传输信号往往蕴含了丰盛的信息（达到角、接管功率等）能够在接收端利用信号检测技术对信标音讯进行地位验证。咱们提出基于 DQN 的信号检测机制，能够用于 MIMO 零碎中发送者的地位信息验证和对信息伪造者的检测。次要的思维为，接收端对接管的信号采纳最大似然预计进行假设检验，当接管到的信号通过检测测验时，则认为发送信号来自于发送者上报的地位。否则，认为发送者上报了虚伪的地位信息。为了进步在多变的信道状态下的检测性能，在接收端基于 DQN 来预测采纳不同的检测阈值能够获得的收益，并选取最优的检测阈值。零碎框架如图 4 所示。

1）零碎模型 假设检验中的零假如定为发送节点上报实在地位信息，备择假如为发送节点上报了虚伪地位信息。在每个时刻，接收端收到发送端的信号都与发送端与接收端之间的实在地位、信道状态和信号达到角无关。在已知发送信息和发送功率的条件下，接收端能够利用最大似然检测来对接管到的信号进行假设检验。

2）最大似然检测 接收端采纳最大似然检测算法来验证接管到的信号，检测规定定义为：

其中代表检测阈值，取值范畴为。和代表检测后果别离为失常和虚伪上报。和别离为观测信号在零假如和备择假如下的后验散布。依据 [9] 可得，假设检验的后果（误报率和失落率）与发送者的理论地位、上报地位、信道情况和检测阈值无关。对于接收端来说，发送者的理论地位、上报地位以及信道状态属于未知或局部已知的环境变量，在与发送者之间一直的信息交互过程中，本文提出接收端能够基于 DQN 来一直优化检测阈值的抉择，从而进步信号检测的准确率。

3）基于 DQN 的检测阈值优化

在本文提出的机制中，将接收端的状态空间分为两个维度，第一个维度是发送端到接收端的信道状态，第二个维度是信道检测的后果。信道状态空间包含量化后的一系列信道指标，并假如信道的状态转移合乎马尔科夫过程，即信道在以后时刻的状态都只与上一个时刻的状态无关。后果状态空间包含四种：实在数据检测后果为真、实在数据检测后果为假；虚伪数据检测后果为真以及虚伪数据检测后果为假。在每次动作过程中，接收端的间接处分与检测后果无关，当检测后果正确时取得正收益，当检测后果谬误时取得负收益。接收端的动作定义为进行信号检测的阈值，动作空间包含一系列量化的检测阈值。在每个片刻，接收端的混合策略为抉择不同检测阈值的概率。基于本文第二章介绍的 DQN 原理，接收端在每次经验后，将本人抉择的测验阈值、对应的状态后果和收益存储到教训池，利用 CNN 对 Q 函数进行训练预测，一直优化对检测阈值的抉择。

在本文中，咱们通过现有工作和案例证实了深度学习在物理层通信中的微小利用后劲。除了以上介绍的几种利用方向，深度学习在端到端通信零碎中也失去了肯定的利用。不过，目前还尚未有论断基于深度学习的端到端通信零碎性能是否会最终超过传统通信零碎性能。另外，基于深度学习的物理层利用须要数据驱动，为了进步深度学习模型的训练效率，能够将须要长时间训练的模块进行交融，并须要思考在良好的性能和训练效率之间的衡量。深度学习利用的衰亡次要归功于各种可用的数据集，但目前用于无线通信相干的数据集依然较少。数据的平安和隐衷问题进一步限度了在真实世界对通信数据的拜访性能。但为了基于深度学习的通信利用，须要一些开放性电信数据集的公布和共享。最初，5G 复杂多变的通信环境，包含 MIMO、毫米波通信以及 NOMA 技术等，也为深度学习的利用带来了微小的后劲。

参考文献

[1] Mnih, Volodymyr, et al. “Human-levelcontrol through deep reinforcement learning.” Nature 518.7540(2015): 529. https://www.nature.com/articl…

[2] A. Mousavi and R. G. Baraniuk,“Learning toInvert: Signal Recovery via Deep Convolutional Networks,”Proc. IEEE Int’l.Conf. Acoustics Speech Signal Process. (ICASSP’17), New Orleans, LA, Mar. 2017,pp. 2272–76.

[3] C. Luo, J. Ji, Q. Wang, X. Chen and P. Li,”Channel State Information Prediction for 5G Wireless Communications: ADeep Learning Approach,” in IEEE Transactions on Network Science andEngineering, early access.

[4] E. Nachmani, Y. Be’ery, and D. Burshtein,“Learning to decode linear codes using deep learning,”in Proc. Communication,Control, and Computing (Allerton), 2016, pp. 341–346.

[5] T. O’Shea and J. Hoydis, “An Introduction to Deep Learning for thePhysical Layer,” in IEEE Transactions on Cognitive Communications andNetworking, vol. 3, no. 4, pp. 563-575, Dec. 2017.

[6] Y. He, C. Liang, F. R. Yu, N. Zhao, and H.Yin,“Optimization of cache-enabled opportunistic interference alignmentwireless networks: A big data deep reinforcement learning approach,”in Proc.IEEE Int. Conf. Commun. (ICC), May 2017, pp. 1–6.

[7] G. Han, L. Xiao, and H. V. Poor,“Two-dimensional anti-jamming communication based on deep reinforcementlearning,”in Proc. IEEE Int. Conf. Acoust. Speech Signal Process. (ICASSP),New Orleans, USA, Mar. 2017, pp. 2087–2091.

[8] H. Ye, G. Y. Li, and B.-H. F. Juang,“Power ofDeep Learning for Channel Estimation and Signal Detection in OFDM Systems,”IEEE Wireless Commun. Lett., vol. 7, no. 1, Feb. 2018, pp. 114–17.

[9] Bai, Lin, Jinho Choi, and Quan Yu.“SignalProcessing at Receivers: Detection Theory.”Low Complexity MIMO Receivers,Springer, Cham, 2014. pp.5-28.

本文分享自华为云社区《深度学习在物理层信号处理中的利用钻研》，原文作者：就挺忽然。

点击关注，第一工夫理解华为云陈腐技术~

关于深度学习:深度学习在物理层信号处理中的应用研究

01 引言

02 深度学习范式

1）长短期记忆网络

2）深度 Q 网络

03 基于深度学习的物理层信号处理利用

1）基于深度学习的 CSI 预计

2）基于深度学习的编解码

3）基于深度学习的烦扰调整

4）基于深度学习的信号检测

04 基于 DQN 的信号检测机制

05 总结与将来倒退倡议