基于置信区间上界算法与DRL算法的动态频谱接入方法与流程

专利2022-05-09 179

本发明属于无线通信领域，涉及一种基于置信区间上界算法与drl算法的动态频谱接入方法。

背景技术：

近年来，增加频谱资源是未来无线通信网络应对这种指数级数据流量增长的关键解决方案之一。然而，无线电频谱是一种昂贵而稀缺的资源。目前无线电频谱的短缺使得无线运营商很难获得足够的专有许可频段。另一方面，来自学术界和工业界的实验测试和调查表明，静态频谱分配政策导致了分配的许可频段的利用率不足，大多数授权频段的利用率都在30％以下，超过一半的授权频段利用率低于20％。这些统计结果反映了无线电频谱资源利用不足的事实，这促使业界重新考虑当前的静态频谱分配政策，并采用动态频谱接入来促进频谱高效利用。

为了实现认知用户和主用户之间的频谱共存，目前已经提出了多种频谱接入策略，主要分为两种频谱接入机制。第一种是先听后说(listenbeforetalk,lbt)，也称为交织方案，在这种方案中，sue只有在检测到频带可用时才能访问该频带。虽然该方案可以有效地避免对主用户产生强干扰，但是sue访问共享频段的机会是相当有限的。这是因为在lbt下，频谱接入完全依赖于当前的频谱接入结果。在现实中，由于无线环境的随机性、认知用户之间的有限合作或者无合作以及其他实际因素，频谱接入结果总是可能存在很大误差的。这将导致对主用户活动的误报或漏检，从而导致认知用户对信道访问做出不正确的决策。第二种频谱接入方案是频谱共享，也称为底层方案。在该方案中，认知用户与主用户在共享频带上共存，并且调整它们的发射功率电平，使得在主用户处经历的累积干扰小于可容忍的干扰阈值。该方案需要一个很强的假设，即假设已经知道认知用户的发射机和主用户的接收机之间的信道状态信息，以便进行功率控制。然而，在现实中，如果没有中央控制器，通常很难获得这些信道状态信息。即使在存在中央控制器的情况下，交换这些信道状态信息也可能对底层网络施加沉重的控制开销，使得其难以在实践中实现。

综上所述，针对传统动态频谱接入的各种欠缺与不足，亟需一种新的动态频谱接入方法来解决上述问题。

技术实现要素：

有鉴于此，本发明的目的在于提供一种基于置信区间上界算法与深度强化学习(drl)算法结合的动态频谱接入方法，针对传统动态频谱接入的各种欠缺与不足的问题，在信道动态变化规律未知的情况下，获得近乎信道状态转移规律已知情况下所对应的最优动态频谱接入策略。

为达到上述目的，本发明提供如下技术方案：

一种基于置信区间上界算法与drl算法的动态频谱接入方法，具体包括以下步骤：

s1：构建分布式动态频谱接入系统模型；

s2：构建次用户设备(secondaryuserequipment,sue)的累积期望奖励函数；

s3：根据第l个sue在t时隙之前的m个时隙的历史经验以及接入信道的状态动作，得到最优接入策略，以获得最大的累积期望奖励；

s4：采用深度强化学习中的dqn算法和置信区间上界算法结合的方法对接入策略进行求解，通过不断迭代获得最优接入策略。

进一步，步骤s1中，构建的分布式动态频谱接入系统模型，具体包括：n个主用户(primaryuser,pu)组成的主用户网络和l个sue组成的次用户网络；假设有n个正交信道，每个pu在唯一的无线信道上传输，以避免pu之间的干扰；pu在信道上的工作状态表示为活跃(标记为1)和空闲(标记为0)两种，并且以tdma的方式在信道中进行通信。而信道的状态由pu的状态决定：占用(0)或空闲(1)，则所有信道的状态由2ⁿ个状态的离散马尔可夫模型来描述，其状态空间表示为：s＝{s＝{s1,s2,...,sn,...,sn)∣sn＝0或1,n＝1,2,...,n}，其中，sn＝0或1分别表示每个信道的两种状态：占用(0)或空闲(1)。

进一步，步骤s1中，单个信道上的状态转移概率表示为：

其中，pij表示状态i转移为状态j的概率。假定信道平稳，则转移矩阵p是常数且与时间无关。

进一步，步骤s1中，假设每个sue都有传输数据的需要，每个sue至少要选择一个信道进行接入进而传输数据，且不同的sue接入动作空间都是相同的，此时用第l个sue的动作空间来概括表示；第l个sue在时隙t内的接入动作表示为：

a^l(t)∈{1,2,...,n,...,n}

其中，a^l(t)表示在时隙t内，第l个sue将要接入并且传输数据的信道；假设sue在t时隙接入第n个信道之后，sue发送端接收到接收端通过控制信道发送的sue所接入的第n个信道的反馈为sue接入第n个信道后，会发生三种情况：(1)sue成功传输；(2)sue之间相互碰撞干扰；(3)sue对pu产生了干扰；对应于这三种情况，分别设置反馈为即

进一步，步骤s1中，将奖励值设置为反馈信号的值，则第l个sue获得的累积折扣奖励表示为：

其中，0≤γ≤1为折扣因子，表示未来的奖励对当前动作的影响；r^l(t)表示第l个sue在信道上传输成功的奖励值。

进一步，步骤s2中，构建的sue的累积期望奖励函数，表达式为：

其中，表示第l个sue在t时隙之前的m个时隙的历史经验，l表示sue的数量。

进一步，步骤s2中，第l个sue在t时隙之前的m个时隙的历史经验选取动作接入信道，以获得最大的累积期望奖励，由此sue最优接入策略公式为：

进一步，步骤s3中，采用深度强化学习中的dqn算法和置信区间上界算法结合的方法对接入策略进行求解，具体包括：sue采取动作时，在t时隙选择动作为其中，表示在t时隙之前动作被选择的次数，σ表示不确定度量，控制探索的程度；表示第l个sue在t时隙给定历史经验作为状态下采取动作的q值，其公式表示为

本发明的有益效果在于：本发明能够适应动态变化的认知无线电环境。具体来说，通过深度强化学习，频谱接入选择不仅取决于当前的频谱接入结果，还取决于过去频谱状态的学习结果。通过这种方式将可能大大减轻传统非完善接入方法在频谱接入性能方面的负面效果。另外，深度强化学习可以使认知用户设备获得比较准确的信道状态和有用的信道状态预测/统计信息，如主用户的行为规律等。基于本发明的频谱接入还可以大大减少认知用户设备和主用户之间的冲突。另外，采用置信区间的探索策略也加快了深度强化学习的探索和收敛速度。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为动态频谱接入场景图；

图2为信道的状态转换模型；

图3为基于置信区间与深度强化学习结合的动态频谱接入方法流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图3，基于置信区间与深度强化学习结合的动态频谱接入方法实施过程，具体包括以下三个初始条件和五个主要步骤。

初始条件1：

系统模型为特定小区内的动态多信道接入问题，其结构如图1所示。考虑在动态多信道接入场景中，存在n个pu组成的主用户网络和l个sue组成的次用户网络。假设有n个正交信道，每个pu在唯一的无线信道上传输，以避免pu之间的干扰；sue则随时可能在此n个信道中寻找空闲信道进行传输。由于可能会无法接入信道或在接入信道时发生失败的传输，因此需要收发之间以反馈信号标记是否成功传输。具体来说，当sue接收器成功从一个信道接收到一个数据包时，它在该时隙末端通过sue系统本身的公共控制信道向其对应的发送端发送反馈信号。pu在信道上的工作状态可以表示为活跃(标记为1)和非活跃(标记为0)两种，并且以tdma的方式在信道中进行通信。信道的状态由pu状态决定：假设处于信道n上的pu状态为活跃，表示信道处于繁忙状态，信道的状态表示为0；相反，在时隙t内，若第n个信道处于空闲状态，表示为1。

初始条件2：

信道的状态符合离散马尔科夫模型，n个信道的状态空间表示如下：

s＝{s＝(s1,...,sn,...,sn)∣sn＝0或1,n＝1,2,...,n}(1)

其中，sn＝0或1分别表示每个信道的两种状态：占用(0)和空闲(1)。

每个信道的状态被描述为马尔可夫链，则第n个信道上的状态转移概率表示为：

其中，pij表示状态i转移为状态j的概率，转移矩阵pn是常数且与时间无关。由于sue只能在每个时隙的开始接入一个信道，无法观察到所有信道的状态，因此考虑的动态多信道接入问题属于pomdp的范畴，本发明采用深度强化学习的方法来解决此问题。

初始条件3：

假设每个sue都有传输数据的需要，每个sue至少要选择一个信道进行接入进而传输数据，且不同的sue接入动作空间都是相同的，此时用第l个sue的动作空间来概括表示。第l个sue在时隙t内的接入动作表示为：

a^l(t)∈{1,2,...,n}(3)

其中，a^l(t)表示在时隙t内，第l个sue将要接入并且传输数据的信道。假设sue在t时隙接入第n个信道之后，sue发送端接收到接收端通过控制信道发送的sue所接入的第n个信道的反馈为sue接入第n个信道后，会发生三种情况：(1)sue成功传输；(2)sue之间相互碰撞干扰；(3)sue对pu产生了干扰。对应于这三种情况，分别设置反馈为即

初始条件4：

假设第l个sue在t时隙基于历史经验采取策略π^l(t)接入第n个信道之后，sue发送端接收到接收端通过控制信道发送的sue所接入的第n个信道的反馈信号第l个sue的数据成功传输与否，依赖于此时pu占用信道的状态以及其他sue接入动作策略，若信道被pu占用或者已有sue接入信道传输数据，此时第l个sue传输数据失败。一般为了表示第l个sue在第n个信道上传输的质量，可以将成功传输的奖励设置为在信道上传输速率，例如其中，b为第n个信道带宽。为了简化计算过程，在实施例中将奖励值设置为反馈信号的值。由此第l个sue获得的累积折扣奖励可以表示为：

其中，0≤γ≤1为折扣因子，表示未来的奖励对当前动作的影响。

步骤1：

动态频谱接入策略是分布式的，接入结果信息不在sue之间共享。每个sue都有自己的dqn网络来独立地进行信道接入决策。根据初始条件4，每个sue的目标是找到一个适合当前动态频谱环境的策略π，促使sue采取合适的接入动作，从而使得sue自身的累积折扣奖励最大化。将历史时隙的观测值映射到下一时隙的动作，第l个sue在的累积期望奖励函数可以表示为

其中，γ∈(0,1)表示衰减因子，为第l个sue在t时隙采取的动作，s表示强化学习中的状态；表示第l个sue在t时隙之前的m个时隙的历史经验，包括其所接入的信道及其所观察的信道状态。由式(7)可以的得知优化策略公式表示为：

步骤2：

衡量策略的优劣除了通过式(5)，还可以通过状态动作值函数，即q函数进行衡量。在策略π下，第l个sue的q函数表示为：

其中，s和a表示强化学习中的状态和动作。

则式(6)的第l个sue的接入策略可以通过求q值的方式来求解：

动态频谱接入的接入策略是分布式的，因为在sue之间不会共享接入结果和历史经验信息，所以每个sue都有其独立的深度强化学习来决定接入信道的决策，但是不同sue之间求解策略的方式是相同的，唯一需要注意的是不同的sue之间可能会接入相同的信道，从而造成sue之间的干扰，为避免sue之间接入相同信道的冲突，本发明中不同sue之间也需要学习其他sue的策略，其主要通过奖励值的不同(即反馈信号)来进行学习。

步骤3：

采用深度强化学习中的dqn算法和置信区间上界算法(upperconfidencebound,ucb)结合的方法对接入策略进行求解。首先对学习过程中的变量进行初始化：①初始化经验回放池e的大小为d；②初始化第l个sue的dqn中的两个网络：当前网络和目标网络，将其分别表示为和设置当前网络的权重为θ，目标网络的权重θ^-＝θ；③初始化学习速率α＝10^-4，神经网络中的激活函数为relu，衰减因子γ＝0.9。

步骤4：

在t时隙，第l个sue将历史经验和采取的动作作为神经网络的输入，输出基于此状态的所有状态动作对的q值当第l个sue在t时隙基于置信区间上界的策略采取动作时，其最优动作表示为：

其中，表示置信度，表示第l个sue在t时隙之前动作被选择的次数，σ表示不确定度量，控制了探索的程度，表示第l个sue在t时隙给定历史经验作为状态下所采取动作的q值，其公式为

q值的更新采用dqn ucb的方法，第l个sue的q值更新公式表示为：

其中，表示在t时隙之前被选择的次数表示算法对当前状态动作对的确定程度的置信值，其中c＞0表示一个常量，h表示每个回合迭代步数，在动态频谱接入中接入或不接入为一个回合，所以h一般设置为1(h³在此场景中是没什么意义的，只有当一个回合的动作比较多的时候影响才会比较大，例如，迷宫场景中从起点到终点为一个回合的情况)；当ι＝log(s||a|t/p)时探索的效率最高，其中p∈(0,1)，|s|表示状态的数量，|a|表示动作的数量，t表示算法运行时间。

在与环境交互学习过程中，将接入动作历史经验作为状态得到的奖励以及产生的新的状态作为训练样本存放到经验回放池e中，当经验回放池中训练样本的数量大于m时，将旧的训练样本删除。在后续dqn训练时，可以不断从经验回放池中随机选取样本输入神经网络进训练，从而打破数据之间的相关性。

步骤5：

由步骤3可知，dqn中，神经网络有两种：一种是当前网络表示求解所有动作的累积折扣奖励的估计；一种是目标网络用于产生目标值，两种网络有着相同的结构。在dqn中采用时间差分的方式计算损失函数，即损失函数表示为：

其中，表示目标网络产生的目标值。

使用adam方法对损失函数l(θ)中的权重θ进行更新。每隔ts个时隙更新目标网络，令θ^-＝θ。

步骤6：经过一段时间的迭代学习，每个sue逐渐得到其自身的最优接入策略

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

技术特征：

1.一种基于置信区间上界算法与drl算法的动态频谱接入方法，其特征在于，该方法具体包括以下步骤：

s1：构建分布式动态频谱接入系统模型；

s2：构建sue的累积期望奖励函数；

s3：根据第l个sue在t时隙之前的m个时隙的历史经验以及接入信道的状态动作，得到最优接入策略，以获得最大的累积期望奖励；

s4：采用深度强化学习中的dqn算法和置信区间上界算法结合的方法对接入策略进行求解，通过不断迭代获得最优接入策略。

2.根据权利要求1所述的动态频谱接入方法，其特征在于，步骤s1中，构建的分布式动态频谱接入系统模型，具体包括：n个pu组成的主用户网络和l个sue组成的次用户网络；假设有n个正交信道，每个pu在唯一的无线信道上传输；pu在信道上的工作状态表示为活跃和空闲，分别标记为“1”和“0”；则所有信道的状态由2ⁿ个状态的离散马尔可夫模型来描述，其状态空间表示为：s＝{s＝(s1,s2,...,sn,...,sn)∣sn＝0或1,n＝1,2,...,n}，其中，sn＝0或1分别表示每个信道的两种状态：占用或空闲。

3.根据权利要求2所述的动态频谱接入方法，其特征在于，步骤s1中，单个信道上的状态转移概率表示为：

其中，pij表示状态i转移为状态j的概率。

4.根据权利要求2所述的动态频谱接入方法，其特征在于，步骤s1中，假设每个sue都有传输数据的需要，每个sue接入一个信道，且不同的sue接入动作空间都是相同的，此时用第l个sue的动作空间来概括表示；第l个sue在时隙t内的接入动作表示为：

a^l(t)∈{1,2,...,n,...,n}

5.根据权利要求4所述的动态频谱接入方法，其特征在于，步骤s1中，将奖励值设置为反馈信号的值，则第l个sue获得的累积折扣奖励表示为：

其中，0≤γ≤1为折扣因子，表示未来的奖励对当前动作的影响；r^l(t)表示第l个sue在信道上传输成功的奖励值。

6.根据权利要求5所述的动态频谱接入方法，其特征在于，步骤s2中，构建的sue的累积期望奖励函数，表达式为：

其中，表示第l个sue在t时隙之前的m个时隙的历史经验，l表示sue的数量。

7.根据权利要求6所述的动态频谱接入方法，其特征在于，步骤s2中，第l个sue在t时隙之前的m个时隙的历史经验选取动作接入信道，以获得最大的累积期望奖励，由此sue最优接入策略公式为：

8.根据权利要求7所述的动态频谱接入方法，其特征在于，步骤s3中，采用深度强化学习中的dqn算法和置信区间上界算法结合的方法对接入策略进行求解，具体包括：sue采取动作时，在t时隙选择动作为其中，表示在t时隙之前动作被选择的次数，σ表示不确定度量，控制探索的程度；表示第l个sue在t时隙给定历史经验作为状态下采取动作的q值，其公式表示为

技术总结
本发明涉及一种基于置信区间上界算法与DRL算法的动态频谱接入方法，属于无线通信领域。该方法具体包括：S1：构建分布式动态频谱接入系统模型；S2：构建SUE的累积期望奖励函数；S3：根据历史经验和接入信道的状态动作，得到最优接入策略，以获得最大的累积期望奖励；S4：采用深度强化学习中的DQN算法和置信区间上界算法结合的方法对接入策略进行求解，通过不断迭代获得最优接入策略。本发明在信道动态变化规律未知的情况下，可以获得近乎信道状态转移规律已知情况下所对应的最优动态频谱接入策略。

技术研发人员：申滨;颜廷秋;方广进
受保护的技术使用者：重庆邮电大学
技术研发日：2021.05.10
技术公布日：2021.08.03

转载请注明原文地址:https://doc.8miu.com/read-1401.html

专利

最新回复(0)