本发明属于无线通信领域,涉及一种基于置信区间上界算法与drl算法的动态频谱接入方法。
背景技术:
近年来,增加频谱资源是未来无线通信网络应对这种指数级数据流量增长的关键解决方案之一。然而,无线电频谱是一种昂贵而稀缺的资源。目前无线电频谱的短缺使得无线运营商很难获得足够的专有许可频段。另一方面,来自学术界和工业界的实验测试和调查表明,静态频谱分配政策导致了分配的许可频段的利用率不足,大多数授权频段的利用率都在30%以下,超过一半的授权频段利用率低于20%。这些统计结果反映了无线电频谱资源利用不足的事实,这促使业界重新考虑当前的静态频谱分配政策,并采用动态频谱接入来促进频谱高效利用。
为了实现认知用户和主用户之间的频谱共存,目前已经提出了多种频谱接入策略,主要分为两种频谱接入机制。第一种是先听后说(listenbeforetalk,lbt),也称为交织方案,在这种方案中,sue只有在检测到频带可用时才能访问该频带。虽然该方案可以有效地避免对主用户产生强干扰,但是sue访问共享频段的机会是相当有限的。这是因为在lbt下,频谱接入完全依赖于当前的频谱接入结果。在现实中,由于无线环境的随机性、认知用户之间的有限合作或者无合作以及其他实际因素,频谱接入结果总是可能存在很大误差的。这将导致对主用户活动的误报或漏检,从而导致认知用户对信道访问做出不正确的决策。第二种频谱接入方案是频谱共享,也称为底层方案。在该方案中,认知用户与主用户在共享频带上共存,并且调整它们的发射功率电平,使得在主用户处经历的累积干扰小于可容忍的干扰阈值。该方案需要一个很强的假设,即假设已经知道认知用户的发射机和主用户的接收机之间的信道状态信息,以便进行功率控制。然而,在现实中,如果没有中央控制器,通常很难获得这些信道状态信息。即使在存在中央控制器的情况下,交换这些信道状态信息也可能对底层网络施加沉重的控制开销,使得其难以在实践中实现。
综上所述,针对传统动态频谱接入的各种欠缺与不足,亟需一种新的动态频谱接入方法来解决上述问题。
技术实现要素:
有鉴于此,本发明的目的在于提供一种基于置信区间上界算法与深度强化学习(drl)算法结合的动态频谱接入方法,针对传统动态频谱接入的各种欠缺与不足的问题,在信道动态变化规律未知的情况下,获得近乎信道状态转移规律已知情况下所对应的最优动态频谱接入策略。
为达到上述目的,本发明提供如下技术方案:
一种基于置信区间上界算法与drl算法的动态频谱接入方法,具体包括以下步骤:
s1:构建分布式动态频谱接入系统模型;
s2:构建次用户设备(secondaryuserequipment,sue)的累积期望奖励函数;
s3:根据第l个sue在t时隙之前的m个时隙的历史经验
s4:采用深度强化学习中的dqn算法和置信区间上界算法结合的方法对接入策略进行求解,通过不断迭代获得最优接入策略。
进一步,步骤s1中,构建的分布式动态频谱接入系统模型,具体包括:n个主用户(primaryuser,pu)组成的主用户网络和l个sue组成的次用户网络;假设有n个正交信道,每个pu在唯一的无线信道上传输,以避免pu之间的干扰;pu在信道上的工作状态表示为活跃(标记为1)和空闲(标记为0)两种,并且以tdma的方式在信道中进行通信。而信道的状态由pu的状态决定:占用(0)或空闲(1),则所有信道的状态由2n个状态的离散马尔可夫模型来描述,其状态空间表示为:s={s={s1,s2,...,sn,...,sn)∣sn=0或1,n=1,2,...,n},其中,sn=0或1分别表示每个信道的两种状态:占用(0)或空闲(1)。
进一步,步骤s1中,单个信道上的状态转移概率表示为:
其中,pij表示状态i转移为状态j的概率。假定信道平稳,则转移矩阵p是常数且与时间无关。
进一步,步骤s1中,假设每个sue都有传输数据的需要,每个sue至少要选择一个信道进行接入进而传输数据,且不同的sue接入动作空间都是相同的,此时用第l个sue的动作空间来概括表示;第l个sue在时隙t内的接入动作表示为:
al(t)∈{1,2,...,n,...,n}
其中,al(t)表示在时隙t内,第l个sue将要接入并且传输数据的信道;假设sue在t时隙接入第n个信道之后,sue发送端接收到接收端通过控制信道发送的sue所接入的第n个信道的反馈为
进一步,步骤s1中,将奖励值设置为反馈信号
其中,0≤γ≤1为折扣因子,表示未来的奖励对当前动作的影响;rl(t)表示第l个sue在信道上传输成功的奖励值。
进一步,步骤s2中,构建的sue的累积期望奖励函数,表达式为:
其中,
进一步,步骤s2中,第l个sue在t时隙之前的m个时隙的历史经验
进一步,步骤s3中,采用深度强化学习中的dqn算法和置信区间上界算法结合的方法对接入策略进行求解,具体包括:sue采取动作时,在t时隙选择动作为
本发明的有益效果在于:本发明能够适应动态变化的认知无线电环境。具体来说,通过深度强化学习,频谱接入选择不仅取决于当前的频谱接入结果,还取决于过去频谱状态的学习结果。通过这种方式将可能大大减轻传统非完善接入方法在频谱接入性能方面的负面效果。另外,深度强化学习可以使认知用户设备获得比较准确的信道状态和有用的信道状态预测/统计信息,如主用户的行为规律等。基于本发明的频谱接入还可以大大减少认知用户设备和主用户之间的冲突。另外,采用置信区间的探索策略也加快了深度强化学习的探索和收敛速度。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为动态频谱接入场景图;
图2为信道的状态转换模型;
图3为基于置信区间与深度强化学习结合的动态频谱接入方法流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图3,基于置信区间与深度强化学习结合的动态频谱接入方法实施过程,具体包括以下三个初始条件和五个主要步骤。
初始条件1:
系统模型为特定小区内的动态多信道接入问题,其结构如图1所示。考虑在动态多信道接入场景中,存在n个pu组成的主用户网络和l个sue组成的次用户网络。假设有n个正交信道,每个pu在唯一的无线信道上传输,以避免pu之间的干扰;sue则随时可能在此n个信道中寻找空闲信道进行传输。由于可能会无法接入信道或在接入信道时发生失败的传输,因此需要收发之间以反馈信号标记是否成功传输。具体来说,当sue接收器成功从一个信道接收到一个数据包时,它在该时隙末端通过sue系统本身的公共控制信道向其对应的发送端发送反馈信号。pu在信道上的工作状态可以表示为活跃(标记为1)和非活跃(标记为0)两种,并且以tdma的方式在信道中进行通信。信道的状态由pu状态决定:假设处于信道n上的pu状态为活跃,表示信道处于繁忙状态,信道的状态表示为0;相反,在时隙t内,若第n个信道处于空闲状态,表示为1。
初始条件2:
信道的状态符合离散马尔科夫模型,n个信道的状态空间表示如下:
s={s=(s1,...,sn,...,sn)∣sn=0或1,n=1,2,...,n}(1)
其中,sn=0或1分别表示每个信道的两种状态:占用(0)和空闲(1)。
每个信道的状态被描述为马尔可夫链,则第n个信道上的状态转移概率表示为:
其中,pij表示状态i转移为状态j的概率,转移矩阵pn是常数且与时间无关。由于sue只能在每个时隙的开始接入一个信道,无法观察到所有信道的状态,因此考虑的动态多信道接入问题属于pomdp的范畴,本发明采用深度强化学习的方法来解决此问题。
初始条件3:
假设每个sue都有传输数据的需要,每个sue至少要选择一个信道进行接入进而传输数据,且不同的sue接入动作空间都是相同的,此时用第l个sue的动作空间来概括表示。第l个sue在时隙t内的接入动作表示为:
al(t)∈{1,2,...,n}(3)
其中,al(t)表示在时隙t内,第l个sue将要接入并且传输数据的信道。假设sue在t时隙接入第n个信道之后,sue发送端接收到接收端通过控制信道发送的sue所接入的第n个信道的反馈为
初始条件4:
假设第l个sue在t时隙基于历史经验
其中,0≤γ≤1为折扣因子,表示未来的奖励对当前动作的影响。
步骤1:
动态频谱接入策略是分布式的,接入结果信息不在sue之间共享。每个sue都有自己的dqn网络来独立地进行信道接入决策。根据初始条件4,每个sue的目标是找到一个适合当前动态频谱环境的策略π,促使sue采取合适的接入动作,从而使得sue自身的累积折扣奖励最大化。将历史时隙的观测值映射到下一时隙的动作,第l个sue在的累积期望奖励函数可以表示为
其中,γ∈(0,1)表示衰减因子,
步骤2:
衡量策略的优劣除了通过式(5),还可以通过状态动作值函数,即q函数进行衡量。在策略π下,第l个sue的q函数表示为:
其中,s和a表示强化学习中的状态和动作。
则式(6)的第l个sue的接入策略可以通过求q值的方式来求解:
动态频谱接入的接入策略是分布式的,因为在sue之间不会共享接入结果和历史经验信息,所以每个sue都有其独立的深度强化学习来决定接入信道的决策,但是不同sue之间求解策略的方式是相同的,唯一需要注意的是不同的sue之间可能会接入相同的信道,从而造成sue之间的干扰,为避免sue之间接入相同信道的冲突,本发明中不同sue之间也需要学习其他sue的策略,其主要通过奖励值的不同(即反馈信号)来进行学习。
步骤3:
采用深度强化学习中的dqn算法和置信区间上界算法(upperconfidencebound,ucb)结合的方法对接入策略进行求解。首先对学习过程中的变量进行初始化:①初始化经验回放池e的大小为d;②初始化第l个sue的dqn中的两个网络:当前网络和目标网络,将其分别表示为
步骤4:
在t时隙,第l个sue将历史经验
其中,
q值的更新采用dqn ucb的方法,第l个sue的q值更新公式表示为:
其中,
在与环境交互学习过程中,将接入动作
步骤5:
由步骤3可知,dqn中,神经网络有两种:一种是当前网络
其中,
使用adam方法对损失函数l(θ)中的权重θ进行更新。每隔ts个时隙更新目标网络,令θ-=θ。
步骤6:经过一段时间的迭代学习,每个sue逐渐得到其自身的最优接入策略
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
1.一种基于置信区间上界算法与drl算法的动态频谱接入方法,其特征在于,该方法具体包括以下步骤:
s1:构建分布式动态频谱接入系统模型;
s2:构建sue的累积期望奖励函数;
s3:根据第l个sue在t时隙之前的m个时隙的历史经验
s4:采用深度强化学习中的dqn算法和置信区间上界算法结合的方法对接入策略进行求解,通过不断迭代获得最优接入策略。
2.根据权利要求1所述的动态频谱接入方法,其特征在于,步骤s1中,构建的分布式动态频谱接入系统模型,具体包括:n个pu组成的主用户网络和l个sue组成的次用户网络;假设有n个正交信道,每个pu在唯一的无线信道上传输;pu在信道上的工作状态表示为活跃和空闲,分别标记为“1”和“0”;则所有信道的状态由2n个状态的离散马尔可夫模型来描述,其状态空间表示为:s={s=(s1,s2,...,sn,...,sn)∣sn=0或1,n=1,2,...,n},其中,sn=0或1分别表示每个信道的两种状态:占用或空闲。
3.根据权利要求2所述的动态频谱接入方法,其特征在于,步骤s1中,单个信道上的状态转移概率表示为:
其中,pij表示状态i转移为状态j的概率。
4.根据权利要求2所述的动态频谱接入方法,其特征在于,步骤s1中,假设每个sue都有传输数据的需要,每个sue接入一个信道,且不同的sue接入动作空间都是相同的,此时用第l个sue的动作空间来概括表示;第l个sue在时隙t内的接入动作表示为:
al(t)∈{1,2,...,n,...,n}
其中,al(t)表示在时隙t内,第l个sue将要接入并且传输数据的信道;假设sue在t时隙接入第n个信道之后,sue发送端接收到接收端通过控制信道发送的sue所接入的第n个信道的反馈为
5.根据权利要求4所述的动态频谱接入方法,其特征在于,步骤s1中,将奖励值设置为反馈信号
其中,0≤γ≤1为折扣因子,表示未来的奖励对当前动作的影响;rl(t)表示第l个sue在信道上传输成功的奖励值。
6.根据权利要求5所述的动态频谱接入方法,其特征在于,步骤s2中,构建的sue的累积期望奖励函数,表达式为:
其中,
7.根据权利要求6所述的动态频谱接入方法,其特征在于,步骤s2中,第l个sue在t时隙之前的m个时隙的历史经验
8.根据权利要求7所述的动态频谱接入方法,其特征在于,步骤s3中,采用深度强化学习中的dqn算法和置信区间上界算法结合的方法对接入策略进行求解,具体包括:sue采取动作时,在t时隙选择动作为