本发明属于深度强化学习、noma、动态频谱接入、功率控制等领域,涉及一种noma系统中基于分层深度强化学习的动态频谱接入方法。
背景技术:
现有的基于深度强化学习的动态频谱接入方案主要包括:基于集中式深度强化学习的动态频谱接入方案和基于分布式深度强化学习的动态频谱接入方案。其中基于集中式深度强化学习的动态频谱接入方案通过单一的控制中心集中处理全局的环境信息然后做出决策;而基于分布式强化学习的动态频谱接入方案通过用户独自处理局部环境信息然后做出决策或通过用户间相互协作然后做出决策。然而,基于这两种结构的动态频谱接入方案都存在着一定的缺陷,例如:基于分布式深度强化学习的动态频谱接入方案都没有考虑用户的自身特性,例如:用户的通信优先级、数据优先级和用户能量等情况。这是因为在不考虑用户协作的条件下基于分布式深度强化学习的动态频谱接入方案无法做出有效地接入决策,而当考虑用户协作时,由于用户的相互独立,用户间的信息交换需要大量的信令开销。而基于集中式深度强化学习的动态频谱接入方案值考虑了用户的接入控制而没有考虑用户的发送功率控制。这是因为联合考虑发送功率和动态频谱接入控制时,会导致集中控制中心需要处理的数据量爆炸式增长,进而导致算法需要算法更长的时间进更新,且需要更好的硬件设备。
技术实现要素:
有鉴于此,本发明的目的在于降低对于硬件的要求并提高算法收敛速率以及丢包率、收敛速度等方面的性能,提供一种noma系统中基于分层深度强化学习的动态频谱接入方法。
为达到上述目的,本发明提供如下技术方案:
一种noma系统中基于分层深度强化学习的动态频谱接入方法,包括以下步骤:
s1:构造上行多用户多信道的通信场景;
s2:建立信道干扰模型;
s3:将通信优先级高的用户获得信道使用权,确保接入用户解码成功以及最小化系统丢包数的目标表示为一个优化问题;
s4:构建多智能体模型,对s3中优化问题基于马尔可夫决策过程进行建模;
s5:采用集中训练分布执行的方式完成策略的更新和执行。
进一步,步骤s1中具体包括:基于单个网络单元,构造上行多用户多信道的通信场景,其结构如图2所示;该网络由一个基站和多个用户组成,基站位于网络单元的中心,n个单天线用户随机分布在基站的覆盖范围之内;在该网络中,用户通过noma技术实现在与基站的通信;假设该环境存在m个可供用户接入的独立信道,信道宽度为w=5mhz,本发明将信道定义为分配给用户的最小资源单位;为了防止过多的用户间干扰,并确保低硬件复杂度和低处理延迟,本发明假定每个时隙内每一个信道最多可以接入4个用户;在该通信环境中,所有的链路都受到多路径传播和路径损耗所引起的快慢速衰落效应;
所有用户都具有一个容量为l的缓存器用于缓存数据;在每个时隙t的初始阶段,用户n的缓存器状态被定义为bn(t)∈{bn,0,...,bn,l,bn,l},bn(t)=bn,l表示用户n缓存的数据包数量为l;每个时隙t内,用户传输的数据包个数表示为:
其中tt表示传输时间;rn(t)表示用户n能够达到的传输速率;d表示数据包大小;r0=4mbps表示用户需要达到的传输速率阈值;采用round(·)函数的作用是使每个时隙内用户传输的数据包数量始终为一个整数,以降低系统中的状态空间大小;
假设每个时隙t,用户n生成的所有数据包dn(t)为一个整体;当用户n的缓存空间不足以缓存dn(t)时,dn(t)被全部丢弃;因此,在时隙t用户n的丢包数表示为:
因此,在时隙t 1的初始阶段,用户n的缓存器状态表示为:
进一步,步骤s2中具体包括:在noma系统中,使用同一个信道的用户之间存在严重的干扰;因此,为了使接入同一信道的用户能够更加充分地利用信道资源,本发明假设在当前无线通信环境中的所有用户都能够进行功率调整,并且所有用户的发送功率为一个连续的区间,即
s21:使用
其中λ表示信号的波长;
其中pn(t)∈pn表示用户n选择的发送功率;
s22:基于信号强度从强到弱的顺序利用连续干扰消除(successiveinterferencecancellation,sic)技术完成信号解码;当基站解码用户n的信号时,基站接收到的干扰表示为:
其中,
用βj,n(t)表示基站接收到的用户j的信号强度是否大于用户n的信号强度,定义为:
ηj(t)表示用户j的信号是否已经被解码及解码是否成功,定义为:
公式(9)中ηj(t)=0表示解码失败或还未被解码,ηj(t)=1表示已被解码且解码成功;
s23:在每个时隙t,基站从信道m接收到的来自用户n的信干燥比(signaltointerferenceplusnoiseratio,sinr)表示为sinrn(t),即:
其中σ2表示噪声,用户n的传输速率为:
rn(t)=wlog2(1 sinrn(t))(11)。
进一步,步骤s3中,将通信优先级高的用户(用户的优先级取决于用户的缓存数据量)优先获得信道使用权,并在确保接入的用户都解码成功的基础上最小化系统的丢包数目标表示为一个优化问题,表示为:
s.t.c1:rn≥r0
c2:0≤pn≤pmax
c3:
c4:
其中,c1表示用户n的传输速率需要大于规定的阈值,c2表示用户的发送功率限制,c3表示用户n是否接入了信道m以及其信号是否被基站成功解码,当用户n接入信道m且其信号被基站成功解码时
进一步,步骤s4中具体包括:智能体表示基站与所有的用户,智能体的状态空间、智能体的动作空间和智能体获得的奖励函数,分别定义如下:
s41:对于基站而言,其状态空间为sbs;每个时隙t,基站获得的状态为sbs(t)=(bl,1(t-1),...,bl,n(t-1),...bl,n(t-1)),其中bl,n(t-1)=bn(t-1)-cn(t-1)表示上一时隙通信结束后,用户n的缓存的数据量;对于每个用户,其状态空间为sn;每个时隙t,用户n获得的状态为
s42:动作空间:基站的动作空间为abs;在每个时隙t,基站选择动作abs(t);此时,接入方案为abs(abs(t))=(a1(t),...,an(t),...,an(t)),其中an(t)∈{0,1,...,m},an(t)=m表示用户n当前时隙被允许接入信道m,an(t)=0表示不被允许进行通信;每个用户n的动作空间为用户发送功率集,即pn;
s42:奖励函数:基站考虑的主要目标为:减少系统中用户的丢包数量;用户是否产生丢包主要取决于缓存的数据包数量:用户缓存的数据包数量越多,发生丢包的概率越大,反之,丢包的概率越小;将用户的缓存数据量用来构成奖励函数,该奖励函数表示为:
其中prin(t)表示时隙t的用户n的通信优先级,定义为:
s43:如果只依靠基于缓存数据量的奖励函数训练神经网络,当出现多个用户缓存的数据量相近时,神经网络就无法做出有效决策;因此,在保证选择优先级高的用户的前提下,针对数据量相近的用户,智能体优先选择传输速率高的用户,另一个基于传输速率的奖励函数表示为:
s44:除此之外,当多个用户同时接入同一个信道时,存在个别用户无论如何调整功率都无法成功通信的情况;为了使基站能够选择合适的用户接入同一信道,当接入信道的用户在调整完发送功率后仍然无法传输数据会收到相应的惩罚,即:
其中,
基于上述的分析,驱动基站进行学习的总奖励函数表示为:
rbs(t)=λ0rb(t) λ1rrate(t)-λ2rinv(t)(17);
其中λ0、λ1和λ2分别表示每部分奖励的权重;
s45:由于不存在用户间的协作,用户只关注自身能够达到的传输速率;当用户的传输速率满足速率阈值时,用户将获得一个积极的奖励,否则,用户将获得一个惩罚rneg<0;用户n能够获得的奖励函数表示为:
在基于马尔可夫过程所构建的深度学习算法中,智能体的目标是学习到一个最佳策略π*,使得智能体获得的累积奖励rγ(t)最大,最佳策略π*表示为:
其中
进一步,步骤s5中具体包括:为了确保多智能体网络最终能够得到一个最佳策略,本发明采用集中训练分布执行的方式完成策略的更新和执行,多智能体网络的结构如图3所示:基站上构建了三个网络,分别为参数为θq的深度q网络φq,参数为θa的动作网络φa和参数为θc的批评网络φc;在执行过程中,基站利用基于dqn网络φq的深度q学习算法完成集中式动态频谱接入控制,用户利用基站广播的动作网络参数θa实现连续功率控制;所有的网络参数θq、θa和θc都在基站处完成更新,为了确保训练的稳定性,所有参数的更新都采用了经验回放法;
s51:在训练的过程中,基站将获得的经验样本(sbs(t-1),abs(t-1),rbs(t-1),sbs(t))存入记忆库maccess中,当记忆库中的样本数量大于训练所需的样本数|ωq|=200时,基站从记忆库maccess中取出包含|ωq|个数据样本的训练样本集ωq={sbs(i),abs(i),rbs(i),sbs(i 1)}用于训练参数θq;根据ωq计算得到dqn网络φq的损失函数为:
其中q(s(i),a(i);θq)为网络φq的输出值,记为动作值函数,
s52:获得损失函数后,网络参数θq的更新过程表示为:
其中αq表示学习速率;
s53:接入信道的用户将经验样本(sn(t-1),pn(t-1),rn(t-1),sn(t))存入位于基站的记忆库mpower中;当记忆库中的样本数量大于训练所需的样本数|ωn|=128时,基站从mpower中取出|ωn|个样本构成训练样本集ωn={sn(i),pn(i),rn(i),sn(i)}用于训练参数θa和θc;其中参数θc的更新方式与参数θq的更新方式相似,首先计算ωn的损失函数,然后利用梯度下降法完成参数更新,更新过程为:
其中
s53:动作网络φa与深度q网络φq和批评网络φc不同,它本质上是一种基于策略搜索的强化学习方法;参数θa基于梯度完成更新,由于深度确定性策略梯度算法中采用了确定性策略,网络φa中的策略梯度表示为:
基于公式(22)所示的策略梯度,网络φa通过梯度上升法更新参数θa,表示为:
s54:与深度q学习算法不同,为了进一步提高深度确定性策略的更新稳定性,本发明采用软更新的方式更新目标网络的参数
本发明所采用的算法包含了深度q学习算法和深度确定性策略算法,因此本发明所提算法简称为dql-ddpg,本发明算法的总迭代回合数为tstep,每回合完成tenv次迭代,并且在每次迭代中,用户有tp次调整发送功率的机会。
本发明的有益效果在于:相较于其它基于ai方法的dsa方案能够获得更快的收敛速度和更低的丢包数,而且连续的发送功率能够获得比离散的发送功率更好的系统性能。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为流程图;
图2为网络模型;
图3为智能体网络结构;
图4为不同λd下的算法稳定性
图5为不同(n,m)下的算法稳定性;
图6为不同网络结构下的算法稳定性;
图7为不同方案的系统平均丢包数;
图8为不同方案的系统传输速率。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
1.系统模型
1.1无线网络模型
本章基于单个网络单元,考虑了一个上行多用户多信道的通信场景,其结构如图2所示。该网络由一个基站和多个用户组成,假设基站位于网络单元的中心,而n个单天线用户则随机分布在基站的覆盖范围之内。在该网络中,用户通过noma技术实现在与基站的通信。假设该环境存在m个可供用户接入的独立信道,信道宽度为w=5mhz,且本章将信道定义为可以分配给用户的最小资源单位。为了防止过多的用户间干扰,并确保低硬件复杂度和低处理延迟,本发明假定每一个信道至多可以接入4个用户。在该通信环境中,所有的链路都受到多路径传播和路径损耗所引起的快慢速衰落效应。
在本发明中,所有用户都具有一个容量为l的缓存器用于缓存数据。在每个时隙t的初始阶段,用户n的缓存器状态被定义为bn(t)∈{bn,0,...,bn,l,bn,l},bn(t)=bn,l表示用户n缓存的数据包数量为l。每个时隙t内,用户传输的数据包个数可以表示为:
其中tt表示传输时间;rn(t)表示用户n能够达到的传输速率;d表示数据包大小;r0=4mbps表示用户需要达到的传输速率阈值。采用round(·)函数的作用是使每个时隙内用户传输的数据包数量始终为一个整数,以降低系统中的状态空间大小。
本章假设每个时隙t,用户n生成的所有数据包dn(t)为一个整体。当用户n的缓存空间不足以缓存dn(t)时,dn(t)将被全部丢弃。因此,在时隙t用户n的丢包数可以表示为:
因此,在时隙t 1的初始阶段,用户n的缓存器状态可以表示为:
在noma系统中,使用同一个信道的用户之间存在严重的干扰。因此,为了使接入同一信道的用户能够更加充分地利用信道资源,本章假设在当前无线通信环境中的所有用户都能够进行功率调整,并且所有用户的发送功率为一个连续的区间,即
1.2信道干扰模型
本章使用
其中λ表示信号的波长;
在本章的通信场景中,在时隙t内,基站从信道m接收到的来自用户n的信号可以表示为:
其中pn(t)∈pn表示用户n选择的发送功率;
在本章中,基站基于信号强度从强到弱的顺序利用sic技术完成信号解码。因此,当基站解码用户n的信号时,基站接收到的干扰可以表示为:
其中,
βj,n(t)用来表示基站接收到的用户j的信号强度是否大于用户n的信号强度,定义为:
ηj(t)用来表示用户j的信号是否已经被解码及解码是否成功,定义为:
公式(9)中ηj(t)=0表示解码失败或还未被解码,ηj(t)=1表示已被解码且解码成功。
在每个时隙t,基站从信道m接收到的来自用户n的信干燥比(signaltointerferenceplusnoiseratio,sinr)可以表示为sinrn(t),即:
其中σ2表示噪声。
因此用户n能够达到的传输速率为:
rn(t)=wlog2(1 sinrn(t))(11)
1.3问题描述
本发明所提方案的目标是使通信优先级高的用户(用户的优先级取决于用户的缓存数据量)优先获得信道使用权,并在确保接入的用户都能够解码成功的基础上,最小化系统的丢包数。该目标可以表示为一个优化问题,表示为:
s.t.c1:rn≥r0
c2:0≤pn≤pmax
c3:
c4:
其中,c1表示用户n的传输速率需要大于规定的阈值,c2表示用户的发送功率限制,c3表示用户n是否接入了信道m以及其信号是否被基站成功解码,当用户n接入信道m且其信号被基站成功解码时
2.基于多智能体的联合功率控制的动态频谱接入算法
2.1多智能体模型的构建
本节将公式(12)所提出的优化问题基于马尔可夫决策过程进行建模。在本章的通信系统中,智能体、智能体的状态空间、智能体的动作空间和智能体获得的奖励函数,分别定义如下:
智能体:基站与所有的用户。
状态空间:对于基站而言,其状态空间为sbs。每个时隙t,基站获得的状态为sbs(t)=(bl,1(t-1),...,bl,n(t-1),...bl,n(t-1)),其中bl,n(t-1)=bn(t-1)-cn(t-1)表示上一时隙通信结束后,用户n的缓存的数据量。而对于每个用户而言,其状态空间为sn。每个时隙t,用户n获得的状态为
动作空间:基站的动作空间为abs。在每个时隙t,基站选择动作abs(t)。此时,接入方案为abs(abs(t))=(a1(t),...,an(t),...,an(t)),其中an(t)∈{0,1,...,m},an(t)=m表示用户n当前时隙被允许接入信道m,而an(t)=0表示不被允许进行通信。每个用户n的动作空间为用户可选的发送功率集,即pn。
奖励函数:基站需要考虑的主要目标为:减少系统中用户的丢包数量。用户是否产生丢包主要取决于缓存的数据包数量。用户缓存的数据包数量越多,发生丢包的概率越大。反之,丢包的概率越小。因此,用户的缓存数据量将被用来构成奖励函数,该奖励函数可以表示为:
其中prin(t)表示为时隙t的用户n的通信优先级,定义为:
如果只依靠基于缓存数据量的奖励函数训练神经网络,当出现多个用户缓存的数据量相近时,神经网络就无法做出有效决策。因此,在保证选择优先级高的用户的前提下,针对数据量相近的用户,智能体优先选择传输速率高的用户,因此另一个基于传输速率的奖励函数可以表示为:
除此之外,当多个用户同时接入同一个信道时,存在个别用户无论如何调整功率都无法成功通信的情况。本章所提方案为了使基站能够选择合适的用户接入同一信道,因此当接入信道的用户在调整完发送功率后仍然无法传输数据则会收到相应的惩罚,即:
其中,
基于上述的分析,驱动基站进行学习的总奖励函数可以表示为:
rbs(t)=λ0rb(t) λ1rrate(t)-λ2rinv(t)(17)
其中λ0、λ1和λ2分别表示每部分奖励的权重。
由于不存在用户间的协作,因此用户只关注自身能够达到的传输速率。在本章的设置中,当用户的传输速率满足速率阈值时,用户将获得一个积极的奖励,否则,用户将获得一个惩罚rneg<0。因此,用户n能够获得的奖励函数可以表示为:
在基于马尔可夫过程所构建的深度学习算法中,智能体的目标是学习到一个最佳策略π*,使得智能体获得的累积奖励rγ(t)最大,最佳策略π*可以表示为:
其中
2.2网络结构及参数更新
为了确保多智能体网络最终能够得到一个最佳策略,本章采用集中训练分布执行的方式完成策略的更新和执行。多智能体网络的结构如图2所示。
通过图2可以发现,基站上构建了三个网络,分别为参数为θq的深度q网络φq,参数为θa的动作网络φa和参数为θc的批评网络φc。在执行过程中,基站利用基于dqn网络φq的深度q学习算法完成集中式动态频谱接入控制,而用户利用基站广播的动作网络参数θa实现连续功率控制。但是所有的网络参数θq、θa和θc都在基站处完成更新,并且为了确保训练的稳定性,所有参数的更新采用了经验回放法。
在训练的过程中,基站会将获得的经验样本(sbs(t-1),abs(t-1),rbs(t-1),sbs(t))存入记忆库maccess中,当记忆库中的样本数量大于训练所需的样本数|ωq|=200时,基站就从记忆库maccess中取出包含|ωq|个数据样本的训练样本集ωq={sbs(i),abs(i),rbs(i),sbs(i 1)}用于训练参数θq。根据ωq可以计算得到dqn网络φq的损失函数为:
其中q(s(i),a(i);θq)为网络φq的输出值,记为动作值函数,
其中αq表示学习速率。
同样的,接入信道的用户会将经验样本(sn(t-1),pn(t-1),rn(t-1),sn(t))存入位于基站的记忆库mpower中。当记忆库中的样本数量大于训练所需的样本数|ωn|=128时,基站就从mpower中取出|ωn|个样本构成训练样本集ωn={sn(i),pn(i),rn(i),sn(i)}用于训练参数θa和θc。其中参数θc的更新方式与参数θq的更新方式相似,首先计算ωn的损失函数,然后利用梯度下降法完成参数更新,更新过程为:
其中
动作网络φa与深度q网络φq和批评网络φc不同,它本质上是一种基于策略搜索的强化学习方法。所以,参数θa基于梯度完成更新,由于深度确定性策略梯度算法中采用了确定性策略,因此网络φa中的策略梯度可以表示为:
基于公式(22)所示的策略梯度,网络φa通过梯度上升法更新参数θa,可以表示为:
与深度q学习算法不同,为了进一步提高深度确定性策略的更新稳定性,本发明采用软更新的方式更新目标网络的参数
由于本发明所采用的算法包含了深度q学习算法和深度确定性策略算法,因此将本发明所提算法简称为dql-ddpg。本发明将算法的总迭代回合数为tstep,每回合完成tenv次迭代,并且在每次迭代中,用户有tp次调整发送功率的机会。本发明所提出的动态频谱接入方案可以总结为表1。
表1基于dql-ddpg算法的dsa方案伪代码
3.仿真结果及分析
在本章节中,通过仿真结果验证了所提出的结合两种drl方法的动态频谱接入方案(dql-ddpg)的性能,包括算法稳定性、不同网络结构下的算法收敛效果以及不同dql/ddpg方案的比较。所有的实验都基于nvidiartx20808ggpu平台上的tensorflow框架完成。
3.1仿真设置
本发明基于深度q学习算法实现动态频谱接入控制,深度q网络φq具有3层隐藏层,且每层隐藏层分别具有256,512和256个神经元,每个神经元的激活函数都设置为relu函数。而基于深度确定性策略算法来实现功率控制,其中的动作网络φa和批评网络φc都具有3层隐藏层,每层拥有的神经元个数分别为200,100和50,并且每个激活函数都为relu函数,同时为了保证ddpg算法中动作网络的输出满足要求,因此在动作网络的输出层增加了一个sigmod函数。
下列仿真利用(n,m)来表示网络中存在的用户和信道数量,并取1000次独立运行的平均值来绘制每个数据点。系统仿真参数如表2所示。
表2仿真参数设置
3.2算法稳定性
图4在(n,m)为(5,1)时验证了不同的λd对于算法稳定性的影响。通过图4可以发现,不论λd如何变化,系统都能够快速的达到收敛,并且达到收敛的时间基本一致。
图5验证了不同的(n,m)对于算法稳定性的影响。通过图4可以发现,不论用户及信道数量如何变化,系统都能够最终达到收敛。但不同的用户或信道数量会导致收敛时间不同,可以发现随着用户及信道数量的增加,系统需要花费更多的迭代回合来达到收敛,这是因为随着用户及信道数量的增加,系统需要探索的状态空间变大,因此系统需要更多的时间来探索每个状态下的最佳动作。
3.3不同网络结构下的算法收敛效果
本节分别在(n,m)为(4,1)和(5,1)的情况下对比了基于dql-ddpg的分层控制网络和基于dql的集中控制网络的收敛效果。在仿真基于dql的集中控制网络时,将次用户可选的发送功率离散化为6个级别,即pn∈{0,0.2,0.4,0.6,0.8,1.0}。
通过图6可以发现dql相较于dql-ddpg能够在更少的迭代次数内达到收敛,并且收敛更加的稳定。这主要是因为:集中控制网络能够收集到全局的信息,并且不存在不同智能体之间的冲突,而dql-ddpg中利用部分观察值进行功率控制,且存在多个智能体相互作用。但在实际的算法训练过程中,dql需要692.30s的时间才能达到收敛,而dql-ddpg只需要270.48s就能够达到收敛。这是因为dql相对于dql-ddpg需要处理更大的状态空间和动作空间。当用户数量增加到n=6时,dql需要4153.85s的运行时间来达到收敛,而dql-ddpg只需要388.63s。可以发现当增加了一个用户时,dql-ddpg算法收敛达到所需的时间增长了43.7%,而dql网络达到收敛所需的时间增长了500%。因此,可以发现分层控制网络可以通过减小系统的状态空间和动作空间以提高神经网络的运行效率,能够更好的应用于多变的无线通信网络。
此外,当算法收敛后,dql的系统平均丢包数要略大于dql-ddpg,这是因为dql只适用于离散的发送功率集,且本章仅将发送功率区间离散化为6个等级,因此dql无法充分地控制用户。充分地离散发送功率区间能够有效地提高系统性能,但也会因此增加时间成本。而dql-ddpg网络可以直接控制连续的发送功率,这使得它更有效地控制用户来采取合适的发送功率进行信道复用。
4.3不同方案的比较
为了进一步说明本发明所提算法的性能优势,本小节对比了以下方案:(1)基站利用dql完成动态接入控制但不进行功率控制,所有的用户都采用最大发送功率接入信道,将该方法记为“dql-max”;(2)参考已有的分布式竞争接入机制,在该接入机制中数据缓存量大且信道质量好的用户能够优先得到通信机会,接入信道的用户都采用最大发送功率接入信道而不进行功率控制,该方法记为“compete-max”;(3)采用与方案(2)一样的接入控制方法,但成功接入信道的用户基于ddpg进行功率控制,该方法记为“compete-ddpg”;(4)基于dql实现集中控制用户的接入信道及发送功率,该方法记为“dql”;(5)一种已有的dql-ddpg算法,在该算法中基站分别利用dql和ddpg完成动态接入控制和功率控制,并利用同一个奖励值完成参数更新,该方法记为“dql-ddpg-r”。在实验的过程中,由于数据的产生式随机的,为了保证实验的公平性,本章保证所有的可变参数在不同的方案中是相同的,例如设置不同方案下,每次迭代过程中数据到达量是相同的。
图7在(n,m)为(5,1)的条件下,仿真了在数据包到达速率λd变化的情况下不同方案的系统平均丢包数的变化情况。
通过图7可以发现,本章所提出的联合功率控制的动态频谱方案是有效的。除了compete-ddpg方案,本章所提出的方案能够取得一个更低的系统平均丢包数。compete-ddpg能够取得更好的效果是因为它能够获得实时的用户缓存量,而本章所定义的dql-ddpg基于上一时刻的传输结束后用户的剩余数据量进行接入控制。通过对比compete-ddpg与compete-max以及dql-ddpg与dql-max可以发现本章采用的分布式功率控制方案是有效的,没有进行有效的功率控制会导致系统的平均丢包数增大。
图8在m=1,λd=0.8的条件下,仿真了在不同用户数量的情况下,不同方案能够达到的传输速率的变化情况。
通过图8可以发现,随着用户数量的增加所有方案的系统传输速率基本都呈现出下降的趋势,这是因为,随着用户数量的增加出现了更多的接入用户组合,并且存在某些组合数使得用户需要降低自身能够达到的传输速率来保证更多的用户能够完成通信以降低系统的平均丢包数。此外,结合图7和图8还可以发现dql-max的达到的传输速率要大于dql-ddpg但其丢包数却大于dql-ddpg,这是因为dql-max只能选择发送功率为1w时能够共存的用户接入信道,虽然其能够达到更高的传输速率但其丢包数也大于dql-ddpg。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
1.一种noma系统中基于分层深度强化学习的动态频谱接入方法,其特征在于:包括以下步骤:
s1:构造上行多用户多信道的通信场景;
s2:建立信道干扰模型;
s3:将通信优先级高的用户优先获得信道使用权,确保接入用户解码成功以及最小化系统丢包数的目标表示为一个优化问题;
s4:构建多智能体模型,对s3中优化问题基于马尔可夫决策过程进行建模;
s5:采用集中训练分布执行的方式完成策略的更新和执行。
2.根据权利要求1所述的noma系统中基于分层深度强化学习的动态频谱接入方法,其特征在于:步骤s1中:
基于单个网络单元,构造上行多用户多信道的通信场景,网络单元由一个基站和多个用户组成,基站位于网络单元的中心,n个单天线用户随机分布在基站的覆盖范围之内;在所述网络中,用户通过noma技术实现与基站的通信;所述通信场景内存在m个可供用户接入的独立信道,所述信道为分配给用户的最小资源单位;在所述通信场景中,所有的链路都受到多路径传播和路径损耗所引起的快慢速衰落效应;
所有用户都具有一个容量为l的缓存器用于缓存数据;在每个时隙t的初始阶段,用户n的缓存器状态被定义为bn(t)∈{bn,0,...,bn,l,bn,l},bn(t)=bn,l表示用户n缓存的数据包数量为l;每个时隙t内,用户传输的数据包个数表示为:
其中tt表示传输时间;rn(t)表示用户n能够达到的传输速率;d表示数据包大小;r0=4mbps表示用户需要达到的传输速率阈值;
每个时隙t,用户n生成的所有数据包dn(t)为一个整体;当用户n的缓存空间不足以缓存dn(t)时,dn(t)被全部丢弃;在时隙t用户n的丢包数表示为:
在时隙t 1的初始阶段,用户n的缓存器状态表示为:
3.根据权利要求1所述的noma系统中基于分层深度强化学习的动态频谱接入方法,其特征在于:步骤s2中:
在当前无线通信环境中的所有用户都能够进行功率调整,并且所有用户的发送功率为一个连续的区间,即
s21:使用
其中λ表示信号的波长;
在时隙t内,基站从信道m中接收到的来自用户n的信号表示为:
其中pn(t)∈pn表示用户n选择的发送功率;
s22:基站基于信号强度从强到弱的顺序利用连续干扰消除sic技术完成信号解码;当基站解码用户n的信号时,基站接收到的干扰表示为:
其中,
βj,n(t)表示基站接收到的用户j的信号强度是否大于用户n的信号强度,定义为:
ηj(t)表示用户j的信号是否已经被解码及解码是否成功,定义为:
公式(9)中ηj(t)=0表示解码失败或还未被解码,ηj(t)=1表示已被解码且解码成功;
s23:在每个时隙t,基站从信道m接收到的来自用户n的信干燥比sinr表示为sinrn(t),即:
其中σ2表示噪声。
因此,用户n的传输速率为:
rn(t)=wlog2(1 sinrn(t))(11)
4.根据权利要求1所述的noma系统中基于分层深度强化学习的动态频谱接入方法,其特征在于:步骤s3中:
将通信优先级高的用户优先获得信道使用权,并在确保接入的用户都解码成功的基础上最小化系统的丢包数目标表示为一个优化问题,表示为:
s.t.c1:rn≥r0
c2:0≤pn≤pmax
其中c1表示用户n的传输速率需要大于规定的阈值,c2表示用户的发送功率限制,c3表示用户n是否接入了信道m以及其信号是否被基站成功解码,当用户n接入信道m且其信号被基站成功解码时
5.根据权利要求1所述的noma系统中基于分层深度强化学习的动态频谱接入方法,其特征在于:步骤s4中:
智能体表示基站与所有的用户,智能体的状态空间、智能体的动作空间和智能体获得的奖励函数,分别定义如下:
s41:对于基站而言,其状态空间为sbs;每个时隙t,基站获得的状态为sbs(t)=(bl,1(t-1),...,bl,n(t-1),...bl,n(t-1)),其中bl,n(t-1)=bn(t-1)-cn(t-1)表示上一时隙通信结束后,用户n的缓存的数据量;对于每个用户,其状态空间为sn;每个时隙t,用户n获得的状态为
s42:动作空间:基站的动作空间为abs;在每个时隙t,基站选择动作abs(t);此时,接入方案为abs(abs(t))=(a1(t),...,an(t),...,an(t)),其中an(t)∈{0,1,...,m},an(t)=m表示用户n当前时隙被允许接入信道m,an(t)=0表示不被允许进行通信;每个用户n的动作空间为用户发送功率集,即pn;
s42:奖励函数:将用户的缓存数据量用来构成奖励函数,该奖励函数表示为:
其中prin(t)表示时隙t的用户n的通信优先级,定义为:
s43:另一个基于传输速率的奖励函数表示为:
s44:当接入信道的用户在调整完发送功率后仍然无法传输数据收到相应的惩罚,即:
其中,
rbs(t)=λ0rb(t) λ1rrate(t)-λ2rinv(t)(17);
其中λ0、λ1和λ2分别表示每部分奖励的权重;
s45:当用户的传输速率满足速率阈值时,用户将获得一个积极的奖励,否则,用户将获得一个惩罚rneg<0;用户n能够获得的奖励函数表示为:
在基于马尔可夫过程所构建的深度强化学习算法中,智能体的目标是学习到一个最佳策略π*,使得智能体获得的累积奖励rγ(t)最大,最佳策略π*表示为:
其中
6.根据权利要求1所述的noma系统中基于分层深度强化学习的动态频谱接入方法,其特征在于:步骤s5中:
多智能体网络的结构为:基站上构建三个网络,分别为参数为θq的深度q网络φq,参数为θa的动作网络φa和参数为θc的批评网络φc;在执行过程中,基站利用基于dqn网络φq的深度q学习算法完成集中式动态频谱接入控制,用户利用基站广播的动作网络参数θa实现连续功率控制;所有的网络参数θq、θa和θc都在基站处完成更新,且所有参数的更新都采用了经验回放法;
s51:在训练的过程中,基站将获得的经验样本(sbs(t-1),abs(t-1),rbs(t-1),sbs(t))存入记忆库maccess中,当记忆库中的样本数量大于训练所需的样本数|ωq|=200时,基站从记忆库maccess中取出包含|ωq|个数据样本的训练样本集ωq={sbs(i),abs(i),rbs(i),sbs(i 1)}用于训练参数θq;根据ωq计算得到dqn网络φq的损失函数为:
其中q(s(i),a(i);θq)为网络φq的输出值,记为动作值函数,
s52:获得损失函数后,网络参数θq的更新过程表示为:
其中αq表示学习速率;
s53:接入信道的用户将经验样本(sn(t-1),pn(t-1),rn(t-1),sn(t))存入位于基站的记忆库mpower中;当记忆库中的样本数量大于训练所需的样本数|ωn|=128时,基站从mpower中取出|ωn|个样本构成训练样本集ωn={sn(i),pn(i),rn(i),sn(i)}用于训练参数θa和θc;其中参数θc的更新方式与参数θq的更新方式相似,首先计算ωn的损失函数,然后利用梯度下降法完成参数更新,更新过程为:
其中
s53:参数θa基于梯度完成更新,网络φa中的策略梯度表示为:
基于公式(22)所示的策略梯度,网络φa通过梯度上升法更新参数θa,表示为:
s54:采用软更新的方式更新目标网络的参数
本方法的总迭代回合数为tstep,每回合完成tenv次迭代,并且在每次迭代中,用户有tp次调整发送功率的机会。
技术总结