本发明涉及通信领域,具体是涉及一种基于ddpg算法的irs辅助无人机通信联合优化方法。
背景技术:
面对6g中广覆盖和高可靠的通信需求,无人机辅助通信在提高通信网络的覆盖范围和应急通信方面具有无可比拟的优势,同时也面临着提高能效实现可靠通信的挑战。凭借灵活部署和视距无线传输等固有优势,高机动性能无人机作为空中通信平台已广泛部署于各种无线通信场景中,一般通过联合优化无人机轨迹和通信资源分配提高通信质量;此外,随着无线网络的容量成倍增加,为了满足多媒体访问对高数据和速率快速增长的需求,可以通过无人机部署天线阵列无线通信来提高网络容量。
无人机和地面用户之间存在障碍物的遮挡会大大降低通信的性能,为了改善传播环境并提高通信质量,智能反射面(intelligentreflectingsurface,irs)技术引起了广泛的关注。irs可以通过反射信号绕过障碍物以增强用户接受的信号,irs是由多个可重构反射元素组成,irs中的每个元素都可以通过可控的相移来反射入射信号,通过共同调整所有元素的相移,以实现所需接收器上来自不同传输路径的信号相位对准,这称为无源波束成形,从而增强信号和提高可达速率。与传统中继相比,irs仅反射从发射机到接收机的信号,不会引起额外的接收噪声,反射面成本低廉,可普遍部署在建筑物外墙中以协助无人机通信。
在irs辅助无人机通信场景中,通过部署irs技术应用到无人机通信中可以提高传输速率,但是在求解多变量耦合的优化问题时,多数是基于数学方式的交替化技术联合优化求解,使用了复杂的数学公式和数值优化技术对优化问题进行化简,此外,在没有确切情况下找到最佳策略可能很棘手而造成计算时间长。最近,无规模人工智能(artificialintelligence,ai)作为一项技术处理数学上难以解决的非线性非凸问题和高计算问题。ai技术对具有大量阵列元素的大规模多输入多输出(multipleinputmultipleoutput,mimo)系统最为有吸引力,由于设计超大尺寸优化,优化问题变得不容易。周等人提出深度学习(deeplearning,dl)用于通过建立信道之间的映射关系获得mimo系统的波束成形矩阵和预编码设计。实际上,基于dl方法能够利用离线预测降低复杂性和计算时间,但是通常需要详尽的样本库来进行在线培训。同时,在无线通信系统的设计中也采用了深度强化学习(deepreinforcementlearning,drl)技术,该技术在神经网络训练中具有dl的优势,并提高了学习速度和强化学习(reinforcementlearning,rl)算法的性能。但是,大多数rl可能并不总是适合处理联合优化问题中的连续和高维动作空间。drl对于无线信道随时间变化的通信系统特别有益,drl能够允许无需了解信道模型和移动性模型,只需要了解有关无线电信道的知识即可,从而通过观察来自环境的收益并找出复杂的优化问题的解决方案来进行有效的算法设计。drl方法已在一些irs辅助通信和无人机通信网络中使用,然而对于irs辅助无人机通信中,由于无人机是能量有限的设备,如何有效地联合优化波束成形和无人机轨迹使得速率最大化变成了一个很重要的问题。
技术实现要素:
本发明的目的是针对irs辅助无人机多输入单输出(multipleinputsingleoutput,miso)多用户通信应用场景,提供了一种基于drl的深度确定性策略梯度(deepdeterministicpolicygradient,ddpg)算法的联合优化方法。
为解决上述技术问题,本发明所述的基于ddpg算法的irs辅助无人机通信联合优化方法,其采用的技术方案是:所述联合优化方法基于irs辅助无人机通信系统,所述通信系统包括irs、旋转翼无人机,所述旋转翼无人机上安装若干根用于波束成形的天线,所述旋转翼无人机在固定高度h飞行作为空中基站服务k个单天线用户的下行传输系统,所述用户的集合为
所述联合优化方法的步骤为:
步骤1、建立空对地通信模型:考虑在无人机通信中,周围很可能存在许多障碍物,致使无人机到k个用户的视距(lineofsight,los)链路被堵塞,通过部署irs,可以创建多个los链路增强通信,在此情况下,对无人机基站和地面用户之间的信道、无人机和irs之间的信道和irs和用户之间的信道进行建模,求解三者的信道增益;
步骤2、根据三者的信道增益,获得无人机到地面用户在时隙t的数据传输可达和速率优化问题;
步骤3:根据通信系统中无人机的发射功率波束成形约束、运动轨迹约束,irs无源波束成形相移约束和用户的数据传输可达和速率,建立深度强化学习模型;
步骤4:利用ddpg算法优化强化学习模型;
步骤5:根据优化后的深度强化学习模型获得联合优化的解,得到优化的用户可达数据、速率和无人机的运动轨迹。
进一步的,所述的步骤1中irs节点和k个地面用户分布以及无人机进行如下定义:
所有通信节点建立三维笛卡尔坐标系,部署k个地面用户的和固定z高度的irs配有m个反射单元并且每个反射单元的相位可以调整接收信号,则第k个用户和irs的水平坐标为wk=[xk,yk]t,wr=[xr,yr]t,其中k∈k,k是地面用户节点总数;
无人机在任务周期t(t>0)内持续地向用户发射信号,无人机飞行周期t以步长δt分为n个等距时隙,t=nδt;在t∈[0,t]时刻,无人机的平面坐标定义为q(t)=[x(t),y(t)]t,其中x(t)和y(t)分别表示无人机的二维横坐标和纵坐标;irs在第t个时隙中的相移矩阵为
无人机到用户的los路径被堵塞的情况下,无人机到用户的信道被建模为rician衰弱信道,无人机到用户k在第t时隙的信道增益表示为:
其中ρ表示在参考距离d0=1m时的信道增益,κ是无人机与用户链路的路径损耗指数,guk是具有零均值和单位方差的复高斯随机向量;
无人机到irs的信道以los信道为主,因此第t个时隙时无人机到irs信道增益h(t)表示为:
其中
irs到用户链路同时存在los和nlos成分,因此,irs到用户k的信道增益hk表示为:
其中
进一步的,步骤2中,用户k在第t时隙中的信干噪比(signaltointerferenceplusnoiseratio,sinr)计算公式如下:
其中
系统目标为联合设计无人机波束成形矢量
其中
进一步的,步骤3中,建立深度强化学习模型的马尔可夫过程为:
步骤3-1、状态空间s:状态s(t)由第t时间步的无人机发射功率和用户接收功率、第(t-1)步的动作、信道矩阵{gk(t),h(t),hk},k∈k决定;在构造状态s中,如果涉及到复数,则将复数的实部和虚部提取出来被分离为独立的输入端口;
步骤3-2、动作空间a:动作a(t)是由优化变量波束成形矩阵b、无源波束成形相移矩阵θ和轨迹q构成;同样,为了解决实际输入问题,在t时间步将bk(t)=|re{bk(t)}| |im{bk(t)}|,k∈k和θ(t)=|re{θ(t)}| |im{θ(t)}|分为实部和虚部;
步骤3-3、即时奖励r:确保无人机为所有用户提供服务,并基于优化问题奖励函数为
状态作用值函数qπ(s(t),a(t))表示在给定策略π,状态s(t)下采取动作a(t)而获得的累计奖励期望;q学习不依赖环境的先验知识,只需要不断的对q(s(t),a(t))迭代到最优值q*(s(t),a(t)),就能获得最优策略π*;通过q学习算法可搜索最优策略π*,在最优策略π*下定义的q值更新函数为:
其中χ∈(0,1]为折扣因子,r(t 1)(s(t)=s,a(t),π=π*)为在t时刻状态s(t),动作a(t)和最优策略π*下得到的即时奖励r(t 1),s′为无人机在(t 1)时刻的状态,a′为无人机在(t 1)时刻的动作,
进一步的,步骤4中所述利用ddpg算法优化深度强化学习模型,具体包括以下步骤:
步骤4-1、训练回合数ep初始化为0;
步骤4-2、ep回合中的时间步t初始化为0;
步骤4-3、在线actor策略网络根据输入状态s(t),输出动作a(t)并获取即时奖励r(t 1),同时转换到下一状态s(t 1),获取训练数据集(s(t),a(t),r(t 1),s(t 1));
步骤4-4、将训练数据集(s(t),a(t),r(t 1),s(t 1))存储到经验回放池记忆库d中;
步骤4-5、从目标critic评论网络得到q值方程
步骤4-6、从经验回放池d中随机采样一小批w数量样本构成数据集,发送给在线actor策略网络、在线critic评论网络、目标actor策略网络和目标critic评论网络;
步骤4-7、根据采样得到的w数量样本,目标actor策略网络根据当前的状态s(t)输出动作a(t),目标critic评论网络根据当前的状态s(t)和目标actor策略网络输出动作a(t),输出q值函数
步骤4-8、根据在线critic评论网络参数
其中τc和τa分别是用于更新目标critic评论网络和目标actor策略网络权重的软更新速率;
步骤4-9、判断是否满足t<t,t为ep回合中总时间步,若是则t=t 1,返回步骤4-3,若不是,则进入步骤4-10;
步骤4-10、判断是否满足轮数ep<ep,ep为总回合数,若是则ep=ep 1,返回步骤4-2,若不是则优化结束,得到优化后的强化学习模型。
进一步的,更新梯度公式为:
其中a′是从目标actor策略网络输出的动作,
进一步的,步骤5具体为:输入irs辅助无人机通信系统的状态s(t),深度强化学习模型根据状态学习训练得出最优动作a(t),可得到优化问题解和优化变量无人机的轨迹q。
本发明所述的有益效果为:本发明利用irs和无人机辅助通信的相关信息,提出了深度强化学习策略,利用深度强化学习方法获得波束成形和轨迹联合优化策略,无人机通过选择合适的发射功率和运动轨迹,irs通过选择合适无源波束成形相移来反射信号,来降低对用户之间的干扰,最大化用户可达信息速率,提高通信网络的吞吐量,符合绿色通信。
本发明使用ddpg算法可以有效解决联合优化问题,由于irs辅助无人机通信系统中多用户的干扰,优化问题是非凸的,并且最佳解决方案是未知的,使用基于drl的ddpg算法,以找到可行的解决方案。该算法与数学交替优化方法不同,固定一个变量求解另一个变量并且使用了复杂的数学公式和数值优化技术,提出的ddpg算法共同优化变量无需了解无线环境的显示模型和特定数学公式,这样非常容易扩展到各种系统设置,从神经网络中学习训练得到最优解决方案。具体而言,总速率被用作即时奖励来训练,通过观察奖励逐渐最大化和速率,并相应地迭代调整网络参数,另外由于无人机运动轨迹是连续的,ddpg算法设计解决离散动作空间,可在一系列高维动作空间中得到优化。
与现有无irs部署通信方法相比,本发明以最大化用户到达和速率为目标,所提的ddpg联合优化方法通过共同优化波束成形、无人机轨迹实现信号对准达到增强通信质量的目的,显著提升无人机通信系统场景中的速率。
附图说明
为了使本发明的内容更容易被清楚地理解,下面根据具体实施例并结合附图,对本发明作进一步详细的说明。
图1为本发明的irs辅助无人机通信系统模型图
图2位本发明的ddpg算法框架图
图3为本发明中无人机优化飞行轨迹图。
图4为本发明中ddpg算法在训练步数下的奖励图。
具体实施方式
本发明所述的基于ddpg算法的irs辅助无人机通信联合优化方法,目的是通过联合优化波束成形和轨迹最大化速率,提高频谱利用率,利用深度学习方法将基于ac框架的ddpg算法运用到所述的通信系统模型中,得到最优的约束变量,使其保证最大程度上提高通信网络容量。
所述联合优化方法基于irs辅助无人机通信系统,通信系统包括一架旋转翼无人机在固定高度h飞行作为空中基站服务k个单天线用户的下行传输系统,所有用户的集合为
在无人机沿着轨迹飞行过程中,地面上的irs不消耗能量,irs节点是全双工发送信息,每个通信链路之间无干扰,地面所有用户同时接收irs节点附加的信息。
所述联合优化方法的步骤为:
步骤1:在所述系统中,建立空对地通信模型:考虑在无人机通信中,周围很可能存在许多障碍物,致使无人机到k个用户的los链路被堵塞,通过部署irs,可以创建多个los链路增强通信,在此情况下,对无人机基站和地面用户之间的信道、无人机和irs之间的信道和irs和用户之间的信道进行建模,求解三者的信道增益。
如图1所示通信系统模型,所有通信节点建立三维笛卡尔坐标系,部署k个地面用户的和固定z高度的irs,irs配有m个反射单元并且每个反射单元的相位可以调整接收信号,则第k个用户和irs的水平坐标为wk=[xk,yk]t,wr=[xr,yr]t,其中k∈k,k是地面用户节点总数。
无人机在任务周期t(t>0)内持续地向用户发射信号,无人机飞行周期t以步长δt分为n个等距时隙,t=nδt;在t∈[0,t]时刻,无人机的平面坐标定义为q(t)=[x(t),y(t)]t,其中x(t)和y(t)分别表示无人机的二维横坐标和纵坐标。irs在第t个时隙中的相移矩阵为
无人机到用户的los路径被堵塞的情况下,无人机到用户的信道被建模为rician衰弱信道,无人机到用户k在第t时隙的信道增益表示为:
其中ρ表示在参考距离d0=1m时的信道增益,κ是无人机与用户链路的路径损耗指数,guk是具有零均值和单位方差的复高斯随机向量。
无人机到irs的信道以los信道为主,因此第t个时隙时无人机到irs信道增益h(t)表示为:
其中
irs到用户链路同时存在los和nlos成分,因此,irs到用户k的信道增益hk表示为:
其中
步骤2:根据三者的信道增益,获得无人机到地面用户在时隙t的数据传输可达和速率优化问题。
用户k在第t时隙中的sinr计算公式如下:
其中
系统目标为联合设计无人机波束成形矢量
其中
步骤3:根据通信系统中无人机的发射功率波束成形约束、运动轨迹约束,irs无源波束成形相移约束和用户的数据传输可达和速率,建立深度强化学习框架。
为了高效解决无人机在连续移动过程中状态空间联合优化问题,以无人机为智能体,建立深度强化学习模型,利用无人机和irs约束变量提出深度强化学习优化策略,通过联合优化无人机波束成形、irs无源波束成形相移和无人机轨迹,实现高效的资源分配,提高系统容量。
强化学习是通过智能体在指定场景中不断探索未知环境并与环境进行交互获得环境状态,通过不断的探索学习到最佳策略以获得最大的长期奖励。强化学习利用马尔可夫来简化求解过程,典型的马尔可夫过程主要由状态空间、动作空间和奖励函数列表组成。根据目标问题建立马尔可夫过程:
步骤3-1、状态空间:表示在时间步t观察到的状态,一组表征观察环境的结果。状态s(t)由第t时间步的无人机发射功率和用户接收功率,第(t-1)步的动作,信道矩阵{gk(t),h(t),hk},k∈k决定。由于神经网络的输入只能接收实数而不接收复数,因此在构造状态s中,如果涉及到复数,则将复数的实部和虚部提取出来被分离为独立的输入端口;
步骤3-2、动作空间:智能体在学习过程中选择的动作。动作a(t)是由优化变量波束成形矩阵b、无源波束成形相移矩阵θ和轨迹q构成;同样,为了解决实际输入问题,在t时间步将bk(t)=|re{bk(t)}| |im{bk(t)}|,k∈k和θ(t)=|re{θ(t)}| |im{θ(t)}|分为实部和虚部;
步骤3-3、即时奖励:智能体在给定状态s采取动作a获得的奖励,这也是一个性能指标r(t),来评估在即时刻t处于状态s(t)执行动作a(t)的程度;确保无人机为所有用户提供服务,并基于优化问题奖励函数为
本发明中,深度强化学习算法建立在q学习的基础上,q学习是一种无模型的学习算法;状态作用值函数qπ(s(t),a(t))表示在给定策略π,状态s(t)下采取动作a(t)而获得的累计奖励期望;q学习不依赖环境的先验知识,只需要不断的对q(s(t),a(t))迭代到最优值q*(s(t),a(t)),就能获得最优策略π*;通过q学习算法可搜索最优策略π*,在最优策略π*下定义的q值更新函数为:
其中χ∈(0,1]为折扣因子,r(t 1)(s(t)=s,a(t),π=π*)为在t时刻状态s(t),动作a(t)和最优策略π*下得到的即时奖励r(t 1),s′为无人机在(t 1)时刻的状态,a′为无人机在(t 1)时刻的动作,
步骤4:利用ddpg算法优化深度强化学习模型。
深度强化学习中的动作空间包括无人机波束成形、irs无源波束成形相移矩阵和无人机轨迹三个变量,考虑无人机在一定范围内连续飞行,为了解决高维动作空间,尤其是连续空间中的联合优化问题你,将q学习与神经网络结合,引入了一种基于演员-评论家(actor-critic,ac)框架的ddpg算法,通过学习训练优化这两个网络参数。ddpg算法采用强化学习的ac架构,由4个神经网络构成,2个结构相同的actor策略网络,分别是在线actor策略网络和目标actor策略网络;2个结构相同的critic策略网络,分别是在线critic策略网络和目标critic策略网络。ac网络相互依赖,相互影响都需要在训练过程中迭代优化。
actor策略网络的输入是状态s(t),输出动作a(t),策略网络用于策略函数为
critic评论网络输入时无人机在t时刻中的状态s(t)和采取的动作a(t),输出的是对应的
其中
ddpg算法中使用了经验回放池的方法,通过无人机与环境交互所得的样本数据存放至记忆单元,然后通过数据随机采样更新网络参;在进行联合优化训练学习时,将轮训练回合数中无人机与环境交互的信息以数据集(s(t),a(t),r(t 1),s(t 1))的形式存放至回放记忆单元,使用使随机从回放单元抽取一组数据用于训练。经验池回放的方法有效提高了数据利用效率,随机采样的数据抽取方式保证了各数据之间的独立性,提高算法的收敛速度。
根据抽取样本(s(t),a(t),r(t 1),s(t 1))得到
ddpg算法中在线网络通过随机梯度下降算法更新参数,目标网络参数变化小,用于在训练过程中提供在线网络更新所需要的一些信息;在线网络参数实时更新,每过步数后,在线忘的参数会拷贝给目标网络,目标网络的引入使得学习过程更加稳定,训练易于收敛,经过迭代训练学习之后的神经网络输出的动作就是目标函数的最优解。
如图2所示,所述基于ddpg算法优化深度强化学习模型包括以下步骤:
步骤4-1、训练回合数ep初始化为0;
步骤4-2、ep回合中的时间步t初始化为0;
步骤4-3、在线actor策略网络根据输入状态s(t),输出动作a(t)并获取即时奖励r(t 1),同时转换到下一状态s(t 1),获取训练数据集(s(t),a(t),r(t 1),s(t 1));
步骤4-4、将训练数据集(s(t),a(t),r(t 1),s(t 1))存储到经验回放池记忆库d中;
步骤4-5、从目标critic评论网络得到q值方程
步骤4-6、从经验回放池d中随机采样一小批w数量样本构成数据集,发送给在线actor策略网络、在线critic评论网络、目标actor策略网络和目标critic评论网络;
步骤4-7、根据采样得到的w数量样本,目标actor策略网络根据当前的状态s(t)输出动作a(t),目标critic评论网络根据当前的状态s(t)和目标actor策略网络输出动作a(t),输出q值函数
步骤4-8、根据在线critic评论网络参数
其中τc和τa分别是用于更新目标critic评论网络和目标actor策略网络权重的软更新速率;
步骤4-9、判断是否满足t<t,t为ep回合中总时间步,若是则t=t 1,返回(3),若不是,则进入(9);
步骤4-10、判断是否满足轮数ep<ep,ep为总回合数,若是则ep=ep 1,返回(2),若不是则优化结束,得到优化后的强化学习框架。
步骤5:输入irs辅助无人机通信系统的状态s(t),深度强化学习模型根据状态学习训练得出最优动作a(t),可得到优化问题解和优化变量无人机的轨迹q。
利用ddpg算法训练好的深度强化学习模型,可以得到无人机的最佳功率分配和飞行轨迹策略,并在深度神经网络中动作中输出。
根据上述实例,进行数据仿真:
以下实例所提供的图以及模型中的具体参数值的设定主要是为了说明本发明的基本构想以及对发明做仿真验证,具体环境的应用环境中,可视实际场景和需求进行适当调整。
假设通信系统有k=4用户,无人机携带的天线数为nt=4,irs的位置为wr=[0,0]t,地面用户k=4随机且均匀分布在以(0,0)为中心,半径为70m的圆中,四个用户的坐标为:w1=[-30,10]t、w2=[-20,50]t、w3=[22,28]t和w4=[30,16]t。无人机的初始位置和最终位置的水平坐标为qi=[-500,20]t和qf=[500,20]t。无人机的高度h=70m,irs的高度z=40m;无人机在飞行周期中,最大速度为vmax=25m/s,将链路的路径损耗指数和瑞利因子分别设置为κ=3,ε=2.2和β=3db;参考距离d0=1m处的信道功率增益ρ=-20db,噪声功率σ2=-80dbm,无人机的最大发射功率为pmax=20db。
在基于ddpg深度强化学习中,演员网络和评论家网络设计了两个隐藏层的全连接神经网络,adampropoptimizer用作ac框架的优化器。仿真网络环境参数为训练总回合数为ep=5000,每个回合数中训练总步数t=20000,随机抽样一批数据数量w=16,actor网络和critic网络的学习率都设置为0.001,未来折扣因子为χ=0.99。
图3显示了无人机在不同飞行时间周期t的轨迹图,当t=40时无人机从初始位置到最终位置所需的最短时间,以最大速度直线飞行。另一方面,随着t逐渐增大,当t=100时无人机的飞行轨迹与之前的完全不同。无irs情况下,无人机沿着相对直接的路径到达用户的位置,然后在用户位置上尽可能保持悬停,最终返回其最终位置。同时,无人机越快到达悬停点,平均求和率提高的程度大。在基于所提及的ddpg算法中,可观察到在无人机绕过地面用户,几乎直接飞向irs,试图尽可能接近irs位置上飞行,以增强接收信号的强度,提高多个空地面链路的信道增益,从而获得较好的通信质量。
提出ddpg算法的联合设计方案包括三个部分,即无人机波束形成,irs无源波束形成相移设计,和轨迹设计。为了评估本发明所提ddpg算法的长期系统性能,将其与irs采取随机相位和无irs通信场景两个基准方案进行了比较。
图4显示在训练时间步长下,其中的平均奖励为用即时奖励的平均值
以上所述仅为本发明的优选方案,并非作为对本发明的进一步限定,凡是利用本发明说明书及附图内容所作的各种等效变化均在本发明的保护范围之内。
1.基于ddpg算法的irs辅助无人机通信联合优化方法,其特征在于,所述联合优化方法基于irs辅助无人机通信系统,所述通信系统包括irs、旋转翼无人机,所述旋转翼无人机上安装若干根用于波束成形的天线,所述旋转翼无人机在固定高度h飞行作为空中基站服务k个单天线用户的下行传输系统,所述irs接收无人机信号并将其通过反射信号绕过障碍物传输给用户;
所述联合优化方法的步骤为:
步骤1、对无人机基站和k个地面用户之间的信道、无人机和irs之间的信道及irs和k个地面用户之间的信道进行建模,构成空对地通信模型,求解三者的信道增益;
步骤2、根据三者的信道增益,获得无人机到地面用户在时隙t的数据传输可达和速率优化问题;
步骤3:根据通信系统中无人机的发射功率波束成形约束、运动轨迹约束,irs无源波束成形相移约束和用户的数据传输可达和速率,建立深度强化学习模型;
步骤4:利用ddpg算法优化强化学习模型;
步骤5:根据优化后的深度强化学习模型获得联合优化的解,得到优化的用户可达数据、速率和无人机的运动轨迹。
2.根据权利要求1所述的基于ddpg算法的irs辅助无人机通信联合优化方法,其特征在于,所述步骤1中,irs和k个地面用户分布以及无人机状态进行如下定义:
所有通信节点建立三维笛卡尔坐标系,部署k个地面用户的和固定z高度的irs配有m个反射单元并且每个反射单元的相位可以调整接收信号,则第k个用户和irs的水平坐标为wk=[xk,yk]t,wr=[xr,yr]t,其中k∈k,k是地面用户节点总数;
无人机在任务周期t(t>0)内持续地向用户发射信号,无人机飞行周期t以步长δt分为n个等距时隙,t=nδt;在t∈[0,t]时刻,无人机的平面坐标定义为q(t)=[x(t),y(t)]t,其中x(t)和y(t)分别表示无人机的二维横坐标和纵坐标;irs在第t个时隙中的相移矩阵为
无人机到用户的los路径被堵塞的情况下,无人机到用户的信道被建模为rician衰弱信道,无人机到用户k在第t时隙的信道增益表示为:
其中ρ表示在参考距离d0=1m时的信道增益,κ是无人机与用户链路的路径损耗指数,guk是具有零均值和单位方差的复高斯随机向量;
无人机到irs的信道以los信道为主,因此第t个时隙时无人机到irs信道增益h(t)表示为:
其中
irs到用户链路同时存在los和nlos成分,因此,irs到用户k的信道增益hk表示为:
其中
3.根据权利要求1所述的基于ddpg算法的irs辅助无人机通信联合优化方法,其特征在于,步骤2中,用户k在第t时隙中的sinr计算公式为:
其中
系统目标为联合设计无人机波束成形矢量
s.t.||q(t 1)-q(t)||≤dmax,
q(0)=qi,q(t 1)=qf
其中
4.根据权利要求1所述的基于ddpg算法的irs辅助无人机通信联合优化方法,其特征在于,步骤3中,建立深度强化学习模型的马尔可夫过程为:
步骤3-1、状态空间s:状态s(t)由第t时间步的无人机发射功率和用户接收功率、第(t-1)步的动作、信道矩阵{gk(t),h(t),hk},k∈k决定;在构造状态s中,如果涉及到复数,则将复数的实部和虚部提取出来被分离为独立的输入端口;
步骤3-2、动作空间a:动作a(t)是由优化变量波束成形矩阵b、无源波束成形相移矩阵θ和轨迹q构成;同样,为了解决实际输入问题,在t时间步将bk(t)=|re{bk(t)}| |im{bk(t)}|,k∈k和θ(t)=|re{θ(t)}| |im{θ(t)}|分为实部和虚部;
步骤3-3、即时奖励r:确保无人机为所有用户提供服务,并基于优化问题奖励函数为
状态作用值函数qπ(s(t),a(t))表示在给定策略π,状态s(t)下采取动作a(t)而获得的累计奖励期望;通过q学习算法可搜索最优策略π*,在最优策略π*下定义的q值更新函数为:
其中χ∈(0,1]为折扣因子,r(t 1)(s(t)=s,a(t),π=π*)为在t时刻状态s(t),动作a(t)和最优策略π*下得到的即时奖励r(t 1),s′为无人机在(t 1)时刻的状态,a′为无人机在(t 1)时刻的动作,
5.根据权利要求1所述的基于ddpg算法的irs辅助无人机通信联合优化方法,其特征在于,步骤4中所述利用ddpg算法优化深度强化学习模型,具体包括以下步骤:
步骤4-1、训练回合数ep初始化为0;
步骤4-2、ep回合中的时间步t初始化为0;
步骤4-3、在线actor策略网络根据输入状态s(t),输出动作a(t)并获取即时奖励r(t 1),同时转换到下一状态s(t 1),获取训练数据集(s(t),a(t),r(t 1),s(t 1));
步骤4-4、将训练数据集(s(t),a(t),r(t 1),s(t 1))存储到经验回放池记忆库d中;
步骤4-5、从目标critic评论网络得到q值方程
步骤4-6、从经验回放池d中随机采样一小批w数量样本构成数据集,发送给在线actor策略网络、在线critic评论网络、目标actor策略网络和目标critic评论网络;
步骤4-7、根据采样得到的w数量样本,目标actor策略网络根据当前的状态s(t)输出动作a(t),目标critic评论网络根据当前的状态s(t)和目标actor策略网络输出动作a(t),输出q值函数
步骤4-8、根据在线critic评论网络参数
其中τc和τa分别是用于更新目标critic评论网络和目标actor策略网络权重的软更新速率;
步骤4-9、判断是否满足t<t,t为ep回合中总时间步,若是则t=t 1,返回步骤4-3,若不是,则进入步骤4-10;
步骤4-10、判断是否满足轮数ep<ep,ep为总回合数,若是则ep=ep 1,返回步骤4-2,若不是则优化结束,得到优化后的强化学习框架。
6.根据权利要求5所述的基于ddpg算法的irs辅助无人机通信联合优化方法,其特征在于,更新梯度公式为:
其中a′是从目标actor策略网络输出的动作,
