基于深度强化学习的无人机链路寿命多跳中继选择方法

专利2025-10-20  12


本发明涉及无人机(unmanned aerial vehicle,uav)应用,尤其涉及一种基于深度强化学习的无人机链路寿命多跳中继选择方法。


背景技术:

1、近年来,随着无人机的高速发展,基于无人机辅助通信的空地异构网络相较于传统的异构网络在覆盖范围、数据传输速率和质量以及网络稳定性等方面都有着巨大的优势。为了高效协同地完成数据的传输,空地异构网络中无人机采用多跳的方式进行信息的转发。中继节点作为空地异构网络的中间节点发挥着重要的作用,有助于提高网络的稳定性、提高网络中信息的传输效率、减少路径损耗和干扰。因此,异构网络中多跳中继的选择对于异构网络的性能、稳定性和开销等方面至关重要。

2、目前,针对协作通信网络中多跳中继的选择已展开了大量的研究,有方案构建了一个社会关系模型,并在此基础上考虑节点之间的距离和功率约束提出了功率有效和社会感知中继选择(psrs,power-efficient and social-aware relay selection)算法,减少了网络的功耗。有方案提出了一种用于缓冲多跳网络延迟分析的框架。基于网络中的信道特征,选择具有最高信噪比(signal to interference plus noise ratio,snr)的最佳跳,减小了网络中信息多跳传输的中断概率。有方案进一步考虑了网络中信息传输的特性和网络环境,根据网络中节点的瞬时位置和剩余多跳延迟的估计来联合优化单跳前向进度(fp,forward progress)和单跳延迟,降低了多跳传输时延,提高了信息传输的可靠性。但这些研究针对的场景都是二维的d2d通信场景,基于无人机辅助的空地异构网络通信场景中,网络环境更加复杂,通信覆盖范围更广,网络中节点运动速度更快,网络拓扑变化更加频繁,上述方法不能应用到三维的网络环境中。为此,有方案对基于无人机辅助的空地异构通信网络中继选择方法进行了全面的评估研究,包括基于链路状态、基于中继节点地理位置和临时有序算法等。通过对多种算法的研究,得出了节点的相对速度导致的网络结构变化是网络性能波动的主要驱动因素的结果。还有方案引入了强化学习的算法,利用q表格法,提出了基于q学习的地理位置多跳中继选择方法,基于网络中节点之间的链路和位置误差进行多跳中继的选择,以提高网络动态变化的情况下中继节点的智能选择。还有方案在此基础上引入了深度强化算法,提出了基于深度强化学习的增强地理位置多跳中继选择算法,结合网络中相邻节点的拓扑信息进行多跳中继的选择,降低了计算开销,提高了网络在更加复杂环境中的自适应能力。

3、综上,上述现有技术中对空地异构网络中多跳中继节点的选择方法的缺点包括:研究考虑到了网络的三维特性和网络中高移动性节点之间的位置和距离,但网络中节点之间的相对运动速度和方向是影响网络拓扑变化的重要因素,对网络多跳中继路径的选择存在着重要的影响,现有方法应用到网络节点运动速度较快的环境中,不能选择建立高质量的多跳中继传输路径。


技术实现思路

1、本发明的实施例提供了一种基于深度强化学习的无人机链路寿命多跳中继选择方法,以实现有效提高空地异构网络中信息传输的质量。

2、为了实现上述目的,本发明采取了如下技术方案。

3、一种基于深度强化学习的无人机链路寿命多跳中继选择方法,包括:

4、计算空地异构网络中各个节点之间的距离、相对速度和相对运动方向,根据各个节点之间的距离、相对速度和相对运动方向计算出各个节点之间的链路质量和链路寿命;

5、为空地异构网络中的中继无人机节点构建邻居表,基于所述邻居表构建无人机多跳中继选择的马尔可夫决策过程mdp模型,根据各个中继无人机节点之间的链路质量和链路寿命设置所述mdp模型的奖励函数;

6、通过基于深度强化学习的最佳路由选择算法求解所述mdp模型,获取中继无人机节点传输数据的具有最大链路寿命的多跳中继路径。

7、优选地,所述的计算空地异构网络中各个节点之间的距离、相对速度和相对运动方向,包括:

8、设置空地异构无线网络中有n架无人机和地面基站d,用s代表空地异构无线网络中的源无人机节点,其他的无人机作为当前源节点的待选中继节点uavi(i=1,2…n-1);

9、设无人机uavi和uavj的空间位置分别为(xi,yi,zi)和(xi,yi,zi),节点i和节点j之间的距离dij的计算公式为:

10、

11、设无人机的通信范围为r,将影响链路质量的两节点之间的距离因素dij表现为如下形式:

12、

13、其中,当时dij根据方程得出:

14、

15、当dij=r时dij=1当时dij=―1,y=dij及x=dij

16、设置无人机uavi和uavj的速度分别是vi和vj,无人机uavi和uavj之间的相对速度表示为:

17、vij=vi+vj    (6)

18、将影响无人机链路质量的相对速度因素vij表示为:

19、

20、其中vx,i由无人机i在接收两个hello信息之间x坐标之差除以两个消息接收到的间隔得出;

21、无人机uavi和uavj之间的速度矢量夹角θij表示为:

22、

23、根据θij将无人机uavi和uavj的相对运动方向表示为:

24、

25、当0<θij<π时,根据公式(4)求出

26、优选地,所述的根据各个节点之间的距离、相对速度和相对运动方向计算出各个节点之间的链路质量和链路寿命,包括:

27、无人机uavi和uavj之间的链路质量qij(t)的计算公式为:

28、

29、其中α1、α2和α3是权重系数,且α1+α2+α3=1,当链路质量qij(t)小于链路质量阈值qthreshold时,认为无人机uavi和uavj之间的链路是断开的,将链路断开的时刻表示为:

30、

31、将无人机uavi和uavj之间的链路寿命的计算公式为:

32、

33、优选地,所述的为空地异构网络中的中继无人机节点构建邻居表,基于所述邻居表构建无人机多跳中继选择的马尔可夫决策过程mdp模型,根据各个中继无人机节点之间的链路质量和链路寿命设置所述mdp模型的奖励函数,包括:

34、源节点通过中继无人机节点将信息传输到地面基站,为空地异构网络中的每个中继无人机节点构建邻居表,中继无人机节点a的邻居表表示为:

35、nta=(id1,l1,t1,nmpr1;id2,l2,t2,nmpr2;…idk,lk,tk,nmprk) (13)

36、

37、其中idi,li,ti,nmpri分别表示中继无人机节点a第i个邻居的编号、地理位置、与中继无人机节点a之间的链路寿命和节点a的mpr集合中第i个节点的mpr集合,k为中继无人机节点a的mpr的总数,从当前中继无人机节点的所有一跳邻居节点中根据邻居节点的剩余能量和邻居节点选择mpr集合;

38、在空地异构网络中,各个中继无人机节点从其邻居表中通过多跳中继选择算法选择传输信息的最优下一跳中继无人机节点,将通过多跳中继选择算法选择最优下一跳中继无人机节点的问题建模为mdp模型,该mdp模型包括四元组<s,a,p,r>,用智能体agent代表决策的实体,其中s表示智能体的所有状态空间,a为智能体所有可能采取的动作集合,p为状态转移概率,r为即时奖励函数;

39、(1)状态空间s

40、用nmpr表示中继无人机节点a的mpr集中节点的数量,根据节点a与其邻居节点之间的链路寿命ti以及其mpr集中节点的mpr节点数量nmpri来定义节点a的状态空间。

41、sa={ti,nmpr,nmpri}    (17)

42、(2)动作空间a

43、当节点a不是目的节点且接收到信息后,需要在其邻居mpr集中选择一个节点进行数据的传输,将节点a的动作空间a定义为:aa={1,2…nmpr},其中nmpr就是节点a的mpr集中邻居节点的数量;

44、(3)状态转移概率p

45、状态转移概率p设定为随机且未知的;

46、(4)奖励函数r

47、当节点a和选择下一跳节点之间的链路寿命为ti时,基于节点之间链路寿命的奖励值为:

48、re(i)=exp(―ti)―1    (18)

49、将整个信息传输过程的奖励函数定义为:

50、

51、优选地,所述的从当前中继无人机节点的所有一跳邻居节点中根据邻居节点的剩余能量和邻居节点选择mpr集合,包括:

52、对无人机中继节点的邻居节点的剩余能量进行归一化处理:

53、

54、其中er表示邻居节点的剩余能量,ei表示邻居节点的初始能量。

55、邻居节点的覆盖度即当前节点的邻居节点可以与多少个二跳邻居节点进行通信,对邻居节点的覆盖度进行归一化处理:

56、

57、其中d表示当前邻居节点的覆盖度,dmin是邻居节点中的最小的覆盖度,dmax是邻居节点中最大的覆盖度;

58、对邻居节点的剩余能量和覆盖度进行权重处理,即:

59、w=e′+αd′    (16)

60、其中w就表示邻居节点被选为成mpr的级别程度,α是权重系数,表示邻居节点的剩余能量和覆盖度在w中的权重;

61、当前中继无人机节点的mpr集合的选择过程包括:查找当前中继无人机节点的所有二跳邻居节点中是否有仅能通过唯一的邻居节点才能到达的节点,如果存在则将这个唯一的邻居节点加入到mpr集合中,并删除二跳邻居节点中能通过该邻居节点到达的所有节点,接着选择邻居节点中w最大的节点,并将这个节点加入到mpr集中,同样删除经过该邻居节点到达的所有二跳邻居节点更新二跳邻居节点集,一直按照这种规则在邻居节点中选择mpr集合,直到二跳邻居节点集为空。

62、优选地,所述的通过基于深度强化学习的最佳路由选择算法求解所述mdp模型,获取中继无人机节点传输数据的具有最大链路寿命的多跳中继路径,包括:

63、所述基于深度强化学习的最佳路由选择算法通过最大化累计奖励来寻求一个最优的策略π*,所述最大化累计奖励表示多跳中继路径具有最大的链路寿命;

64、策略π表示为:

65、π(a|s)=p(a=a|s=s)    (20)

66、即agent在每个状态s∈s下对该状态下动作a∈a的唯一映射,用在状态s下选择动作a的概率表示;

67、对于每一对状态动作对(s,a)都有对应的状态价值函数qπ(a|s),表示为:

68、qπ(a|s)=eπ(gt|st=s,at=a)    (21)

69、qπ(a|s)表示当前状态s在策略π下执行动作a能够获得的期望奖励,gt是从当前步骤到步骤结束过程中的累计奖励之和,表示为:

70、

71、其中t是当前步骤,t′是结束时步骤,γ∈[0,1]是折扣因子,γ表示当前奖励与未来奖励之间的权重,最优策略表示为:

72、

73、利用基于深度强化学习的深度q网络dqn算法根据输入的状态输出对应的状态-动作价值函数,即:

74、q′(s,s;θ)=qπ(a|s)    (24)

75、其中θ表示神经网络参数;

76、所述dqn算法包括q估计网络和q目标网络,q估计网络用来训练估计状态-动作价值函数q′(s,a;θ),q目标网络的参数θ―不随着训练迭代而实时的变化,而是按一定的周期将q估计网络的参数赋值给q目标网络,dqn算法采用梯度下降法最小化损失函数来最小化经验回放中最优目标值函数与估计函数之间的差值,目标网络预测的q值表示为:

77、

78、损失函数表示为:

79、

80、其中θt和分别表示第t次迭代时q估计网络和q目标网络的网络参数,通过对θt进行微分,得到损失函数的梯度为:

81、

82、在dqn算法执行过程中,q估计网络每执行一步就更新一次其网络参数,q目标网络每隔一定的步数直接复制估计网络的网络参数即θ―←θ,最优策略π*就是执行q估计网络预测的当前状态下达到最大q值的动作a*:

83、

84、

85、当前中继无人机节点根据公式(23)得到最优策略π*,采用贪婪策略根据公式(29)计算最优策略π*对应的动作a*,动作a*即为最优动作,最优动作a*即为选择传输信息的最优下一跳中继无人机节点。

86、由上述本发明的实施例提供的技术方案可以看出,本发明设计的无人机多跳中继选择方法可获得更高的网络吞吐量和更高的包递交率,当网络中节点的速度变快,节点数量增加时,本发明能更高效智能地提高空地异构网络中信息传输的质量。

87、本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。


技术特征:

1.一种基于深度强化学习的无人机链路寿命多跳中继选择方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述的计算空地异构网络中各个节点之间的距离、相对速度和相对运动方向,包括:

3.根据权利要求2所述的方法,其特征在于,所述的根据各个节点之间的距离、相对速度和相对运动方向计算出各个节点之间的链路质量和链路寿命,包括:

4.根据权利要求3所述的方法,其特征在于,所述的为空地异构网络中的中继无人机节点构建邻居表,基于所述邻居表构建无人机多跳中继选择的马尔可夫决策过程mdp模型,根据各个中继无人机节点之间的链路质量和链路寿命设置所述mdp模型的奖励函数,包括:

5.根据权利要求4所述的方法,其特征在于,所述的从当前中继无人机节点的所有一跳邻居节点中根据邻居节点的剩余能量和邻居节点选择mpr集合,包括:

6.根据权利要求5所述的方法,其特征在于,所述的通过基于深度强化学习的最佳路由选择算法求解所述mdp模型,获取中继无人机节点传输数据的具有最大链路寿命的多跳中继路径,包括:


技术总结
本发明提供了一种基于深度强化学习的无人机链路寿命多跳中继选择方法。该方法包括:计算空地异构网络中各个节点之间的距离、相对速度和相对运动方向,根据各个节点之间的距离、相对速度和相对运动方向计算出各个节点之间的链路质量和链路寿命;将多跳中继选择过程建模为MDP模型,根据各个中继无人机节点之间的链路质量和链路寿命设置MDP模型的奖励函数;通过基于深度强化学习的最佳中继选择算法求解MDP模型,获取中继无人机节点传输数据的具有最大链路寿命的多跳中继路径。本发明的多跳中继选择方法可获得更高的网络吞吐量和更高的包递交率,能更高效智能地提高空地异构网络中信息传输的质量。

技术研发人员:韩东升,宋海钊
受保护的技术使用者:华北电力大学(保定)
技术研发日:
技术公布日:2024/6/26
转载请注明原文地址:https://doc.8miu.com/read-1824179.html

最新回复(0)