一种基于深度强化学习的无人机数据收集方法与流程

专利2022-05-09 46

1.本发明属于无线传感网络数据感知与数据收集技术领域，特别涉及一种基于深度强化学习的无人机数据收集方法。

背景技术：

2.在物联网中，无线传感网络作为数据感知和收集的重要载体，在万物连接、环境与自然灾害监测等方面发挥着巨大的应用价值。无线传感网络的主要任务是数据处理、无线通信、感知数据等。数据收集问题研究数据终端如何通过无线传感网络从监控区域收集感知数据。举例来说，传感节点可以将采集到的数据通过单跳或多跳自组织网络传送到数据终端，然后进行数据处理。现有的数据收集方法主要有：基于压缩感知的数据收集方法，基于分簇的数据收集方法，结合压缩感知和分簇技术的数据收集方法，以及无人机辅助的数据收集方法。
3.5g技术的快速发展与应用使得物联网应用环境更加多样化，网络结构更加复杂，传感节点部署更加密集。传感节点自身的能量、计算和存储能力十分有限，特别是能量存储非常有限。而大量的感知数据在网络中传输，增加了节点能量的消耗，这使得网络的生命周期难以得到保证。无人机(unmanned aerial vehicles,uav)具有高机动性、易于安装和相对较低的应用成本等特点，在5g物联网感知数据收集方面具有很切实的可行性和应用前景。无人机作为可控的移动数据收集器，可以到达环境恶劣或者没有网络设施的应用场景，一方面用于传感节点的数据收集与转发传输，不依赖于物联网中无线传感网络结构；另一方面可以在飞到传感节点的上空进行数据收集，有利于降低传感节点的发射功率和能量消耗，延长节点的使用寿命进而提高物联网的生命周期。
4.无线传感网络中传感节点的主要能耗在数据的采集与发送上，所以高效的数据收集方案对于网络的能耗节省至关重要。当前，无线传感网络中数据收集方法主要有以下几种：
5.方法1：基于压缩感知的数据收集方法将压缩感知理论应用到无线传感网络中，其主要利用数据在特定传输域中的稀疏性，对数据进行压缩，使得要传输的采样数据量少于原始采样数据量，进而减少传感节点的传输能耗。
6.方法2：基于分簇的数据收集方法能够提高网络的连通性，降低数据传输时延，同样可以有效地降低网络中的能耗。
7.方法3：为了提高数据收集效用，现有技术公开了一种应用了无人机为传感节点提供无线能量传输技术。无人机携带无线电力传输设备飞行到数据收集移动簇头点进行数据的收集与传感节点能量的补充。
8.然而，现有技术中存在以下问题：
9.1.针对方法1中的压缩感知的基于压缩感知的数据收集方法，该方法编码过程简单，对计算能力和存储能力要求非常低，而解码相对复杂，对计算存储能力要求较高。直接将压缩感知技术应用到无线网络数据收集中，虽然可以降低传感节点的能量消耗，但并不
能显著提高网络的吞吐量。
10.2.针对方法2的数据收集方法严重依赖于簇头节点的传输能力与能量储备，簇头节点承担了网络中绝大部分的数据转发业务，容易导致节点能量很快耗尽，使无线传感网络功能缺失。同时，无线网络需要进行路由协议建立及维护，增加了各节点软硬件的复杂度。
11.3.针对方法3的无限能量传输技术，该方法不适合时延敏感性网络场景，因为无人机需要频繁返回基站进行电量补充。

技术实现要素：

12.根据本发明的一个方面，一种基于深度强化学习的无人机数据收集方法，基于无线传感网络、一个基站、k个传感节点和一架无人机，其特征在于，包括：初始化：将所述无线传感网络中目标区域虚拟分割成p个相同大小的小区域，无人机获取所述p个小区域中的中心点位置坐标ω1＝[x
i
,y
i
,0](i＝1,2,
…
,p)，k个传感节点坐标q
k
＝[x
k
,y
k
,0](k＝1,2,
…
,k)；每个所述传感节点上设有数据缓存区用于存储数据和缓存队列信息；无人机以时隙作为时间节点；设定每个时隙持续时间长度为t
s
s，t
s
进一步分成节点采样时段长度t1，节点上传数据包到无人机的传输时段长度t2，无人机转发数据包至基站时段长度t3；设定无人机最长飞行时间对应的时隙数n
e
、无人机返程时所需的剩余能量阈值e
th
、累计总时隙数num＝0、随机动作选择概率ε、无人机飞行动作空间φ，无人机所携带的剩余能量e(n)为满电量e，获取无人机当前位置q
u
(n)＝[x(n),y(n),h]；步骤1：判断所述剩余能量e(n)是否大于所述剩余能量阈值e
th
，若e(n)大于e
th
，进入步骤2；若e(n)小于e
th
，则无人机返回基站，初始化时隙数n＝0、节点数据信息年龄a
k
(n)、缓存区数据分组生存时间u
k
(n)，补充无人机所携带的剩余能量e(n)为满电量e，获取无人机当前位置q
u
(n)，执行步骤1；步骤2：无人机获取当前时隙n,获取每个节点的数据信息年龄a
k
(n)、缓存区数据分组生存时间u
k
(n)(k＝1,2,
…
,k)、无人机当前位置q
u
(n)＝[x(n),y(n),h]和无人机所携带的剩余能量e(n)，将其组成系统时隙状态s作为学习样本数据输入动作决策算法中；步骤3：动作决策算法生成一个在[0,1]之间均匀分布的随机数τ，判断τ是否小于ε；若τ小于ε，则动作决策算法从动作空间中随机选择一个动作a；若τ大于ε，则动作决策算法依据所述系统时隙状态s，生成所有动作a(a∈φ)对应的函数值q(s,a；θ)，所述q(s,a；θ)公式构成为：q(s,a；θ)＝g
(l)
(w
(l)t
s
(l-1)
b
(l)
)，其中，代表估计神经网络的层数，s
(l-1)
(l＝1,
…
,l)代表估计神经网络的第l层输入，s
(0)
＝s是所述系统时隙状态，g
(l)
(
·
)代表估计神经网络的第l层激活函数，w
(l)
和b
(l)
分别代表估计神经网络的第l层矢量权重和偏置参数，w
t
代表矢量w的转置，参数θ代表l层估计神经网络的参数w
(l)
和b
(l)
(l＝1,
…
,l)，判断所述q(s,a；θ)最小值所对应的动作，即：步骤4：根据无人机当前位置q
u
(n)和所选所述动作a计算目标中心点位置坐标q
u
(n 1)；步骤5：无人机沿直线以速度v飞行至所述目标中心点位置坐标，同时进行数据采集；更新时隙n＝n 1，num＝num 1，判断num是否小于所述无人机最长飞行时间对应的时隙数n
e
，若是，则返回步骤1；若否，则停止数据收集，输出数据平均信息年龄和丢包率p
drop
。
[0013]
优选地，所述动作决策算法还包括：将n时隙初所述的系统时隙状态，所选动作a，
网络性能的反馈以及n时隙末系统状态以数据包：[n时隙起始系统状态s，所选动作a，网络性能的反馈c(s,a)，n时隙末系统状态s']的形式存放到位于无人机的经验池中，表示n时隙网络性能的反馈，其中，m
k
(n)代表节点k数据包的丢失数量，e
c
(n)表示无人机的能耗，δ1与δ2为预设权重；从经验池中选取h个所述样本数据[s
i
,a
i
,c(s
i
,a
i
),s
i
'](i＝1,
…
,h)输入所述动作决策算法中更新网络参数θ，所述网络参数θ更新的计算公式为：
[0014]
θ＝θ
▽
θ
l(θ),
[0015]
其中，a
′
i
代表无人机在所述系统时隙状态s
′
i
'下所采取的动作，θ'代表目标神经网络参数，q(s
′
i
,a
′
i
；θ')是目标神经网络在系统时隙状态s
′
i
下采取动作a
′
i
的函数值。
[0016]
优选地，所述步骤5还包括：步骤51：在时隙n内，所述区域内k个传感节点进行数据采集判决，确定是否进行数据采集；若节点k进行数据采集，则将节点k所采集到的数据放入所述数据缓存区中队列首位；若节点k缓存区容量已满，则丢掉缓存区中队尾的数据包；若节点k当前时隙不进行数据采集，则不执行丢掉缓存区中队尾的数据包的操作；更新队列首位所述数据包的生存时间，用m
k
(n)记录节点k在时隙n丢失所述数据包数量；步骤52：根据无人机到达的所述小区域中心位置坐标判断所述小区域内是否部署有传感节点，若不存在传感节点，则不进行数据传输，当前时隙n的数据传输能耗e
t
(n)＝0，直接执行步骤54；若存在传感节点，则与该节点建立通信链路，进行步骤53；步骤53：无人机获取所述节点在时隙n的所述数据缓存区的所述缓存队列信息，若所述缓存队列不为空，则将所述数据缓存区中处于队列首位的数据包传送至无人机，由无人机将该数据包转发至基站，计算时隙n的数据传输能耗e
t
(n)；若所述缓存队列为空，则不进行数据传输，当前时隙n的数据传输能耗e
t
(n)＝0；步骤54：无人机在n时隙起始时刻，根据所述步骤3得到的所述动作a，以速度v沿直线飞行至所述动作所对应的小区域中心位置q
u
(n 1)；计算无人机飞行能耗e
f
(n)。
[0017]
优选地，所述数据传输能耗e
t
(n)的计算公式如下：无人机与传感节点所建立的通信链路的路径损耗在n时隙为l
n
(db)；无人机在时隙n将数据长度为l
p
的数据传输到基站其发射功率为：
[0018][0019]
其中，b和n0分别表示通信带宽和噪声功率谱密度；因此，数据传输能量消耗为e
t
(n)＝p
u
(n)
·
t3。
[0020]
优选地，所述无人机飞行能耗e
f
(n)的计算公式如下：根据无人机的飞行速度v，计算无人机飞行功率
[0021][0022]
其中，f
drag
为无人机所承受的拉力；
[0023][0024]
为无人机在考虑实际阻力的情况下的飞行速度，飞行能耗e
f
(n)＝p
f
·
t
s
。
[0025]
优选地，所述节点数据信息年龄的获取步骤包括：更新每个节点数据缓存区队列首位数据包的生存时间为：
[0026][0027]
其中，o
k
(n)＝0表示传感节点k数据缓存队列为空，则数据缓存区队列首位数据包的生存时间为0；o
k
(n)＝1表示节点k在时隙n进行数据采集，所述队列首位数据包生存时间置为1；其它情况下缓存区队列首位数据包的生存时间在原有基础上增加1；更新每个节点数据信息年龄计算公式如下：
[0028][0029]
其中，若无人机在时隙n中收集节点k的数据，此时s
k
(n)＝1，则节点k数据信息年龄重置到u
k
(n)；其他情况下，节点k数据信息年龄增加1。
[0030]
优选地，所述数据平均信息年龄和所述丢包率p
drop
的计算方法为：计算此前n个时隙内的节点所述数据平均信息年龄和所述丢包率p
drop
：
[0031][0032][0033]
若更新后的num小于最长飞行时间对应的时隙数n
e
，则跳转到步骤1；若更新后的num大于最长飞行时间对应的时隙数n
e
，输出平均信息年龄和丢包率。
[0034]
优选地，所述初始化中随机动作选择概率的计算公式为ε＝0.9
·
e-num
。
[0035]
优选地，所述p的值大于所述k的值且每个所述小区域中至多包含一个所述传感节点。
[0036]
优选地，所述剩余能量阈值的计算公式为：
[0037][0038]
其中，d
max
表示所述小区域中心坐标离基站的最远距离。
[0039]
优选地，所述动作决策算法中包括多个深度神经网络输入层神经元，所述深度神经网络输入层神经元的个数由所述系统时隙状态中的变量个数决定；所述深度神经网络的模型采用ann、cnn、rnn、lstm、autoencoder中的一种或多种。
[0040]
本发明的有益效果：
[0041]
本发明采用的无人机作为中继转发技术，能够突破无线传感网络在远距离或者环境恶劣场景部署上的约束，降低传感节点的发射功率，延长网络生命周期。本发明同时考虑
到传感节点的随机采样应用场景，在不预先知道每个节点的数据采样状态下，采用无人机的在线学习数据收集方法，提高了针对节点的固定或随机采样模式的适应性，能够保证传感节点数据的时效性，降低数据分组的丢包率。与现有的无人机辅助无线传感网络收集方法相比较。本发明采用了基于深度强化学习的无人机数据收集方法，可以适用于更加多样化的无线传感网络。
附图说明
[0042]
图1为本发明的系统模型示意图；
[0043]
图2为本发明的基于深度强化学习的数据收集算法收敛性变化图；
[0044]
图3为本发明的不同采样率下传感节点平均信息年龄趋势图；
[0045]
图4为本发明的不同采样率下传感节点数据包丢失率趋势图；
[0046]
图5为本发明的实施例流程图；
[0047]
图6为本发明的在线学习算法流程图。
具体实施方式
[0048]
现在将参照若干示例性实施例来论述本发明的内容。应当理解，论述了这些实施例仅是为了使得本领域普通技术人员能够更好地理解且因此实现本发明的内容，而不是暗示对本发明的范围的任何限制。
[0049]
如本文中所使用的，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实施例”和“一种实施例”要被解读为“至少一个实施例”。术语“另一个实施例”要被解读为“至少一个其他实施例”。
[0050]
如图1所示，本发明的一个实施例应用的无线传感网络场景包括一个基站和k个传感节点，其位置坐标为q
k
＝[x
k
,y
k
,0](k＝0,1,2,
…
,k)。场景区域虚拟分割为p个相同大小的小区域，每个小区域的中心坐标为ω
i
＝[x
i
,y
i
,0](i＝1,2,
…
,j)，且最多只有一个传感节点部署该区域；获取k个节点数据的初始信息年龄和缓存区中数据分组生成时间；设定每个时隙持续时间长度为t
s
s，t
s
进一步分成节点采样时段长度t1，节点上传数据包到无人机的传输时段长度t2，无人机转发数据包至5g小基站时段长度t3；设定无人机最长飞行时间对应的时隙数n
e
，无人机返程时所需的剩余能量阈值e
th
，累计总时隙数num＝0，随机动作选择概率ε。
[0051]
本实施例的详细步骤如下：
[0052]
步骤1：设定当前时隙索引n＝0，初始化各节点数据信息年龄a
k
(n)、缓存区数据分组生存时间u
k
(n)，无人机在5g小基站处充满电量e。
[0053]
步骤2：将n时隙起始时刻由各节点数据信息年龄a
k
(n)、缓存区数据分组生存时间u
k
(n)、无人机当前位置q
u
(n)＝[x(n),y(n),h]和无人机所携带的剩余能量e(n)所组成的n时隙的系统时隙状态作为学习样本的输入动作决策算法。该动作决策算法中深度神经网络输入层神经元个数由系统时隙状态决定，深度神经网络模型有多种形式。如：ann，cnn，rnn，lstm，autoencoder以及其组合变体，本方法采用的是ann深度神经网络。输出层的神经元个数由无人机最多可到达的邻近小区域个数决定。本发明实施例设定无人机可到达以地理坐标为参考系的上下左右邻近四个小区域，即在线学习算法中的神经网络输出层有四个神经
元。四个神经元的标签分别为：north，south，west，east。每个神经元输出的是该系统状态下选择此动作的状态动作值q(s,a；θ)。动作决策算法生成一个在[0,1]之间均匀分布的随机数τ，判断τ是否小于ε；若τ小于ε，则动作决策算法从动作空间中随机选择一个动作a；若τ大于ε，则动作决策算法依据所述系统时隙状态s，生成所有动作a(a∈φ)对应的函数值q(s,a；θ)，所述q(s,a；θ)公式构成为：q(s,a；θ)＝g
(l)
(w
(l)t
s
(l-1)
b
(l)
)，其中，代表估计神经网络的层数，s
(l-1)
(l＝1,
…
,l)代表估计神经网络的第l层输入，s
(0)
＝s是所述系统时隙状态，g
(l)
(
·
)代表估计神经网络的第l层激活函数，w
(l)
和b
(l)
分别代表估计神经网络的第l层矢量权重和偏置参数，w
t
代表矢量w的转置，参数θ代表l层估计神经网络的参数w
(l)
和b
(l)
(l＝1,
…
,l)，判断所述q(s,a；θ)最小值所对应的动作，即：无人机沿直线以速度v飞行至所述目标中心点位置坐标，同时进行数据采集，即同时或分别执行步骤3、步骤4和步骤5；
[0054]
步骤3：在时隙n初内，每个传感器节点进行采样判决，确定是否从周围环境中采集环境数据样本。若节点k到达采样时刻，则节点k从周围环境中采集环境感知数据，并将数据打包成分组，按先到后服务的策略存放到节点的缓存区中队列首部，记录队首数据分组的生存时间；如果节点缓存区容量已满，则丢掉缓存区中队尾的一个分组，用m
k
(n)＝1记录节点k在时隙n丢失一个分组；否则，没有丢包事件发生，记录m
k
(n)＝0；如果节点没有到达采样时刻，则不进行采样和数据缓存。
[0055]
步骤4：根据传感节点位置坐标，无人机判断当前所处位置下方小区域是否部署有传感节点，若没有节点存在，则不进行数据收集，当前时隙n的数据传输能耗e
t
(n)＝0，直接执行步骤6；若有节点存在，则与该节点建立通信链路，获取该节点当前时隙的缓存队列信息，若队列不为空，在无人机数据收集时段，节点向无人机上传缓存区中队首分组，在无人机数据转发时段，无人机将接收的节点感知数据分组，中继转发至5g小基站，计算时隙n的数据传输能耗e
t
(n)，如果队列为空，则不进行数据收集，当前时隙n的数据传输能耗e
t
(n)＝0。e
t
(n)的计算如下：假设此时无人机到5g小基站的信道状态已知，其无线通信链路的路径损耗在n时隙为l
n
(db)。所以，无人机在第n时隙将数据长度为w的采样数据包传输到5g小基站其发射功率为
[0056][0057]
其中b和n0分别表示通信带宽和噪声功率谱密度。因此，数据传输能量消耗为e
t
(n)＝p
u
(n)
·
t3。
[0058]
步骤5：无人机在n时隙起始时刻，根据步骤2得到的动作以速度v沿直线飞行至下一个目标区域中心位置；计算无人机飞行能耗e
f
(n)。e
f
(n)的计算如下：根据无人机的飞行速度v，计算无人机飞行功率
[0059][0060]
其中，
[0061][0062]
所以飞行能耗e
f
(n)＝p
f
·
t
s
。
[0063]
步骤6：更新每个节点数据信息年龄
[0064][0065]
其中s
k
(n)＝1表示节点k缓存中的采样数据包在时隙n被无人机所收集，数据信息年龄重置到u
k
(n)。当缓存中的数据包未被无人机收集时，数据信息年龄线性增加；更新缓存区数据分组生存时间
[0066][0067]
其中o
k
(n)＝0表示无数据包分组，缓存区数据分组生存时间为0，o
k
(n)＝1表示节点k在时隙n进行数据采样，数据分组生存时间重置为1，其它情况下数据分组生存时间线性增加。
[0068]
步骤7：将n时隙初所述的系统时隙状态，所选动作a，网络性能的反馈以及n时隙末系统状态以数据包：[n时隙起始系统状态，所选动作a，网络性能的反馈c(s,a)，n时隙末系统状态s']的形式存放到位于无人机的经验池中，表示n时隙网络性能的反馈，其中，m
k
(n)代表节点k数据包的丢失数量，e
c
(n)表示无人机的能耗，δ1与δ2为预设权重；
[0069]
从经验池中选取h个所述样本数据[s
i
,a
i
,c(s
i
,a
i
),s
′
i
](i＝1,
…
,h)输入所述动作决策算法中更新网络参数θ，所述网络参数θ更新的计算公式为：
[0070]
θ＝θ
▽
θ
l(θ),
[0071]
其中，a
′
i
代表无人机在所述系统时隙状态s
′
i
下所采取的动作，θ'代表目标神经网络参数，q(s
′
i
,a
′
i
；θ')是目标神经网络在系统时隙状态s
′
i
下采取动作a
′
i
的函数值。随机动作选择概率的计算公式为ε＝0.9
·
e-num
。
[0072]
步骤8：更新时隙n＝n 1，num＝num 1，判断num是否小于所述无人机最长飞行时间对应的时隙数n
e
，若是，则返回步骤1；若否，则停止数据收集，执行步骤9，输出数据平均信息年龄和丢包率p
drop
。
[0073]
步骤9：计算此前n个时隙内的节点数据平均信息年龄和丢包率p
drop
：
[0074]
[0075][0076]
更新累计总时隙数num＝num n；如果更新后的num小于n
e
，则跳转到步骤1；否则，若更新后的num大于n
e
，则输出平均信息年龄和丢包率。通过无人机接收数据的平均信息年龄和丢包率可以反映出无人机数据收集方法的可靠性及数据收集效率。
[0077]
本发明的效果可通过仿真进一步说明：
[0078]
(1)仿真条件：
[0079]
无线传感网络是一个400m
×
360m的方形区域，其被虚拟均匀分割为10
×
9个相同大小的小区域。将矩形区域左下角设置为带有坐标标签[0，0]的坐标原点。三个传感节点分别位于[320，280]，[360，120]，[80，40]坐标区域。基站位于[0，160]坐标区域。每个传感节点以固定或随机的速率对环境中的信息进行采样，并将新采样的数据包分组存放在节点缓存区中。随机采样过程建模为泊松过程。仿真参数如表1所示：
[0080]
表1.仿真参数
[0081][0082][0083]
(2)仿真结果
[0084]
图2以固定采样速率λ＝0.1为例，其损失函数随着迭代次数的不断增加逐渐下降。当迭代次数达到10^4时，损失函数基本收敛到0。同时，学习率α＝0.008的损失函数收敛曲线相比于其它两种学习率更加光滑，稳定。因为，我们以学习率α＝0.008作为固定采样情况下的仿真参数。
[0085]
图3和图4比较了随机采样和固定采样下sarsa和dqn策略的平均信息年龄和丢包率性能表现。与相同速率下的随机采样相比，当传感节点固定采样时，sarsa和dqn策略在平均信息年龄和丢包率上都得到了更低的数值。这是因为泊松采样过程会产生不可预测的采样间隔。因此，每个传感节点的样本之间的间隔可以变得非常大，也可以变得非常小。而且在基站获得的信息可能并不新鲜。因此，在随机采样机制下，学习算法无法很好的预测信息到达时刻，这使得平均信息年龄较大。同时，无论是随机采样还是固定速率采样，sarsa策略的平均信息年龄都低于dqn策略。我们可以看到，较高的采样率会导致较小的平均信息年龄和较高的丢包率，因为传感节点可以更频繁地采样并上传更多的新鲜数据包。
[0086]
应理解，本发明的发明内容及实施例中各步骤的序号的大小并不绝对意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。
[0087]
尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

技术特征：
1.一种基于深度强化学习的无人机数据收集方法，基于无线传感网络、一个基站、k个传感节点和一架无人机，其特征在于，包括：初始化：将所述无线传感网络中目标区域虚拟分割成p个相同大小的小区域，无人机获取所述p个小区域中的中心点位置坐标ω1＝[x
i
,y
i
,0](i＝1,2,
…
,p)，k个传感节点坐标q
k
＝[x
k
,y
k
,0](k＝1,2,
…
,k)；每个所述传感节点上设有数据缓存区用于存储数据和缓存队列信息；无人机以时隙作为时间节点；设定每个时隙持续时间长度为t
s
s，t
s
进一步分成节点采样时段长度t1，节点上传数据包到无人机的传输时段长度t2，无人机转发数据包至基站时段长度t3；设定无人机最长飞行时间对应的时隙数n
e
、无人机返程时所需的剩余能量阈值e
th
、累计总时隙数num＝0、随机动作选择概率ε、无人机飞行动作空间φ，无人机所携带的剩余能量e(n)为满电量e，获取无人机当前位置q
u
(n)＝[x(n),y(n),h]；步骤1：判断所述剩余能量e(n)是否大于所述剩余能量阈值e
th
，若e(n)大于e
th
，进入步骤2；若e(n)小于e
th
，则无人机返回基站，初始化时隙数n＝0、节点数据信息年龄a
k
(n)、缓存区数据分组生存时间u
k
(n)，补充无人机所携带的剩余能量e(n)为满电量e，获取无人机当前位置q
u
(n)，执行步骤1；步骤2：无人机获取当前时隙n,获取每个节点的数据信息年龄a
k
(n)、缓存区数据分组生存时间u
k
(n)(k＝1,2,
…
,k)、无人机当前位置q
u
(n)＝[x(n),y(n),h]和无人机所携带的剩余能量e(n)，将其组成系统时隙状态s作为学习样本数据输入动作决策算法中；步骤3：动作决策算法生成一个在[0,1]之间均匀分布的随机数τ，判断τ是否小于ε；若τ小于ε，则动作决策算法从动作空间中随机选择一个动作a；若τ大于ε，则动作决策算法依据所述系统时隙状态s，生成所有动作a(a∈φ)对应的函数值q(s,a；θ)，所述q(s,a；θ)公式构成为：q(s,a；θ)＝g
(l)
(w
(l)t
s
(l-1)
b
(l)
)，其中，)，其中，代表估计神经网络的层数，s
(l-1)
(l＝1,
…
,l)代表估计神经网络的第l层输入，s
(0)
＝s是所述系统时隙状态，g
(l)
(
·
)代表估计神经网络的第l层激活函数，w
(l)
和b
(l)
分别代表估计神经网络的第l层矢量权重和偏置参数，w
t
代表矢量w的转置，参数θ代表l层估计神经网络的参数w
(l)
和b
(l)
(l＝1,
…
,l)，判断所述q(s,a；θ)最小值所对应的动作，即：步骤4：根据无人机当前位置q
u
(n)和所选所述动作a计算目标中心点位置坐标q
u
(n 1)；步骤5：无人机沿直线以速度v飞行至所述目标中心点位置坐标，同时进行数据采集；更新时隙n＝n 1，num＝num 1，判断num是否小于所述无人机最长飞行时间对应的时隙数n
e
，若是，则返回步骤1；若否，则停止数据收集，输出数据平均信息年龄和丢包率p
drop
。2.如权利要求1所述的数据收集方法，其特征在于，所述动作决策算法还包括：将n时隙初所述的系统时隙状态，所选动作a，网络性能的反馈以及n时隙末系统状态以数据包：[n时隙起始系统状态s，所选动作a，网络性能的反馈c(s,a)，n时隙末系统状态s']的形式存放到位于无人机的经验池中，表示n时隙网络性能的反馈，其中，m
k
(n)代表节点k数据包的丢失数量，e
c
(n)表示无人机的能耗，δ1与δ2为预设权重；从经验池中选取h个所述样本数据[s
i
,a
i
,c(s
i
,a
i
),s
′
i
](i＝1,
…
,h)输入所述动作决
策算法中更新网络参数θ，所述网络参数θ更新的计算公式为：其中，a
′
i
代表无人机在所述系统时隙状态s
′
i
下所采取的动作，θ'代表目标神经网络参数，q(s
′
i
,a
′
i
；θ')是目标神经网络在系统时隙状态s
′
i
下采取动作a
′
i
的函数值。3.如权利要求2所述的数据收集方法，其特征在于，所述步骤5还包括：步骤51：在时隙n内，所述区域内k个传感节点进行数据采集判决，确定是否进行数据采集；若节点k进行数据采集，则将节点k所采集到的数据放入所述数据缓存区中队列首位；若节点k缓存区容量已满，则丢掉缓存区中队尾的数据包；若节点k当前时隙不进行数据采集，则不执行丢掉缓存区中队尾的数据包的操作；更新队列首位所述数据包的生存时间，用m
k
(n)记录节点k在时隙n丢失所述数据包数量；步骤52：根据无人机到达的所述小区域中心位置坐标判断所述小区域内是否部署有传感节点，若不存在传感节点，则不进行数据传输，当前时隙n的数据传输能耗e
t
(n)＝0，直接执行步骤54；若存在传感节点，则与该节点建立通信链路，进行步骤53；步骤53：无人机获取所述节点在时隙n的所述数据缓存区的所述缓存队列信息，若所述缓存队列不为空，则将所述数据缓存区中处于队列首位的数据包传送至无人机，由无人机将该数据包转发至基站，计算时隙n的数据传输能耗e
t
(n)；若所述缓存队列为空，则不进行数据传输，当前时隙n的数据传输能耗e
t
(n)＝0；步骤54：无人机在n时隙起始时刻，根据所述步骤3得到的所述动作a，以速度v沿直线飞行至所述动作所对应的小区域中心位置q
u
(n 1)；计算无人机飞行能耗e
f
(n)。4.如权利要求3所述的数据收集方法，其特征在于，所述数据传输能耗e
t
(n)的计算公式如下：无人机与传感节点所建立的通信链路的路径损耗在n时隙为l
n
(db)；无人机在时隙n将数据长度为l
p
的数据传输到基站其发射功率为：其中，b和n0分别表示通信带宽和噪声功率谱密度；因此，数据传输能量消耗为e
t
(n)＝p
u
(n)
·
t3。5.如权利要求3所述的方法，其特征在于，所述无人机飞行能耗e
f
(n)的计算公式如下：根据无人机的飞行速度v，计算无人机飞行功率其中，f
drag
为无人机所承受的拉力；为无人机所承受的拉力；为无人机在考虑实际阻力的情况下的飞行速度，飞行能耗e
f
(n)＝p
f
·
t
s
。
6.如权利要求1所述的数据收集方法，其特征在于，所述节点数据信息年龄的获取步骤包括：更新每个节点数据缓存区队列首位数据包的生存时间为：其中，o
k
(n)＝0表示传感节点k数据缓存队列为空，则数据缓存区队列首位数据包的生存时间为0；o
k
(n)＝1表示节点k在时隙n进行数据采集，所述队列首位数据包生存时间置为1；其它情况下缓存区队列首位数据包的生存时间在原有基础上增加1；更新每个节点数据信息年龄计算公式如下：其中，若无人机在时隙n中收集节点k的数据，此时s
k
(n)＝1，则节点k数据信息年龄重置到u
k
(n)；其他情况下，节点k数据信息年龄增加1。7.如权利要求3所述的数据收集方法，其特征在于，所述数据平均信息年龄和所述丢包率p
drop
的计算方法为：计算此前n个时隙内的节点所述数据平均信息年龄和所述丢包率p
drop
：：若更新后的num小于最长飞行时间对应的时隙数n
e
，则跳转到步骤1；若更新后的num大于最长飞行时间对应的时隙数n
e
，输出平均信息年龄和丢包率。8.如权利要求1所述的方法，其特征在于，所述初始化中随机动作选择概率的计算公式为ε＝0.9
·
e-num
。9.如权利要求1所述的方法，其特征在于，所述p的值大于所述k的值且每个所述小区域中至多包含一个所述传感节点。10.如权利要求5所述的方法，其特征在于，所述剩余能量阈值的计算公式为：其中，d
max
表示所述小区域中心坐标离基站的最远距离。11.如权利要求1所述的方法，其特征在于，所述动作决策算法中包括多个深度神经网络输入层神经元，所述深度神经网络输入层神经元的个数由所述系统时隙状态中的变量个数决定；所述深度神经网络的模型采用ann、cnn、rnn、lstm、autoencoder中的一种或多种。
技术总结
本发明公开了一种基于深度强化学习的无人机数据收集方法，本发明采用的无人机作为中继转发技术，能够突破无线传感网络在远距离或者环境恶劣场景部署上的约束，降低传感节点的发射功率，延长网络生命周期。本发明同时考虑到传感节点的随机采样应用场景，在不预先知道每个节点的数据采样状态下，采用无人机的在线学习数据收集方法，提高了针对节点的固定或随机采样模式的适应性，能够保证传感节点数据的时效性，降低数据分组的丢包率。与现有的无人机辅助无线传感网络收集方法相比较。本发明采用了基于深度强化学习的无人机数据收集方法，可以适用于更加多样化的无线传感网络。可以适用于更加多样化的无线传感网络。可以适用于更加多样化的无线传感网络。

技术研发人员：童鹏刘娟冯宇王亮
受保护的技术使用者：丽水青达科技合伙企业（有限合伙）
技术研发日：2019.12.31
技术公布日：2021/7/15

转载请注明原文地址:https://doc.8miu.com/read-650251.html

专利

最新回复(0)