本发明属于无线通信网络,涉及一种基于多智能体的空中安全数据采集方法。
背景技术:
1、在过去几十年中,无人机得到了广泛的应用。历史上,无人机主要用于军事领域,以降低飞行员的损失为目的,常见于敌对领土的部署。然而,随着无人机成本的持续降低以及其高机动性等优点的凸显,无人机逐渐成为了商业和民用领域的热门解决方案。例如,无人机在交通控制、灾害探测、紧急救援以及目标跟踪等方面发挥着重要作用。
2、在下一代无线通信系统中,无人机辅助通信有望发挥关键作用,为用户提供良好的覆盖和经济高效的绿色通信服务。由于无人机具有高机动性、低成本和按需部署等特点,无人机可以作为临时空中基站部署,为热点地区提供宽带无线连接,尤其在地面基站遭到灾难摧毁的情况下发挥重要作用。通过合理设计无人机的轨迹,可以建立视线通信链路,提高通信系统性能,实现高质量、低能耗的通信服务。因此,无人机轨迹设计在无人机通信系统中具有决定性的作用。
3、由于无线信道的广播性质,信息存在被窃听的危险。特别是在无人机通信系统中,由于其高概率的视线通信链路,增加了空中通信系统被窃听的风险。为了解决这一问题,物理层安全被认为是无线通信安全传输的理想解决方案。因此,许多研究工作都致力于优化无人机的轨迹,以增强无人机通信系统的安全性。通过轨迹设计,提高通信系统的保密速率,从而保护通信数据的安全。
4、要实现有效的无人机通信,需要解决许多新的设计挑战。其中包括用户的随机移动、节能通信、无人机的飞行安全、资源分配和轨迹设计等问题。随着考虑更加复杂的概率视距链路以及多无人机下的轨迹设计和资源分配,优化问题变得更加复杂。这使得使用连续凸逼近和块坐标下降等方法求解优化问题变得非常困难。因此,需要研究新的解决方案和算法来应对这些挑战,以实现有效的无人机通信系统。
5、幸运的是,深度强化学习算法通过将深度学习的感知能力和强化学习的决策能力相结合,可以从一个较大的策略空间中搜索得到最优解或者次优解。以至于如何将深度强化学习与无人机轨迹设计结合起来成为无人机通信系统设计的研究热点之一。这一融合的方法为应对通信系统设计中的复杂挑战提供了新的解决思路,为实现更有效的无人机通信系统开辟了新的可能性。
6、机器学习是人工智能的一个重要子领域,按照现在主流的分类方式,可以将机器学习算法分为监督学习、无监督学习和强化学习三种类型。
7、其中,强化学习又称再励学习、评价学习或增强学习,是机器学习的一个范式和方法论。它用于描述和解决智能体在与环境的交互过程中,通过学习策略以达成回报最大化或实现特定目标的问题。强化学习的核心是学习如何将场景映射到动作的策略,以获取最大的奖励。在给定的环境状态下,智能体需要决定采取何种动作来改变环境,从而获得最大的奖励。与监督学习不同,强化学习过程中智能体不会被告知应该采取哪个动作,而是通过不断与环境交互,从试错中学习到当前任务的最优或较优策略。
8、强化学习一般可用马尔可夫决策过程(markov decision process,mdp)表示,主要元素包含状态空间s,表示智能体所处的环境状态。动作空间a,表示智能体可以采取的动作。奖励函数r,表示智能体在特定状态下采取特定动作后所获得的奖励。状态转移概率psa,表示在给定状态和动作下,智能体转移到下一状态的概率。折扣因子γ用于衡量未来奖励的重要性。
9、智能体的策略π表示状态空间到动作空间的一个映射。当智能体处于状态st时,根据策略π采取动作at∈a,然后根据状态转移概率psa转移到下—状态st+1,同时接收环境反馈的奖励值r(s,a),如图1所示。强化学习的目标是不断地优化智能体的策略,从而得到最大的累积奖励值。
10、智能体的值函数v(st)和动作值函数q(st,at)分别用来评估智能体在状态st下所能得到的长期奖励的期望。智能体的最优策略可以通过优化值函数得到。
11、多智能体强化学习是一种涉及多个智能体协同学习的方法。每个智能体根据环境状态选择动作,并根据奖励来更新策略。智能体之间相互影响,通过合作或竞争来达成共同目标。这种方法适用于多个智能体共同决策的场景,如博弈论、群体行为研究等。多智能体强化学习的挑战在于协调各个智能体的行为,以达到全局较优解。
技术实现思路
1、本发明考虑了一个多无人机通信系统的空中安全数据收集问题。在这个问题中,需要同时部署多个数据采集无人机去收集地面用户的保密数据,但空中存在着一个按固定轨迹飞行的窃听无人机,试图窃听保密数据。为应对这一挑战,本发明采取了一系列措施。首先,针对空中窃听场景,考虑通过干扰无人机去抑制窃听无人机的窃听能力,从而进一步提高其他数据采集无人机的安全速率。其次,综合考虑了多个数据采集无人机和干扰无人机的飞行能耗,联合设计了它们的轨迹以及干扰无人机的发送功率,以最大限度地提高系统的总保密率。
2、由于该问题是一个非凸多变量耦合问题,并且考虑了复杂的概率视距链路,传统的优化方法求解具有挑战性。因此,提出了一种基于多智能体深度强化学习的算法,用于求解多无人机的飞行轨迹和干扰无人机的功率。本发明的目的在于提供一种基于多智能体的空中安全数据采集方法,以应对多无人机通信系统中的安全问题。
3、本发明采用的技术方案是:一种基于多智能体的空中安全数据采集方法,包括以下步骤:
4、步骤一、构建多无人机辅助通信系统,针对多无人机的空中安全数据采集问题,确定通信模型、信道模型和能耗模型,构建优化问题,并且建模为一个部分可观察的马尔可夫决策过程;构建多智能体深度强化学习算法的网络,包括策略网络、评论家网络和目标网络,策略网络以可观察环境信息作为输入,当前无人机下一个时刻的速度矢量或者干扰功率为输出,评论家网络以全局的环境信息和全局的策略网络输出作为输入,从而对单无人机的策略网络的输出进行评估。
5、步骤二、构建多智能体深度强化学习算法中的奖励函数,为了使得多智能体能够尽快的收敛以及更好的学习策略,制定了奖励函数,主要包括能耗奖励、到达目的地奖励、保密率奖励和约束奖励。
6、步骤三、将当前时隙的状态信息输入到多个无人机智能体的策略网络中,从而获得多无人机的动作;无人机在仿真环境中执行所述动作,获取下一时隙多无人机的部分可观察状态信息和该时隙多智能体的奖励,再将下一时隙的部分可观察状态信息输入多个智能体的策略网络,如此循环直到无人机返回终点;针对每一次循环的状态信息,利用步骤二中定义的奖励函数计算瞬时奖励值并累积奖励得到当前飞行时间的累积奖励值。
7、步骤四、通过步骤三获得多个样本构建样本池,利用样本池中的样本对多智能体的策略网络和评论家网络进行训练更新,同时继续按照步骤三的方式获得新的样本,放入样本池,直到累积奖励值趋于稳定,此时完成策略网络训练。
8、步骤五、采用训练好的多智能体策略网络进行无人机轨迹优化和功率控制。
9、本发明的有益效果主要在三个方面:
10、(1)考虑了在空中窃听情况下的多无人机辅助安全数据采集系统。同时考虑了多无人机的飞行能耗,并提出了一个优化问题,以便在确保能量约束和飞行条件的同时,最大化总保密速率。
11、(2)针对于空中窃听场景,考虑一个干扰无人机去抑制空中窃听的窃听能力,进一步提高其他基站无人机的安全速率。
12、(3)开发了一种基于maddpg的强化学习算法来实现多无人机的轨迹设计和功率控制。在关于终点奖励的设计中,本发明考虑了自适应能耗阈值,在返回终点和数据收集问题之间进行权衡,以最大化总保密率。
1.一种基于多智能体的空中安全数据采集方法,其特征在于,包括以下步骤:
2.根据权利要求1所述一种基于多智能体的空中安全数据采集方法,其特征在于:所述无人机辅助通信系统包括多个数据采集无人机m作为空中基站从k个地面用户uk收集机密信息,空中存在着一个按固定轨迹移动的窃听无人机e试图窃听机密信息,另一架无人机j充当移动干扰器,通过人工噪声抑制空中窃听e的窃听能力。
3.根据权利要求1或2所述一种基于多智能体的空中安全数据采集方法,其特征在于:所述通信模型中在空中窃听e下,无人机m和用户uk在第n个时隙的保密速率为:
4.根据权利要求3所述一种基于多智能体的空中安全数据采集方法,其特征在于:所述优化问题为(p1):
5.根据权利要求4所述一种基于多智能体的空中安全数据采集方法,其特征在于:所述马尔可夫决策过程通过{s,u,o,r,p}进行表示,其中s表示环境的全局状态信息,其中s={o1,···,om,oj},om和oj表示数据采集无人机和干扰无人机的部分观察状态信息,u表示多智能体联合的动作空间,其中u=a1×···×am×aj,am和aj表示数据采集无人机和干扰无人机的动作空间,o表示环境在下一个状态的全局状态信息,r表示当前的奖励,p表示状态转移概率函数;
6.根据权利要求1或4或5所述一种基于多智能体的空中安全数据采集方法,其特征在于:所述多智能体深度强化学习算法的网络中每个智能体具有独立的策略网络、评论家网络和目标网络,且多智能体之间的网络结构完全相同;
7.根据权利要求6所述一种基于多智能体的空中安全数据采集方法,其特征在于:步骤二所述奖励函数包括能耗奖励、到达目的地奖励、保密率奖励和约束奖励;
8.根据权利要求7所述一种基于多智能体的空中安全数据采集方法,其特征在于:在计算能耗奖励中,根据采用的能耗模型和该时隙的速度,计算得到当前无人机的飞行能耗,从而得到能耗奖励;
9.根据权利要求7或8所述一种基于多智能体的空中安全数据采集方法,其特征在于:所述步骤四中,评论家网络q(s,a;θq)通过最小化均方损失更新其网络参数学习策略,其损失函数被表示为:
10.一种计算机可读存储介质,其特征在于:存储有可执行指令,用于被处理器执行时,实现权利要求1-4任一项所述基于多智能体的空中安全数据采集方法。
