本发明涉及数据处理,尤其涉及一种面向数字兵力智能构造平台的数字兵力部署方法及装置。
背景技术:
1、实装、虚拟和构造仿真(live-virtual-conslruction,lvc)是一种集成了实体训练、虚拟仿真和构造仿真的先进技术,被广泛应用于训练领域。在模拟训练领域具有重要作用。然而,当前lvc训练系统中计算机生成的兵力场景存在无法满足实际训练需求的问题,
2、因此,如何更有效的进行数字兵力部署模拟已经成为业界亟待解决的问题。
技术实现思路
1、本发明提供一种面向数字兵力智能构造平台的数字兵力部署方法及装置,用以解决现有技术中如何更有效的进行数字兵力部署模拟的问题。
2、本发明提供一种面向数字兵力智能构造平台的数字兵力部署方法,包括:
3、获取当前时刻的训练环境状态信息;其中,所述训练环境状态信息包括以下至少一项:当前时刻的敌方位置信息、友方分布信息、地形信息、天气信息;
4、将当前时刻的所述训练环境状态信息输入到训练好的兵力部署模型,输出当前时刻的决策动作信息;
5、其中,所述决策动作信息包括以下至少一项:兵力调动信息、攻防状态信息、战术调整信息。
6、根据本发明提供的一种面向数字兵力智能构造平台的数字兵力部署方法,所述兵力部署模型为包括输入层、卷积层、全连接层、噪声网络结构、目标q网络和优先经验回放缓存的dqn网络架构;
7、其中,所述噪声网络结构用于在在全连接层中引入带有可学习参数的噪声;
8、所述目标q网络的参数是在每个训练周期结束时从兵力部署模型的主网络中复制得到的;
9、所述优先经验回放缓存用于存储代理与环境交互得到的经验元组,所述经验元组包括当前时刻的训练环境状态信息、动作、奖励、下一个状态。
10、根据本发明提供的一种面向数字兵力智能构造平台的数字兵力部署方法,在所述将当前时刻的所述训练环境状态信息输入到训练好的兵力部署模型,输出当前时刻的决策动作信息的步骤之前,还包括:
11、获取多个训练环境状态样本信息;
12、对于任意一个所述训练环境状态样本信息,将所述训练环境状态样本信息通过兵力部署模型中的输入层传输到所述兵力部署模型中的卷积层;
13、所述卷积层用于对所述训练环境状态样本信息进行状态特征提取,并将提取的所述状态特征传输到所述兵力部署模型中的全连接层;
14、所述全连接层用于将所述状态特征映射到当前状态的q值,所述目标q网络用于预测下一个状态的目标q值;
15、基于当前状态的所述q值和所述目标q值的差值,计算损失值,根据所述损失值进行网络参数优化;
16、遍历各个所述训练环境状态样本信息,直至满足预设训练条件,得到训练好的所述兵力部署模型。
17、根据本发明提供的一种面向数字兵力智能构造平台的数字兵力部署方法,所述基于当前状态的所述q值和所述目标q值的差值,计算损失值,根据所述损失值进行网络参数优化,包括:
18、将所述差值作为经验优先级,并使用经验优先级加权的均方误差构建损失函数,计算损失值;
19、通过反向传播算法优化所述主网络的网络参数,以最小化损失,并根据所述差值的大小更新经验元组的优先级。
20、根据本发明提供的一种面向数字兵力智能构造平台的数字兵力部署方法,在所述获取多个训练环境状态样本信息的步骤之前,所述方法还包括:
21、初始化所述主网络、所述目标q网络以及所述噪声网络结构的参数,并初始化所述优先经验回放缓存,为每个经验元组分配一个初始优先级。
22、根据本发明提供的一种面向数字兵力智能构造平台的数字兵力部署方法,所述方法还包括:
23、接收用户的兵力操作指令;其中,所述兵力操作指令包括以下至少一项:兵力信息查找指令、兵力信息编辑指令、兵力信息删除指令;
24、响应于所述兵力操作指令,对所述训练环境状态信息进行操作。
25、本发明还提供一种面向数字兵力智能构造平台的数字兵力部署装置,包括:
26、获取模块,用于获取当前时刻的训练环境状态信息;其中,所述训练环境状态信息包括以下至少一项:当前时刻的敌方位置信息、友方分布信息、地形信息、天气信息;
27、处理模块,用于将当前时刻的所述训练环境状态信息输入到训练好的兵力部署模型,输出当前时刻的决策动作信息;
28、其中,所述决策动作信息包括以下至少一项:兵力调动信息、攻防状态信息、战术调整信息。
29、根据本发明实施例提供的一种面向数字兵力智能构造平台的数字兵力部署装置,所述兵力部署模型为包括输入层、卷积层、全连接层、噪声网络结构、目标q网络和优先经验回放缓存的dqn网络架构;
30、其中,所述噪声网络结构用于在在全连接层中引入带有可学习参数的噪声;
31、所述目标q网络的参数是在每个训练周期结束时从兵力部署模型的主网络中复制得到的;
32、所述优先经验回放缓存用于存储代理与环境交互得到的经验元组,所述经验元组包括当前时刻的训练环境状态信息、动作、奖励、下一个状态。
33、根据本发明实施例提供的一种面向数字兵力智能构造平台的数字兵力部署装置,所述装置还用于:
34、获取多个训练环境状态样本信息;
35、对于任意一个所述训练环境状态样本信息,将所述训练环境状态样本信息通过兵力部署模型中的输入层传输到所述兵力部署模型中的卷积层;
36、所述卷积层用于对所述训练环境状态样本信息进行状态特征提取,并将提取的所述状态特征传输到所述兵力部署模型中的全连接层;
37、所述全连接层用于将所述状态特征映射到当前状态的q值,所述目标q网络用于预测下一个状态的目标q值;
38、基于当前状态的所述q值和所述目标q值的差值,计算损失值,根据所述损失值进行网络参数优化;
39、遍历各个所述训练环境状态样本信息,直至满足预设训练条件,得到训练好的所述兵力部署模型。
40、根据本发明实施例提供的一种面向数字兵力智能构造平台的数字兵力部署装置,所述装置还用于:
41、将所述差值作为经验优先级,并使用经验优先级加权的均方误差构建损失函数,计算损失值;
42、通过反向传播算法优化所述主网络的网络参数,以最小化损失,并根据所述差值的大小更新经验元组的优先级。
43、根据本发明实施例提供的一种面向数字兵力智能构造平台的数字兵力部署装置,所述装置还用于:
44、初始化所述主网络、所述目标q网络以及所述噪声网络结构的参数,并初始化所述优先经验回放缓存,为每个经验元组分配一个初始优先级。
45、根据本发明实施例提供的一种面向数字兵力智能构造平台的数字兵力部署装置,所述装置还用于:
46、接收用户的兵力操作指令;其中,所述兵力操作指令包括以下至少一项:兵力信息查找指令、兵力信息编辑指令、兵力信息删除指令;
47、响应于所述兵力操作指令,对所述训练环境状态信息进行操作。
48、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述面向数字兵力智能构造平台的数字兵力部署方法。
49、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述面向数字兵力智能构造平台的数字兵力部署方法。
50、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述面向数字兵力智能构造平台的数字兵力部署方法。
51、本发明提供的面向数字兵力智能构造平台的数字兵力部署方法及装置,通过采用基于神经网络的深度学习算法,对兵力的部署进行优化。这包括考虑地形、敌情、友军位置等多个因素,以制定最佳的部署策略,提高兵力的灵活性和生存能力。具体考虑多维度的对抗环境,根据不同的场景需求,系统能够自动调整兵力的部署方案,确保在各种环境下都能取得最优的对抗效果。在本技术实施例中通过引入神经网络和算法的意义在于使得系统能够更好地理解和适应复杂的兵力场景,提前识别潜在威胁,并做出相应的应对策略。同时具备对实时数据的处理能力,可以实时收集和分析场景数据,快速做出反馈,并根据实时情况调整决策,以适应快速变化的战场环境。
1.一种面向数字兵力智能构造平台的数字兵力部署方法,其特征在于,包括:
2.根据权利要求1所述的面向数字兵力智能构造平台的数字兵力部署方法,其特征在于,所述兵力部署模型为包括输入层、卷积层、全连接层、噪声网络结构、目标q网络和优先经验回放缓存的dqn网络架构;
3.根据权利要求2所述的面向数字兵力智能构造平台的数字兵力部署方法,其特征在于,在所述将当前时刻的所述训练环境状态信息输入到训练好的兵力部署模型,输出当前时刻的决策动作信息的步骤之前,还包括:
4.根据权利要求3所述的面向数字兵力智能构造平台的数字兵力部署方法,其特征在于,所述基于当前状态的所述q值和所述目标q值的差值,计算损失值,根据所述损失值进行网络参数优化,包括:
5.根据权利要求3所述的面向数字兵力智能构造平台的数字兵力部署方法,其特征在于,在所述获取多个训练环境状态样本信息的步骤之前,所述方法还包括:
6.根据权利要求1所述的面向数字兵力智能构造平台的数字兵力部署方法,其特征在于,所述方法还包括:
7.一种面向数字兵力智能构造平台的数字兵力部署装置,其特征在于,包括:
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述面向数字兵力智能构造平台的数字兵力部署方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述面向数字兵力智能构造平台的数字兵力部署方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述面向数字兵力智能构造平台的数字兵力部署方法。