全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111422975.X (22)申请日 2021.11.26 (71)申请人 中国人民解 放军96901部队26分队 地址 100094 北京市海淀区北清路109号 (72)发明人 王才红 吕乃冰 许馨月 高军强  肖保军 曹扬 赵思聪 吴京辉  赵若帆  (74)专利代理 机构 中国和平利用军工技 术协会 专利中心 1 1215 代理人 刘光德 (51)Int.Cl. G06Q 10/06(2012.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于人工智能的作战任务规划方法及 系统 (57)摘要 本发明实施例提供了一种基于人工智能的 作战任务规划方法及系统。 该方法包括: 设计作 战任务规划人工智能AI求解环境, 所述作战任务 规划AI求解环境包括7个状态特征、 5个决策动作 和1个综合评价奖励函数; 建立多层深度作战决 策神经网络模型; 采用IMPALA强化学习算法训练 所述多层深度作战决策神经网络模 型; 应用所述 训练的结果构建智能作战任务规划系统, 所述智 能作战任务规划系统自动生 成作战方案, 解决了 战役级作战任务 规划求解难题。 权利要求书3页 说明书9页 附图2页 CN 114202175 A 2022.03.18 CN 114202175 A 1.一种基于人工智能的作战任务 规划方法, 其特 征在于, 该 方法包括以下步骤: S1、 设计作战任务 规划人工智能AI 求解环境; S2、 建立多层深度作战决策神经网络模型; S3、 采用IMPALA强化学习算法训练所述多层深度作战决策神经网络模型; S4、 应用所述训练的结果构建智能作战任务规划系统, 所述智能作战任务规划系统自 动生成作战方案 。 2.根据权利要求1所述的方法, 其特征在于, 步骤S1中所述设计作战任务规划 AI求解环 境包括设计 状态特征、 设计动作集和设计综合评价奖励函数。 3.根据权利要求2所述的方法, 其特征在于, 所述状态特征包括打击目标状态、 打击目 标标志状态、 部队状态、 部队标志状态、 作战地域状态、 作战地域标志状态和武器类型标志 状态; 其中, 打击目标状态, 具体包括: 打击目标属性, 所述打击目标属性包括当前打击目标 的序列编号和类型、 每 个打击目标的毁伤等级和打击目标的武器种类数量; 打击目标 标志状态包括: 全部有效打击目标; 部队状态, 具体包括: 任务部队属性, 所述部队属性包括当前部队的序列编号、 单个波 次最多能发射的武器数量、 最多可用的作战地 域数量、 所使用的作战地 域; 部队标志状态, 具体包括: 部队全部可使用的武器 类型; 作战地域状态, 具体包括: 作战地 域被哪支部队使用、 剩余武器 类型与数量; 战地域标志状态, 具体包括: 每 个作战地 域的可用状态; 武器类型标志状态, 具体包括: 为每 个目标分配的武器 类型。 4.根据权利要求2所述的方法, 其特征在于, 所述动作集包括: 打击目标动作、 武器类型 动作、 部队动作、 作战地 域动作和武器数量动作; 其中, 打击目标动作, 表示当前决策的作战组的打击目标; 武器类型动作, 表示当前决策的作战组使用的武器 类型; 部队动作, 表示当前决策的作战组调用的部队; 作战地域动作, 表示当前决策的作战组部队作战的作战地 域; 武器数量动作, 表示当前决策的作战组打击目标使用的武器数量。 5.根据权利要求2所述的方法, 其特征在于, 所述综合评价奖励函数包括作战效果实现 奖励函数、 作战损失降低奖励函数和作战风险管控奖励函数, 所述综合评价奖励函数根据 如下公式获取: 其中, R为奖励值; τ1为作战效果实现奖励的权重, τ2为作战损失降低奖励的权重, τ3为作战 风险管控奖励的权 重, 所述权 重根据实际情况 预先设定; r1为作战效果实现奖励函数, r2为作战损失降低奖励函数, r3为作战风险管控奖励函 数。 6.根据权利要求1所述的方法, 其特征在于, 步骤S2中所述多层深度作战决策神经网络权 利 要 求 书 1/3 页 2 CN 114202175 A 2模型包括: 模型输入部分和模型输出部分, 所述模型输出部分包括: 价 值网络和策略网络; 所述建立多层深度作战决策神经网络模型包括以下步骤: S21、 所述输入部分接收所述作战任务 规划AI求解环境的3个 状态特征; S22、 所述输入部分采用全连接神经网络将所述3个状态特征转换成一致的维度, 并拼 接为一个特征向量输入由GRU循环神经网络组成的核心网络进行时间序列特 征提取; S23、 所述价值网络获取所述核心网络输出的时间序列特征向量, 采用多层全连接神经 网络计算动作价 值并输出 所述3个状态特征的动作价 值; S24、 所述策略网络中目标动作策略神经网络获取所述核心网络输出的时间序列特征 向量, 以及与目标状态特征相对应的目标标志状态特征, 通过所述 目标标志状态特征实现 决策动作过 滤, 输出目标 特征向量; 其中, 所述策略网络由目标动作策略神经网络、 武器类型动作策略神经网络、 部队动作 策略神经网络、 作战地域动作策略神经网络、 武器数量动作策略神经网络依次连接构成, 前 序动作策略神经网络的输出作为后序动作策略神经网络的输入。 7.根据权利要求6所述的方法, 其特征在于, 步骤S24中所述目标动作策略神经网络实 现决策动作过 滤包括以下步骤: S241、 将所述核心网络输出的时间序列特征向量和所述目标标志状态特征进行矩阵相 乘运算; S242、 采用一维卷积网络提取序列一维特征, 将所述序列一维特征与动作屏蔽向量 mask相加; S243、 利用Softmax逻辑回归模型计算决策动作概率分布lo gits, 基于概率分布随机选 取决策动作并输出 所述决策动作; S244、 将所述决策动作转换成one ‑hot向量, 经过两层全连接层神经网络, 得到 Embedding特征向量。 8.根据权利要求1所述的方法, 其特征在于, 步骤S3 中所述训练所述多层深度作战决策 神经网络模型包括以下步骤: S31、 通过作战任务规划应用模块获取作战意 图和规划场景, 其中, 作战任务规划应用 模块是所述智能作战任务 规划系统的组成部分; S32、 构建作战决策智能体集群, 其中, 每个作战决策智能体包括作战任务规划AI求解 环境和多层深度作战决策神经网络模型; S33、 逐一对单个所述作战决策智能体进行训练, 生成样本, 并将所述样本存入样本序 列; S34、 将全部所述作战决策智能体训练完成后得到的所述样本序列存储于样本集, 若所 述样本集达到指 定数量要求, 更新并输出所述多层深度作战决策神经网络模型, 反之, 继续 对单个所述作战决策智能体进行训练; S35、 训练结束, 得到训练好的所述作战决策智能体, 所述训练结束的条件包括人为终 止或达到指定训练次数终止 两种。 9.根据权利要求8所述的方法, 其特征在于, 步骤S33中所述逐一对单个所述作战决策 智能体进行训练包括以下步骤: S331、 所述作战任务 规划AI求解环境初始化状态特 征St;权 利 要 求 书 2/3 页 3 CN 114202175 A 3

.PDF文档 专利 一种基于人工智能的作战任务规划方法及系统

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于人工智能的作战任务规划方法及系统 第 1 页 专利 一种基于人工智能的作战任务规划方法及系统 第 2 页 专利 一种基于人工智能的作战任务规划方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:19:14上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。