专利一种基于人工智能的作战任务规划方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111422975.X (22)申请日 2021.11.26 (71)申请人中国人民解放军96901部队26分队地址 100094 北京市海淀区北清路109号 (72)发明人王才红　吕乃冰　许馨月　高军强　肖保军　曹扬　赵思聪　吴京辉　赵若帆　 (74)专利代理机构中国和平利用军工技术协会专利中心 1 1215 代理人刘光德 (51)Int.Cl. G06Q 10/06(2012.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称一种基于人工智能的作战任务规划方法及系统 (57)摘要本发明实施例提供了一种基于人工智能的作战任务规划方法及系统。该方法包括：设计作战任务规划人工智能AI求解环境，所述作战任务规划AI求解环境包括7个状态特征、 5个决策动作和1个综合评价奖励函数；建立多层深度作战决策神经网络模型；采用IMPALA强化学习算法训练所述多层深度作战决策神经网络模型；应用所述训练的结果构建智能作战任务规划系统，所述智能作战任务规划系统自动生成作战方案，解决了战役级作战任务规划求解难题。权利要求书3页说明书9页附图2页 CN 114202175 A 2022.03.18 CN 114202175 A 1.一种基于人工智能的作战任务规划方法，其特征在于，该方法包括以下步骤： S1、设计作战任务规划人工智能AI 求解环境； S2、建立多层深度作战决策神经网络模型； S3、采用IMPALA强化学习算法训练所述多层深度作战决策神经网络模型； S4、应用所述训练的结果构建智能作战任务规划系统，所述智能作战任务规划系统自动生成作战方案。 2.根据权利要求1所述的方法，其特征在于，步骤S1中所述设计作战任务规划 AI求解环境包括设计状态特征、设计动作集和设计综合评价奖励函数。 3.根据权利要求2所述的方法，其特征在于，所述状态特征包括打击目标状态、打击目标标志状态、部队状态、部队标志状态、作战地域状态、作战地域标志状态和武器类型标志状态；其中，打击目标状态，具体包括：打击目标属性，所述打击目标属性包括当前打击目标的序列编号和类型、每个打击目标的毁伤等级和打击目标的武器种类数量；打击目标标志状态包括：全部有效打击目标；部队状态，具体包括：任务部队属性，所述部队属性包括当前部队的序列编号、单个波次最多能发射的武器数量、最多可用的作战地域数量、所使用的作战地域；部队标志状态，具体包括：部队全部可使用的武器类型；作战地域状态，具体包括：作战地域被哪支部队使用、剩余武器类型与数量；战地域标志状态，具体包括：每个作战地域的可用状态；武器类型标志状态，具体包括：为每个目标分配的武器类型。 4.根据权利要求2所述的方法，其特征在于，所述动作集包括：打击目标动作、武器类型动作、部队动作、作战地域动作和武器数量动作；其中，打击目标动作，表示当前决策的作战组的打击目标；武器类型动作，表示当前决策的作战组使用的武器类型；部队动作，表示当前决策的作战组调用的部队；作战地域动作，表示当前决策的作战组部队作战的作战地域；武器数量动作，表示当前决策的作战组打击目标使用的武器数量。 5.根据权利要求2所述的方法，其特征在于，所述综合评价奖励函数包括作战效果实现奖励函数、作战损失降低奖励函数和作战风险管控奖励函数，所述综合评价奖励函数根据如下公式获取：其中， R为奖励值； τ1为作战效果实现奖励的权重， τ2为作战损失降低奖励的权重， τ3为作战风险管控奖励的权重，所述权重根据实际情况预先设定； r1为作战效果实现奖励函数， r2为作战损失降低奖励函数， r3为作战风险管控奖励函数。 6.根据权利要求1所述的方法，其特征在于，步骤S2中所述多层深度作战决策神经网络权　利　要　求　书 1/3 页 2 CN 114202175 A 2模型包括：模型输入部分和模型输出部分，所述模型输出部分包括：价值网络和策略网络；所述建立多层深度作战决策神经网络模型包括以下步骤： S21、所述输入部分接收所述作战任务规划AI求解环境的3个状态特征； S22、所述输入部分采用全连接神经网络将所述3个状态特征转换成一致的维度，并拼接为一个特征向量输入由GRU循环神经网络组成的核心网络进行时间序列特征提取； S23、所述价值网络获取所述核心网络输出的时间序列特征向量，采用多层全连接神经网络计算动作价值并输出所述3个状态特征的动作价值； S24、所述策略网络中目标动作策略神经网络获取所述核心网络输出的时间序列特征向量，以及与目标状态特征相对应的目标标志状态特征，通过所述目标标志状态特征实现决策动作过滤，输出目标特征向量；其中，所述策略网络由目标动作策略神经网络、武器类型动作策略神经网络、部队动作策略神经网络、作战地域动作策略神经网络、武器数量动作策略神经网络依次连接构成，前序动作策略神经网络的输出作为后序动作策略神经网络的输入。 7.根据权利要求6所述的方法，其特征在于，步骤S24中所述目标动作策略神经网络实现决策动作过滤包括以下步骤： S241、将所述核心网络输出的时间序列特征向量和所述目标标志状态特征进行矩阵相乘运算； S242、采用一维卷积网络提取序列一维特征，将所述序列一维特征与动作屏蔽向量 mask相加； S243、利用Softmax逻辑回归模型计算决策动作概率分布lo gits，基于概率分布随机选取决策动作并输出所述决策动作； S244、将所述决策动作转换成one ‑hot向量，经过两层全连接层神经网络，得到 Embedding特征向量。 8.根据权利要求1所述的方法，其特征在于，步骤S3 中所述训练所述多层深度作战决策神经网络模型包括以下步骤： S31、通过作战任务规划应用模块获取作战意图和规划场景，其中，作战任务规划应用模块是所述智能作战任务规划系统的组成部分； S32、构建作战决策智能体集群，其中，每个作战决策智能体包括作战任务规划AI求解环境和多层深度作战决策神经网络模型； S33、逐一对单个所述作战决策智能体进行训练，生成样本，并将所述样本存入样本序列； S34、将全部所述作战决策智能体训练完成后得到的所述样本序列存储于样本集，若所述样本集达到指定数量要求，更新并输出所述多层深度作战决策神经网络模型，反之，继续对单个所述作战决策智能体进行训练； S35、训练结束，得到训练好的所述作战决策智能体，所述训练结束的条件包括人为终止或达到指定训练次数终止两种。 9.根据权利要求8所述的方法，其特征在于，步骤S33中所述逐一对单个所述作战决策智能体进行训练包括以下步骤： S331、所述作战任务规划AI求解环境初始化状态特征St；权　利　要　求　书 2/3 页 3 CN 114202175 A 3

专利 一种基于人工智能的作战任务规划方法及系统

专利一种基于人工智能的作战任务规划方法及系统