专利 一种协同通信干扰决策方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111461271.3 (22)申请日 2021.12.0 3 (71)申请人中国人民解放军空军工程大学地址 710038 陕西省西安市灞桥区长乐东路甲字一号 (72)发明人许华　宋佰霖　齐子森　饶宁　彭翔　 (74)专利代理机构西安亚信智佳知识产权代理事务所(普通合伙) 61241 代理人骆怡洁 (51)Int.Cl. H04W 28/18(2009.01) H04W 72/04(2009.01) H04W 72/08(2009.01) H04W 16/22(2009.01)G06N 20/00(2019.01) (54)发明名称一种协同通信干扰决策方法 (57)摘要本公开实施例是关于一种协同通信干扰决策方法，该方法包括：建立协同决策模型，提供决策环境；基于深度强化学习，在Actor ‑Critic算法架构下提出一种融合优势函数的干扰决策算法，根据干扰决策算法输出最优的干扰方案。通过上述协同干扰决策方法，根据构建的协同决策模型，实现根据干扰决策算法输出最优的干扰方案，本公开实施例给出的干扰方案能够实现干扰资源的最优利用，提高决策效率。权利要求书2页说明书11页附图3页 CN 114423046 A 2022.04.29 CN 114423046 A 1.一种协同通信干扰决策方法，其特征在于，该方法包括：建立协同决策模型，提供决策环境；基于深度强化学习，在Actor ‑Critic算法架构下提出一种融合优势函数的干扰决策算法，根据所述干扰决策算法输出最优的干扰方案。 2.根据权要求1所述协同通信干扰决策方法，其特征在于，定义所述协同决策模型所需的基本元素为：状态空间和动作空间；其中，状态空间表示某个目标跳频信号未被干扰的频点数量为h，定义状态空间S＝[h1,h2,...,hn]，即表示所有目标跳频信号未被干扰的频点数；动作空间定义决策网络输出干扰动作为A，表示干扰站的部署阵地及干扰方向角对应的干扰动作编码，为降低算法的决策维度，在0 °～180°范围内每a °可选择一个角度作为干扰方向角。 3.根据权利要求1所述协同通信干扰决策方法，其特征在于，所述基于深度强化学习，在Actor‑Critic算法架构下提出一种融合优势函数的干扰决策算法，根据所述干扰决策算法输出最优的干扰方案，包括：通过策略执行网络感知环境状态，获取t时刻各待干扰目标信号的频点数信息St，通过所述策略执行网络的拟合运算输出t时刻各干扰站的干扰动作At。 4.根据权利要求3所述协同通信干扰决策方法，其特征在于，所述基于深度强化学习，在Actor‑Critic算法架构下提出一种融合优势函数的干扰决策算法，根据干扰决策算法输出最优的干扰方案，包括：价值评估网络根据获取的t时刻和t+1时刻所述各待干扰目标信号的频点数信息St和 St+1，分别输出t时刻所述干扰动作At的状态价值V(St)和t+1时刻所述干扰动作At+1的状态价值V(St+1)，来估计当前所述策略执行网络的策略的优劣。 5.根据权利要求4所述协同通信干扰决策方法，其特征在于，所述基于深度强化学习，在Actor‑Critic算法架构下提出一种融合优势函数的干扰决策算法，根据所述干扰决策算法输出最优的干扰方案，包括：基于全局思想设置奖励函数，通过在所述奖励函数中引入专家激励，针对各干扰站执行所述干扰动作At后引发的状态改变给出评价，即计算输出引入所述专家激励后的奖励值 r。 6.根据权利要求5所述协同通信干扰决策方法，其特征在于，所述在奖励函数中引入专家激励，包括：在基础奖励值rbase上加入一个额外的专家激励值rexp，得到引入所述专家激励后的所述奖励值r，所述专家激励值rexp为后续决策形成专家式引导，并对当前决策形成内部激励；其中：专家激励值rexp定义为： rexp＝Ncha×(Njam+1) (1) 引入专家激励后的奖励值r定义为： r＝rbase+rexp (2) 式中： Ncha表示已被干扰的目标数量， Njam表示当前干扰站成功干扰的目标数量。 7.根据权利要求5所述协同通信干扰决策方法，其特征在于，所述基于深度强化学习，在Actor‑Critic算法架构下提出一种融合优势函数的干扰决策算法，根据所述干扰决策算法输出最优的干扰方案，包括：权　利　要　求　书 1/2 页 2 CN 114423046 A 2引入优势函数，比较动作价值与状态价值的优劣；所述，优势函数的公式为： A(St,At)＝Q(St,At)＝r+V(St+1)‑V(St) (3) 其中， Q(St,At)表示动作价值，所述优势函数A(St,At)表示表示t时刻执行干扰动作At 后，动作价值Q(St,At)相比于状态价值V(St)的优势程度。 8.根据权利要求7所述协同通信干扰决策方法，其特征在于，通过训练优化模块分别对所述策略执行网络参数和所述价值评估网络参数进行训练优化；其中，所述训练优化模块包括所述价值评估网络的损失函数和所述策略执行网络的所述损失函数，所述价值评估网络的损失函数和所述策略执行网络的损失函数的公式分别为； L( θV)＝A(St,At； θV)2＝[r+γV(St+1； θV)‑V(St； θV)]2 (4) R( θ )＝A(St,At； θV)logpθ(At|St)＝[r+γV(St+1； θV)‑V(St； θV)]logpθ(At|St) (5) 其中， L( θV)表示价值评估网络的损失函数， R( θ )表示策略执行网络的损失函数， θ表示策略执行网络参数， θv表示价值评价网络参数， γ表示衰减因子， pθ表示策略执行网络的策略概率。 9.根据权利要求8所述协同通信干扰决策方法，其特征在于，根据所述价值评估网络输出的A(St,At； θV)优化策略执行网络参数，使所述策略执行网络决策出更优的干扰动作。 10.根据权利要求1所述协同通信干扰决策方法，其特征在于，所述基于深度强化学习，在Actor‑Critic算法架构下提出一种融合优势函数的干扰决策算法，根据所述干扰决策算法输出最优的干扰方案的步骤之后，还包括：根据干信比计算干扰效果，根据所述干信比与目标压制系数的大小，确定是否干扰有效，所述干信比的公式为：其中， PJ为干扰机的发射功率， PS为信号发射机的发射功率； HJ为干扰机发射天线与信号接收天线增益之积， HS为信号发射机天线增益与接收天线增益之积； LJ和LS分别为干扰信号和通信信号传输的空间损耗，表示干扰站干扰带宽能够对准待干扰目标信号频点的部分，表示有效干扰的功率大小；表示干扰频段与待干扰目标信号频点在频率域是否对准的指示值，当频率为f的干扰谱对准频率为fS的跳频频点，则指示值为1，反之为0，权　利　要　求　书 2/2 页 3 CN 114423046 A 3

专利 一种协同通信干扰决策方法

专利一种协同通信干扰决策方法