全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111461271.3 (22)申请日 2021.12.0 3 (71)申请人 中国人民解 放军空军工程大 学 地址 710038 陕西省西安市灞桥区长乐 东 路甲字一 号 (72)发明人 许华 宋佰霖 齐子森 饶宁  彭翔  (74)专利代理 机构 西安亚信智佳知识产权代理 事务所(普通 合伙) 61241 代理人 骆怡洁 (51)Int.Cl. H04W 28/18(2009.01) H04W 72/04(2009.01) H04W 72/08(2009.01) H04W 16/22(2009.01)G06N 20/00(2019.01) (54)发明名称 一种协同通信干 扰决策方法 (57)摘要 本公开实施例是关于一种协同通信干扰决 策方法, 该方法包括: 建立协同决策模型, 提供决 策环境; 基于深度强化学习, 在Actor ‑Critic算 法架构下提出一种融合优势函数的干扰决策算 法, 根据干扰决策算法输出最优的干扰方案。 通 过上述协同干扰决策方法, 根据构建的协同决策 模型, 实现根据干扰决策算法输出最优的干扰方 案, 本公开实施例给出的干扰方案能够实现干扰 资源的最优利用, 提高决策效率。 权利要求书2页 说明书11页 附图3页 CN 114423046 A 2022.04.29 CN 114423046 A 1.一种协同通信干扰决策 方法, 其特 征在于, 该 方法包括: 建立协同决策模型, 提供决策环境; 基于深度强化学习, 在Actor ‑Critic算法架构下提出一种融合优势函数的干扰决策算 法, 根据所述干扰决策算法输出最优的干扰方案 。 2.根据权要求1所述协同通信 干扰决策方法, 其特征在于, 定义所述协同决策模型所需 的基本元素为: 状态空间和 动作空间; 其中, 状态空间表示某个目标跳频信号未被干扰的频 点数量为h, 定义状态空间S=[h1,h2,...,hn], 即表示所有目标跳频信号未被干扰的频点 数; 动作空间定义决策网络输出干扰动作为A, 表示干扰站的部署阵地及干扰方向角对应的 干扰动作编码, 为降低算法的决策维度, 在0 °~180°范围内每a °可选择一个角度作为干扰 方向角。 3.根据权利要求1所述协同通信干扰决策方法, 其特征在于, 所述基于深度强化学习, 在Actor‑Critic算法架构下提出一种融合优势 函数的干扰决策算法, 根据所述干扰决策算 法输出最优的干扰方案, 包括: 通过策略执行网络感知环境状态, 获取t时刻各待干扰目标信号的频点数信息St, 通过 所述策略执 行网络的拟合 运算输出t时刻各干扰站的干扰动作At。 4.根据权利要求3所述协同通信干扰决策方法, 其特征在于, 所述基于深度强化学习, 在Actor‑Critic算法架构下提出一种融合优势 函数的干扰决策算法, 根据干扰决策算法输 出最优的干扰方案, 包括: 价值评估网络根据获取的t时刻和t+1时刻所述各待干扰目标信号的频点数信息St和 St+1, 分别输出t时刻所述干扰动作At的状态价值V(St)和t+1时刻所述干扰动作At+1的状态价 值V(St+1), 来估计当前 所述策略执 行网络的策略的优劣。 5.根据权利要求4所述协同通信干扰决策方法, 其特征在于, 所述基于深度强化学习, 在Actor‑Critic算法架构下提出一种融合优势 函数的干扰决策算法, 根据所述干扰决策算 法输出最优的干扰方案, 包括: 基于全局思想设置奖励函数, 通过在所述奖励函数中引入专家激励, 针对各干扰站执 行所述干扰动作At后引发的状态改变给出评价, 即计算输出引入所述专家激励后的奖励值 r。 6.根据权利要求5所述协同通信 干扰决策方法, 其特征在于, 所述在奖励函数中引入专 家激励, 包括: 在基础奖励值rbase上加入一个额外的专家 激励值rexp, 得到引入所述专家激励后的所述 奖励值r, 所述专 家激励值rexp为后续决策 形成专家式引导, 并对当前决策 形成内部 激励; 其中: 专家激励值rexp定义为: rexp=Ncha×(Njam+1)          (1) 引入专家激励后的奖励值r定义 为: r=rbase+rexp       (2) 式中: Ncha表示已被干扰的目标 数量, Njam表示当前干扰站成功干扰的目标 数量。 7.根据权利要求5所述协同通信干扰决策方法, 其特征在于, 所述基于深度强化学习, 在Actor‑Critic算法架构下提出一种融合优势 函数的干扰决策算法, 根据所述干扰决策算 法输出最优的干扰方案, 包括:权 利 要 求 书 1/2 页 2 CN 114423046 A 2引入优势函数, 比较动作价 值与状态价 值的优劣; 所述, 优势函数的公式为: A(St,At)=Q(St,At)=r+V(St+1)‑V(St)    (3) 其中, Q(St,At)表示动作价值, 所述优势函数A(St,At)表示表示t时刻执行干扰动作At 后, 动作价 值Q(St,At)相比于状态价 值V(St)的优势程度。 8.根据权利要求7所述协同通信 干扰决策方法, 其特征在于, 通过训练优化模块分别对 所述策略执行网络参数和所述价值评估网络参数进行训练优化; 其中, 所述训练优化模块 包括所述价值评估网络的损失函数和所述策略执行网络的所述损失函数, 所述价值评估网 络的损失函数和所述策略执 行网络的损失函数的公式分别为; L( θV)=A(St,At; θV)2=[r+γV(St+1; θV)‑V(St; θV)]2   (4) R( θ )=A(St,At; θV)logpθ(At|St)=[r+γV(St+1; θV)‑V(St; θV)]logpθ(At|St)  (5) 其中, L( θV)表示价值评估网络的损失函数, R( θ )表示策略执行网络的损失函数, θ表示 策略执行网络参数, θv表示价值评价网络参数, γ表示衰减因子, pθ表示策略执行网络的策 略概率。 9.根据权利要求8所述协同通信 干扰决策方法, 其特征在于, 根据 所述价值评估 网络输 出的A(St,At; θV)优化策略执 行网络参数, 使所述策略执 行网络决策 出更优的干扰动作。 10.根据权利要求1所述协同通信 干扰决策方法, 其特征在于, 所述基于深度强化学习, 在Actor‑Critic算法架构下提出一种融合优势 函数的干扰决策算法, 根据所述干扰决策算 法输出最优的干扰方案的步骤之后, 还包括: 根据干信比计算干扰效果, 根据所述干信比与 目标压制系数的大小, 确定是否 干扰有效, 所述干信比的公式为: 其中, PJ为干扰机的发射功率, PS为信号发射机的发射功率; HJ为干扰机发射天线与信 号接收天线增益之积, HS为信号发射机天线增益与接收天线增益之积; LJ和LS分别为干扰信 号和通信信号传输的空间损耗, 表示干扰站干扰带宽能够对准待干扰目标信号 频点的部分, 表示有效干扰的功率 大小; 表示干扰频段与待 干扰目标信号 频点在频率域是否对准的指示值, 当频率为f的干扰谱对准频率为fS的跳频频点, 则指示值 为1, 反之为0, 权 利 要 求 书 2/2 页 3 CN 114423046 A 3

.PDF文档 专利 一种协同通信干扰决策方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种协同通信干扰决策方法 第 1 页 专利 一种协同通信干扰决策方法 第 2 页 专利 一种协同通信干扰决策方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:19:00上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。