(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111461271.3
(22)申请日 2021.12.0 3
(71)申请人 中国人民解 放军空军工程大 学
地址 710038 陕西省西安市灞桥区长乐 东
路甲字一 号
(72)发明人 许华 宋佰霖 齐子森 饶宁
彭翔
(74)专利代理 机构 西安亚信智佳知识产权代理
事务所(普通 合伙) 61241
代理人 骆怡洁
(51)Int.Cl.
H04W 28/18(2009.01)
H04W 72/04(2009.01)
H04W 72/08(2009.01)
H04W 16/22(2009.01)G06N 20/00(2019.01)
(54)发明名称
一种协同通信干 扰决策方法
(57)摘要
本公开实施例是关于一种协同通信干扰决
策方法, 该方法包括: 建立协同决策模型, 提供决
策环境; 基于深度强化学习, 在Actor ‑Critic算
法架构下提出一种融合优势函数的干扰决策算
法, 根据干扰决策算法输出最优的干扰方案。 通
过上述协同干扰决策方法, 根据构建的协同决策
模型, 实现根据干扰决策算法输出最优的干扰方
案, 本公开实施例给出的干扰方案能够实现干扰
资源的最优利用, 提高决策效率。
权利要求书2页 说明书11页 附图3页
CN 114423046 A
2022.04.29
CN 114423046 A
1.一种协同通信干扰决策 方法, 其特 征在于, 该 方法包括:
建立协同决策模型, 提供决策环境;
基于深度强化学习, 在Actor ‑Critic算法架构下提出一种融合优势函数的干扰决策算
法, 根据所述干扰决策算法输出最优的干扰方案 。
2.根据权要求1所述协同通信 干扰决策方法, 其特征在于, 定义所述协同决策模型所需
的基本元素为: 状态空间和 动作空间; 其中, 状态空间表示某个目标跳频信号未被干扰的频
点数量为h, 定义状态空间S=[h1,h2,...,hn], 即表示所有目标跳频信号未被干扰的频点
数; 动作空间定义决策网络输出干扰动作为A, 表示干扰站的部署阵地及干扰方向角对应的
干扰动作编码, 为降低算法的决策维度, 在0 °~180°范围内每a °可选择一个角度作为干扰
方向角。
3.根据权利要求1所述协同通信干扰决策方法, 其特征在于, 所述基于深度强化学习,
在Actor‑Critic算法架构下提出一种融合优势 函数的干扰决策算法, 根据所述干扰决策算
法输出最优的干扰方案, 包括:
通过策略执行网络感知环境状态, 获取t时刻各待干扰目标信号的频点数信息St, 通过
所述策略执 行网络的拟合 运算输出t时刻各干扰站的干扰动作At。
4.根据权利要求3所述协同通信干扰决策方法, 其特征在于, 所述基于深度强化学习,
在Actor‑Critic算法架构下提出一种融合优势 函数的干扰决策算法, 根据干扰决策算法输
出最优的干扰方案, 包括:
价值评估网络根据获取的t时刻和t+1时刻所述各待干扰目标信号的频点数信息St和
St+1, 分别输出t时刻所述干扰动作At的状态价值V(St)和t+1时刻所述干扰动作At+1的状态价
值V(St+1), 来估计当前 所述策略执 行网络的策略的优劣。
5.根据权利要求4所述协同通信干扰决策方法, 其特征在于, 所述基于深度强化学习,
在Actor‑Critic算法架构下提出一种融合优势 函数的干扰决策算法, 根据所述干扰决策算
法输出最优的干扰方案, 包括:
基于全局思想设置奖励函数, 通过在所述奖励函数中引入专家激励, 针对各干扰站执
行所述干扰动作At后引发的状态改变给出评价, 即计算输出引入所述专家激励后的奖励值
r。
6.根据权利要求5所述协同通信 干扰决策方法, 其特征在于, 所述在奖励函数中引入专
家激励, 包括:
在基础奖励值rbase上加入一个额外的专家 激励值rexp, 得到引入所述专家激励后的所述
奖励值r, 所述专 家激励值rexp为后续决策 形成专家式引导, 并对当前决策 形成内部 激励;
其中: 专家激励值rexp定义为:
rexp=Ncha×(Njam+1) (1)
引入专家激励后的奖励值r定义 为:
r=rbase+rexp (2)
式中: Ncha表示已被干扰的目标 数量, Njam表示当前干扰站成功干扰的目标 数量。
7.根据权利要求5所述协同通信干扰决策方法, 其特征在于, 所述基于深度强化学习,
在Actor‑Critic算法架构下提出一种融合优势 函数的干扰决策算法, 根据所述干扰决策算
法输出最优的干扰方案, 包括:权 利 要 求 书 1/2 页
2
CN 114423046 A
2引入优势函数, 比较动作价 值与状态价 值的优劣; 所述, 优势函数的公式为:
A(St,At)=Q(St,At)=r+V(St+1)‑V(St) (3)
其中, Q(St,At)表示动作价值, 所述优势函数A(St,At)表示表示t时刻执行干扰动作At
后, 动作价 值Q(St,At)相比于状态价 值V(St)的优势程度。
8.根据权利要求7所述协同通信 干扰决策方法, 其特征在于, 通过训练优化模块分别对
所述策略执行网络参数和所述价值评估网络参数进行训练优化; 其中, 所述训练优化模块
包括所述价值评估网络的损失函数和所述策略执行网络的所述损失函数, 所述价值评估网
络的损失函数和所述策略执 行网络的损失函数的公式分别为;
L( θV)=A(St,At; θV)2=[r+γV(St+1; θV)‑V(St; θV)]2 (4)
R( θ )=A(St,At; θV)logpθ(At|St)=[r+γV(St+1; θV)‑V(St; θV)]logpθ(At|St) (5)
其中, L( θV)表示价值评估网络的损失函数, R( θ )表示策略执行网络的损失函数, θ表示
策略执行网络参数, θv表示价值评价网络参数, γ表示衰减因子, pθ表示策略执行网络的策
略概率。
9.根据权利要求8所述协同通信 干扰决策方法, 其特征在于, 根据 所述价值评估 网络输
出的A(St,At; θV)优化策略执 行网络参数, 使所述策略执 行网络决策 出更优的干扰动作。
10.根据权利要求1所述协同通信 干扰决策方法, 其特征在于, 所述基于深度强化学习,
在Actor‑Critic算法架构下提出一种融合优势 函数的干扰决策算法, 根据所述干扰决策算
法输出最优的干扰方案的步骤之后, 还包括: 根据干信比计算干扰效果, 根据所述干信比与
目标压制系数的大小, 确定是否 干扰有效, 所述干信比的公式为:
其中, PJ为干扰机的发射功率, PS为信号发射机的发射功率; HJ为干扰机发射天线与信
号接收天线增益之积, HS为信号发射机天线增益与接收天线增益之积; LJ和LS分别为干扰信
号和通信信号传输的空间损耗,
表示干扰站干扰带宽能够对准待干扰目标信号
频点的部分,
表示有效干扰的功率 大小;
表示干扰频段与待 干扰目标信号
频点在频率域是否对准的指示值, 当频率为f的干扰谱对准频率为fS的跳频频点, 则指示值
为1, 反之为0,
权 利 要 求 书 2/2 页
3
CN 114423046 A
3
专利 一种协同通信干扰决策方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 01:19:00上传分享