全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111409558.1 (22)申请日 2021.11.25 (71)申请人 北京邮电大 学 地址 100082 北京市海淀区西土城路10号 申请人 中国电子信息产业 集团有限公司第 六研究所 (72)发明人 姚海鹏 王小龙 张尼 忻向军  吴云峰 韩庆敏 韩宝磊 江亮  (74)专利代理 机构 北京欣鼎专利代理事务所 (普通合伙) 11834 代理人 王阳虹 (51)Int.Cl. H04L 47/56(2022.01) H04J 3/06(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于深度强化学习的TSN 流调度方法 (57)摘要 本发明公开一种基于深度强化学习的TSN流 调度方法, 其特征在于, 包括消除在TSN交换机处 的排队时延来用以完成时延敏感流的无等待传 输, 其中以对 单播时间敏感流进行无等待调度的 情况进行处理, TSN能够提供确定性时延、 带宽保 证等能力, 同时降低了成本。 时间敏感网络通过 全网时钟同步、 流量调度以及系统配置三种主要 机制来实现确定性低时延保障。 同时减少保护带 的数量, 并且将时间敏感流的传输都压缩在调度 表的开始, 因此有更多的带宽资源 可以用于尽力 而为流的传输 。 权利要求书1页 说明书4页 附图3页 CN 114189481 A 2022.03.15 CN 114189481 A 1.一种基于深度强化学习的TSN流调度方法, 其特征在于, 包括消除在TSN交换机处的 排队时延来用以完成时延敏感流的无等待传输, 其中以对单播时间敏感流进 行无等待调 度 的情况进行处 理: S表示时间敏感流的集合, si∈S流的特征用元组si=(Sri, Dti, Dli, Sii, Ti, Pi)表示, 分 别表示流的源地址, 目的地址, 端到端最大时延, 数据大小, 周期和路径。 2.根据权利要求1所述的一种基于深度强化学习的TSN流调度方法, 其特征在于, 所述 时间敏感流的调度能够被描述为一个三元组<At, St, R>, St是状态空间, At是动作空间, R为 立即回报, 之后智能体 根据当前状态St和当前策略πi(at|st)执行一个动 作at, 然后底层网络 环境产生一个立即回报R, 状态St转移到下一个状态St+1; 智能体的目标是学习到一个使其 期望折扣回报为Ji( πi)=∑r(s, a1, a2, ..., an)最大化的策略, 其中, 在此场景中包括对状态 空间、 动作空间以及回报函数。 3.根据权利要求1所述的一种基于深度强化学习的TSN流调度方法, 其特征在于, 所述 状态空间由被调度的流的状态信息和网络链路的状态组成的, 即: S=sf×net; 所述动作空间由被调度的时间敏感流的数量决定的, 因为我们的每一个动作就是选择 调度一个时间敏感流, 因此表示为A={at}, 在每一轮, 根据 策略π从动作空间中选择一个ai 动作, 即意味着选择流Si进行调度, 执行完此动作后, 则将其从动作空间中剔除, 下一轮开 始前恢复为初始动作空间; 所述回报函数由最小化发送时间偏移量和时间敏感流的完成时间, 因此回报函数描述 为: 其中 是流Sj相对于流Si在其发送端的发送时间偏移量, FlowSpan是是所有流都被 调度的完成 的时间间隔, schedule_size是调度表的长度, delay是每个时间敏感流的总时 延。权 利 要 求 书 1/1 页 2 CN 114189481 A 2一种基于深度强化学习的TSN流调度方 法 技术领域 [0001]本发明涉及TS N网络调度的研究技术领域, 尤其涉及一种基于深度强化学习的TS N 流调度方法。 背景技术 [0002]在工业控制网络、 车载 网络、 5G网络等实时应用对网络的传输要求更加严苛, 对时 延要求更加敏感。 这些实时应用通常要求网络进 行确定性传输数据, 有有界低时延, 零抖动 等要求。 因此, IEEE  802.1标准引入了基于以太网的时间敏感网络(TSN,Time  Sensitive ‑ Networks)来处理通用以太网的时延不确定性, TSN能够提供确定性时延、 带宽 保证等能力, 同时降低了成本。 时间敏感网络通过全网时钟同步、 流量调度以及系统配置三种主要机制 来实现确定性低时延保障。 [0003]时间感知 整形(TAS,time ‑aware shaper)机制是对交换机出端口的流量调 度进行 整形的机制, 采用门控列表(Gate  Control List)的方式保证时间敏感流在传输中的确定 性时延保证。 门控列 表部署在输出端口的每个优先级后面控制相应队列里的流是否可以进 行传输, 当队列的门是打开状态, 相应队列的流可以进行传输, 当队列的门是关闭状态, 则 不能传输相应队列的流。 在输出端口同一队列里的流, 采用FIFO先入先出模式进 行传输, 在 队列前面的流先于其后的流传输。 GCL是由流量调 度算法进 行计算的, 在预定义的超周期内 进行重复。 流 量调度是保证时间敏感流确定性传输的一个主 要因素也是当前的研究热点。 [0004]A3C算法可以在单个机器的多核CPU同时运行多个agents, 每个CPU核运行一个 agent, 同时包含一个环 境的副本。 换句话来讲, A3C将actor ‑critic放在了多个线程中进行 同步训练, 训练的时候, 同时为多个线程分配任务, 完成任务的线程将自己学习到的参数更 新到全局网络上, 下一次学习的时候同步全局参数到各个线程, 然后继续学习。 一个A3C   agent包含两个部分: 一个策略函数, 即actor, 一个行为价值函数, 即critic。 Actor定义参 数化策略并根据 观察到的状态生 成行动与环境交互, 而cr itic网络通过 处理从环 境中获得 的奖励来评估当前的策略。 [0005]现有主流的时间敏感网络流调度方法: [0006]将无等待包调度问题(NW ‑PSP,No‑wait Packet Scheduling  Problem)引入TSN流 调度中, 并映射为无等待车间调度问题(No ‑wait Job‑shop Scheduling Problem), 使用整 数线性规划或启发式算法解决NW ‑PSP问题, 假设所有流有相同的周期来避免帧抖动, 因此 这个问题被局限于每流一帧。 由于时间敏感流的调度是NP难问题, 因此对于大规模场景不 能找到精确的解, 为了提高可扩展性, 使用启发式算法解决这个问题。 [0007]NW‑PSP分为时间表问题和排序问题。 时间表问题处理属于一个整体有序流集合的 所有流的开始时间的计算。 另一方面, 排序问题处理的是对要调 度的一组流进 行完全排序, 以使给定的时间调 度算法产生的调 度具有最小的流完成时间, 其中流完成时间是指从第一 个流在源端开始传输 到最后一个流在其接收端处 理完成的时间。 [0008]目前的无等待TSN调度方案在很大程度上依赖于人工过程, 需要精心设计启发式说 明 书 1/4 页 3 CN 114189481 A 3

.PDF文档 专利 一种基于深度强化学习的TSN流调度方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度强化学习的TSN流调度方法 第 1 页 专利 一种基于深度强化学习的TSN流调度方法 第 2 页 专利 一种基于深度强化学习的TSN流调度方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:19:47上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。