专利一种基于深度强化学习的TSN流调度方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111409558.1 (22)申请日 2021.11.25 (71)申请人北京邮电大学地址 100082 北京市海淀区西土城路10号申请人中国电子信息产业集团有限公司第六研究所 (72)发明人姚海鹏　王小龙　张尼　忻向军　吴云峰　韩庆敏　韩宝磊　江亮　 (74)专利代理机构北京欣鼎专利代理事务所 (普通合伙) 11834 代理人王阳虹 (51)Int.Cl. H04L 47/56(2022.01) H04J 3/06(2006.01) G06N 20/00(2019.01) (54)发明名称一种基于深度强化学习的TSN 流调度方法 (57)摘要本发明公开一种基于深度强化学习的TSN流调度方法，其特征在于，包括消除在TSN交换机处的排队时延来用以完成时延敏感流的无等待传输，其中以对单播时间敏感流进行无等待调度的情况进行处理， TSN能够提供确定性时延、带宽保证等能力，同时降低了成本。时间敏感网络通过全网时钟同步、流量调度以及系统配置三种主要机制来实现确定性低时延保障。同时减少保护带的数量，并且将时间敏感流的传输都压缩在调度表的开始，因此有更多的带宽资源可以用于尽力而为流的传输。权利要求书1页说明书4页附图3页 CN 114189481 A 2022.03.15 CN 114189481 A 1.一种基于深度强化学习的TSN流调度方法，其特征在于，包括消除在TSN交换机处的排队时延来用以完成时延敏感流的无等待传输，其中以对单播时间敏感流进行无等待调度的情况进行处理： S表示时间敏感流的集合， si∈S流的特征用元组si＝(Sri， Dti， Dli， Sii， Ti， Pi)表示，分别表示流的源地址，目的地址，端到端最大时延，数据大小，周期和路径。 2.根据权利要求1所述的一种基于深度强化学习的TSN流调度方法，其特征在于，所述时间敏感流的调度能够被描述为一个三元组<At， St， R>， St是状态空间， At是动作空间， R为立即回报，之后智能体根据当前状态St和当前策略πi(at|st)执行一个动作at，然后底层网络环境产生一个立即回报R，状态St转移到下一个状态St+1；智能体的目标是学习到一个使其期望折扣回报为Ji( πi)＝∑r(s， a1， a2， ...， an)最大化的策略，其中，在此场景中包括对状态空间、动作空间以及回报函数。 3.根据权利要求1所述的一种基于深度强化学习的TSN流调度方法，其特征在于，所述状态空间由被调度的流的状态信息和网络链路的状态组成的，即： S＝sf×net；所述动作空间由被调度的时间敏感流的数量决定的，因为我们的每一个动作就是选择调度一个时间敏感流，因此表示为A＝{at}，在每一轮，根据策略π从动作空间中选择一个ai 动作，即意味着选择流Si进行调度，执行完此动作后，则将其从动作空间中剔除，下一轮开始前恢复为初始动作空间；所述回报函数由最小化发送时间偏移量和时间敏感流的完成时间，因此回报函数描述为：其中是流Sj相对于流Si在其发送端的发送时间偏移量， FlowSpan是是所有流都被调度的完成的时间间隔， schedule_size是调度表的长度， delay是每个时间敏感流的总时延。权　利　要　求　书 1/1 页 2 CN 114189481 A 2一种基于深度强化学习的TSN流调度方法技术领域 [0001]本发明涉及TS N网络调度的研究技术领域，尤其涉及一种基于深度强化学习的TS N 流调度方法。背景技术 [0002]在工业控制网络、车载网络、 5G网络等实时应用对网络的传输要求更加严苛，对时延要求更加敏感。这些实时应用通常要求网络进行确定性传输数据，有有界低时延，零抖动等要求。因此， IEEE 802.1标准引入了基于以太网的时间敏感网络(TSN,Time Sensitive ‑ Networks)来处理通用以太网的时延不确定性， TSN能够提供确定性时延、带宽保证等能力，同时降低了成本。时间敏感网络通过全网时钟同步、流量调度以及系统配置三种主要机制来实现确定性低时延保障。 [0003]时间感知整形(TAS,time ‑aware shaper)机制是对交换机出端口的流量调度进行整形的机制，采用门控列表(Gate Control List)的方式保证时间敏感流在传输中的确定性时延保证。门控列表部署在输出端口的每个优先级后面控制相应队列里的流是否可以进行传输，当队列的门是打开状态，相应队列的流可以进行传输，当队列的门是关闭状态，则不能传输相应队列的流。在输出端口同一队列里的流，采用FIFO先入先出模式进行传输，在队列前面的流先于其后的流传输。 GCL是由流量调度算法进行计算的，在预定义的超周期内进行重复。流量调度是保证时间敏感流确定性传输的一个主要因素也是当前的研究热点。 [0004]A3C算法可以在单个机器的多核CPU同时运行多个agents，每个CPU核运行一个 agent，同时包含一个环境的副本。换句话来讲， A3C将actor ‑critic放在了多个线程中进行同步训练，训练的时候，同时为多个线程分配任务，完成任务的线程将自己学习到的参数更新到全局网络上，下一次学习的时候同步全局参数到各个线程，然后继续学习。一个A3C agent包含两个部分：一个策略函数，即actor，一个行为价值函数，即critic。 Actor定义参数化策略并根据观察到的状态生成行动与环境交互，而cr itic网络通过处理从环境中获得的奖励来评估当前的策略。 [0005]现有主流的时间敏感网络流调度方法： [0006]将无等待包调度问题(NW ‑PSP,No‑wait Packet Scheduling Problem)引入TSN流调度中，并映射为无等待车间调度问题(No ‑wait Job‑shop Scheduling Problem)，使用整数线性规划或启发式算法解决NW ‑PSP问题，假设所有流有相同的周期来避免帧抖动，因此这个问题被局限于每流一帧。由于时间敏感流的调度是NP难问题，因此对于大规模场景不能找到精确的解，为了提高可扩展性，使用启发式算法解决这个问题。 [0007]NW‑PSP分为时间表问题和排序问题。时间表问题处理属于一个整体有序流集合的所有流的开始时间的计算。另一方面，排序问题处理的是对要调度的一组流进行完全排序，以使给定的时间调度算法产生的调度具有最小的流完成时间，其中流完成时间是指从第一个流在源端开始传输到最后一个流在其接收端处理完成的时间。 [0008]目前的无等待TSN调度方案在很大程度上依赖于人工过程，需要精心设计启发式说　明　书 1/4 页 3 CN 114189481 A 3

专利 一种基于深度强化学习的TSN流调度方法

专利一种基于深度强化学习的TSN流调度方法