全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111462503.7 (22)申请日 2021.12.02 (71)申请人 武汉光目科技有限公司 地址 430074 湖北省武汉市东湖高新 技术 开发区关东科技工业园3-3栋4楼17 号-01 (72)发明人 易俊 殷晓君 雷力 胡海  (74)专利代理 机构 武汉华之喻知识产权代理有 限公司 42 267 代理人 廖盈春 曹葆青 (51)Int.Cl. G06N 20/00(2019.01) G06K 9/62(2022.01) H01J 37/32(2006.01) (54)发明名称 一种基于强化学习的阻抗匹配自动控制方 法及系统 (57)摘要 本发明公开了一种基于强化学习的阻抗匹 配自动控制方法及系统, 其中, 控制方法包括: 电 信号收集步骤, 电信号判断步骤, 模型输出步骤 和阻抗调节 步骤。 本发明使用多个固定负载训练 强化学习模型, 训练后的模型适应性极强, 在不 同的电路状态下均能实现阻抗匹配; 本发明仅通 过采集并计算传输线上两个电信号之间的幅度 比和相位差, 依靠训练好的强化学习模型就能使 等离子刻蚀系统一直处于阻抗匹配状态; 本发明 能控制2个电机同时转动, 即同时改变2 个电容的 阻抗, 使等离子刻蚀系统更快达到阻抗匹配状 态。 权利要求书4页 说明书9页 附图1页 CN 114330739 A 2022.04.12 CN 114330739 A 1.一种强化学习模型的训练方法, 其特 征在于, 包括以下步骤: (1)数据采集 步骤: 对每个训练系统采集一组训练数据; 一组训练数据称为一个样本; 所有的样本组成样 本集, 按设定的比例将 样本集划分为训练集和 测试集; 将强化学习模型 标记为待训练模型; 所述训练系统由射频电源与阻抗匹配器的输入端相连接, 单个阻抗负载与阻抗匹配器 的输出端相连接而组成; 所述阻抗负载是按以下操作而获得: 将阻抗匹配器中第 一电容和第 二电容可变化的 阻 抗区间作为范围, 在Smith圆图上取多个离散点; 分别找到与每个点的阻抗值相等的阻抗负 载; (2)训练步骤: 根据所述训练集对待训练模型进行训练, 得到训练模型; (3)测试步骤: 根据所述测试集对训练模型进行测试, 测试成功则判定所述训练模型为可实用强化学 习模型; 测试失败则将所述训练模 型标记为待训练模型, 重复依次执行步骤(2)至步骤(3), 直到获得 可实用强化学习模型。 2.如权利要求1所述的强化学习模型的训练方法, 其特 征在于, 所述数据采集 步骤中每组训练数据包括的数据条 数为电机位置数的平方; 所述数据采集步骤中单条训练数据的内容包括阻抗匹配器中第 一电机的位置, 阻抗匹 配器中第二电机的位置, 幅度比和相位差; 所述幅度比和相位差为该训练系统的射频电源 与阻抗匹配器之间传输线 上的两个电信号之间的幅度比和相位差, 其值依据两个电机位置 的改变而改变。 3.如权利要求2所述的强化学习模型的训练方法, 其特 征在于, 所述训练步骤的具体过程为: 按设定的训练次数, 根据所述训练集对待训练模型进行 训练, 判定训练结束后的待训练模型为训练模型; 每一次训练包括以下操作: (1)随机取出训练集中的一个样本作为当前训练样本; 在所述待训练模型中, 随机生成 两个电机的位置作为它 们的当前位置; (2)按设定的训练轮数进行训练, 每一轮训练包括以下步骤: 根据所述两个电机的当前 位置, 从所述当前训练样本中查找对应的幅度比和相位差, 并送入待训练模型中; 将待训练 模型输出的两个值分别加到所述两个电机的当前位置的值上; 所述测试步骤的具体过程为: 根据所述测试集对所述训练模型进行多次测试, 若设定 的测试次数结束之后, 仍不能获得可实用强化学习模型, 则将所述训练模型标记为待训练 模型, 重复依次执 行训练步骤和 测试步骤, 直到获得 可实用强化学习模型; 每一次测试包括以下操作: (1)随机取出测试集中一个样本作为当前测试样本; 在所述训练模型中, 随机生成两个 电机的位置作为两个电机的此刻位置; (2)按设定的测试轮数进行测试, 每一轮测试包括以下操作: (2‑1)根据所述两个电机的此刻位置, 从所述当前测试样本中查找对应的幅度比和相 位差; 判断所述幅度比和相位差的值是否均在设定的合格范围内, 是则判定所述训练模型权 利 要 求 书 1/4 页 2 CN 114330739 A 2为可实用强化学习模型, 结束; 否则执 行操作(2 ‑2); (2‑2)将操作(2 ‑1)中查找到的幅度比和相位差送入所述训练模型中; 将所述训练模型 输出的两个值分别加到所述两个电机的此刻位置的值上。 4.一种基于权利要求1所述的可实用强化学习模型的阻抗匹配自动控制方法, 该方法 用于等离 子刻蚀系统的工作全过程, 其特 征在于, 包括以下步骤: (1)电信号收集 步骤: 按设定的时间间隔收集射频电源或等离子刻蚀机与阻抗匹配器之间的传输线上的两 个电信号, 并计算它 们之间的幅度比和相位差; (2)电信号判断步骤: 判断所述幅度比和相位差是否均在设定的电压范围之内, 如不是, 执行步骤(3), 否则 执行步骤(1); (3)模型输出步骤: 将所述幅度比和相位差输入到所述强化学习 模型中, 强化学习 模型分别输出阻抗匹配 器中两个电机的旋转范围; (4)阻抗调节步骤: 对所述两个电机的旋转范围进行四舍五入取整; 根据取整后的两个电机的旋转范围分 别控制两个电机的旋转, 带动阻抗匹配 器中两个电容的电容杆的旋转; 然后执 行步骤(1)。 5.一种强化学习模型的训练系统, 其特 征在于, 包括以下模块: (1)数据采集模块: 用于对每个训练系统采集一组训练数据; 一组训练数据称为一个样本; 所有的样本组 成样本集, 按设定的比例将样本集划分为训练集和测试集; 将强化学习模型标记为待训练 模型; 所述训练系统由射频电源与阻抗匹配器的输入端相连接, 单个阻抗负载与阻抗匹配器 的输出端相连接而组成; 所述阻抗负载是按以下操作而获得: 将阻抗匹配器中第 一电容和第 二电容可变化的 阻 抗区间作为范围, 在Smith圆图上取多个离散点; 分别找到与每个点的阻抗值相等的阻抗负 载; (2)训练模块: 用于根据所述训练集对待训练模型进行训练, 得到训练模型; (3)测试模块: 用于根据 所述测试集对训练模型进行测试, 测试成功则判定所述训练模型为可实用强 化学习模型; 测试失败则将所述训练模型标记为待训练模型, 重复依 次执行训练模块和测 试模块中的操作, 直到获得 可实用强化学习模型。 6.如权利要求5所述的强化学习模型的训练系统, 其特 征在于, 所述数据采集模块中每组训练数据包括的数据条 数为电机位置数的平方; 所述数据采集模块中单条训练数据的内容包括阻抗匹配器中第 一电机的位置, 阻抗匹 配器中第二电机的位置, 幅度比和相位差; 所述幅度比和相位差为该训练系统的射频电源 与阻抗匹配器之间传输线 上的两个电信号之间的幅度比和相位差, 其值依据两个电机位置 的改变而改变。权 利 要 求 书 2/4 页 3 CN 114330739 A 3

.PDF文档 专利 一种基于强化学习的阻抗匹配自动控制方法及系统

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于强化学习的阻抗匹配自动控制方法及系统 第 1 页 专利 一种基于强化学习的阻抗匹配自动控制方法及系统 第 2 页 专利 一种基于强化学习的阻抗匹配自动控制方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:19:33上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。