专利一种基于强化学习的阻抗匹配自动控制方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111462503.7 (22)申请日 2021.12.02 (71)申请人武汉光目科技有限公司地址 430074 湖北省武汉市东湖高新技术开发区关东科技工业园3-3栋4楼17 号-01 (72)发明人易俊　殷晓君　雷力　胡海　 (74)专利代理机构武汉华之喻知识产权代理有限公司 42 267 代理人廖盈春　曹葆青 (51)Int.Cl. G06N 20/00(2019.01) G06K 9/62(2022.01) H01J 37/32(2006.01) (54)发明名称一种基于强化学习的阻抗匹配自动控制方法及系统 (57)摘要本发明公开了一种基于强化学习的阻抗匹配自动控制方法及系统，其中，控制方法包括：电信号收集步骤，电信号判断步骤，模型输出步骤和阻抗调节步骤。本发明使用多个固定负载训练强化学习模型，训练后的模型适应性极强，在不同的电路状态下均能实现阻抗匹配；本发明仅通过采集并计算传输线上两个电信号之间的幅度比和相位差，依靠训练好的强化学习模型就能使等离子刻蚀系统一直处于阻抗匹配状态；本发明能控制2个电机同时转动，即同时改变2 个电容的阻抗，使等离子刻蚀系统更快达到阻抗匹配状态。权利要求书4页说明书9页附图1页 CN 114330739 A 2022.04.12 CN 114330739 A 1.一种强化学习模型的训练方法，其特征在于，包括以下步骤： (1)数据采集步骤：对每个训练系统采集一组训练数据；一组训练数据称为一个样本；所有的样本组成样本集，按设定的比例将样本集划分为训练集和测试集；将强化学习模型标记为待训练模型；所述训练系统由射频电源与阻抗匹配器的输入端相连接，单个阻抗负载与阻抗匹配器的输出端相连接而组成；所述阻抗负载是按以下操作而获得：将阻抗匹配器中第一电容和第二电容可变化的阻抗区间作为范围，在Smith圆图上取多个离散点；分别找到与每个点的阻抗值相等的阻抗负载； (2)训练步骤：根据所述训练集对待训练模型进行训练，得到训练模型； (3)测试步骤：根据所述测试集对训练模型进行测试，测试成功则判定所述训练模型为可实用强化学习模型；测试失败则将所述训练模型标记为待训练模型，重复依次执行步骤(2)至步骤(3)，直到获得可实用强化学习模型。 2.如权利要求1所述的强化学习模型的训练方法，其特征在于，所述数据采集步骤中每组训练数据包括的数据条数为电机位置数的平方；所述数据采集步骤中单条训练数据的内容包括阻抗匹配器中第一电机的位置，阻抗匹配器中第二电机的位置，幅度比和相位差；所述幅度比和相位差为该训练系统的射频电源与阻抗匹配器之间传输线上的两个电信号之间的幅度比和相位差，其值依据两个电机位置的改变而改变。 3.如权利要求2所述的强化学习模型的训练方法，其特征在于，所述训练步骤的具体过程为：按设定的训练次数，根据所述训练集对待训练模型进行训练，判定训练结束后的待训练模型为训练模型；每一次训练包括以下操作： (1)随机取出训练集中的一个样本作为当前训练样本；在所述待训练模型中，随机生成两个电机的位置作为它们的当前位置； (2)按设定的训练轮数进行训练，每一轮训练包括以下步骤：根据所述两个电机的当前位置，从所述当前训练样本中查找对应的幅度比和相位差，并送入待训练模型中；将待训练模型输出的两个值分别加到所述两个电机的当前位置的值上；所述测试步骤的具体过程为：根据所述测试集对所述训练模型进行多次测试，若设定的测试次数结束之后，仍不能获得可实用强化学习模型，则将所述训练模型标记为待训练模型，重复依次执行训练步骤和测试步骤，直到获得可实用强化学习模型；每一次测试包括以下操作： (1)随机取出测试集中一个样本作为当前测试样本；在所述训练模型中，随机生成两个电机的位置作为两个电机的此刻位置； (2)按设定的测试轮数进行测试，每一轮测试包括以下操作： (2‑1)根据所述两个电机的此刻位置，从所述当前测试样本中查找对应的幅度比和相位差；判断所述幅度比和相位差的值是否均在设定的合格范围内，是则判定所述训练模型权　利　要　求　书 1/4 页 2 CN 114330739 A 2为可实用强化学习模型，结束；否则执行操作(2 ‑2)； (2‑2)将操作(2 ‑1)中查找到的幅度比和相位差送入所述训练模型中；将所述训练模型输出的两个值分别加到所述两个电机的此刻位置的值上。 4.一种基于权利要求1所述的可实用强化学习模型的阻抗匹配自动控制方法，该方法用于等离子刻蚀系统的工作全过程，其特征在于，包括以下步骤： (1)电信号收集步骤：按设定的时间间隔收集射频电源或等离子刻蚀机与阻抗匹配器之间的传输线上的两个电信号，并计算它们之间的幅度比和相位差； (2)电信号判断步骤：判断所述幅度比和相位差是否均在设定的电压范围之内，如不是，执行步骤(3)，否则执行步骤(1)； (3)模型输出步骤：将所述幅度比和相位差输入到所述强化学习模型中，强化学习模型分别输出阻抗匹配器中两个电机的旋转范围； (4)阻抗调节步骤：对所述两个电机的旋转范围进行四舍五入取整；根据取整后的两个电机的旋转范围分别控制两个电机的旋转，带动阻抗匹配器中两个电容的电容杆的旋转；然后执行步骤(1)。 5.一种强化学习模型的训练系统，其特征在于，包括以下模块： (1)数据采集模块：用于对每个训练系统采集一组训练数据；一组训练数据称为一个样本；所有的样本组成样本集，按设定的比例将样本集划分为训练集和测试集；将强化学习模型标记为待训练模型；所述训练系统由射频电源与阻抗匹配器的输入端相连接，单个阻抗负载与阻抗匹配器的输出端相连接而组成；所述阻抗负载是按以下操作而获得：将阻抗匹配器中第一电容和第二电容可变化的阻抗区间作为范围，在Smith圆图上取多个离散点；分别找到与每个点的阻抗值相等的阻抗负载； (2)训练模块：用于根据所述训练集对待训练模型进行训练，得到训练模型； (3)测试模块：用于根据所述测试集对训练模型进行测试，测试成功则判定所述训练模型为可实用强化学习模型；测试失败则将所述训练模型标记为待训练模型，重复依次执行训练模块和测试模块中的操作，直到获得可实用强化学习模型。 6.如权利要求5所述的强化学习模型的训练系统，其特征在于，所述数据采集模块中每组训练数据包括的数据条数为电机位置数的平方；所述数据采集模块中单条训练数据的内容包括阻抗匹配器中第一电机的位置，阻抗匹配器中第二电机的位置，幅度比和相位差；所述幅度比和相位差为该训练系统的射频电源与阻抗匹配器之间传输线上的两个电信号之间的幅度比和相位差，其值依据两个电机位置的改变而改变。权　利　要　求　书 2/4 页 3 CN 114330739 A 3

专利 一种基于强化学习的阻抗匹配自动控制方法及系统

专利一种基于强化学习的阻抗匹配自动控制方法及系统