专利 一种全覆盖路径规划方法、装置、存储介质、电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211169283.3 (22)申请日 2022.09.26 (71)申请人宁波均胜智能汽车技术研究院有限公司地址 315000 浙江省宁波市高新区冬青路 555号5号楼7楼 (72)发明人娄君杰　郑鑫宇　章航嘉　郑习羽　 (74)专利代理机构浙江中桓凯通专利代理有限公司 33376 专利代理师刘潇 (51)Int.Cl. G01C 21/20(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 17/16(2006.01) (54)发明名称一种全覆盖路径规划方法、装置、存储介质、电子设备 (57)摘要本发明提供了一种全覆盖路径规划方法、装置、存储介质、电子设备。本发明改进传统的栅格建模方式，用栅格点表示离散的环境，并设计卷积神经网络模型及状态输入矩阵。在此模型上设计奖惩函数，并使用目前主流强化学习算法对卷积神经网络模型进行训练；能在连续的动作空间输出动作，并最终形成最优的全覆盖路径。权利要求书3页说明书7页附图3页 CN 115235476 A 2022.10.25 CN 115235476 A 1.一种基于深度强化学习的全覆盖路径规划方法，其特征在于，所述方法包括：将智能体所处的任务区域划分为按n1×n2矩阵排列的多个格栅点；根据在当前时刻，所述多个格栅点中每一个格栅点的环境属性，对所述每一个格栅点分别赋值，获得用于表征所述任务区域的环境状态的第一环境状态矩阵；根据在所述当前时刻，所述智能体分别与所述每一个格栅点之间的距离，对所述每一个格栅点分别赋值，获得用于表征所述智能体的位置状态的第一位置状态矩阵；根据在N个在前时刻，所述智能体分别与所述每一个格栅点之间的距离，对所述每一个格栅点分别赋值，获得用于表征所述智能体的艏向信息的N个艏向信息矩阵；将所述第一环境状态矩阵、所述第一位置状态矩阵和所述N个艏向信息矩阵拼接为N+2 个状态输入矩阵；构建卷积神经网络模型，并将所述N+2个状态输入矩阵输入所述卷积神经网络模型，以使得所述卷积神经网络模型根据所述N+2个状态输入矩阵输出，输出表征所述智能体的下一步执行信息的输出值；采用深度强化学习算法，对所述卷积神经网络模型进行训练；采用经过训练的所述卷积神经网络模型，对所述智能体进行路径规划；其中， N个所述在前时刻为与所述当前时刻相邻，并发生在所述当前时刻之前的时刻， N 大于或等于2； n1为1‑1000的整数； n2为1‑1000的整数。 2.根据权利要求1所述的方法，其特征在于，所述第一环境状态矩阵中的元m(i,j)为[ ‑ 1， 0， 1]中的任一者，所述元m(i,j)根据以下原则被赋值：所述环境属性为栅格点是障碍物时， m(i,j)= ‑1；所述环境属性为栅格点已被探测到时， m(i,j)= 0；所述环境属性为栅格点未被探测到时， m(i,j)=1。 3.根据权利要求1所述的方法，其特征在于，所述第一位置状态矩阵中的元disi,j根据以下原则被赋值：；其中， disi,j为所述智能体与所述第一位置状态矩阵的第i行第j列的栅格点之间的欧式距离， Xagent为所述智能体在与所述任务区域对应的二维平面直角坐标系中的X坐标， Yagent为所述智能体在所述二维平面直角坐标系中的Y 坐标， Xi,j为所述元disi,j在所述二维平面直角坐标系中的X坐标， Yi,j为所述元disi,j在所述二维平面直角坐标系中的Y坐标， dismax为所述任务区域中的最长距离。 4.根据权利要求1所述的方法，其特征在于，所述方法还包括：在所述卷积神经网络模型的输出层，使用tanh激活函数，将所述输出值限定在[ ‑1， 1] 的范围内，并将经过限定的所述输出值乘以所述智能体的最大转向限制，获得表征所述智能体的转向动作的转向动作输出值。 5.根据权利要求1至4中任一项所述的方法，其特征在于，所述采用深度强化学习算法，对所述卷积神经网络模型进行训练，包括：权　利　要　求　书 1/3 页 2 CN 115235476 A 2根据所述智能体在所述任务区域中的探测进程，构建奖惩函数；基于所述奖惩函数，采用深度强化学习算法，对所述卷积神经网络模型进行训练。 6.根据权利要求5所述的方法，其特征在于，所述奖惩函数的构建方式为： r=rdot+rfull+rfail+rclose；其中， r为所述奖惩函数， rdot为所述智能体在所述当前时刻，以及在相对于所述当前时刻的下一时刻，与所述多个格栅点中的未探测点之间的平均距离差；所述下一时刻为与所述当前时刻相邻，并发生在所述当前时刻之后的时刻；所述智能体朝向所述未探测点运动， rdot为奖励，所述智能体未朝向所述未探测点运动， rdot为惩罚； rfull为所述智能体完成全覆盖任务的奖励； rfail为所述智能体撞障碍物或驶离任务区域的惩罚； rclose为所述智能体与障碍物的距离或与所述任务区域的边界的距离小于目标距离的惩罚。 7.根据权利要求6所述的方法，其特征在于，所述方法还包括：根据在下一时刻，所述多个格栅点中每一个格栅点的环境属性，对所述每一个格栅点分别赋值，获得用于表征所述任务区域的环境状态的第二环境状态矩阵；根据在所述下一时刻，所述智能体分别与所述每一个格栅点之间的距离，对所述每一个格栅点分别赋值，获得用于表征所述智能体的位置状态的第二位置状态矩阵；其中，所述平均距离差rdot通过以下公式获得：；其中， Scur为所述第一环境状态矩阵且大于0， di scur为所述第一位置状态矩阵， Snext为所述第二环境状态矩阵且大于 0， disnext为所述第二位置状态矩阵， n为所述未探测点的数量。 8.一种基于深度强化学习的全覆盖路径规划装置，其特征在于，包括：第一确定模块，用于根据智能体所处的任务区域确定多个格栅点；第二确定模块，用于根据所述多个格栅点中每一个格栅点的环境属性确定第一环境状态矩阵；第三确定模块，用于根据在当前时刻，所述智能体分别与所述每一个格栅点之间的距离确定第一位置状态矩阵；第四确定模块，用于根据在N个在前时刻，所述智能体分别与所述每一个格栅点之间的距离确定N个艏向信息矩阵；其中， N个所述在前时刻为与所述当前时刻相邻，并发生在所述当前时刻之前的时刻；构建模块，用于构建卷积神经网络模型，将所述第一环境状态矩阵、所述第一位置状态矩阵和所述N个艏向信息矩阵拼接为N +2个状态输入矩阵输入所述卷积神经网络模型，输出表征所述智能体的下一步执行信息的输出值；训练模块，用于根据深度强化学习算法，对所述卷积神经网络模型进行训练；规划模块，用于根据经过训练的所述卷积神经网络模型，对所述智能体进行路径规划。权　利　要　求　书 2/3 页 3 CN 115235476 A 3

专利 一种全覆盖路径规划方法、装置、存储介质、电子设备

专利一种全覆盖路径规划方法、装置、存储介质、电子设备