(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211169283.3
(22)申请日 2022.09.26
(71)申请人 宁波均胜智能汽车技 术研究院有限
公司
地址 315000 浙江省宁波市高新区冬青路
555号5号楼7楼
(72)发明人 娄君杰 郑鑫宇 章航嘉 郑习羽
(74)专利代理 机构 浙江中桓凯通专利代理有限
公司 33376
专利代理师 刘潇
(51)Int.Cl.
G01C 21/20(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06F 17/16(2006.01)
(54)发明名称
一种全覆盖路径 规划方法、 装置、 存储介质、
电子设备
(57)摘要
本发明提供了一种全覆盖 路径规划方法、 装
置、 存储介质、 电子设备。 本发明 改进传统的栅格
建模方式, 用栅格点表示离散的环境, 并设计卷
积神经网络模 型及状态输入矩阵。 在此模型上设
计奖惩函数, 并使用目前主流强化学习算法对卷
积神经网络模 型进行训练; 能在连续的动作空间
输出动作, 并最终形成最优的全覆盖路径。
权利要求书3页 说明书7页 附图3页
CN 115235476 A
2022.10.25
CN 115235476 A
1.一种基于深度强化学习的全覆盖路径规划方法, 其特 征在于, 所述方法包括:
将智能体所处的任务区域划分为按n1×n2矩阵排列的多个 格栅点;
根据在当前时刻, 所述多个格栅点中每一个格栅点的环境属性, 对所述每一个格栅点
分别赋值, 获得用于表征 所述任务区域的环境状态的第一环境状态 矩阵;
根据在所述当前时刻, 所述智能体分别与所述每一个格栅点之间的距离, 对所述每一
个格栅点分别赋值, 获得用于表征 所述智能体的位置状态的第一 位置状态 矩阵;
根据在N个在前时刻, 所述智能体分别与所述每一个格栅点之间的距离, 对所述每一个
格栅点分别赋值, 获得用于表征 所述智能体的艏向信息的N个艏向信息矩阵;
将所述第一环境状态矩阵、 所述第一位置状态矩阵和所述N个艏向信息矩阵拼接为N+2
个状态输入矩阵;
构建卷积神经网络模型, 并将所述N+2个状态输入矩阵输入所述卷积神经网络模型, 以
使得所述卷积神经网络模型根据所述N+2个状态输入矩阵输出, 输出表征所述智能体的下
一步执行信息的输出值;
采用深度强化学习算法, 对所述卷积神经网络模型进行训练;
采用经过训练的所述卷积神经网络模型, 对所述智能体进行路径规划;
其中, N个所述在前时刻为与所述当前时刻相邻, 并发生在所述当前时刻之前的时刻, N
大于或等于2; n1为1‑1000的整数; n2为1‑1000的整数。
2.根据权利 要求1所述的方法, 其特征在于, 所述第一环境状态矩阵中的元m(i,j)为[ ‑
1, 0, 1]中的任一 者, 所述元m(i,j)根据以下原则被赋值:
所述环境属性 为栅格点是障碍物时, m(i,j)= ‑1;
所述环境属性 为栅格点已被探测到时, m(i,j)= 0;
所述环境属性 为栅格点未被探测到时, m(i,j)=1。
3.根据权利要求1所述的方法, 其特征在于, 所述第一位置状态矩阵中的元disi,j根据
以下原则被赋值:
;
其中, disi,j为所述智能体与所述第一位置状态矩阵的第i行第j列的栅格点之间的欧
式距离, Xagent为所述智能体在与所述任务区域对应的二维平面直角坐标系中的X坐标,
Yagent为所述智能体在所述二维平面直角坐 标系中的Y 坐标, Xi,j为所述元disi,j在所述二维
平面直角坐标系中的X坐标, Yi,j为所述元disi,j在所述二维平面直角坐标系中的Y坐标,
dismax为所述任务区域中的最长距离 。
4.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括:
在所述卷积神经网络模型的输出层, 使用tanh激活函数, 将所述输出值限定在[ ‑1, 1]
的范围内, 并将经过限定的所述输出值乘以所述智能体的最大转向限制, 获得表征所述智
能体的转向动作的转向动作输出值。
5.根据权利要求1至4中任一项所述的方法, 其特征在于, 所述采用深度强化学习算法,
对所述卷积神经网络模型进行训练, 包括:权 利 要 求 书 1/3 页
2
CN 115235476 A
2根据所述智能体在所述任务区域中的探测进程, 构建奖惩 函数;
基于所述奖惩 函数, 采用深度强化学习算法, 对所述卷积神经网络模型进行训练。
6.根据权利要求5所述的方法, 其特 征在于, 所述奖惩 函数的构建方式为:
r=rdot+rfull+rfail+rclose;
其中, r为所述奖惩 函数,
rdot为所述智能体在所述当前时刻, 以及在相对于所述当前时刻的下一时刻, 与所述多
个格栅点中的未探测 点之间的平均距离差; 所述下一时刻为与所述当前时刻相邻, 并发生
在所述当前时刻之后的时刻;
所述智能体朝向所述未探测点运动, rdot为奖励, 所述智能体未朝向所述未探测点运
动, rdot为惩罚;
rfull为所述智能体完成全覆盖任务的奖励;
rfail为所述智能体撞障碍物或驶离任务区域的惩罚;
rclose为所述智能体与障碍物的距离或与所述任务区域 的边界的距离小于 目标距离的
惩罚。
7.根据权利要求6所述的方法, 其特 征在于, 所述方法还 包括:
根据在下一时刻, 所述多个格栅点中每一个格栅点的环境属性, 对所述每一个格栅点
分别赋值, 获得用于表征 所述任务区域的环境状态的第二环境状态 矩阵;
根据在所述下一时刻, 所述智能体分别与所述每一个格栅点之间的距离, 对所述每一
个格栅点分别赋值, 获得用于表征 所述智能体的位置状态的第二 位置状态 矩阵;
其中, 所述平均距离 差rdot通过以下公式获得:
;
其中, Scur为所述第一环境状态矩阵且大于0, di scur为所述第一位置状态矩阵, Snext为所
述第二环境状态 矩阵且大于 0, disnext为所述第二 位置状态 矩阵, n为所述未探测点的数量。
8.一种基于深度强化学习的全覆盖路径规划装置, 其特 征在于, 包括:
第一确定模块, 用于根据智能体所处的任务区域确定多个 格栅点;
第二确定模块, 用于根据所述多个格栅点中每一个格栅点的环境属性确定第 一环境状
态矩阵;
第三确定模块, 用于根据在当前时刻, 所述智能体分别与所述每一个格栅点之间的距
离确定第一 位置状态 矩阵;
第四确定模块, 用于根据在N个在前时刻, 所述智能体分别与所述每一个格栅点之间的
距离确定N个艏向信息矩阵; 其中, N个所述在前时刻为与所述当前时刻相 邻, 并发生在所述
当前时刻之前的时刻;
构建模块, 用于构建卷积神经网络模型, 将所述第 一环境状态矩阵、 所述第 一位置状态
矩阵和所述N个艏向信息矩阵拼接为N +2个状态输入矩阵输入所述卷积神经网络模 型, 输出
表征所述智能体的下一 步执行信息的输出值;
训练模块, 用于根据深度强化学习算法, 对所述卷积神经网络模型进行训练;
规划模块, 用于根据经 过训练的所述卷积神经网络模型, 对所述智能体进行路径规划。权 利 要 求 书 2/3 页
3
CN 115235476 A
3
专利 一种全覆盖路径规划方法、装置、存储介质、电子设备
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 05:42:33上传分享