说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211169283.3 (22)申请日 2022.09.26 (71)申请人 宁波均胜智能汽车技 术研究院有限 公司 地址 315000 浙江省宁波市高新区冬青路 555号5号楼7楼 (72)发明人 娄君杰 郑鑫宇 章航嘉 郑习羽  (74)专利代理 机构 浙江中桓凯通专利代理有限 公司 33376 专利代理师 刘潇 (51)Int.Cl. G01C 21/20(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 17/16(2006.01) (54)发明名称 一种全覆盖路径 规划方法、 装置、 存储介质、 电子设备 (57)摘要 本发明提供了一种全覆盖 路径规划方法、 装 置、 存储介质、 电子设备。 本发明 改进传统的栅格 建模方式, 用栅格点表示离散的环境, 并设计卷 积神经网络模 型及状态输入矩阵。 在此模型上设 计奖惩函数, 并使用目前主流强化学习算法对卷 积神经网络模 型进行训练; 能在连续的动作空间 输出动作, 并最终形成最优的全覆盖路径。 权利要求书3页 说明书7页 附图3页 CN 115235476 A 2022.10.25 CN 115235476 A 1.一种基于深度强化学习的全覆盖路径规划方法, 其特 征在于, 所述方法包括: 将智能体所处的任务区域划分为按n1×n2矩阵排列的多个 格栅点; 根据在当前时刻, 所述多个格栅点中每一个格栅点的环境属性, 对所述每一个格栅点 分别赋值, 获得用于表征 所述任务区域的环境状态的第一环境状态 矩阵; 根据在所述当前时刻, 所述智能体分别与所述每一个格栅点之间的距离, 对所述每一 个格栅点分别赋值, 获得用于表征 所述智能体的位置状态的第一 位置状态 矩阵; 根据在N个在前时刻, 所述智能体分别与所述每一个格栅点之间的距离, 对所述每一个 格栅点分别赋值, 获得用于表征 所述智能体的艏向信息的N个艏向信息矩阵; 将所述第一环境状态矩阵、 所述第一位置状态矩阵和所述N个艏向信息矩阵拼接为N+2 个状态输入矩阵; 构建卷积神经网络模型, 并将所述N+2个状态输入矩阵输入所述卷积神经网络模型, 以 使得所述卷积神经网络模型根据所述N+2个状态输入矩阵输出, 输出表征所述智能体的下 一步执行信息的输出值; 采用深度强化学习算法, 对所述卷积神经网络模型进行训练; 采用经过训练的所述卷积神经网络模型, 对所述智能体进行路径规划; 其中, N个所述在前时刻为与所述当前时刻相邻, 并发生在所述当前时刻之前的时刻, N 大于或等于2; n1为1‑1000的整数; n2为1‑1000的整数。 2.根据权利 要求1所述的方法, 其特征在于, 所述第一环境状态矩阵中的元m(i,j)为[ ‑ 1, 0, 1]中的任一 者, 所述元m(i,j)根据以下原则被赋值: 所述环境属性 为栅格点是障碍物时, m(i,j)= ‑1; 所述环境属性 为栅格点已被探测到时, m(i,j)= 0; 所述环境属性 为栅格点未被探测到时, m(i,j)=1。 3.根据权利要求1所述的方法, 其特征在于, 所述第一位置状态矩阵中的元disi,j根据 以下原则被赋值: ; 其中, disi,j为所述智能体与所述第一位置状态矩阵的第i行第j列的栅格点之间的欧 式距离, Xagent为所述智能体在与所述任务区域对应的二维平面直角坐标系中的X坐标, Yagent为所述智能体在所述二维平面直角坐 标系中的Y 坐标, Xi,j为所述元disi,j在所述二维 平面直角坐标系中的X坐标, Yi,j为所述元disi,j在所述二维平面直角坐标系中的Y坐标, dismax为所述任务区域中的最长距离 。 4.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 在所述卷积神经网络模型的输出层, 使用tanh激活函数, 将所述输出值限定在[ ‑1, 1] 的范围内, 并将经过限定的所述输出值乘以所述智能体的最大转向限制, 获得表征所述智 能体的转向动作的转向动作输出值。 5.根据权利要求1至4中任一项所述的方法, 其特征在于, 所述采用深度强化学习算法, 对所述卷积神经网络模型进行训练, 包括:权 利 要 求 书 1/3 页 2 CN 115235476 A 2根据所述智能体在所述任务区域中的探测进程, 构建奖惩 函数; 基于所述奖惩 函数, 采用深度强化学习算法, 对所述卷积神经网络模型进行训练。 6.根据权利要求5所述的方法, 其特 征在于, 所述奖惩 函数的构建方式为: r=rdot+rfull+rfail+rclose; 其中, r为所述奖惩 函数, rdot为所述智能体在所述当前时刻, 以及在相对于所述当前时刻的下一时刻, 与所述多 个格栅点中的未探测 点之间的平均距离差; 所述下一时刻为与所述当前时刻相邻, 并发生 在所述当前时刻之后的时刻; 所述智能体朝向所述未探测点运动, rdot为奖励, 所述智能体未朝向所述未探测点运 动, rdot为惩罚; rfull为所述智能体完成全覆盖任务的奖励; rfail为所述智能体撞障碍物或驶离任务区域的惩罚; rclose为所述智能体与障碍物的距离或与所述任务区域 的边界的距离小于 目标距离的 惩罚。 7.根据权利要求6所述的方法, 其特 征在于, 所述方法还 包括: 根据在下一时刻, 所述多个格栅点中每一个格栅点的环境属性, 对所述每一个格栅点 分别赋值, 获得用于表征 所述任务区域的环境状态的第二环境状态 矩阵; 根据在所述下一时刻, 所述智能体分别与所述每一个格栅点之间的距离, 对所述每一 个格栅点分别赋值, 获得用于表征 所述智能体的位置状态的第二 位置状态 矩阵; 其中, 所述平均距离 差rdot通过以下公式获得: ; 其中, Scur为所述第一环境状态矩阵且大于0, di scur为所述第一位置状态矩阵, Snext为所 述第二环境状态 矩阵且大于 0, disnext为所述第二 位置状态 矩阵, n为所述未探测点的数量。 8.一种基于深度强化学习的全覆盖路径规划装置, 其特 征在于, 包括: 第一确定模块, 用于根据智能体所处的任务区域确定多个 格栅点; 第二确定模块, 用于根据所述多个格栅点中每一个格栅点的环境属性确定第 一环境状 态矩阵; 第三确定模块, 用于根据在当前时刻, 所述智能体分别与所述每一个格栅点之间的距 离确定第一 位置状态 矩阵; 第四确定模块, 用于根据在N个在前时刻, 所述智能体分别与所述每一个格栅点之间的 距离确定N个艏向信息矩阵; 其中, N个所述在前时刻为与所述当前时刻相 邻, 并发生在所述 当前时刻之前的时刻; 构建模块, 用于构建卷积神经网络模型, 将所述第 一环境状态矩阵、 所述第 一位置状态 矩阵和所述N个艏向信息矩阵拼接为N +2个状态输入矩阵输入所述卷积神经网络模 型, 输出 表征所述智能体的下一 步执行信息的输出值; 训练模块, 用于根据深度强化学习算法, 对所述卷积神经网络模型进行训练; 规划模块, 用于根据经 过训练的所述卷积神经网络模型, 对所述智能体进行路径规划。权 利 要 求 书 2/3 页 3 CN 115235476 A 3

.PDF文档 专利 一种全覆盖路径规划方法、装置、存储介质、电子设备

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种全覆盖路径规划方法、装置、存储介质、电子设备 第 1 页 专利 一种全覆盖路径规划方法、装置、存储介质、电子设备 第 2 页 专利 一种全覆盖路径规划方法、装置、存储介质、电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 05:42:33上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。