说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211087762.0 (22)申请日 2022.09.07 (71)申请人 深圳大学 地址 518000 广东省深圳市南 山区南海大 道3688号 (72)发明人 王嘉荣 李岩山 张坤华  (74)专利代理 机构 深圳尚业知识产权代理事务 所(普通合伙) 44503 专利代理师 杨勇 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/40(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种图像目标检测方法、 系统、 电子装置和 存储介质 (57)摘要 本发明公开了一种图像目标检测方法、 系 统、 电子装置和存储介质, 方法包括: 对输入图像 进行特征提取, 得到三个特征图; 对所有的特征 图进行特征融合, 得到融合图像; 对融合图像进 行预测, 得到预测图像; 对预测的图像进行后处 理, 得到对输入图像的最终检测结果; 对输入的 图像进行特征提取, 得到三个特征图包括: 使用 预先构建的特征提取网络对输入图像进行五次 下采样, 得到五个不同尺寸的特征图, 并保留最 后三个特征图, 最后三个特征图分别为第一特征 图、 第二特征图、 第三特征图。 本发明在能够让网 络在训练的过程中, 让大尺寸特征图保留丰富的 位置信息, 让小尺寸特征图保留凝练的语义信 息, 使特征融合更有效, 网络的检测精度更高。 权利要求书3页 说明书18页 附图8页 CN 115471721 A 2022.12.13 CN 115471721 A 1.一种图像目标检测方法, 其特 征在于, 包括: 对输入图像进行 特征提取, 得到三个特 征图; 对所有的特 征图进行 特征融合, 得到融合图像; 对所述融合图像进行 预测, 得到预测图像; 对预测的图像进行后处 理, 得到对所述输入图像的最终检测结果; 对输入的图像进行 特征提取, 得到三个特 征图包括: 使用预先构建的特征提取网络对所述输入图像进行五次下采样, 得到五个不同尺寸的 特征图, 并保留最后三个特征图, 最后三个特征图分别为第一特征图、 第二特征图、 第三特 征图。 2.根据权利要求1所述的图像目标检测方法, 其特 征在于, 对所有的特 征图进行 特征融合, 得到融合图像包括: 对第三特征图调整维度, 得到第 一图像, 对第 一图像进行转置卷积后, 和第 二特征图进 行拼接, 再经过第一残差结构, 并调整维度后, 得到第二图像, 对第二图像进 行转置卷积, 并 和第一特 征图进行拼接, 再 经过第二残差结构, 得到第一融合图像; 对所述第 一融合图像进行下采样, 并和第二图像拼接, 经过第三残差结构, 得到第二融 合图像; 对所述第 二融合图像进行下采样, 并和第一图像进行拼接, 再经过第四残差结构, 得到 第三融合图像。 3.根据权利要求2所述的图像目标检测方法, 其特 征在于, 对所述融合图像进行 预测, 得到预测图像包括: 对第一融合图像、 第二融合图像、 第三融合图像在三个预测头内分别进行卷积和重排 矩阵的操作, 将各融合图像的特 征维度调整至统一数值, 得到三个预测图像; 对预测的图像进行后处 理, 得到对所述输入图像的最终检测结果包括: 设置置信度阈值, 去除三个预测图像内置信度小于所述阈值的先验框; 使用NMS算法, 设定I oU阈值, 分别比较三个预测图像内的先验框与真实框的交并比; 将交并比高于所述 IoU阈值的先验框中, 筛 选出数值最高的一个先验框; 汇总对3个预测头 筛选出的所有先验框, 得到 输入图像的最终检测结果。 4.根据权利要求2所述的图像目标检测方法, 其特 征在于, 所述第一残差结构、 第二残差结构、 第三残差结构、 第 四残差结构、 均使用相同的残差 结构, 所述残差结构包括第一 通道结构和第二 通道结构: 第一通道结构是一个1*1的Co nv结构; 第二通道结构包括: Ghost  CBS结构, GhostNeck结构, Co ncat结构和1*1CBS结构; GhostNeck结构包括: Ghost  CBS结构, SENet 结构, Concat结构和Ghost  CBS结构, Ghost   CBS结构的输入, 也是Co ncat结构的一个输入; SENet结构包括: Flatten结构, 1*1Conv结构, 1*1Conv结构, Multiply结构, Flatten结 构的输入, 也是Multiply结构的一个输入; Ghost CBS结构包括: 1*1CBS结构, 5*5DWCBS结构, Concat结构, 1*1CBS结构的输出是 Concat结构的一个输入; 第一通道结构和第二通道结构的Ghost  CBS结构具有相同的输入, 第一通道结构的输权 利 要 求 书 1/3 页 2 CN 115471721 A 2出是一个第二 通道结构的Co ncat结构的输入; 其中, 1*1Conv结构用于对图像进行1*1卷积, Concat结构用于对图像进行拼接, Ghost   CBS结构用于对图像降低维度, 1*1CBS结构用于对图像恢复维度。 5.根据权利要求 4所述的图像目标检测方法, 其特 征在于, 在第一融合图像的生成过程中, 使用YOLO ‑M的网络架构, 调整维度均使用所述CBS结 构; 或者, 在第一融合图像的生成过程 中, 使用YOLO ‑L的网络架构, 调整维度均使用Ghost  CBS结 构; 或者, 在第一融合 图像的生成过程中, 使用YOLO ‑S的网络架构, 所述转置卷积的操作替换为 最近邻插值的上采样 操作。 6.根据权利要求2所述的图像目标检测方法, 其特 征在于, 使用残差结构处 理图像的方法包括: 在第一通道里对输入的图像进行1*1卷积, 将图像的维度降低至原先维度的一半, 得到 第一图像; 在第二通道里对输入的图像降低维度、 维度加权, 和第一图像进行拼接, 并融合特征, 得到和输入的图像相比, 宽高、 维度没有变化的第二图像; 在第二通道里对输入的图像降低维度、 维度加权包括: 对输入的图像进行降低维度处 理, 得到低维图像; 对低维图像进行维度加权 。 7.根据权利要求6所述的图像目标检测方法, 其特 征在于, 对输入的图像进行降低维度处 理包括: 对输入的图像的维度降低为输入维度的一半, 得到降维图像; 对低维图像进行维度加权包括: 将低维图像展平; 将展平的低维图像进行1*1的卷积来降低维度; 使用SiLU函数激活低维图像; 使用1*1的卷积恢复低维图像; 使用Sigmo id激活, 获得维度权 重; 将输入图像与维度权 重相乘, 获得维度加权的输出图像。 8.一种图像目标检测系统, 其特 征在于, 包括: 特征提取模块, 用于对输入图像进行 特征提取, 得到三个特 征图; 特征融合模块, 用于对所有的特 征图进行 特征融合, 得到融合图像; 预测模块, 用于对所述融合图像进行 预测, 得到预测图像; 后处理模块, 用于对预测的图像进行后处 理, 得到对所述输入图像的最终检测结果; 特征提取模块包括: 下采样单元, 用于使用预先构建的特征提取网络对所述输入图像 进行五次下采样, 得到五个不同尺寸的特征图; 特征保留单元, 用于保留最后三个特征图, 最后三个特 征图分别为第一特 征图、 第二特 征图、 第三特 征图。 9.一种电子装置, 包括: 存储器、 处理器, 所述存储器上存储有可在所述处理器上运行 的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时, 实现权利要求 1至7中的任权 利 要 求 书 2/3 页 3 CN 115471721 A 3

.PDF文档 专利 一种图像目标检测方法、系统、电子装置和存储介质

文档预览
中文文档 30 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种图像目标检测方法、系统、电子装置和存储介质 第 1 页 专利 一种图像目标检测方法、系统、电子装置和存储介质 第 2 页 专利 一种图像目标检测方法、系统、电子装置和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:09:55上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。