说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210882058.8 (22)申请日 2022.07.26 (71)申请人 华中师范大学 地址 430079 湖北省武汉市洪山区珞 瑜路 152号 (72)发明人 庞世燕 胡瀚淳 李畅 陈加  石业鹏  (74)专利代理 机构 武汉科皓知识产权代理事务 所(特殊普通 合伙) 42222 专利代理师 王琪 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06V 20/10(2022.01)G06V 20/70(2022.01) G06V 10/26(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于Tran sUnet架构的影像自监督学习 方法 (57)摘要 本发明公开了一种基于TransU net架构的影 像自监督学习方法, 该方法在TransUnet架构的 基础上, 通过掩码自编码方式构建全新的影像自 监督学习方法, 通过在成本低、 无需标注的原始 影像上进行自监督训练, 获得高质量的影像高阶 特征, 以此来大幅减轻下游任务的训练难度。 为 验证方法的有效性, 采用建筑物 提取数据集进行 了影像自监督学习实验, 并将其应用到建筑物提 取的下游任务, 结果表明: 由于充分结合了CNN和 Transformer各自优势, 本发明具有收敛速度快、 计算量小、 鲁棒性强等优点, 在遥感、 医疗等领域 的小数据集上可以显著提高精度, 节省数据集的 使用并降低人工标注成本 。 权利要求书2页 说明书7页 附图2页 CN 115331073 A 2022.11.11 CN 115331073 A 1.一种基于TransUnet 架构的影 像自监督学习方法, 其特 征在于, 包括如下步骤: 步骤1, 构建影像掩码自编码网络, 所述影像掩码自编码网络基于TransUnet架构, 只使 用原始影像训练该网络, 不需要真值标签, 对原始影像特征图随机掩盖并预测被掩盖区域 像素, 获取一个可充分提取影 像特征的预训练模型; 所述影像掩码自编码网络网络包括卷积网络特征提取、 特征图掩码、 Transformer特征 编码、 混合 解码, 共4个部分; 其中混合 解码部分包括掩码恢复、 Transformer解码块、 卷积上采样解码块 三部分; 步骤2, 高阶影像特征效果验证, 在影像掩码自编码网络的基础上构建用于语义分割的 全监督学习网络, 并采用遥感影像 建筑物提取数据集训练全监督学习网络, 进而对步骤1自 监督学习获得的高阶影 像特征质量进行验证; 所述全监督学习 网络的构建过程为: 在步骤1的影像掩码自编码网络中去 除特征图掩 码部分, 将步骤1的混合解码 部分中的Transformer 解码块去除, 并将步骤1的混合解码部 分 中的卷积上采样解码块的预测头通过卷积将通道数修改为语义分割类别数, 最后在步骤1 的卷积网络特征提取部 分与卷积上采样解码块之间搭建跳转连接, 形成用于语义分割的全 监督学习网络 。 2.根据权利要求1所述的基于TransUnet架构的影像自监督学习方法, 其特征在于: 所 述卷积网络特征提取部分包括, 一个7 ×7卷积层与三个相似的bottleneck组成, 每个 bottleneck包含三个卷积结构, 第一个卷积使用的卷积核大小为1 ×1, 卷积步长均为1, 之 后有BN层与Relu层; 第二个卷积层与第一个结构组成相同, 不同点是卷积核大小为3 ×3; 第 三个卷积层结构也与第一个结构组成相同, 卷积核大小为1 ×1; 以上三个卷积核再加上 resnet的残差连接, 组成了一个bottleneck, 卷积网络特征提取部分共有三个bottleneck 单元, 经过每个bottleneck单元后输出特征图的高度与宽度均变为该单元输入的二分之 一, 经过一个7 ×7的卷积层与三个bottleneck单元后, 卷积网络特征提取部分输出特征图 的边长变为原 始影像的1/16 。 3.根据权利要求2所述的基于TransUnet架构的影像自监督学习方法, 其特征在于: 卷 积网络特 征提取部分的特 征计算流程如下; F1(x)=ReLU(BN(Co nv1×1(Conv7×7(x)))) H1(x)=F1(x)+x F2(x)=ReLU(BN(Co nv3×3(H1(x)))) H2(x)=F2(x)+H1(x) F3(x)=ReLU(BN(Co nv1×1(H2(x)))) H3(x)=F3(x)+H2(x) 其中x是输入的原始影像, F(x)是对影像的特征提取, H(x)是残差计算模块, 下标1,2,3 代表3个卷积结构的序号, ReLU表示Relu层, BN表示BN层, Co nv表示卷积层。 4.根据权利要求1所述的基于TransUnet架构的影像自监督学习方法, 其特征在于: 所 述特征图掩码部分包括, 特征图展平和序列掩码两部分; 特征图展平阶段对卷积网络特征 提取部分输出的矩形特征图进行处理, 通过卷积核1 ×1、 步长为1的卷积, 将矩形特征图展 平为长度一定的特征序列; 序列掩码是通过对序列按照一定比例生成若干个不重复随机索 引, 按照索引将特征序列对应位置删除, 经过特征图掩码部分后, 输出的结果是未掩码序权 利 要 求 书 1/2 页 2 CN 115331073 A 2列。 5.根据权利要求1所述的基于TransUnet架构的影像自监督学习方法, 其特征在于: 所 述Transformer特征编码部分由12块串联的Transformer单元组成, 每一个Transformer单 元由两个LayerN orm层、 多头注意力机制以及MLP层组成; 每个Transformer单 元计算流程具体如下: x1=x+MultiHead(LayerN orm(x)) y=x1+MLP(LayerN orm(x1)) 其中x代表输入的序列, y代表输出的序列, x与y的尺寸一致, MultiHead是多头注意力 操作, LayerN orm是层归一 化, MLP是全连接层。 6.根据权利要求1所述的基于TransUnet架构的影像自监督学习方法, 其特征在于: 所 述混合解码部分包括掩码恢复、 Transformer解码块、 卷积上采样解码块三部分; 掩码恢复 部分将上一部 分深层编 码的序列恢复原始顺序, 对于其中被掩码的空缺位置用可学习的向 量代替; Transformer解码块由6块串联的Transformer单元组成; 卷积上采样解码块通过将 初步解码后的序列重塑成矩形, 并使用4个卷积上采样单元经进行解码, 并恢复原始影像; 每个卷积上采样单元由1个3 ×3卷积和1个两倍插值上采样组成, 通过三次卷积上采样, 特 征图变为最后的原始尺寸, 最后的影像预测头通过卷积将通道数转变为3, 输出原始彩色影 像。 7.根据权利要求1所述的基于TransUnet架构的影像自监督学习方法, 其特征在于: 步 骤2的具体实现包括; 全监督学习网络构建完成后, 卷积网络特征提取与Transformer特征编码两个部分的 权值采用影像掩码自编码训练的参数, 这一部分合称为编码器模块, 全监督学习网络即为 解码器模块; 采用遥感影像建筑物提取数据集检验影像掩码自编码构建的特征质量, 所述遥感影像 建筑物提取数据集由原始遥感影像和建筑物像素级标签组成, 训练前按照合适比例划分为 训练集、 验证集、 测试集; 采用“固定编码器模块参数, 只训练解码器模块参数 ”的方式进行训练, 将训练数据集 作为全监督学习网络的训练数据, 迭代训练网络直到模型收敛, 通过验证集选取精度最高 的模型, 在测试集上统计模型 的精度, 以便客观评价影像掩码自编码获取 的影像高阶特征 质量。权 利 要 求 书 2/2 页 3 CN 115331073 A 3

.PDF文档 专利 一种基于TransUnet架构的影像自监督学习方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于TransUnet架构的影像自监督学习方法 第 1 页 专利 一种基于TransUnet架构的影像自监督学习方法 第 2 页 专利 一种基于TransUnet架构的影像自监督学习方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:10:08上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。