说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210827738.X (22)申请日 2022.07.13 (71)申请人 西北大学 地址 710069 陕西省西安市太白北路2 29号 (72)发明人 赵万青 安刚 彭进业 张晓丹  杨文静 胡琦瑶  (74)专利代理 机构 西安恒泰知识产权代理事务 所 61216 专利代理师 李郑建 (51)Int.Cl. G06F 16/583(2019.01) G06F 16/36(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种知识图谱嵌入注意力机制的弱标注哈 希图像检索架构 (57)摘要 本发明公开了一种知识图谱嵌入注意力机 制的弱标注哈希图像检索的架构, 通该架构将特 征学习、 哈希学习、 知识图谱嵌入、 跨模态特征融 合集成到了一个端到端的图像检索架构当中, 包 括图像视觉特征提取网络、 文本特征提取模型、 将图像特征与文本特征执行交叉关注的解码器、 嵌入自注 意力层的噪声遮罩矩阵、 生成紧凑语义 的哈希层、 单模态视觉模型和用于将多模态模型 性的能迁移至单模态模型的知识蒸馏机制。 该架 构对弱标注环境下的图像检索性能具有一定的 提升。 权利要求书1页 说明书7页 附图2页 CN 115329120 A 2022.11.11 CN 115329120 A 1.一种知识图谱嵌入注意力机制的弱标注哈希图像检索的架构, 其特征在于, 该架构 将特征学习、 哈希学习、 知识图谱嵌入、 跨模态特征融合集成到了一个端到端的图像检索架 构当中, 包括以下 结构: 结构(1): 图像视 觉特征提取网络; 结构(2): 文本特 征提取模型; 结构(3): 将图像特 征与文本特 征执行交叉关注的解码器; 结构(4): 嵌入自注意力层的噪声遮罩矩阵; 结构(5): 生成紧凑语义的哈希层; 结构(6): 单模态视 觉模型; 结构(7): 用于将多模态模型的性能迁移至单模态模型的知识蒸馏机制。 2.如权利要求1所述的知识图谱嵌入注意力机制的弱标注哈希图像检索的架构, 其特 征在于, 所述噪声遮罩矩阵, 具体为知识图谱提供 的先验知识可以为文本提供词与词之间 相似性, 进而形成相关性矩阵, 对相关性低的词形成遮罩, 在计算单词的自注意力时, 遮挡 标记与噪声标记之间注意力的计算, 从而降低噪声或错 误标记对自注意力分数的影响。 3.如权利要求1所述的知识图谱嵌入注意力机制的弱标注哈希图像检索的架构, 其特 征在于, 所述知识蒸馏机制具体为: 结构(1)至(5)生成的模型是以图像和文本同时作为输 入, 目的是在获取视觉语义信息的同时还引入了丰富的文本语义, 在降低文本噪声的基础 上形成的是强大的视觉文本模型, 而 该视觉文本模 型是不可检索的, 因为在检索阶段, 图像 检索模型 的输入只有图像, 因此结构(7)所采用的知识蒸馏机制为引入一个可检索的视觉 模型去学习强大但不可检索的视觉文本模型, 将视觉文本模型的性能通过学习分布的方式 迁移至简单高效可检索的单模态视 觉模型。权 利 要 求 书 1/1 页 2 CN 115329120 A 2一种知识图谱 嵌入注意力机制的弱标注哈希图像检索架构 技术领域 [0001]本发明属于图像检索技术领域, 具体涉及 一种知识图谱 嵌入注意力机制的弱标注 哈希图像 检索架构。 背景技术 [0002]许多基于学习的哈希方法被研究人员提出并用于图像检索, 它们的目标是学习一 种紧凑的、 保持相似性的表示方法, 使得类似的图像就可以映射到汉明空间中邻近的二进 制哈希编 码上, 在人工标记图像的帮助下, 这类有监督哈希学习方法取得了显著的效果, 然 而大规模标记图像数据的获取成本 很高, 限制了这类算法的使用。 [0003]在真实环境中, 存在着许多Web图像库, 这其中, 弱标记的图像数据非常丰富。 这样 的Web图像通常包 含有用信息的图像标记, 但这类弱标记往 往伴随着大量的噪声标记。 [0004]随着基于自注意力机制的Transformer架构的提出, 许多研究开始将Transformer 应用于视觉领域。 此外, 随着知识图谱的发展, 越来越多的研究人员尝试利用从知识图谱中 学习的知识信息来 提高一些知识驱动任务的性能。 [0005]如何利用知识图谱作为辅助知识, 在数据和知识共同驱动下, 降低噪声标签在注 意力机制中的影响, 目前在图像 检索领域相关研究较少。 [0006]经申请人研究, 现有技 术中存在 如下问题: [0007](1)有监督学习依赖于人工标注的数据集, 然而大规模标记图像数据的获取成本 很高, 限制了这类算法的使用。 [0008](2)在真实环境中存在大量的弱标注数据, 这些数据既含有用信息的图像标记, 又 伴随着大量的噪声标记。 [0009](3)图像视觉特征与文本特征之间不但表征不一致, 而且具有不同属性, 这种异构 性造成跨模态的相关性度量十分困难, 难以实现跨模态数据的统一表征与综合利用。 发明内容 [0010]针对上述现有技术存在的缺陷或不足, 本发明的目的在于, 提供一种知识图谱嵌 入注意力机制的弱标注哈希图像 检索架构。 [0011]为了实现上述任务, 本发明采取如下的技 术解决方案: [0012]一种知识图谱嵌入注意力机制的弱标注哈希图像检索的架构, 其特征在于, 该架 构将特征学习、 哈希学习、 知识图谱嵌入、 跨模态特征融合集成到了一个图像检索架构当 中, 包括以下 结构: [0013]结构(1): 图像视 觉特征提取网络; [0014]结构(2): 文本特 征提取模型; [0015]结构(3): 将图像特 征与文本特 征执行交叉关注的解码器; [0016]结构(4): 嵌入自注意力层的噪声遮罩矩阵; [0017]结构(5): 生成紧凑语义的哈希层;说 明 书 1/7 页 3 CN 115329120 A 3

.PDF文档 专利 一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构 第 1 页 专利 一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构 第 2 页 专利 一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:55:47上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。