(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210980934.0
(22)申请日 2022.08.16
(71)申请人 北京昭衍新药研究中心 股份有限公
司
地址 100176 北京市大兴区经济技 术开发
区荣京东 街甲5号
(72)发明人 张素才 彭霞 杨进涛 马金玲
芮志佩
(74)专利代理 机构 北京律谱知识产权代理有限
公司 11457
专利代理师 黄云铎
(51)Int.Cl.
G06V 40/20(2022.01)
G06V 10/764(2022.01)
G06V 10/80(2022.01)G06V 10/22(2022.01)
G06V 10/82(2022.01)
G06V 10/34(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
3D慢融合的联合检测和分类的群体猴时空
动作定位网络
(57)摘要
本发明是一种3D慢融合的联合检测和分类
的群体猴时空动作定位网络, 包括输入模块、 主
干模块、 颈部模块、 预测模块; 主干模块包括多个
相同的2D主干模块并联, 2D 主干模块 分别输出原
始图像的1/8、 1/16和1/32三个尺度的特征; 输入
模块具有与2D 主干模块数量相同的输入端口, 各
输入端口分别按顺序输入各采样帧的原始图像;
颈部模块用于增强多尺度上的语义表达和定位
能力; 预测模块用于生成预测结果。 本发明构建
了一个能有效利用多帧信息的基于3D慢融合的
联合检测和分类的群体猴时空动作定位网络, 简
化了训练过程。
权利要求书2页 说明书5页 附图1页
CN 115410271 A
2022.11.29
CN 115410271 A
1.一种3D慢融合的联合检测和分类的群体猴时空动作定位网络, 其特征在于, 所述群
体猴时空动作定位网络包括输入 模块、 主干模块、 颈 部模块、 预测模块;
所述主干模块包括多个相同的2D主干模块并联, 所述2D主干模块包括多个CBS模块、
2DC3模块和一个SPPF模块, 所述2D主干模块分别输出原始图像的1/8、 1/16和1/32三个尺度
的特征;
所述输入模块具有与2D主干模块数量相同的输入端口, 所述输入端口与对应的2D主干
模块连接; 各输入端口分别按顺序输入各采样帧的原 始图像;
所述颈部模块包括FPN模块、 第一PAN模块和第二PAN模块, 所述FPN模块与所述主干模
块连接, 获取原始图像的1/8、 1/16和1/32三个尺度的特征, 用于增强多尺度上的语义表达;
所述第一PAN模块和第二PAN模块与所述FPN模块连接, 用于将浅层定位信息传输到深层特
征, 以增强多尺度定位能力;
所述预测模块将三个特征图卷积在一个图层中, 获取三种尺寸的特征图, 生成预测结
果。
2.根据权利要求1所述群体猴时空动作定位网络, 其特征在于, 所述2D主干模块包括第
一至第五CBS模块、 第一至第三2DC 3模块和一个S PPF模块;
第一CBS模块输出端连接第二CBS模块, 第二CBS模块输出端连接第一2DC3模块, 第一
2DC3模块输出端连接第三CBS模块, 第三CBS模块输出端连接第二2DC3模块, 第二2DC3模块
输出端输出原始图像的1/8尺度特征并连接第四CBS模块, 第四CBS模块输出端连接第三
2DC3模块, 第三2DC3模块输出端输出原始图像的1/16尺度特征并连接第五CBS模块, 第五
CBS模块输出端连接第四2DC3模块, 第四2DC3模块输出端 连接SPPF模块, SPPF模块输出端输
出1/32尺度特征。
3.根据权利要求2所述群体猴时空动作定位网络, 其特征在于, 所述CBS模块均包括2D
卷积单元、 2D BatchNorm单元和SiLU单元。
4.根据权利 要求3所述群体猴时空动作定位网络, 其特征在于, 所述2DC3模块包括2DC3
卷积单元、 concat单元和两个CBS模块, 2DC3卷积单元和一个CBS模块并联, 具有相同的输入
节点和输出节点, 2DC3卷积单元和CBS模块并联输出节点与concat单元连接, concat单元与
另一个CBS模块连接; 2DC 3卷积单元包括多个串联的CBS模块。
5.根据权利要求3所述群体猴时空动作定位网络, 其特征在于, SPPF模块包括两个CBS
模块、 三个maxpool单元和concat单元; 三个maxpool单元中第一maxpool单元和第二
maxpool单元串联, 并与第三maxpool单元并联; SPPF模块的输入端连接CBS 模块; CBS 模块具
有多个输出端, 分别连接第一maxpool单元、 第三maxpool单元和concat单元; 第一maxpool
单元输出端连接第二maxpool单元和concat单元; 第三maxpool单元输出端连接concat单
元; 第二maxpo ol单元输出端连接 concat单元; concat单元输出端连接另一个CBS模块。
6.根据权利要求1所述群体猴时空动作定位网络, 其特征在于, 所述FPN模块包括依次
连接的第一3DCBS单元、 第一Upsample单元、 第一concat单元、 第一3DC3卷积单元、 第二
3DCBS单元、 第二Upsample 单元、 第二co ncat单元和第二3DC 3卷积单元。
7.根据权利要求6所述群体猴时空动作定位网络, 其特征在于, 所述3DCBS单元包括3D
卷积单元、 3D BatchNorm单元和SiLU单元。
8.根据权利要求7所述群体猴时空动作定位网络, 其特征在于, 所述3DC3卷积模块包括权 利 要 求 书 1/2 页
2
CN 115410271 A
23DC3卷积单元、 concat单元和两个3DCBS单元, 3DC3卷积单元和一个3DCBS单元并联, 具有相
同的输入节点和输出节点, 3DC3卷积单元和3DCBS单元并联输出节点与concat单元连接,
concat单元与另一个3DCBS单 元连接; 3DC 3卷积单元包括多个串联的3DCBS单 元。
9.根据权利要求1所述群体猴时空动作定位网络, 其特征在于, 所述第一PAN模块中
3DCBS单元、 concat单元和3DC3卷积模块依次连接; 3DCBS单元输入端与FPN模块的第二3DC3
卷积单元输出端连接; concat单元输入端连接3DCBS单元同时还连接FPN模块的第二3DCBS
单元; 3DC3卷积模块输出端输出第一预测数据;
第二AN模块中3DCBS单元、 concat单元和3DC3卷积模块依次连接; 3DCBS单元输入端与
FPN模块的第二3DC3卷积单元输出端连接; concat单元输入端连接3DCBS单元同时还连接
FPN模块的第一3DCBS单 元; 3DC3卷积模块输出端输出第三预测数据。
10.根据权利要求1所述群体猴时空动作定位网络, 其特征在于, 所述预测模块对各帧
图像生成位置信息, 猴子的置信度, 猴子项圈颜色的概 率, 猴子动作的概 率;
所述预测模块的总损失为:
Ltotal=k1*Lbox+k2*L object+k3 *Lcolor+k4*Laction
其中, k1、 k2、 k3和k4是预设的超参数, Lbox表示位置信息, Lobject表示猴子的置信度,
Lcolor表示猴子项圈颜色, Lacti on表示猴子动作。权 利 要 求 书 2/2 页
3
CN 115410271 A
3
专利 3D慢融合的联合检测和分类的群体猴时空动作定位网络
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:09:33上传分享