【注意力模型】Harmonious Attention Network for Person Re-Identification

2023-10-27

Abstract

现存re-id方法要么假定了输入的行人图像是充分对齐的,要么依赖于注意力选择机制来标定未对齐的图像。因此当行人图像中存在较大的姿势变化,或者标定时存在检测错误时,这类方法将表现不佳。
本文提出(1)注意力选择(attention selection)和特征表达(feature representation)联合学习的方法,最大化不同层面的视觉注意力之间的互补信息。(2)Harmonious Attention模型联合学习soft pixel attention和hard regional attention,同时优化特征表达。

1 Introduction

为了解决由于视角不同、遮挡问题等带来的图像不对齐问题,attention selection变得非常有必要。一个普遍的策略是局部区域标定和显著性加权,但这类方法依赖于手工特征,很少有深度学习的方法。并且为数不多的深度学习方法隐性的假定了大量标签训练数据集的存在,采用的网络模型复杂度较高。此外,它们只粗略考虑了region-level,而忽略了细颗粒度pixel-level的显著性。当训练集中只有少量标注数据,且行人图像不对齐程度较大背景较杂乱时,这类方法不够有效。
本文主要贡献:
(1)多颗粒度注意力选择机制和特征表达联合学习用于优化行人重识别 (first attempt of jointly deep learning multiple complementary attention)
(2)提出HA-CNN联合学习hard region level和soft pixel-level attention,同时优化特征表达
(3)提出cross-attention交互学习机制进一步增强注意力选择和特征表达之间的兼容性

2 Related Work

3 Harmonious Attention Network

  • hard attention & soft attention
  • global feature & local feature
    ——最大化互补信息,增强判别性,简化cnn模型

HA-CNN模型包活两个分支:
(1)local branch(包括T个具有相同的结构的stream):每个stream分别用于学习T个局部图像区域中最显著的视觉特征
(2)global branch:用于学习整个行人图像的最优全局特征
对于每个分支,选择Inception-A/B单元作为基础的building blocks。
在这里插入图片描述
特征提取
全局分支包括3个Inception-A和3个Inception-B,局部分支的每个stream包含3个Inception-B,每个Inception的宽度(通道数)用 d 1 d_1 d1 d 2 d_2 d2 d 3 d_3 d3表示。全局网络最后通过全局平均池化层和全连接层之后输出一个512维的向量。局部网络也同样采用一个512维的全连接特征层来将所有stream的输出融合到一起。

注意力选择
考虑harmonious attention learning,学习两个互补的注意力maps,一个hard attention用于局部分支,一个soft attention用于全局分支。

最后采用跨注意力交互学习机制(cross-attention interaction learning scheme),同时优化每个分支的判别性特征表达。

3.1 Harmonious Attention Learning

HA采用一种学习策略可以用少量的参数同时学习三种不同类型的注意力:软空间注意力、软通道注意力和硬区域注意力。
HA模块的输入是一个三维张量 X l ∈ R h × w × c \boldsymbol{X}^l\in\mathcal{R^{h \times w \times c}} XlRh×w×c h , w , c h,w,c h,w,c表示高度宽度通道数, l l l表示该模块在整个网络中的层数(网络中存在很多个这样的模块)。
在这里插入图片描述
( I ) (\bold{I}) (I)软空间通道注意力
学习一个与 X \boldsymbol{X} X相同大小的显著性权重映射 A l ∈ R h × w × c \boldsymbol{A}^l\in\mathcal{R^{h \times w \times c}} AlRh×w×c,考虑到空间注意力和通道注意力之间的独立性,可以在学习时将其进行如下分解:
A l = S l × C l \boldsymbol{A}^l=\boldsymbol{S}^l \times \boldsymbol{C}^l Al=Sl×Cl

  1. 空间注意力
    上图绿色框所示,输入 h × w × c h \times w \times c h×w×c的图像,先经过通道的平均池化(0个参数):

由于所有通道享有同样的空间注意力map,所以该池化是合理的。同时这种设计压缩了输入的size,可以减少下一步卷积所需参数个数。

再经过卷积核为 3 × 3 3\times3 3×3步长2的卷积层(9个参数),通过双线性差值恢复原大小 h × w h \times w h×w(0个参数),最后经过 1 × 1 1\times1 1×1步长1的卷积(1个参数)用于自动学习一个fusion scale使空间注意力和后面学习的通道注意力进行最优的结合。

  1. 通道注意力
    如上图黄色框所示,输入 h × w × c h \times w \times c h×w×c的图像,先经过一个池化层(0个参数)将空间分布的特征信息整合成通道特征( 1 × 1 × c 1 \times 1 \times c 1×1×c):在这里插入图片描述
    再通过 c r \dfrac{c}{r} rc 1 × 1 1\times1 1×1步长为1的卷积得到 1 × 1 × c r 1 \times 1 \times \dfrac{c}{r} 1×1×rc的特征,( c 2 r \dfrac{c^2}{r} rc2个参数),最后通过 c c c 1 × 1 1\times1 1×1步长为1的卷积得到 1 × 1 × c 1\times1\times c 1×1×c的特征( c 2 r \dfrac{c^2}{r} rc2个参数)。

如果直接用c个 1 × 1 1\times1 1×1的卷积核进行卷积,需要 c 2 c^2 c2个参数,而本文设计两层卷积只用 2 c 2 r \dfrac{2c^2}{r} r2c2个参数。

最后,将空间注意力分支得到的 h × w × 1 h\times w\times 1 h×w×1h和通道注意力分支得到的 1 × 1 × c 1\times1\times c 1×1×c相乘之后,再经过 c c c 1 × 1 1\times1 1×1的卷积核,得到最终的软注意力采用sigmod操作将其正则化到0.5-1之间。这是因为空间和通道注意力并不是完全互斥的,它们之间也存在一定的互补关系。

( I I ) (\bold{II}) (II)硬区域注意力
通过学习如下转换矩阵来定位T个潜在的显著性区域:在这里插入图片描述
通过变换两个尺度参数( s h , s w s_h,s_w sh,sw)和空间位置( t x , t y t_x,t_y tx,ty)来对图像进行裁剪,平移和缩放变换。为了减小模型复杂度,事先固定区域大小即 s h , s w s_h,s_w sh,sw的值,因此学习的模型只用输出T对 t x , t y t_x,t_y tx,ty的值。
如上图3d所示,硬注意力学习时采用两层的网络结构,第一层是全连接层,我们将通道注意力第一层的输出( 1 × c 1\times c 1×c)作为全连接层的输入,然后输出一个2T维的向量,即全连接层共 2 × T × c 2\times T\times c 2×T×c个参数。第二层采用tanh缩放,将2T个位置缩放到 [ − 1 , 1 ] [-1,1] [1,1]的范围中(表示在图片中的百分比位置)。取到负值时适用于显著性区域超出了图像边界,即行人只有部分位置被拍摄到的情况。

( I I I ) (\bold{III}) (III)跨注意力交叉学习
对于第 l l l个level,采用第k个区域的全局特征 X G ( l , k ) \boldsymbol{X}^{(l,k)}_G XG(l,k)和其相应位置的局部特征 X L ( l , k ) \boldsymbol{X}^{(l,k)}_L XL(l,k)相结合:在这里插入图片描述
其中 X G ( l , k ) \boldsymbol{X}^{(l,k)}_G XG(l,k)是由 l + 1 l+1 l+1层得到的硬注意力区域输入回来的对应到 l l l层的相应位置的全局特征。

(例如第一层HA模块输出的全局特征为 40 × 16 × d 1 40\times16\times d_1 40×16×d1,经过两个Inception后将大小为 20 × 8 × d 2 20\times8\times d_2 20×8×d2的特征输入给第二层HA模块,学到一个同样大小为 20 × 8 × d 2 20\times8\times d_2 20×8×d2的软注意力权重和T个大小为 12 × 14 12\times14 12×14硬注意力区域的位置坐标,并输出第二层的全局特征 20 × 8 × d 2 20\times8\times d_2 20×8×d2,第一层的局部特征由InceptionB输出的 12 × 14 × d 1 12\times14\times d_1 12×14×d1以及第一层全局特征 40 × 16 × d 1 40\times16\times d_1 40×16×d1对应第二层输回来的硬注意力区域位置的特征相加得到。)

这种交叉学习的方法相当于把global branch学到的知识分给了local branch,那么在学习local feature时可以适当简化local branch网络。
反向传播训练时,由于global的参数对local部分也有影响,所以计算梯度时也要加上局部损失对它的梯度。在这里插入图片描述

4 Experiment

4.1 与现有方法对比

  • Market 1501 在这里插入图片描述
  • DukeMTMC在这里插入图片描述
  • CUHK03
    在这里插入图片描述

4.2 进一步分析讨论

  • 不同attention的影响在这里插入图片描述
    结果表明,加上不同attention各自都能取得好的效果,将其联合应用效果更好。
  • cross-attention interaction learning的作用
  • 局部和全局特征相结合的作用
    在这里插入图片描述
  • 可视化
    在这里插入图片描述
  • 网络复杂度
    在这里插入图片描述
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【注意力模型】Harmonious Attention Network for Person Re-Identification 的相关文章

  • 重载,覆盖,隐藏区别

    重载 相同的范围 在同一个类中 函数名字相同 参数不同 virtual关键字可有可无 隐藏 如果派生类的函数与基类的函数同名 但是参数不同 无论有无virtual关键字 基类的函数将被隐藏 如果派生类的函数与基类的函数同名 但是参数相同 基
  • 用java实现用户登录

    方法1 直接设置用户名及密码登录 public static void main String args 用户名及密码 String username 123456798 String passward 123456 键盘输入 for in
  • 【AnyQ】百度开源 FAQ 问答系统—AnyQ介绍

    前言 近年来 随着人工智能技术的发展 人机对话技术得到越来越多的关注 人机对话产品也不断涌现 其中 智能客服作为人机对话的一个典型场景表现出极大的商业潜力和很强的研究价值 各企业也争先恐后的推出自己的智能客服产品 FAQ 问答技术作为智能客

随机推荐

  • Servlet初识

    servlet server applet 处理客户端请求 工作原理 tomcat容器 Servlet容器 服务器 Servlet框架 Servlet应用 1 首先客户端发起请求 2 服务器 tomcat Servlet容器 收到接收到来自
  • C指针之初始化(三)

    一 引言 C C 语言中引入了指针 使得程序能够直接访问内存地址 使得很多复杂的操作变得简单 同时也提高了程序的运行效率 指针即是地址 但是地址却是通过指针变量来存储的 因此我们通常所说的指针在很多时候说的都是指针变量 指针变量在使用之前必
  • 使用C#版Tesseract库

    上一篇介绍了Tesseract库的使用 OCR库Tesseract初探 文末提到了Tesseract是用c c 开发的 也有C 的开源版本 本篇介绍一下如何使用C 版的Tesseract C 版本源码下载地址 https github co
  • 用Python爬取英雄联盟(lol)全部皮肤

    首先 我们打开英雄联盟官网主页 网址为 https lol qq com main shtml 然后向下拉 可以看到英雄列表 如图所示 接着随意选一个英雄点击进入看一下 如图所示 再点击鼠标右键 接着选择检查 看一下皮肤的 URL 如图所示
  • Mysql连接数据库url的参数解析

    看之前各位看官可以不可以点个赞 呜呜呜 更正信息 错误 之前在url中使用 后面发现报错 要进行转义才行 amp 如果在springboot中使用 不需要转义 即把下面的 amp 改为 已经对下面url进行更正 大家直接拷贝粘贴就可以用 j
  • 数据结构_35

    一 线性表 排序 冒泡排序 选择排序 快速排序 归并排序 查找 二分查找 二 树 遍历 递归 前中后序 层次 排序 大根堆 小根堆 哈夫曼树 三 图 广度优先遍历 深度优先遍历 最小生成树 Prim算法 Kus算法 最短路径 Dij算法 一
  • 可视化理解卷积神经网络(CNN)

    大家好 我是Sonhhxg 柒 希望你看完之后 能对你有所帮助 不足请指正 共同学习交流 个人主页 Sonhhxg 柒的博客 CSDN博客 欢迎各位 点赞 收藏 留言 系列专栏 机器学习 ML 自然语言处理 NLP 深度学习 DL fore
  • 用Python做一个猜拳游戏

    import random while True player input 请出拳 石头 剪刀 布 玩家出拳 print 玩家出拳 player list 石头 剪刀 布 computer random choice list 电脑出拳 随
  • Maven打包项目为依赖包、及包引用

    Maven打包项目为依赖包 及包引用 一 maven配置 1 1 原配置 1 2 更改配置 二 jar包引用 2 1 引入maven仓库 2 2 手动引入 更方便 一 maven配置 1 1 原配置
  • ubuntu升级python版本_ubuntu升级python版本

    Ubunt16 04默认安装python2 7和3 5 注意 系统自带的python千万不能卸载 1 输入python 2 输入python3 3 输入命令sudo add apt repository ppa jonathonf pyth
  • 高级 IO(非阻塞、多路复用、异步、存储映射、文件锁)

    目录 非阻塞I O 阻塞I O 与非阻塞I O 读文件 阻塞I O 的优点 阻塞后进入休眠 交出cpu资源降低使用率 使用非阻塞I O实现并发读取 I O 多路复用 何为I O多路复用 select 函数 poll 函数 总结 异步IO 优
  • 正点原子STM32(基于HAL库)5

    目录 SRAM 实验 存储器简介 SRAM 方案简介 硬件设计 程序设计 程序流程图 程序解析 下载验证 内存管理实验 内存管理简介 硬件设计 程序设计 程序流程图 程序解析 下载验证 SD 卡实验 SD 卡简介 SD 物理结构 命令和响应
  • SimOTA的简单理解

    SimOTA simOTA的作用是为不同目标设定不同的正样本数量 例如蚂蚁和西瓜 传统的正样本分配方案常常为同一场景下的西瓜和蚂蚁分配同样的正样本数 那要么蚂蚁有很多低质量的正样本 要么西瓜仅仅只有一两个正样本 对于哪个分配方式都是不合适的
  • CNN中的底层、高层特征、上下文信息、多尺度

    一 CNN中的底层 高层特征 简短总结 分类要求特征有较多的高级信息 回归 定位 要求特征包含更多的细节信息 1 图像的低层特征 对定位任务帮助大 我们可以想想比如轮廓信息都不准那怎么去良好定位 图像底层特征指的是 轮廓 边缘 颜色 纹理
  • ValueError: Image size of 55600x96000 pixels is too large. It must be less than 2^16 in each directi

    ValueError Image size of 55600x96000 pixels is too large It must be less than 2 16 in each direction 问题介绍 在用pycharm做图像处理
  • 遍历指定目录获取当前目录下指定后缀(如txt和ini)的文件名

    bin bash 遍历指定目录获取当前目录下指定后缀 如txt和ini 的文件名
  • LabVIEW通过以太网(TCP)与S7-1200 PLC通信

    LabVIEW通过以太网 TCP 与S7 1200 PLC通信 laiping 20170901 摘要 本文介绍LabView采用以太网 TCP 方式与西门子S7 1200PLC通讯 关键字 LabView S7 1200 TCP PLC
  • python 调用 R,使用rpy2

    python 与 R 是当今数据分析的两大主流语言 作为一个统计系的学生 我最早接触的是R 后来才接触的python python是通用编程语言 科学计算 数据分析是其重要的组成部分 但并非全部 而R则更偏重于统计分析 毕竟R是统计学家发明
  • Qt 中设置窗体(QWidget)透明度的几种方法

    Qt 中设置窗体 QWidget 透明度的几种方法 1 设置窗体的背景色 在构造函数里添加代码 需要添加头文件qpalette或qgui QPalette pal palette pal setColor QPalette Backgrou
  • 【注意力模型】Harmonious Attention Network for Person Re-Identification

    文章目录 Abstract 1 Introduction 2 Related Work 3 Harmonious Attention Network 3 1 Harmonious Attention Learning 4 Experimen