动作/行为识别调研

2023-11-13

1. 简介

动作识别(Action Recognition),就是从视频片段(可视为2D帧序列)中分辨人的动作类型,常用数据库包括UCF101,HMDB51等。相当于对视频进行分类。常用的方法有Two Stream,SlowFast,TSN,C3D,I3D等等

时序动作定位(Temporal Action Localization),不仅要知道一个动作在视频中是否发生,还需要知道动作发生在视频的哪段时间(包括开始和结束时间)。特点是需要处理较长的,未分割的视频。且视频通常有较多干扰,目标动作一般只占视频的一小部分。常用数据库包括HUMOS2014/2015, ActivityNet等。相当于对视频进行指定行为的检测。

时空动作检测(Spatial-temporal Action Detection),类似目标检测,不仅需要定位视频中可能存在行为动作的视频段,还需要将其分类,即:localization+recognition。而定位存在行为动作的视频段是一个更加艰巨的任务。常用的方法有SlowFast,SlowOnly等等。

  • 从操作角度,可以看作将视频转换为多个RGB帧,再对多帧组合进行特征提取,最后融合并分类。
  • 从实现方法,可以分为传统方法和深度学习方法,目前传统方法最好的是iDT,深度学习有双流框架,3D卷积框架等等方法。
  • 从检测角度,一般分为基于骨骼点检测和基于RBG视频检测,也有数据来源深度传感器。

在这里插入图片描述
K i n e t i c s − 400 数 据 集 上 的 动 作 识 别 Kinetics-400数据集上的动作识别 Kinetics400
在这里插入图片描述
A V A 数 据 集 上 的 时 空 动 作 检 测 AVA数据集上的时空动作检测 AVA
在这里插入图片描述
N T U − R G B + D − 120 数 据 集 上 的 基 于 骨 骼 点 检 测 的 动 作 识 别 NTU-RGB+D-120数据集上的基于骨骼点检测的动作识别 NTURGB+D120

1.1 基本概念

  • 图像识别的四类任务:

    • 分类-Classification:解决“是什么?”的问题,即给定一张图片或一段视频判断里面包含什么类别的目标。
    • 定位-Location:解决“在哪里?”的问题,即定位出这个目标的的位置。
    • 检测-Detection:解决“在哪里?是什么?”的问题,即定位出这个目标的位置并且知道目标物是什么。
    • 分割-Segmentation:分为实例的分割(Instance-level)和场景分割(Scene-level),解决“每一个像素属于哪个目标物或场景”的问题。
  • 动作识别vs姿态估计:姿态估计是在RGB图像或视频中描绘出人体的形状,包括关键点的检测,如下图所示。使用姿态估计的骨骼点数据也可作为动作识别的输入。
    在这里插入图片描述

  • 动作识别vs目标检测(Object Detection):目标检测是识别图片或者视频中有哪些物体以及物体的位置,也就是进行目标定位加上分类。如果用目标检测算法进行行为识别的弊端是缺乏前后语义相关性,假如摔倒的判断是由一个从"站立-滑倒-倒下"的过程,我们才能判断为摔倒,不能凭借目标检测算法检测到人是倒下的就判断为摔倒。
    在这里插入图片描述

  • 光流(optical flow)

    • 当人的眼睛观察运动物体时,物体的景象在人眼的视网膜上形成一系列连续变化的图像,这一系列连续变化的信息不断“流过”视网膜(即图像平面),好像一种光的“流”,故称之为光流

    • 光流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。

    • 光流的物理意义

      • 光流是空间运动物体在观察成像平面上的像素运动的瞬时速度。

      • 光流通常被表述为估计世界真实三维运动的二维投影的问题,可以被看作是连续帧之间的位移矢量场,用

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

动作/行为识别调研 的相关文章

  • 究竟深度学习在干什么?

    来源 人机与认知实验室 概要 深度学习取得了巨大的成功 这是无容置疑的 对此 我们不必再多说什么 但是 其理论基础仍然有很大的空白 深度学习取得了巨大的成功 这是无容置疑的 对此 我们不必再多说什么 但是 其理论基础仍然有很大的空白 例如
  • 10 种常用的字符串方法

    10 种常用的字符串方法 1 concat 字符串拼接 const str1 12345678 const str2 abcdefgh const str3 console log str1 concat str2 str3 1234567
  • Linux下TCP通信在两个虚拟机上连接失败,使用回环地址正常

    Linux下TCP通信在两个虚拟机上连接失败 情况描述 在一台虚拟机上使用回环地址 127 0 0 1 时一切正常 当部署到两台虚拟机 局域网下同网段 上时出现连接失败的情况 解决办法 首先使用命令nc z v

随机推荐

  • TCP客户端与服务端建立以及测试——缇友的python学习笔记

    一 客户端创建以及测试 书写代码 import socket if name main tcp test socket socket socket socket AF INET socket SOCK STREAM 创建tcp套接字 AF
  • 肠道细菌四大“门派”——拟杆菌门,厚壁菌门,变形菌门,放线菌门

    一般在肠道菌群健康检测报告中 会有主要菌属构成比例 类似下图 图源 谷禾肠道菌群健康检测报告我们可以看到图中列举了拟杆菌门 厚壁菌门 等 很多小伙伴拿到报告之后 对于这些细菌门表示困惑 这些细菌门都代表了什么意思 某个细菌门比例高了会怎么样
  • 微信小程序调用腾讯地图,获取当前位置得到数据有偏差以及不同软件,不同坐标之间的转换Gcoord

    前言 在微信小程序中调用腾讯本家地图后 发现有偏差 而且距离还不小 在找了很多资料后 发现网上的资料很多都是挂羊头卖狗肉 都是坐标轴之间的互转 比如腾讯的坐标和百度坐标之间的转换 还起的名字是解决小程序的偏移问题 被误导了很久 也找了很多资
  • JAVA入门到精通:Path环境变量

    一 环境变量的定义 环境变量一般是指在操作系统中用来指定操作系统运行环境的一些参数比如临时文件夹位置和系统文件夹位置等 这点有点类似于DOS时期的默认路径当你运行某些程序时除了在当前文件夹中寻找外还会到设置的默认路径中去查找 简单地说这里的
  • wx.login 和 wx.getUserProfile 同时使用问题

    在开发微信小程序时 会先调用wx login 获取 code 以后 调用 wx getUserProfile 获取rawData signature encryptedData iv等信息 到后台进行处理 但是随着4月28日24时后发布的新
  • SprinBoot项目启动报错Exception in thread "main" java.lang.reflect.InvocationTargetException

    错误代码 lottery api start SLF4J Class path contains multiple SLF4J bindings SLF4J Found binding in jar file data javaprogra
  • Linux多线程并发运行原理+代码例程详解

    文章目录 线程创建和退出 原理 代码 结果 线程属性修改 原理 代码 结果 互斥锁 原理 代码 结果 信号量线程控制原理 使用信号量线程互斥 代码 结果 使用信号量线程同步 代码 结果 小结分析 生产者消费者 实验 问题分析 代码 结果分析
  • 不可重复读和可重复读的理解

    image png 1 不可重复读 同一个事务中 id 10行 字段c1 第一次查询 c1 0 id 10行 字段c1 第二次查询 c1 1 因为在第二次查询 另外一个事务修改了c1 1 且事务提交 2 可重复读 同一个事务中 id 10行
  • iOS编程基础-OC(九)-专家级技巧:使用运行时系统API(续)

    该系列文章系个人读书笔记及总结性内容 任何组织和个人不得转载进行商业活动 第九章 专家级技巧 使用运行时系统API 9 2 使用运行时系统API 接下来仍然是编写一段程序 该程序会使用运行时系统API以动态的方式创建一个类和一个类实例 然后
  • ES7基础篇-04-索引映射操作(_mappering)

    文章目录 1 简介 2 索引库和索引映射一起创建 3 索引库和索引映射分开创建 4 字段映射解释 5 查看映射关系 6 映射属性详解 1 简介 有了索引库 等于有了数据库中的database 接下来就需要索引库中的类型了 也就是数据库中的表
  • 同步复位、异步复位、亚稳态、建立时间、保持时间、恢复时间、清除时间

    同步 异步复位的概念是重要的基础内容 需对其有较清晰的认识 才能在复位电路的设计时得心应手 本文基于前辈分享 结合自己的理解 浅谈亚稳态 复位电路等相关内容 首先需要明确的是 同步 异步名词背后的两个对象是谁 谁和谁同 谁和谁异 复位的目标
  • java自动化测试之开发工具eclipse安装配置

    java自动化测试之开发工具eclipse安装配置 一 eclipse下载 下载地址 http www eclipse org downloads http www eclipse org downloads 打开连接后 显示如下 选择Ec
  • 单片机期末复习

    一 填空题 1 最小系统能够运行起来的必要条件 单片机的最小系统包含 电源电路 晶振电路 复位电路 单片机最小系统供电正常 提拱能量 单片机芯片工作正常 单片机最小系统各元器件连接电路无误 单片机片外晶振 谐振电容正常 单片机复位电路正常
  • 4.3 AI识虫比赛

    文章目录 一 查看环境并准备数据 二 启动训练 三 启动评估 计算精度指标 四 预测单张图片并可视化预测结果 五 提升方案 一 查看环境并准备数据 查看当前挂载的数据集目录 该目录下的变更重启环境后会自动还原 ls home aistudi
  • import cv2

    windows下 环境 Python 3 8 5 可以通过一下指令查看 python version 遇到的坑 1 在程序中 import cv2 无报错 但运行程序没有效果 直接程序退出 直到注释掉该句导入 程序才正常测试 直接在命令行中
  • Java版的数据结构——栈和队列

    目录 1 栈 Stack 1 1 概念 1 2 栈的使用 1 3 栈的模拟实现 1 4 栈的应用场景 1 4 1 改变元素的序列 1 4 2 将递归转化为循环 2 队列 Queue 2 1 概念 2 2 队列的使用 2 3 队列模拟实现 2
  • 4G 网络跟 5G 的区别

    1 5G网络的速度据说保守可以达到4G的10 20倍 下载一些大型文件 例如电影 大型电脑游戏 将会是分分钟的事 2 5G网络将会率先使用云RAN和虚拟RAN这样的新架构 以促进一个更加中心化网络的建立 并通过身处网络边缘的本地化数据中心来
  • 微信小程序 getUserProfile直接进入fail函数,getUserProfile调用失败:fail desc length does not meet the requirements

    问题描述 我刚开始的getUserProfile的desc是这么写的 wx getUserProfile desc 获取你的昵称 头像 地区及性别用于信息注册 success res gt console log res console l
  • c语言中函数的声明和定义

    点击上方蓝字关注我 了解更多咨询 1 函数声明 无需实现该函数的功能 函数声明只是一个空壳 不会有特定的函数实现 2 函数定义 必须实现该函数的功能 要实现函数的实现 include
  • 动作/行为识别调研

    动作识别调研 1 简介 1 1 基本概念 1 2 难点 2 人体动作识别系统 2 1 传统方法 2 1 1 iDT框架 2 2 深度学习方法 2 2 1 Two Stream双流架构 2 2 2 3D卷积架构 2 2 3 CNN LSTM架