Structure Inference Machines - Recurrent Neural Networks for Analyzing Relations in Group Activity Recognition - 论文笔记

作者使用RNN构造了一个Structure Inference Machine,将分类器输出的图片中每个人和整张图片的概率分布(即sofmax层输出)做RNN输入,推理出整张图片的Group Activity。

引言

图像实体之间的关系是更高层次的视觉理解的一个重要方面。构造如人之间的距离、相对运动、行为的关系可用于驱动更高层次活动的识别。成组活动(Group Activity)的分析包括对单个人的场景推理和考虑他们的关系。
作者就针对此提出了一种推理模型,搭建了从网络低层分类输出到高层信息组合的桥梁。其简易示意图如下所示:
fig1.jpg

先前工作

Deep Learning with Structures
最近,有几个有趣的办法来解决图形模型和深度神经网络相结合的问题,主要是在根据上下文的图像语义分割领域。
另一研究方向是,建立一个可以随同深度神经网络一起训练的表达类之间关系的图模型以。
Group Activity Recognition
成组活动识别通常建模为一个考虑同一场景中个人行动以及与他人的交互的结构化预测问题(structured prediction problem),许多先前工作使用各种图形模型的形式来解决这个问题。

Structure Inference Machine

组活动识别需要推理结构。解释一个图像同一场景的人的行为包括确定每一个人在做什么和推理他们之间的(动作)关系。由于图像特征中的歧义和人之间的关系确定的不确定性,这些都是具有挑战性的任务。而推断同一场景中人之间关系结构的能力有助于抑制不准确的人体检测、错误的低级动作识别结果以及不参与某一个群体活动的无关人士所带来的噪声。

本文我们解决的问题是如何建模这种结构关系。我们使用如下两个模块将问题变为神经网络的形式:

  1. Recurrent neural networks for message passing (整合图像中所有人的动作分类输出多次迭代输出优化后分类结果)
  2. Gating functions to learn structures (控制人之间联系的开与关)

整体结构如下所示:
pipeline.jpg

方法详述

algorithm.jpg

实验

作者在3个Dataset上进行了实验:

  1. Collective Activity Dataset (44 videos from 5 group activities (Crossing, Waiting, Queueing, Walking and Talking) and 6 individual actions (NA, Crossing, Waiting, Queueing, Walking and Talking). )
  2. Collective Activity Extended Dataset (omits the walking activity, due to ambiguities in its definition, and includes Jogging and Dancing categories.)
  3. Nursing Home Dataset (80 videos showing 6 actions (walking, standing, bending, squating, sitting, falling) and two scenes (fall, non-fall).)

为了产生RNN所需的概率分布作者微调了AlexNet用于分类。

result.png