DeepCAMP - Deep Convolutional Action & Attribute Mid-Level Patterns - 论文笔记

CVPR16论文,结合discriminative patch和整张图片信息进行人体动作和属性识别

引言

最近DNN大大增加了计算机识别物体的能力,但是分析人类动作和属性仍然表现不佳。这是因为分析人类动作和属性是一个细粒度的分类问题,一方面图像小块区域可能包含关于物体外形和交互的重要信息,另一方面周围区域的整体上下文中也含有重要线索。这篇论文就展示了一种通过识别图像区块(patch)以导出这种信息的CNN的新设计。

关注图像区块或图像部分的想法在计算机视觉领域并不是一个新想法,应用到人体动作和属性上也并不新鲜。相关论文有:
Expanded parts model for human attribute and action recognition in still images - CVPR13
Human action recognition by learning bases of action attributes and parts - ICCV11
其中第一篇论文展示了一个无需人体姿态估计和身体部分检测器(body part detectors)的人类行为分类的优良方法。

事实上,一种替代方法是捕获具有判别性(discriminative)的图像区块。这篇文章的主题就是挖掘这些能用于行为和属性分析的图像区块。

相关工作

方法

Training Pipeline

pipeline.jpg

Initial feature extraction and clustering:论文使用Mid-Level Deep Pattern Mining (MDPM)来提取patch和进行聚类。
Training patch clusters CNN:训练一个新的 CNN ,当给定图像 patch的时,可以预测 cluster 的 label。
Updating clusters:使用上一步训练的CNN全连接层输出做为新的特征,利用 MDPM算法再一次的更新 clusters 以得到一个更好的 clusters 的集合。
Harvesting patches:通过阈值化 LDA 分类器为每一个cluster产生的置信值来移除不适合任何 cluster的patches以清理 clusters。

上述过程总结如下:
algo.jpg

PS:这篇文章比较简略,待日后补完