简介

fine-grained分类由于类别之间只有通过细微局部的差异才能够被区分出来,因此很有挑战性。位置,大小或者旋转都会使问题变得更加困难。很多这类问题的解决思路是where(object)和what(feature)式的。

基于强监督信息的细粒度图像分类模型

所谓“强监督细粒度图像分类模型”是指:在模型训练时,为了获得更好的分类精度,除了图像的类别标签外,还使用了物体标注框(Object Bounding Box)和部位标注点(Part Annotation)等额外的人工标注信息,如下图所示。

基于弱监督信息的细粒度图像分类模型

现有的基于深度学习的弱监督方法,主要思路是定位出判别性部位,取得判别性特征做辅助来分类。这属于mid-level学习。加强mid-level学习能力是当前工作的重点。其实这很符合人类辨别细粒度物体的流程。先看全局信息知道大类,然后根据经验把注意力放在一些关键部位来做出判断,这些部位就是网络要找的discriminative parts.

Two Level Attention Model

The Application of Two-level Attention Models in Deep Convolutional Neural Network for Fine-grained Image Classification

主要思路:

主要就是利用region proposal,寻找对于最后分类结果有积极影响的proposal,去掉那些无用的噪声。论文提到了两个filter proposal的方法。第一个 利用image-level训练好的model,和设定的阈值,直接对selective search产生的proposal,进行第一次去燥,主要目的得到高查全率,准确率可以不高。第二次filter,就是利用第一次filter之后的数据重新训练网络,提取网络第四层卷积的特征,对其聚类,根据这个从第一次filter之后的proposal里面选择3个对于分类最有影响力的part-level proposal,最后利用SVM分类。

这篇文章将视觉attention应用到fine-grained分类问题中使用DNN。我们整合了3中attention模型:bottom-up(提供候选者patch),object-level top-down(certain object相关patch),和part-level top-down (定位具有分辨能力的parts)。我们把这几个attentions结合起来训练domain-specific深度网络。不适用bounding box标注。利用了弱监督学习的知识来实现。