金泉网做网站要找谁,赣州公司做网站,专做校园购物网站,专做老酒的网站这是阅读《Fine-grained Image Classification by Exploring Bipartite-Graph Labels》这篇论文所做的笔记。
这篇论文是来自NEC实验室#xff0c;是一篇有关细粒度分类/精细分类方面的论文。
0. 摘要
首先提出一个问题#xff0c;给定一张食物的图片#xff0c;对于一个…这是阅读《Fine-grained Image Classification by Exploring Bipartite-Graph Labels》这篇论文所做的笔记。
这篇论文是来自NEC实验室是一篇有关细粒度分类/精细分类方面的论文。
0. 摘要
首先提出一个问题给定一张食物的图片对于一个细粒度物体识别机器是否可以给出该食物是属于哪家饭店以及其食物名称。这是一个超细粒度图片识别问题也是许多根据图片进行搜索的关键问题但是由于训练数据缺乏这个问题变得非常有挑战性需要能识别出类间的非常微小的差异。不过论文给出一个观点the ultra-fine granularity naturally brings rich relationships among object classes也就是说这种超细粒度在类间是有着丰富的关联的。基于这个观点论文提出一种新的方法来利用这种关联方法称为bipartite-graph labels (BGL)双偶图标记。然后论文会展示如何在卷积神经网络上使用这个方法并且这种方法会由于其双边结构而提高计算效率然后还建立了一个来自6家饭店总共975个类别37885张图片的数据库会对这个数据库以及其他三个数据库使用这个方法并且实验结果都是有所提高的。
1. 介绍
首先是列举了十来篇论文是有关细粒度分类的论文包括狗鸟花卉植物车食物衣服字体等说明细粒度图像分类的任务是对一些基类在纵向上的分类或者说就是将这些基类比如狗要进行更细致的划分其难点就是这些子类的区别相比基类的分类要更加不明显更加细微但是细粒度物体分类是非常有用的。 在最近几年一般的图像分类是取得非常大的突破但是对于超细粒度图片的识别还是依旧很有挑战性。这里列举了下面这张图片的例子其问题也是摘要部分提出来的如何识别图中的三个食物分别是来自哪家饭店分别叫什么名字。
所以这里提出了对于超细粒度分类在两方面的挑战。
不同类别的物体在视觉上非常相似比如上图中第一幅图片与第三幅图片看起来很相似但是两者是属于不同饭店的。每个类别由于其超细粒度的原因不一定具有足够的训练图片
因此如何在保持明显的区分性前提下在相似的类间分享信息就变得更加矛盾了。
基于这个目的论文提出了BGL的方法。该方法是有以下几个优点
BGL方法可以利用额外的约束来归一化CNN的训练过程因此对于数量不大的训练集是可以大大降低过拟合的概率在已知类别是属于同一个比较粗略的类或者是分享一些相同属性的情况下可以允许我们从相关的其他类别借用一些知识。这个原话是Knowing classes that belong to the same coarse category or share some common attributes can allow us to borrow some knowledge from relevant classes还不是很了解这句话的意思通过全局的反向传播来进行监督性特征学习可以在相似的类别中捕抓到细微的差异从而学习到具有区分性的特征最后一点是将结构限制为双偶图(bipartite graphs)BGL方法在推理阶段就使用穷举法避免了指数爆炸增长的问题这个优点应该是针对计算效率问题吧
目前在细粒度分类方法主要研究方向是学习更有区分性的特征这个可以通过调整物理的姿势或者位置或者是通过物体分割方法过滤掉背景。而BGL方法可以结合上述方法之一来获得一个更好的效果。
2. 相关工作
这部分内容论文会介绍在细粒度图像分类和结构标签学习structural label learning两方面的研究现状。
2.1 细粒度图像分类
细粒度分类需要解决的问题就是在相似类别中辨别细微的差异。因此现在大部分方法都是集中在局部化以及描述在精细区域的有区分性的物体部件。 具体说来有这些方法。第一种是需要调整姿势的会结合一些二维或者三维图片其用于识别鸟类狗和车但是其主要缺点就是对这些部件的标注是非常有挑战性的第二种方法是通过无监督或者半监督方式来寻找物体的部件。这种方法就有比较多不同的具体实施方法有结合对齐和分割方法来产生所需的部件的也有使用两个独立的CNN特征提取器还有使用一个新的能嵌入已存在的卷积结构中然后在空间上转换feature maps的。 在第一部分中也说了还有一个方向其实就是通过分割和检测方法来过滤掉有噪声和杂乱的背景以此获得更好的特征。但是这种方法由于需要额外进行图像分割而分割是有很大计算量的所以这种方法最大缺点就是计算量大了。 最后也提及到最近还有其他取得更好效果的方法而这些方法都是有可能跟BGL方法相结合来获得一个更好效果的。
2.2 结构标签学习structural label learning
目前大多数任务都是单标签的分类问题但是对现实世界的图片使用像标签或者属性一样的多个标签来描述才是更自然的。现在有关结构标签学习的相关工作可以粗略地分为学习二进制相对的或者分层属性。
一部分工作是主要学习二进制属性也就是表示图片中是否存在某个属性。这些工作包括有人脸验证纹理识别衣服搜索等但是当对于物体属性是连续的或者是模糊不清的时候二进制属性就会受到限制。
为了解决二进制属性的缺陷在过去几年更多任务使用到了对比属性。学习相对属性的方法是对每种属性都学习一个全局的线性排序函数在语义上提高一个更加丰富的方法来描述和对比物体。但是看起来是很有前途的一个方向在遇到细粒度视觉比较的时候却是没有得到很好的效果。
论文的方法BGL是采用第三种策略也就是在细粒度标签和属性间的关系是通过分层方式在塑造的。(Our method falls into the third category where the relation between the fine-grained labels and attributes is modeled in a hierarchical manner.)跟其他相关的工作相比论文的不同点在时基于CNN的框架同时其主要集中在多标签的物体。这里是有几篇论文的工作是有点相似但是论文也分别给出比这几篇论文要更胜一筹的内容。
3. CNN with Bipartite-Graph Labels
第三部分会介绍论文提出的BGL方法基于一个普通的多类卷积神经网络框架其网络结构相比于现在流行的几个结构如AlexNet,GoogLeNet和VGGNet只是修改了softmax层和最后一个全连接层以便于使用BGL方法同时通过一个全局的反向传播来优化。
这部分主要就是说明如何修改softmax层和最后一个全连接层,因为涉及到原理所以也是有不少数学公式主要就是增加了一个粗略分类coarse label的标签然后设计公式表示这种粗略分类标签和初始图片的标签(fine-grained label)之间的关联。然后就是如何通过反向传播来进行优化效果。
4. 小结
论文在第四部分就是介绍实验部分其实验用了4个数据库除了在摘要部分介绍的食物数据库还用了两个有关车的数据库和一个鸟类的数据库均都是比标准结果也就是使用正常的卷积神经网络结构如AlexNet等的效果要有所提高。
大概简单看完这篇论文对于实现原理还需要好好看看但是看完感觉就是这篇论文的思路应该是虽然要做细粒度分类但它是从使用这些分类的基类来考虑的因为一开始给的类别标签算是分得更加细了比如一开始摘要部分的图中几种都是属于豆腐的不同做法论文就考虑再给出一个更粗略分类比如豆腐这样对于相似的类可以共享一些信息毕竟这种精细分类问题在相似的类别中是有很大部分信息是相同的可能是极小部分区域的差别才导致两者属于不同类别所以这篇论文就应该是从这个角度去思考同时这种做法也可以降低对数据量的需求。跟当前主流做法相比是另辟蹊径了。