当前位置：首页 > news >正文

有没有帮忙做推广的网站网上推广产品怎么做

news 2025/11/19 13:02:09

有没有帮忙做推广的网站,网上推广产品怎么做,企业app定制,在线设计平台类似pixao论文标题《Deep learning for fine-grained image analysis: A survey》作者魏秀参#xff0c;旷世研究院初读摘要细粒度图像分析#xff08;FGIA#xff09;的任务是分析从属类别的视觉对象。细粒度性质引起的类间小变化和类内大变化使其成为一个具有挑战性的…论文标题《Deep learning for fine-grained image analysis: A survey》作者魏秀参旷世研究院初读摘要细粒度图像分析FGIA的任务是分析从属类别的视觉对象。细粒度性质引起的类间小变化和类内大变化使其成为一个具有挑战性的问题。本文旨在系统地调查基于深度学习的 FGIA 技术的最新进展。本文将现有的 FGIA 技术研究分为三大类细粒度图像识别细粒度图像检索细粒度图像生成本文还涵盖了 FGIA 的其他一些重要问题例如公开的基准数据集及其相关的特定领域应用。最后在总结这项调查时强调了几个方向和有待社会进一步探索的问题。结论这篇文章主要是未来展望后面写。再读 Section 1 Introduction 第一段介绍 CV 第二段介绍细粒度图像分析FGIA FGIA 的目标是检索、识别和生成属于超类别也称为元类别的多个次级类别的图像例如不同种类的动物/植物、不同型号的汽车、不同种类的零售产品等。关于 FGIA 的一些有影响力的学术竞赛经常在 Kaggle 上举行。几项具有代表性的竞赛例如自然保护协会渔业监测用于鱼类物种分类、座头鲸识别用于鲸鱼身份分类等。每项竞赛都吸引了全球 300 多个团队参加有些甚至超过了 2000 支队伍。第三段深度学习FGIA 很火根据每年的粗略统计平均每年约有十篇基于深度学习的 FGIA 技术的会议论文发表在人工智能和简历的高级会议上如 IJCAI、AAAI、CVPR、ICCV、ECCV 等。第四段本文工作亮点在文献中已有一项与细粒度任务相关的调查 [Zhao et al., 2017]上一篇读的那个其中仅包括几种用于比较的细粒度识别方法。本文工作更全面。本文还分析和讨论了另外两个核心且不可忽视的细粒度分析任务即细粒度图像检索和细粒度图像生成。此外在环太平洋国家举行的另一次重要的人工智能会议上PRICAI、Wei 和 Wu 组织了一场针对细粒度图像分析主题的专题辅导会。我们推荐感兴趣的读者参考教程该教程提供了一些额外的详细信息。第五段三大贡献对基于深度学习的 FGIA 技术进行了全面的综述包括问题背景、基准数据集、具有深度学习的一系列 FGIA 方法、特定领域的 FGIA 应用等。以分层和结构化的方式对基于深度学习的 FGIA 技术的最新进展进行了系统概述参见下图。讨论了挑战和悬而未决的问题并确定了新的趋势和未来方向为细粒度的研究人员或广泛的人工智能社区中的其他感兴趣的读者提供了一个潜在的路线图。第六段其他部分第二节介绍了本文的背景即 FGIA 问题及其主要挑战。第三节回顾了多个常用的细粒度基准数据集。第四节分析了细粒度图像识别的三种主要范式。第五节介绍了细粒度图像检索的最新进展。第六节从生成的角度讨论细粒度图像生成。第七节中介绍了现实世界中与 FGIA 相关的其他一些特定领域的应用。第八节总结了本文并在中讨论了未来的方向和悬而未决的问题。 Section 2 Background: problem and main challenges 背景问题和主要挑战细粒度识别FGIA是干啥的 FGIA 专注于处理属于同一元类别的多个子类别的对象如鸟、狗和汽车通常涉及细粒度图像识别、细粒度图像检索、细粒度图片生成等核心任务。 FGIA 与一般图像分析的区别在一般图像分析中目标对象属于粗粒度的元类别例如鸟类、橙子和狗因此在视觉上截然不同。然而在 FGIA 中由于对象来自一个元类别的子类别细粒度的特性使它们在视觉上非常相似。以图像识别为例。在细粒度识别中需要识别多个类似物种的狗例如哈士奇、萨摩耶和阿拉斯加。为了准确识别需要通过捕捉细微的差异如耳朵、鼻子、尾巴来区分它们这也满足了其他 FGIA 任务如检索和生成的需求。 FIGA 的挑战细粒度性质还带来了由高度相似的子类别引起的小的类间变化以及姿态、尺度和旋转方面的大的类内变化它与一般图像分析即小的类内变化和大的类间变化相反这使得细粒度图像分析成为一个具有挑战性的问题。下图分别展示了图中每行四种燕鸥中的每一种。 Section 3 Benchmark datasets 基准数据集数据集介绍在过去的十年里视觉社区发布了许多基准细粒度数据集涵盖了不同的领域如鸟类、狗、汽车、飞机、花卉、蔬菜、水果零售产品等等。下表列出了细粒度社区常用的一些图像数据集并具体指出了它们的元类别、细粒度图像的数量、细粒度类别的数量、额外不同类型的可用监督即边界框、零件注释、层次标签、属性标签和文本视觉描述下图为示例。示例图像及其与 CUB200-2011 相关的监督。如图所示多种类型的监督包括图像标签、零件注释也称为关键点定位、对象边界框即绿色边界框、属性标签即“ATR”和自然语言的文本描述。这些数据集功不可没这些数据集是该领域取得长足进展的最重要因素之一不仅是衡量和比较竞争方法性能的共同基础而且将该领域推向越来越复杂、实用和具有挑战性的问题。 CUB200-2011 记首功具体来说其中 CUB200-2011 是最受欢迎的细粒度数据集之一。几乎所有的 FGIA 方法都选择它来与现有技术进行比较。此外CUB200-2011 不断为进一步的研究做出贡献例如收集细粒度图像的文本描述用于多模态分析。这两年的新数据集及其引入的新特征此外近年来越来越多地提出了更具挑战性和实用性的细粒度数据集例如用于植物和动物自然物种的 iNat2017 和用于日常零售产品的 RPC。从这些数据集衍生出的许多新特征仅举几个例子就是大规模、层次结构、域间隙和长尾分布这揭示了现实世界中的实际需求并可能引发在更现实的环境中对 FGIA 的研究。 Section 4 Fine-grained image recognition 细粒度图像识别地位在过去的十年里细粒度图像识别一直是 FGIA 最活跃的研究领域。从广义上讲这些细粒度识别方法可以分为三个主要范式具有本地化分类子网络具有端到端特征编码具有外部信息。第一和第二范式通过仅利用与细粒度图像相关联的监督来限制自身所述细粒度图像诸如图像标签、边界框、零件注释等。多模态趋势由于细粒度的挑战自动识别系统还不能获得优异的性能。因此研究人员逐渐尝试将外部但廉价的信息如网络数据、文本描述纳入细粒度识别以进一步提高准确性这与细粒度识别的第三范式相对应。评估指标细粒度识别中常用的评估指标是数据集所有次级类别的平均分类精度。 4.1 By localization-classification subnetworks 按本地化分类的子网络第一个范式——具有本地化分类子网络的细粒度识别思想为了缓解类内变异的挑战细粒度社区的研究人员关注捕捉细粒度对象的判别语义部分然后构建与这些部分相对应的中级表示用于最终分类。架构定位子网络定位这些关键部分分类子网络紧随其后用于识别这两个协作子网络的框架形成了第一个范式。定位信息的作用定位信息例如零件级边界框或分割掩码可以获得与这些细粒度零件相比更具鉴别力的中级零件级表示。进一步增强了分类子网络的学习能力可以显著提高最终识别的准确性。注释依赖属于该范式的早期工作依赖于额外的密集部分注释也称为关键点定位来定位对象的语义关键部分例如头部、躯干。他们中的一些人训练基于零件的检测器另一些人利用分割方法定位零件。这些方法将多个部分级特征连接为一个完整的图像表示并将其输入到下面的分类子网络中进行最终识别。因此这些方法也被称为基于零件的识别方法。克服注释依赖的新趋势获得如此密集的零件注释是费力的这限制了现实世界细粒度应用程序的可扩展性和实用性。最近出现了一种趋势即在这种范式下更多的技术只需要图像标签来实现准确的零件定位。它们的共同动机是首先找到相应的部分然后比较它们的外观。具体来说我们希望捕捉语义部分例如头部和躯干以便在细粒度的类别中共享同时我们也渴望发现这些部分表示之间的细微差异。先进的技术如注意力机制和多阶段策略使集成定位分类子网络的联合训练复杂化。 4.2 By end-to-end feature encoding 通过端到端特征编码第二范式思想与第一种范式不同第二种范式即端到端特征编码倾向于通过开发用于细粒度识别的强大深度模型来直接学习更具鉴别力的特征表示。其中最具代表性的方法——双线性 CNN 它将图像表示为源自两个深层 CNN 的特征的合并外积并因此对卷积激活的高阶统计量进行编码以增强中级学习能力。由于其高模型容量双线性 CNN 实现了显著的细粒度识别性能。问题与解决但同时双线性特征的极高维数仍然使其在现实应用中不切实际尤其是在大规模应用中。针对这个问题的最近的尝试试图通过应用张量绘制来聚合低维嵌入这可以近似双线性特征并保持可比或更高的识别精度。其他工作专注于设计针对细粒度定制的特定损失函数并能够驱动整个深度模型来学习有区别的细粒度表示。 4.3 With external information 有外部信息第三范式思想第三范式是利用外部信息例如网络数据、多模态数据或人机交互来进一步帮助细粒度识别。使用 web 数据利用自由但有噪声的网络数据来提高识别性能。这条线路上的大多数现有工程大致可以分为两个方向。一是网络监督学习抓取测试类别的有噪声标记的网络数据作为训练数据。此方法的主要努力集中在克服容易获取的 web 图像和来自标准数据集的标记良好的数据之间的数据集差距减少由噪声数据引起的负面影响。为了解决上述问题经常使用对抗性学习的深度学习技术和注意力机制。另一是将知识从具有良好标记的训练数据的辅助类别转移到测试类别这通常采用零样本学习或元学习来实现这一目标。使用多模态数据思想在细粒度识别中用多模态数据来建立联合表示/嵌入以合并多模态信息能够提高细粒度识别的准确性。常用的两种多模态数据经常使用的多模态数据包括文本描述例如自然语言的句子和短语和图形结构知识图谱。文本描述与细粒度图像的强监督例如零件注释相比文本描述是弱监督。普通人可以相对准确地返回文本描述而不是特定领域的专家。图形结构知识图谱高级知识图是现有的资源包含丰富的专业知识如 DBpedia。在实践中文本描述和知识库都是有效的可以作为更好的细粒度图像表示学习的额外指导。具体应用 [Reed et al.2016] 收集文本描述并通过结合文本和图像为零样本细粒度图像识别引入结构化联合嵌入。后来[He和Peng2017a] 以端到端的联合训练方式结合了视觉和语言流以保留模态内和模态间信息用于生成互补的细粒度表示。对于具有知识库的细粒度识别例如 [Chen et al.2018Xu et al.2018a]引入了知识库信息总是与属性标签相关联以隐含地丰富嵌入空间也推理细粒度对象的判别属性。人在循环循环中有人的细粒度识别通常是一个由机器和人类用户组成的迭代系统它结合了人类和机器的努力和智能。此外它要求该系统尽可能以人类劳动经济的方式工作。通常对于这类识别方法每一轮的系统都在寻求了解人类是如何进行识别的例如通过要求未经训练的人类标记图像类别并选取硬例子或者通过识别关键部分定位并选择判别特征进行细粒度识别。 Section 5 Fine-grained image retrieval 细粒度图像检索评估指标共同平均精度mAP 细粒度图像检索是什么给定相同子类别例如鸟类或汽车的数据库图像和查询它应该返回与查询相同种类的图像而不需要求助于任何其他监督信号。与基于内容相似性如纹理、颜色和形状检索近似重复图像的通用图像检索相比细粒度检索侧重于检索相同类型的图像如动物的相同从属物种和汽车的相同模型。同时细粒度图像中的对象只有细微的差异并且在姿势、比例和旋转方面各不相同。示例下图给定“Dodge Charger Sedan 2012”的查询图像又名探测器通过细粒度检索从汽车数据库又名星系返回同一车型的图像。在这张图中红色矩形标记的前4名返回图像显示了错误的结果因为其型号是“Dodge Caliber Wagon 2012”。相关工作 [Wei et al.2017] 首次尝试使用深度学习进行细粒度图像检索。它使用预先训练的 CNN 模型通过在细粒度图像中无监督地定位主要对象来选择有意义的深度描述符并进一步表明只选择去除背景或噪声的有用深度描述符可以显著有利于检索任务。最近为了突破预训练模型进行无监督细粒度检索的局限性一些试验倾向于在监督度量学习范式下发现新的损失函数。同时他们仍然为细粒度对象设计了额外的特定子模块例如在 [Zheng et al.2018] 中提出的弱监督定位模块该模块是在 [Wei等人2017] 的启发下提出的。 Section 6 Fine-grained image generation 细粒度图像生成什么是图像生成细粒度生成将合成细粒度类别中的图像例如特定人物的面部或从属类别中的对象。相关工作这方面的第一项工作是 [Bao et al.2017] 中提出的 CVAE-GAN它将变分自动编码器与条件生成过程下的生成对抗性网络相结合以解决这个问题。具体地CVAE-GAN 将图像建模为概率模型中的标签和潜在属性的组合。然后通过改变输入生成模型的细粒度类别它可以生成特定类别的图像。最近从文本描述生成图像由于其多样性和实际应用如艺术生成和计算机辅助设计表现得很流行。通过执行具有注意力的生成网络该模型可以通过关注文本描述的相关单词来合成细微区域的细粒度细节。 Section 7 Domain specific applications related to fine-grained image analysis 与细粒度图像分析相关的特定领域应用程序基于深度学习的细粒度图像分析技术在现实世界中各种特定领域的应用推荐系统中的衣服/鞋子检索、电子商务平台中的时尚图像识别、智能零售中的产品识别等。在极端情况下人脸识别可以被视为细粒度识别的一个实例其中粒度低于身份粒度级别。人/车再识别是另一项细粒度相关任务旨在确定两张图像是否取自同一特定人/车。显然重新识别任务也处于身份粒度之下。在实践中这些工作通过遵循 FGIA 的动机来解决相应的领域特定任务包括捕捉物体人脸、人和车辆的辨别部分发现从粗到细的结构信息。 Section 8 Concluding remarks and future directions 结束语和今后的方向自动细粒度模型 **自动机器学习AutoML和神经架构搜索NAS**正吸引着人工智能界尤其是在计算机视觉领域的热烈关注 AutoML 的目标是将机器学习应用于现实世界任务的端到端过程自动化。NAS即自动化神经网络架构设计的过程因此是 AutoML 中合乎逻辑的下一步。 AutoML 和 NAS 的最新方法在各种计算机视觉应用中可以与手工设计的架构相媲美甚至优于手工设计的体系结构。因此利用 AutoML 或 NAS 技术开发的自动细粒度模型也有望找到更好、更具针对性的深度模型同时反过来推动 AutoML 和 NAS 的研究。细粒度的少镜头学习人类能够在很少的监督下学习一个新的细粒度概念例如一种鸟类的示例图像很少但我们最好的深度学习细粒度系统需要数百或数千个标记的示例。更糟糕的是对细粒度图像的监督既耗时又昂贵因为领域专家应该始终准确地标记细粒度对象。因此需要开发细粒度的少镜头学习fine-grained few-shotFGFS。FGFS 的任务要求学习系统以元学习的方式从几个例子只有一个或少于五个中为新的细粒度类别构建分类器。稳健的 FGFS 方法可以极大地增强细粒度识别的可用性和可扩展性。细粒度哈希在参考数据库非常大的情况下找到精确的最近邻居的成本高得令人望而却步。哈希作为最流行、最有效的近似近邻搜索技术之一具有处理大规模细粒度数据的潜力。因此细粒度哈希是一个值得进一步探索的方向。在更真实的设置中进行细粒度分析在过去的十年中细粒度图像分析相关技术得到了发展并在其传统设置中取得了良好的性能例如经验协议。然而这些设置无法满足当今各种现实世界应用的日常要求例如通过使用在受控环境中收集的图像训练的模型来识别货架中的零售产品以及识别/检测野生自然物种。因此新的细粒度图像分析主题仅举几个例子——具有域自适应的细粒度分析、具有知识转移的细粒度解析、具有长尾分布的细粒度剖析以及在资源受限的嵌入式设备上运行的细粒度分析为更先进、更实用的 FGIA 提供了大量研究工作。

查看全文

http://www.zqtcl.cn/news/127439/