中国建设银行甘肃省分行 官方网站,自己做响应式网站难吗,青岛市城乡建设局网站,wordpress 链接添加点击蓝字 关注我们 关注并星标 从此不迷路 计算机视觉研究院 公众号ID#xff5c;计算机视觉研究院 学习群#xff5c;扫码在主页获取加入方式 计算机视觉研究院专栏 Column of Computer Vision Institute 今天分享的研究者提出了一种新的基于CNN的大规模基础模型#xff0c… 点击蓝字 关注我们 关注并星标 从此不迷路 计算机视觉研究院 公众号ID计算机视觉研究院 学习群扫码在主页获取加入方式 计算机视觉研究院专栏 Column of Computer Vision Institute 今天分享的研究者提出了一种新的基于CNN的大规模基础模型称为InternImage它可以从增加参数和训练数据如ViTs中获得增益。 01 简介 与最近关注large dense kernels的CNN不同InternImage以可变形卷积为核心算子使我们的模型不仅具有检测和分割等下游任务所需的大有效感受野而且具有受输入和任务信息约束的自适应空间聚合。因此所提出的InternImage减少了传统CNNs严格归纳偏差并使其能够从像ViT这样的海量数据中学习具有大规模参数的更强、更稳健的模式。我们的模型的有效性在ImageNet、COCO和ADE20K等具有挑战性的基准测试中得到了验证。值得一提的是InternImage-H在COCO测试开发上获得了创纪录的65.4mAP在ADE20K上获得了62.9mIoU优于目前领先的CNNs和ViTs。 02 背景 为了弥合CNNs和ViTs之间的差距首先从两个方面总结了它们的差异1从操作员层面来看ViTs的多头自注意MHSA具有长程依赖性和自适应空间聚合见图(a)段。得益于灵活的MHSAViT可以从海量数据中学习到比CNN更强大、更健壮的表示。2 从架构的角度来看除了MHSA之外ViTs还包含一系列未包含在标准CNN中的高级组件如层归一化LN、前馈网络FFN、GELU等。 尽管最近的工作已经做出了有意义的尝试通过使用具有非常大内核例如31×31的密集卷积将长程依赖引入到CNN中如图(c)所示在性能和模型规模方面与最先进的大型ViT仍有相当大的差距。 03 新框架介绍 通过大规模参数即10亿和训练数据即4.27亿InternImage-H的top-1准确率进一步提高到89.6%接近well-engineering ViTs和混合ViTs。此外在具有挑战性的下游基准COCO上最佳模型InternImage-H以21.8亿个参数实现了最先进的65.4%的boxmAP比SwinV2-G高2.3个点65.4对63.1参数减少了27%如下图所示。 为了设计一个基于CNN的大型基础模型我们从一个灵活的卷积变体开始即DCNv2并在此基础上进行一些调整以更好地适应大型基础模型的要求。然后通过将卷积算子与现代主干中使用的高级块设计相结合来构建基本块。最后探索了基于DCN的块的堆叠和缩放原理以构建一个可以从海量数据中学习强表示的大规模卷积模型。 使用DCNv3作为核心带来了一个新的问题如何构建一个能够有效利用核算子的模型首先介绍了基本块和模型的其他集成层的细节然后我们通过探索这些基本块的定制堆叠策略构建了一个新的基于CNN的基础模型称为InternImage。最后研究了所提出的模型的放大规则以从增加参数中获得增益。 Basic block 与传CNNs中广泛使用的瓶颈不同我们的基块的设计更接近ViTs它配备了更先进的组件包括LN、前馈网络FFN和GELU。这种设计被证明在各种视觉任务中是有效的。我们的基本块的细节如上图所示。其中核心算子是DCNv3并且通过将输入特征x通过可分离卷积3×3深度卷积然后是线性投影来预测采样偏移和调制尺度。对于其他组件默认使用后规范化设置并遵循与普通变压器相同的设计。 Hyper-parameters for models of different scales Scaling rules 在上述约束条件下的最优原点模型的基础上进一步探索了受[Efficientnet: Rethinking model scaling for convolutional neural networks]启发的参数缩放规则。具体而言考虑两个缩放维度深度D即3L1L3和宽度C1并使用α、β和复合因子φ缩放这两个维度。 通过实验发现最佳缩放设置为α1.09和β1.36然后在此基础上构建具有不同参数尺度的InternImage变体即InternImage-T/S/B/L/XL其复杂性与ConvNeXt的相似。为了进一步测试该能力构建了一个具有10亿个参数的更大的InternImage-H并且为了适应非常大的模型宽度还将组维度C‘更改为32。上表总结了配置。 04 实验可视化 Object detection and instance segmentation performance on COCO val2017. 为了进一步提高目标检测的性能在ImageNet-22K或大规模联合数据集上预先训练的权重初始化主干并通过复合技术将其参数翻倍。然后在Objects365和COCO数据集上一个接一个地对其进行微调分别针对26个epochs和12个epochs。如下表所示新方法在COCO val2017和test-dev上获得了65.0 APb和65.4 APb的最佳结果。与以前最先进的模型相比比FD-SwinV2-G[26]高出1.2分65.4比64.2参数减少了27%并且没有复杂的蒸馏过程这表明了新模型在检测任务上的有效性。 共享权重的模型参数和GPU内存使用v.s卷积神经元之间的非共享权重。左纵轴表示模型参数右纵轴表示批量大小为32且输入图像分辨率为224×224时每个图像的GPU内存使用情况。 不同阶段不同组的采样位置可视化。蓝色的星表示查询点在左边的羊不同颜色的点表示不同组的采样位置。 © THE END 转载请联系本公众号获得授权 计算机视觉研究院学习群等你加入 ABOUT 计算机视觉研究院 计算机视觉研究院主要涉及深度学习领域主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架提供论文一键下载并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程让大家真正体会摆脱理论的真实场景培养爱动手编程爱动脑思考的习惯 往期推荐 YoloV8与ChatGPT互通这功能是真的强大GPT理解的CV基于Yolov5的半监督目标检测Consistent-Teacher半监督目标检测超强SOTASparse R-CNN稀疏框架端到端的目标检测附源码RestoreDet低分辨率图像中目标检测中国提出的分割天花板 | 精度相当速度提升50倍All Things ViTs在视觉中理解和解释注意力基于LangChainGLM搭建知识本地库OVO在线蒸馏一次视觉Transformer搜索最近几篇较好论文实现代码附源代码下载AI大模型落地不远了首个全量化Vision Transformer的方法FQ-ViT附源代码CVPR 2023EfficientViT让ViT更高效部署实现实时推理附源码VS Code支持配置远程同步了基于文本驱动用于创建和编辑图像附源代