怎样搜网站,金融行业seo整站优化,哪个公司建设网站,我要申请开网店这篇文章借助SAM模型强大的泛化性#xff0c;在任意域上进行任意的多目标跟踪#xff0c;而无需任何额外的标注。 其核心思想就是在训练的过程中#xff0c;利用strong augmentation对一张图片进行变换#xff0c;然后用SAM分割出其中的对象#xff0c;因此可以找到一组图…
这篇文章借助SAM模型强大的泛化性在任意域上进行任意的多目标跟踪而无需任何额外的标注。 其核心思想就是在训练的过程中利用strong augmentation对一张图片进行变换然后用SAM分割出其中的对象因此可以找到一组图像中目标的pixel的对应关系从而实现了自监督的信号。
论文https://arxiv.org/abs/2406.04221 代码https://github.com/siyuanliii/masa 0. Abstract
MOT的本质是在帧间进行同一个目标的稳定关联。现有的MOT主要依赖于特定domain的数据集比如行人MOT challenge车辆VisDrone等限制了cross domain的泛化性。
针对这个问题作者提出了MASA可以实现在任意域中跟踪任意目标。具体来说利用SAM能够给出的丰富的目标分割MASA的任务就是通过data augmentation学习一个instance level的对应。MASA将SAM的输出视为密集的region proposal然后学习在巨大的图像库中来匹配这些proposal。进一步地设计了一个adapter来进行跟踪实现了zero-shot跟踪的能力。
1. Introduction
前面的背景叙述先忽略我们先看整体的方法。
这个工作的主要目标就是和现有的检测、分割模型结合起来能够实现任意区域、目标的匹配与跟踪。但是做这种“任意”的事情标签成本肯定是逃不过去的坎。
为了解决这个问题作者对同一张图像应用不同的几何变换。在几何变换前后像素的对应关系我们是已知的。再加上SAM的分割能力就可以将这些像素自动分组成一个instanceobject这样就实现了像素级到实例级的对应可以作为一个自监督信号。
除了上面这个self-training pipeline作者构建了一个adapter实现tracking的功能。
此外作者提出了一个多任务训练的pipeline其对SAM进行知识蒸馏。这种方法可以学习 SAM 的目标的位置、形状和外观先验并在对比相似性学习期间模拟真实的检测。
整体的框图如下
2. Methodology
2.1 训练
其实方法部分比较直接。首先前面讲需要一个对比学习的范式来学习SAM在不同augmentation下分割的object的相似度。作者直接采用了朴素的对比学习损失 L C − ∑ q ∈ Q log e sim ( q , q ) τ e sim ( q , q ) τ ∑ q − ∈ Q − e sim ( q , q − ) τ \mathcal{L}_{\mathcal{C}}-\sum_{q \in Q} \log \frac{e^{\frac{\operatorname{sim}\left(q, q^{}\right)}{\tau}}}{e^{\frac{\operatorname{sim}\left(q, q^{}\right)}{\tau}}\sum_{q^{-} \in Q^{-}} e^{\frac{\operatorname{sim}\left(q, q^{-}\right)}{\tau}}} LC−q∈Q∑logeτsim(q,q)∑q−∈Q−eτsim(q,q−)eτsim(q,q)
那么问题就是 q q q, 也就是目标特征怎么来呢
这就是文章的第二个贡献adapter。
对于用较大的foundation model进行特定task微调的往往需要一个adapter来进行适应。 这是因为直接微调foundation model肯定成本很高并且可能会过拟合而丢失它原本具有的泛化性。
具体来说作者提出的adapter具有特征金字塔结构这是为了适应不同尺度的目标。对于Detic和Grounding DINO这种检测大模型来说作者直接用了FPN。对SAM来说作者用转置卷积和最大池化来上采样和下采样backbone中的特征图。
为了适应目标的不同形变作者采用了可变形卷积 F ( p ) 1 L ∑ j 1 L ∑ k 1 K w k ⋅ F j ( p p k Δ p k j ) ⋅ Δ m k j F(p)\frac{1}{L} \sum_{j1}^L \sum_{k1}^K w_k \cdot F^j\left(pp_k\Delta p_k^j\right) \cdot \Delta m_k^j F(p)L1j1∑Lk1∑Kwk⋅Fj(ppkΔpkj)⋅Δmkj
在获取adapter各种融合之后的特征图后采用ROI Align以及额外的4个轻量级卷积层作者称为track head来获取目标的实例级特征。也就是对比学习损失中的 q q q
此外为了更好地让adapter捕捉instance level的特征作者还设定了一个auxiliary task也就是detection head。detection head直接采用了RCNN的检测头来根据当前的feature map检测图中的目标作者正文没说应该是以SAM的结果作为监督信号稍后看代码这样的话就实现了一个知识蒸馏的效果。也就是从SAM的分割结果中蒸馏出目标的形状、位置信息。 2.2 推理
在推理阶段采用了QDTrackQuasi-Dense Similarity Learning for Multiple Object Tracking的匹配策略
bi-softmax计算相似度 s 1 ( τ , r ) 1 2 [ exp ( q r ⋅ q τ ) ∑ r ′ ∈ P exp ( q r ′ ⋅ q τ ) exp ( q r ⋅ q τ ) ∑ τ ′ ∈ T exp ( q r ⋅ q τ ′ ) ] s 2 ( τ , r ) q r ⋅ q τ ∥ q r ∥ ∥ q τ ∥ s ( τ , r ) 1 2 ( s 1 ( τ , r ) s 2 ( τ , r ) ) \begin{gathered}s_1(\tau, r)\frac{1}{2}\left[\frac{\exp \left(\mathbf{q}_r \cdot \mathbf{q}_\tau\right)}{\sum_{r^{\prime} \in P} \exp \left(\mathbf{q}_{r^{\prime}} \cdot \mathbf{q}_\tau\right)}\frac{\exp \left(\mathbf{q}_r \cdot \mathbf{q}_\tau\right)}{\sum_{\tau^{\prime} \in \mathcal{T}} \exp \left(\mathbf{q}_r \cdot \mathbf{q}_{\tau^{\prime}}\right)}\right] \\ s_2(\tau, r)\frac{\mathbf{q}_r \cdot \mathbf{q}_\tau}{\left\|\mathbf{q}_r\right\|\left\|\mathbf{q}_\tau\right\|} \\ s(\tau, r)\frac{1}{2}\left(s_1(\tau, r)s_2(\tau, r)\right)\end{gathered} s1(τ,r)21[∑r′∈Pexp(qr′⋅qτ)exp(qr⋅qτ)∑τ′∈Texp(qr⋅qτ′)exp(qr⋅qτ)]s2(τ,r)∥qr∥∥qτ∥qr⋅qτs(τ,r)21(s1(τ,r)s2(τ,r))
贪心策略 在Detect 和 Track两种模式下流程如下图