高校网络网站建设意义及措施,郴州新网招聘,扬州学做网站培训多少钱,手游制作软件摘要
单级检测器基本上将物体检测表述为密集分类和定位#xff08;即边界框回归#xff09;。分类通常通过Focal Loss进行优化#xff0c;而边界框的定位通常根据Dirac delta分布进行学习。单级检测器的最新趋势是引入一个单独的预测分支来估计定位质量#xff0c;预测质量…摘要
单级检测器基本上将物体检测表述为密集分类和定位即边界框回归。分类通常通过Focal Loss进行优化而边界框的定位通常根据Dirac delta分布进行学习。单级检测器的最新趋势是引入一个单独的预测分支来估计定位质量预测质量有助于分类从而提高检测性能。本文深入探讨了上述三个基本要素质量估计、分类和定位的表示方法。在现有实践中发现了两个问题包括(1) 质量估计和分类在训练和推理中的使用不一致即单独训练但在测试中合成使用(2) 当存在模糊性和不确定性时用于定位的Dirac delta分布不灵活而在复杂场景中经常出现这种情况。为了解决这些问题我们为这些元素设计了新的表示方法。具体来说我们将质量估计合并到类别预测向量中形成定位质量和分类的联合表示并使用一个向量来表示方框位置的任意分布。改进后的表示消除了不一致性风险并准确地描述了真实数据中的可变分布但其中包含连续标签这超出了 Focal Loss 的范围。我们随后提出了Generalized Focal LossGFL它将Focal Loss从离散形式广义化为连续版本从而成功实现优化。在 COCO test-dev 上使用 ResNet-101 主干网GFL 实现了 45.0% 的 AP超过了最先进的 SAPD43.5%和 ATSS43.6%而且在相同的主干网和训练设置下GFL的推理速度更高甚至不相上下。值得注意的是我们的最佳模型在单个2080Ti GPU上以10 FPS的速度实现了48.2%的单模型单规模AP。代码和预训练模型可在https://github.com/implus/GFocal上获取。
引言
近年来高密集检测器逐渐引领了物体检测的潮流而对边界框的表示及其定位质量估计的关注则推动了编码技术的发展。具体来说边界框表示被建模为简单的Dirac delta分布在过去几年中得到了广泛应用。正如FCOS所推广的那样预测额外的定位质量如IoU交并比分数和centerness中心分数可持续提高检测准确率在推理过程中质量估计与分类置信度相结合通常是相乘作为非最大抑制NMS算法过程的最终分数。尽管取得了成功但我们在现有实践中发现了以下问题 图1现有分类和定位质量估算的单独表示与联合表示法的比较。a目前的做法是在训练和测试期间分别使用质量分数IoU或中心度分数。b我们对分类和定位质量的联合表征使训练和推理具有高度一致性。 **在训练和推理过程中对定位质量估计和分类分数的使用不一致**1在最近的高密度检测器中定位质量估计和分类分数通常是独立训练的但在推理过程中却被综合利用如乘法图1a2定位质量估计的监督目前只分配给正样本这是不可靠的因为负样本可能有机会获得不可控的更高质量预测图2a。这两个因素导致了训练和测试之间的差距并有可能降低检测性能利润在NMS过程中具有随机高质量分数的负实例可能会排在预测质量较低的正实例前面。  图2使用IoU分数的现有密集检测器的不可靠IoU预测。a根据图1a中的优化IoU分数模型我们展示了一些预测质量分数极高例如IoU分数大于0.9的背景块A和B。b中的散点图表示随机抽样的实例及其预测分数其中蓝色点清楚地说明了预测分类分数和预测IoU分数之间的弱相关性。红圈部分包含许多可能的阴性样本其定位质量预测值较大有可能排在真正的阳性样本之前从而影响性能。相反我们的联合表示法绿点迫使它们相等从而避免了此类风险 **不灵活的边界框表示法**广泛使用的边界框表示法可视为Dirac delta三角分布的目标方框坐标。然而它没有考虑到数据集的模糊性和不确定性见图3中边界不清晰的部分。虽然最近的一些研究将方框建模为高斯分布但这一方法过于简单无法捕捉到边界方法内基数的真实分布。事实上真实分布可以更加任意和灵活而不必像高斯函数那样对称。
为了解决上述问题我们为边界框及其定位质量设计了新的表示方法。对于定位质量表示法我们建议将其与分类分数合并为一个统一的表示法分类向量其在真实类别指数上的值指的是其相应的定位质量本文中通常指预测框与相应真实框之间的IoU分数。通过这种方式我们将分类得分和IoU分数统一为一个联合变量称为“分类-IoU联合表示”该变量可以端到端方式进行训练并在推理过程中直接使用图1b。因此它消除了训练与测试的不一致性图1b并使定位质量与分类之间具有最强的相关性图2b。此外质量分数为0的负值将受到监督从而使整体质量预测更加保密和可靠。这对高密度物体检测尤其有利因为它们会对整个图像中定期采样的所有候选物体进行排序。对于边界框表示我们建议通过直接学习其连续空间上的离散概率分布来表示边界框位置的任意分布而不引入任何其他更强的先验如高斯。因此我们可以获得更可靠、更准确的边界框估计同时还能了解其各种基本分布见图3和补充材料中的预测分布。 图3由于遮挡、阴影、模糊等原因很多物体的边界都不够清晰因此真实标签白色方框有时并不可信而Dirac delta分布在表示此类问题时也会受到限制。相反我们提出的边界框一般分布的学习表示法可以通过其形状反映潜在信息其中扁平分布表示不清晰和模糊的边界见红圈尖锐分布代表清晰的情况。我们的模型预测出的方框用绿色标记。 改进后的表征为优化带来了挑战。传统上对于高密度检测器分类分支的优化采用Focal Loss。FL可以通过重塑标准交叉熵损失来成功处理类别不平衡问题。然而对于所提出的分类-IoU联合表示法除了仍然存在的不平衡风险外我们还面临着一个以连续IoU标签0~1作为监督的新问题因为原始FL目前只支持离散的{1,0}类别标签。我们通过将FL从{1,0}离散版本到其连续变体称为Generalized Focal LossGFL。与FL不同GFL考虑的是一种更普遍的情况即全局优化解能够以任何所需的连续值为目标而不仅是离散值。更具体地说本文将GFL细分为质量焦距损失Quality Focal LossQFL和分布焦距损失Distribution Focal LossDFL分别用于优化改进后的两种表示方法QFL专注与一组稀疏的示例并同时生成它们在相应类别上的连续0~1质量估计DFL网络在任意灵活的分布下快速专注于学习目标边界框连续位置周围值的概率。
我们展示了GFL的三个优势1当单级检测器需要额外的质量估计时GFL可以弥合训练和测试之间的差距从而更简单、联合和有效地表示分类和定位质量2GFL可以很好地模拟边界框的灵活底层分布从而提供更多信息和更准确的框位置3在不引入额外开销的情况下可以持续提升单级检测器的性能。在COCO test-dev上GFL利用ResNet-101主干网实现了45.0%的AP超过了最先进的SAPD43.5%和ATSS43.6%。我们的最佳模型在单个2080Ti GPU上以10FPS运行时单模型单规模AP可达到48.2%。
相关工作
定位质量的表示。现有的做法如Fitness NMS、IoU-Net、MS R-CNN、FCOS和IoU-aware都是利用单独的分支以IoU或中心度分数的形式进行定位质量估计。如第1节所述这种单独的表述方式会导致训练和测试之间的不一致性以及不可靠的质量预测。PISA和IoU-balance没有引入额外的分支而是根据定位质量在分类损失中分配不同的权重旨在增强分类得分与定位精度之间的相关性。然而由于权重策略不会改变分类损失目标的最佳值因此它的好处是隐形的也是有限的。
边界框的表示。Dirac delta分布在过去几年中一直用于边界框的表示。最近高斯假设被采用通过引入预测方差来学习不确定性。遗憾的是现有的表征要么过去僵化要么过于简化无法反映真实数据中复杂的底层分布。在本文中我们进一步放宽了假设直接学习更任意、更灵活的边界框一般分布同时信息量更大、更准确。
方法
在本节中我们首先回顾了用于学习单级检测器密集分类分数的原始Focal LossFL。接下来我们将详细介绍定位质量估计和边界框的改进表示方法并分别通过所提出的Quality Focal LossQFL和Distribution Focal LossDFL对其进行成功优化。最后我们将QFL和DFL的表述整合为一个统一的视角称为Generalized Focal LossGFL作为FL的灵活扩展以促进今后的进一步推广和理解。 图5a质量标签$y0.5$下的QFL图示。b根据公式不同的灵活分布可获得相同的积分目标因此我们需要重点学习目标值附近的值概率以获得更合理、更有把握的预测如3。cCOCO trainval135k上所有训练样本的ATSS边框回归目标直方图。 Focal LossFL。最初的FL是为了解决在训练过程中经常出现前景类和背景类极度不平衡的单阶段物体检测问题而提出的。FL的典型形式如下为简单起见我们忽略原论文中的$\alpha_t$ $$ FL(p) -(1-p_t)^{\gamma}log(p_t),p_t \begin{cases} p,\ \ \ when\ y1\\ 1-p,\ \ \ when\ y0\\ \end{cases} $$ 其中$y \in \{1,0\}$表示真实标签$p \in [0,1]$表示标签为$y1$的类别估计概率。$\gamma$是是可调的聚焦参数。具体来说FL包括一个标准交叉熵部分$-log(p_t)$和一个动态缩放因子部分$(1-p_t)^{\gamma}$其中缩放因子$(1-p_t)^{\gamma}$在训练过程中自动降低容易分辨样本的贡献权重并快速将模型集中在困难例子上。
Quality Focal LossQFL。为了解决上述训练和测试阶段不一致性问题我们提出了一种定位质量即IoU分数和分类分数的联合表示法简称“分类-IoU”其监督软化了标准的单级类别标签并导致相应类别上可能的浮动目标 y ∈ [ 0 , 1 ] y \in [0,1] y∈[0,1]间图4中的分类分支。具体来说 y 0 y 0 y0表示质量分数为0的负样本 0 y ≤ 1 0 y \leq 1 0y≤1表示目标IoU分数为 y y y的正样本。根据文献我们采用多重二元分类法并使用sigmoid算子 σ ( ⋅ ) \sigma(\cdot) σ(⋅)来实现多类分类。为简单起见将sigmoid的输出标记为 σ \sigma σ。
由于所提出的“分类-IoU”联合表示法需要对整幅图像进行密集的监督而类不平衡问题仍然存在因此必须继承 FL 的思想。然而当前形式的 FL 只支持 {1, 0} 离散标签而我们的新标签包含小数。因此我们建议扩展 FL 的两个部分以便在联合表示的情况下进行成功的训练(1) 交叉熵部分 − l o g ( p t ) -log(p_t) −log(pt)扩展为完整版本 − ( ( 1 − y ) l o g ( 1 − σ ) y l o g ( σ ) ) -((1-y)log(1-\sigma) ylog(\sigma)) −((1−y)log(1−σ)ylog(σ))2缩放因子 ( 1 − p t ) γ (1-p_t)^\gamma (1−pt)γ部分被概括为估计值 σ \sigma σ与其连续标签 y y y之间的绝对距离即 ∣ y − σ ∣ β ( β ≥ 0 ) |y-\sigma|^\beta\ (\beta \geq 0) ∣y−σ∣β (β≥0)此处 y y y保证了非负性。随后我们将上述两个扩展部分结合起来制定出完整的损失函数即Quality Focal LossQFL Q F L ( σ ) − ∣ y − σ ∣ β ( ( 1 − y ) l o g ( 1 − σ ) y l o g ( σ ) ) QFL(\sigma) -|y - \sigma|^\beta((1-y)log(1-\sigma) ylog(\sigma)) QFL(σ)−∣y−σ∣β((1−y)log(1−σ)ylog(σ)) 请注意 σ y \sigma y σy是QFL的全局最小解。 图 5 展示了几个 β \beta β下的 QFL。a与 FL 类似QFL 中的 ∣ y − σ ∣ β |y - \sigma|^{\beta} ∣y−σ∣β项也起着调节因子的作用当对某个样本的质量估计不准确并偏离标签 y y y时调节因子相对较大因此它更关注于学习这个困难的例子。 当质量估计变得准确时即 σ → y \sigma \rightarrow y σ→y系数变为 0估计良好样本的损失将被降权其中参数 β \beta β可以平滑地控制降权率在我们的实验中 b e t a 2 beta 2 beta2 对 QFL 效果最好。 图6单独和联合表示的修改版本图示。图中还提供了无质量分支的基线图 Distribution Focal LossDFL。按照文献我们采用从位置到边界框四边的相对偏移量作为回归目标见图4中的回归分支。边界框回归的传统操作将回归标签y建模为Dirac delta分布 δ ( x − y ) \delta(x-y) δ(x−y)。它满足 ∫ − ∞ ∞ δ ( x − y ) d x 1 \int^{\infty}_{-\infty}\delta(x-y)dx1 ∫−∞∞δ(x−y)dx1通常通过全连接层实现。更正式的说恢复 y y y的积分形式如下 y ∫ − ∞ ∞ δ ( x − y ) x d x y \int^{\infty}_{-\infty}\delta(x-y)xdx y∫−∞∞δ(x−y)xdx 根据第1节的分析我们建议不采用Dirac delta或高斯假设而是直接学习底层一般分布 P ( x ) P(x) P(x)而不引入任何其他先验。给定标签 y y y的范围最小 y 0 y_0 y0最大 y n y_n yn y 0 ≥ y ≥ y n , n ∈ N y_0 \geq y \geq y_n,\ n \in N^{} y0≥y≥yn, n∈N我们可以从模型中得到估计值 y ^ \hat{y} y^( y ^ \hat{y} y^也符合 y 0 ≥ y ^ ≥ y n y_0 \geq \hat{y} \geq y_n y0≥y^≥yn) y ^ ∫ − ∞ ∞ P ( x ) x d x ∫ y 0 y n P ( x ) x d x \hat{y} \int^{\infty}_{-\infty}P(x)xdx \int^{y_n}_{y_0}P(x)xdx y^∫−∞∞P(x)xdx∫y0ynP(x)xdx 为了与卷积神经网络保持一致我们将连续域上的积分转换为离散表示具体方法是将范围 [ y 0 , y n ] [y_0,y_n] [y0,yn]离散为一个集合 { y 0 , y 1 , ⋯ , y i , y i 1 , ⋯ , y n − 1 , y n } \{y_0,y_1,\cdots,y_i,y_{i1},\cdots,y_{n-1},y_n\} {y0,y1,⋯,yi,yi1,⋯,yn−1,yn}偶数区间为 Δ \Delta Δ简单起见我们使用 Δ 1 \Delta 1 Δ1。因此给定离散分布属性 ∑ i 0 n P ( y i ) 1 \sum^n_{i0}P(y_i)1 ∑i0nP(yi)1估计回归值 y y y可表示为 y ^ ∑ i 0 n P ( y i ) y i \hat{y} \sum_{i0}^{n}P(y_i)y_i y^i0∑nP(yi)yi 因此 P ( x ) P(x) P(x)可以通过由 n 1 n1 n1个单元组成的softmax S ( ⋅ ) S(\cdot) S(⋅)层轻松实现为简单起见 P ( y i ) P(y_i) P(yi)用 S i S_i Si表示。请注意 y ^ \hat{y} y^可以使用传统的损失目标如SmoothL1、IoU损失或GIoU损失以端到端的方式进行训练。然而如图5b所示 P ( x ) P(x) P(x)的值有无数种组合会使最终积分结果为 y y y这可能会降低学习效率。直观上与1和2相比分布3更为紧凑在边界框估算上也更为精确这促使我们通过明确鼓励接近目标值 y y y的高概率值来优化 P ( x ) P(x) P(x)的形状。此外最合适的基础位置如果存在往往不会远离标签。因此我们引入了分布聚焦损失DFL通过明显扩大 y i y_i yi和 y i 1 y_{i1} yi1距离 y y y最近的两个标签 y i ≤ y ≤ y i 1 y_i \leq y \leq y_{i1} yi≤y≤yi1的概率迫使网络快速聚焦于标签 y 附近的值。由于边界框的学习只针对正样本不存在类不平衡问题因此我们只需将 QFL 中的完全交叉熵部分用于 DFL 的定义 D F L ( S I , S i 1 ) − ( ( y i 1 − y ) l o g ( s i ) ( y − y i ) l o g ( S i 1 ) ) DFL(S_I,S_{i1}) -((y_{i1} - y)log(s_i) (y-y_i)log(S_{i1})) DFL(SI,Si1)−((yi1−y)log(si)(y−yi)log(Si1)) 直观地说DFL的目的是集中扩大目标 y y y周围值即 y i y_i yi和 y i 1 y_{i1} yi1的概率。DFL 的全局最小解即 S i y i 1 − y y i 1 − y i S_i \frac{y_{i1} - y}{y_{i1} - y_i} Siyi1−yiyi1−y S i 1 y − y i y i 1 − y i S_{i1} \frac{y-y_i}{y_{i1} - y_i} Si1yi1−yiy−yi(见补充材料可以保证估计的回归目标 y ^ \hat{y} y^无限接近于相应的标签 y y y即 y ^ ∑ j 0 n P ( y i ) y i S i y i S i 1 y i 1 y i 1 − y y i 1 − y i y i y − y i y i 1 − y i y i 1 y \hat{y} \sum^{n}_{j0}P(y_i)y_i S_iy_i S_{i1}y_{i1}\frac{y_{i1}-y}{y_{i1} - y_i}y_i \frac{y - y_i}{y_{i1} - y_{i}}y_{i1} y y^∑j0nP(yi)yiSiyiSi1yi1yi1−yiyi1−yyiyi1−yiy−yiyi1y这也确保了其作为损失函数的正确性。 表1QFL研究ResNet-50主干网。所有实验均转载于mmdetection并在COCO minival进行了验证。  图7基于ATSS对COCO minival进行边界框回归时Dirac delta分布a、高斯分布b和我们提出的一般分布c之间的定性比较。白色方框表示实际标签绿色方框表示预测标签。 广义焦距损失GFL。请注意QFL 和 DFL 可以统一为一种一般形式本文称之为广义焦点损失GFL。假设一个模型估计了两个变量 y l , y r ( y l y r ) y_l,\ \ y_r\ \ (y_l y_r) yl, yr (ylyr)的概率为 p y l , p y r ( p y l ≥ 0 , p y r ≥ 0 , p y i p y r 1 ) p_{yl},\ \ p_{yr}\ \ (p_{yl} \geq 0,\ \ p_{yr} \geq 0,\ \ p_{y_i} p_{y_r} 1) pyl, pyr (pyl≥0, pyr≥0, pyipyr1)其线性组合的最终预测结果为 y ^ y l p y l y r p y r ( y l ≤ y ^ ≤ y r ) \hat{y} y_lp_{yl} y_rp_{yr}\ (y_l \leq \hat{y} \leq y_{r}) y^ylpylyrpyr (yl≤y^≤yr)。预测结果 y ^ \hat{y} y^的相应连续标签 y y y也满足 y l ≤ y ≤ y r y_l \leq y \leq y_{r} yl≤y≤yr 。以绝对距离 ∣ y − y ^ ∣ β ( β ≤ 0 ) |y - \hat{y}|^\beta\ (\beta \leq 0) ∣y−y^∣β (β≤0)作为调节因子GFL 的具体公式可写成 G F L ( p y l , p y r ) − ∣ y − ( y l p y l y r p y r ) ∣ β ( ( y r − y ) l o g ( p y l ) ( y − y l ) l o g ( p y r ) ) GFL(p_{yl},p_{yr}) -|y - (y_lp_{yl} y_rp_{yr})|^\beta((y_r - y)log(p_{yl}) (y - y_l)log(p_{yr})) GFL(pyl,pyr)−∣y−(ylpylyrpyr)∣β((yr−y)log(pyl)(y−yl)log(pyr))
GFL的特性。 G F L ( p y l , p y r ) GFL(p_{yl},p_{yr}) GFL(pyl,pyr)达到全局最小值的条件是 p y l ∗ y r − y y r − y l , p y r ∗ y − y l y r − y l p^{*}_{yl} \frac{y_r - y}{y_r - y_l},\ \ p^{*}_{yr} \frac{y - y_l}{y_r - y_l} pyl∗yr−ylyr−y, pyr∗yr−yly−yl这也意味着估计值 y ^ \hat{y} y^与连续标签 y y y完全匹配即 y ^ y l p y l ∗ y r p y r ∗ y \hat{y} y_lp^{*}_{yl} y_rp^{*}_{yr} y y^ylpyl∗yrpyr∗y。显然原FL和提出的QFL和DFL都是GFL的特例。请注意GFL可以应用于任何单级探测器。修改后的检测器在两个方面与原始检测器不同。首先在推理过程中我们直接将分类得分与质量估计的联合表示作为NMS分数输入而无需乘以任何单独的质量分数如FCOS和ATSS中的centerness。其次用于预测每个边界框位置的回归分支的最后一次现在有 n 1 n1 n1个输出而不是1个输出这带来的额外计算成本可以忽略不计如表3所示。
使用GFL训练密集检测器。我们用GFL来定义训练损失 L L L L 1 N p o s ∑ z L Q 1 N p o s ∑ z 1 c z ∗ 0 ( λ 0 l B l a m b d a 1 L D ) , L \frac{1}{N_{pos}}\sum_{z}L_Q \frac{1}{N_{pos}}\sum_z1_{c_z^* 0}(\lambda_0l_B lambda_1L_D), LNpos1z∑LQNpos1z∑1cz∗0(λ0lBlambda1LD), 其中 L Q L_Q LQ表示QFL L D L_D LD表示DFL。通常L_B表示GIoU损失。 N p o s N_{pos} Npos表示代表正样本的数量。 λ 0 \lambda_0 λ0和 λ 1 \lambda_1 λ1分别为 L Q L_Q LQ和 L D L_D LD的平衡权重。 ∑ \sum ∑是对金字塔特征图上所有位置 z z z的计算。 1 c z ∗ 0 1_{c^*_z0} 1cz∗0是指标函数如果为 c z ∗ 0 c_z^* 0 cz∗0则开始为1否则为0。按照官方规范的做法在训练过程中我们还利用质量得分来加权 L Q L_Q LQ和 L D L_D LD。 表2DFL研究ResNet-50主干网。所有实验均转载于mmdetection并在COCO minival进行了验证。 实验
我们的实验是在COCO基准上进行的其中trainval135k115k幅图像用于训练我们使用minival5k幅图像作为消融研究的验证。主要结果在test-dev20k幅图像上报告可从验证集上获取。为了进行公平比较所有结果都是在mmdetection条件下得出其中采用了默认的超参数。除非另有说明否则在接下来的研究中我们基于ResNet-50主干网采用1X学习计划12个epoch不进行多尺度训练。更多训练/测试详情请见补充材料。 图8最先进方法在COCO test-dev上的单模型单尺度速度毫秒与准确度AP对比。与许多同类方法相比GFL实现了更好的速度-精度权衡。 我们首先研究了QFL的有效性表1。在表1a中我们将拟议的联合表示法与其独立或隐含的对应部分进行了比较。表 1a中我们比较了建议的联合表示法与单独或隐含的对应部分 实验中还采用了 IoU 和中心度。总的来说我们构建了4个使用独立或隐式表示的变体如图6所示。根据实验结果我们发现由QFL优化的联合表示法的性能始终优于所有对应的表示法而IoU的性能始终优于所有对应的表示法。表1b显示QFL也能提高其他常用单级检测器的性能。表1c显示 β 2 \beta2 β2是QFL的最佳设置。如图2b所示我们通过对实例进行采样并预测IoU分支模型和我们的模型的分类和IoU分数来说明联合表示法的有效性。这表明使用QFL训练的联合表示法因其更可靠的质量估计而有利于检测并根据其定义在分类和质量得分之间产生最强的相关性。事实上在我们的联合表示中预测的分类得分与估计的质量得分完全相等。 表3QFL和DFL对ATSS的影响QFL和DFL的效果是正交的利用这两种方法可以在不引入额外开销的情况下在强ATSS基线上将AP提升1%。 其次我们研究了DFL的有效性表2。为了快速选择一个合理的 n n n值我们首先在图5c中说明回归目标的分布情况。我们将在后面的实验中说明ATSS推荐的 n n n值为14或16。在表2a中我们比较了不同数据表示的有效性用于边界框回归。我们发现一般分布假设取得了更优或至少相当的结果而DFL可以进一步提高其性能。定性比较见图7可以看出与高斯分布和一般分布相比一般分布假设能提供更精确的边界框位置。特别是在有大量遮挡物的情况下更多讨论见补充材料。表2b和c列出了基于GFL训练的改进ATSS的 n n n和 Δ \Delta Δ在DFL中的影响。结果表面在实际应用中 n n n的选择并不敏感而 Δ \Delta Δ建议选取较小值如1。为了说明一般分布的效果我们在图3中绘制了几个具有代表性的实例及其在四个方向上的分布式边界框在这些实例中一般分布式表示法可以通过其形状有效地反映边界框的不确定性更多示例请参见补充材料。 表4最先进检测器在COCO test-dev上的比较单一模型和单一尺度结果。 M S t r a i n MS_{train} MStrain表示多尺度训练。带有 ∗ * ∗的FPS值来自文献其他数值是在同一机器上使用单个GeForce RTX 2080Ti GPU在相同的mmdetection框架下测量的尽可能使用1的batch size。n/a表示没有原始论文中训练的模型和结果。RResNetXResNeXtHGHourglassDCNDeformable Convolutional Network
我们在带有ResNet-50主干网的ATSS上进行了消融研究以显示QFL和DFL的相对贡献表3。FPS每秒帧数是在同一台机器上用单个GeForce RTX 2080Ti GPU测量的在相同的mmdetection框架下batch-size为1。我们观察到DFL与QFL的改进是正交的而两者的联合使用即GFL可将强ATTS基线的AP分数绝对值提高1%。此外根据推理速度GFL带来的额外开销可以忽略不计因此非常实用。
最后我们在表4中比较了GFL基于ATSS和COCO test-dev上的先进方法。根据之前的研究在训练过程中采用了多尺度训练策略和2x学习计划24个epoch。为了进行公平比较我们展示了所有方法的单模型单尺度测试结果以及相应的推理速度FPS。使用ResNet-101的GFL在14.6FPS速度下实现了45.0%的AP优于所有采用相同骨干网的现有检测器包括SAPD43.5%和ATSS43.6%。此外可变形卷积模型使用ResNeXt-101-32x4d-DCN的GFL在10FPS时获得了最先进的48.2%AP而使用ResNeXt-101-32x4d-DCN的GFL在10FPS时获得了最先进的48.2%AP。图8展示了精确度-速度权衡的可视化效果可以看到我们提出的GFL将精确度-速度边界推到了一个很高的水平。
结论
为了有效地为密集物体检测器学习合格的分布式边界框我们提出了Generalized Focal LossGFL它将原来的Focal损失从 { 1 , 0 } \{1, 0\} {1,0}离散变为连续。GFL可分为Quality Focal LossQFL和Distribution Focal LossDFL其中QFL鼓励学习更好的分类和定位质量联合表示法而DFL则通过将它们的位置建模为一般分布提供信息更丰富、更精确的边界框估计。大量实验验证了GFL的有效性。我们希望GFL可以作为社区的一个简单而有效的基准。