怎么自己建一个论坛网站,wordpress分类名称,婚庆公司租车收费标准价目一览表,ui设计师需要掌握的技能文 | kid丶源 | 知乎Paper#xff1a;CReST: A Class-Rebalancing Self-Training Framework for Imbalanced Semi-Supervised Learning这篇文章是在组会上听到的#xff0c;觉得真的是太太妙了。本文考虑的是半监督场景下的长尾分布问题#xff0c;即此时我们不仅没有足够的…文 | kid丶源 | 知乎PaperCReST: A Class-Rebalancing Self-Training Framework for Imbalanced Semi-Supervised Learning这篇文章是在组会上听到的觉得真的是太太妙了。本文考虑的是半监督场景下的长尾分布问题即此时我们不仅没有足够的有标记样本而且这些有标记样本的分布还是长尾分布的类别不平衡的。我当时心想“好家伙长尾分布问题和半监督问题两个这么难啃的骨头你放在一块啃”接下来就来看看本文作者是如何四两拨千斤的。长尾分布Long-Tailed Distribution自然界中收集的样本通常呈长尾分布即收集得到的绝大多数样本都属于常见的头部类别例如猫狗之类的而绝大部分尾部类别却只能收集到很少量的样本例如熊猫、老虎这造成收集得到的数据集存在着严重的类别不平衡问题Class-Imbalanced从而使得训练得到的模型严重的过拟合于头部类别。对于解决长尾分布的方法有很多例如重采样 (Re-Sampling) 以及重加权 (Re-Weighting)。重采样简单来说可以划分为两类一是通过对头部类别进行欠采样减少头部类别的样本数二是通过过采样对尾部类别进行重复采样增加其样本数从而使得类别“平衡”。但这样naive的方法存在的缺点也显而易见即模型对尾部类别过拟合以及对头部类别欠拟合。重加权方法的核心思想是类别少的样本应该赋予更大的权重类别多的样本赋予更少的权重。此外有一篇文章[1]提出样本之间存在大量的信息冗余因此提出了一个类别有效样本数的概念还挺有意思这里就不展开了。动机Motivation本文的问题设置更为复杂考虑的是半监督场景下的长尾分布问题即此时我们不仅没有足够的有标记样本而且这些有标记样本的分布还是长尾分布的类别不平衡的。面对这么困难的问题作者倒是不慌不忙首先做了一个很有意思的实验。作者使用 FixMatch 模型 (一个解决半监督问题的SOTA方法) 分别在具有长尾分布的CIFAR10-LT (左边两张图) 以及 CIFAR100-LT (右边两张图) 上进行了实验。其中横坐标代表长尾分布的不同类别越小的数字代表是头部类别越大的数字代表是尾部类别纵坐标对应红点和蓝点分别是 Recall 和 Precision。实验现象表明模型对头部类别的样本 Recall 很高对尾部类别的 Recall 很低模型对头部类别样本的 Precision 很低但对尾部类别的 Precision 却很高。这是一个很常见的类别不平衡问题里的过拟合现象换句话来说模型对不确定性很高的尾部类别样本都预测成头部类别了。举个例子我在训练阶段喂入模型100张猫的图片以及10张狗的图片在测试阶段时会发现对于模型把握不准的狗的图片都会预测成猫只有模型特别有把握的狗的图片才会预测成狗此时会造成猫这个类别的 Recall 会非常高 Precision 却会非常低反之狗这个类别的 Recall 会非常低但 Precision 却会非常高。这个实验现象是符合直观的但是怎么来运用上述这一信息呢作者开始了他的“白嫖计划”方法Method作者 follow 半监督学习中 self-training 的过程使用标准的 SSL 算法利用已标记集和未标记集的信息训练一个有效的模型给未标记集 中的每个样本打上伪标记得到新的数据集挑选出模型的预测类别属于尾部类别的样本作为候选集 加入到已标记集合中最妙的一步在第三步模型预测的类别属于尾部类别意味着这些样本的伪标记具有很高的置信度的High precision因为此时的模型是对头部类别过拟合的此时模型还将某一样本预测为尾部类别说明该伪标记真的是该样本的 ground-truth。从另一方面这一采样又巧妙的引入了尾部类别样本从而缓解了类别不平衡问题。讨论首先用两字总结该方法白嫖。感觉啥外部信息都没有仅仅利用了模型学习长尾分布样本表现出来的规律既“嫖”了未标记样本的真实标记又“嫖”了尾部类别的样本。后面深度思考了一下这件事这些被挑选出来的样本虽然有很大的可能具有正确的伪标记但它可能不太具备代表性即不能很好的代表这个类。换句话来说模型对这些样本具有很大的置信度即这些极可能是简单样本对模型的学习帮助性可能不大因此此时模型已经很确信能将其预测对了此时再引入这些样本的loss其实很小对模型的影响也不大。针对前面所提到的所以我认为可能性能的提升绝大部分来自于类别平衡了当然正确的简单样本的引入也会对模型性能提升有帮助。这个方法由此也会在半监督场景下作用明显因此本来就没啥有标记样本还如此的类别不平衡此时给一些正确标记的虽然简单的样本对模型训练也是很有帮助的。后台回复关键词【入群】加入卖萌屋NLP、CV、搜广推与求职讨论群