网站开发工程师证书,淘宝客网站 建设要钱不,网站开发 自动生成缩略图,diy平台文章汇总
存在的问题
虽然训练类别通常具有文本形式#xff0c;例如“金鱼”或“卫生纸”#xff0c;但它们将被转换为离散标签#xff0c;只是为了简化交叉熵损失的计算#xff0c;从而使文本中的语义封装在很大程度上未被利用。这样的学习范式将视觉识别系统限制在闭集…文章汇总
存在的问题
虽然训练类别通常具有文本形式例如“金鱼”或“卫生纸”但它们将被转换为离散标签只是为了简化交叉熵损失的计算从而使文本中的语义封装在很大程度上未被利用。这样的学习范式将视觉识别系统限制在闭集视觉概念使它们无法处理新的类别因为学习新的分类器需要额外的数据。
动机
即使之前的学者进行了广泛的调优也不能保证生成的提示对于这些下游任务是最优的。受近期自然语言处理(NLP)中提示学习研究的启发提出了一种简单的方法称为上下文优化(CoOp)用于自动化提示工程。
解决办法 对于之前类似the photo of the photo of这样的提示它不是最优的template那我们怎么样找到最优的提示。在这个任务上通过引入一些可训练的向量learnable context我们就说让这些可训练的向量learnable context(一开始是随机初始化的)和这个class的word embedding和一些结尾的wording embedding一起构建出来的句子给它输入到这个text encoder里去。
这里我们做小样本的训练我们不训主模型(text encoder image encoder)。我们都用梯度去更新它提出learnable context去更新learnable context然后就用几十个样本就可以训练一个更好的learnable context(相当于一个自监督学习的过程之后通过学习到参数用于预测图片的种类)然后完了在测试的时候就用learnable context去参与测试然后作者就发现了这个CoOp然后在这个小样本图片分类上取得了非常显著的一个效果。
另外文章中统一的和类特定的上下文的区别在于在训练learnable context时
摘要
像CLIP这样的大型预训练视觉语言模型在学习表征方面显示出巨大的潜力这些表征可以在广泛的下游任务中转移。与传统的主要基于离散标签的表示学习不同视觉语言预训练将图像和文本对齐在一个共同的特征空间中通过提示允许零差转移到下游任务即从描述感兴趣类别的自然语言合成分类权重。在这项工作中我们展示了在实践中部署这样的模型的主要挑战是快速工程这需要领域的专业知识并且非常耗时——人们需要花费大量的时间在单词调优上因为措辞的微小变化可能会对性能产生巨大的影响。受自然语言处理(NLP)中提示学习研究的最新进展的启发我们提出了上下文优化(CoOp)这是一种简单的方法专门用于将类似clip的视觉语言模型用于下游图像识别。具体地说CoOp用可学习的向量对提示的上下文词建模而整个预训练的参数保持固定。为了处理不同的图像识别任务我们提供了两种CoOp的实现:统一上下文和特定于类的上下文。通过对11个数据集的广泛实验我们证明CoOp只需要1shot2-shot就能以可观的幅度击败手工制作的提示并且能够通过更多射击获得提示工程的显着改进例如16-shot的平均增益约为15%(最高可达45%以上)。尽管是一种基于学习的方法与使用手工制作提示的零样本模型相比CoOp实现了出色的领域泛化性能。
me文中指的零样本是该方面文章PEThttps://arxiv.org/pdf/2001.07676.pdf
1介绍
构建最先进的视觉识别系统的一种常用方法是训练视觉模型以使用离散标签预测一组固定的对象类别(He等人2016;Dosovitskiy et al, 2021)。从技术角度来看这是通过将ResNet (He et al . 2016)或ViT (Dosovitskiy et al . 2021)等视觉模型生成的图像特征与一组固定的权重进行匹配来实现的这些权重被视为视觉概念并随机初始化。虽然训练类别通常具有文本形式例如“金鱼”或“卫生纸”但它们将被转换为离散标签只是为了简化交叉熵损失的计算从而使文本中的语义封装在很大程度上未被利用。这样的学习范式将视觉识别系统限制在闭集视觉概念使它们无法处理新的类别因为学习新的分类器需要额外的数据。
最近CLIP (Radford et al . 2021)和ALIGN (Jia et al . 2021)等视觉语言预训练已成为视觉表征学习的一种有前途的替代方法。主要思想是对齐图像和原始文本使用两个独立的编码器--每个模式一个。例如CLIP和ALIGN都将学习目标制定为对比损失将图像及其文本描述拉到一起同时排除特征空间中不匹配的图像。通过大规模的预训练模型可以学习不同的视觉概念并且可以很容易地通过提示转移到任何下游任务(Radford et al, 2021;Jia等2021;fuurst等人2021;Li et al . 2021;Singh等人2021;袁等2021)。特别是对于任何新的分类任务首先可以通过向文本编码器提供描述任务相关类别的句子来合成分类权重然后与图像编码器产生的图像特征进行比较。 图1提示工程vs情境优化(CoOp)前者需要使用一个保留验证集进行单词调优效率很低;后者自动化了这个过程只需要一些标记的图像来学习。
我们观察到对于预训练的视觉语言模型文本输入即提示符在下游数据集中起着关键作用。然而识别正确的提示符是一项非常重要的任务它通常需要花费大量的时间来进行单词调优;在措辞上的细微变化可能会对性能产生巨大的影响。例如对于Caltech101(图1(a)第2和第3个提示符)在类令牌之前添加a可以使准确率提高5%以上。此外提示工程还需要事先了解任务理想情况下还需要了解语言模型的底层机制。图1(b-d)举例说明了这一点其中添加与任务相关的上下文可以导致显著的改进例如为Flowers102添加flower为DTD添加texture为EuroSAT添加satellite。调整句子结构可以带来进一步的改进例如在Flowers102的类标记之后放置“a type of flower”在DTD的上下文中只保留“texture”在EuroSAT的“satellite photo”之前添加“centered”。然而即使进行了广泛的调优也不能保证生成的提示对于这些下游任务是最优的。
受近期自然语言处理(NLP)中提示学习研究的启发(Shin et al . 2020;Jiang等2020;Zhong等人2021)我们提出了一种简单的方法称为上下文优化(CoOp)用于自动化提示工程特别是针对预训练的视觉语言模型。具体来说CoOp用可学习的向量对提示的上下文词建模这些向量可以用随机值或预训练的词嵌入进行初始化(见图2)。提供了两种实现来处理不同性质的任务:一种是基于统一上下文它与所有类共享相同的上下文在大多数类别上都能很好地工作;而另一种基于特定于类的上下文它为每个类学习一组特定的上下文令牌并且发现它更适合于一些细粒度的类别。在训练过程中我们简单地使用相对于可学习上下文向量的交叉熵损失最小化预测误差同时保持整个预训练参数固定。梯度可以通过文本编码器反向传播提取编码在参数中的丰富知识用于学习任务相关的上下文。
为了证明CoOp的有效性我们对11个数据集进行了基准测试这些数据集涵盖了各种视觉识别任务包括对通用对象、场景、动作和细粒度类别的分类以及识别纹理和卫星图像等专门任务。结果表明CoOp有效地将预训练的视觉语言模型转化为数据高效的视觉学习者只需一两shot就能以相当大的幅度击败手工制作的提示。性能可以进一步提升通过使用更多的镜头例如使用16个shots与手工制作的提示的差额平均在15%左右最高时达到45%以上。CoOp也优于线性探针模型线性探针模型被称为强的少样本学习基线(Tian et al . 2020)。此外尽管CoOp是一种基于学习的方法但它比zero-shot模型(使用手动提示)对领域转移的鲁棒性要强得多。
综上所述我们做出了以下贡献:
1。我们对最近提出的视觉语言模型在下游应用中的适应性进行了及时的研究并确定了与部署效率相关的关键问题即提示工程。
2. 为了使预先训练的视觉语言模型的提示工程自动化我们提出了一种基于持续提示学习的简单方法并提供了两种可以处理不同识别任务的实现。
3. 我们首次表明提出的基于提示学习的方法在下游迁移学习性能和领域转移下对大型视觉语言模型的鲁棒性方面优于手工提示和线性探针模型。
4. 我们在GitHub - KaiyangZhou/CoOp: Prompt Learning for Vision-Language Models (IJCV22, CVPR22)开源了我们的项目。
我们希望这些发现和开源代码能够启发和促进未来对大型视觉语言模型的有效适应方法的研究——这是一个与基础模型民主化相关的新兴主题(Bommasani et al, 2021)即使它们更容易和更便宜地适应更广泛的社区。
2相关工作
2.1视觉语言模型
视觉语言模型最近在学习通用视觉表征和通过提示允许零射击转移到各种下游分类任务方面显示出巨大的潜力(Radford等人2021;Jia等2021;Zhang等2020;Singh等人2021;袁等2021)。
据我们所知视觉语言学习的最新发展特别是CLIP (Radford等人2021)和ALIGN (Jia等人2021)在很大程度上是由以下三个领域的进步推动的:i)变形金刚的文本表示学习(Vaswani等人2017)ii)大-小批量对比表示学习(Chen等人2020;他等人2020;H´enaff等人2020)和iii)网络规模的训练数据集--CLIP受益于4亿个策划的图像-文本对而ALIGN利用了18亿个噪声图像-文本对。
将图像和文本映射到公共嵌入空间的想法从近十年前就开始研究了(Socher等人2013;Frome et al, 2013;Elhoseiny et al, 2013)但采用了截然不同的技术。对于文本特征提取早期的工作主要是利用预训练的词向量(Socher et al . 2013;Frome et al, 2013)或手工制作TF-IDF特征(Elhoseiny et al, 2013;雷巴等2015)。匹配图像和文本特征已被制定为度量学习(Frome等人2013)多标签分类(Joulin等人2016;Gomez等人2017)n-gram语言学习(Li等人2017)以及最近提出的字幕(Desai和Johnson, 2021)。
我们的工作与最近在视觉语言模型方面的研究是正交的旨在促进这些模型在下游数据集中的适应和部署。
2.2 NLP中的提示学习
对大型预训练语言模型的知识探索由Petroni等人(2019)正式定义为“填空”填空测试最近引发了对NLP快速学习研究的兴趣(Shin等人2020;Jiang等2020;李和梁2021;钟等2021;Lester等人2021;Gao等2020;Liu et al . 2021b)。
知识探测的基本思想是诱导预训练的语言模型生成给定完形提示的答案这可以有利于许多下游任务如情感分析。Jiang等人(2020)提出通过文本挖掘和释义生成候选提示并确定具有最高训练精度的最佳提示。Shin等人(2020)引入了一种基于梯度的方法该方法搜索标签似然中梯度变化最大的令牌。
与我们的工作最相关的是持续提示学习方法(Zhong et al . 2021;李和梁2021;Lester等人2021)在词嵌入空间中优化连续向量。与搜索离散标记相比这种方法的一个缺点是缺乏一种清晰的方式来可视化为向量学习的“单词”。我们建议读者参考Liu等人(2021a)对NLP中提示学习主题的全面调查。
值得注意的是我们率先将快速学习应用于大模型计算机视觉中的语言模型--我们认为这是基础模型民主化的一个重要主题(Bommasani等人2021)--并证明提示学习不仅在迁移学习性能方面为计算机视觉任务带来了显着改进而且还产生了可以处理域转移的鲁棒模型。
3方法
3.1视觉语言预训练
我们简要介绍了视觉语言预训练特别关注CLIP (Radford et al, 2021)。我们的方法适用于更广泛的类似clip的视觉语言模型。
模型
CLIP由两个编码器组成一个用于图像另一个用于文本。图像编码器旨在将高维图像映射到低维嵌入空间中。图像编码器的架构可以采用CNN的形式如ResNet-50 (He et al . 2016)或ViT (Dosovitskiy et al . 2021)。另一方面文本编码器构建在Transformer (Vaswani等人2017)之上旨在从自然语言生成文本表示。
具体来说给定一个单词(标记)序列例如“一张狗的照片”CLIP首先将每个标记(包括标点符号)转换为小写字节对编码(BPE)表示(Sennrich等人2016)这本质上是一个唯一的数字ID。CLIP的词汇量为49,152。为了方便小批量处理每个文本序列都包含有[SOS]和[EOS]令牌并以77个固定长度为上限。之后将id映射到512-D单词嵌入向量然后将其传递给Transformer。最后对[EOS]令牌位置的特征进行层归一化并通过线性投影层进一步处理。
训练
CLIP被训练来分别对齐图像和文本的两个嵌入空间。具体来说学习目标被表述为对比损失。给定一批图像-文本对CLIP最大化匹配对的余弦相似性同时最小化所有其他未匹配对的余弦相似性。为了学习更容易转移到下游任务的各种视觉概念CLIP的团队收集了一个由4亿个图像文本对组成的大型训练数据集。
Zero-Shot推理
由于CLIP是预先训练来预测图像是否与文本描述匹配的因此它自然适合零样本识别。这是通过将图像特征与文本编码器合成的分类权重进行比较来实现的文本编码器将指定感兴趣类的文本描述作为输入。形式上设为图像编码器对图像提取的图像特征为文本编码器生成的一组权向量。K表示类的数量每个都来自一个提示符该提示符的形式可以是“一张[CLASS]的照片”其中类令牌被特定的类名替换例如“cat”、“dog”或“car”。
预测概率计算为 其中是由CLIP学习的温度参数和cos(·;·)为余弦相似度。
与传统的从随机向量中学习闭集视觉概念的分类器学习方法相比视觉语言预训练允许通过大容量文本编码器探索开放集视觉概念从而产生更广泛的语义空间从而使学习到的表征更易于转移到下游任务中。
3.2文本优化
我们提出了上下文优化(CoOp)它通过使用从数据中端到端学习的连续向量来建模上下文词同时冻结大量预训练的参数从而避免了手动提示调优。图2显示了概述。 图2上下文优化(CoOp)概述。主要思想是使用一组可学习的向量来建模提示上下文这些向量可以通过最小化分类损失来优化。提出了两种设计方案:一种是统一上下文所有类共享相同的上下文向量;另一个是类特定上下文它为每个类学习一组特定的上下文向量。
下面我们将提供几种不同的实现。
统一的上下文
我们首先引入统一上下文版本它与所有类共享相同的上下文。具体来说给出给文本编码器g(·)的提示符设计为如下形式: 其中每个是与词嵌入具有相同维度的向量(例如CLIP为512)M是指定上下文令牌数量的超参数。
me需要注意的是这些是由提取的自监督训练通过少量样本有监督学习而来的
通过将提示转发给文本编码器g(·)我们可以获得代表视觉概念的分类权重向量(仍然来自[EOS]令牌位置)。
预测概率计算为 其中每个提示符中的类标记被第i个类名的相应词嵌入向量替换。
除了像等式(2)那样把类标记放在序列的末尾我们还可以像这样把它放在序列的中间 这增加了学习的灵活性:提示符可以用补充描述填充后面的单元格或者通过使用终止信号(如句号)提前切断句子。
类专用上下文
另一种选择是设计特定于类的上下文(CSC)其中上下文向量独立于每个类即
。作为统一上下文的替代方案我们发现CSC对于一些细粒度的分类任务特别有用。
训练
基于交叉熵进行训练以最小化标准分类损失并且梯度可以通过文本编码器g(·)进行反向传播利用参数中编码的丰富知识来优化上下文。连续表示的设计也允许在词嵌入空间中进行充分的探索有利于任务相关语境的学习。
3.3讨论
我们的方法专门解决了最近提出的大型视觉语言模型(如CLIP)的适应问题(Radford et al, 2021)。我们的方法与NLP中针对语言模型开发的提示学习方法(例如GPT-3 (Brown et al, 2020))存在一些差异。首先类clip模型和语言模型的主干架构明显不同:前者将视觉和文本数据作为输入并产生用于图像识别的对齐分数而后者则专门用于处理文本数据。第二预训练目标不同:对比学习与自回归学习。这将导致不同的模型行为因此需要不同的模块设计。
4实验
4.1少样本学习
数据集
我们选择了CLIP中使用的11个公开可用的图像分类数据集:ImageNet (Deng等人2009)、Caltech101 (Fei-Fei等人2004)、OxfordPets (Parkhi等人2012)、StanfordCars (Krause等人2013)、Flowers102 (Nilsback和Zisserman, 2008)、Food101 (Bossard等人2014)、FGVCAircraft (Maji等人2013)、SUN397 (Xiao等人2010)、DTD (Cimpoi等人2014)、EuroSAT (Helber等人2019)和UCF101 (Soomro等人2012)(参见附录A的统计数据)。这些数据集构成了一个全面的基准涵盖了各种各样的视觉任务包括对通用对象、场景、动作和细粒度类别的分类以及识别纹理和卫星图像等专门任务。
我们遵循CLIP中采用的少样本评估方案(Radford et al . 2021)分别使用1、2、4、8和16shot进行训练并在完整的测试集中部署模型。报告三次运行的平均结果以进行比较。
训练细节
CoOp有四个版本:将类令牌定位在最后或中间;统一上下文vs CSC。除非另有说明否则使用ResNet-50 (He et al, 2016)作为图像编码器的主干并且将上下文令牌M的数量设置为16。讨论了其他设计选择的研究4.3节。所有模型都建立在CLIP的开源代码之上CoOp的上下文向量通过从标准差为0.02的零均值高斯分布中随机初始化。训练使用SGD和0.002的初始学习率完成该学习率通过余弦退火规则衰减。16/8镜头的最大epoch设置为200,4/2镜头的最大epoch设置为100,1镜头的最大epoch设置为50(除了ImageNet其中最大epoch固定为50)。为了减轻在早期训练迭代中观察到的爆炸性梯度我们使用热身技巧将学习率固定为1e−5仅在第一个epoch。
基线的方法
我们将CoOp与两种基线方法进行比较。第一种是零射击CLIP它是基于手工制作的提示。我们遵循Radford等人提出的提示工程原则(2021)。对于一般对象和场景采用“a [CLASS].”的照片。对于细粒度的分类任务相关的上下文被添加比如OxfordPets的“一种宠物”和Food101的“一种食物”。当涉及到识别DTD中的纹理等特殊任务时提示符被定制为“[CLASS] texture.”其中类名是形容词如“bubbly”和“点”。详见附录A。第二个基线是线性探针模型。正如Radford等人(2021)和最近的一项关于few-shot学习的研究(Tian等人2020)所建议的那样在高质量的预训练模型的特征(如CLIP)之上训练线性分类器可以很容易地获得与最先进的few-shot学习方法相当的性能后者通常要复杂得多。我们采用与Radford等人(2021)相同的训练方法来训练线性探针模型。
与手工提示符的比较
图3总结了结果。我们的默认模型是CLIPCoOp类令牌位于最后。定位类标记的两种不同方式实现了相似的性能因为它们的曲线高度重叠。从左上角显示的平均表现来看我们观察到CLIPCoOp是一个强大的少射学习者平均只需要两次射击就可以获得比零射CLIP更可观的边际。在16次训练的情况下CoOp带来的平均差距可以进一步提高到15%左右。
图4对CoOp获得的绝对改进进行了排名比手工制作的提示高出16个百分点。在EuroSAT和DTD等特殊任务上可以观察到巨大的改进其性能分别提高了45%和20%以上。性能上的飞跃也很显著(那些超过10%)在大多数细粒度数据集上包括Flowers102, StanfordCars和fgvc - aircraft以及场景和动作识别数据集(即SUN397和UCF101)。由于ImageNet是一个包含1,000个类的具有挑战性的数据集因此4.77%的改进也值得注意。相比之下两个细粒度数据集OxfordPets和Food101的增长就不那么吸引人了通过深入研究图3中这两个数据集上的CLIPCoOp曲线我们发现即使使用更多的镜头性能改进的势头也会下降这似乎是一个过拟合问题。一个潜在的解决方案是施加更高的正则化比如增加权重衰减。尽管如此总体结果足够强大足以证明CoOp能够以数据高效的方式学习任务相关提示。 图3 11个数据集上的few-shot学习的主要结果。总的来说CoOp有效地将CLIP变成了一个强大的少数射击学习者(实线)比零射击CLIP(星号)取得了显著的进步并且比线性探测替代方案(虚线)表现更好。M表示上下文长度。end或mid表示将类标记放在末尾或中间。CSC表示类特定的上下文。 图4 与手工制作提示符的对比。
与线性探针CLIP的比较
就整体性能而言(图3左上角)CLIPCoOp明显优于线性探针模型。后者平均需要4次以上的射击才能匹配零射击的表现而CoOp的平均4次射击已经令人印象深刻了。同样明显的是在极低的数据范围内如一次或两次射击差距要大得多这表明CoOp比从头开始学习线性分类器更有效。我们还观察到线性探针模型在两个专门任务(DTD和EuroSAT)以及几个细粒度数据集(Flowers102和fgvc - aircraft)上与CLIPCoOp相当这并不太令人惊讶因为预训练的CLIP空间已被证明是强大的使线性探针模型成为强大的竞争对手。然而CoOp的CSC版本可以在上述数据集上击败线性探针CLIP而且当有更多的镜头可用时显示出更好的潜力。我们随后证明在领域泛化方面CoOp比线性探针模型获得了更强的性能。
统一的vs类特定的上下文
平均而言使用统一上下文会带来更好的性能。关于什么时候申请CSC什么时候不申请CSC我们有以下建议。对于通用对象(ImageNet Caltech101)、场景(SUN397)和动作(UCF101)使用统一的上下文显然更好。统一上下文在一些细粒度数据集上也能更好地工作包括牛津宠物和Food101但在其他数据集上如斯坦福汽车、Flowers102和fgvc - aircraft, CSC版本是首选。CSC在两个特殊任务(DTD和EuroSAT)上也产生了更好的性能特别是在16-shot中。然而在挑战低数据场景(少于8-shot)时CSC的表现大多不如统一上下文这是有道理的因为CSC比统一上下文有更多的参数需要更多的数据进行训练。
4.2领域概化
由于CoOp需要在特定的数据分布上进行训练因此正如最近的研究所表明的那样它有可能学习虚假的相关性这不利于在看不见的分布(域)中进行泛化(Taori et al, 2020;Zhou et al, 2021)。相反零射击CLIP与特定的数据分布无关并且对分布变化表现出很强的鲁棒性(Radford et al, 2021)。在本节中我们的目标是揭示与零射击CLIP和线性探针模型相比CoOp对分布位移的鲁棒性。
数据集
源数据集是ImageNet。目标数据集是ImageNetV2 (Recht等人2019)、ImageNet- sketch (Wang等人2019)、ImageNet- a (hendricks等人2021b)和ImageNetR (hendricks等人2021a)所有这些数据集都具有与ImageNet兼容的类名允许无缝传输CoOp学习的提示。
ImageNetV2是在遵循ImageNet的数据收集过程时使用不同来源的再现测试集。ImageNet- sketch包含属于相同的1000个ImageNet类的草图图像。ImageNet- a和-R都包含从ImageNet的1000个类的子集派生的200个类。前者由真实世界的对抗性过滤图像组成导致当前的ImageNet分类器产生较低的结果而后者则以不同的图像风格(如绘画、漫画和雕塑)呈现ImageNet类。
结果
表1总结了结果(使用各种视觉主干)。令人惊讶的是CoOp增强了CLIP对分布变化的鲁棒性尽管暴露于源数据集。这表明习得的提示也是可概括的。此外有趣的是使用更少的上下文令牌可以获得更好的健壮性。相比之下线性探针模型在这些目标数据集上得到的结果要差得多暴露出它在领域泛化方面的弱点。在附录B中我们提供了DOSCO-2k (Zhou et al . 2022b)上的域泛化结果DOSCO-2k是最近提出的一个关注上下文域转移的基准。
4.3进一步分析
上下文的长度
应该使用多少上下文令牌?有更多的上下文令牌是不是更好?第4.2节的结果表明更短的上下文长度有利于域泛化(可能是由于学习的参数更少过拟合更少)。这里我们研究源数据集的超参数。具体来说我们通过改变上下文长度从4到8到16在11个数据集上重复实验。平均结果如图5(a)所示它表明拥有更多的上下文令牌会带来更好的性能而将类令牌定位在中间会随着上下文长度的增加而获得更多的动力。总而言之选择完美的上下文长度没有黄金法则因为需要在性能和分布转移的健壮性之间取得平衡。 图5 CoOp上下文长度和各种视觉主干的研究。
解读可学习的提示
解释学习到的提示是困难的因为上下文向量是在连续空间中优化的。我们采用一种间接的方式在词汇表中搜索最接近基于欧几里得距离的学习向量的单词。请注意CLIP (Radford等人2021)使用BPE表示(Sennrich等人2016)进行标记化因此词汇表包括经常出现在文本中的子词例如“hu”(包含许多单词如“hug”和human”)。表4显示了一些数据集上的搜索结果。我们注意到有几个词与任务有一定的相关性比如enjoyed(用于Food101) fluffy(用于牛津宠物)和\paw(用于牛津宠物)pretty(用于DTD)。但是当把所有最近的单词连接在一起时提示就没有多大意义了。我们还观察到当使用手动初始化(如“a photo of a”)时最接近收敛向量的词大多是用于初始化的词。我们推测学习到的向量可能会编码超出现有词汇表的含义。总的来说我们无法根据观察得出任何确定的结论因为使用最近的单词来解释学习到的提示可能是不准确的:向量的语义不一定与最近的单词相关。
Vision Backbones
图5(b)总结了使用涵盖cnn和vit的各种视觉主干在11个数据集上的结果。结果是预期的:越先进的骨干性能越好。CoOp和手工制作的提示符之间的差距在所有体系结构中都是显著的。
与提示合集的比较
CLIP (Radford et al, 2021)的作者建议可以通过集成使用不同手工制作提示生成的多个零射击分类器来获得额外的改进例如“一张大的[CLASS].”“一张[CLASS].”的坏照片和“一张折纸[CLASS].”它们分别反映了图像的不同比例视图和抽象。我们很想知道CoOp学到的提示与提示合奏相比是否还能保持优势。为了公平比较我们使用Radford等人的选择提示(2021)它已经在ImageNet上进行了广泛的调整以构建集成分类器。表2给出了比较证明了CoOp的优越性。鉴于即时集成的潜力未来的工作可以从集成的角度研究如何改进CoOp。
与其他微调方法的比较
我们进一步将CoOp与其他微调方法进行了比较:1)微调CLIP的图像编码器;Ii)优化添加到文本编码器输出的转换层;Iii)优化添加到文本编码器输出的偏置项。结果如表5所示。显然微调图像编码器的工作并不好。添加一个变换层稍微改善了零射击模型。添加偏倚项显示了有希望的结果但仍然在很大程度上低于CoOp这表明通过文本编码器的梯度提供了更多有用的信息。
初始化
我们将随机初始化与手动初始化进行比较。后者使用“a photo of a”的嵌入来初始化11个数据集的上下文向量。为了公平比较在使用随机初始化时我们还将上下文长度设置为4。表3表明“良好”的初始化没有太大区别。虽然进一步调优初始化词可能会有所帮助但在实践中我们建议使用简单的随机初始化方法。
5结论、局限性及未来工作
大型预训练的视觉语言模型在不同的下游应用中显示出惊人的强大能力。然而这些模型也被称为视觉基础模型因为它们具有“关键核心但不完整”的性质(Bommasani等人2021)需要使用自动化技术进行调整以获得更好的下游性能和效率。
我们的研究及时地揭示了clipllike模型如何通过使用提示学习转变为数据高效的学习器并揭示了尽管是基于学习的方法CoOp在领域泛化方面的表现要比手动提示好得多。结果有力地证明了快速学习在大型视觉模型中具有潜力。值得注意的是我们的论文首次全面研究了适应快速学习的大视觉模型。
虽然性能优异但CoOp的结果与NLP中其他持续提示学习方法一样相对难以解释。实验还表明在Food101的弱性能下CoOp对噪声标签很敏感。
尽管如此CoOp的简单性允许在未来的工作中轻松扩展并且仍然有许多有趣的问题需要探索例如跨数据集传输(Zhou等人2022a)和测试时间适应(Wang等人2020)。研究更通用的超大尺寸视觉模型的自适应方法也会很有趣(Jia et al, 2022;Bahng等2022;Gao et al, 2021)。综上所述我们希望本研究的实证发现和见解可以为未来新兴基础模型的有效适应方法研究铺平道路这仍然是一个新兴的研究课题。
参考资料
文章下载(IJCV CCF A 2022)
https://arxiv.org/abs/2109.01134 代码地址(1.5 stars)
GitHub - KaiyangZhou/CoOp: Prompt Learning for Vision-Language Models (IJCV22, CVPR22)