外国纪录片网站机场建设,海外seo是什么,给国外做网站,大学网站开发与管理课程心得体会文章目录 前言一、摘要二、引言三、贡献四、模型方法五、论文链接总结 前言
最近#xff0c;我一直在搞多模态大模型相关工作#xff0c;也深知CLIP结构重要性#xff0c;而EVA-CLIP论文是在CLIP模型基础上进行了一系列trick#xff0c;实现优越CLIP模型的方法#xff0c… 文章目录 前言一、摘要二、引言三、贡献四、模型方法五、论文链接总结 前言
最近我一直在搞多模态大模型相关工作也深知CLIP结构重要性而EVA-CLIP论文是在CLIP模型基础上进行了一系列trick实现优越CLIP模型的方法恰巧该EVA-CLIP也被CogVLM模型作为图像特征提取。为此我将在本博客对EVA-CLIP论文进行解读。 一、摘要
对比图形文本预训练模型简称CLIP因其在多个场景潜力受到很多人关注。在这篇文章我们提出一系列EVA-CLIP模型显著提高CLIP训练性能与效果。我们方法包含新的学习表征、优化器和增强使EVA-CLIP实现更高性能与先前相同参数下的CLIP模型相比且更少训练成本。明显的我们最大5B参数模型在9B课件样本实现82%zero-shot top-1精度在ImageNet-1K val数据上。更小430million参数和6B可见样本在ImageNet-1K val数据上实现80.4%zero-shot top-1精度。为了促进开放存取和开放研究我们向社区发布了完整的EVA-CLIP代码。 二、引言
CLIP模型是一个很强的视觉语言基准模型通过图像文本对比学习在大规模数据上预训练学习丰富视觉特征表达。CLIP模型显示了稳定的zero-shot迁移能增强木多模态和单模态视觉任务列如AI生成应用包含[41,20,32,45].尽管CLIP有很重要意义但CLIP模型因其高计算成本和训练不稳定问题构成一个挑战。
在这篇文章我们提出EVA-CLIP模型一系列模型提供灵活、有效解决CLIP训练问题。我们方法包含一系列技术能减少训练成本使其稳定训练和提高泛化性能包含CLIP预训练初始化EVA[20,19]方法LAMB[52]优化器方法随机drop 输入tokens[33]方法和加速trick叫flash attention[15]方法。在这些技术下我们能极大稳定CLIP模型训练减少计算成本和改善性能。之后描述就是摘要实验结果。
三、贡献
集成众多论文一系列trick减少CLIP模型训练成本、训练稳定、提供性能与泛化。
四、模型方法
该模型是对CLIP进行一系列trick优化其训练方法至于众多优化方法来源不同文章方法我将其罗列如下至于更深入理解可自习根据论文查看。
CLIP初始化借鉴 Exploring the limits of masked visual representation learning at scale A visual representation for neon genesis
优化器借鉴 Large batch optimization for deep learning: Training bert in 76 minutes
drop token借鉴 Scaling language-image pre-training via masking
加速flash attention借鉴 Flashattention: Fast and memory-efficient exact attention with io-awareness
五、论文链接
该论文有部分注释下载链接如下 链接https://pan.baidu.com/s/1osN_qmRyrrMdQQ0S9GWVRA 提取码clip 总结
一系列模型改善使用其它模型系列方法改善CLIP训练的论文。