内蒙古建设工程社保中心网站,快手app下载安装免费下载,网页设计优化网站建设可以吗,门户网站建设工作讲话文章目录 前言1 如何实现#xff1f;1.概论2 训练3.有什么用#xff1f;1.如何进行推理 4 通过代码来玩clip模型 前言
本文专门开一节写SD原理相关的内容#xff0c;在看之前#xff0c;可以同步关注#xff1a; stable diffusion实践操作
CLIP#xff0c;OPENAI 的产品… 文章目录 前言1 如何实现1.概论2 训练3.有什么用1.如何进行推理 4 通过代码来玩clip模型 前言
本文专门开一节写SD原理相关的内容在看之前可以同步关注 stable diffusion实践操作
CLIPOPENAI 的产品它解决文字和图片之间对应的问题。 我们常规训练模型后万一要新增一个分类这个时候只能重新训练然后重复之前的工作。 那么有没有一个办法让我们不用重复之前的工作呢 GPT中有一个zero-shot我们只要训练好一个大模型然后通过一些提示就能让它自动分类识别。 足够大的模型足够大的语料就能完成这个任务
我们想要一个足够大的图片模型然后能做成zeroshot比如原来只有1k个类别突然来了一个新的类别它也能认识不需要再训练了。 把GPT中文本的方法也用到视觉中来一个迁移能力非常强的能力自动认识新类别。
1 如何实现
transform 模型 文本的encoder就是transtorm就是一个GPT把一个词语提取特征转成向量 图像转特征
1.概论
clip需要大数据量
预训练模型没有针对任何分类类别做的而是通过对比学习的思想来通过文本指引帮我们生成任务
2 训练
对角线是正样本对比学习。 比如文本描述狗图片狗这个就是正样本 什么是对比学习 一批batch,让对角线自己和自己的描述一致这就是正样本。 让模型学习这幅图片大致描述的是什么。 现在关注的不是类别而是本质。
3.有什么用
1.如何进行推理
一个图片想要分类你就给它类别对比相似度。 提示词的好坏决定了结果。
4 通过代码来玩clip模型