北京网站建设 找奥美通全网营销,专业网站建设网页推广,深圳今天最新通知,软件开发专业有哪些课程Lseg 在clip后面加一个分割head#xff0c;然后用分割数据集有监督训练。textencoder使用clip#xff0c;frozen住。
group ViT 与Lseg不同#xff0c;借鉴了clip做了真正的无监督学习。 具体的通过group block来做的。使用学习的N个group token#xff08;可以理解为聚类…Lseg 在clip后面加一个分割head然后用分割数据集有监督训练。textencoder使用clipfrozen住。
group ViT 与Lseg不同借鉴了clip做了真正的无监督学习。 具体的通过group block来做的。使用学习的N个group token可以理解为聚类中心数量与图像做attention。分别加入两次。一个为64个一次为8个粗聚类-精聚类最后pooling后与文本做对比学习。 结果发现分割已经做的很好了。分类结果还差一些。
ViLD clip目标检测 对N个proposal与textopen 类别分别提特征然后计算相似度。 然后额外增加一个分支对M个proposal的图片N里面取topM使用clip的Image encoder提特征与目标检测的图片特征做知识蒸馏。
Glip 统一了检测和grounding类似VQA又使用了伪标签引入了非常多的图像文本对用于预训练效果非常好。 具体做法和clip很像文本分支和图像分支算距离然后求alignment loss相当于分类分支再加一个定位loss。 然后加入了一个文本图像的融合模块使用cross-attention整个框架和ViLD-text很像。