当前位置: 首页 > news >正文

淄博网站的优化上海营销网站建站公司

淄博网站的优化,上海营销网站建站公司,商业网站排名,做袜子娃娃的网站前言 随着人工智能技术的不断进步#xff0c;多模态成为备受瞩目的研究方向。多模态技术旨在融合不同类型的数据和信息#xff0c;以实现更准确、高效的人工智能应用。有学者认为它代表了所有模型发展的最终趋势。这类模型旨在接受多种不同的输入方式#xff0c;例如图像、…前言 随着人工智能技术的不断进步多模态成为备受瞩目的研究方向。多模态技术旨在融合不同类型的数据和信息以实现更准确、高效的人工智能应用。有学者认为它代表了所有模型发展的最终趋势。这类模型旨在接受多种不同的输入方式例如图像、文本、语音并在某些情况下生成不同模态的输出。其中CLIPContrastive Language-Image Pre-training模型是多模态深度学习领域的一项具有里程碑意义的成果。CLIP模型提出了一种融合文本和图像数据的对比学习范式通过将文本信息作为弱监督信号用于监督相关的视觉任务训练在相关的视觉任务中取得了较好的结果。 一、多模态的定义 多模态Multimodality是指利用两种或多种感官同时进行信息交互的方式。在人工智能领域多模态技术通过融合来自不同感官的数据和信息提升人工智能系统对复杂信息的理解和处理能力从而提高性能和应用范围。 二、多模态研究内容 多模态研究涵盖多个方面包括多模态数据采集、多模态数据融合和多模态学习等。 多模态数据采集 多模态数据采集指同时获取多种类型的数据和信息。在人工智能领域这包括图像、音频、视频、文本等多样数据形式。通过使用不同传感器或设备如摄像头、麦克风、雷达等实现对多模态数据的综合采集。这种方法提供更丰富、全面的信息有助于提高系统性能和准确性。 多模态数据融合 多模态数据融合旨在整合不同类型的数据和信息以获取更准确、全面的信息。这些数据和信息涉及多个感官和传感器如视觉、听觉、触觉等。融合方法包括特征融合和深度融合等。通过多模态数据融合人工智能系统能更好地理解和处理复杂信息提高性能和应用范围。 多模态学习 多模态学习是指在机器学习任务中同时利用多种类型的数据和信息。在人工智能领域多模态学习涉及图像分类、语音识别、自然语言处理等多个方面。通过多模态学习系统能够更充分地利用各种类型的数据和信息提升性能和适用范围。 CLIP 1、简介 大部分计算机视觉任务通常依赖于预先定义的标签进行监督式训练然而这种方式存在一定的局限限制了模型的泛化能力和实用性。与此不同的是自然语言处理领域已经通过自监督学习的方法有效地利用大量语料数据进行模型训练。在这一启发下本文提出了一种有潜力的方法即通过直接从图像的描述文本中学习以获取更多的监督信号。本文借助从互联网采集的4亿个图像和文本对数据在这个思想的指导下通过对比学习的方式执行图像与文本的匹配任务将自然语言作为监督信号从而学习图像的特征表示。在预训练完成后该模型在给定一张图片和一组多样的文本描述时能够判断哪个文本描述与图片最匹配。这一过程实现了模型在各种下游任务上的零样本迁移能力。在30个不同类型的计算机视觉下游任务上进行的基准测试中本文的预训练模型CLIP无需额外数据即能够取得与完全监督基准线相当的效果凸显了模型强大的迁移能力。 2. 零样本迁移学习 Zero-shot learning指的是模型能够对其从未见过的类别进行分类使得机器具备推理能力实现真正的智能。在传统监督学习中模型通常需要在每个类别上具有大量标记样本的支持。然而零样本学习的独特之处在于它能够处理模型在训练过程中未见过的类别。 零样本学习通过学习不同类别之间的关系来进行分类。具体而言模型在训练时学习到了从已知类别到新类别之间的映射或关联。这通常通过使用语义嵌入semantic embeddings或属性信息来实现。在测试阶段当模型遇到新类别时它能够利用先前学到的关系将新类别映射到合适的类别标签实现对该类别的分类。 零样本学习的应用场景包括在自然语言处理、计算机视觉等领域中当存在大量已知类别但只有少数或没有样本可用于新类别时。这使得模型能够适应新类别而无需重新训练整个模型。零样本学习克服了传统监督学习对大量标记样本的依赖为模型处理新领域或未知类别提供了更大的灵活性。 假设小明和爸爸去了动物园。他们看到了马爸爸告诉小明“这就是马。” 接着他们看到了老虎爸爸解释说“看这种身上有条纹的动物就是老虎。” 最后他们去看了熊猫爸爸告诉小明“你看这熊猫是黑白色的。” 然后爸爸给小明提出一个任务让他在动物园里找一种他从未见过的动物名字叫斑马并告诉了小明关于斑马的信息“斑马有着马的轮廓身上有像老虎一样的条纹而且它像熊猫一样是黑白色的。” 最终小明根据爸爸的提示在动物园里找到了斑马。 对于机器而言Zero-shot learning的本质是根据一定的提示信息自动学习不同类别动物的特征并进行总结归纳以实现推理。这使得模型能够处理未知类别展示出类似人类的学习和推理能力。 3.CLIP模型 CLIP模型的核心思想是通过文本的弱监督信号训练一个优秀的视觉模型。该模型的输入包括图片和文字的配对数据其中图片输入到Image Encoder获取相应的图像特征表征向量文本输入到Text Encoder得到对应的文本特征向量。在每个训练批次中包含n个图片-文本对分别得到n个图片的特征和n个文本的特征然后通过对比学习在这些特征上进行训练。特征矩阵中对角线上的元素表示正样本即真实匹配的文本和图像对而其他元素则表示负样本共有n个正样本和n^2 - n个负样本。 相对于预测性任务例如图片预测文本对比学习将任务转化为图片和文本的匹配问题降低了任务的复杂性和难度。通过将任务简化为相似度度量问题避免了涉及具体文本和图像概率分布的问题从而显著提高了训练效率。CLIP模型通过对比学习进行模型训练如图中所示对比学习策略大幅提升了训练速度。 此外CLIP模型设计了两个额外的阶段以实现更好的零迁移学习。首先从标签文本创建数据集分类器其过程涉及提示学习对文本进行修饰然后进行编码以及通过Image Encoder获取的图像编码向量进行相似性评估得到相应的标签。 其次在零迁移学习阶段通过对比学习来评估文本特征向量和图像特征向量的相似度。在提示学习中采用了“A photo of a {object}”这样的提示模板将原始ImageNet图片数据的标签填入花括号中生成完整的句子。这种方式符合了模型在预训练时文本端输出是句子的要求并更符合互联网文本的特征。添加提示模板有助于模型挖掘更深层次的信息作者设计了80个模板其中一些包含更丰富的信息有助于模型更好地区分图片中的物体。 最后的评估阶段使用对比学习来比较文本特征向量和图像特征向量的相似度。需要注意的是由于文本和图像两者的分布空间差异较大它们在特征提取和编码之后所在的表示空间也存在差异。因此在进行相似度评估之前需要分别设置两个投影头W_i和W_t并采用L2正则化操作以尽可能整合图片和文本的表征子空间。 4.实验 在实验分析中作者对CLIP模型的性能进行了详细对比主要关注了其强大的迁移学习能力、模型的稳定性和鲁棒性以及可能存在的数据泄露问题。以下是部分实验内容的介绍包括零样本学习Zero-shot、少样本学习Few-shot linear probing以及使用全部数据进行线性探测Linear probing这三个方面。 4.1 零样本学习Zero-shot Classification 在零样本分类推理中CLIP模型的输入是一张图片。对于每个可能的分类标签使用句子模板构建描述文本例如A photo of {label}。通过对图像和描述文本进行编码得到它们的嵌入特征。随后计算图像嵌入特征与每个标签嵌入特征之间的余弦相似度并选择具有最高相似度的标签作为预测的分类结果。此过程中句子模板被称为“prompt”提示而对prompt的设计被称为“prompt engineering”。 CLIP模型在这个任务中的创新之处在于可以自由设置不同的分类标签打破了传统分类问题中预先定义标签类别的范例。对于类别数量和内容CLIP没有固定限制这使得它在处理具有不同类别的问题时更加灵活。 4.2 零样本 CLIP 通过在27个数据集上比较零样本 CLIP 和在 ImageNet 数据上预训练的 ResNet50 线性探测的性能结果显示 CLIP 在16个数据集上优于基于 ResNet-50 特征的完全监督线性分类器。然而在某些复杂或抽象的数据集上如卫星图像分类和淋巴结转移检测CLIP的表现相对较差这表明处理这些复杂数据集时通常需要一定的先验知识。 此外在 MNIST 数据集上CLIP的分类准确率仅为 88%。作者分析了CLIP的训练数据发现在 4 亿个样本中几乎没有与 MNIST 相似的数据这表明 CLIP 在处理域外数据时存在泛化困难的问题。 4.3 少样本学习Few-shot CLIP CLIP在复杂任务上的表现相对较弱因此作者探讨了向CLIP提供少量样本是否能够改善其性能。Few-shot CLIP的表现明显超越了当前公开性能最佳的模型BiT-M表明当CLIP获得少量样本用于学习时其在处理复杂任务上的性能有望显著提升。 在少量样本的情况下Few-shot CLIP的性能高于零样本情况但在提供一个或两个样本的情况下性能低于零样本情况这是一个有趣的现象。作者解释称零样本分类器类似于已经训练好的最终分类器而在进行线性探测时由于需要放弃文本编码器每个类别只有一个标注样本可能不足够初始性能可能会下降。 4.4 线性探测 CLIP 性能 在使用全部下游任务数据进行线性探测的实验中CLIP表现出色这加强了其在迁移学习方面的优势。
http://www.zqtcl.cn/news/386609/

相关文章:

  • 长春网站建设硕成传媒长春电商网站建设哪家好
  • 舟山建设管理网站手表交易网站
  • 如何电话推销客户做网站沉浸式展厅搭建商
  • 重庆网站建设开发e福州官方网站
  • 网站怎么可以被收录广州网站建设全包
  • 网站备案期间如何采购需求网站建设
  • 东莞seo网站优化运营南通网站排名外包
  • 新能源网站建设唐山专业网站建设公司
  • 石基网站建设临沂网站优化哪家好
  • 用node.js可以做网站吗上海做网站 公司有哪些
  • 淄博网站建设详细策划一个域名解析多个网站
  • 无锡网站建设首选捷搜网站优化大赛
  • 部门网站建设多少钱百度关键词挖掘查询工具
  • 做游戏直播那个网站asp做网站教程
  • 网站建设小程序开发情侣头像制作素材图片
  • spoc课程网站建设专业彩票网站建设
  • 创建网站需要注意什么忻州市城乡建设管理局网站
  • 万江做网站wordpress 动静
  • 北京自助模板建站遂宁企业网络推广方案
  • 湖南建设科技节能协会网站武夷山景区网站建设特点
  • 那些网站建设的好百度搜索风云排行榜
  • 网站开发 模板 c沈阳市建设工程质量检测中心网站
  • 企业网站设计专业好吗做钓鱼网站要具备什么
  • 广西备案工信部网站用asp.net做后台网站
  • 静态网站漏洞wordpress 外卖
  • 暗网做网站温州做网络推广的公司
  • 网站描述 修改上海火迎网络推广运营优化
  • 黄石网站建设哪家专业做个网站费用
  • 免费做的网站怎么设置域名解析宁夏百度seo
  • 化妆品产品的自建网站有哪些阿里云cdn wordpress错位