当前位置：首页 > news >正文

个人与企业签订网站开发合同网页制作教程实例

news 2025/11/15 5:01:42

个人与企业签订网站开发合同,网页制作教程实例,网络建设费用,软文营销案例温馨提示#xff1a; 本篇文章已同步至AI专题精讲 InstructBLIP#xff1a;迈向具备指令微调能力的通用视觉语言模型摘要大规模的预训练与instruction tuning在构建通用语言模型方面已取得显著成效。然而#xff0c;构建通用的视觉-语言模型仍然具有挑战性本篇文章已同步至AI专题精讲 InstructBLIP迈向具备指令微调能力的通用视觉语言模型摘要大规模的预训练与instruction tuning在构建通用语言模型方面已取得显著成效。然而构建通用的视觉-语言模型仍然具有挑战性因为附加的视觉输入带来了丰富的输入分布和任务多样性。尽管视觉-语言预训练已经被广泛研究视觉-语言instruction tuning仍然缺乏深入探索。本文基于预训练的BLIP-2模型开展了一项系统而全面的视觉-语言instruction tuning研究。我们收集了26个公开可用的数据集涵盖多种任务和能力并将其转换为instruction tuning格式。此外我们引入了一个instruction-aware的Query Transformer用于提取与给定指令相匹配的信息特征。在13个held-in数据集上训练后InstructBLIP在13个held-out数据集上实现了最先进的zero-shot性能显著优于BLIP-2和更大的Flamingo模型。我们的模型在个别下游任务上进行finetune时也达到了最优性能例如在带图像上下文的ScienceQA问题上达到了90.7%的准确率。此外我们通过定性分析展示了InstructBLIP相比同时期多模态模型的优势。所有InstructBLIP模型均已开源。 1 引言人工智能AI研究的一个长期愿景是构建一个能够解决用户指定的任意任务的单一模型。在自然语言处理NLP领域instruction tuning [46, 7]被证明是实现这一目标的有希望的方法。通过在由自然语言指令描述的多种任务上对大型语言模型LLM进行finetuneinstruction tuning使得模型能够遵循任意指令。近年来instruction-tuned的LLM也被应用于视觉-语言任务。例如BLIP-2 [20]有效地将冻结的instruction-tuned LLM适配于理解视觉输入并展现了初步的图像到文本生成任务中的指令遵循能力。相比NLP任务视觉-语言任务由于来自不同领域的附加视觉输入而更加多样化。这对一个旨在泛化至多种视觉-语言任务包括训练中未见任务的统一模型提出了更大挑战。以往的大多数工作可以归为两类方法。第一类方法是多任务学习 [6, 27]将各种视觉-语言任务统一为相同的输入-输出格式。然而我们通过实验证明见表4缺少指令的信息会导致这种方法在未见数据集和任务上的泛化能力较差。第二类方法 [20, 4]是在预训练LLM基础上扩展视觉组件并利用图像字幕数据训练这些视觉组件。然而这类数据过于有限难以实现对超越视觉描述的视觉-语言任务的广泛泛化。为了解决上述挑战本文提出了InstructBLIP这是一种视觉-语言instruction tuning框架使得通用模型可以通过统一的自然语言接口解决多种视觉-语言任务。InstructBLIP使用多样化的instruction数据对多模态LLM进行训练。具体而言我们以预训练的BLIP-2模型为起点该模型由图像编码器、LLM以及连接两者的Query TransformerQ-Former组成。在instruction tuning过程中我们对Q-Former进行finetune而保持图像编码器和LLM冻结。本论文的关键贡献如下我们对视觉-语言instruction tuning进行了系统而全面的研究。我们将26个数据集转换为instruction tuning格式并将其分为11类任务。我们使用13个held-in数据集进行instruction tuning使用13个held-out数据集进行zero-shot评估。此外我们在任务级别上保留了4个完整的任务类别用于zero-shot评估。详尽的定量和定性结果展示了InstructBLIP在视觉-语言zero-shot泛化方面的有效性。我们提出了一种instruction-aware视觉特征提取机制这是一种新的机制可以根据给定的指令进行灵活且信息丰富的特征提取。具体而言文本指令不仅被传递给冻结的LLM也被输入给Q-Former从而Q-Former可以从冻结的图像编码器中提取与指令相关的视觉特征。此外我们提出了一种平衡采样策略以在不同数据集之间同步学习进度。我们基于两类LLM评估并开源了一系列InstructBLIP模型1FlanT5 [7]一种从T5 [34] finetuned而来的encoder-decoder型LLM2Vicuna [2]一种从LLaMA [41] finetuned而来的decoder-only型LLM。InstructBLIP模型在多种视觉-语言任务上实现了最先进的zero-shot性能。此外作为下游任务的模型初始化InstructBLIP模型在finetuning时也达到了最优性能。 2 视觉-语言指令调优 InstructBLIP 旨在应对 vision-language instruction tuning 中的独特挑战并对模型在未见数据和任务上的泛化能力提升进行系统研究。本节首先介绍 instruction tuning 数据的构建方式然后阐述训练与评估协议。接着从模型和数据两个角度出发详细说明两种提升 instruction tuning 效果的技术。最后给出实现细节。 2.1 任务与数据集为了在保证 instruction tuning 数据多样性的同时兼顾其可获取性我们收集了一套全面的、公开可用的 vision-language 数据集并将其转化为 instruction tuning 格式。如图 2 所示最终的集合涵盖了 11 个任务类别和 26 个数据集包括图像描述image captioning[23, 3, 51]图像描述与阅读理解结合任务image captioning with reading comprehension[38]视觉推理visual reasoning[16, 24, 29]图像问答image question answering[11, 12]基于知识的图像问答knowledge-grounded image question answering[30, 36, 28]结合阅读理解的图像问答image question answering with reading comprehension[31, 39]图像问题生成image question generation改编自 QA 数据集视频问答video question answering[47, 49]视觉对话问答visual conversational question answering[8]图像分类image classification[18]以及 LLaVA-Instruct-150K [25]。我们在附录 C 中提供了每个数据集的详细描述和统计信息。针对每个任务我们精心设计了 10 到 15 个不同的自然语言 instruction 模板。这些模板作为构建 instruction tuning 数据的基础明确描述了任务及其目标。对于那些本身偏向生成简短回答的公开数据集我们在其对应的部分 instruction 模板中加入了“short”、“briefly”等词语以降低模型固定生成简短输出的过拟合风险。对于 LLaVA-Instruct-150K 数据集我们没有额外加入 instruction 模板因为其本身已是 instruction 格式。全部 instruction 模板列表见附录 D。 2.2 训练和评估协议为了确保训练和 zero-shot 评估中有足够的数据和任务我们将这 26 个数据集划分为 13 个 held-in 数据集和 13 个 held-out 数据集分别在图 2 中以黄色和白色标注。我们使用 held-in 数据集的训练集进行 instruction tuning并利用其验证集或测试集进行 held-in 评估。对于 held-out 评估我们的目标是理解 instruction tuning 如何提升模型在未见数据上的 zero-shot 表现。我们定义了两种类型的 held-out 数据1训练过程中模型未接触的数据集但其任务类型在 held-in 集合中出现过2训练过程中完全未接触的数据集及其相关任务。第一类 held-out 评估面临的挑战在于 held-in 与 held-out 数据集之间的数据分布偏移。对于第二类情况我们完全保留了一些任务未用于训练包括视觉推理visual reasoning、视频问答video question answering、视觉对话问答visual conversational QA和图像分类image classification。为避免数据污染我们对数据集进行了精心筛选确保任何评估数据不会出现在 held-in 训练集合中。instruction tuning 过程中我们将所有 held-in 训练集混合并对每个数据集均匀采样其 instruction 模板。模型使用标准的语言建模损失进行训练以根据 instruction 直接生成响应。此外对于包含场景文字的任务数据集我们在 instruction 中加入 OCR tokens 作为补充信息。 2.3 基于指令的视觉特征提取现有的 zero-shot 图像到文本生成方法包括 BLIP-2在提取视觉特征时不考虑 instruction因此无论任务为何输入到 LLM 的都是一组静态视觉表示。相比之下instruction-aware 的视觉模型可以根据任务指令调整自身从而生成更有利于当前任务的视觉表示。如果我们期望对于同一张图像的任务指令会有显著变化那么这种方式显然更具优势。我们在图 3 中展示了 InstructBLIP 的架构。类似于 BLIP-2 [20]InstructBLIP 使用一个 Query Transformer即 Q-Former从冻结的图像编码器中提取视觉特征。Q-Former 的输入包括一组 K 个可学习的查询嵌入query embeddings这些嵌入通过交叉注意力与图像编码器的输出进行交互。Q-Former 的输出是一组 K 个编码后的视觉向量每个查询嵌入对应一个这些向量经过线性投影后被送入冻结的 LLM。与 BLIP-2 一样Q-Former 在 instruction tuning 之前需通过图像-文本数据完成两阶段预训练。第一阶段中Q-Former 与冻结图像编码器一同用于 vision-language 表示学习第二阶段中将 Q-Former 的输出适配为用于文本生成的软视觉提示soft visual prompts此时 LLM 仍处于冻结状态。在预训练完成后我们在 instruction tuning 阶段对 Q-Former 进行微调此时 LLM 接收来自 Q-Former 的视觉编码和任务指令作为输入。在 BLIP-2 的基础上InstructBLIP 提出了一个 instruction-aware 的 Q-Former 模块该模块将指令文本 token 作为额外输入。指令通过 Q-Former 的自注意力层与查询嵌入进行交互从而促进任务相关图像特征的提取。由此LLM 接收到有助于执行指令的视觉信息。我们通过实验证明见表 2instruction-aware 的视觉特征提取在 held-in 和 held-out 的评估中都带来了显著的性能提升。 2.4 平衡训练数据集由于训练数据集数量众多且各数据集规模差异显著若直接对它们进行均匀混合可能导致模型对小数据集过拟合、对大数据集欠拟合。为缓解该问题我们提出按数据集大小的平方根比例进行采样。一般地设有 DD 个数据集大小为 {S1,S2,…,SD}\{ S _ { 1 } , S _ { 2 } , \ldots , S _ { D } \}{S1,S2,…,SD}训练期间从数据集 dd 采样的概率为pdSd∑i1DSi.\begin{array} { r } { p _ { d } \frac { \sqrt { S _ { d } } } { \sum _ { i 1 } ^ { D } \sqrt { S _ { i } } } . } \end{array}pd∑i1DSiSd. 在此基础上我们对某些数据集的权重进行了手动调整以优化训练过程。这种调整是合理的因为尽管一些数据集规模相近但由于任务本身的差异其训练难度和所需训练强度也不相同。具体来说我们降低了包含多项选择题的 A-OKVQA 的权重同时提高了需要生成开放式文本答案的 OKVQA 的权重。表 2 显示该平衡数据集采样策略在 held-in 评估和 held-out 泛化方面均提升了整体性能。 2.5 推理方法在推理阶段我们针对不同数据集采用了两种略有不同的生成方法。在大多数数据集如图像描述和开放式 VQA上我们直接用指令微调后的模型进行生成然后将其输出与真实答案对比以计算指标。而对于分类和多项选择的 VQA 任务我们遵循以往工作的方法 [46, 22, 21]采用词汇排名的方式。具体来说我们仍然提示模型生成答案但将其输出词汇限制在候选列表中。然后计算每个候选答案的对数似然值选择值最大的作为最终预测结果。该排名方法应用于 ScienceQA、IconQA、A-OKVQA多项选择、HatefulMemes、Visual Dialog、MSVD 和 MSRVTT 数据集。此外对于二分类任务我们将正负类别扩展为一组更通用的 verbalizer语言标记以利用自然文本中的词频例如将正类扩展为 yes 和 true负类扩展为 no 和 false。对于视频问答任务我们从每段视频中均匀采样四帧图像。每帧图像分别通过图像编码器和 Q-Former 处理提取出的视觉特征再拼接后输入到 LLM。温馨提示阅读全文请访问AI深语解构 InstructBLIP迈向具备指令微调能力的通用视觉语言模型

查看全文

http://www.zqtcl.cn/news/692646/