当前位置: 首页 > news >正文

centos wordpress 整站网站制作建设建议兴田德润

centos wordpress 整站,网站制作建设建议兴田德润,南浔做网站,上海公司注册网上查名VLMs之Gemma 2#xff1a;PaliGemma 2的简介、安装和使用方法、案例应用之详细攻略 导读#xff1a;2024年12月4日#xff0c;PaliGemma 2是一个基于Gemma 2系列语言模型的开源视觉语言模型 (VLM) 家族。PaliGemma 2 通过提供一个规模化、多功能且开源的VLM家族#xff0c;…VLMs之Gemma 2PaliGemma 2的简介、安装和使用方法、案例应用之详细攻略 导读2024年12月4日PaliGemma 2是一个基于Gemma 2系列语言模型的开源视觉语言模型 (VLM) 家族。PaliGemma 2 通过提供一个规模化、多功能且开源的VLM家族为视觉语言模型的研究和应用提供了重要的贡献并为未来研究提供了宝贵的经验和数据。 背景痛点现有的视觉语言模型 (VLM) 在模型规模和图像分辨率方面缺乏系统性的研究尤其缺乏对不同大小的语言模型与图像分辨率对微调迁移性能影响的联合研究。许多先前工作使用不同架构和训练方法的模型难以进行公平比较。现有的开源VLM在处理一些特定任务如OCR相关任务、长细粒度字幕生成、医学影像报告生成等方面性能不足或者需要依赖特定任务的架构组件。 具体的解决方案PaliGemma 2 通过将SigLIP-So400m视觉编码器与Gemma 2系列语言模型2B、9B、27B参数量结合并训练三种不同分辨率224px²、448px²、896px²的模型来解决上述痛点。它采用三阶段训练策略提升模型的迁移学习能力。 核心思路步骤 ● 三阶段训练 ●● 阶段1将预训练的SigLIP-So400m和Gemma 2模型联合训练使用10亿个多模态数据样本目标是提升模型的迁移能力。分辨率为224px²。 ●● 阶段2在448px²和896px²分辨率下继续训练提升高分辨率任务的性能并增加输出序列长度以适应OCR等任务。 ●● 阶段3对阶段1或2的模型进行针对特定任务的微调。 ● 模型架构采用SigLIP-So400m视觉编码器提取图像特征并通过线性投影将其映射到Gemma 2语言模型的输入空间然后与文本提示一起输入Gemma 2模型进行自回归预测。 ● 超参数调整根据模型大小调整学习率较大的模型使用较小的学习率。 优势 ● 模型家族提供不同大小和分辨率的模型方便研究模型规模和分辨率对迁移性能的影响。 ● 开源所有模型权重都公开发布方便其他研究者使用。 ● 多功能性在多种视觉语言任务上取得了最先进的结果包括一些先前未深入探索的任务例如表格结构识别、分子结构识别、乐谱识别、长细粒度字幕生成和医学影像报告生成等。 ● 高效的CPU推理通过gemma.cpp框架支持低精度量化可在CPU上进行高效推理。 结论和观点 ● PaliGemma 2在多种下游任务上表现出色尤其是在计算资源充足的情况下更大的模型尺寸和更高的分辨率能显著提升性能。 ● 模型大小和分辨率对不同任务的影响不同有些任务更受益于高分辨率有些任务更受益于更大的语言模型。 ● 较大的模型通常具有较低的最佳迁移学习率。 ● PaliGemma 2在一些特定领域任务如OCR、分子结构识别、乐谱识别、医学影像报告生成等上取得了最先进的结果展示了其在各种应用中的通用性和强大能力。 ● 虽然在经典目标检测任务上的表现不如专门设计的检测器但PaliGemma 2依然在一些涉及目标定位的视觉语言任务如指代表达式理解和分割上表现出色。 目录 相关文章 《PaliGemma 2: A Family of Versatile VLMs for Transfer》翻译与解读 PaliGemma 2的简介 1、PaliGemma 2 版本包含以下检查点bfloat16 精度 2、模型性能 PaliGemma 2的安装和使用方法 1、安装 2、使用方法 推理示例 (使用 10B 参数量在 DOCCI 数据集上微调的模型) 量化推理 (使用 bitsandbytes 库进行 4-bit nf4 量化) PaliGemma 2的案例应用 DOCCI 数据集上的长细粒度字幕生成 VQAv2 数据集上的视觉问答 相关文章 《PaliGemma 2: A Family of Versatile VLMs for Transfer》翻译与解读 地址 论文地址https://arxiv.org/abs/2412.03555 时间 2024年 12月4 日 作者 Google DeepMind 摘要 PaliGemma 2 是基于 Gemma 2 系列语言模型的 PaliGemma 开放式视觉语言模型VLM的升级版。我们将 PaliGemma 也使用的 SigLIP-So400m 视觉编码器与整个 Gemma 2 模型系列相结合从 20 亿参数的模型一直到 270 亿参数的模型。我们在三个分辨率224 像素、448 像素和 896 像素下分多个阶段训练这些模型以使它们具备广泛的知识以便通过微调进行迁移。由此产生的涵盖不同模型大小和分辨率的基础模型系列使我们能够研究影响迁移性能的因素如学习率并分析任务类型、模型大小和分辨率之间的相互作用。我们进一步增加了 PaliGemma 范围之外的迁移任务的数量和广度包括不同的 OCR 相关任务如表格结构识别、分子结构识别、乐谱识别以及长细粒度描述和放射学报告生成在这些任务上 PaliGemma 2 取得了最先进的结果。 PaliGemma 2的简介 PaliGemma 2 是 PaliGemma 模型的迭代升级版本。它沿用了强大的 SigLIP 视觉编码器但将文本解码器升级到了最新的 Gemma 2。 PaliGemma 2 提供了三种不同参数规模的预训练模型3B、10B 和 28B 参数量并且都支持 224x224、448x448 和 896x896 三种输入分辨率。这种组合提供了很大的灵活性使用者可以根据自己的需求在质量和效率之间取得平衡。相比之下之前的 PaliGemma 只有 3B 参数量版本。 预训练模型设计易于微调到下游任务。PaliGemma 2 使用了 Gemma 许可证允许重新分发、商业用途、微调和创建模型衍生品。 总而言之PaliGemma 2 提供了多种参数规模和分辨率的模型易于使用和微调并在多个视觉语言任务上表现出色是一个功能强大的开源视觉语言模型。 地址https://huggingface.co/blog/paligemma2 1、PaliGemma 2 版本包含以下检查点bfloat16 精度 9 个预训练模型3B、10B 和 28B 参数量分辨率分别为 224x224、448x448 和 896x896。 2 个在 DOCCI 数据集上微调的模型支持 3B 和 10B PaliGemma 2 变体输入分辨率为 448x448。这些模型展示了生成长、细致和详细字幕的多功能性和鲁棒性。 预训练模型的数据混合包含WebLI大规模多语言图像文本数据集、CC3M-35L精选的英语图像 alt_text 对并翻译成 34 种其他语言、VQ2A改进的用于问答的数据集也翻译成 34 种其他语言、OpenImages检测和目标感知的问答、WIT从维基百科收集的图像和文本。 2、模型性能 #char生成的标题中的平均字符数。 #sent平均句子数。 NES用于衡量事实不准确性的非蕴涵句子越低越好。 PaliGemma 2的安装和使用方法 1、安装 首先需要安装 transformers 库的 4.47 或更高版本 pip install --upgrade transformers 2、使用方法 主要介绍了使用 Transformers 库进行推理。 推理示例 (使用 10B 参数量在 DOCCI 数据集上微调的模型) from transformers import AutoProcessor, PaliGemmaForConditionalGeneration from PIL import Image import requestsmodel_id google/paligemma2-10b-ft-docci-448 model PaliGemmaForConditionalGeneration.from_pretrained(model_id) model model.to(cuda) processor AutoProcessor.from_pretrained(model_id)prompt imagecaption en image_file https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/cats.png raw_image Image.open(requests.get(image_file, streamTrue).raw).convert(RGB)inputs processor(prompt, raw_image, return_tensorspt).to(cuda) output model.generate(**inputs, max_new_tokens200)input_len inputs[input_ids].shape[-1] print(processor.decode(output[0][input_len:], skip_special_tokensTrue)) # A medium shot of two cats laying on a pile of brown fishing nets. The cat in the foreground is a gray tabby cat with white on its chest and paws. The cat is laying on its side with its head facing the bottom right corner of the image. The cat in the background is laying on its side with its head facing the top left corner of the image. The cats body is curled up, its head is slightly turned to the right, and its front paws are tucked underneath its body. There is a teal rope hanging from the fishing net in the top right corner of the image. 量化推理 (使用 bitsandbytes 库进行 4-bit nf4 量化) from transformers import BitsAndBytesConfigbnb_config BitsAndBytesConfig(load_in_4bitTrue,bnb_4bit_quant_typenf4,bnb_4bit_compute_dtypetorch.bfloat16 ) model PaligemmaForConditionalGeneration.from_pretrained(model_id,quantization_configbnb_config,device_map{:0} ) 还提供了在 textvqa 数据集上使用量化进行评估的结果显示量化后的精度下降很小。 PaliGemma 2的案例应用 文章还提到了一个微调脚本和一个notebook方便用户进行模型微调并可以使用 LoRA 或 QLoRA 等内存高效的微调技术。 DOCCI 数据集上的长细粒度字幕生成 PaliGemma 2 在 DOCCI 数据集上微调后能够生成包含文本渲染、空间关系和世界知识的长而细致的字幕。文章提供了与其他模型的性能比较以及一些模型输出示例展示了模型的强大能力。 指标包括平均字符数 (#char)、平均句子数 (#sent) 和非蕴涵句子百分比 (NES越低越好)。 VQAv2 数据集上的视觉问答 Hugging Face 团队使用 LoRA 微调技术对 PaliGemma 2 3B (448x448 分辨率) 模型进行微调并在 VQAv2 数据集上进行视觉问答演示。 提供了演示的代码和 Gradio 演示链接。
http://www.zqtcl.cn/news/749383/

相关文章:

  • 青岛知名网站建设公司优化大师有必要花钱吗
  • pc网站做app京东海淀区
  • 效果好的网站建设公萝岗企业网站建设
  • wordpress个人展示网站6新西兰网站后缀
  • 为什么自己做的网站别人打不开三门峡市湖滨区建设局网站
  • 长春网长春网站建设络推广工程建设国家标准网站
  • 微网站开发 mui框架网站备案幕布拍照是什么
  • 北京天通苑 做网站西安百度网站建设
  • 辽阳建设网站学校 网站 建设 目的
  • 建设电影网站赚钱公司简介模板免费word简易
  • 响应式网站设计的主页自己做装修效果图app软件
  • 做网站最简单的方法做网站开发挣钱吗
  • 网站建设基础入门国内免费的ip地址
  • wordpress 付费剧集网站坐什么网站能用到html5
  • 孝感房产网站建设wordpress E405
  • 做窗帘网站图片大全WordPress一键安装安全
  • 怎样查询网站的备案号广西住房和城乡建设厅网站证件
  • 网站区域名怎么注册网站群建设 中标
  • 官方网站 建设情况汇报网页设计开发培训
  • 门户网站的细分模式有房价暴跌开始了
  • 公司备案查询网站备案江苏省网站备案系统
  • 专业网站制作公司采用哪些技术制作网站?seo求职
  • 服装网页设计网站有个做名片什么的网站
  • 购买网站平台如何做分录泰安网站开发公司
  • 音乐介绍网站怎么做的光辉网络 石家庄网站建设
  • 沈阳网站建设搭建天元建设集团有限公司开票信息
  • 昆明网站建设公司哪家好预约网站模板
  • 自己怎么申请网站空间浙江省建设科技推广中心网站
  • 网站后台管理系统怎么添加框wordpress上传之后
  • 网站编辑属于什么行业义乌做网站哪家好