当前位置: 首页 > news >正文

站长之家psd素材上海网站建设公司哪家好

站长之家psd素材,上海网站建设公司哪家好,精准拓客软件哪个好,做网站推广被骗文章目录 前言一、模型结构二、数据工程总结 前言 Vary的提出让大模型在OCR相关任务的能力有了很大突破#xff0c;通过提出额外的视觉词汇表模块来弥补单一CLIP编码能力的不足#xff0c;详情可参考我之前的文章——多模态#xff1a;Vary。 最近Vary的团队开发了一个更小… 文章目录 前言一、模型结构二、数据工程总结 前言 Vary的提出让大模型在OCR相关任务的能力有了很大突破通过提出额外的视觉词汇表模块来弥补单一CLIP编码能力的不足详情可参考我之前的文章——多模态Vary。 最近Vary的团队开发了一个更小版本的Vary模型——1.8B Vary-toy与Vary相比Vary-toy除了小之外还优化了新视觉词表。解决了原Vary只用新视觉词表做pdf ocr的网络容量浪费以及吃不到SAM预训练优势的问题。与Vary-toy同时发布的还有更强的视觉词表网络其不仅能做pdf-level ocr还能做通用视觉目标检测。 Vary-toy在消费级显卡可训练、8G显存的老显卡可运行依旧支持中英文这个“小”VLM几乎涵盖了目前LVLM主流研究中的所有能力Document OCR、Visual Grounding、Image Caption、VQA…… Reporthttps://arxiv.org/abs/2401.12503 一、模型结构 Vary-toy的模型结构和训练流程如上图所示大体上继承了Vary使用Vary-tinypretrain出一个更好的视觉词表然后将训好的视觉词表merge到最终结构进行multi-task training预训练/SFT监督微调。 注意这里的Vary-tiny相比之前的Vary-tiny采用了更精细的数据和prompt 模型输入与之前的Vary还有一些小的区别。当输入形状为H×W的图像时新的视觉词汇分支将直接将图像大小调整为1024×1024而CLIP分支通过中心裁剪获得224×224图像。两个分支都输出256个令牌通道为1024。Qwen-1.8B输入通道的维数也是2048所以最简单的方法是直接将两个分支中的图像标记连接起来作为语言模型的输入图像标记。在代码实现方面为了保持与Vary结构的一致性仍然在视觉词汇网络后面添加了输入嵌入层。 二、数据工程 一个好的数据配比对于产生一个能力全面的VLM是很重要的。因此在pretrain阶段作者使用了5种任务类型的数据构建对话数据配比和示例prompt如下而在SFT阶段只使用了LLaVA-80K数据。 与Vary-tiny的单一输入输出形式不同Vary-tiny需要不同的提示来引导模型输出正确的结果因此需要多种输入格式来适应相应的任务。为了简单起见作者使用Vicuna v1的模板来构建对话格式的所有ground truth如 USER: “” “texts input” ASSITANT: “texts output” 。作者添加了“”和“”作为OPT-125M文本标记器的特殊标记实验发现它可以很好地适应Vicuna模板。对于视觉输入分支不使用任何增强只将图像调整为固定分辨率即1024×1024。 另外为了充分利用视觉词汇网络的能力从SAM初始化中获得自然的图像感知能力作者在视觉词汇生成过程中引入了目标检测数据。从两个大型开源数据集中收集样本即Object365和OpenImage。由于在OPT的文本标记器中坐标(数字文本)编码的效率较低对于对象过多的图像ground truth中的标记数量可能会超过OPT- 125m支持的最大标记长度(尽管我们将其插值为4096)。因此作者将注释重新组织为两个任务: 1) 对象检测: 如果图像中物体框数目30个则允许Vary-tiny pipeline过程中的prompt为Detect all objects in this image。 2) REC(表达理解) : 如果图像中物体框数目30个则更换prompt模板为Detect class1, class2, … in this image。通过上述方式获得了大约3M的检测数据。 总结 Vary-toy这种小巧且能力强悍的模型还是很值得大家研究改进的部署落地较为容易迭代也会比较迅速。虽然天花板较低但是很适合大模型的初学者进行研究。
http://www.zqtcl.cn/news/872289/

相关文章:

  • 沙洋网站开发网站建设方案免费
  • iis建设网站教程单页面推广网站
  • 东莞网站建设效果郑州企业自助建站系统
  • php做的购物网站系统下载宜州做网站需要多少钱
  • 昆明网上商城网站建设怎么做网站教程视频
  • 网站开发都需要什么移动公司网络维护待遇
  • 计算机网络技术网站建设方向wordpress虚拟货币
  • 小江网站建设公司紧急页面通知升级中访问大通知
  • 那个公司做的网站详情页好看做动态图片的网站吗
  • 旅游网站模板文章wordpress 删除
  • 沛县专业做网站wordpress id重置密码
  • 湖南邵阳建设局网站做外贸一般用什么网站
  • html网站开发主要涉及哪些技术越秀金融大厦地址
  • 北京建设银行网站田村广州室内设计公司排行榜
  • 安徽金路建设集团有限公司网站平面设计班培训入门
  • 小型电子商务网站开发php mysql网站开发教程
  • 网站建设常州麦策电商2 网站建设的一般步骤包含哪些
  • cn免费域名注册网站企业推广的渠道有哪些
  • 关于网站建设心得体会网站的功能包括哪些
  • 番禺网站制作技术网站建设与管理pdf
  • 毕业设计做网站选题营销型网站功能模块
  • 西部数码网站管理助手安装建工教育网
  • wordpress 网站logowordpress文本编辑器插件
  • 杭州装饰网站建设如何免费建购物网站
  • 在vs做的项目怎么连接到网站珠海有什么网站
  • 网上购物网站建设论文6做的网站必须放在idc机房吗
  • 基于asp.net的视频网站开发500套wordpress模板
  • 商城模板建站价格寻找专业网站建设
  • 网址我的上网主页seo培训中心
  • 上海建网站服务器河南网站推广优化排名