当前位置: 首页 > news >正文

网站编辑岗位网站开发实现编码

网站编辑岗位,网站开发实现编码,工信部网站备案查询系统,深圳住房和建设局网站融悦居在《多模态大模型轻量化探索-视觉大模型SAM的视觉编码器》介绍到#xff0c;缩小视觉编码器的尺寸#xff0c;能够有效的降低多模态大模型的参数量。再来看一个整体的工作#xff0c;从视觉侧和语言模型侧综合考量模型参数量的平衡模式#xff0c;进一步降低参数量#xf…在《多模态大模型轻量化探索-视觉大模型SAM的视觉编码器》介绍到缩小视觉编码器的尺寸能够有效的降低多模态大模型的参数量。再来看一个整体的工作从视觉侧和语言模型侧综合考量模型参数量的平衡模式进一步降低参数量甚至最小达256M参数量推理时显存占用1GB。下面来看看仅供参考。 模型架构 那么如何设计一个高效的小型多模态模型架构 Q1 如何在视觉和语言模型之间分配计算 传统大型VLMs如Flamingo将90%以上参数分配给语言模型LM但SmolVLM发现小规模LM需重新平衡视觉与语言的计算资源。 研究方法将三种不同规模的SmolLM2变体135M、360M和1.7B参数与两种SigLIP编码器一个紧凑的93M SigLIP-B/16和一个较大的428M SigLIP-SO400M进行配对。 发现通常情况下较大的VLM会不均衡地将参数分配给语言模型但在小型模型中这种分配方式不再适用。当使用大型编码器与最小的LM135M时性能显著下降表明这种配置效率低下。在中等规模的LM360M中较大的编码器可以提高性能但会增加66%的参数。只有在最大的LM1.7B中较大的编码器仅增加10%的参数。 结论紧凑的多模态模型受益于平衡的编码器-LM参数分配使得较小的视觉编码器在效率上更具优势。即模型越小视觉编码器应更轻量避免“头重脚轻”。当使用具有最小LM135M的大编码器时性能显著下降突显了编码器-LM平衡效率低下。在中等LM规模360M时较大的编码器将性能提高了11.6%但这也伴随着参数增加了66%使得紧凑型编码器更可取。只有在最大的LM规模1.7B时较大的编码器仅代表参数增加了10%。 Q2 如何有效地将图像传递给语言模型 如何支持长上下文与对视觉token进行压缩为了提高模型的上下文处理能力采用了自注意力架构其中视觉Token与文本token连接并由语言模型共同处理。这种方法需要比SmolLM2的2ktoken限制更多的上下文。 研究方法通过增加RoPE基数从10k到273k来扩展上下文容量并在长上下文数据如Dolma书籍和The Stack和短上下文数据如FineWeb-Edu、DCLM和SmolLM2的数学数据上进行微调。 发现扩展上下文窗口对紧凑VLM有显著的好处。对于1.7B的LM微调在16ktoken时表现稳定但对于较小的模型135M和360M在超过8k token时表现不佳。因此研究者们为SmolVLM采用了16k token的上下文并为较小的变体设定了8k token的限制。 像素重排重新排列编码图像以增加通道深度为代价换取空间分辨率。这减少了视觉标记数量同时保持信息密度。 原理将2×2空间区域重组为通道维度上图token数减少4倍r2时。 对比基线InternVL等使用r2但SmolVLM证明小模型需更激进压缩。 结论小型VLM显著受益于扩展的上下文长度。 Q3 如何有效地编码图像和视频 在多模态建模中平衡图像和视频之间的token分配至关重要。图像通常需要更高的分辨率和更多的token来保持质量而视频则需要更少的token来高效处理长序列。 研究方法采用了一种图像分割策略灵感来自UReader和SPHINX将高分辨率图像分割成多个子图像并保留原始图像的缩小版本。这种方法在不增加过多计算开销的情况下保持了图像质量。 视频处理对于视频研究者们发现帧平均策略会负面影响性能下图。因此选择不采用帧平均策略而是将视频帧重新缩放到图像编码器的分辨率。 结论对于小型模型图像分割增强了视觉任务的表现而视频帧平均则不适用。 数据策略 数据配比最终训练集含14%文本、33%视频、53%图像 性能 衍生模型-端到端的PDF解析多模态模型SmolDocling 模型结构就是SmolVLM 训练数据该模型核心训练数据构造上引入了一种新的文档标记格式DocTags用于标准化文档转换这个是核心意义。DocTags定义了一个明确的标签和规则集以分离文本内容和文档结构从而提高图像到序列模型的性能如下图 对应的语法 从上面类XML标签语法看来感觉设计的非常冗余。整体上结合模型架构也没什么特殊的创新点并且之前被自媒体吹得性能很强实际上该模型还是demo玩具。个人使用后观点。 参考文献SmolVLM: Redefining small and efficient multimodal modelshttps://arxiv.org/pdf/2504.05299 开源地址https://github.com/huggingface/smollm
http://www.zqtcl.cn/news/673835/

相关文章:

  • 坑梓网站建设方案网络编程技术及应用
  • 电子商务网站建设 价格新媒体运营需要具备哪些能力
  • 做生存分析的网站电商网站运营建设的目标
  • 佛山 做网站邮箱官方网站注册
  • 生成flash的网站源码表白二维码制作网站
  • 定做专业营销型网站网站开发应用
  • 万盛建设局官方网站如何用群晖nas做网站
  • 建设装饰网站郑州惠济区建设局网站
  • 网站做标题有用吗网站优化多少钱
  • 婚庆设备租赁网站源码如何进行网站的建设和维护
  • 青岛做网站公wordpress文章付费阅读
  • 小灯具网站建设方案360优化大师
  • 开发公司与物业公司前期合同网站优化的推广
  • 汉堡云虚拟主机aso安卓优化公司
  • 医院 网站建设 新闻营销外包
  • 优秀网站网址郑州无痛人流哪家医院好
  • 备案网站能打开吗大良营销网站建设流程
  • 哪些网站可以做淘宝店招石油网站编辑怎么做
  • 网站出现建设中集团网站建设特点
  • asp网站开发 pdf企业展厅设计公司盛世笔特
  • 怎么创建网站 免费的免费开源的网站系统
  • 中山精品网站建设资讯网页设计师就业趋势
  • 网站建设哪家好 万维科技wordpress广告公司模板
  • 如何选择建网站公司网站页面html静态化
  • 建设银行网站入口网页设计培训 周末双休
  • 做企业网站建设的公司为什么企业网站不是开源系统
  • 网站客户端怎么做的做汽车脚垫版的网站
  • 做数学题挣钱的网站广西建筑特种作业证件查询官网
  • 汉字叔叔花了多少钱做网站免费原创视频素材
  • 网站开发提现功能互联网推广工作好做吗