当前位置: 首页 > news >正文

怎么做网站卖产品黄埭网站建设

怎么做网站卖产品,黄埭网站建设,开发公司的设计费计入什么会计科目,生鲜网站开发背景ChatGPT狂飙160天#xff0c;世界已经不是之前的样子。 新建了免费的人工智能中文站https://ai.weoknow.com 新建了收费的人工智能中文站https://ai.hzytsoft.cn/ 更多资源欢迎关注 GPT-4V 的推出引爆了多模态大模型的研究。GPT-4V 在包括多模态问答、推理、交互在内的多个领…    ChatGPT狂飙160天世界已经不是之前的样子。 新建了免费的人工智能中文站https://ai.weoknow.com 新建了收费的人工智能中文站https://ai.hzytsoft.cn/ 更多资源欢迎关注 GPT-4V 的推出引爆了多模态大模型的研究。GPT-4V 在包括多模态问答、推理、交互在内的多个领域都展现了出色的能力成为如今最领先的多模态大模型。 然而近期很多工作发现 GPT-4V 在很多基本能力上却意外的出现短板。例如在微软一篇长达 166 页的技术报告《The Dawn of LMMs:Preliminary Explorations with GPT-4V (ision)》中作者发现对于一个不太复杂的图像中的苹果数量GPT-4V 竟然怎么数也数不对。 然而学术界和工业界尚不清楚导致这些问题的底层原因。 这个问题在清华大学、新加坡国立大学和中国科学院大学的一篇题为《LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images》的论文中得到了解释。 论文链接https://arxiv.org/pdf/2403.11703.pdf 项目链接github.com/thunlp/LLaVA-UHD 其原因在于 GPT-4V 很可能存在视觉编码漏洞。 该工作对当前最强的商业大模型 GPT-4V 和最受欢迎的开源模型 LLaVA-1.5 进行了实验揭示了目前多模态大模型中的视觉编码漏洞。 漏洞 1GPT-4V 将图像进行有重叠的切片后再编码 作者首先设计了一个实验来观察图像中的位置如何影响 GPT-4V 的计数回答。 具体来说作者合成了如图 1 (a) 所示的图像并向 GPT-4V 提问题“图像中有多少个圆圈” 同时通过改变圆圈的位置而保持提问不变进一步生成了一系列图像变体。 图 1 (b) 中以热图的形式显示了 GPT-4V 对图像中每个位置平均回答的数量作者发现了一个与图像中目标位置高度相关的有趣模式如图 1b所示具体表现为被 256×256 的正方形网格分割的三种不同模式 (1) 中央正方形区域展示了最高的响应数量 (2) 中间边缘区域的响应数量较低 (3) 角落区域的响应数量最接近于真实值。 在对 GPT-4V 的响应进行数值区分后作者发现除了正确答案和接近正确答案的情况还有两种异常答案8 个圆和 16 个圆这些异常答案呈现了答案数量翻倍或四倍的错误模式。结合 OpenAI 公开的信息这一现象的最可能原因是当图像分辨率无法被 512 整除时GPT-4V 处理图像的切片之间会出现重叠。如图 1 (e) 所示两个切片之间的重叠区域导致数量翻倍而四个切片的交叉重叠区域会使得识别出的数量增加至四倍。 作者设计了另一个实验来观察图像分辨率如何影响 GPT-4V 的计数回答。 具体来说作者将图 2 (a) 中的图像按比例缩放至连续递增的分辨率并询问 GPT-4V 其中圆圈的个数。 图 2 (b) 中展示了 GPT-4V 的回答结果。随着图像分辨率的变化GPT-4V 的回答显示出显著的相位变化1在第 1 阶段由于没有图像切片大多数答案是正确的2在第 2 阶段答案 12 在响应中占主导地位可能是由于每个切片中的圆不完整3第 3 阶段显示了 9、12 和 16 的混合答案。请注意16 可以很好地解释图 1 (e) 中的错误模式。 以上两个实验结果揭示了 GPT-4V 在处理高分辨率图像时存在重叠切片导致错误响应启发作者需要进一步研究更合理的图像预处理和编码方式。 漏洞 2:LLaVA-1.5 进行大范围的图像填充Padding LLaVA-1.5 作为出色的开源多模态大模型被学术界广泛关注。 为了处理具有不同长宽比的图像LLaVA-1.5 在将图像输入视觉编码器之前将其填充为正方形。这种编码方法导致非正方形图像的计算浪费。例如将 1:4 图像填充为正方形后有效计算量仅为 25%。 更重要的是LLaVA-1.5 实际上无法确定填充像素是来自图像预处理还是原始输入图像的实际部分。 为了演示这个问题作者合成了一系列输入图像如图 3右所示其中不同长宽比的绿色矩形被灰色即填充对应的 RGB 值所包围。给定输入图像作者提示“最左 / 最右 / 最上 / 最下区域的颜色是什么” 从图 3左的结果中作者观察到 LLaVA-1.5 忽略了灰色输入区域将其视为填充并置信地回答了中心矩形的颜色。 综合以上 2 个明显的视觉编码漏洞可以知道多模态模型中的视觉策略必须谨慎设计。常见做法如填充、形状扭曲调整和重复切片可能导致计算资源的浪费、模型能力的丧失甚至容易受到对抗性攻击。 于是作者提出 LLaVA-UHD该模型可以对 180 万像素任意长宽比图像进行编码相比于 LLaVA-1.5 在 9 个主流评测基准实现提升训练和推理计算开销相比于 LLaVA-1.5 均有显著下降。 LaVA-UHD 包括三个关键部分一种图像模块化策略将原始分辨率的图像分成更小的可变大小的切片以便进行高效和可扩展的编码一个压缩模块进一步压缩来自视觉编码器的图像 tokens一个空间装饰模式用于为 LLMs 组织片段 tokens。 图像模块化策略中主要包含两个部分 1. 高分辨率图像划分策略如图 4 左侧。目标是确定高分辨率图像的划分方式使每个切片的分辨率变化最小。给定图像分辨率和和在固定分辨率上预训练的 ViT首先确定处理图像所需的切片数。然后将切片数因式分解为和几种划分方式。为了选择最合适的划分作者定义一个评分函数来衡量与 ViT 标准预训练设置的偏差进而选择最佳的划分方法。 2. 任意宽高比切片编码如图 4 右侧。目的是等比例调整图像以适应预训练模型的位置嵌入数量。首先将 ViT 的 1D 位置嵌入转换为 2D 格式并进行插值以匹配动态切片分辨率从而获得自适应图像尺寸的视觉编码。实验表明此方法在保持 ViT 和位置嵌入参数不变的情况下通过后期微调即可提升性能。此外还编码一张低分辨率概览图像有助于提供全局语义信息增强模型对图像的整体理解。 LLaVA-UHD 利用压缩模块Resampler压缩每张切片的 tokens实现比 LLaVA-1.5 在 336×336 分辨率图像中更低的计算成本来编码 672×1008 分辨率的图像。由于图像切片在不同图像之间是动态的因此有必要通过位置修饰符来告知 LLM 图像切片的相对位置。 表 1 报告了主要的实验结果。在性能表现上LLaVA-UHD 相对于 LLaVA-1.5 取得了显著的改进。通过简单地感知原生高分辨率图像LLaVA-UHD 在 TextVQA 上实现了 6.4 的准确率提升在 POPE 上实现了 3.2 的准确率提升。原因在于低分辨率图像中的模糊内容可能会阻止 LMMs 准确识别具有挑战性的细粒度目标和 OCR 字符。在计算效率和可拓展性上LLaVA-UHD 仅使用 94% 的推理计算即支持任意宽高比的 672×1088 分辨率图像能够适应更大分辨率的拓展。 为了更直观地展示 LMM 在处理高分辨率图像方面的能力在图 5 中提供了 LLaVA-UHD 和 LLaVA-1.5 的定性结果。可以看到LLaVA-UHD 可以正确识别课表上的密集内容小海报上的文字以及手机上的图标和文字实现了细粒度的识别和推理。 未来展望 LLaVA-UHD 将图像分辨率限制在最大 672×1008。但是在未来考虑到其具有潜力的效率和可扩展性将探索更高分辨率的图像以及更具挑战性的任务如小目标检测和分割。此外目前图像片段是独立编码的只在 LLMs 中进行交互。计划通过改进的视觉编码策略在图像片段之间建立高效的连接实现细粒度全局信息交互。 ChatGPT狂飙160天世界已经不是之前的样子。 新建了免费的人工智能中文站https://ai.weoknow.com 新建了收费的人工智能中文站https://ai.hzytsoft.cn/ 更多资源欢迎关注
http://www.zqtcl.cn/news/335022/

相关文章:

  • 做视频网站被判刑自己怎么做企业网站建设
  • 安庆网站建设兼职哪个公司的卡网络最好
  • tp框架做响应式网站青岛网站建设首选
  • 外国自适应企业网站做网站模板用什么框架
  • win7做网站服务器隐私浏览器
  • 优秀的设计网站广州排名推广
  • 做电商设计有什么好的网站推荐软件产品开发流程图
  • 建设网站请示宣传企业网站建设的
  • 汉中定制网站建设公司网站建设建站知识
  • 做壁纸网站建站优化办事效率高
  • linux 做网站数据库怎么开发ios软件
  • 沛县网站设计html制作网页的代码
  • 南昌网站建设公司如何万维网络(临沂网站建设)
  • 张家界做网站洛阳网站建设哪家专业
  • 快餐网站模板电子版邀请函制作软件免费
  • 有什么做视频的素材网站网站名称注册保护
  • 北京 顺义 网站制作h5网站网站建设
  • 网站在百度上搜不到了wordpress导航菜单加图片
  • wordpress网站访问慢网站建设35类
  • 绍兴做网站价格字体
  • asp.net网站开发实训可以不花钱做网站吗
  • 北京网站的制作设计服务器和电脑主机的区别
  • 北京网站建设的服务公司凡科网站 怎么开支付
  • 包头公司做网站知名做网站费用
  • 安徽网站建设服务平台重庆网站建公司大全
  • 有什么网站可以做中间人的相城区建设局网站
  • 房屋装修在线设计网站百度联盟广告怎么屏蔽
  • 网站,商城,app+建设域名网址注册
  • 肥西做网站设计网页页面
  • 怎样做百度推广网站iis服务器的默认网站