当前位置: 首页 > news >正文

浙江杭州下沙做网站电商平台网站模板

浙江杭州下沙做网站,电商平台网站模板,栾城seo整站排名,网站前台后台打开慢这项研究发现#xff0c;号称能“看图说话”的视觉语言模型#xff08;VLMs#xff09;#xff0c;在处理需要真正“看”懂图片的纯视觉任务#xff08;如判断深度、找对应点、认物体材质等#xff09;时#xff0c;表现远不如它们自己内部的“眼睛”#xff08;视觉编… 这项研究发现号称能“看图说话”的视觉语言模型VLMs在处理需要真正“看”懂图片的纯视觉任务如判断深度、找对应点、认物体材质等时表现远不如它们自己内部的“眼睛”视觉编码器甚至接近瞎猜的水平问题不在于“眼睛”不好而在于负责“说话”的语言模型LLM不会好好用“眼睛”看到的信息还总带着自己的语言偏见。 研究背景VLMs 是什么 一个AI有一只厉害的“眼睛”视觉编码器如 DINOv2, CLIP负责看懂图片还有一个“大脑”大型语言模型 LLM负责理解语言和生成文字。视觉语言模型VLMs 就是把这两者结合起来目标是让AI既能看懂图又能理解文字描述并能回答关于图片的问题比如“图片里有什么”“狗在追什么”。大家都以为这种结合很完美视觉编码器提供视觉信息LLM 负责理解和表达。 惊人发现VLMs “视而不见” 研究人员想测试VLMs的“视力”到底有多好测试的不是常识问答而是纯视觉任务 深度估计 图片里哪个地方离我们近哪个地方远对应关系 两张相似图片里同一个点在另一张图的哪里比如左右眼看到的同一个点物体属性 物体表面是光滑的还是粗糙的纹理物体是方的还是圆的形状艺术风格 这张画是什么风格的 测试方法对比 方法A (直接问“眼睛”) 绕过LLM直接用技术手段“读取”视觉编码器内部对图片的表示特征然后用简单的分类器判断任务结果。这代表了视觉编码器本身的能力上限。方法B (问整个VLM) 像正常用户一样用文字提问VLM例如“图片A的点X在图片B的对应点是A, B, C, D中的哪一个”让它输出文字答案。 震撼结果 视觉编码器“眼睛”自己看时表现超棒 在深度估计等任务上准确率接近90%远超随机猜测。一旦让整个VLM“眼睛”“大脑”来回答表现暴跌 很多任务上准确率掉到接近随机瞎猜比如25%或33%取决于选项数甚至比瞎猜还差因为有偏见。下降幅度巨大 从“眼睛”的优异表现到VLM的糟糕表现差距非常显著。最强“眼睛”DINOv2 搭配的VLM表现反而不如一些较弱的“眼睛”搭配的VLM。 结论 VLMs在处理这些需要精确视觉理解的任务时严重浪费了视觉编码器提供的高质量信息表现得像“视而不见”。 刨根问底为什么“视而不见”问题出在哪 研究人员做了大量分析排除了几种可能锁定了核心原因 原因1视觉信息在传递中丢失/损坏了被排除 检查点 他们检查了信息从“眼睛”视觉编码器出来后经过连接器投影层到“大脑”LLM的每一站。发现 视觉信息在投影层和LLM的早期层依然保持得很好用方法A去“读”这些中间层的表示依然能很好解决视觉任务。结论 问题不是视觉信息在传递过程中被破坏或丢失了。信息还在LLM能接触到。 原因2问题问得不对部分影响非主因 测试 尝试微调提问方式提示调整在问题前面加几个可学习的“提示词”嵌入希望能引导VLM更好地理解任务。发现 微调提示词能带来一点点提升但效果非常有限离视觉编码器本身的水平差得远。换不同问法提示工程也难以显著改善。结论 提示方式有影响但不是性能暴跌的核心瓶颈。 核心原因LLM 不会用/不想用“眼睛”看还自带“语言偏见” “不会用/不想用” 分析发现即使高质量视觉信息就在LLM面前LLM没有有效地利用这些信息来完成纯视觉任务。关键实验 在少量数据上微调VLM的不同部分 微调“眼睛”ViT或连接器投影层 - 效果提升很小。微调“大脑”LLM - 效果提升巨大 这说明LLM本身是瓶颈。它没学会如何根据视觉信息精准回答这类视觉问题。 “自带偏见” “盲测”实验 不给VLM看任何图片输入空白图只让它回答选择题。发现 这种情况下VLM的答案分布偏向选某些选项和有图片时VLM给出的答案分布高度相似这证明VLMs在回答这类问题时很大程度上忽略了图片内容而是依赖于LLM内部固有的语言偏好和偏见比如更倾向于选某个顺眼的选项。 注意力机制佐证 微调LLM后LLM在决策时更关注图片中与问题相关的关键区域如需要找对应的点。微调前它的注意力是分散或不相关的。 重要澄清不是“眼睛”的错 过去一些研究认为VLMs视觉能力弱是因为视觉编码器不够好比如CLIP不如DINOv2看空间关系准并建议用更强的编码器或融合多个编码器。这项研究颠覆了这种看法 最强的视觉编码器DINOv2在独立测试中表现最好。但把它放进VLM后搭配LLM的整体表现反而下降得最多导致在VLM排名中不再是第一。这说明视觉编码器本身能力很强问题出在LLM如何利用它。单纯升级“眼睛”不能根本解决VLM“视而不见”的问题。 研究的启示与影响 对VLMs能力的重新认识 VLMs在需要语言知识或常识的任务上可能很出色但在需要精确实时视觉感知的任务上表现可能极差。不能简单认为VLMs继承了视觉编码器的所有视觉能力。诊断VLM问题的新视角 当VLM表现不佳时不能只归咎于视觉部分。要重点检查LLM是否有效利用了视觉信息以及是否存在语言偏见。未来改进方向 提升LLM的视觉理解能力 如何让LLM更好地“看懂”并利用视觉信息是关键微调LLM有效。可能需要设计新的架构或训练方法让LLM学会真正依赖视觉输入来做视觉判断。缓解语言偏见 需要机制让LLM在视觉任务中抑制其固有的语言偏好强制其基于图像作答。谨慎评估视觉能力 评估视觉编码器时避免依赖VLM问答作为指标结果不可靠且有误导性。应使用更直接的视觉评估方法。 对VLM应用的警示 在涉及精确视觉感知的应用场景如机器人视觉引导、医学影像初步分析、工业质检等直接使用现成的VLMs如 LLaVA, Qwen-VL进行视觉问答可能不可靠。需要针对性优化或考虑替代方案。 这项研究揭示了一个VLMs的“阿喀琉斯之踵”它们的语言大脑LLM在处理纯视觉任务时既不善于利用高质量的眼睛视觉编码器看到的信息又深受自身语言偏见的影响导致在需要真正“看”图的场景下表现糟糕远不如单独测试“眼睛”的能力。问题的核心在于LLM与视觉信息的整合方式而非视觉编码器本身。 这项研究为理解和改进VLMs的视觉能力提供了关键诊断和方向。 https://mp.weixin.qq.com/s/ghexA89mk7KLdO0UEGOB2w https://www.arxiv.org/abs/2506.08008 “阿喀琉斯之踵”Achilles’ Heel是一个源自希腊神话的著名典故用来比喻一个看似强大的人或事物身上存在致命的弱点或缺陷。 故事背景神话来源 阿喀琉斯是谁 他是希腊神话中半人半神的英雄海洋女神忒提斯Thetis与凡人国王珀琉斯Peleus的儿子。他英勇善战参与了特洛伊战争是希腊联军中最强大的战士。 “踵”为什么是弱点 阿喀琉斯出生时母亲忒提斯握着他的脚踵将他浸入冥河Styx的圣水中使他全身刀枪不入。唯独被手握住的脚踵没有沾到圣水成了他唯一的致命弱点。 ➠ 特洛伊战争中阿喀琉斯所向无敌但最终被敌人帕里斯Paris一箭射中脚踵而死。 如今“阿喀琉斯之踵”被广泛用于描述 强大个体/系统的隐蔽缺陷 例如某科技公司市场占有率极高但过度依赖单一供应商是其“阿喀琉斯之踵”无法克服的关键短板 例如一名运动员身体素质顶尖但心理抗压能力是“阿喀琉斯之踵” 用“阿喀琉斯之踵”形容视觉语言模型VLMs的缺陷 强大之处VLMs融合了顶尖的视觉编码器“眼睛”和语言模型“大脑”整体能力强劲。致命弱点语言模型LLM无法有效利用视觉信息反而依赖语言偏见导致在纯视觉任务中表现崩塌——如同阿喀琉斯被一支射中脚踵的箭摧毁。 环保组织指出“快速工业化是发展中国家的经济引擎但污染治理的缺失正成为其阿喀琉斯之踵。” 比喻工业化虽强但环境问题是致命短板 “阿喀琉斯之踵” “再强大的存在也可能因一个微小缺陷而崩溃”。这个比喻生动提醒我们优势中可能潜藏危机完美背后或有致命软肋。
http://www.zqtcl.cn/news/741515/

相关文章:

  • 婚介网站方案小说网站架构
  • 英文在线购物网站建设湖北建设厅举报网站
  • 漯河网络推广哪家好宁波网站seo公司
  • 网站设计ppt案例做物流用哪个网站好
  • 做网站官网需多少钱天元建设集团有限公司财务分析
  • 一般网站建设用什么语言网络规划设计师历年考点
  • 做网站卖菜刀需要什么手续江苏网站优化
  • 花生壳内网穿透网站如何做seo优化鞍山58同城网
  • 怎么为一个网站做外链跨境电商app
  • 医疗网站不备案seo技巧课程
  • 网页和网站有什么区别湖南省郴州市邮编
  • 公考在哪个网站上做试题武威做网站的公司
  • 河南如何做网站常州网站建设价位
  • 昆山网站建设培训班成都百度
  • 兰山网站建设郑州最好的网站建设
  • 手机网站后台源码枣庄市建设局网站
  • 网站建设傲鸿wordpress 获取分类下的文章
  • 网站运行速度优化wordpress国内优化
  • wordpress全站网易云音乐播放网站建设案例公司
  • 湘潭网站建设多少钱 报价表湘潭磐石网络北京百度seo点击器
  • 什么做的网站电子商务网站的建设的原理
  • 河北建站科技网络公司媒体平台
  • 做同城信息类网站如何赚钱石景山网站建设多少钱
  • 用ip的网站要备案吗网站的建设维护及管理制度
  • dedecms 百度网站地图南宁比优建站
  • 沈阳大熊网站建设制作怎么增加网站的权重
  • 网站建设 价格低建设网站大约多少钱
  • 好看简单易做的网站北京网站建设华网天下定制
  • 黑群晖做网站云主机搭建网站
  • 网站首页默认的文件名一般为微信app网站建设