当前位置：首页 > news >正文

免费做团购网站的软件好个人免费建网站

news 2025/11/17 18:12:46

免费做团购网站的软件好,个人免费建网站,微信服务平台开发,做网页一个页面多少钱计算机视觉的GPT时刻#xff0c;来了#xff01; 最近#xff0c;来自UC伯克利的计算机视觉「三巨头」联手推出了第一个无自然语言的纯视觉大模型#xff08;Large Vision Models#xff09;#xff0c;并且第一次证明了纯视觉模型本身也是可扩展的#xff08;scalabil… 计算机视觉的GPT时刻来了最近来自UC伯克利的计算机视觉「三巨头」联手推出了第一个无自然语言的纯视觉大模型Large Vision Models并且第一次证明了纯视觉模型本身也是可扩展的scalability。除此之外研究人员还利用超过420B token的数据集让模型可以通过上下文学习来理解并执行下游任务并且统一了图片/视频、有监督/无监督、合成/真实、2D/3D/4D等几乎所有的数据形式。论文地址https://arxiv.org/abs/2312.00785 值得一提的是让LVM做非语言类智商测试Ravens Progressive Matrices 中常见的非语言推理问题它时常能做出正确的推断。对此研究人员惊喜地表示这或许意味着LVM也展现出了「AGI的火花」纯视觉模型的逆袭现在随着大语言模型的爆发不管是学术界还是业界都开始尝试使用「文本」来扩大视觉模型的规模。包括GPT4-V在内的SOTA模型都是把视觉和文字组合在一起训练的。以「苹果」为例这种方法在训练时不仅会给模型看「苹果的照片」而且还会配上文字「这是一个苹果」。然而在面对更加复杂的图片时就很容易忽略其中大量的信息。比如「蒙娜丽莎」应该怎么去描述或者摆满各种物品的厨房的照片也很难清晰地被描述出来。对此来自UC伯克利和约翰斯·霍普金斯大学的研究人员提出了一种全新的「视觉序列」建模方法可以在不使用任何语言数据的情况下训练大规模视觉模型Large Vision Model。这种名为「视觉序列」的通用格式可以在其中表征原始图像和视频以及语义分割、深度重建等带标注的数据源且不需要超出像素之外的任何元知识。一旦将如此广泛的视觉数据包含4200亿个token表征为序列就可以进行模型的训练让下一个token预测的交叉熵损失最小化。由此得到的LVM模型不仅可以实现有效地扩展完成各种各样的视觉任务甚至还能更进一步地涌现出比如数数、推理、做智力测试等能力。左Alexei A Efros中Trevor Darrell右Jitendra Malik 简单来说就是大规模视觉模型只需看图训练就能理解和处理复杂的视觉信息完全不用依赖语言数据。纯视觉模型的扩展难题此前使用预训练模型的价值 (例如ImageNet预训练的 AlexNet) 早在2015年就已经在R-CNN中得到了证明。从此它从此成为计算机视觉的标准实践。而自监督预训练作为一种大大增加可用于预训练的数据量的方法被提出。不幸的是这种方法并不是很成功可能是因为当时基于CNN的架构没有足够的能力来吸收数据。随着Transformer的推出其容量变得高得多因此研究人员重新审视了自监督预训练并发现了基于Transformer的掩码图像重建方法例如BEiT, MAESimMIM它们要比基于CNN的同类方法表现好得多。然而尽管如此目前预训练的纯视觉模型在扩展到真正大的数据集(例如LAION) 时还是遇到了困难。如何构建「大视觉模型」那构建一个大规模视觉模型Large Vision ModelLVM需要哪些要素呢动物世界告诉我们视觉能力并不依赖于语言。而许多实验表明非人类灵长类动物的视觉世界和人类的极为相似。因此本文走在了LLaVA这种视觉-语言模型不同的方向仅依靠像素我们能走多远研究人员试图在LVM中模仿LLM的两个关键特性1在大数据环境下的扩展能力和2通过提示上下文学习灵活地指定任务。为了实现这一目标需要明确三个主要组件数据研究人员希望能够充分利用视觉数据显著的多样性。首先是原始的未经标注的图像和视频。接下来研究人员计划利用过去几十年中产生的各种带标注的视觉数据资源如语义分割、深度重建、关键点、3D物体的多个视图等。为此他们定义了一种名为「视觉序列」的通用格式来表示这些不同的标注而不需要任何超出像素本身的元知识。训练数据集总共包含1.64亿张图像/帧。架构研究人员使用了一个具有30亿参数的大型Transformer架构这个架构在被表征为token序列的视觉数据上进行训练。通过学习到的tokenizer将每个图像映射到一个包含256个向量量化token的字符串。损失函数研究人员从自然语言处理领域获取了灵感其中掩码token模型已经演变为顺序自回归预测。一旦能够将图像/视频/带标注的图像都表征为序列就可以训练模型来最小化预测下一个token的交叉熵损失。通过这种极简的设计研究人员有了一些新颖的发现—— - 随着模型尺寸和数据大小的增加模型会表现出适当的扩展行为。 - 通过在测试时设计合适的视觉提示可以解决多种视觉任务。 - 大量无监督数据对于各种标准视觉任务性能的提升非常明显。 - 模型在处理超出分布外数据和执行新颖任务时表现出了一般的视觉推理能力但还需要进一步的调查研究。数据数据数据数据没有粘土我就做不了砖头 ——夏洛克·福尔摩斯任何大型预训练模型的关键就必须接受大量数据的训练。对于语言模型来说获得非常多样化的大数据集是很容易的事。比如流行的 CommonCrawl存储库就包含扫描了整个网络的2500亿个网页极其多样化并且包括语言翻译、问题回答等「自然演示」。然而在计算机视觉领域想要拥有同样规模和多样性的数据源还差得很远。因此研究人员的工作核心贡献之一就是构建这样一个统一视觉数据集UVDv1。为此研究人员利用了许多不同的视觉数据源1未标注的图像2具有视觉标注的图像3未标注的视频4具有视觉标注的视频53D合成物体。其中未标注的图像占了总数据的80%以上组成了大部分的视觉世界也提供了所需的多样性然而代价就是数据源质量较低。带标注的图像分布会更受限制但通常质量更高。而视频数据则受到更多限制一般是以人类为中心的活动但它们却是时态数据的宝贵来源。 3D合成对象的渲染多样性最低但可以提供有关3D结构行为的宝贵提示。而最重要的是UVDv1是一个纯粹的视觉数据集不包含文本之类的非视觉元数据。总之UVDv1包含16.4亿张图像。与LLM的另一个重要区别是语言数据对所有数据都有一个自然的、统一的一维结构——文本流。然而不幸的是视觉数据的情况却并非如此不同的来源都有不同的结构。因此在这项工作中研究人员提出视觉序列作为视觉数据的统一单元这就使得他们能够从不同的集合源训练可扩展的模型。视觉序列只是包含一个或多个图像的序列后面跟随着一个句尾 (EOS) token。图1可以显示出各种数据源是如何划分为视觉序列的。计算机视觉GPT时刻UC伯克利三巨头祭出首个纯CV大模型推理惊现AGI火花-51CTO.COM

查看全文

http://www.zqtcl.cn/news/730799/