当前位置：首页 > news >正文

淘宝客网站整站源码wordpress主题 ux

news 2025/11/15 7:06:26

淘宝客网站整站源码,wordpress主题 ux,天津地区个人网站备案,大连推广网站搭建哪家好文章目录 Embedding1 概念2 QA #xff08;1#xff09;3 Positional Encoding4 QA #xff08;2#xff09; ViT样例及Embedding可视化理解1 简化ViT练习2 CLS Token3 Embedding可视化4 多头注意力可视化 Embedding技术体系结构参考来源在研究中对特征的编码和… 文章目录 Embedding1 概念2 QA 13 Positional Encoding4 QA 2 ViT样例及Embedding可视化理解1 简化ViT练习2 CLS Token3 Embedding可视化4 多头注意力可视化 Embedding技术体系结构参考来源在研究中对特征的编码和解码的原理有一些疑惑由于我之前研究的一直是计算机视觉问题所以仍然是以主流的图像Transformer为例开展研究进一步讨论如何进行特征处理。 2020年提出了Vision Transformer简称ViT将图像分割成多个小块Patch每个Patch的大小可以指定例如16×16然后对每个Patch进行线性投影通过一个线性层将其转换为固定维度的向量——嵌入向量Embedding。逆线性投影线性解码的目标是将特征向量恢复为原始图像或其近似表示用于图像重建或特征解码为图像或文本表示。 Embedding 1 概念 Embedding模型是RAGRetrieval-Augmented Generation技术的核心。也是大模型应用落地必不可少的技术。 RAG (Retrieval-Augmented Generation)是一种结合了信息检索和生成模型的技术用于改善自然语言处理任务中的生成模型表现。这项技术由两部分组成一个检索系统和一个生成模型。用户给出一个查询或问题 - 检索系统根据输入查询从文档库中检索出最相关的几个文档片段这些片段被选择为包含与查询最相关的信息 - 检索到的文档片段与原始查询一起被送入生成模型生成模型结合这些信息生成一个响应或文本输出。 Embedding模型是指将高维度的数据例如文字、图片、视频映射到低维度空间的过程。简单来说embedding向量就是一个N维的实值向量它将输入的数据表示成一个连续的数值空间中的点。大型语言模型可以生成上下文相关的 embedding 表示可以更好地捕捉单词的语义和上下文信息。简单来说embedding就是用一个低维的向量表示一个物体可以是一个词或是一个商品或是一个电影等等。这个embedding向量的性质是能使距离相近的向量对应的物体有相近的含义比如 Embedding(复仇者联盟)和Embedding(钢铁侠)之间的距离就会很接近但 Embedding(复仇者联盟)和Embedding(乱世佳人)的距离就会远一些。 2 QA 1 Embedding的必要性处理高维或复杂状态时Embedding能有效降维和提取特征能提升模型对任务和关系的理解减少无效探索。 RGB形式是否可以看成Embedding后的结果原始数据RGB存在局限性如对亮度敏感高维且包含冗余。图像需要Embedding的根本原因在于RGB像素数据虽然完整记录了图像的物理信息但缺乏对语义特征的结构化表达。 RGB图像的局限性高维冗余性一张1080p的RGB图像包含超过600万个像素点每个像素点仅记录局部颜色信息这种原始数据不仅计算成本高昂还包含大量无关细节如光照噪声、重复纹理等。语义断层RGB像素无法直接反映图像的语义结构。虽然RGB数据精确记录了每个水果的色泽但无法自动表达“水果”的概念更无法理解苹果与香蕉的类别关系。跨模态匹配障碍RGB像素空间与文本、音频等其他模态的表示空间完全割裂难以直接进行跨模态检索或生成任务。图像Embedding的本质图像Embedding是通过深度神经网络对RGB像素的语义蒸馏生成一个紧凑的数值向量。低维稠密性典型的图像Embedding维度在128-2048之间。语义拓扑结构Embedding空间中的向量距离反映语义相似性。例如某案例中停车场图像的Embedding与“停车场”文本Embedding的余弦相似度达到0.998而与“公园”文本的相似度仅为0.001。多层级特征融合通过卷积神经网络CNN或视觉TransformerEmbedding会融合从边缘、纹理到物理部件、场景的多尺度特征。举例说明如何解释Embedding后的图像输入图像与预处理假设输入为一张橘猫在草地上的RGB图像尺寸为224×224×3。将图像切割为16×16×3的像素patchpatch的内容可能是橘猫耳朵的局部纹理、草叶边缘等将每个patch展平为16×16×3768维向量。 Transformer处理与Embedding生成添加位置编码Positional Encoding每个patch向量叠加可训练的位置编码保留空间信息。左上角草地的patch编码可能为[0.1, -0.3, 0.5, …]右下角猫爪的patch编码可能为[0.8, 0.2, -0.1, …]。Transformer编码模型通过注意力计算不同patch间的关联。橘猫头部patch与身体patch的注意力权重较高语义关联草叶patch之间因重复纹理产生中等权重局部相似性。全局汇聚与输出最终通过分类标识符汇聚全局特征输出1024维图像Embedding。 embedding [ 0.23, # 维度1可能与毛绒质感正相关 -1.56, # 维度2抑制金属反光特征 3.12, # 维度3激活橘色毛发属性 0.98, # 维度4绿色背景强度 ... # 后续维度编码更抽象语义如生物体自然场景等 ] 我理解为输出的每一个维度都表示它的一个特征所以维度不一定是越高越好有些东西特征不够没办法表示 Embedding如何捕捉语义信息 Embedding通过神经网络将离散符号如文字、图像映射到低维连续向量空间使得语义相似的实体在空间中距离相近。相似语义的实体在上下文环境中具有共现规律例如“猫”和“狗”常出现在相似语境中模型通过统计共现频率或预测上下文捕捉这种关联性。训练过程中模型通过损失函数调整向量位置使语义相关项在空间中聚集。实现路径卷积神经网络通过卷积核滑动扫描图像激活特定纹理模式例如浅层网络捕捉边缘、颜色块深层网络识别物体部件。全连接层将局部特征整合为图像整体表示。ViT分块线性嵌入添加可学习的位置编码后通过多头自注意力计算块间关系。例如猫头部位的patch会与躯干patch产生高注意力权重形成生物体结构理解。监督信号设计分类任务通过标签监督驱动语义分离。自监督任务通过掩码预测BERT、图像补全MAE挖掘内在结构。为什么不同的卷积核和层能自动学习不同的特征而无需人为干预局部感知不同的卷积核的初始权重不同导致对输入图像的不同区域产生差异化响应。例如某些核可能对垂直边缘敏感另一些对水平边缘敏感。同一卷积核在不同位置使用相同权重迫使该核专注于检测特定模式。权值共享通过反向传播梯度更新促使不同核分别优化为边缘检测器如Sobel算子、颜色斑点检测器等低级特征提取器。深层网络通过组合低级特征学习复杂模式。冗余核重复检测统一特征的核可能在正则化如L2权重衰减下被淘汰可以减少过拟合风险。层次化网络结构网络层级特征类型分工机制示例以动物识别为例浅层边缘、纹理、颜色小尺寸卷积核如3×3捕捉局部细节多个核并行提取不同方向或类别的边缘。毛发纹理、眼睛轮廓等中层局部结构、部件大感受野卷积核如5×5整合多个低级特征形成部件级表示。耳朵形状、鼻子局部特征深层语义对象、全局关系全连接层或全局池化聚合空间信息结合非线性激活表达高阶语义。动物类别、姿态关键组件协同作用组件功能对特征分工的影响激活函数引入非线性允许网络学习复杂函数增强特征响应差异性促进核间分工。池化层降维并保留显著特征提升平移不变性使高层核关注语义而非位置。BatchNorm标准化特征分布加速训练收敛稳定不同核的学习速度避免部分核“死亡”。如何理解池化层在特征提取中的作用平移不变性指的是当输入图像中的物体发生微小位移时池化后的输出特征不会发生显著变化。例如数字“1”在图像中稍微平移后经过池化层得到的特征矩阵仍然相同这说明池化确实有助于保持特征的一致性即使位置变化了。池化操作通过下采样减少了特征图的空间尺寸使得后续的高层网络在处理时感受野更大能够捕捉更全局的信息。例如最大池化选择局部区域的最大值这样无论特征在区域内的具体位置如何只要最大值存在就会被保留。这样高层核不再需要精确追踪每个特征的位置而是关注这些特征的存在与否及其组合从而更专注于语义信息。另外池化层对微小位置变化具有鲁棒性即使输入数据有轻微偏差池化结果仍可能保持一致。这是因为池化窗口内的最大值或平均值并不依赖特征的具体位置只要该特征存在于窗口内就会被捕捉到。 Patch Embedding和Encoder有何区别 Embedding的作用是将图像块转换为向量表示并加入位置信息。这一步是线性的没有复杂的交互。Embedding模块完成从像素空间到语义向量的初步映射并为模型提供基础的局部特征表示和空间位置信息。 Encoder的作用是通过自注意力机制让这些向量之间进行全局交互提取更高层次的语义信息。通过多头自注意力MHSA计算图块间的关联权重建立全局依赖关系。例如猫耳朵图块可能与躯干图块形成高注意力权重从而捕捉生物体结构信息。 3 Positional Encoding 位置编码Positional Encoding其核心目的是将位置信息注入无位置感知的自注意力机制中使模型能够区分不同位置的元素。 Transformer的自注意力机制本质上是无序的无法区分序列中元素的顺序。例如输入序列“[猫, 在, 屋顶]”和“[屋顶, 在, 猫]”可能被模型视为等价。位置编码通过显式标记每个元素的位置解决这一问题。在ViT中图像被分割为图块patch序列位置编码需保留原始图像的空间布局信息如相邻图块的上下左右关系。位置编码主要分为绝对和相对两种类型。绝对位置编码包括可学习的和预定义的如正弦函数而相对位置编码则考虑元素之间的相对距离。可学习的绝对编码Learnable Position EmbeddingViT和BERT的默认方式将位置编码作为可训练参数。例如ViT中每个图块的位置编码通过随机初始化并在训练中优化。正弦/余弦编码Sinusoidal Encoding对于序列中的每个位置 p o s pos pos、隐藏层维度 d m o d e l d_model dmodel、隐藏层中的每个维度索引 i i i、位置编码向量的第 i i i个元素 P E ( p o s , 2 i ) PE_{(pos,2i)} PE(pos,2i)和 P E ( p o s , 2 i 1 ) PE_{(pos,2i1)} PE(pos,2i1)分别通过正弦和余弦函数计算 P E ( p o s , 2 i ) s i n ( p o s 1000 0 2 i d m o d e l ) PE_{(pos,2i)}sin(\frac{pos}{10000^\frac{2i}{d_{model}}}) PE(pos,2i)sin(10000dmodel2ipos) P E ( p o s , 2 i 1 ) c o s ( p o s 1000 0 2 i d m o d e l ) PE_{(pos,2i1)}cos(\frac{pos}{10000^\frac{2i}{d_{model}}}) PE(pos,2i1)cos(10000dmodel2ipos) 使用 2 i 2i 2i和 2 i 1 2i1 2i1来区分偶数和奇数的维度 i i i应该是维度索引的一半。10000是一个常数用来控制不同维度之间的频率差异使得不同维度的正余弦函数具有不同的周期。随位置的变化对固定的维度 i i i来说位置 p o s pos pos的变化将影响 P E PE PE的值。正弦和余弦函数将随着位置呈现出周期性变化这意味着模型能够区分输入序列中token的不同位置。随维度的变化对固定位置 p o s pos pos随着维度 i i i的增加正弦和余弦函数的频率会降低周期会变长。因此较低维度具有短的周期即在较小的位置范围内完成一个周期换句话说其变化迅速对小的位移敏感也就是即使是相邻位置位置编码的差异也会很大这有助于模型识别相邻位置间的细微差异。相反较高维度具有较长的周期在较大的位置范围内才完成一个周期。变化缓慢对小的位移不敏感这能帮助模型感知全局位置关系捕获长距离依赖。这种多尺度的编码使得Transformer模型能够同时捕捉全局和局部的位置信息。远程衰减对于两个相同的词向量如果它们之间的距离越近则他们的内积分数越高反之则越低。词向量的内积分数就是两个词每个维度PE乘积之和我们随机初始化两个向量 x x x和 y y y将 x x x固定在位置0上 y y y的位置从0开始逐步变大依次计算内积。我们发现随着 x x x和 y y y的相对距离的增加它们之间的内积分数震荡衰减。外推能力指模型在处理比训练时更长的序列时仍能保持一定的性能。正余弦函数的周期性使得位置编码在超出训练长度时仍能生成合理的编码值。内积的震荡衰减特性减少了远距离噪声干扰使模型更关注局部上下文同时保留对长距离依赖的微弱信号。这种平衡增强了模型对未见过序列长度的适应性。图像相对位置编码iRPE编码元素间的相对距离而非绝对位置。使用分段函数Piecewise Function映射相对距离到有限索引减少计算量避免远距离位置信息丢失例如通过指数或对数函数对不同距离的像素分配差异化的注意力权重增强长程依赖的捕捉能力。通过交叉法Cross和乘积法Product编码水平和垂直方向提升对物体结构的理解。无向方法欧氏距离法计算像素间的欧氏距离并映射到编码空间。量化法对欧氏距离四舍五入后离散化减少近邻位置映射冲突。有向方法交叉法Cross Method分别计算水平x轴和垂直y轴方向的相对位置编码再进行加性融合。乘积法Product Method直接对二维坐标进行联合编码生成更细粒度的位置特征。 4 QA 2 Embedding和PE直接相加不会导致冲突吗 QA里所有PE问题的解答如果看不明白需要先看下一节关于Positional Encoding的介绍在之前Transformer的学习中我已经了解到输入Attention的是位置编码和嵌入向量直接相加它们的维度相同所以可以逐元素相加相加后的向量既包含语义信息又包含位置信息。词嵌入表示语义信息位置编码表示顺序信息二者属于正交特征空间。相加操作相当于将两种信息线性叠加是信息融合而非混淆。关于正交向量详见【机器学习】强化学习3——深度强化学习的数学知识两个向量相加后形成的新向量在正交特征空间中依然保持明确的几何和物理意义。例如在物理中的力或速度的合成正交分量的相加不会导致信息混乱而是通过线性组合保留各自方向的独立贡献。是否会出现不同向量相加结果相同的情况比如两个不同的词嵌入加上不同的位置编码结果却一样。高维空间中的概率问题当嵌入维度过高时这种碰撞的概率极低。是否会出现位置编码的周期性导致相同编码码的问题正弦和余弦函数的设计通过不同频率的组合确保每个位置有唯一的编码。虽然周期函数会有重复但不同维度的频率是几何级数分布的最小公倍数非常大所以实际应用中几乎不会出现重复。以单词“wolf”为例假设通过Embedding生成了3维向量Embedding(wolf) [0.5, -1.2, 0.8]这一向量由模型训练生成捕捉了“wolf”的语义特征如动物、野外、肉食等。假设“wolf”在句子中的位置是第5位从0开始计使用Transformer的正弦/余弦位置编码公式生成3维PE值 PE(pos5, d_model3) [sin(5 / 10000^(0/3)) sin(5) ≈ 0.4,cos(5 / 10000^(0/3)) cos(5) ≈ 0.9,sin(5 / 10000^(2/3)) sin(5/21.54) ≈ 0.2 ]简化后为PE(5) [0.4, 0.9, 0.2]。将词嵌入与位置编码逐元素相加Embedding(wolf) PE(5) [0.5 0.4, -1.2 0.9, 0.8 0.2] [0.9, -0.3, 1.0]两个向量内积为0。生成编码的时候如何保证两者正交正弦和余弦交替排列使相邻维度的位置编码变化显著如红白交替的竖条可视化增强正交性。从可视图中也可以看出当从左向右看时会有交替出现的红白竖条这便是正弦函数和余弦函数交替出现的结果能帮助模型更加清晰地分辨相邻两个维度。如果只采用正弦函数那么相邻维度之间的界限就被模糊了。 EmbeddingPE如何分离词嵌入与位置编码相加得到新的向量后模型在学习特征和位置的时候需要再把它们还原到两个正交空间中吗如果不还原如何拆分特征编码和位置编码如果还原怎么确定是哪两个正交空间所有词的两个正交空间最后都会一样吗那会不会导致误差词嵌入和位置编码相加后输入到模型中通过自注意力机制进行处理。模型在训练过程中通过线性变换 W Q / W K / W V W_Q/W_K/W_V WQ/WK/WV自动学习将相加后的向量分解到不同的特征空间而不需要显式还原。例如自注意力机制中的 Q Q Q、 K K K、 V V V矩阵的投影可能隐式地将混合后的向量分解到不同的子空间捕捉语义和位置信息。 ViT样例及Embedding可视化理解 1 简化ViT练习详见【深度学习】计算机视觉14——Transformer 2 CLS Token 练习中注意到有一个CLS Token即Class Token。我们将原始图像切分成共8个小图像块最终的输入序列长度却是9这里增加的一个向量就是cls_token。在 Vision TransformerViT中CLS Token 用于提取全局图像的特征表示替代了 CNN 中常用的全局池化操作。将8个向量输入Transformer结构中进行编码我们最终会得到8个编码向量可对于图像分类任务而言我们应该选择哪个输出向量进行后续分类呢这8个向量都只能代表对应的patch但是如果嵌入向量Class Token(向量0)与8个向量一起输入到 Transformer结构中输出9个编码向量然后用这个Class Token进行分类预测即可。这样做有以下好处该token随机初始化并随着网络的训练不断更新它能够编码整个数据集的统计特性该token对所有其他token上的信息做汇聚全局特征聚合并且由于它本身不基于图像内容因此可以避免对sequence中某个特定token的偏向性对该token使用固定的位置编码能够避免输出受到位置编码的干扰。ViT中作者将class embedding视为sequence的头部而非尾部即位置为0。 3 Embedding可视化 4 多头注意力可视化 Embedding技术体系结构 Word2Vec等 [欢迎指正] 参考来源 AIGC 大模型入门Embedding模型概念、源码分析和使用示例什么是embedding详解正弦-余弦位置编码 Transformer中的位置编码 vit 中的 cls_token 与 position_embed 理解

查看全文

http://www.zqtcl.cn/news/442768/