网站ip地址 a记录,现在网站用什么语言做最好,网站建设与维护难不难,宽带专家网站lecture01
零样本学习(Zero-Shot Learning, ZSL)#xff1a; 模型可以在没有见过某种特定任务或类别的训练样本的情况下#xff0c;直接完成对应的任务 利用知识迁移 模型在一个任务上训练时学到的知识#xff0c;能够迁移到其他任务上比如#xff0c;模型知道“狗”和“…lecture01
零样本学习(Zero-Shot Learning, ZSL) 模型可以在没有见过某种特定任务或类别的训练样本的情况下直接完成对应的任务 利用知识迁移 模型在一个任务上训练时学到的知识能够迁移到其他任务上比如模型知道“狗”和“猫”都属于“动物”因此即使没见过“狐狸”的图片也可以通过“动物”这个概念推测“狐狸”可能属于“动物” 借助语义信息 零样本学习通常依赖于额外的语义信息如类标签的描述、文本嵌入、图像特征等例如在分类任务中类别名称的文本描述可以帮助模型理解新的类别 关键技术 共享特征空间 模型通过将已知类别的特征和未知类别的语义描述映射到同一个特征空间来实现知识迁移例如将图片嵌入和文本嵌入映射到一个共同空间模型可以比较图片特征和文本描述的相似性 使用预训练模型 许多预训练语言模型如GPT、BERT和多模态模型如CLIP对零样本学习效果非常好这些模型在大量多任务数据上训练可以理解广泛的语义信息 多模态方法 跨文本和图像的模型如CLIP在零样本任务中尤为突出它们通过学习文本和图像的对应关系实现任务迁移
思维链Chain of Thought, CoT 一种用于大语言模型LLM的推理策略通过让模型生成逐步的推理步骤从而提高复杂任务如数学推算、逻辑推理、问答等的准确性和解释性 传统的模型往往直接给出答案而思维链方法引导模型像人类一样分步骤思考问题提高了解决复杂问题的能力 主要策略 逐步推理将一个复杂问题分解成多个小的、容易解决的步骤模型在推理过程中不仅生成答案还给出详细的思路显式中间步骤思维链的中间步骤提供了解题过程的可解释性便于诊断和改进模型的推理提升模型性能对于需要深度推理或多步骤计算的问题思维链能显著提高模型的准确性 预训练语言模型生成 使用提示Prompting指导模型逐步推理 eg
问题如果一辆车以每小时60公里的速度行驶4小时它行驶了多少公里
答案
1. 每小时行驶60公里。
2. 行驶4小时。
3. 总距离是 \(60 \times 4 240\) 公里。
答案是240公里。少样本学习Few-shot Learning 在输入中加入几个例子让模型学习如何分步骤回答 示例1
问题如果小明有2个苹果每个苹果价值3元他总共有多少钱
答案
1. 每个苹果价值3元。
2. 小明有2个苹果。
3. 总价值是 \(3 \times 2 6\) 元。
答案是6元。问题如果一辆车每小时行驶70公里行驶3小时它行驶了多少公里
答案微调模型将逐步推理的标注数据用来微调模型使其能够生成思维链 算法、硬件、数据
AI设备性能指标 FLOPSFloating Point Operations Per Second: 浮点计算能力FLOPS 是衡量设备计算能力的指标表示设备每秒能执行的浮点运算次数 浮点数运算指的是计算机处理小数或大数比如 1.23、0.0005 或 3.14的加减乘除等操作 AI模型需要大量计算比如神经网络中的矩阵乘法FLOPS越大计算能力越强也就是能更快、更高效地处理任务 AI 和深度学习领域常见的位数包括 16位FP16、32位FP32 和 64位FP64它们代表浮点数的不同精度位数越多表示的数值范围越大精度越高更接近真实值 FP3232位浮点数单精度浮点数每个数占用 4 字节32 位传统的深度学习主要使用 FP32计算精度和速度较均衡通用深度学习训练和推理任务FP1616位浮点数: 半精度浮点数每个数占用 2 字节16 位运算速度更快因为每次操作处理的数据量更少推理阶段更常用FLOPS 的计算能力会因为浮点数精度不同而变化同一个GPU算力 FP3210 TFLOPS每秒 10 万亿次 FP32 运算FP1620 TFLOPS每秒 20 万亿次 FP16 运算FP642 TFLOPS每秒 2 万亿次 FP64 运算 混合精度训练Mixed Precision Training 如 PyTorch、TensorFlow支持混合精度训练 使用 FP16 处理大部分运算以提高速度和节省显存在需要高精度的地方如梯度累积切换回 FP32 FLOPS 的计算依赖于硬件架构和运行的程序基本公式如下 FLOPSNumber of Cores × Clock Speed (GHz) × Operations Per Clock (OPC)Number of Cores处理器CPU/GPU的计算核心数越多并行能力越强 Clock Speed每秒钟的时钟频率单位是 GHz10 亿次/秒 Operations Per Clock每个时钟周期能执行的浮点运算次数 eg : NVIDIA RTX 3090 CUDA 核心数10496 个时钟频率Boost Clock1.70 GHz每个 CUDA 核心的运算能力FP321 次浮点运算/周期Tensor Core 性能FP16 混合精度每个 Tensor Core 每周期可以处理 4 次浮点运算FP32 FLOPS 10496 × 1.70GHz × 1OPC 17843.2GFLOPS 17.8TFLOPSFP16 是半精度浮点运算使用 Tensor Core 时每周期每个核心的运算能力为 FP32 的 4 倍FP16 FLOPS4×17.871.2TFLOPS Tensor Core 是 NVIDIA 针对 AI 和深度学习任务特别设计的硬件加速单元 在 FP16半精度浮点模式下Tensor Core 每个时钟周期可以执行 4 次浮点运算在 TF32 和 FP32 精度下Tensor Core 也具有加速作用特别是在进行矩阵运算时Tensor Core 更像是 加速器提升了 GPU 在特定任务如深度学习中的表现,ensor Core 提升了 CUDA 核心 在 深度学习 和 低精度运算 中的计算能力尤其是处理矩阵运算时通过并行处理提升了整体性能 **显存VRAM 或 Memory*用于存储图形数据、纹理、渲染的帧和其他与显示相关的信息。显存对于 AI 设备如 GPU也非常重要尤其是在 深度学习、训练 和 推理 中 显存通常用于存储图形渲染的 纹理、帧缓冲区、几何数据、顶点信息等 在 深度学习 中显存用来存储训练过程中的 模型参数如权重、偏置以及 中间结果例如在前向传播和反向传播过程中产生的激活值和梯度 在 推理inference过程中显存用于存储需要推理的数据批量以及网络结构和模型权重 GPU 需要快速处理大量数据。显存提供了快速的数据存储和读取通道减少了从 主内存系统 RAM到 GPU 的数据传输延迟提高了整体性能 如果显存不足GPU 可能会变得 受限因为无法容纳足够的训练数据或模型参数。在这种情况下GPU 的计算能力可能会受到限制即使它的 FLOPS 很高 显存的大小和性能更大的显存允许 GPU 同时处理更多的数据从而提升计算效率。对于 AI 训练和推理显存的大小对处理 大规模数据集 或 复杂模型 的能力至关重要 批量大小Batch Size批量大小是深度学习训练中的一个重要参数。增加批量大小通常可以提升训练效率但也需要更多的显存。如果显存不足批量大小必须减少 显存容量和显存带宽 训练复杂的深度神经网络时模型的大小和数据的批量大小会占用大量显存。如果显存不足可能会导致 内存溢出Out of Memory显存带宽 是指显存能够在单位时间内读取或写入的数据量通常以 GB/sGB 每秒为单位。高带宽显存可以提供更高的数据吞吐量尤其是在需要处理大量并行数 设备显存类型显存大小显存带宽AI 算力FLOPSJetson NanoLPDDR4(低功耗)4 GB25.6 GB/sFP32: 0.5 TFLOPS, FP16: 1 TFLOPSRTX 3090GDDR6X24 GB936.2 GB/sFP32: 35.6 TFLOPS, FP16: 71.2 TFLOPSRTX 4090GDDR6X24 GB1,008.0 GB/sFP32: 35.6 TFLOPS, FP16: 71.2 TFLOPSA100HBM240 GB 或 80 GB1,555 GB/s (40 GB 版本) 或 2,039 GB/s (80 GB 版本)FP32: 19.5 TFLOPS, FP16: 156 TFLOPS, Tensor Core FP16: 312 TFLOPS