当前位置：首页 > news >正文

网站建设合同范本大全漯河市网站建设

news 2025/11/15 3:52:03

网站建设合同范本大全,漯河市网站建设,做网站费用可以看为广告费用吗,电子商务平台定制开发文章目录深度学习基本概念(Basic concepts of deep learning)机器学习典型任务机器学习分类模型训练的基本概念基本名词机器学习任务流程模型训练详细流程正、反向传播学习率Batch size激活函数激活函数 sigmoid 损失函数MSE M交叉熵损失优化器优化器 — 梯度下降优化… 文章目录深度学习基本概念(Basic concepts of deep learning)机器学习典型任务机器学习分类模型训练的基本概念基本名词机器学习任务流程模型训练详细流程正、反向传播学习率Batch size激活函数激活函数 sigmoid 损失函数MSE M交叉熵损失优化器优化器 — 梯度下降优化器 — Momentum优化器 — AdaGrad 优化器 — RMSprop优化器 — Adam 模型评估指标回归模型深度学习基本概念(Basic concepts of deep learning) 机器学习深度学习基于机器学习是人工智能的一部分而LM又是深度学习的一部分。机器学习模拟人的学习过程通过历史数据进行训练然后利用积累的经验解决新的问题。模型一个包含大量未知参数的函数所谓训练就是通过大量的数据去迭代逼近这些未知参数的最优解机器学习是一门专门研究计算机怎样模拟或实现人类的学习行为以获取新的知识或技能重新组织已有的知识结构使之不断改善自身的性能的学科。简单说就是“从样本中学习的智能程序”。深度学习深度学习的概念源于人工神经网络的研究是机器学习研究中的一个新的领域其动机在于建立、模拟人脑进行分析学习的神经网络它模仿人脑的机制来解释数据例如图像声音和文本。不论是机器学习还是深度学习都是通过对大量数据的学习掌握数据背后的分布规律进而对符合该分布的其他数据进行准确预测人体神经元结构和机器学习结构对比典型任务机器学习中的典型任务类型可以分为分类任务Classification和回归任务Regression 分类任务是对离散值进行预测根据每个样本的值/特征预测该样本属于类型A、类型B 还是类型C相当于学习一个分类边界决策边界用分类边界把不同类别的数据区分开来。回归任务是对连续值进行预测根据每个样本的值/特征预测该样本的具体数值例如房价预测股票预测等相当于学习这组数据背后的分布能够根据数据的输入预测该数据的取值。分类与回归的根本区别在于输出空间是否为一个度量空间。 f ( x ) → y , x ∈ A , y ∈ B f(x) \rightarrow y,x \in A,y \in B f(x)→y,x∈A,y∈B 对于分类问题目的是寻找决策边界其输出空间B不是度量空间即“定性”。也就是说在分类问题中只有分类“正确”与“错误”之分至于分类到类别A还是类别B没有分别都是错误数量1。 **对于回归问题目的是寻找最优拟合其输出空间B是一个度量空间即“定量”通过度量空间衡量预测值与真实值之间的“误差大小”。**当真实值为10预测值为5时误差为5预测值为8时误差为2 机器学习分类有监督学习监督学习利用大量的标注数据来训练模型对模型的预测值和数据的真实标签计算损失然后将误差进行反向传播计算梯度、更新参数通过不断的学习最终可以获得识别新样本的能力。每条数据都有正确答案通过模型预测结果与正确答案的误差不断优化模型参数无监督学习无监督学习不依赖任何标签值通过对数据内在特征的挖掘找到样本间的关系比如聚类相关的任务。只有数据没有答案常见的是聚类算法通过衡量样本之间的距离来划分类别有监督和无监督最主要的区别在于模型在训练时是否需要人工标注的标签信息。半监督学习利用有标签数据和无标签数据来训练模型。一般假设无标签数据远多于有标签数据。例如使用有标签数据训练模型然后对无标签数据进行分类再使用正确分类的无标签数据训练模型利用大量的无标注数据和少量有标注数据进行模型训练自监督学习机器学习的标注数据源于数据本身而不是由人工标注。目前主流大模型的预训练过程都是采用自监督学习将数据构建成完型填空形式让模型预测对应内容实现自监督学习。通过对数据进行处理让数据的一部分成为标签由此构成大规模数据进行模型训练远程监督学习主要用于关系抽取任务采用bootstrap的思想通过已知三元组在文本中寻找共现句自动构成有标签数据进行有监督学习。基于现有的三元组收集训练数据进行有监督学习强化学习强化学习是智能体根据已有的经验采取系统或随机的方式去尝试各种可能答案的方式进行学习并且智能体会通过环境反馈的奖赏来决定下一步的行为并为了获得更好的奖赏来进一步强化学习。以获取更高的环境奖励为目标优化模型模型训练的基本概念基本名词样本一条数据特征被观测对象的可测量特性例如西瓜的颜色、纹路、敲击声等特征向量用一个 d 维向量表征一个样本的所有或部分特征标签(label)/真实值样本特征对应的真实类型或者真实取值即正确答案数据集(dataset)多条样本组成的集合训练集(train)用于训练模型的数据集合评估集(eval)用于在训练过程中周期性评估模型效果的数据集合测试集(test)用于在训练完成后评估最终模型效果的数据集合模型可以从数据中学习到的可以实现特定功能/映射的函数误差/损失样本真实值与预测值之间的误差预测值样本输入模型后输出的结果模型训练使用训练数据集对模型参数进行迭代更新的过程模型收敛任意输入样本对应的预测结果与真实标签之间的误差稳定模型评估使用测试数据和评估指标对训练完成的模型的效果进行评估的过程模型推理/预测使用训练好的模型对数据进行预测的过程模型部署使用服务加载训练好的模型对外提供推理服务机器学习任务流程模型训练详细流程正、反向传播梯度梯度是一个向量矢量函数在一点处沿着该点的梯度方向变化最快变化率最大。换而言之自变量沿着梯度方向变化能够使因变量函数值变化最大。学习率学习率Learning RateLR决定模型参数的更新幅度学习率越高模型参数更新越激进即相同 Loss 对模型参数产生的调整幅度越大反之越越小。如果学习率太小会导致网络 loss 下降非常慢如果学习率太大那么参数更新的幅度就非常大产生振荡导致网络收敛到局部最优点或者 loss 不降反增。 Batch size Batch size 是一次向模型输入的数据数量Batch size 越大模型一次处理的数据量越大能够更快的运行完一个 Epoch反之运行完一个 Epoch 越慢由于模型一次是根据一个 Batch size 的数据计算 Loss然后更新模型参数如果 Batchsize 过小单个 Batch 可能与整个数据的分布有较大差异会带来较大的噪声导致模型难以收敛。Batch size 越大模型单个 Step 加载的数据量越大对于 GPU 显存的占用也越大当 GPU 显存不够充足的情况下较大的 Batch size 会导致 OOM因此需要针对实际的硬件情况设置合理的 Batch size 取值。在合理范围内更大的 Batch size 能够提高内存利用率提高并行化效率一个 Epoch 所需的迭代次数变少减少训练时间梯度计算更加稳定训练曲线更平滑下降方向更准能够取得更好的效果对于传统模型在较多场景中较小的 Batch size 能够取得更好的模型性能对于大模型往往更大的 Batch size 能够取得更好的性能。激活函数线性函数是一次函数的别称非线性函数即函数图像不是一条直线的函数。非线性函数包括指数函数、幂函数、对数函数、多项式函数等等基本初等函数以及他们组成的复合函数。激活函数是多层神经网络的基础保证多层网络不退化成线性网络为什么需要使用激活函数线性模型的表达能力不够激活函数使得神经网络可以逼近其他的任何非线性函数这样可以使得神经网络应用到更多非线性模型中激活函数 sigmoid sigmoid函数具有软饱和特性在正负饱和区的梯度都接近于0只在0附近有比较好的激活特性sigmoid导数值最大0.25也就是反向传播过程中每层至少有75%的损失这使得当sigmoid被用在隐藏层的时候会导致梯度消失一般5层之内就会产生函数输出不以0为中心也就是输出均值不为0会导致参数更新效率降低sigmoid函数涉及指数运算导致计算速度较慢。为什么希望激活函数输出均值为0 在上面的参数 w i w_i wi 更新公式中对于所有 w i w_i wi 都是一样的 x i x_i xi 是 i − 1 i - 1 i−1 层的激活函数的输出如果像 sigmoid 一样输出值只有正值那么对于第 i i i 层的所有 w i w_i wi 其更新方向完全一致模型为了收敛会走 Z 字形来逼近最优解 eLU 是一个分段线性函数因此是非线性函数ReLU 的发明是深度学习领域最重要的突破之一ReLU 不存在梯度消失问题ReLU 计算成本低收敛速度比 sigmoid 快6倍函数输出不以0为中心也就是输出均值不为0会导致参数更新效率降低存在 dead ReLU 问题输入 ReLU 有负值时ReLU输出为0梯度在反向传播期间无法流动导致权重不会更新参数不变情况下将模型中ReLU替换为Swish模型性能提升Swish 无上界不会出现梯度饱和Swish 有下界不会出现 dead ReLU 问题Swish 处处连续可导损失函数损失函数loss function用来度量模型的预测值f(x)与真实值Y的差异程度损失值的运算函数它是一个非负实值函数。损失函数仅用于模型训练阶段得到损失值后通过反向传播来更新参数从而降低预测值与真实值之间的损失值从而提升模型性能。整个模型训练的过程就是在通过不断更新参数使得损失函数不断逼近全局最优点全局最小值不同类型的任务会定义不同的损失函数例如回归任务重的MAE、MSE分类任务中的交叉熵损失等 MSE M 均方误差mean squared errorMSE也叫平方损失或 L2 损失常用在最小二乘法中它的思想是使得各个训练点到最优拟合线的距离最小平方和最小平均绝对误差Mean Absolute ErrorMAE是所有单个观测值与算术平均值的绝对值的平均也被称为 L1 loss常用于回归问题中交叉熵损失【二分类】 y i y_i yi 为样本 i i i 的真实标签正类为 1负类为 0 p i p_i pi 表示样本 i i i 预测为正类的概率【多分类】 M 为类别数量 y i c y_{ic} yic 符号函数样本 i i i 真实类别等于 c 则为 1否则为 0预测样本 i i i属于类别 c 的预测概率假设有一个二分类任务正类为1负类为0存在一个正样本A当模型输出其为正类的概率为0.8时交叉熵损失为: l o s s − ( 1 × l o g ( 0.8 ) 0 × l o g ( 0.2 ) ) − l o g ( 0.8 ) 0.0969 loss-(1\times log(0.8)0 \times log(0.2))-log(0.8)0.0969 loss−(1×log(0.8)0×log(0.2))−log(0.8)0.0969 当模型输出其为正类的概率为0.5时交叉熵损失为 l o s s − ( 1 × l o g ( 0.5 ) 0 × l o g ( 0.5 ) ) − l o g ( 0.5 ) 0.3010 loss-(1\times log(0.5)0 \times log(0.5))-log(0.5)0.3010 loss−(1×log(0.5)0×log(0.5))−log(0.5)0.3010 由此可见当模型预测的误差越大时交叉熵损失函数计算得到的损失越大假设分类任务有3种类别ABC有三个样本其中 sample 1类型为Csmaple 2类型为Bsample 3类型为A对于 sample 1当模型预测概率不同时假设模型对这三个样本的预测概率为样本名称类别A概率类别B概率类别C概率sample 10.30.30.4sample 20.30.40.3sample 30.10.20.7 交叉熵损失计算对于不同的分类任务交叉熵损失函数使用不同的激活函数sigmoid/softmax获得概率输出二分类使用sigmoid和softmax均可注意在二分类中Sigmoid函数可以当作成它是对一个类别的“建模”另一个相对的类别就直接通过1减去得到。而softmax函数是对两个类别建模同样的得到两个类别的概率之和是1单标签多分类交叉熵损失函数使用softmax获取概率输出互斥输出多标签多分类交叉熵损失函数使用sigmoid获取概率输出优化器优化器就是在深度学习反向传播过程中指引损失函数目标函数的各个参数往正确的方向更新合适的大小使得更新后的各个参数损失函数目标函数值不断逼近全局最小。如果损失函数是一座山峰优化器会通过梯度下降帮助我们以最快的方式从高山下降到谷底梯度是一个向量它的每一个分量都是对一个特定变量的偏导数每个元素都指示了函数里每个变量的最陡上升方向梯度指向函数增长最多的方向。优化器 — 梯度下降 BGD批量梯度下降法在全部训练集上计算精确的梯度。 SGD随机梯度下降法则采样单个样本来估计的当前梯度。 mini-batch GDmini-batch梯度下降法使用batch的一个子集来计算梯度。为获取准确的梯度批量梯度下降法的每一步都把整个训练集载入进来进行计算时间花费和内存开销都非常大无法应用于大数据集、大模型的场景。随机梯度下降法则放弃了对梯度准确性的追求每步仅仅随机采样一个样本来估计当前梯度计算速度快内存开销小。但由于每步接受的信息量有限随机梯度下降法对梯度的估计常常出现偏差造成目标函数曲线收敛得很不稳定伴有剧烈波动有时甚至出现不收敛的情况。鉴于 BGD 和 SGD 各自的局限性目前的训练采用 Mini-Batch GD每次对batch_size的数据进行梯度计算更新参数优化器 — Momentum v t vt vt 由两部分组成一是学习速率 η η η 乘以当前估计的梯度 g t g_t gt 二是带衰减的前一次步伐 v t − 1 v_{t−1} vt−1 和 g t g_t gt 而不仅仅是 g t g_t gt。另外衰减系数 γ γ γ 扮演了阻力的作用优化器 — AdaGrad 引入自适应思想训练过程中学习速率逐渐衰减经常更新的参数其学习速率衰减更快AdaGrad方法采用所有历史梯度平方和的平方根做分母分母随时间单调递增产生的自适应学习速率随时间衰减的速度过于激进优化器 — RMSprop RMSprop 是 Hinton 在课程中提到的一种方法是对 Adagrad 算法的改进主要是解决学习速率过快衰减的问题采用梯度平方的指数加权移动平均值其中一般取值0.9有助于避免学习速率很快下降的问题学习率建议取值为0.001 优化器 — Adam Adam方法将惯性保持动量和自适应这两个优点集于一身Adam记录梯度的一阶矩first moment即过往梯度与当前梯度的平均这体现了惯性保持 Adam还记录梯度的二阶矩second moment即过往梯度平方与当前梯度平方的平均这类似AdaGrad方法体现了自适应能力为不同参数产生自适应的学习速率一阶矩和二阶矩采用类似于滑动窗口内求平均的思想进行融合即当前梯度和近一段时间内梯度的平均值时间久远的梯度对当前平均值的贡献呈指数衰减。其中β1β2 为衰减系数β1通常取值0.9β2通常取值0.999 m t m_t mt 是一阶矩 v t v_t vt 是二阶矩阵。其中 m t ^ \hat{m_t} mt^ 和 v t ^ \hat{v_t} vt^ 是 m t m_t mt、 v t v_t vt 偏差矫正之后的结果模型评估指标回归模型混淆矩阵是机器学习中总结分类模型预测结果的情形分析表以矩阵形式将数据集中的记录按照真实的类别与分类模型预测的类别判断两个标准进行汇总 True PositiveTP真正类。正类被预测为正类。False NegativeFN假负类。正类被预测为负类。False PositiveFP假正类。负类被预测为正类。True NegativeTN真负类。负类被预测为负类。 Precision精准率表示预测结果中预测为正样本的样本中正确预测的概率 T P T P F P \dfrac{TP}{TPFP} TPFPTPRecall召回率表示在原始样本的正样本中被正确预测为正样本的概率 T P T P F N \dfrac{TP}{TPFN} TPFNTPPrecision值和Recall值是既矛盾又统一的两个指标为提高Precision值分类器需要尽量在“更有把握”时才把样本预测为正样本但此时往往会因为过于保守而漏掉很多“没有把握”的正样本导致Recall值降低F1F1-score是Precision和Recall两者的综合是一个综合性的评估指标 F 1 2 × P r e c i s i o n × R e c a l l P r e c i s i o n R e c a l l F1\dfrac{2 \times Precision \times Recall}{Precision Recall} F1PrecisionRecall2×Precision×RecallMicro-F1不区分类别直接使用总体样本的准召计算f1 score。Macro-F1先计算出每一个类别的准召及其f1 score然后通过求均值得到在整个样本上的f1 score。数据均衡两者均可样本不均衡相差很大使用Macro-F1样本不均衡相差不大优先选择Micro-F1。 MSE均方误差 y i − y i ^ y_i - \hat{y_i} yi−yi^ 为真实值-预测值。MSE中有平方计算会导致量纲与数据不一致 RMSE均方根误差 y i − y i ^ y_i - \hat{y_i} yi−yi^ 为真实值-预测值。解决量纲不一致的问题。 MAE平均绝对误差 y i − y i ^ y_i - \hat{y_i} yi−yi^ 为真实值-预测值。 RMSE 与 MAE 的量纲相同但求出结果后我们会发现RMSE比MAE的要大一些。这是因为RMSE是先对误差进行平方的累加后再开方它其实是放大较大误差之间的差距。而MAE反应的是真实误差。因此在衡量中使RMSE的值越小其意义越大因为它的值能反映其最大误差也是比较小的。 R 2 R^2 R2 决定系数分子部分表示真实值与预测值的平方差之和类似于均方差 MSE分母部分表示真实值与均值的平方差之和类似于方差 Var。根据 R 2 R^2 R2 的取值来判断模型的好坏其取值范围为 [ 0 , 1 ] [0,1] [0,1] R 2 R^2 R2 越大表示模型拟合效果越好。 R 2 R^2 R2 反映的是大概的准确性因为随着样本数量的增加 R 2 R^2 R2 必然增加无法真正定量说明准确程度只能大概定量。 GSB通常用于两个模型之间的对比, 而非单个模型的评测可以用GSB指标评估两个模型在某类数据中的性能差异

查看全文

http://www.zqtcl.cn/news/582293/