gta5可用手机网站大全,枞阳网站制作,统一企业官网,阿里云建站和华为云建站在确定了训练集 D、假设空间 ℱ 以及学习准则后#xff0c;如何找到最优的模型#x1d453;(x,θ∗) 就成了一个最优化#xff08;Optimization#xff09;问题。机器学习的训练过程其实就是最优化问题的求解过程。
参数与超参数 在机器学习中#xff0c;优化又可以分为参…在确定了训练集 D、假设空间 ℱ 以及学习准则后如何找到最优的模型(x,θ∗) 就成了一个最优化Optimization问题。机器学习的训练过程其实就是最优化问题的求解过程。
参数与超参数 在机器学习中优化又可以分为参数优化和超参数优化。模型(x;θ)中的θ称为模型的参数可以通过优化算法进行学习。除了可学习的参数θ之外还有一类参数是用来定义模型结构或优化策略的这类参数叫作超参数Hyper-Parameter。 常见的超参数包括聚类算法中的类别个数、梯度下降法中的步长、正则化项的系数、神经网络的层数、支持向量机中的核函数等。超参数的选取一般都是组合优化问题很难通过优化算法来自动学习因此超参数优化是机器学习的一个经验性很强的技术通常是按照人的经验设定或者通过搜索的方法对一组超参数组合进行不断试错调整。
梯度下降法
为了充分利用凸优化中一些高效、成熟的优化方法比如共轭梯度、拟牛顿法等很多机器学习方法都倾向于选择合适的模型和损失函数以构造一个凸函数作为优化目标但也有很多模型比如神经网络的优化目标是非凸的只能退而求其次找到局部最优解。 在机器学习中最简单、常用的优化算法就是梯度下降法即首先初始化参数θ0然后按下面的迭代公式来计算训练集D 上风险函数的最小值 其中θt为第t次迭代时的参数值α为搜索步长在机器学习中α一般称为学习率Learning Rate。
提前停止
针对梯度下降的优化算法除了加正则化项之外还可以通过提前停止来防止过拟合。 在梯度下降训练的过程中由于过拟合的原因在训练样本上收敛的参数并不一定在测试集上最优。因此除了训练集和测试集之外有时也会使用一个验证集Validation Set来进行模型选择测试模型在验证集上是否最优。在每次迭代时把新得到的模型 (x;θ) 在验证集上进行测试并计算错误率。如果在验证集上的错误率不再下降就停止迭代这种策略叫提前停止。如果没有验证集可以在训练集上划分出一个小比例的子集作为验证集。图中给出了提前停止的示例。 随机梯度下降法
在公式 (2.27)的梯度下降法中目标函数是整个训练集上的风险函数这种方式称为批量梯度下降法批量梯度下降法在每次迭代时需要计算每个样本上损失函数的梯度并求和。当训练集中的样本数量N 很大时空间复杂度比较高每次迭代的计算开销也很大。 在机器学习中我们假设每个样本都是独立同分布地从真实数据分布中随机抽取出来的真正的优化目标是期望风险最小。批量梯度下降法相当于是从真实数据分布中采集 N个样本并由它们计算出来的经验风险的梯度来近似期望风险的梯度。为了减少每次迭代的计算复杂度我们也可以在每次迭代时只采集一个样本计算这个样本损失函数的梯度并更新参数即随机梯度下降法。当经过足够次数的迭代时随机梯度下降也可以收敛到局部最优解。 随机梯度下降法的训练过程如算法2.1所示 批量梯度下降和随机梯度下降之间的区别在于每次迭代的优化目标是对所有样本的平均损失函数还是对单个样本的损失函数。由于随机梯度下降实现简单收敛速度也非常快因此使用非常广泛。机梯度下降相当于在批量梯度下降的梯度上引入了随机噪声。在非凸优化问题中随机梯度下降更容易逃离局部最优点。
小批量梯度下降法
随机梯度下降法的一个缺点是无法充分利用计算机的并行计算能力。小批量梯度下降法是批量梯度下降和随机梯度下降的折中每次迭代时我们随机选取一小部分训练样本来计算梯度并更新参数这样既可以兼顾随机梯度下降法的优点也可以提高训练效率。 第t次迭代时随机选取一个包含K个样本的子集St计算这个子集上每个样本损失函数的梯度并进行平均然后再进行参数更新 在实际应用中小批量随机梯度下降法有收敛快、计算开销小的优点因此逐渐成为大规模的机器学习中的主要优化算法。