阿里建站模板,海外推广公司,烟台商机互联做网站吗,app模板网站Mini-Batch梯度下降法是一种将训练数据集分成小批次进行学习的优化方法#xff0c;通过这种方式#xff0c;可以有效地解决内存限制问题并加速学习过程。
一、为什么要使用Mini-Batch#xff1f; 在机器学习尤其是深度学习中#xff0c;我们常常面临海量数据处理的问题。如… Mini-Batch梯度下降法是一种将训练数据集分成小批次进行学习的优化方法通过这种方式可以有效地解决内存限制问题并加速学习过程。
一、为什么要使用Mini-Batch 在机器学习尤其是深度学习中我们常常面临海量数据处理的问题。如果我们一次性将所有的数据加载进内存做训练很可能会遇到内存不足的情况。此外处理如此大批量的数据也会导致训练速度变慢。为了解决这个问题Mini-Batch技术应运而生。
二、什么是批量梯度下降 让我们理解一下批量梯度下降Batch Gradient Descent, BGD的概念。这种方法在每次迭代时使用全部样本来进行梯度的更新。这样做的优点是可以确保梯度估计的无偏性并且当目标函数为凸函数时可以保证收敛到全局最小值。然而当数据集非常大时遍历所有样本需要大量的时间这就是BGD的主要缺点。 为了解决大数据集带来的问题Mini-Batch梯度下降Mini-Batch Gradient Descent, MBGD就应运而生了。它是BGD的一种改良方法通过将整个数据集分成若干个小批次每次只使用一个小批次的数据来更新梯度。这样既保留了BGD的一些优点比如更准确地朝向极值所在的方向又显著减少了每次迭代所需的计算量。
三、Mini-Batch举例说明 假设我们有一个包含1000个样本的训练集我们可以选择每个批次包含64个样本那么我们将有16个这样的批次因为1000除以64得到15余数为40所以还有一个批次包含剩余的40个样本。然后我们会对这16个批次分别执行一步梯度下降法更新我们的模型参数。 四、Mini-Batch的大小设置
1大小设置的三种情况
随机梯度下降SGDMini-Batch梯度下降MBGD批量梯度下降BGDMini-Batch Size 1Mini-Batch Size kMini-Batch Size m失去向量化的加速训练效果。 使用向量化技术加速训练 无须等待所有数据被处理即可进行后续工作。 耗时长、迭代次数多。 如果Mini-Batch的大小设置为1那么Mini-Batch梯度下降实际上就变成了随机梯度下降Stochastic Gradient DescentSGD。在SGD中每次迭代只使用一个样本来计算梯度并更新模型参数。由于只用到了一个样本所以SGD的计算速度非常快并且可以支持在线学习即模型可以在新数据到来时实时更新。然而SGD的缺点在于因为每个样本都会产生一个梯度估计这些估计值可能会有很大的变异性导致优化过程出现很多震荡收敛路径不够平滑。 如果Mini-Batch的大小设置为训练集的大小m那么Mini-Batch梯度下降实际上就变成了批量梯度下降Batch Gradient DescentBGD。在BGD中每次迭代使用整个训练集来计算梯度并更新模型参数。由于使用了全部的训练样本所以BGD可以得到最准确的梯度估计从而使得优化过程更加稳定。然而BGD的缺点在于计算速度非常慢因为需要遍历整个训练集。此外当数据集非常大时可能会导致内存不足的问题。 上图是梯度下降空间。 蓝色的部分是BGD、紫色部分是SGD、绿色部分是Mini-Batch。 Mini-Batch不是每次迭代损失函数都会减少所以看上去好像走了很多弯路。 不过整体还是朝着最优解迭代的。 而且由于Mini-Batch一个epoch就走了步而BGD一个epoch只有一步。所以虽然Mini-Batch走了弯路但还是会快很多。
2训练速度与稳定性的权衡
mini-Batch的大小是权衡速度与稳定性的一种方式。所以Batch Size是一个超参数。
当大小为1时我们获得了最快的训练速度但可能牺牲了一定的稳定性。而当我们增加mini-Batch的大小时虽然单次迭代所需的时间会增加但梯度估计会变得更加稳定从而使得整个优化过程更加平滑。当大小为m时我们获得了最快的训练速度和最稳定的优化过程但可能会面临内存不足的问题。而当我们减小mini-Batch的大小时虽然单次迭代所需的时间会增加但可以解决内存不足的问题并且梯度估计也会变得更加稳定从而使得整个优化过程更加平滑。 3常见的Batch Size选择 Batch Size超参数其选择大多取决于具体的计算资源、数据集大小、模型复杂度和训练目标。他并不是一个固定的数字而是需要根据具体情况来调整。以下是一些选择Batch Size时需要考虑的因素
一般设置2的n次方。 例如64,128,512,1024. 一般不会超过这个范围。不能太大因为太大了会无限接近BGD的行为速度会慢。 也不能太小太小了以后可能算法永远不会收敛。 计算资源较大的Batch Size需要更多的内存和计算资源。如果计算资源有限可以选择较小的Batch Size例如32或64。数据集大小对于较小的数据集选择较小的Batch Size通常更合适以避免模型过度拟合训练数据。模型复杂度简单模型可以使用较大的Batch Size因为计算量相对较小。复杂模型则建议使用较小的Batch Size以充分训练模型。训练目标如果追求最大化训练速度可以选择较大的Batch Size。若目标是获得更好的模型性能则建议使用较小的Batch Size。