纺织品做外贸一般在哪个网站上,南宁网站建设制作后台,现在网站开发技术有哪些,团购酒店的网站建设1.5 图像数据不足时的处理方法
场景描述 在机器学习中#xff0c;绝大部分模型都需要大量的数据进行训练和学习(包括有监督学习和无监督学习)#xff0c;然而在实际应用中经常会遇到训练数据不足的问题。 比如图像分类#xff0c;作为计算机视觉最基本的任务之一#xff0…1.5 图像数据不足时的处理方法
场景描述 在机器学习中绝大部分模型都需要大量的数据进行训练和学习(包括有监督学习和无监督学习)然而在实际应用中经常会遇到训练数据不足的问题。 比如图像分类作为计算机视觉最基本的任务之一其目标是将每幅图像划分到指定类别集合中的一个或多个类别中。训练一个图像分类模型时如果训练样本比较少该如何处理呢? 知识点迁移学习(Transfer Learning),生成对抗网络,图像处理,上采样技术,数据扩充
问题:在图像分类任务中训练数据不足会带来什么问题?如何缓解数据量不足带来的问题? 一个模型所能提供的信息一般来源于两个方面 一是训练数据中蕴含的信息二是在模型的形成过程中(包括构造、学习、推理等)人们提供的先验信息。 当训练数据不足时说明模型从原始数据中获取的信息比较少这种情况下要想保证模型的效果就需要更多先验信息。 先验信息可以作用在模型上例如让模型采用特定的内在结构、条件假设或添加其他一些约束条件先验信息也可以直接施加在数据集上即根据特定的先验假设去调整、变换或扩展训练数据让其展现出更多的、更有用的信息以利于后续模型的训练和学习。 带来的问题具体到图像分类任务上训练数据不足带来的问题主要表现在过拟合方面即模型在训练样本上的效果可能不错但在测试集上的泛化效果不佳。
如何解决根据上述讨论对应的处理方法大致也可以分两类 一是基于模型的方法主要是采用降低过拟合风险的措施包括简化模型(如将非线性模型简化为线性模型)、添加约束项以缩小假设空间(如L1/L2正则项)、集成学习、Dropout超参数等 二是基于数据的方法主要通过数据扩充(Data Augmentation),即根据一些先验知识,在保持特定信息的前提下对原始数据进行适当变换以达到扩充数据集的效果。具体到图像分类任务中在保持图像类别不变的前提下可以对训练集中的每幅图像进行以下变换。 一定程度内的随机旋转、平移、缩放、裁剪、填充、左右翻转等这些变换对应着同一个目标在不同角度的观察结果。 对图像中的像素添加噪声扰动比如椒盐噪声、高斯白噪声等。 颜色变换。例如在图像的RGB颜色空间上进行主成分分析,得到3个主成分的特征向量p₁,P₂,p₃及其对应的特征值λ₁,λ₂,λ₃,然后在每个像素的RGB 值上添加增量其中α₁α₂α₃是均值为0、方差较小的高斯分布随机数。 改变图像的亮度、清晰度、对比度、锐度等。 图1.4展示了一些图像扩充的具体样例。 除了直接在图像空间进行变换还可以先对图像进行特征提取然后在图像的特征空间内进行变换利用一些通用的数据扩充或上采样技术,例如SMOTE(Synthetic Minority Over-sampling Technique)算法。抛开上述这些启发式的变换方法使用生成模型也可以合成一些新样本例如当今非常流行的生成式对抗网络模型。 此外借助已有的其他模型或数据来进行迁移学习在深度学习中也十分常见。例如对于大部分图像分类任务并不需要从头开始训练模型而是借用一个在大规模数据集上预训练好的通用模型并在针对目标任务的小数据集上进行微调(fine-tune)这种微调操作就可以看成是一种简单的迁移学习。 参考文献 《百面机器学习》 诸葛越主编 出版社人民邮电出版社北京 ISBN978-7-115-48736-0 2022年8月第1版2022年1月北京第19次印刷