网站页面设计制作,高校专业建设主要内容,网站建设工作会议,wordpress添加表单Pytorch从零开始实战——ResNet-50V2算法实战
本系列来源于365天深度学习训练营
原作者K同学 文章目录 Pytorch从零开始实战——ResNet-50V2算法实战环境准备数据集模型选择开始训练可视化总结 环境准备
本文基于Jupyter notebook#xff0c;使用Python3.8#xff0c;Pyt…Pytorch从零开始实战——ResNet-50V2算法实战
本系列来源于365天深度学习训练营
原作者K同学 文章目录 Pytorch从零开始实战——ResNet-50V2算法实战环境准备数据集模型选择开始训练可视化总结 环境准备
本文基于Jupyter notebook使用Python3.8Pytorch2.0.1cu118torchvision0.15.2需读者自行配置好环境且有一些深度学习理论基础。本次实验的目的是理解并使用ResNet-50V2模型其他部分与上次几乎相同。 第一步导入常用包
import torch
import torch.nn as nn
import matplotlib.pyplot as plt
import torchvision
import torchvision.transforms as transforms
import torchvision.datasets as datasets
import torch.nn.functional as F
import random
from time import time
import numpy as np
import pandas as pd
import datetime
import gc
import os
import copy
import warnings
os.environ[KMP_DUPLICATE_LIB_OK]True # 用于避免jupyter环境突然关闭
torch.backends.cudnn.benchmarkTrue # 用于加速GPU运算的代码设置随机数种子
torch.manual_seed(428)
torch.cuda.manual_seed(428)
torch.cuda.manual_seed_all(428)
random.seed(428)
np.random.seed(428)检查设备对象
device torch.device(cuda if torch.cuda.is_available() else cpu)
device, torch.cuda.device_count() # # (device(typecuda), 2)数据集
本次数据集是使用鸟的图片分别有四种类别的鸟根据鸟的类别名称存放在不同的文件夹中。 使用pathlib查看类别
import pathlib
data_dir ./data/bird_photos/
data_dir pathlib.Path(data_dir) # 转成pathlib.Path对象
data_paths list(data_dir.glob(*))
classNames [str(path).split(/)[2] for path in data_paths]
classNames # [Black Throated Bushtiti, Cockatoo, Black Skimmer, Bananaquit]使用transforms对数据集进行统一处理并且根据文件夹名映射对应标签
all_transforms transforms.Compose([transforms.Resize([224, 224]),transforms.ToTensor(),transforms.Normalize(mean[0.485, 0.456, 0.406], std[0.229, 0.224, 0.225]) # 标准化
])total_data datasets.ImageFolder(./data/bird_photos/, transformall_transforms)
total_data.class_to_idx# {Bananaquit: 0,# Black Skimmer: 1,# Black Throated Bushtiti: 2,# Cockatoo: 3}随机查看5张图片
def plotsample(data):fig, axs plt.subplots(1, 5, figsize(10, 10)) #建立子图for i in range(5):num random.randint(0, len(data) - 1) #首先选取随机数随机选取五次#抽取数据中对应的图像对象make_grid函数可将任意格式的图像的通道数升为3而不改变图像原始的数据#而展示图像用的imshow函数最常见的输入格式也是3通道npimg torchvision.utils.make_grid(data[num][0]).numpy()nplabel data[num][1] #提取标签 #将图像由(3, weight, height)转化为(weight, height, 3)并放入imshow函数中读取axs[i].imshow(np.transpose(npimg, (1, 2, 0))) axs[i].set_title(nplabel) #给每个子图加上标签axs[i].axis(off) #消除每个子图的坐标轴plotsample(total_data)根据8比2划分数据集和测试集并且利用DataLoader划分批次和随机打乱
train_size int(0.8 * len(total_data))
test_size len(total_data) - train_size
train_ds, test_ds torch.utils.data.random_split(total_data, [train_size, test_size])batch_size 32
train_dl torch.utils.data.DataLoader(train_ds,batch_sizebatch_size,shuffleTrue,)
test_dl torch.utils.data.DataLoader(test_ds,batch_sizebatch_size,shuffleTrue,)len(train_dl.dataset), len(test_dl.dataset) # (452, 113)模型选择
ResNetV2与ResNet区别 其中(a)original 表示原始的 ResNet 的残差结构(b)proposed 表示新的 ResNet 的残差结构。主要差别就是(a)结构先卷积后进行 BN 和激活函数计算最后执行 addition 后再进行ReLU 计算 (b)结构先进行 BN 和激活函数计算后卷积把 addition 后的 ReLU 计算放到了残差结构内部。 根据论文所说改进的模型能够降低错误率。 本次使用的模型整体架构如下图借用K同学所绘制的图片红色和灰色预激活位置有点问题。 首先实现Block块首先进行预激活层包括标准化和ReLu激活函数接着进行shortcut操作如果conv_shortcut为True会使用一个1x1卷积层进行变换否则如果stride为1则进行恒等映射否则使用1x1的最大池化。随后经过三个卷积层。在forward方法中输入 x 经过预激活层然后进行三个卷积操作最后将shortcut和经过卷积的结果相加。这种结构使得梯度更容易反向传播从而有助于训练深层网络。
class Block2(nn.Module):def __init__(self, in_channels, filters, kernel_size3, stride1, conv_shortcutFalse):super(Block2, self).__init__()self.preact nn.Sequential(nn.BatchNorm2d(in_channels),nn.ReLU())if conv_shortcut:self.shortcut nn.Conv2d(in_channels, 4 * filters, kernel_size1, stridestride)else:if stride 1:self.shortcut nn.Identity()else: self.shortcut nn.MaxPool2d(1, stridestride)self.conv1 nn.Sequential(nn.Conv2d(in_channels, filters, kernel_size1, stride1, biasFalse),nn.BatchNorm2d(filters),nn.ReLU())self.conv2 nn.Sequential(nn.ZeroPad2d(padding(1, 1, 1, 1)),nn.Conv2d(filters, filters, kernel_sizekernel_size, stridestride, biasFalse),nn.BatchNorm2d(filters),nn.ReLU())self.conv3 nn.Conv2d(filters, 4 * filters, kernel_size1)def forward(self, x):preact self.preact(x)shortcut self.shortcut(preact)x self.conv1(preact)x self.conv2(x)x self.conv3(x)out shortcut xreturn out下面实现堆叠块通过传入不同的参数去调用Block块其中[Block2(4 * filters, filters) for i in range(0, blocks)]使用 Python 中的列表解析创建了 blocks 个残差块。这些残差块的输入通道数为 4 * filters以匹配前一个残差块的输出通道数。
class Stack2(nn.Module):def __init__(self, in_channels, filters, blocks, stride12):super(Stack2, self).__init__()self.blocks nn.Sequential(Block2(in_channels, filters, conv_shortcutTrue),*[Block2(4 * filters, filters) for i in range(0, blocks)],Block2(4 * filters, filters, stridestride1))def forward(self, x):return self.blocks(x)下面就是网络主体按照上图实现就行了
class ResNet50V2(nn.Module):def __init__(self, include_topTrue, preactTrue, num_classes1000):super(ResNet50V2, self).__init__()self.conv1 nn.Sequential(nn.Conv2d(3, 64, kernel_size7, stride2, padding3, biasFalse),nn.BatchNorm2d(64),nn.ReLU())self.pool1 nn.MaxPool2d(kernel_size3, stride2, padding1)self.conv2 Stack2(64, 64, 3)self.conv3 Stack2(256, 128, 4)self.conv4 Stack2(512, 256, 6)self.conv5 Stack2(1024, 512, 3, stride11)self.post nn.Sequential(nn.BatchNorm2d(2048),nn.ReLU())self.include_top include_topif include_top:self.avg_pool nn.AdaptiveAvgPool2d(1)self.fc nn.Linear(2048, num_classes)def forward(self, x):x self.conv1(x)x self.pool1(x)x self.conv2(x)x self.conv3(x)x self.conv4(x)x self.conv5(x)x self.post(x)if self.include_top:x self.avg_pool(x)x torch.flatten(x, 1)x self.fc(x)return x使用summary查看网络
开始训练
定义训练函数
def train(dataloader, model, loss_fn, opt):size len(dataloader.dataset)num_batches len(dataloader)train_acc, train_loss 0, 0for X, y in dataloader:X, y X.to(device), y.to(device)pred model(X)loss loss_fn(pred, y)opt.zero_grad()loss.backward()opt.step()train_acc (pred.argmax(1) y).type(torch.float).sum().item()train_loss loss.item()train_acc / sizetrain_loss / num_batchesreturn train_acc, train_loss定义测试函数
def test(dataloader, model, loss_fn):size len(dataloader.dataset)num_batches len(dataloader)test_acc, test_loss 0, 0with torch.no_grad():for X, y in dataloader:X, y X.to(device), y.to(device)pred model(X)loss loss_fn(pred, y)test_acc (pred.argmax(1) y).type(torch.float).sum().item()test_loss loss.item()test_acc / sizetest_loss / num_batchesreturn test_acc, test_loss定义学习率、损失函数、优化算法
loss_fn nn.CrossEntropyLoss()
learn_rate 0.0001
opt torch.optim.Adam(model.parameters(), lrlearn_rate)开始训练epoch设置为30
import time
epochs 30
train_loss []
train_acc []
test_loss []
test_acc []T1 time.time()best_acc 0
best_model 0for epoch in range(epochs):model.train()epoch_train_acc, epoch_train_loss train(train_dl, model, loss_fn, opt)model.eval() # 确保模型不会进行训练操作epoch_test_acc, epoch_test_loss test(test_dl, model, loss_fn)if epoch_test_acc best_acc:best_acc epoch_test_accbest_model copy.deepcopy(model)train_acc.append(epoch_train_acc)train_loss.append(epoch_train_loss)test_acc.append(epoch_test_acc)test_loss.append(epoch_test_loss)print(epoch:%d, train_acc:%.1f%%, train_loss:%.3f, test_acc:%.1f%%, test_loss:%.3f% (epoch 1, epoch_train_acc * 100, epoch_train_loss, epoch_test_acc * 100, epoch_test_loss))T2 time.time()
print(程序运行时间:%s秒 % (T2 - T1))PATH ./best_model.pth # 保存的参数文件名
if best_model is not None:torch.save(best_model.state_dict(), PATH)print(保存最佳模型)
print(Done)虽然结果过拟合了但这不是本次实验的重点如果使用更好的参数效果可能会不错。
可视化
可视化训练过程和测试过程
import warnings
warnings.filterwarnings(ignore) #忽略警告信息
plt.rcParams[font.sans-serif] [SimHei] # 用来正常显示中文标签
plt.rcParams[axes.unicode_minus] False # 用来正常显示负号
plt.rcParams[figure.dpi] 100 #分辨率epochs_range range(epochs)plt.figure(figsize(12, 3))
plt.subplot(1, 2, 1)plt.plot(epochs_range, train_acc, labelTraining Accuracy)
plt.plot(epochs_range, test_acc, labelTest Accuracy)
plt.legend(loclower right)
plt.title(Training and Validation Accuracy)plt.subplot(1, 2, 2)
plt.plot(epochs_range, train_loss, labelTraining Loss)
plt.plot(epochs_range, test_loss, labelTest Loss)
plt.legend(locupper right)
plt.title(Training and Validation Loss)
plt.show()总结
本次实验主要实现了ResNet-50V2模型ResNet模型本身就是用来缓解梯度爆炸和梯度消失问题的在V2结构中激活函数ReLU应用在残差块的输出上而不是在整个块的输入上。这使得网络能够学习到更复杂的非线性映射并且使得原本的网络进行相对的恒等映射提高了网络的表达能力。当然网络可以有不同的残差连接本文这种修改并不是一成不变适用于所有情况而是在某些场景下可能有助于训练提高网络性能。