亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

圖文詳解如何利用PyTorch實(shí)現(xiàn)圖像識別

 更新時(shí)間:2023年04月04日 14:29:42   作者:阿潤菜菜  
這篇文章主要給大家介紹了關(guān)于如何利用PyTorch實(shí)現(xiàn)圖像識別的相關(guān)資料,文中通過圖文以及實(shí)例代碼介紹的非常詳細(xì),對大家學(xué)習(xí)或者使用PyTorch具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下

使用torchvision庫的datasets類加載常用的數(shù)據(jù)集或自定義數(shù)據(jù)集

圖像識別是計(jì)算機(jī)視覺中的一個(gè)基礎(chǔ)任務(wù),它的目標(biāo)是讓計(jì)算機(jī)能夠識別圖像中的物體、場景或者概念,并將它們分配到預(yù)定義的類別中。例如,給定一張貓的圖片,圖像識別系統(tǒng)應(yīng)該能夠輸出“貓”這個(gè)類別。

為了訓(xùn)練和評估圖像識別系統(tǒng),我們需要有大量的帶有標(biāo)注的圖像數(shù)據(jù)集。常用的圖像分類數(shù)據(jù)集有:

  • ImageNet:一個(gè)包含超過1400萬張圖片和2萬多個(gè)類別的大型數(shù)據(jù)庫,是目前最流行和最具挑戰(zhàn)性的圖像分類基準(zhǔn)之一。
  • CIFAR-10/CIFAR-100:一個(gè)包含6萬張32×32大小的彩色圖片和10或100個(gè)類別的小型數(shù)據(jù)庫,適合入門級和快速實(shí)驗(yàn)。
  • MNIST:一個(gè)包含7萬張28×28大小的灰度手寫數(shù)字圖片和10個(gè)類別的經(jīng)典數(shù)據(jù)庫,是深度學(xué)習(xí)中最常用的測試集之一。
  • Fashion-MNIST:一個(gè)包含7萬張28×28大小的灰度服裝圖片和10個(gè)類別的數(shù)據(jù)庫,是MNIST數(shù)據(jù)庫在時(shí)尚領(lǐng)域上更加復(fù)雜和現(xiàn)代化版本。

使用torchvision庫可以方便地加載這些常用數(shù)據(jù)集或者自定義數(shù)據(jù)集。torchvision.datasets提供了一些加載數(shù)據(jù)集或者下載數(shù)據(jù)集到本地緩存文件夾(默認(rèn)為./data)并返回Dataset對象(torch.utils.data.Dataset) 的函數(shù)。Dataset對象可以存儲樣本及其對應(yīng)標(biāo)簽,并提供索引方式(dataset[i])來獲取第i個(gè)樣本。例如,要加載CIFAR-10訓(xùn)練集并進(jìn)行隨機(jī)打亂,可以使用以下代碼:

import torchvision
import torchvision.transforms as transforms

transform = transforms.Compose([transforms.ToTensor()]) # 定義轉(zhuǎn)換函數(shù),將PIL.Image轉(zhuǎn)換為torch.Tensor
trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform) # 加載CIFAR-10訓(xùn)練集
trainloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=True) # 定義DataLoader對象,用于批量加載數(shù)據(jù)

使用torchvision庫進(jìn)行數(shù)據(jù)增強(qiáng)和變換,自定義自己的圖像分類數(shù)據(jù)集并使用torchvision庫加載它們

數(shù)據(jù)增強(qiáng)和變換:為了提高模型的泛化能力和數(shù)據(jù)利用率,我們通常會對圖像數(shù)據(jù)進(jìn)行一些隨機(jī)的變換,例如裁剪、旋轉(zhuǎn)、翻轉(zhuǎn)、縮放、亮度調(diào)整等。這些變換可以在一定程度上模擬真實(shí)場景中的圖像變化,增加模型對不同視角和光照條件下的物體識別能力。torchvision.transforms提供了一些常用的圖像變換函數(shù),可以組合成一個(gè)transform對象,并傳入datasets類中作為參數(shù)。例如,要對CIFAR-10訓(xùn)練集進(jìn)行隨機(jī)水平翻轉(zhuǎn)和隨機(jī)裁剪,并將圖像歸一化到[-1, 1]范圍內(nèi),可以使用以下代碼:

import torchvision
import torchvision.transforms as transforms

transform = transforms.Compose([
    transforms.RandomHorizontalFlip(), # 隨機(jī)水平翻轉(zhuǎn)
    transforms.RandomCrop(32, padding=4), # 隨機(jī)裁剪到32×32大小,并在邊緣填充4個(gè)像素
    transforms.ToTensor(), # 將PIL.Image轉(zhuǎn)換為torch.Tensor
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) # 將RGB三個(gè)通道的值歸一化到[-1, 1]范圍內(nèi)
])
trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform) # 加載CIFAR-10訓(xùn)練集,并應(yīng)用上述變換
trainloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=True) # 定義DataLoader對象,用于批量加載數(shù)據(jù)

自定義圖像分類數(shù)據(jù)集:如果我們有自己的圖像分類數(shù)據(jù)集,我們可以通過繼承torch.utils.data.Dataset類來自定義一個(gè)Dataset對象,并實(shí)現(xiàn)__len__和__getitem__兩個(gè)方法。__len__方法返回?cái)?shù)據(jù)集中樣本的數(shù)量,__getitem__方法根據(jù)給定的索引返回一個(gè)樣本及其標(biāo)簽。例如,假設(shè)我們有一個(gè)文件夾結(jié)構(gòu)如下:

my_dataset/
├── class_0/
│   ├── image_000.jpg
│   ├── image_001.jpg
│   └── ...
├── class_1/
│   ├── image_000.jpg
│   ├── image_001.jpg
│   └── ...
└── ...

其中每個(gè)子文件夾代表一個(gè)類別,每個(gè)子文件夾中包含該類別對應(yīng)的圖像文件。我們可以使用以下代碼來自定義一個(gè)Dataset對象,并加載這個(gè)數(shù)據(jù)集:

import torch.utils.data as data
from PIL import Image
import os

class MyDataset(data.Dataset):
    def __init__(self, root_dir, transform=None):
        self.root_dir = root_dir # 根目錄路徑
        self.transform = transform # 變換函數(shù)
        
        self.classes = sorted(os.listdir(root_dir)) # 類別列表(按字母順序排序)
        self.class_to_idx = {c: i for i,c in enumerate(self.classes)} # 類別名到索引的映射
        
        self.images = [] # 圖片路徑列表(相對于根目錄)
        self.labels = [] # 標(biāo)簽列表(整數(shù))
        
        for c in self.classes:
            c_dir = os.path.join(root_dir, c) # 類別子目錄路徑
            for img_name in sorted(os.listdir(c_dir)): # 遍歷每個(gè)圖片文件名(按字母順序排序)
                img_path = os.path.join(c,img_name) # 圖片相對路徑(相對于根目錄)
                label = self.class_to_idx[c] # 圖

使用torchvision庫的models類加載預(yù)訓(xùn)練模型或自定義模型

加載預(yù)訓(xùn)練模型或自定義模型:torchvision.models提供了一些常用的圖像分類模型,例如AlexNet、VGG、ResNet等,并且可以選擇是否加載在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練好的權(quán)重。這些模型可以直接用于圖像分類任務(wù),也可以作為特征提取器或者微調(diào)(fine-tune)的基礎(chǔ)。例如,要加載一個(gè)預(yù)訓(xùn)練好的ResNet-18模型,并凍結(jié)除最后一層外的所有參數(shù),可以使用以下代碼:

import torchvision.models as models

model = models.resnet18(pretrained=True) # 加載預(yù)訓(xùn)練好的ResNet-18模型
for param in model.parameters(): # 遍歷所有參數(shù)
    param.requires_grad = False # 將參數(shù)的梯度設(shè)置為False,表示不需要更新
num_features = model.fc.in_features # 獲取全連接層(fc)的輸入特征數(shù)
model.fc = torch.nn.Linear(num_features, 10) # 替換全連接層為一個(gè)新的線性層,輸出特征數(shù)為10(假設(shè)有10個(gè)類別)

如果我們想要自定義自己的圖像分類模型,我們可以通過繼承torch.nn.Module類來實(shí)現(xiàn)一個(gè)Module對象,并實(shí)現(xiàn)__init__和forward兩個(gè)方法。__init__方法用于定義模型中需要的各種層和參數(shù),forward方法用于定義前向傳播過程。例如,要自定義一個(gè)簡單的卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,可以使用以下代碼:

import torch.nn as nn

class MyCNN(nn.Module):
    def __init__(self):
        super(MyCNN, self).__init__() # 調(diào)用父類構(gòu)造函數(shù)
        self.conv1 = nn.Conv2d(3, 6, 5) # 定義第一個(gè)卷積層,輸入通道數(shù)為3(RGB),輸出通道數(shù)為6,卷積核大小為5×5
        self.pool = nn.MaxPool2d(2, 2) # 定義最大池化層,池化核大小為2×2,步長為2
        self.conv2 = nn.Conv2d(6, 16, 5) # 定義第二個(gè)卷積層,輸入通道數(shù)為6,輸出通道數(shù)為16,卷積核大小為5×5
        self.fc1 = nn.Linear(16 * 5 * 5, 120) # 定義第一個(gè)全連接層,輸入特征數(shù)為16×5×5(根據(jù)卷積和池化后的圖像大小計(jì)算得到),輸出特征數(shù)為120
        self.fc2 = nn.Linear(120, 84) # 定義第二個(gè)全連接層,輸入特征數(shù)為120,輸出特征數(shù)為84
        self.fc3 = nn.Linear(84, 10) # 定義第三個(gè)全連接層,輸入特征數(shù)為84,

forward方法

forward方法用于定義前向傳播過程,即如何根據(jù)輸入的圖像張量(Tensor)計(jì)算出輸出的類別概率分布。我們可以使用定義好的各種層和參數(shù),并結(jié)合一些激活函數(shù)(如ReLU)和歸一化函數(shù)(如softmax)來實(shí)現(xiàn)forward方法。例如,要實(shí)現(xiàn)上面自定義的CNN模型的forward方法,可以使用以下代碼:

import torch.nn.functional as F

class MyCNN(nn.Module):
    def __init__(self):
        # 省略__init__方法的內(nèi)容
        ...

    def forward(self, x): # 定義前向傳播過程,x是輸入的圖像張量
        x = self.pool(F.relu(self.conv1(x))) # 將x通過第一個(gè)卷積層和ReLU激活函數(shù),然后通過最大池化層
        x = self.pool(F.relu(self.conv2(x))) # 將x通過第二個(gè)卷積層和ReLU激活函數(shù),然后通過最大池化層
        x = x.view(-1, 16 * 5 * 5) # 將x展平為一維向量,-1表示自動(dòng)推斷批量大小
        x = F.relu(self.fc1(x)) # 將x通過第一個(gè)全連接層和ReLU激活函數(shù)
        x = F.relu(self.fc2(x)) # 將x通過第二個(gè)全連接層和ReLU激活函數(shù)
        x = self.fc3(x) # 將x通過第三個(gè)全連接層
        x = F.softmax(x, dim=1) # 將x通過softmax函數(shù),沿著第一個(gè)維度(類別維度)進(jìn)行歸一化,得到類別概率分布
        return x # 返回輸出的類別概率分布

進(jìn)行模型訓(xùn)練和測試,使用matplotlib.pyplot庫可視化結(jié)果

模型訓(xùn)練和測試是機(jī)器學(xué)習(xí)中的重要步驟,它們可以幫助我們評估模型的性能和泛化能力。matplotlib.pyplot是一個(gè)Python庫,它可以用來繪制各種類型的圖形,包括曲線圖、散點(diǎn)圖、直方圖等。使用matplotlib.pyplot庫可視化結(jié)果的一般步驟如下:

  • 導(dǎo)入matplotlib.pyplot模塊,并設(shè)置一些參數(shù),如字體、分辨率等。
  • 創(chuàng)建一個(gè)或多個(gè)圖形對象(figure),并指定大小、標(biāo)題等屬性。
  • 在每個(gè)圖形對象中創(chuàng)建一個(gè)或多個(gè)子圖(subplot),并指定位置、坐標(biāo)軸等屬性。
  • 在每個(gè)子圖中繪制數(shù)據(jù),使用不同的函數(shù)和參數(shù),如plot、scatter、bar等。
  • 添加一些修飾元素,如圖例(legend)、標(biāo)簽(label)、標(biāo)題(title)等。
  • 保存或顯示圖形。

例如:使用matplotlib.pyplot庫繪制了一個(gè)線性回歸模型的訓(xùn)練誤差和測試誤差曲線:

# 導(dǎo)入模塊
import matplotlib.pyplot as plt
import numpy as np

# 設(shè)置字體和分辨率
plt.rcParams["font.sans-serif"] = ["SimHei"]
plt.rcParams["axes.unicode_minus"] = False
%config InlineBackend.figure_format = "retina"

# 生成數(shù)據(jù)
x = np.linspace(0, 10, 100)
y = 3 * x + 5 + np.random.randn(100) * 2 # 真實(shí)值
w = np.random.randn() # 隨機(jī)初始化權(quán)重
b = np.random.randn() # 隨機(jī)初始化偏置

# 定義損失函數(shù)
def loss(y_true, y_pred):
    return ((y_true - y_pred) ** 2).mean()

# 定義梯度下降函數(shù)
def gradient_descent(x, y_true, w, b, lr):
    y_pred = w * x + b # 預(yù)測值
    dw = -2 * (x * (y_true - y_pred)).mean() # 權(quán)重梯度
    db = -2 * (y_true - y_pred).mean() # 偏置梯度
    w = w - lr * dw # 更新權(quán)重
    b = b - lr * db # 更新偏置
    return w, b

# 訓(xùn)練模型,并記錄每輪的訓(xùn)練誤差和測試誤差
epochs = 20 # 訓(xùn)練輪數(shù)
lr = 0.01 # 學(xué)習(xí)率
train_loss_list = [] # 訓(xùn)練誤差列表
test_loss_list = [] # 測試誤差列表

for epoch in range(epochs):
    # 劃分訓(xùn)練集和測試集(8:2)
    train_index = np.random.choice(100, size=80, replace=False)
    test_index = np.setdiff1d(np.arange(100), train_index)
    x_train, y_train = x[train_index], y[train_index]
    x_test, y_test = x[test_index], y[test_index]

    # 梯度下降更新參數(shù),并計(jì)算訓(xùn)練誤差和測試誤差
    w, b = gradient_descent(x_train, y_train, w, b, lr)
    train_loss = loss(y_train, w * x_train + b)
    test_loss = loss(y_test, w * x_test + b)

    # 打印結(jié)果,并將誤差添加到列表中
    print(f"Epoch {epoch+1}, Train Loss: {train_loss:.4f}, Test Loss: {test_loss:.4f}")
    train_loss_list.append(train_loss)
    test_loss_list.append(test_loss)

# 創(chuàng)建一個(gè)圖形對象,并設(shè)置大小為8*6英寸    
plt.figure(figsize=(8,6))

# 在圖形對象中創(chuàng)建一個(gè)子圖,并設(shè)置位置為1行1列的第1個(gè)
plt.subplot(1, 1, 1)

# 在子圖中繪制訓(xùn)練誤差和測試誤差曲線,使用不同的顏色和標(biāo)簽
plt.plot(np.arange(epochs), train_loss_list, "r", label="Train Loss")
plt.plot(np.arange(epochs), test_loss_list, "b", label="Test Loss")

# 添加圖例、坐標(biāo)軸標(biāo)簽和標(biāo)題
plt.legend()
plt.xlabel("Epoch")
plt.ylabel("Loss")
plt.title("Linear Regression Loss Curve")

# 保存或顯示圖形
#plt.savefig("loss_curve.png")
plt.show()

運(yùn)行后,可以看到如下的圖形:

參考:: PyTorch官方網(wǎng)站

總結(jié) 

到此這篇關(guān)于如何利用PyTorch實(shí)現(xiàn)圖像識別的文章就介紹到這了,更多相關(guān)PyTorch圖像識別內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python 3.x 安裝opencv+opencv_contrib的操作方法

    Python 3.x 安裝opencv+opencv_contrib的操作方法

    下面小編就為大家分享一篇Python 3.x 安裝opencv+opencv_contrib的操作方法,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-04-04
  • Python可變參數(shù)*args和**kwargs

    Python可變參數(shù)*args和**kwargs

    本文我們將通過示例了解 Python函數(shù)的可變參數(shù)*args和?**kwargs的用法,文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2022-03-03
  • 基于python-pptx庫中文文檔及使用詳解

    基于python-pptx庫中文文檔及使用詳解

    今天小編就為大家分享一篇基于python-pptx庫中文文檔及使用詳解,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-02-02
  • python語音識別指南終極版(有這一篇足矣)

    python語音識別指南終極版(有這一篇足矣)

    這篇文章主要介紹了python語音識別指南終極版的相關(guān)資料,包括語音識別的工作原理及使用代碼,本文給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-09-09
  • 使用Mixin設(shè)計(jì)模式進(jìn)行Python編程的方法講解

    使用Mixin設(shè)計(jì)模式進(jìn)行Python編程的方法講解

    Mixin模式也可以看作是一種組合模式,綜合多個(gè)類的功能來產(chǎn)生一個(gè)類而不通過繼承來實(shí)現(xiàn),下面就來整理一下使用Mixin設(shè)計(jì)模式進(jìn)行Python編程的方法講解:
    2016-06-06
  • python創(chuàng)建只讀屬性對象的方法(ReadOnlyObject)

    python創(chuàng)建只讀屬性對象的方法(ReadOnlyObject)

    有時(shí)需要?jiǎng)?chuàng)建一個(gè)帶只讀屬性的對象,大家可以參考下如下的方法進(jìn)行創(chuàng)建,稍加改造,可以得到很特殊的效果
    2013-02-02
  • Python使用海龜繪圖實(shí)現(xiàn)貪吃蛇游戲

    Python使用海龜繪圖實(shí)現(xiàn)貪吃蛇游戲

    這篇文章主要為大家詳細(xì)介紹了Python使用海龜繪圖實(shí)現(xiàn)貪吃蛇游戲,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2021-06-06
  • Python字符串及文本模式方法詳解

    Python字符串及文本模式方法詳解

    這篇文章主要介紹了Python字符串及文本模式方法詳解,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-09-09
  • Python實(shí)現(xiàn)批量翻譯CAD圖紙

    Python實(shí)現(xiàn)批量翻譯CAD圖紙

    這篇文章主要為大家詳細(xì)介紹了如何通過Python實(shí)現(xiàn)批量翻譯CAD圖紙,文中的示例代碼講解詳細(xì),具有一定的借鑒價(jià)值,感興趣的小伙伴可以學(xué)習(xí)一下
    2023-12-12
  • python中wx將圖標(biāo)顯示在右下角的腳本代碼

    python中wx將圖標(biāo)顯示在右下角的腳本代碼

    python中wx將圖標(biāo)顯示在右下腳的代碼,此程序摘自wxdemo,不夠完善,只供參考用
    2013-03-03

最新評論