pytorch中的dataloader使用方法詳解
pytorch中的dataloader使用方法詳解
DataLoader類中有一個(gè)必填參數(shù)為dataset,因此在構(gòu)建自己的dataloader前,先要定義好自己的Dataset類。這里先大致介紹下這兩個(gè)類的作用:
- Dataset:真正的“數(shù)據(jù)集”,它的作用是:只要告訴它數(shù)據(jù)在哪里(初始化),就可以像使用iterator一樣去拿到數(shù)據(jù),繼承該類后,需要重載__len__()以及__getitem__
- DataLoader:數(shù)據(jù)加載器,設(shè)置一些參數(shù)后,可以按照一定規(guī)則加載數(shù)據(jù),比如設(shè)置batch_size后,每次加載一個(gè)batch_siza的數(shù)據(jù)。它像一個(gè)生成器一樣工作。
有小伙伴可能會(huì)疑惑,自己寫一個(gè)加載數(shù)據(jù)的工具似乎也沒有多“困難”,為何大費(fèi)周章要繼承pytorch中類,按照它的規(guī)則加載數(shù)據(jù)呢?
總結(jié)一下就是:
- 當(dāng)數(shù)據(jù)量很大的時(shí)候,單進(jìn)程加載數(shù)據(jù)很慢
- 一次全加載過來,會(huì)占用很大的內(nèi)存空間(因此dataloader是一個(gè)生成器,惰性加載)
- 在進(jìn)行訓(xùn)練前,往往需要一些數(shù)據(jù)預(yù)處理或數(shù)據(jù)增強(qiáng)等操作,pytorch的dataloader已經(jīng)封裝好了,避免了重復(fù)造輪子
使用方法
兩步走:
- 定義自己的Dataset類,具體要做的事:
- 告訴它去哪兒讀數(shù)據(jù),并將數(shù)據(jù)resize為統(tǒng)一的shape(可以思考下為什么呢)
- 重寫__len__()以及__getitem__,其中__getitem__中要確定自己想要哪些數(shù)據(jù),然后將其return出來。
- 將自己的Dataset實(shí)例傳到Dataloder中并設(shè)置想要的參數(shù),構(gòu)建自己的dataloader
下面簡單加載一個(gè)目錄下的圖片以及l(fā)abel:
import os
import numpy as np
from torch.utils.data.dataset import Dataset
from torch.utils.data.dataloader import DataLoader
import cv2
# Your Data Path
img_dir = '/home/jyz/Downloads/classify_example/val/駿馬/'
anno_file = '/home/jyz/Downloads/classify_example/val/label.txt'
class MyDataset(Dataset):
def __init__(self, img_dir, anno_file, imgsz=(640, 640)):
self.img_dir = img_dir
self.anno_file = anno_file
self.imgsz = imgsz
self.img_namelst = os.listdir(self.img_dir)
# need to overload
def __len__(self):
return len(self.img_namelst)
# need to overload
def __getitem__(self, idx):
with open(self.anno_file, 'r') as f:
label = f.readline().strip()
img = cv2.imread(os.path.join(img_dir, self.img_namelst[idx]))
img = cv2.resize(img, self.imgsz)
return img, label
dataset = MyDataset(img_dir, anno_file)
dataloader = DataLoader(dataset=dataset, batch_size=2)
# display
for img_batch, label_batch in dataloader:
img_batch = img_batch.numpy()
print(img_batch.shape)
# img = np.concatenate(img_batch, axis=0)
if img_batch.shape[0] == 2:
img = np.hstack((img_batch[0], img_batch[1]))
else:
img = np.squeeze(img_batch, axis=0) # 最后一張圖時(shí),刪除第一個(gè)維度
print(img.shape)
cv2.imshow(label_batch[0], img)
cv2.waitKey(0)
上面是一次加載兩張圖片,效果如下:

其實(shí)從這里可以看出,為什么要在Dataset中將數(shù)據(jù)resize為統(tǒng)一的shape。因?yàn)閐ataloader加載數(shù)據(jù)時(shí),將一個(gè)batch_size的數(shù)據(jù)拼接成一個(gè)大的tensor,如果shape不同,就無法拼接了。
就像這兩張圖片加入shape不一樣就無法通過拼接的方式show出來一樣。
結(jié)論
- 使用pytorch的dataloader,需要先構(gòu)建自己的Dataset
- 構(gòu)建自己的Dataset,需要重載__len__()以及__getitem__
到此這篇關(guān)于pytorch中的dataloader使用方法詳解的文章就介紹到這了,更多相關(guān)pytorch的dataloader使用內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- Pytorch Dataset,TensorDataset,Dataloader,Sampler關(guān)系解讀
- Pytorch中TensorDataset與DataLoader的使用方式
- Pytorch的torch.utils.data中Dataset以及DataLoader示例詳解
- 淺談PyTorch的數(shù)據(jù)讀取機(jī)制Dataloader與Dataset
- pytorch DataLoaderj基本使用方法詳解
- Pytorch中TensorDataset,DataLoader的聯(lián)合使用方式
- Pytorch中的數(shù)據(jù)轉(zhuǎn)換Transforms與DataLoader方式
相關(guān)文章
R語言屬性知識(shí)點(diǎn)總結(jié)及實(shí)例
在本篇文章里小編給大家整理了一篇關(guān)于R語言屬性知識(shí)點(diǎn)總結(jié)及實(shí)例內(nèi)容,有興趣的朋友們可以學(xué)習(xí)下。2021-03-03
卡爾曼濾波數(shù)據(jù)處理技巧通俗理解及python實(shí)現(xiàn)
這篇文章主要為大家介紹了卡爾曼濾波數(shù)據(jù)處理技巧的通俗理解及python實(shí)現(xiàn),有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-05-05
python爬蟲框架Scrapy基本應(yīng)用學(xué)習(xí)教程
這篇文章主要為大家介紹了python爬蟲框架Scrapy的基本應(yīng)用學(xué)習(xí)教程,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步2021-11-11
Python學(xué)習(xí)之線程池與GIL全局鎖詳解
本文我們將學(xué)習(xí)線程池的創(chuàng)建與全局鎖。線程池的創(chuàng)建于進(jìn)程池的原理是相同的;關(guān)于GIL全局鎖,暫時(shí)沒有代碼上的練習(xí),而是對其概念進(jìn)行一個(gè)簡單的啟蒙,感興趣的可以了解一下2022-04-04
基于django micro搭建網(wǎng)站實(shí)現(xiàn)加水印功能
這篇文章主要介紹了基于django micro搭建網(wǎng)站實(shí)現(xiàn)加水印功能,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-05-05
Python中2種常用數(shù)據(jù)可視化庫Bokeh和Altair使用示例詳解
本文對Python中兩個(gè)常用的數(shù)據(jù)可視化庫?Bokeh?和?Altair?進(jìn)行了比較和探討,通過對它們的特點(diǎn)、優(yōu)缺點(diǎn)以及使用示例的詳細(xì)分析,讀者可以更好地了解這兩個(gè)庫的功能和適用場景,從而更好地選擇合適的庫來進(jìn)行數(shù)據(jù)可視化工作,感興趣的朋友跟隨小編一起看看吧2024-04-04

