PyTorch中加載數據集的示例分析-創新互聯

小編給大家分享一下PyTorch中加載數據集的示例分析，希望大家閱讀完這篇文章之后都有所收獲，下面讓我們一起去探討吧！

創新互聯長期為上1000+客戶提供的網站建設服務，團隊從業經驗10年，關注不同地域、不同群體，并針對不同對象提供差異化的產品和服務；打造開放共贏平臺，與合作伙伴共同營造健康的互聯網生態環境。為隴縣企業提供專業的成都做網站、網站制作，隴縣網站改版等技術服務。擁有十載豐富建站經驗和眾多成功案例,為您定制開發。

數據預處理在解決深度學習問題的過程中，往往需要花費大量的時間和精力。數據處理的質量對訓練神經網絡來說十分重要，良好的數據處理不僅會加速模型訓練，更會提高模型性能。為解決這一問題，PyTorch提供了幾個高效便捷的工具，以便使用者進行數據處理或增強等操作，同時可通過并行化加速數據加載。

數據集存放大致有以下兩種方式：

(1）所有數據集放在一個目錄下，文件名上附有標簽名，數據集存放格式如下： root/cat_dog/cat.01.jpg

root/cat_dog/cat.02.jpg

........................

root/cat_dog/dog.01.jpg

root/cat_dog/dog.02.jpg

......................

(2）不同類別的數據集放在不同目錄下，目錄名就是標簽，數據集存放格式如下：

root/ants/xxx.png

root/ants/xxy.jpeg

root/ants/xxz.png

................

root/bees/123.jpg

root/bees/nsdf3.png

root/bees/asd932_.png

..................

1.1 對第1種數據集的處理步驟

（1）生成包含各文件名的列表(List)

（2）定義Dataset的一個子類，該子類需要繼承Dataset類，查看Dataset類的源碼

（3）重寫父類Dataset中的兩個魔法方法：一個是: __lent__(self),其功能是len(Dataset),返回Dataset的樣本數。另一個是__getitem__(self,index)，其功能假設索引為i，使Dataset[i]返回第i個樣本。

（4）使用torch.utils.data.DataLoader加載數據集Dataset.

1.2 實例詳解

以下以cat-dog數據集為例，說明如何實現自定義數據集的加載。

1.2.1 數據集結構

所有數據集在cat-dog目錄下：

.\cat_dog\cat.01.jpg

.\cat_dog\cat.02.jpg

.\cat_dog\cat.03.jpg

....................

.\cat_dog\dog.01.jpg

.\cat_dog\dog.02.jpg

....................

1.2.2 導入需要用到的模塊

from torch.utils.data import DataLoader,Dataset
from skimage import io,transform
import matplotlib.pyplot as plt
import oimport torch
from torchvision import transforms, utils
from PIL import Image
import pandas as pd
import numpy as np
#過濾警告信息
import warnings
warnings.filterwarnings("ignore")

1.2.3定義加載自定義數據的類

class MyDataset(Dataset): #繼承Dataset
 def __init__(self, path_dir, transform=None): #初始化一些屬性
  self.path_dir = path_dir #文件路徑,如'.\data\cat-dog'
  self.transform = transform #對圖形進行處理，如標準化、截取、轉換等
  self.images = os.listdir(self.path_dir)#把路徑下的所有文件放在一個列表中
 
 def __len__(self):#返回整個數據集的大小
  return len(self.images)
 
 def __getitem__(self,index):#根據索引index返回圖像及標簽
  image_index = self.images[index]#根據索引獲取圖像文件名稱
  img_path = os.path.join(self.path_dir, image_index)#獲取圖像的路徑或目錄
  img = Image.open(img_path).convert('RGB')# 讀取圖像
    
  # 根據目錄名稱獲取圖像標簽（cat或dog）
  label = img_path.split('\\')[-1].split('.')[0]
  #把字符轉換為數字cat-0，dog-1
  label = 1 if 'dog' in label else 0
  
  if self.transform is not None:
   img = self.transform(img)
  return img,label

1.2.4 實例化類

dataset = MyDataset('.\data\cat-dog',transform=None)
img, label = dataset[0] #將啟動魔法方法__getitem__(0)
print(type(img))
<class 'PIL.Image.Image'>

1.2.5 查看圖像形狀

i=1
for img, label in dataset:
if i
img的形狀(500, 374),label的值0

img的形狀(300, 280),label的值0

img的形狀(489, 499),label的值0

img的形狀(431, 410),label的值0

img的形狀(300, 224),label的值0

從上面返回樣本的形狀來看：

（1）每張圖片的大小不一樣，如果需要取batch訓練的神經網絡來說很不友好。

（2）返回樣本的數值較大，未歸一化至[-1, 1]

為此需要對img進行轉換，如何轉換？只要使用torchvision中的transforms即可

1.2.6 對圖像數據進行處理

這里使用torchvision中的transforms模塊

from torchvision import transforms as T
transform = T.Compose([
 T.Resize(224), # 縮放圖片(Image)，保持長寬比不變，最短邊為224像素
 T.CenterCrop(224), # 從圖片中間切出224*224的圖片
 T.ToTensor(), # 將圖片(Image)轉成Tensor，歸一化至[0, 1]
 T.Normalize(mean=[.5, .5, .5], std=[.5, .5, .5]) # 標準化至[-1, 1]，規定均值和標準差
])

1.2.7查看處理后的數據

dataset = MyDataset('.\data\cat-dog',transform=transform)
for img, label in dataset: 
 print("圖像img的形狀{},標簽label的值{}".format(img.shape, label))
 print("圖像數據預處理后：\n",img)
 break

圖像img的形狀torch.Size([3, 224, 224]),標簽label的值0

圖像數據預處理后：

tensor([[[ 0.9059, 0.9137, 0.9137, ..., 0.9451, 0.9451, 0.9451],

[ 0.9059, 0.9137, 0.9137, ..., 0.9451, 0.9451, 0.9451],

[ 0.9059, 0.9137, 0.9137, ..., 0.9529, 0.9529, 0.9529],

...,

[-0.4824, -0.5294, -0.5373, ..., -0.9216, -0.9294, -0.9451],

[-0.4980, -0.5529, -0.5608, ..., -0.9294, -0.9373, -0.9529],

[-0.4980, -0.5529, -0.5686, ..., -0.9529, -0.9608, -0.9608]],

[[ 0.5686, 0.5765, 0.5765, ..., 0.7961, 0.7882, 0.7882],

[ 0.5686, 0.5765, 0.5765, ..., 0.7961, 0.7882, 0.7882],

[ 0.5686, 0.5765, 0.5765, ..., 0.8039, 0.7961, 0.7961],

...,

[-0.6078, -0.6471, -0.6549, ..., -0.9137, -0.9216, -0.9373],

[-0.6157, -0.6706, -0.6784, ..., -0.9216, -0.9294, -0.9451],

[-0.6157, -0.6706, -0.6863, ..., -0.9451, -0.9529, -0.9529]],

[[-0.0510, -0.0431, -0.0431, ..., 0.2078, 0.2157, 0.2157],

[-0.0510, -0.0431, -0.0431, ..., 0.2078, 0.2157, 0.2157],

[-0.0510, -0.0431, -0.0431, ..., 0.2157, 0.2235, 0.2235],

...,

[-0.9529, -0.9843, -0.9922, ..., -0.9529, -0.9608, -0.9765],

[-0.9686, -0.9922, -1.0000, ..., -0.9608, -0.9686, -0.9843],

[-0.9686, -0.9922, -1.0000, ..., -0.9843, -0.9922, -0.9922]]])

由此可知，數據已標準化、規范化。

1.2.8對數據集進行批量加載

使用DataLoader模塊，對數據集dataset進行批量加載

#使用DataLoader加載數據
dataloader = DataLoader(dataset,batch_size=4,shuffle=True)
for batch_datas, batch_labels in dataloader:
 print(batch_datas.size(),batch_labels.size())
torch.Size([4, 3, 224, 224]) torch.Size([4])
torch.Size([4, 3, 224, 224]) torch.Size([4])
torch.Size([4, 3, 224, 224]) torch.Size([4])
torch.Size([4, 3, 224, 224]) torch.Size([4])
torch.Size([4, 3, 224, 224]) torch.Size([4])
torch.Size([4, 3, 224, 224]) torch.Size([4])
torch.Size([4, 3, 224, 224]) torch.Size([4])
torch.Size([4, 3, 224, 224]) torch.Size([4])
torch.Size([4, 3, 224, 224]) torch.Size([4])
torch.Size([4, 3, 224, 224]) torch.Size([4])
torch.Size([2, 3, 224, 224]) torch.Size([2])

1.2.9隨機查看一個批次的圖像

import torchvision
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline
# 顯示圖像
def imshow(img):
 img = img / 2 + 0.5  # unnormalize
 npimg = img.numpy()
 plt.imshow(np.transpose(npimg, (1, 2, 0)))
 plt.show()
# 隨機獲取部分訓練數據
dataiter = iter(dataloader)
images, labels = dataiter.next()
# 顯示圖像
imshow(torchvision.utils.make_grid(images))
# 打印標簽
print(' '.join('%s' % ["小狗" if labels[j].item()==1 else "小貓" for j in range(4)]))

2 對第2種數據集的處理

處理這種情況比較簡單，可分為2步：

（1）使用datasets.ImageFolder讀取、處理圖像。

（2）使用.data.DataLoader批量加載數據集，示例如下:

import torch
from torchvision import transforms, datasets
data_transform = transforms.Compose([
  transforms.RandomSizedCrop(224),
  transforms.RandomHorizontalFlip(),
  transforms.ToTensor(),
  transforms.Normalize(mean=[0.485, 0.456, 0.406],
        std=[0.229, 0.224, 0.225])
 ])
hymenoptera_dataset = datasets.ImageFolder(root='.\catdog\train',
           transform=data_transform)
dataset_loader = torch.utils.data.DataLoader(hymenoptera_dataset,

看完了這篇文章，相信你對“PyTorch中加載數據集的示例分析”有了一定的了解，如果想了解更多相關知識，歡迎關注創新互聯成都網站設計公司行業資訊頻道，感謝各位的閱讀！

另外有需要云服務器可以了解下創新互聯scvps.cn，海內外云服務器15元起步，三天無理由+7*72小時售后在線，公司持有idc許可證，提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業上云的綜合解決方案，具有“安全穩定、簡單易用、服務可用性高、性價比高”等特點與優勢，專為企業上云打造定制，能夠滿足用戶豐富、多元化的應用場景需求。

文章題目：PyTorch中加載數據集的示例分析-創新互聯
網址分享：http://vcdvsql.cn/article38/ceocpp.html

成都網站建設公司_創新互聯，為您提供網站排名、網站設計、定制開發、網站策劃、響應式網站、移動網站建設

聲明：本網站發布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創新互聯

猜你還喜歡下面的內容

bl双性强迫侵犯h_国产在线观看人成激情视频_蜜芽188_被诱拐的少孩全彩啪啪漫画

PyTorch中加載數據集的示例分析-創新互聯