PyTorch 2.0 チュートリアル : 入門 : Dataset と DataLoader (翻訳/解説)

翻訳 : (株)クラスキャットセールスインフォメーション
作成日時 : 03/17/2023 (2.0.0)

* 本ページは、PyTorch 2.0 Tutorials の以下のページを翻訳した上で適宜、補足説明したものです：

Introduction to PyTorch : Learn the Basics : Datasets and DataLoaders

* サンプルコードの動作確認はしておりますが、必要な場合には適宜、追加改変しています。
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。

PyTorch 2.0 チュートリアル : 入門 : Dataset と DataLoader

データサンプルを処理するためのコードは乱雑で保守するのが困難になる可能性があります ; より良い可読性とモジュール性のために私たちは理想的にはデータセット・コードがモデル訓練コードから切り離されることを望みます。PyTorch は 2 つのデータ・プリミティブを提供します : torch.utils.data.DataLoader と torch.utils.data.Dataset です、これらは貴方自身のデータと事前ロードされたデータセットを利用することを可能にします。Dataset はサンプルと対応するラベルをストアし、そして DetaLoader はサンプルへの容易なアクセスを可能にするために Dataset 周りの iterable をラップします。

PyTorch ドメインライブラリは (FashionMNIST のような) 多くの事前ロードされたデータセットを提供しています、これらは torch.utils.data.Dataset をサブクラス化して特定のデータに固有の関数を実装しています。それらは貴方のモデルをプロトタイプしてベンチマークするために利用できます。それらをここで見つけることができます : 画像データセット、テキスト・データセットそして音声データセット。

データセットのロード

Fashion-MNIST データセットを TorchVision からどのようにロードするかのサンプルがあります。Fashion-MNIST は 60,000 訓練サンプルと 10,000 テストサンプルから成る Zalando の品目の画像のデータセットです。各サンプルは 28×28 グレイスケール画像と 10 クラスの一つからの関連ラベルから成ります。

以下のパラメータで FashionMNIST Dataset をロードします :

root は訓練/テストデータがストアされるところのパス、
train は訓練かテストデータセットかを指定します、
download=True はそれが root で利用可能でない場合にインターネットからデータをダウンロードします。
transform と target_transform は特徴量とラベルの変換を指定します。

import torch
from torch.utils.data import Dataset
from torchvision import datasets
from torchvision.transforms import ToTensor
import matplotlib.pyplot as plt


training_data = datasets.FashionMNIST(
    root="data",
    train=True,
    download=True,
    transform=ToTensor()
)

test_data = datasets.FashionMNIST(
    root="data",
    train=False,
    download=True,
    transform=ToTensor()
)

Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-images-idx3-ubyte.gz
Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-images-idx3-ubyte.gz to data/FashionMNIST/raw/train-images-idx3-ubyte.gz

  0%|          | 0/26421880 [00:000<?, ?it/s]
  0%|          | 32768/26421880 [00:00<01:26, 303911.15it/s]
  0%|          | 65536/26421880 [00:000<01:28, 299228.49it/s]
  0%|          | 131072/26421880 [00:000<01:00, 433838.45it/s]
  1%|          | 229376/26421880 [00:000<00:42, 614686.90it/s]
  2%|1         | 491520/26421880 [00:000<00:20, 1249255.02it/s]
  4%|3         | 950272/26421880 [00:000<00:11, 2236745.82it/s]
  7%|7         | 1933312/26421880 [00:000<00:05, 4412277.22it/s]
 15%|#4        | 3833856/26421880 [00:000<00:02, 8486185.84it/s]
 26%|##6       | 6946816/26421880 [00:000<00:01, 14628354.38it/s]
 37%|###6      | 9764864/26421880 [00:010<00:00, 17933221.05it/s]
 49%|####8     | 12877824/26421880 [00:010<00:00, 21055545.68it/s]
 61%|######    | 16023552/26421880 [00:010<00:00, 23300175.75it/s]
 73%|#######2  | 19169280/26421880 [00:010<00:00, 24792953.83it/s]
 84%|########4 | 22315008/26421880 [00:010<00:00, 25851621.46it/s]
 96%|#########6| 25395200/26421880 [00:010<00:00, 26577975.85it/s]
100%|##########| 26421880/26421880 [00:010<00:00, 15857668.70it/s]
Extracting data/FashionMNIST/raw/train-images-idx3-ubyte.gz to data/FashionMNIST/raw

Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-labels-idx1-ubyte.gz
Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-labels-idx1-ubyte.gz to data/FashionMNIST/raw/train-labels-idx1-ubyte.gz

  0%|          | 0/29515 [00:000<?, ?it/s]
100%|##########| 29515/29515 [00:000<00:00, 271566.95it/s]
100%|##########| 29515/29515 [00:000<00:00, 270162.96it/s]
Extracting data/FashionMNIST/raw/train-labels-idx1-ubyte.gz to data/FashionMNIST/raw

Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-images-idx3-ubyte.gz
Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-images-idx3-ubyte.gz to data/FashionMNIST/raw/t10k-images-idx3-ubyte.gz

  0%|          | 0/4422102 [00:000<?, ?it/s]
  1%|          | 32768/4422102 [00:000<00:14, 299803.58it/s]
  1%|1         | 65536/4422102 [00:000<00:14, 298132.98it/s]
  3%|2         | 131072/4422102 [00:000<00:09, 433744.26it/s]
  5%|5         | 229376/4422102 [00:000<00:06, 615006.69it/s]
 11%|#1        | 491520/4422102 [00:000<00:03, 1250845.82it/s]
 21%|##1       | 950272/4422102 [00:000<00:01, 2240017.80it/s]
 44%|####3     | 1933312/4422102 [00:000<00:00, 4422760.54it/s]
 87%|########6 | 3833856/4422102 [00:000<00:00, 8508339.48it/s]
100%|##########| 4422102/4422102 [00:000<00:00, 5004339.92it/s]
Extracting data/FashionMNIST/raw/t10k-images-idx3-ubyte.gz to data/FashionMNIST/raw

Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-labels-idx1-ubyte.gz
Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-labels-idx1-ubyte.gz to data/FashionMNIST/raw/t10k-labels-idx1-ubyte.gz

  0%|          | 0/5148 [00:000<?, ?it/s]
100%|##########| 5148/5148 [00:000<00:00, 25224622.65it/s]
Extracting data/FashionMNIST/raw/t10k-labels-idx1-ubyte.gz to data/FashionMNIST/raw.
Done!

データセットを iterate して可視化する

Dataset をリストのように手動でインデックスできます : training_data[index]。訓練データの幾つかのサンプルを可視化するために matplotlib を使用します。

labels_map = {
    0: "T-Shirt",
    1: "Trouser",
    2: "Pullover",
    3: "Dress",
    4: "Coat",
    5: "Sandal",
    6: "Shirt",
    7: "Sneaker",
    8: "Bag",
    9: "Ankle Boot",
}
figure = plt.figure(figsize=(8, 8))
cols, rows = 3, 3
for i in range(1, cols * rows + 1):
    sample_idx = torch.randint(len(training_data), size=(1,)).item()
    img, label = training_data[sample_idx]
    figure.add_subplot(rows, cols, i)
    plt.title(labels_map[label])
    plt.axis("off")
    plt.imshow(img.squeeze(), cmap="gray")
plt.show()

ファイルのためのカスタム Dataset を作成する

カスタム Dataset クラスは 3 つの関数を実装しなければなりません : __init__, __len__ と __getitem__ です。この実装を見ましょう ; FashionMNIST 画像はディレクトリ img_dir にストアされ、それらのラベルは CSV ファイル annotations_file に個別にストアされています。

次のセクションでは、これらの関数の各々で何が起きているかを分析します。

import os
import pandas as pd
from torchvision.io import read_image

class CustomImageDataset(Dataset):
    def __init__(self, annotations_file, img_dir, transform=None, target_transform=None):
        self.img_labels = pd.read_csv(annotations_file)
        self.img_dir = img_dir
        self.transform = transform
        self.target_transform = target_transform

    def __len__(self):
        return len(self.img_labels)

    def __getitem__(self, idx):
        img_path = os.path.join(self.img_dir, self.img_labels.iloc[idx, 0])
        image = read_image(img_path)
        label = self.img_labels.iloc[idx, 1]
        if self.transform:
            image = self.transform(image)
        if self.target_transform:
            label = self.target_transform(label)
        return image, label

init

__init__ 関数は Dataset オブジェクトをインスタンス化するときに一度実行されます。画像を含むディレクトリ、アノテーション・ファイル, そして両方の transforms を初期化します (次のセクションで詳細がカバーされます)。

lavels.csv ファイルはこのように見えます :

tshirt1.jpg, 0
tshirt2.jpg, 0
......
ankleboot999.jpg, 9

def __init__(self, annotations_file, img_dir, transform=None, target_transform=None):
    self.img_labels = pd.read_csv(annotations_file)
    self.img_dir = img_dir
    self.transform = transform
    self.target_transform = target_transform

len

__len__ 関数はデータセットのサンプル数を返します。

例 :

def __len__(self):
    return len(self.img_labels)

getitem

__getitem__ 関数は与えられたインデックス idx でデータセットからサンプルをロードして返します。インデックスに基づいて、それはディスク上の画像の位置を特定し、それを read_image を使用してテンソルに変換し、self.img_labels の csv データから対応するラベルを取得し、(適用可能であれば) それらの上で transform 関数を呼び出し、そしてタプルでテンソル画像と対応するラベルを返します。

def __getitem__(self, idx):
    img_path = os.path.join(self.img_dir, self.img_labels.iloc[idx, 0])
    image = read_image(img_path)
    label = self.img_labels.iloc[idx, 1]
    if self.transform:
        image = self.transform(image)
    if self.target_transform:
        label = self.target_transform(label)
    return image, label

DetaLoader で訓練のためのデータを準備する

Dataset はデータセットの特徴量とラベルを一度に 1 つのサンプル取得します。モデルを訓練する間、通常はサンプルを「ミニバッチ」で渡し、モデルの過剰適合を減じるために総てのエポックでデータを再シャッフルし、そしてデータ取得をスピードアップするために Python のマルチプロセッシングを利用することを望みます。

DataLoader は簡単な API でこの複雑さを抽象化する iterable です。

from torch.utils.data import DataLoader

train_dataloader = DataLoader(training_data, batch_size=64, shuffle=True)
test_dataloader = DataLoader(test_data, batch_size=64, shuffle=True)

DataLoader を通して iterate する

そのデータセットをデータローダにロードしましたので必要に応じてデータセットに対して iterate できます。下の各 iteration は train_features と train_labels のバッチを返します (batch_size=64 の特徴量とラベルをそれぞれ含みます)。shuffle=True を指定しましたので、総てのバッチに対して iterate した後、データはシャッフルされます (データロードの順序に対する極め細かい制御については、Sampler を見てください)。

# Display image and label.
train_features, train_labels = next(iter(train_dataloader))
print(f"Feature batch shape: {train_features.size()}")
print(f"Labels batch shape: {train_labels.size()}")
img = train_features[0].squeeze()
label = train_labels[0]
plt.imshow(img, cmap="gray")
plt.show()
print(f"Label: {label}")

Feature batch shape: torch.Size([64, 1, 28, 28])
Labels batch shape: torch.Size([64])
Label: 8

以上

2023年3月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31