Pytorch:八、加载数据集


Dataloader主要是拿出一些Mini-Batch来供训练时能够快速使用。使用batch可以提升计算速度,但是其求值的性能会有些问题。因此选用了Mini-Batch来进行综合;

使用了Mini-Batch后都得用下面这样的嵌套循环

#train cycle
for epoch in range(training_epochs):
    #每次迭代执行一个Mini-Batch
    for i in range(total_batch):
  • 需要了解的概念:
  1. epoch所有的样本都进行了一次正,反向传播。即所有样本都进行了一次训练;
  2. Batch-Size:每次训练时,所用的样本数量;
  3. Iteration:分了多少个batch,也就是内层的那个迭代执行了多少次;
    如:现有1w个样本,batch是1k个,即每次拿1k个样本。那么Iteration就是10000/1000=10

Dataloader:需要知道目标数据的索引[i]以及长度len。这样一来,dataloader就可以自动对dataset进行小批量的数据集的生成:

dataloader工作流程

第一步,shuffle:就是打乱顺序;第二步,将打乱后的数据进行分组,这里将两个样本作为一个batch

  • 常见的读取数据集的方法:
  1. 直接读取所有数据,这种方法适用于数据集本身就不算大的数据;
  2. 对于数据量很大的一堆文件/图片之类的,可以通过一个list来保存其地址一类的,然后在用到的时候再进行读取;

如何去定义一个数据集

import torch
#Dataset是个抽象类
from torch.utils.data import Dataset
#torch中帮助加载数据的类
from torch.utils.data import DataLoader
import numpy as np

class DiabetesDataset(Dataset):
    def __init__(self):
        pass
    
    #通过这个方法来支持下标操作
    def __getitem__(self, index):
        pass
    
    def __len__(self):
        pass
    
dataset = DiabetesDataset()
#torch直接提供的,一般都是设置这四个参数
#num_workers表示读数据的时候可以兼容的线程数
train_loader = DataLoader(dataset = dataset
                         ,batch_size = 32
                         ,shuffle = True
                         ,num_workers = 2
                         )

但是在windows下运行上面的loader代码好像以后会报错:

解决方法:将loader封装到if中,而不是直接顶格写出来

if __name__ == '__main__':
    for epoch in range(100):
        #将train_loader所拿出的x, y 放入到data中去
        for i, data in enumerate(train_loader, 0):

至此,加载数据集的功能就写好了,然后再加上前面写的model的代码就变成了:

class Model(torch.nn.Module):
    def __init__(self):
        super(Model, self).__init__()
        self.linear1 = torch.nn.Linear(8, 6)
        self.linear2 = torch.nn.Linear(6, 4)
        self.linear3 = torch.nn.Linear(4, 1)
        #注意这里用的是nn下的sigmoid,
        self.sigmoid = torch.nn.Sigmoid()

    def forward(self, x):
        x = self.sigmoid(self.linear1(x))
        x = self.sigmoid(self.linear2(x))
        x = self.sigmoid(self.linear3(x))
        return x

model = Model()

#3. 构造损失函数和优化器
#和之前一样
criterion = torch.nn.BCELoss(size_average=True)

optimizer = torch.optim.SGD(model.parameters(), lr=0.1)

注意,上面这段代码在jupyter中无法运行,因为这玩意儿不能多线程。然后在pycharm中可以运行,但是速度很慢。这应该是因为数据量太少,所以多线程的调用反而影响了读取速度照成的;

程序以及对应的模块

主要就是在1和4进行了改造:1中不再是加载所有数据了,而是构造并使用了dataset和dataloader;4中则是改成了嵌套循环,适配mini-batch;

这样一来,就完成了对于糖尿病数据集进行分类的神经网络学习流程。

torchvision中提供的数据集们:

这些数据集都派生自dataset,所以都可以用dataloader进行加载,也有getitem, len等方法,还可以用多进程进行加速

对其他的数据集进行同样的操作

transform是指要将数据转为想要的数据类型,这里是张量;
在test_loader那里是不用shuffle的,以保证每次输出的顺序都是一样的

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容