Pytorch:八、加载数据集


Dataloader主要是拿出一些Mini-Batch来供训练时能够快速使用。使用batch可以提升计算速度,但是其求值的性能会有些问题。因此选用了Mini-Batch来进行综合;

使用了Mini-Batch后都得用下面这样的嵌套循环

#train cycle
for epoch in range(training_epochs):
    #每次迭代执行一个Mini-Batch
    for i in range(total_batch):
  • 需要了解的概念:
  1. epoch所有的样本都进行了一次正,反向传播。即所有样本都进行了一次训练;
  2. Batch-Size:每次训练时,所用的样本数量;
  3. Iteration:分了多少个batch,也就是内层的那个迭代执行了多少次;
    如:现有1w个样本,batch是1k个,即每次拿1k个样本。那么Iteration就是10000/1000=10

Dataloader:需要知道目标数据的索引[i]以及长度len。这样一来,dataloader就可以自动对dataset进行小批量的数据集的生成:

dataloader工作流程

第一步,shuffle:就是打乱顺序;第二步,将打乱后的数据进行分组,这里将两个样本作为一个batch

  • 常见的读取数据集的方法:
  1. 直接读取所有数据,这种方法适用于数据集本身就不算大的数据;
  2. 对于数据量很大的一堆文件/图片之类的,可以通过一个list来保存其地址一类的,然后在用到的时候再进行读取;

如何去定义一个数据集

import torch
#Dataset是个抽象类
from torch.utils.data import Dataset
#torch中帮助加载数据的类
from torch.utils.data import DataLoader
import numpy as np

class DiabetesDataset(Dataset):
    def __init__(self):
        pass
    
    #通过这个方法来支持下标操作
    def __getitem__(self, index):
        pass
    
    def __len__(self):
        pass
    
dataset = DiabetesDataset()
#torch直接提供的,一般都是设置这四个参数
#num_workers表示读数据的时候可以兼容的线程数
train_loader = DataLoader(dataset = dataset
                         ,batch_size = 32
                         ,shuffle = True
                         ,num_workers = 2
                         )

但是在windows下运行上面的loader代码好像以后会报错:

解决方法:将loader封装到if中,而不是直接顶格写出来

if __name__ == '__main__':
    for epoch in range(100):
        #将train_loader所拿出的x, y 放入到data中去
        for i, data in enumerate(train_loader, 0):

至此,加载数据集的功能就写好了,然后再加上前面写的model的代码就变成了:

class Model(torch.nn.Module):
    def __init__(self):
        super(Model, self).__init__()
        self.linear1 = torch.nn.Linear(8, 6)
        self.linear2 = torch.nn.Linear(6, 4)
        self.linear3 = torch.nn.Linear(4, 1)
        #注意这里用的是nn下的sigmoid,
        self.sigmoid = torch.nn.Sigmoid()

    def forward(self, x):
        x = self.sigmoid(self.linear1(x))
        x = self.sigmoid(self.linear2(x))
        x = self.sigmoid(self.linear3(x))
        return x

model = Model()

#3. 构造损失函数和优化器
#和之前一样
criterion = torch.nn.BCELoss(size_average=True)

optimizer = torch.optim.SGD(model.parameters(), lr=0.1)

注意,上面这段代码在jupyter中无法运行,因为这玩意儿不能多线程。然后在pycharm中可以运行,但是速度很慢。这应该是因为数据量太少,所以多线程的调用反而影响了读取速度照成的;

程序以及对应的模块

主要就是在1和4进行了改造:1中不再是加载所有数据了,而是构造并使用了dataset和dataloader;4中则是改成了嵌套循环,适配mini-batch;

这样一来,就完成了对于糖尿病数据集进行分类的神经网络学习流程。

torchvision中提供的数据集们:

这些数据集都派生自dataset,所以都可以用dataloader进行加载,也有getitem, len等方法,还可以用多进程进行加速

对其他的数据集进行同样的操作

transform是指要将数据转为想要的数据类型,这里是张量;
在test_loader那里是不用shuffle的,以保证每次输出的顺序都是一样的

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,245评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,749评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,960评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,575评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,668评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,670评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,664评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,422评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,864评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,178评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,340评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,015评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,646评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,265评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,494评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,261评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,206评论 2 352

推荐阅读更多精彩内容