PyTorch模型可复现性总结

一、前言

在深度学习实验中，难免引入随机因素，让模型结果产生一定程度的波动，影响模型的可复现性。而可复现性对于研究人员来讲非常重要，它能够让我们控制变量，摒弃随机因素的影响，从而快速有效地验证自己的想法，提高学习和工作效率。本文将介绍在PyToch框架下如何保证模型的可复现性。

这里我们仅仅保证模型在同一个环境下（包括不限于Python版，PyTorch版本，cuda版本，显卡型号等，总之就是同一台机器上配置环境不变的情况下），两次运行同一个程序的结果一致，不保证程序移植到其他环境中的可复现性。对于我们来说，前者已经足够满足需求。
不同的PyTorch版本设置方式不尽相同，总体趋势是Pytorch版本越高，设置项越多。文章最后会给出包括1.4.0，1.7.1以及最新的1.9.0在内的三个Pytorch版本对应的建议。由于笔者精力有限，无法给出每一个版本的设置细节，感兴趣的读者可以自己摸索。
如果你和我一样，强迫症晚期患者、希望保证模型运行两次的结果在小数点后n位都保持一致、追求极致的对齐，那就赶紧来看一下吧。

二、影响因素

下面我们对影响模型可复现性的几个因素进行介绍。

1 随机种子

保证可复现性最常用的手段就是设置固定的随机种子，包括random、numpy随机种子，以及PyTorch自身的随机种子等，这其中又包括基本种子，cuda种子，多gpu种子等。某些网友还反映需要固定环境变量中的PYTHONHASHSEED。因此，最简单的方法就是一股脑全部设置：

随机种子懒人版：

def set_seed(seed):
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)  # if you are using multi-GPU.
    np.random.seed(seed)  # Numpy module.
    random.seed(seed)  # Python random module.
    os.environ['PYTHONHASHSEED'] = str(seed)

2. DataLoader

既然可复现性是随机因素引起的，那么是不是设置好随机种子就可以保证复现性了呢？当然不是。这个需要分版本讨论，1.4及以前的版本基本可以满足需求，但是1.4之后还需要商榷。其中需要注意的就是Dataloader部分，
在1.7.1版本中

def worker_init(worked_id):
    worker_seed = torch.initial_seed() % 2**32
    np.random.seed(worker_seed)
    random.seed(worker_seed)

train_loader = DataLoader(xxx, num_workers=0, worker_init_fn=worker_init)

具体为啥这样就不说了，见官网 https://pytorch.org/docs/1.8.0/notes/randomness.html?highlight=reproducibility

3. 避免不确定性算法

cuDnn benchmark ,cuDnn中往往会并行跑多个算法来选择效果最好的那个，这里就可能引入噪声。因此，如果为了保证可复现性，可以将这个特性禁用，缺点就是会损失一定的性能。如果为了达到最优的效果，可以将开关打开：

torch.backends.cudnn.benchmark = False # 禁用benchmark，保证可复现
或者：
torch.backends.cudnn.benchmark = True # 恢复benchmark，提升效果

避免原子操作 一些操作使用了原子操作，不是确定性算法，不能保证可复现，因此我们使用下面的代码禁用原子操作，保证使用确定性算法：
torch.set_deterministic(True)
这样的设置可以让模型把某不确定算法转成对应的确定性算法来执行。如果有部分操作没有对应的确定性算法，例如gather, scatter, repeat_interleave等，这样就会报错。

>>> import torch
>>> torch.use_deterministic_algorithms(True)
>>> torch.randn(2, 2).cuda().index_add_(0, torch.tensor([0, 1]), torch.randn(2, 2))
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
RuntimeError: index_add_cuda_ does not have a deterministic implementation, but you set
'torch.use_deterministic_algorithms(True)'. ..

这个时候，我们有几种选择，

放弃使用确定性算法。即取消torch.set_deterministic(True)，这样就无法模型保证可复现了。
手工替换对应的操作。例如，将gather替换成其他等价的操作，这个还需要具体思考是否有合适的替代方案。
向官方报告报告链接，请求添加对应算法的确定性版本，这个不能解燃眉之急。

cuda的确定性，根据英伟达官方的说法，在cuda 10.2及以上的版本中，需要设置以下环境变量来保证cuda的结果可复现(官方链接)：
os.environ['CUBLAS_WORKSPACE_CONFIG'] = ':4096:8'

4. 其他

某些模块，如CUDA RNN 和LSTM中可能还有不确定算法，这个需要根据具体情况来决定。

三、完整设置

下面我们根据不同的PyTorch版本给出设置建议：

Pytorch 1.7.1

种子：

def set_seed(seed):
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)  # if you are using multi-GPU.
    np.random.seed(seed)  # Numpy module.
    random.seed(seed)  # Python random module.

    torch.set_deterministic(True)
    torch.backends.cudnn.enabled = False 
    torch.backends.cudnn.benchmark = False
    os.environ['CUBLAS_WORKSPACE_CONFIG'] = ':4096:8'
    os.environ['PYTHONHASHSEED'] = str(seed)

DataLoader:

def worker_init(worked_id):
    worker_seed = torch.initial_seed() % 2**32
    np.random.seed(worker_seed)
    random.seed(worker_seed)

train_loader = DataLoader(xxx, num_workers=0, worker_init_fn=worker_init)

最后编辑于：2022.05.19 09:00:08

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 213,616评论 6赞 492
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,020评论 3赞 387
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 159,078评论 0赞 349
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,040评论 1赞 285
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,154评论 6赞 385
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,265评论 1赞 292
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,298评论 3赞 412
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,072评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,491评论 1赞 306
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,795评论 2赞 328
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,970评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,654评论 4赞 337
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,272评论 3赞 318
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,985评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,223评论 1赞 267
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,815评论 2赞 365
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,852评论 2赞 351