在服务器训练模型的时候,使用torch.nn.CrossEntropy()(pred, labels)的weight来计算类别加权loss时,报错Segmentation fault(core dumped),程序终止,并且没有出现traceback,尝试了网上说的很多种方法,唯独没敢尝试conda --update all,这个指令还是不要轻易运行。
然后我在控制台输出了pred和labels的具体值,是两个正常的tensor,并且将其复制下来在本地运行这一函数,并未报错。
原来是需要把weight转换为cpu的形式。即
loss_func = torch.nn.CrossEntropy(weight=weight.cpu())
loss = loss_func(pred, labels)
怪不得本地代码没问题,因为本地的weight本来就是一个cpu形式的tensor... 虽然我也没想明白原因是什么。