- 用fp16训练的时候,得单独把transformer layer改成fp32,不然可能loss不降
-
checkpoint+ddp的时候,可能会报这个错:
把find_unused_parameters改成False就可以了。
model = build_ddp(
model,
cfg.device,
device_ids=[int(os.environ['LOCAL_RANK'])],
broadcast_buffers=False,
find_unused_parameters=False)