二、LFR_m、LFR_n参数设置
为了更方便调试LFR_m、LFR_n参数的设置,将训练、开发集的json做些精简:
原始训练集:120098条语音 精简后: 9条语音
原始开发集:14326条语音 精简后:10条语音
具体精简情况可以见《Speech-Transformer项目参数设置1》
单独调试train.py程序,batch_frames设置为1,远小于所有语音的frames数,LFR_m设置为1,LFR_n设置为4

在model.cuda()处设置断点,每次运行到此处暂停,运行F8 步过,查看GPU Memory Usage


GPU Memory Usage
此时模型加载进入GPU

LFR_m设置为1,LFR_n设置为1

LFR_m设置为1,LFR_n设置为2

LFR_m设置为1,LFR_n设置为4

LFR_m设置为1,LFR_n设置为8
在solver.py文件中print('Train Summary... 此行设置断点

此处训练集数据加载到GPU
在solver.py文件中print('Valid Summary... 此行设置断点

此处开发集数据加载到GPU
观察此时的GPU Memory占用:
GPU Memory Usage
LFR_m设置为1,LFR_n设置为2

训练集加载

开发集加载
LFR_m设置为1,LFR_n设置为4

训练集加载

开发集加载
LFR_m设置为1,LFR_n设置为8

训练集加载

开发集加载