mkws 文档
1. 环境搭建 (conda)
1)创建指定Python版本的conda虚拟环境:conda create -n 环境名称 python=3.6.2
2)安装Pytorch及对应版本的cuda-toolkit:conda install pytorch torchvision torchaudio cudatoolkit=11.1 -c pytorch -c conda-forge
3)安装Pytorch-Lightning框架:conda install pytorch-lightning -c conda-forge
补充说明:
1)文档cuda 版本: 11.1.114
2)也可使用ASR文档中创建的Nemo环境,无需安装其他包和依赖。当前环境适用于原生Pytorch搭建的工程。
3)服务器环境:/aidate/home/aiyy_env (Nemo环境)
2. Nemo工程
1)项目路径:/aidate/home/aiyy/kws_dataset
2)项目结构信息详见 note.txt 文档
3. Pytorch工程
1)项目路径:/aidate/home/share_yy/KWS_PL_LINUX_1116 或 ~/KWS_PL_LINUX_1201
2)项目结构信息详见 note.txt 文档
4. 参考模型
1)论文链接:/aidate/home/share_yy/MatchboxNet.pdf 或 arXiv地址
2)模型信息:一维全卷积网络,层与层之间存在残差级联结构,总参数量为77k(全精度32位)。
5. 程序说明
1)训练流程
a)生成数据集对应的MFCC特征文件,以tensor(.pt)形式保存。或者创建JSON数据集映射:
-- Tensor文件格式:(index, 特征维数, 时间帧数)
eg. -> (10000,64,93):10000个音频,64维MFCC特征,padding或者clip到93帧
-- JSON数据集格式:{"audio_filepath": "path", "duration": 1.2, "command": "打开灯光"}
b)设置相应的超参数和训练策略(学习率,batch_size,epoch etc.)
补充说明:
-- Lightning框架在启动训练后会自动生成Lightning_logs文件夹储存当前训练状态,支持Tensorboard可视化
2)测试方法
a)batch测试:抽取数据集部分样本,以batch的形式输入模型获取输出
b)在线测试:获取当前麦克风录音设备输入,实时输出结果(策略待调整)
c)长音频流式测试:输入长音频(含多次唤醒词),输出并统计唤醒信息(策略待调整)