操作系统
Ubuntu 22.04.5 LTS
下载FunASR项目
git clone https://github.com/alibaba/FunASR.git
激活FunASR中的虚拟环境
wwb@WIN-SQLL789SN3H:~/FunASR$ source venv/bin/activate
数据集要使用绝对路径
train_text.txt
bnqsds 巴南区圣灯山
BAC009S0764W0121 甚至出现交易几乎停滞的情况
BAC009S0916W0489 湖北一公司以员工名义贷款数十员工负债千万
asr_example_cn_en 所有只要处理 data 不管你是做 machine learning 做 deep learning 做 data analytics 做 data science 也好 scientist 也好通通都要都做的基本功啊那 again 先先对有一些也许对
ID0012W0014 he tried to think how it could be
train_wav.scp
bnqsds /home/wwb/FunASR/data/list/bnqsds.wav
BAC009S0764W0121 https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/BAC009S0764W0121.wav
BAC009S0916W0489 https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/BAC009S0916W0489.wav
asr_example_cn_en https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_cn_en.wav
ID0012W0014 https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_en.wav
生成train.jsonl
sensevoice2jsonl \
++scp_file_list='["../../../data/list/train_wav.scp", "../../../data/list/train_text.txt"]' \
++data_type_list='["source", "target"]' \
++jsonl_file_out="../../../data/list/train.jsonl" \
++model_dir='iic/SenseVoiceSmall'
- sensevoice2jsonl命令在FunASR项目中,所以生成jsonl文件的命令应该是在FunASR目录下执行
- ../表示上一级目录,sensevoice2jsonl.py在/home/wwb/FunASR/funasr/datasets/audio_datasets目录下,所以写相对路径时要连续返回三个上一级目录
修改finetune.sh
# train_data=${workspace}/data/train_example.jsonl
# val_data=${workspace}/data/val_example.jsonl
train_data=/home/wwb/FunASR/data/list/train.jsonl
val_data=/home/wwb/FunASR/data/list/val.jsonl
开始微调
bash finetune.sh
因finetune.sh是在SenseVoice项目中,所以微调命令应该是在SenseVoice目录下执行
微调后没有变化
修改webui.py里的代码为:
model = AutoModel(model="/home/wwb/SenseVoice/outputs")
上面的代码表示使用训练过的模型,但是outputs文件夹下训练过的模型有几十个,不知道这行代码表示的是使用哪一个。
WebUI
(venv) wwb@WIN-SQLL789SN3H:~/SenseVoice$ python webui.py
- 该命令要在虚拟环境中启动
- 首次运行会自动下载模型到/home/wwb/.cache/modelscope/hub/models/iic/SenseVoiceSmall目录下