SenseVoice微调遇到的问题

操作系统

Ubuntu 22.04.5 LTS

下载FunASR项目

git clone https://github.com/alibaba/FunASR.git

激活FunASR中的虚拟环境

wwb@WIN-SQLL789SN3H:~/FunASR$ source venv/bin/activate

数据集要使用绝对路径

train_text.txt

bnqsds 巴南区圣灯山
BAC009S0764W0121 甚至出现交易几乎停滞的情况
BAC009S0916W0489 湖北一公司以员工名义贷款数十员工负债千万
asr_example_cn_en 所有只要处理 data 不管你是做 machine learning 做 deep learning 做 data analytics 做 data science 也好 scientist 也好通通都要都做的基本功啊那 again 先先对有一些也许对
ID0012W0014 he tried to think how it could be

train_wav.scp


bnqsds /home/wwb/FunASR/data/list/bnqsds.wav
BAC009S0764W0121 https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/BAC009S0764W0121.wav
BAC009S0916W0489 https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/BAC009S0916W0489.wav
asr_example_cn_en https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_cn_en.wav
ID0012W0014 https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_en.wav

生成train.jsonl

sensevoice2jsonl \
++scp_file_list='["../../../data/list/train_wav.scp", "../../../data/list/train_text.txt"]' \
++data_type_list='["source", "target"]' \
++jsonl_file_out="../../../data/list/train.jsonl" \
++model_dir='iic/SenseVoiceSmall'
  • sensevoice2jsonl命令在FunASR项目中,所以生成jsonl文件的命令应该是在FunASR目录下执行
  • ../表示上一级目录,sensevoice2jsonl.py在/home/wwb/FunASR/funasr/datasets/audio_datasets目录下,所以写相对路径时要连续返回三个上一级目录

修改finetune.sh

# train_data=${workspace}/data/train_example.jsonl
# val_data=${workspace}/data/val_example.jsonl
train_data=/home/wwb/FunASR/data/list/train.jsonl
val_data=/home/wwb/FunASR/data/list/val.jsonl

开始微调

bash finetune.sh
因finetune.sh是在SenseVoice项目中,所以微调命令应该是在SenseVoice目录下执行

微调后没有变化

修改webui.py里的代码为:

model = AutoModel(model="/home/wwb/SenseVoice/outputs")

上面的代码表示使用训练过的模型,但是outputs文件夹下训练过的模型有几十个,不知道这行代码表示的是使用哪一个。

WebUI

(venv) wwb@WIN-SQLL789SN3H:~/SenseVoice$ python webui.py

  • 该命令要在虚拟环境中启动
  • 首次运行会自动下载模型到/home/wwb/.cache/modelscope/hub/models/iic/SenseVoiceSmall目录下

参考文献

SenseVoice微调_sensevoice 微调-CSDN博客

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容