摘要
大力出奇迹 利用大规模弱监督数据集进行训练(68w数据集),不需要其他微调,在语音识别,音乐识别,多语言语音识别效果都接近了最优模型和超过人类语音识别。主要应用英语,工业应用较大。
数据处理
1、去掉其他模型根据语音预测的标签数据;
2、文本利用规则化处理,除去标点符号,大小写归一化,去重等等;
3、首先利用VoxLingua107识别出audio,利用CLD2识别出对应的文本,若两者不一致删除该数据;
4、将audio分成30s音频和对应文本作为训练数据;
5、测试集不在训练集中。
model
比较简单模型:Transformer
模型输入:audio信号 利用 log-Mel 频谱图 转为3000数据点,每个数据点维度为80,对应文本3000个词,词嵌入长度为80。
模型架构:(整体很简单)
-
框架
1、利用卷积层对audio局部优势,卷积核为3,映射缩短为1500维(计算简单);
2、整体结构Transformer。
-
多任务模板model
1、英文语音转英文文本
2、其他语音转英文文本
3、任意语音转成对应文本
4、识别语音信号VAD
模型输出: 文本输出
-
模型参数
参考
Introducing Whisper (openai.com)
论文:https://cdn.openai.com/papers/whisper.pdf
GitHub:openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision (github.com)