语音识别领域 Whisper(OpenAI)

摘要

大力出奇迹 利用大规模弱监督数据集进行训练(68w数据集),不需要其他微调,在语音识别,音乐识别,多语言语音识别效果都接近了最优模型和超过人类语音识别。主要应用英语,工业应用较大。

数据处理

1、去掉其他模型根据语音预测的标签数据;
2、文本利用规则化处理,除去标点符号,大小写归一化,去重等等;
3、首先利用VoxLingua107识别出audio,利用CLD2识别出对应的文本,若两者不一致删除该数据;
4、将audio分成30s音频和对应文本作为训练数据;
5、测试集不在训练集中。

model

比较简单模型:Transformer
模型输入:audio信号 利用 log-Mel 频谱图 转为3000数据点,每个数据点维度为80,对应文本3000个词,词嵌入长度为80。
模型架构:(整体很简单)

  • 框架
    1、利用卷积层对audio局部优势,卷积核为3,映射缩短为1500维(计算简单);
    2、整体结构Transformer。


    Whisper模型框架
  • 多任务模板model
    1、英文语音转英文文本
    2、其他语音转英文文本
    3、任意语音转成对应文本
    4、识别语音信号VAD


    多任务模板model
多任务

模型输出: 文本输出

  • 模型参数


    Whisper model参数

参考

Introducing Whisper (openai.com)
论文:https://cdn.openai.com/papers/whisper.pdf
GitHub:openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision (github.com)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容