1. 语音识别的本质

语音识别的本质就是将一段声音信号转换为文字：

左边的彩色框框代表的是对语音信号进行特征提取后的每一帧的数据。T代表的是帧数，d代表的应该是滤波器个数(特征提取里面有一段是需要经过mel滤波器)，即每一帧的维度。token可以理解为你训练时候词典的构成的最小元素。根据自己选择的不同，token可以分为几种。

2.Token的种类

phoneme是发音的最小单位，在中文中可以理解为：声母和韵母；在英文中可以中理解为一个单词发音的音标。grapheme是最小的书写单位，在英文中可以理解为26个英文字母加上空格或者加上一些其他的标点符号。在中文里面就可以理解为1个字。word就是看做是单词，在中文中就表示一个词语，在英文中就表示一个单词。但是如果token表示word的话，在中文中就会有一个难题，中文到底存在多少个单词？中文常用字大概2000~3000，但是可以组合成无数的词语。Morepheme是一个语言中可以传达意思的最小单位，要比word小但是比grapheme大的单位。但是morepheme的由来需要语言学家或统计学家的统计。