Kaldi(A2)语音识别术语、HMM拓扑与转移模型

上篇语音识别原理通俗地介绍了ASR,这一篇将会简单介绍一下前一篇提到的FST。

Ref

Kaldi HMM http://kaldi-asr.org/doc/hmm.html

Triphone三音素

Ref:语音的基本概念 http://blog.csdn.net/zouxy09/article/details/7941055

一个单词的发声(波形)实际上取决于很多因素,而不仅仅是音素,例如音素上下文、说话者、语音风格等;
协同发音(指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异。)的存在使得音素的感知与标准不一样,所以我们需要根据上下文来辨别音素。将一个音素划分为几个亚音素单元。如:数字“three”,音素的第一部分与在它之前的音素存在关联,中间部分是稳定的部分,而最后一部分则与下一个音素存在关联,这就是为什么在用HMM模型做语音识别时,选择音素的三状态HMM模型。

准确是够准确了,复杂的地方也来了,原来的Monophone单音素变成了Triphone三音素,原本只需一个HMM描述,现在由于上下文的关系需要用许多HMM-GMM参数来描述,由此导致了训练的数据不够用,该怎么办呢?

Ref:Tree-Based State Tying for High Acoustic Accuracy Modelling

由于有些音素对其后音素的影响是相似的,因而可以通过音素解码状态的聚类进行模型参数的共享。如上图所示。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应,通过回答一系列前后音所属类别(元/辅音、清/浊音等等)的问题,最终确定其HMM状态应使用哪个senone。

Kaldi中的HMM

Ref :kaldi yesno example http://blog.csdn.net/shichaog/article/details/73264152?locationNum=9&fps=1

下面来看Kaldi中的初始的拓扑结构是如何描述的。

topo

2 3这两个音素来说,有4个状态,状态0~2都是有转移概率的,状态3用来表示这个音素的结束,所以没有转移概率(nonemitting)。1表示SIL,有5个状态,其余和2 3音素类似。
对应的结构如下图(上图中的0.75 0.25等转移概率还有状态3,5等在下图中没有画出来),它告诉我们音素包括SIL Y N三个椭圆,每个音素下面的状态为1~4 5~7 8~10等双圆圈。
phone&pdfclass

从这张图中引出一个疑问:PdfClass是啥?

PdfClass

PDF(probability density function)指的是概率密度函数,也就是最开始图里的一条条曲线啦。而从上图中,我们大概会想,pdfclass和每个音素下面的状态是一一对应的。不过如上一节所说,不同的triphone可能会有类似的pdf,所以在Kaldi中,不同状态可以分享同一个pdfclass,而决策树也是根据pdfclass来进行聚类的。

转移模型Transition Model

转移概率

关于一个转移的过程,有以下几个问题需要思考:

  • 这个状态在哪个音素下面?phone
  • 这个状态是这个音素下面的第几个?(0,1,2?)hmm-state
  • 转移到下一个状态的pdf是什么? 自旋的pdf是什么?pdf-id(forward-pdf-id及self-loop-pdf-id)
    由以上四个参数"tuple"(phone,hmm-state,forward-pdf-id,self-loop-pdf,id)可以确定唯一一个transtion-state,这就是我们在图中看到的各个双圆圈了。
  • 这个状态转移的下一个状态是什么?(或者说进行的是哪个转移过程)transition-index
    于是由"pair"(transition-state,transition-index)便可以确定唯一一个在HMM中的转移过程——transition-id

为什么引入transition-id

Kaldi对各种路径的整合是通过FST实现的,这个FST大概理解成输入一串序列就能输出与之对应的另一串序列就好。然而刚才我们提到,pdfclass和状态不是一一对应的,这就不便于把pdfclass的序列串转换为状态再转为音素,所以Kaldi里面引入了这个transition-id,可以映射为pdf-id音素phone以及对应的transition是哪个。

解码

由此,HMM结构的各个部分可以完全被描述出来了。输入特征序列,根据model文件里的声学模型找到对应的transition-id,将transition-id串输入到FST图中即可转换为对应的音素以及单词了。

总结

将特征输入声学模型后得到了一个该特征属于HMM中哪个位置的信息,这个位置可以在FST中找到对应于哪个单词,综合句子的一串特征就能识别出整个句子。下一篇文章将搭建一个可以直观的看到结果的识别项目——Online Decoder。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,284评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,115评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,614评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,671评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,699评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,562评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,309评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,223评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,668评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,859评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,981评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,705评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,310评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,904评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,023评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,146评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,933评论 2 355

推荐阅读更多精彩内容

  • 承接前面的《浅谈机器学习基础》、《浅谈深度学习基础》和《浅谈自然语言处理基础》,主要参考了《解析深度学习:语音识别...
    我偏笑_NSNirvana阅读 23,516评论 6 67
  • 数据准备 local/timit_data_prep.sh 生成的内容放在data/local/data中。对于t...
    kaituoxu阅读 8,970评论 0 10
  • 隐马尔可夫模型(Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表...
    vlnk2012阅读 6,674评论 3 47
  • 偶然发现这么一个网站,简洁的页面,简洁的编辑文字。我不是一个专业作家,只是想写着文字,记录生活的点点滴滴。那么,简...
    安好天涯阅读 166评论 0 0