马尔可夫模型到目前为止被认为是快速识别语音系统的最成功的方法,自然语言处理问题等同于通信系统中解码问题,一个嗯根据接收的信息去推断说话人要表达的意思。
使用隐含马尔科夫模型,可以进行分析理解意思,以语音识别为例子,当我们接收到语音信号o1,o2,o3时候,我们根据这组信号推测出发送的句子s1,s2,s3。显然我们应该在所有可能的句子中,找出最可能的一个用数学模型表示就是在o1,o2,o3已知的情况下,求使得条件概率P(s1,s2,s3...|o1,o2,o3...)达到最大值的那个句子s1,s2,s3...
还可用利用贝叶斯公式并且省略一个常数项,P(o1,o2,o3...|s1,s2,s3...)表示某句话被读成s1,s2,s3的可能性而P(s1,s2,s3...)表示字符串s1,s2,s3..本身能够成为一个合乎情理句子的可能性,得出概率。
第一s1,s2,s3是一个马尔克夫链,也就是si只有si-1j决定;
第二在第i个时刻发送信号oi只有接收信号si决定然后我们利用Viterbi算法就很容易解决,我们之所以用隐含应为s1,s2,s3没有办法观测到,把o1,o2,o3对应成英文那我们就很好的解决机械翻译问题,在机械翻译中称为机械模型,在语音识别中,又称为语音模型,根据不同的应用有着不同的方法,而P(s1,s2,s3就是我们提到的语言模型)利用马尔科夫模型进行语言处理问题首先要进行模型训练。
信息是个抽象的实体,我们常常说信息很多,信息很少,但没有办法说信息确实有多少,直到到了1948年,香农提出了信息熵的概念,才解决信息量化度量的问题。使用比特(bit)来定义信息量。