问题

这个问题还带有一点条件概率，混入了马尔可夫链，最后要选择的是最有可能的句子。输入条件有

词典m，是所有可能的输入词语，大小为|m|。
词典中的每个词出现在句首的概率B。
实数矩阵T，其中T[i,j]表示m[i]出现在m[j]之前的概率；
实数矩阵M，其中M[i,j]表示m[i]被误识别成m[j]的概率；
问题：OCR识别出来的n个词语的句子q。
要求输出实际可能的句子。

分析

拿到一个输入q，假设最后生成的结果为p。那么它为p的概率由p句子出现的概率及每一个 $p_{i}$ 被识别为 $q_{i}$ 的概率。

-理论告警- 所谓朴素贝叶斯定理
$P(p|q) = \frac {P(q|p)P(p)} {P(q)}$
这公式是说如果识别出q那么原文是p的概率。我们的问题就是要使得 $P(p|q)$ 最大化，由于P(q)与p无关，是一个定值（拿B和T一阵地猛乘就得出），所以我们定义 $f(q)=P(q|p)P(p)$ ，求使它最大的q就是我们要的答案。

求解

先来看公式，后面再来递推最大化
$\begin{align*} & P(p) = B[p_0] \prod_{i=0}^{n-2} T[q_i, q_{i+1}] \\ & P(q|p) = \prod_{i=0}^{n-1} M[q_i,p_i] \\ \end{align*}$
如果将B也融入到T中，即从无到第一个字的概率，可以将公式范化成
$\begin{align*} & f(q) = \prod_{i=0}^{n-1} T[q_{i-1},q_i] * \prod_{i=0}^{n-1} M[q_i,p_i] \\ & = \prod_{i=0}^{n-1} T[q_{i-1}, q_i]*M[q_i, p_i] \\ \end{align*}$