【1】MDP(S【状态集】,A【动作集】,{Psa}【状态转换分布】,γ【贴现因子】,R【奖励函数】)
【过程】
从状态0出发,选择一个动作a0,
选择a1,
总的回报:
选择活动使其最大:
政策policy:
定义值函数:
【2】隐马尔科夫模型
三要素 λ=(A,B,π)
两个基本假设:
(1)齐次马尔可夫性假设,隐马尔科夫链t的状态只和t-1状态有关。
(2)观测独立性假设,观测只和当前时刻状态有关。
观测序列生成:
输入:隐马尔科夫模型 λ=(A,B,π)观测序列长度T
(2)令t=1
(5)令t=t+1,如果t<T,转(3),否则终止。
隐马尔科夫三个基本问题:
(1)概率计算
【前向算法】
输入:隐马尔科夫模型λ,观测序列O
输出:观测序列概率P(O|λ)
初值:
递推:
终止:
【后向算法】
输入:λ,O
输出:p(O|λ)
(ii)对t=T-1,T-2,...,1
(iii)
(2)学习算法
【监督学习算法】
【baum-welch算法】
(3)预测计算
【近似算法】
【维特比算法】
动态规划解概率最大路径,一个路径对应一个状态序列。