1.UCS DFS BFS A* search
2.Game Minimax, αβ pruning
3.CSP
4.FOL resolution proof 将结果取反,和原有条件搞出空集
5.Inference in FOL
- forward chaining 由已知条件modus poneus和and introduction 得到最后结果
- backward chaining 从结果出发进行替换得到所有结果,要画图的
6.CNF
7.Planing
- Partial Order Plan
8.Neural Network 给一个网络看输出是什么或者设计
9.Naive Bayes
- 给一个情景,算概率
- 画Bayesian Network
10.Decision Tree
- 分类
- 算information Gain
11.Markov Decision Processes
- 箭头是Reward,每个格子里的是Untility U(s) = R(s)+𝛾maxa∑s1(P(s1|s,a)U(s1))
- 把格子填满后,各个方向就是Q值,Q值的计算:
如果计算完U值要计算Q值,就是用下面的式子:
有了策略π和立即回报函数r(s,a), Qπ(s,a)如何得到的呢?
对s11计算Q函数(用到了上面Vπ的结果)如下:
Qπ(s11,ar)=r(s11,ar)+ γ Vπ(s12) =0+0.9100 = 90
Qπ(s11,ad)=r(s11,ad)+ γ *Vπ(s21) = 72
Q值怎么计算:Q(E,3,2)那就是MaxQ(4,2)=U(4,2) 既是相应方向相邻格子的U(也是maxQ)
- 增强式学习要注意 第一次不改值,只是找到terminal在哪里
- 这个是增强式学习的时候的式子,一般会给怎么行动的,Q(s,a)← Q(s,a) + ⍺(R(s)+𝛾 maxa’Q(s’,a’)−Q(s,a))
γ越大,小鸟就会越重视以往经验,越小,小鸟只重视眼前利益(R)
α为学习速率(learning rate),γ为折扣因子(discount factor)。根据公式可以看出,学习速率α越大,保留之前训练的效果就越少。折扣因子γ越大,
小鸟在对状态进行更新时,会考虑到眼前利益(R),和记忆中的利益(
12.Decision Networks
- Compute expected utility (EU)
- EU(AT∧¬SB) = P(Acc|AT∧¬SB)·U(Acc∧¬SB) +P(¬Acc|AT∧¬SB)·U(¬Acc∧¬SB)
随机事件在两个选择下的概率乘以Utility
13.Choose 2 homework3 projects, each one about a different dataset
Describe how each project relates to search, knowledge representation, reasoning about uncertainty, learning
Compare and contrast the two projects, describing limitations and strengths
14.Expected Untility
a 是action ,s'是a这个动作导致的结果,e是已经发生的事情 比如 J,M