推断 = 规划 如何推断? 计算反向消息: 计算策略(最优策略): 计算前向消息: 其中,Optimal变量服从伯努利分布 Backward pass Backward pass 从t=T到t=1递归计算 Policy computation Policy computation Policy computation with value functions 用于控制温度,越小 max就越硬,策略就越确定。 Forward messages Forward messages Summary Summary 原先的值迭代、策略迭代算法由max ----> softmax,变成基于能量的形式