强化学习:Reinforcement Learning image.png image.png 强化学习的分数导向性 监督学习的数据和标签是任务开始的时候就有的;而强化学习中的分数是在一次次的尝试之后才获得的。 image.png