Windows 下的zip文件 方法Ubuntu下乱码。 让Ubuntu支持gbk字符集 查看系统支持的字符集 cat /usr/share/i...
本节主要介绍 Model-free prediction。从一个未知的MDP中估计出值函数。 1. Monte-Carlo Reinforcem...
这节主要讲了动态规划在强化学习中的用法。 引入两个问题的定义,Prediction,Control。Prediction: 预测问题,MDP的信...
问题:同样的问题,不同的表述,生成的回复就不一致。 方法:在seq2seq的的decoder 加入了用户向量,类似词向量,利用用户帐号信息,如性...
这节课同样讲的一些基础概念,为之后的课程做铺垫。 马尔科夫过程(Markov Processes) S是一个有限的状态集合P是state之间的转...
这节课主要讲了一些基本概念。 强化学习的特点 非监督,只需要一个奖励R 奖励是非即时的 agent 的actions 影响它后续的数据 1. R...
Pointer Networks 论文地址:https://arxiv.org/abs/1506.03134 因为上一篇博客CopyNet引用了...
Incorporating Copying Mechanism in Sequence-to-Sequence Learning 作者来自香港大...
首先是ubuntu的安装 制作U盘启动(windows下UltralSO工具制作)。 开机狂按F12(不同的机器,快捷键不同),进入BIOS界面...