IP属地:上海
stack 栈 先进后出 队列 queue 单端队列 push 相当于push_backpop 相当于pop_front deque 双端队列 ...
决策树 特征分裂点选取方法:遍历所有value,以该value作为切分点,计算左右集合的MSE,选取最佳切分点,同时切分样本到下层节点除了MSE...
Q-Learning 行是state,列是action off-policy算法 ε-greedy贪心算法 Q更新公式如下:图片.png SAR...
强化学习的过程,分为模型训练和应用两部分。在应用阶段,模型的按照action的效果最大化进行输出结果。因此最优的action有最高的概率。训练阶...
1. Sigmoid函数 优点:取值在0-1之间缺点:容易出现梯度弥散现象 2. ReLU函数 优点:相比Sigmoid不容易出现梯度弥散现象缺...
代码与笔记如下
https://zhuanlan.zhihu.com/p/84431551[https://zhuanlan.zhihu.com/p/84431...