目录 RNN 发生梯度消失的原因是什么? RNN中使用ReLU可以解决梯度消失问题吗? LSTM为什么能解决梯度消失/爆炸的问题? LSTM和GRU的区别 LSTM的不足之处...
目录 RNN 发生梯度消失的原因是什么? RNN中使用ReLU可以解决梯度消失问题吗? LSTM为什么能解决梯度消失/爆炸的问题? LSTM和GRU的区别 LSTM的不足之处...
目录 简述K-Means算法的基本流程 Kmeans对异常值是否敏感?为什么? 如何评估聚类的效果 超参数k如何选择? Kmeans算法的优缺点 简述SVM原理 SVM为什么...
目录 为什么要对特征做归一化 (easy) 什么是组合特征(Categorical Feature的组合)?如何处理高维组合特征 (medium) 比较欧式距离与曼哈顿距离 ...
人为什么会觉得生活很累,其实都是自己的虚荣心在作怪,很多的时候,我们生活不是为了自己,很多时候都是想活给身边的人看的,我们都想过得比别人好,别人拥有什么,我们就要比它更好,别...
上一节我们介绍了SVM在处理二分类问题时的经典概念,但是现实场景中的数据往往有很多噪音,这个时候如何处理才能让模型更鲁棒呢? 松弛变量(Slack variables) 引入...
在stackoverflow找到了原因和解决方案:zsh uses square brackets for globbing / pattern matching. That...
超平面 定义: 对于处在超平面两侧的两个点 和 ,分别有: 某样本到超平面的单位法向量为:某样本点到超平面的距离可以表示为: 所以可以看到图中原点距离超平面的距离是 线性分类...
1. 均方差损失 MSE Loss (L2 Loss) 针对回归问题 MSE也称为L2 loss:随着预测与真实值的绝对误差的增加,均方差损失呈二次方增加。 2. 平均绝对...
nn.DataParallel DataParallel只能实现单个主机多GPU的训练,下图是由HuggingFace 制作的DataParallel的原理图。 mini-b...
Learning Discriminative Feature with Multiple Granularities for Person Re-Identificatio...
ResNeSt: Split-Attention NetworksGithub: https://github.com/zhanghang1989/ResNeStDetect...
Introduction "close" false positives: 和正确的样本非常接近但是其实是不正确的bbox. 在以往的方法中,界定正负样本是通过卡IoU阈值来...