- 良好的模型会有较高的 R 方分数。完美的模型能得到的最大 R 方分数是 1。R 方分数可以是负 的,一个糟糕的模型可以得到任意低的负分。
数据可视化的重要性:在构建模型时,使用可视化方法查看一下输入和输出之间以及各个输入特征之间的关系是一种非常好的做法。
概率图是一种非常简单的可视化方法,用以比较数据的实际分布与理论分布, 它本质上是一种表示实测分位数和理论分位数的关系的散点图
不要“中心化”稀疏数据!在稀疏特征上执行 min-max 缩放和标准化时一定要慎重,它们都会从原始特征值中减去一个量。对于 min-max 缩放,这个平移量是当前特征所有值中的 最小值;对于标准化,这个量是均值。如果平移量不是 0,那么这两种变换 会将一个多数元素为 0 的稀疏特征向量变成密集特征向量。根据实现方式的 不同,这种改变会给分类器带来巨大的计算负担。词袋就是一种稀疏的表示方式,大多数分类算法的实现都针对稀疏输入进行了优化。
当特征数大于数据量的时候,需要正则化