Logistic回归:是广义线性回归的特例,利用Logistic函数将y的取值控制在[0,1], 表示取值为1的概率。
设因变量Y等于1的概率为p, 则Y=0的概率为1-p
当p在(0,1)之间变化时,odds的取值范围是(0,+∞),则z的取值范围是(-∞,+∞)。
Logistic模型:
建模步骤:
1.根据分析目的设置自变量x因变量y,然后收集数据,根据收集到的数据,对特征再次筛选
3.模型检验:检验指标有准确率(accuracy),混淆矩阵(confusion matrix),ROC曲线(receiver operating characteristic),KS值
4.模型应用:输入自变量即可得到预测变量的值
*注:
Feature selection: 可以通过F检验(f-regression)提取特征的F值和p值,选择F较大,p较小的特征。还有递归特征消除(recursive feature elimination,RFE)和稳定性选择(stability selection)。
递归特征消除:通过反复构建模型(SVM or Regression)然后选出最好或者最差的特征,把选出来的特征放到一边,在剩余的特征中继续重复这个过程,直到遍历所有特征。递归过程中特征被消除的次序就是特征的排序。
稳定性选择:通过重复在不同的数据子集和特征子集上运行特征选择算法(SVM,regression),然后最终汇总特征选择结果。汇总方法例:统计某个特征被选择为重要特征的频率。Sklearn在随机LassoRegression和随机LogisticRegression中有队稳定性选择的实现。
Logistic的本质是线性模型,所以有效性检验本质上还是在做线性相关检验,因此能说明筛选出的变量跟结果有较强的线性相关性,然后被筛掉的变量并不一定跟结果无关,可能是非线性关系,可用决策树和神经网络筛选。