二分类逻辑回归:
前面两篇文章针对的是自变量为连续型的,若针对自变量为类别型,线性回归便不再适用。
二分类预测适用场景:选举,中奖,比赛输赢,健康与否,行业未来等。
分类器预测思路:
将带有结果的样本分为训练集和测试集,进行机器学习。训练集用于计算模型,测试集检验模型的准确率。训练集和测试集参数均通过后,可用于预测模型。
《鸢尾花预测》案例
样本数据如下:
共有九十个样本。目的为通过萼片长/宽/花瓣长/宽来预测是否为鸢尾花。
1)打开datahoop平台,上传数据,选择逻辑回归模型
2)确定自变量和因变量
3)参数设置
测试集占整体样本的20%
4)结果查看
训练集结果:训练集A的正确率95%;精准率P0(判断为0的正确率)=92.5%,精准率P1(判断为1的正确率)=100%;召回率R0(样本为0的正确率)=100%,召回率R1(样本为1的正确率)=91.4%;F1得分1=2P1R1/(P1+R1)=95.5%,F1得分0=2P0R0/(P0+R0)=96.1%.
测试集结果:完美。
5)导入鸢尾花预测数据进行预测
共10个数据
逻辑流程图如下:
6)预测结果查看
10个样本中预测有5个样本为鸢尾花(1)
这就是二分类逻辑回归适用范围以及操作步骤啦~
重点为正确率/准确率/召回率/F1得分等指标的判断,以及混肴矩阵的分析。