task1:https://tianchi.aliyun.com/notebook-ai/detailspm=5176.12586969.1002.15.1cd8593ajJvr33&postId=95456
其中的一个小知识点:二类分类问题中的精确率(precision)与召回率(recall)
通常,以关注的类为正类,其他类为反类,分类器在测试数据集上的预测或正确或不正确,4种情况出现的总数分别记为:
TP——将正类预测为正类数;
FN——将正类预测为负类数;
FP——将负类预测为正类数;
TN——将负类预测为负类数;
精确率定义为:
召回率定义为:
精确率和召回率的调和均值:
精确率 : 当模型做一次新的预测时,它预测对的概率是多少。
召回率 : 对于一个预测集,我么能将其中正例的多少正确的寻找出来。
精确率和召回率的调和均值 : F1即精确率和召回率的加权调和平均。
task2 https://tianchi.aliyun.com/notebook-ai/detail?postId=95457
可视化的几个语句:
Datawhale 零基础入门数据挖掘-Task2 数据分析
1)缺省值可视化
2)通过偏度、峰度
2)数字特征可视化
数字特征相互之间的关系可视化
每个数字特征得分布可视化
3)类别特征可视化
类别特征箱形图可视化 #
类别特征的小提琴图可视化#
类别特征的柱形图可视化#
类别特征的每个类别频数可视化(count_plot)#