时间:2017-05-14 19:30~22:30
地点:822实验室
参加人数:9人
主持人:刘开心
收获:了解网格搜索与交叉验证
印象之最:时间和节奏把控失衡,导致气氛不如上一次
内容
通过网格搜索和交叉验证的方式寻找决策树最优深度,实现对波士顿房价的预测。
主讲人:李聪蕊
活动流程
项目简介
这是一个回归问题。给出房子的地段、教学资源、大小和房间数等特征,预测房价。
项目流程回顾
- 数据预处理:剔除遗失数据;剔除异常值;剔除不相关特征;将字符特征数值化。
- 对回归数据进行简单分析:找最大值、最小值、平均值、中值、标准差。
import numpy as np
minimum_price = np.min(prices)
maximum_price = np.max(prices)
mean_price = np.mean(prices)
median_price = np.median(prices)
std_price = np.std(prices)
- 定义衡量标准:使用决定系数R2来量化模型表现,详情请见知识篇——R2分数。
- 数据分割与重排:使用sklearn.odel_selection中的train_test_split,将数据分为测试集和训练集。
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(features, prices, test_size=0.2, random_state=50)
- 分析模型表现:观察方差与偏差。方差影响模型的稳定性,偏差影响模型的正确性。
- 用网格搜索和交叉验证寻找最优模型参数,训练出最优模型,预测数据。
分享产物
活动感想
刘开心:
这次的分享在时间和节奏上严重失控,其实中途很多次自己都觉得无聊。尾声的时候ArtistQiu提出这次活动的几个问题,当时情绪有些激动,这是我处理的很不好的地方,感谢好友的包容,会指出问题还不计前嫌的朋友都是真朋友。晚上反思了很多,写在这里mark一下,我知道,我们会越来越好。