【火炉炼AI】机器学习007-用随机森林构建共享单车需求预测模型

【火炉炼AI】机器学习007-用随机森林构建共享单车需求预测模型

(本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )

共享单车是最近几年才发展起来的一种便民交通工具,基本上是我等屌丝上班,下班,相亲,泡妞必备神器。本项目拟使用随机森林回归器构建共享单车需求预测模型,从而查看各种不同的条件下,共享单车的需求量。


1. 准备数据集

本次使用的数据集来源于加利福尼亚大学欧文分校(UCI)大学的公开数据集:https://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset,关于本次数据集的各种信息可以参考该网站,同时也可以直接从该网站下载和使用数据集。本次共享单车数据集包含有两个文件,一个是按天来统计的共享单车使用量数据,另一个是按照小时数来统计的使用量。

说句题外话,这个共享单车数据集是在2011年至2012年间收集的,此处的共享单车是采用固定桩形式的单车,类似于中国的永安行,并不是我们目前所看到的满大街的小黄车,小蓝车,摩拜之类。

下载后,将数据集解压到D:\PyProjects\DataSet\SharingBikes中。本数据集总共有17389个样本,每个样本有16列,其中,前两列是样本序号和日期,可以不用考虑,最后三列数据是不同类型的输出结果,最后一列是第十四列和第十五列的和,因此本模型中不考虑第十四列和第十五列。

image

本数据集16列对应的信息分别为:

image

如下为分析数据集的主要代码,此处我没有深入研究数据集各个特征列之间的关系。

# 首先分析数据集
dataset_path='D:\PyProjects\DataSet\SharingBikes/day.csv' # 首先只分析day 数据
# 首先加载数据集
raw_df=pd.read_csv(dataset_path,index_col=0)
# print(raw_df.shape)  # (731, 15)
# print(raw_df.head()) # 查看是否正确加载
# print(raw_df.columns)
# 删除不需要的列,第1列,第12,13列
df=raw_df.drop(['dteday','casual','registered'],axis=1)
# print(df.shape) # (731, 12)
# print(df.head()) # 查看没有问题
print(df.info()) # 没有缺失值 第一列为object,需要进行转换
# print(df.columns)

# 分隔数据集
dataset=df.as_matrix() # 将pandas转为np.ndarray

# 将整个数据集分隔成train set和test set
from sklearn.model_selection import train_test_split
train_set,test_set=train_test_split(dataset,test_size=0.1,random_state=37)
# print(train_set.shape) # (657, 12)
# print(test_set.shape) # (74, 12)
# print(dataset[:3])

-------------------------------------输---------出--------------------------------

<class 'pandas.core.frame.DataFrame'>
Int64Index: 731 entries, 1 to 731
Data columns (total 12 columns):
season 731 non-null int64
yr 731 non-null int64
mnth 731 non-null int64
holiday 731 non-null int64
weekday 731 non-null int64
workingday 731 non-null int64
weathersit 731 non-null int64
temp 731 non-null float64
atemp 731 non-null float64
hum 731 non-null float64
windspeed 731 non-null float64
cnt 731 non-null int64
dtypes: float64(4), int64(8)
memory usage: 74.2 KB
None

--------------------------------------------完-------------------------------------

########################小**********结###############################

1,从打印的结果可以看出,这个数据集中没有缺失值,且每一列的数据特征都是一致的,故而不需要再额外做这些处理。

2,数据集中season, yr等有7列是int64类型,代表这些数据需要重新转换为独热编码格式,比如对于season中,1=春,2=夏,3=秋,4=冬,需要改成独热编码形成的稀疏矩阵。

#################################################################


2. 构建随机森林回归模型

在第一次尝试时,我没有对原始数据进行任何的特征分析,也没有对数据集进行修改,直接使用随机森林回归模型进行拟合,看看结果怎么样。

# 其次,构建随机森林回归器模型
from sklearn.ensemble import RandomForestRegressor 
rf_regressor=RandomForestRegressor()
# rf_regressor=RandomForestRegressor(n_estimators=1000,max_depth=10,min_samples_split=0.5)

rf_regressor.fit(train_set[:,:-1],train_set[:,-1]) # 训练模型

# 使用测试集来评价该回归模型
predict_test_y=rf_regressor.predict(test_set[:,:-1])

import sklearn.metrics as metrics
print('随机森林回归模型的评测结果----->>>')
print('均方误差MSE:{}'.format(
    round(metrics.mean_squared_error(predict_test_y,test_set[:,-1]),2)))
print('解释方差分:{}'.format(
    round(metrics.explained_variance_score(predict_test_y,test_set[:,-1]),2)))
print('R平方得分:{}'.format(
    round(metrics.r2_score(predict_test_y,test_set[:,-1]),2)))

-------------------------------------输---------出--------------------------------

随机森林回归模型的评测结果----->>>
均方误差MSE:291769.31
解释方差分:0.92
R平方得分:0.92

--------------------------------------------完-------------------------------------

然后采用(【火炉炼AI】机器学习006-用决策树回归器构建房价评估模型)的方式绘制相对重要性直方图,结果如下:

image

########################小**********结###############################

1,在没有对数据集进行任何处理的情况下,采用默认的随机森林回归器得到的模型在测试集上的MSE非常大,解释方差分和R2都是0.93,表明模拟的还可以。

2,从相对重要性图中可以看出,温度对共享单车的使用影响最大,这个可以理解,比如冬天太冷,夏天太热时,骑小黄车的人就显著减少。但图中显示年份(yr)是第二个重要因素,这个估计是因为年份只有2011和2012两年所致,要想得到更加可信的结果,还需要更多年份的数据。

#################################################################


注:本部分代码已经全部上传到(我的github)上,欢迎下载。

参考资料:

1, Python机器学习经典实例,Prateek Joshi著,陶俊杰,陈小莉译

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342