机器学习——线性回归波士顿房价代码理解(一)

写在前面:关于理论部分,在看完了周志华老师的书之后仍然是一知半解,看着能懂,但是要自己说又说不上来,动手能力也不够,所以后面几天先写点代码理解,最后整合理论部分以及公式理解。代码理解部分会穿插公式理解与理论知识,不会仅限于代码。

摘要:关于简书 - 写文章 (jianshu.com)的代码理解

参考:

(1)《机器学习》周志华著,清华大学出版社

(2)《Hands-On Machine Learning with Scikit-Learn and TensorFlow》by Aurélien Géron

(3)数据集的分割:https://developer.aliyun.com/article/672642

(4)数据归一化:https://blog.csdn.net/GentleCP/article/details/109333753

(5)模型评估r2_score:https://blog.csdn.net/qq_38890412/article/details/109565970

(6)LinearRegression解析:https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html

(7)matplotlib rc配置:https://blog.csdn.net/weixin_39010770/article/details/88200298

(8)matplotlib.pyplot.plot详解:https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.plot.html#matplotlib.pyplot.plot

1.机器学习过程

(1)Look at the big picture

(2)Get the data

(3)Discover and visualize the data to gain insights

(4)Prepared data for Machine Learning algorithms

(5)Select a model and train it

(6)Fine-tune ur model

(7)Present ur solution

(8)Launch, monitor and maintain ur system

2.明确需求

分析研究波士顿房价并对其进行预测。

3.获取数据集

3.1数据集介绍

CRIM: 城镇人均犯罪率

ZN: 住宅用地所占比例

INDUS: 城镇中非住宅用地所占比例

CHAS: 虚拟变量,用于回归分析

NOX: 环保指数

RM: 每栋住宅的房间数

AGE: 1940 年以前建成的自住单位的比例

DIS: 距离 5 个波士顿的就业中心的加权距离

RAD: 距离高速公路的便利指数

TAX: 每一万美元的不动产税率

PTRATIO: 城镇中的教师学生比例

B: 城镇中的黑人比例

LSTAT: 地区中有多少房东属于低收入人群

3.2数据来源

波士顿房价经典数据集,我们从sklearn自带的包datasets中获取数据集。对于datasets,内置了很多可供与学习的小型数据集,关于其具体操作,可以参考API Reference — scikit-learn 0.24.2 documentation,这里不在一一列举。

3.3代码

from sklearn import datasets

boston = datasets.load_boston()

3.3后续

这里获取的boston不可以直接使用,输出后可以看到

boston1


boston2

其输出值是一个大的字典,我们需要的内容需要从其中按键进行访问,使用pandas包将数据导入成DataFrame。

import pandas as pd

data = pd.DataFrame(boston.data, columns=boston.feature_names)

data['Price'] = boston.target

查看输出:

data数据输出

注:boston里的data即包含了所有的数据,但是这些数据是没有“标记”的,我们需要做的是一个线性回归模型,属于有监督学习,这里把boston里的target作为标记加入到最后的data中,这样得到了包含标记的506个数据,用于之后的学习。(当然也可以直接把boston.data作为x,boston.target作为y去划分训练集与测试集,但现实取得的数据不会有这么好的划分,一般得到是类似data这样的数据,x与y(属性与标记)需要我们自己去划分)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容