《Python与机器学习实战》——第一章

第一章主要是个导论,在里面介绍了个简单的利用机器学习预测房价的栗子:

数据预处理

  • 导入相关的模块和包,主要是numpy、pandas和matplotlib.pyplot。
  • 获取到两列关键的数据:size和price
  • 将size标准化处理
  • 标准化处理数学公式:
    X = \frac{X - \bar X}{std(X)}
  • 做出size和price的散点图
# 导入相关的库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 定义两个列表用来存储输入数据和输出数据y
x, y = [], []

# 通过pandas分别获取两个列属性
df = pd.read_csv("price.csv", encoding="gbk")
x_size = df["size"]
y_price = df["price"]

# 利用zip函数
for  _x, _y in zip(x_size, y_price):
    x.append(_x)
    y.append(_y)

# for _x in x_size:
#     x.append(_x)
# for _y in y_price:
#     y.append(_y)

# 读取完后保存为Numpy的一维数组
x, y = np.array(x), np.array(y)
# 由于数据的值比较大,进行数据的标准化处理
x = (x - x.mean()) / x.std()

# 通过散点图绘制
plt.figure()
plt.scatter(x, y, c="r", s=50)
plt.show()
image.png

选择和训练模型

在对数据进行了预处理之后,需要选择相应的学习方法和训练模型,本栗子中通过线性回归多项式来进行拟合,主要工作是编写模型函数

  • 模型的数学表达式:

f(x|p;n) = p_0x^n + p_1x^{n-1} + ... + p_n

  • p,n是 模型的参数;p是多项式的系数;n是多项式的次数
  • 损失函数采用常见的是平方损失(欧式距离或向量的二范数);损失函数为:
    L(p;n) = \frac{1}{2}\sum_{i=1}^m[f(x|p;n)-y]^2
  • 训练的过程就是正则化某个损失函数L的过程,使得损失函数L最小;有名的正规方程效果最好。
# 构造训练函数

# 区间作为作图的基础
x0 = np.linspace(-2, 2, 500)

# 参数n代表模型函数中的多项式次数
# 返回的模型能够根据输入的x,输出相对应的y
def get_model(n):
    return lambda input_x=x0: np.polyval(np.polyfit(x, y, n), input_x)
  • 其中polyfit函数返回的就是使得损失函数L最小的参数p,即多项式的系数p
  • 该函数polyfit就是模型F的训练函数
  • polyval(p,x):根据多项式的xp,返回多项式的值y

评估与可视化结果

模型建立好之后,需要通过尝试各种参数下判断模型的好坏,选择n=1,5,10

  • 主要工作是编写损失函数
  • 训练的目的:最小化损失函数
  • 损失函数L来衡量模型的好坏
# 用损失函数衡量模型的好坏

# 根据输入的参数和x\y返回对应的损失函数
def get_cost(n, input_x, input_y):
    return 0.5 * ((get_model(n)(input_x) - input_y) ** 2).sum()   # 返回的就是损失函数L

test_set  = [1, 5, 10]
# 绘制散点图
plt.scatter(x, y, c="g", s=20)  
for d in test_set:
    plt.plot(x0, get_model(d)(), label="deggree = {}".format(d))
    # print(get_cost(d, x, y))

# 限制x,y的范围
plt.xlim(-2, 4)
plt.ylim(1e5, 6e5)

# 图例和显示 
plt.legend()
plt.show()
image.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 221,135评论 6 514
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,317评论 3 397
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 167,596评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,481评论 1 296
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,492评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,153评论 1 309
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,737评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,657评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,193评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,276评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,420评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,093评论 5 349
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,783评论 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,262评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,390评论 1 271
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,787评论 3 376
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,427评论 2 359

推荐阅读更多精彩内容