机器学习

SFrame

sf = graphlab.SFrame('a.csv')
sf.head() ---- ##把表格显示在notebook中
sf.show() ---- ##统计显示在某一个链接中
graphlab.canvas.set_target('ipynb') ---- ##不在链接中显示内容,而是在notebook中
sf['Full Name']=sf['First Name']+' '+sf['Last name'] ---##增加新的一列
sf['Country'].apply(transform_country) ---把一个函数应用到这个表格中

回归

linear regression

RSS(Residual sum of squares)最小平方和
线性回归包括用二次函数的回归

训练集
测试集
训练损失

sales= graphlab.SFrame('home_data.gl/')
graphlab.canvas.set_target('ipynb')
sales.show(view="Scatter Plot" ,      x="sqrt_living",y="price")
import graphlab
sales = graphlab.SFrame('home_data.gl/')
graphlab.canvas.set_target('ipynb')
sales.show(view="Scatter Plot", x="sqft_living",    y="price")
train_data,test_data = sales.random_split(.8,seed=0)
sqft_model = graphlab.linear_regression.create(train_data, target='price', features=['sqft_living'],validation_set=None)
import matplotlib.pyplot as plt
%matplotlib inline
plt.plot(test_data['sqft_living'],test_data['price'],'.',
    test_data['sqft_living'],sqft_model.predict(test_data),'-')
sqft_model.get('coefficients')

是这样的:
1、导进来数据

import graphlab
sales = graphlab.SFrame('home_data.gl/')
graphlab.canvas.set_target('ipynb')

2、分配训练数据和测试数据

train_data,test_data = sales.random_split(.8,seed=0)

3、建立回归模型

sqft_model = graphlab.linear_regression.create(train_data, target='price', features=['sqft_living'],validation_set=None)

4、显示结果

import matplotlib.pyplot as plt
%matplotlib inline
plt.plot(test_data['sqft_living'],test_data['price'],'.',
    test_data['sqft_living'],sqft_model.predict(test_data),'-')
sqft_model.get('coefficients')

5、测试数据

print my_features_model.evaluate(test_data)

分类

分类介绍
线性分类:影响分类的决定因素分配权值,然后根据权重分类
决策边界:分类中的边界线
分类结果评估
误差率:错误个数/总个数
混淆矩阵:分类的类别列一个矩阵

学习曲线
数据越多正常情况下越好

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容