Day1 数据预处理

导入 numpy => 包含大量基础函数(数学矩阵多维数组)
导入 pandas => 基于numpy的数据分析处理库

import numpy as np
import pandas as pd

从csv读数据

dataset = pd.read_csv('Data.csv')

dataset 的数据结构叫 DataFrame 简单直观理解为csv表格下面的操作就是对表格行和列的操作
表格顶上那行叫标签最左边一列也可以有标签

Country	Age	Salary	Purchased
France	44.0	72000.0	No
Spain	27.0	48000.0	Yes
Germany	30.0	54000.0	No
Spain	38.0	61000.0	No
Germany	40.0	NaN	Yes
France	35.0	58000.0	Yes
Spain	NaN	52000.0	No
France	48.0	79000.0	Yes
Germany	50.0	83000.0	No
France	37.0	67000.0	Yes

这个例子是分析国家,年龄,收入(自变量) 和是否已购买(因变量) 关系

下面的操作是把表格分成了两份 X是前3列(自变量) Y是最后一列(因变量)
切片(冒号是切片 ) 简单理解为数组[从索引x(空就是0) : 切到索引y-1(例如y是3就切到2不包括3 空就是切到最后) ]
iloc逗号前面的切片是切行逗号后面的切片是切列 values是只要数据不要标签(label)

X = dataset.iloc[ : , : -1].values #0到max行(所有行)  的   0到-1索引列(不含-1  就是除了最后一列的所有列)
Y = dataset.iloc[ : , 3].values #所有行  的  索引为3的列

sklearn => 数据挖掘和数据分析工具

处理丢失数据
sklearn 工具包里的 Imputer 类 => 通过策略来补齐缺失数据(缺失数据处理器处理DataFrame)

from sklearn.impute import SimpleImputer

创建策略并补齐(只能处理数字所以指定了处理1-3索引列)
策略取平均值mean 中值(1-3-9 3是中)median 众值(出现频率最高的)most_frequent

imputer = SimpleImputer(np.nan, "mean")
X[ : , 1:3] = imputer.fit_transform(X[ : , 1:3])

把所有非数字的数据编码为数字 LabelEncoder 标签编码 OneHotEncoder 独热编码参考二

LabelEncoder 标签编码简单理解就是用0代表a 用1代表b 转换成数值

from sklearn.preprocessing import LabelEncoder
labelencoder_X = LabelEncoder()
X[ : , 0] = labelencoder_X.fit_transform(X[ : , 0])
labelencoder_Y = LabelEncoder()
Y = labelencoder_Y.fit_transform(Y)

OneHotEncoder 对数据进行独热编码简单理解就是把每一类属性编码然后拼接
如性别男,女编码为男:1,0 女:0,1 再举例男,女,人妖男1,0,0 女0,1,0 人妖0,0,1 其它属性类推然后拼接在一起

from sklearn.preprocessing import OneHotEncoder
onehotencoder = OneHotEncoder(categories='auto')
X = onehotencoder.fit_transform(X).toarray()

拆分数据集为训练集合和测试集合
train_test_split(样本特征集(国家,年龄,收入独热编码), 样本标签(是否已购买)), test_size(抽取多少条样本做测试 0.2->20%), random_state随机数种子)

from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=0)

特征量化
from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.fit_transform(X_test)

2019-10-25

2019-10-25

Day1 数据预处理

从csv读数据

相关阅读更多精彩内容

友情链接更多精彩内容