数据预处理

import numpy as np
from sklearn.preprocessing import MinMaxScaler,StandardScaler
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import Imputer

data = np.random.randint(0,100,(10,5))

归一化:

#归一化
res = np.zeros(data.shape)
for i in range(data.shape[-1]):
    min_ = data[:,i].min()
    max_ = data[:,i].max()
    res[:,i] = (data[:,i] - min_)/(max_ - min_)
res
mms = MinMaxScaler()
res2 = mms.fit_transform(data)

标准化:

#标准化,去中心化
res = np.zeros(data.shape)
for i in range(data.shape[-1]):
    mean_ = data[:,i].mean()
    std_ = data[:,i].std()
    res[:,i] = (data[:,i] - mean_)/std_
ss = StandardScaler()
res2 = ss.fit_transform(data)

缺失值填充:

#缺失值填充
iris = sns.load_dataset('iris')
iris.iloc[1,1] = np.nan
iris.iloc[2,2] = np.nan

im = Imputer(strategy='most_frequent',axis=0)
im.fit_transform(iris.iloc[:,:-1])
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 机器学习里有一句名言:数据和特征决定了机器学习的上限,而模型和算法的应用只是让我们逼近这个上限。这个说法形象且深刻...
    3b899188980c阅读 3,297评论 0 3
  • 数据形式 数据读取 数据预处理 数据收集及读取 很多人认为数据分析就是将数据可视化或者对数据趋势做出预测,其实是不...
    Clemente阅读 2,178评论 0 5
  • 数据预处理一方面提高数据的质量,另一方面是要让数据更好的适应特定的挖掘工具。统计发现,在数据挖掘过程中,数据预处理...
    熊定坤阅读 4,790评论 0 4
  • 一. 数据审核 概念: 数据审核就是检查数据中是否有错误,主要可以分为两类审核,第一类是对一手   数据的审核,第...
    Blsawn阅读 3,026评论 0 0
  • 今天的语文课来了几名同学的家长。 今天的语文课听写了,其实每天都听写。马书记和刘校长也来了。回答每个问题...
    蘑菇卿_5ca9阅读 155评论 0 0