Python数据分析学习笔记(一):安装分析包以及数据基础处理

#安装各种数据分析库(本人使用mac系统,2.7版本python)

#在terminal中使用pip install 完成各种包的安装

sudo pip install numpy

sudo pip install scipy

sudo pip install matplotlib

sudo pip install scikit-learn

引入包文件

import math

import pandas as pd

import numpy as np

import scipy

import matplotlib

import sklearn

#读取csv文件

data=pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data',names=column_names)

#将?替换成标准缺失值表示

data=data.replace(to_replace='?',value=np.nan)

#丢弃带有缺失值的数据(只要有一个维度缺失)

data=data.dropna(how='any')

#将原始数据分割为25%测试集,75%训练集

from  sklearn.cross_validation import train_test_split

X_train,X_test,y_train,y_test=train_test_split(data[column_names[1:10]],data[column_names[10]],test_size = 0.25,random_state=33)

#查验训练样本的数量和类别分布

print y_train.value_counts()

print y_test.value_counts()

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容