今天是读《python数据分析基础》的第18天,读书笔记的内容是使用pandas进行数据清洗以及探索
由于原始数据在某种程度上是“脏”的,原始数据并不能完全使用于分析。因此,需要为其进行清洗。而为了解数据的大致情况,则需要进行数据探索。
以下是进行简单的数据清洗以及探索的代码:
注:数据来源于https://github.com/cbrownley/foundations-for-analytics-with-python/tree/master/statistics/churn.csv
#数据探索
import pandas as pd
import numpy as np
#导入数据
inputCsv='文件路径'
churn=pd.read_csv(inputCsv)
#数据预处理:将表头的空格、引号以及问号去除,以及将大写字母转换为小写字母
#print(churn.columns)
churn.columns=churn.columns.str.replace(' ','_').str.replace('\'','').str.strip('?')
churn.columns=churn.columns.str.lower()
#将churn列中元素末尾的'.'去除
churn.churn=churn.churn.str.strip('.')
#将churn转换为01编码并创建新列churn01
churn['churn01']=np.where(churn.churn=='True',1,0)
print(churn.head())
#按制定类别变量state分组计算其他变量的均值、最大值、最小值
print(churn.groupby('churn')[['day_calls','eve_calls','night_calls']].agg(['count','mean','std']))
#按指定值分组计算,并计算不同变量各自的统计值
print(churn.groupby('churn').agg({'day_calls':['mean','max','min'],'eve_calls':['mean','max','min'],'night_calls':['mean','max','min'],'day_mins':['mean','std'],'eve_mins':['mean','std'],'night_mins':['mean','std']}))
#按特定连续型变量total_charge将数据分箱并计算各组的统计值
#生成total_charge变量
churn['total_charge']=churn['day_charge']+churn['eve_charge']+churn['night_charge']+churn['intl_charge']
#按记录数量分箱
cut_cat=pd.cut(churn.total_charge,5,precision=2)
qcut_cat=pd.qcut(churn.total_charge,[0,0.25,0.5,0.75,1])
#按cut_cat和qcut_cat分别分组计算total_chage的均值
print('cut',churn.groupby(cut_cat)[['total_charge']].agg(['mean']))
print('qcut',churn.groupby(qcut_cat)[['total_charge']].agg(['mean']))
#对变量intl_plan进行独热编码:将离散型变量转换为一组二值变量
dummies=pd.get_dummies(churn.intl_plan)