利用Python处理Excel数据

读取数据

import pandas as pd
import numpy as np
from datetime import datetime
from pandas import Series, DataFrame

读取x.xlsx文件

df = pd.read_excel('E:/工作文件/周报/周数据/测试/0902-0908/an-商品汇总-uv.xls')

df = pd.read_excel(r'E:\工作文件\周报\周数据\测试\0902-0908\an-商品汇总-uv.xls')

读取文件夹

import os

file_list_june = os.listdir(r'C:\Users\省资源位数据\孔-数据源合并')

读取txt文件

df = pd.read_table(r'C:\Users\Administrator\Desktop\haha.txt')

with open(r'C:\Users\Administrator\Desktop\haha.txt', 'r') as f:
    df = f.readlines() 

df = np.loadtxt(r'C:\Users\Administrator\Desktop\haha.txt')  # 将txt文件存为numpy数组

读取csv格式Excel表

df = pd.read_csv('E:/工作文件/周报/周数据/测试/0902-0908/an-商品汇总-uv.xls')

df = pd.read_csv(r'E:\工作文件\周报\周数据\测试\0902-0908\an-商品汇总-uv.xls')

写入excel

data.to_excel('C:/Users/Administrator/Desktop/'+'商品分类.xlsx')

data.to_excel(r'C:\Users\Administrator\Desktop\\'+'商品分类.xlsx')

data.to_excel(r'C:\Users\Administrator\Desktop/'+'商品分类.xlsx')

显示数据

显示数据的行与列数

df.shape

(24247, 17)
有24247行,17列数据

查看数据格式dtpyes

df.dtypes

显示列名

df.columns
列名

添加默认列名

如果数据没有标题行,可用pandas添加默认的列名

df = pd.read_excel('x.xlsx', header = None) 

显示前数据前5行

df.head(5)

显示数据后5行

df.tail(5)

显示数据唯一值(unique函数)

df['经纪人级别'].unique()
经纪人级别

级别为0 是因为对数据缺失值进行了填充

对第几行数据不读取

不读取哪里数据,可用skiprows=[i],跳过文件的第i行不读取

# 没有读取第2行
df = pd.read_excel('x.xlsx',skiprows=[2] ) 

对缺失值进行识别

# 所有缺失值显示为True
# df.isnull()
pd.insull(df)
显示缺失值


数据清洗

处理空值

删除空值 (dropna函数)

df.dropna(how='any')

填充空值(fillna函数)

# 空值用0填充
df.fillna(value=0)

用均值对空值进行填充

 # 利用经纪人响应时长的均值对缺失值进行填充
df['经纪人响应时长'].fillna(df['经纪人响应时长'].mean())

更改数据格式

通过dtypes函数显示大区的数据格式为int64,现在改成float格式

df['大区'].astype('float64')
float64

更改列名称

df.rename(columns={'IM渠道': '渠道'})

删除重复值 (drop_duplicates()函数)

第一次出现的保留,其余删除

#使用默认第一次出现的被保留,后面出现的被删除
 df['门店'].drop_duplicates()

最后一次出现的保留,其余删除

df['门店'].drop_duplicates(keep = 'last')

对列表内的值进行替换(replace函数)

df['客户UCID'].replace('10531975', '110')


数据预处理

对数据进行排序

df.sort_values(by=['客户当天发送消息数'])

数据分组——excel中的数据透视表

** 对客户聊天记录进行分组 **

#如果price列的值>3000,group列显示high,否则显示low
df['group'] = np.where(df['客户当天发送消息数'] > 5,'high','low')
df

分组

** 对符合多个条件进行分组**

# 符合经纪人级别为A1且经纪人响应时长>24的在sign列显示为1
df.loc[(df['经纪人级别'] == 'A1') & (df['经纪人响应时长']>= 24.0), 'sign']=1
df
符合多个条件

数据分列

pd.DataFrame((x.split('网') for x in df['客户注册渠道']),
                index=df.index,columns=['客户注册渠道','size'])
分列


数据提取

按标签提取

  • loc函数
df.loc[0:3]
提取0-3行的数据

按日期进行提取

# 重新设置索引
df.reset_index()
#设置日期为索引
df=df.set_index('日期')
#提取2016年11月2号的数据
df['2016-11-02' : '2016-11-02']

按位置进行提取(iloc函数)

  • 按区域提取
df.iloc[:4, :5]
  • 按位置提取
#[0, 2, 5] 代表指定的行,[ 4, 5 ] 代表指定的列
df.iloc[[0,2,5],[4,5]]

按标签和位置提取 ix

# 行按日期排列,列按位置设置
df.ix['2016-11-03':'2016-11-03',4:6]
标签和位置

按条件提取(loc与isin函数)

  • 用isin函数进行判断
# 判断经纪人级别是否为A3
df['经纪人级别'].isin(['A3'])
判断
  • 先判断结果,将结果为True的提取
#先判断经纪人级别列里是否包含A3和M4,然后将复合条件的数据提取出来。
df.loc[df['经纪人级别'].isin(['A3','M4'])]
提取

从合并的数据中提出指定的数值

# 提取链家网三个字
data = df['客户注册渠道']
pd.DataFrame(data.str[:3])
提取指定数值


数据筛选

按条件筛选

符合多个条件,并显示指定条件(与)

#级别为M4,发送消息数大于110
df.loc[(df['经纪人当天发送消息数'] > 110) & (df['经纪人级别'] == 'M4'), 
             ['经纪人响应时长','是否5分钟内响应','经纪人系统号']]
级别为M4,发送消息大于110

符合多个条件中的一个

#发送消息数大于400或响应时长大于60000
df.loc[(df['经纪人当天发送消息数'] > 400) | (df['经纪人响应时长'] > 60000.0), 
           ['经纪人响应时长','经纪人系统号']].sort(['经纪人响应时长'])
#筛选完可直接求和
 df.loc[(df['经纪人当天发送消息数'] > 400) | (df['经纪人响应时长'] > 60000.0),
             ['经纪人响应时长','经纪人系统号']].sort(['经纪人响应时长']).经纪人响应时长.sum()
  • 不等于
df.loc[(df['经纪人当天发送消息数']!= 200) & (df['经纪人级别'] == 'A4'),
              ['经纪人响应时长','经纪人系统号']].sort(['经纪人响应时长'])
# count() 算总数
df.loc[(df['经纪人当天发送消息数']!= 200) & (df['经纪人级别'] == 'A4'),
               ['经纪人响应时长','经纪人系统号']].sort(['经纪人响应时长']).经纪人系统号.count()

使用query函数

df.query('经纪人级别 == ["A4", "M4"]')
A4或M4


数据汇总

分类汇总groupby

对所有列进行分类汇总

df.groupby('经纪人级别').count()
经纪人级别

对特定列进行汇总

df.groupby('经纪人级别')['经纪人响应时长'].count()
对响应时长列进行汇总

增加分类条件

df.groupby(['经纪人级别','经纪人是否回复'])['经纪人响应时长'].count()
数据不准确,因为进行了筛选填充

进行分组并进行算数运算

# 对经纪人响应时长进行分类汇总,并计算均值
df.groupby('经纪人级别')['经纪人响应时长'].agg([ np.mean])
分类,均值

数据透视

pd.pivot_table(df,index=["经纪人当天发送消息数"],values=["经纪人响应时长"],
            columns=["经纪人级别"],aggfunc[len,np.sum],fill_value=0,margins=True)


数据统计

数据采样

简单随机抽取sample

df.sample(n=3)
随机抽取3行

设置采样权重

需要对每一行进行权重设置,列表行数少可行,过多不可行
假设有4行数据,设置采样权重

weights = [0, 0, 0.5, 0.5]
df.sample(n=4, weights=weights)

确定采样后是否放回

# 采样后放回,True
df.sample(n=6, replace=True)

描述统计 describe函数

自动生成数据的数量,均值,标准差等数据

#round(2),显示小数点后面2位数,T转置
df.describe().round(2).T
描述统计

标准差std()

df['经纪人响应时长'].std()

协方差cov

#计算两个字段之间的协方差
df['经纪人当天发送消息数'].cov(df['客户当天发送消息数'])

相关性分析corr

相关系数在-1到1之间,接近1为正相关,接近-1为负相关,0为不相关

df['客户当天发送消息数'].corr(df['经纪人当天发送消息数'])

参考书籍:
《利用pythonj进行数据分析》
《从Excel到Python——数据分析进阶指南》

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容