csv文件中有中文,因此要导入pylab库,使用中文字体
需要导入的库有:
>>> import pandas as pd
>>> import matplotlib.pyplot as plt
>>> import matplotlib.dates as mdate
>>> import pylab as mpl #导入中文字体,避免显示乱码
设置中文字体
mpl.rcParams['font.sans-serif']=['SimHei'] #设置为黑体字
使用pandas的read_csv方法读取csv文件
#需要用到read_csv方法中的parse_dates参数和date_parser参数
>>> dateparse = lambda dates:pd.datetime.strptime(dates,'%Y-%m-%d')
>>> data = pd.read_csv('C:\python\pandas\part.csv',encoding='utf-8',parse_dates=['受理日期'],date_parser=dateparse)
读取的数据如下所示
#显示前5行(总共有7000+行数据)
>>> data.head()
受理日期 区局 状态
2016-10-18 南区 拆机
2016-10-19 莘闵 拆机
2016-10-20 嘉定 拆机
2016-10-20 北区 已完成
2016-10-20 莘闵 拆机
我需要统计每天的发展数量,原数据中,某一天往往不只一条数据,因此这里先用pandas的pivot_table做一个数据透视表分析
#数据透视表,需要对受理日期进行聚合,并对‘区局’列计数,计数使用的函数是aggfunc='count'
>>> table = pd.pivot_table(data,index=['受理日期'],values=['区局'],aggfunc='count')
>>> table.head(20) #看一下table的前20行数据是否正常
区局
受理日期
2016-10-18 4
2016-10-19 1
2016-10-20 3
2016-10-21 2
2016-10-24 5
2016-10-25 3
2016-10-26 2
2016-10-27 13
2016-10-28 10
2016-10-30 1
2016-10-31 6
2016-11-01 6
2016-11-02 6
2016-11-03 12
2016-11-04 7
2016-11-07 15
2016-11-08 22
2016-11-09 15
2016-11-10 18
2016-11-11 15
检测一下table的index是否为时间序列格式(就是看一下返回的是否为DatetimeIndex)
>>> table.index
DatetimeIndex(['2016-10-18', '2016-10-19', '2016-10-20', '2016-10-21',
'2016-10-24', '2016-10-25', '2016-10-26', '2016-10-27',
'2016-10-28', '2016-10-30',
...
'2017-12-20', '2017-12-21', '2017-12-22', '2017-12-23',
'2017-12-25', '2017-12-26', '2017-12-27', '2017-12-28',
'2017-12-29', '2017-12-31'],
dtype='datetime64[ns]', name='受理日期', length=351, freq=None)
好了,数据检测没有问题,开始画图
#生成figure对象
>>> fig = plt.figure()
#生成axis对象
>>> ax = fig.add_subplot(111) #本案例的figure中只包含一个图表
#设置x轴为时间格式,这句非常重要,否则x轴显示的将是类似于‘736268’这样的转码后的数字格式
>>> ax.xaxis.set_major_formatter(mdate.DateFormatter('%Y-%m-%d'))
最后一步,画图,x轴日期间隔显示,每月只显示一个刻度
#设置x轴坐标值和标签旋转45°的显示方式
>>>plt.xticks(pd.date_range(table.index[0],table.index[-1],freq='M'),rotation=45)
#x轴为table.index,也就是‘受理日期’,y轴为数量,颜色设置为红色
>>> ax.plot(table.index,table['区局'],color='r')
>>> plt.show()
效果如下图所示