Matplotlib入门

Matplotlib是Python中用的最多的2D图形绘图库,学好Matplotlib的用法可以帮助我们在统计分析中更灵活的展示各种数据的状态。这是数据可视化必学的库,好好学吧。
其支持以下几种数据可视化方式



本文就基于这几种方式对Matplotlib进行讲解。

安装和启动

安装Matplotlib可以借助pip,如果在ipython中使用需要用 $ipython --matplotlib 命令启动。这里没啥好说的,过。

开始之前

先通过一个折线图的例子让大家大概了解一下Matplotlib的常见用法吧

In [1]: import matplotlib.pyplot as plt
In [2]: import pandas as pd
In [3]: import numpy as np
In [4]: df = pd.DataFrame(np.random.rand(10,2),columns=['A','B'])
In [5]: fig = df.plot(figsize=(8,4))  # plot函数生成原始绘画图,figsize设置窗口大小
In [6]: plt.title('Title')  # 设置绘图标题名称
In [7]: plt.xlabel('X axis')  # 设置X轴名称
In [8]: plt.ylabel('Y axis')  # 设置Y轴名称
In [9]: plt.legend(loc='upper right')  # 显示折线的名称标签,loc设置显示位置
In [10]: plt.xlim([0,12])  # 设置x轴的边界
In [11]: plt.ylim([0,1.5])  # 设置y轴的边界
In [12]: plt.xticks(range(10))  # 设置X轴的刻度
In [13]: plt.yticks(np.linspace(0,1.2,7))  # 设置Y轴的刻度
In [14]: fig.set_xticklabels('%.1f' %i for i in range(10))  # 设置X轴刻度上的标签
In [16]: fig.set_yticklabels('%.2f' %i for i in np.linspace(0,1.2,7))  # 设置Y轴刻度上的标签
# 注意这里X轴设置了边界范围是0-12,但是刻度只有0-9,刻度标签显示1位小数

现在图形是下面这样


图是这样的

以上这些简单操作会帮助你对Matplotlib有一个大概的认识,下面就可以开始学习正式的绘图工作了。

折线图

我们已经在上面简单画过一个折线图了,想要为折线图添加更丰富的样式?没问题

In [9]: from matplotlib import style
In [10]: style.use('ggplot')
In [11]: x = [5,8,10]
In [12]: y = [12,16,6]
In [13]: x1 = [6,9,11]
In [14]: y1 = [6,15,7]
In [15]: plt.plot(x,y,'g',label='line one',linewidth=5)  # 第三个参数指定颜色,第四个指定线的名称,第五个参数指定线宽
In [16]: plt.plot(x1,y1,'r',label='line two',linewidth=5)
In [17]: plt.title('Epic Info')
In [18]: plt.xlabel('X axis')
In [19]: plt.ylabel('Y axis')
In [20]: plt.legend() 
In [21]: plt.grid(True,color='k')  #开启显示背景网格线并设置颜色

这一步结束后图形变成了这样



这里可以看到没有借助其他函数,只是在plot函数里添加几个参数就让图形变得像那么回事了。其实想要修改图形的样式,主要是通过在plot函数中加入各种参数。

plot函数的参数其实有点多,这里只挑一些比较常用的说。具体如下:
plt.plot(kind='line', ax=None, figsize=None, use_index=True, title=None, grid=None, legend=False, style=None, logx=False, logy=False, loglog=False, xticks=None, yticks=None, xlim=None, ylim=None, rot=None, fontsize=None, colormap=None, table=False, yerr=None, xerr=None, label=None, secondary_y=False, **kwds)

series的index为横坐标
value为纵坐标
kind → line,bar,barh...(折线图,柱状图,柱状图-横...)
label → 图例标签,Dataframe格式以列名为label
style → 风格字符串,这里包括了linestyle(-),marker(.),color(g)
color → 颜色,有color指定时候,以color颜色为准
alpha → 透明度,0-1
use_index → 将索引用为刻度标签,默认为True
rot → 旋转刻度标签,0-360
grid → bool变量显示背景网格,一般直接用plt.grid函数
xlim,ylim → x,y轴界限
xticks,yticks → x,y轴刻度值
colormap → 指定颜色集
figsize → 图像大小
title → 图名
legend → 是否显示图例,一般直接用plt.legend()

动手能力强的同学可以自己试着修改参数来看看效果

In [22]: df = pd.DataFrame(np.random.randn(30, 4),columns=list('ABCD')).cumsum()
In [23]: draw = df.plot(style = '--.',alpha = 0.8,colormap = 'summer_r',grid=True)
In [24]: draw.text(20,5,'(20,5)',fontsize=12)  # 设置注释标签,参数依次为x轴坐标、y轴坐标、文本内容、字体大小

学会了这些,折线图的画法基本就能搞定了。

条形图

条形图常用于多项分段数据比较的图形化显示,下面来看看怎么用

In [27]: plt.bar([0.25,1.25,2.25,3.25,4.25],[50,40,70,80,20],label="BMW", color='b', width=.5)    # plt.bar就是打印直方图的函数,第一个参数指定每个柱子的起始,第二个参数是指定每个柱子的高度,第三个是名称标签,第四个指定颜色,第五个指定宽度
In [28]: plt.bar([.75,1.75,2.75,3.75,4.75],[80,20,20,50,60],label="Audi", color='r',width=.5)
In [29]: plt.legend()
In [30]: plt.xlabel('Day')
In [31]: plt.ylabel('Distance(kms)')
In [32]: plt.title('Information')

条形图的样式主要是在bar函数中设置,主要参数如下:
plt.bar(x,y,width,facecolor,left,align,xerr,yerr)
x,y参数:x,y值
width:宽度比例
facecolor:柱状图里填充的颜色、edgecolor是边框的颜色
left:每个柱x轴左边界
bottom:每个柱y轴下边界
align:决定整个bar图分布,默认left表示默认从左边界开始绘制,center会将图绘制在中间位置
xerr/yerr :x/y方向error bar

直方图

直方图与条形图基本类似,不过直方图通常用来对单个数据的单一属性进行描述,而不是用于比较

In [33]: population_age = [22,55,62,45,21,22,34,42,42,4,2,102,95,85,55,110,120,70,65,55,111,115,80,75,65,54,44,43,42,48]
In [34]: bins = [0,10,20,30,40,50,60,70,80,90,100]
In [35]: plt.hist(population_age, bins, histtype='bar', color='b', rwidth=0.8) 
In [36]: plt.hist(population_age, bins, histtype='bar', color='b', rwidth=0.8)
In [37]: plt.xlabel('age groups')
In [38]: plt.ylabel('Number of people')
In [39]: plt.title('Histogram')

直方图主要是借助hist函数实现,参数如下:
plt.hist(x, bins=10, range=None, normed=False, weights=None, cumulative=False, bottom=None, histtype='bar', align='mid', orientation='vertical',rwidth=None,
log=False, color=None, label=None, stacked=False, hold=None, data=None, **kwargs)
bins:箱子的宽度
normed 标准化
histtype 风格,bar,barstacked,step,stepfilled
orientation 水平还是垂直{‘horizontal’, ‘vertical’}
align : {‘left’, ‘mid’, ‘right’}, optional(对齐方式)
stacked:是否堆叠

散点图

在展示散列数据时通常会选择散点图,主要借助scatter函数,参数如下:
plt.scatter(x, y, s=20, c=None, marker='o', cmap=None, norm=None, vmin=None, vmax=None, alpha=None, linewidths=None,
verts=None, edgecolors=None, hold=None, data=None, **kwargs)
s:散点的大小
c:散点的颜色
vmin,vmax:亮度设置,标量
cmap:colormap

In [41]: x = [1,1.5,2,2.5,3,3.5,3.6]
In [42]: y = [7.5,8,8.5,9,9.5,10,10.5]
In [43]: x1=[8,8.5,9,9.5,10,10.5,11]
In [44]: y1=[3,3.5,3.7,4,4.5,5,5.2]
In [45]: plt.scatter(x,y,label='high income low saving', color='r')
In [46]: plt.scatter(x,y,label='high income low saving', color='r')
In [47]: plt.scatter(x1,y1,label='low income high savings',color='b')
In [48]: plt.xlabel('saving*100')
In [49]: plt.ylabel('income*1000')
In [50]: plt.title('Scatter Plot')
In [51]: plt.legend()
In [34]: plt.figure(figsize=(8,6))
In [35]: x = np.random.randn(1000)
In [36]: y = np.random.randn(1000)
In [37]: plt.scatter(x,y,marker='.',s=np.random.randn(1000)*100,cmap='Reds_r',c=y,alpha=0.5)

面积图

面积图和折线图较为类似,用于跟踪构成一个整体类别的两个或多个相关组的随时间推移所发生的比例变化。

In [53]: days = [1,2,3,4,5]
In [54]: sleeping =[7,8,6,11,7]
In [55]: eating = [2,3,4,3,2]
In [56]: working =[7,8,7,2,2]
In [57]: playing = [8,5,7,8,13]
In [58]: plt.plot([],[],color='m', label='Sleeping', linewidth=5)
In [60]: plt.plot([],[],color='c', label='Eating', linewidth=5)
In [61]: plt.plot([],[],color='r', label='Working', linewidth=5)
In [62]: plt.plot([],[],color='k', label='Playing', linewidth=5)
In [63]: plt.stackplot(days, sleeping,eating,working,playing, colors=['m','c','r','k'])
In [63]: plt.xlabel('x')
In [65]: plt.ylabel('y')
In [66]: plt.title('Stack Plot')
In [67]: plt.legend()

stacked参数指定是否堆叠,默认情况下区域图被堆叠。为了产生堆积面积图,每列必须是正值或全部为负值。

In [145]: fig,axes = plt.subplots(2,1,figsize=(8,6))
In [146]: df1 = pd.DataFrame(np.random.rand(10,4),columns=['a','b','c','d'])
In [147]: df2 = pd.DataFrame(np.random.randn(10,4),columns=['a','b','c','d'])
In [148]: df1.plot.area(colormap='Greens_r',alpha=0.5,ax=axes[0])
In [149]: df2.plot.area(stacked=False,colormap='Set2',alpha=0.5,ax=axes[1])

除了直接画面积图之外,还可以对函数图进行填充。

In [150]: fig,axes = plt.subplots(2,1,figsize=(8,6))
In [151]: x = np.linspace(0,1,500)
In [152]: y1 = np.sin(4*np.pi*x)*np.exp(-5*x)
In [153]: y2 = -np.sin(4*np.pi*x)*np.exp(-5*x)
In [155]: axes[0].fill(x,y1,'r',alpha=0.5,label='y1')  # 将函数线与x轴之间的部分填充颜色
In [156]: axes[0].fill(x,y2,'g',alpha=0.5,label='y2')
In [157]: x = np.linspace(0,5*np.pi,1000)
In [158]: y1 = np.sin(x)
In [159]: y2 = np.sin(2*x)
In [160]: axes[1].fill_between(x,y1,y2,color='b',alpha=0.5,label='area')  # 次函数可以将两条函数线中间的部分填充满颜色
In [161]: for i in range(2):
     ...:     axes[i].legend()
     ...:     axes[i].grid()

饼状图

饼状图又叫扇形图,能清晰表达各个对象在整体中所占百分比

In [68]: days = [1,2,3,4,5]
In [69]: sleeping =[7,8,6,11,7]
In [70]: eating = [2,3,4,3,2]
In [71]: working =[7,8,7,2,2]
In [72]: playing = [8,5,7,8,13]
In [73]: slices = [7,2,2,13]
In [74]: activities = ['sleeping','eating','working','playing']
In [75]: cols = ['c','m','r','b']
In [76]: plt.pie(slices,
    ...:   labels=activities,
    ...:   colors=cols,
    ...:   startangle=90,
    ...:   shadow= True,
    ...:   explode=(0,0.1,0,0),
    ...:   autopct='%1.1f%%')
    ...:
In [77]: plt.title('Pie Plot')

饼图只要使用的是pie函数,常用参数如下:
plt.pie(x, explode=None, labels=None, colors=None, autopct=None, pctdistance=0.6, shadow=False, labeldistance=1.1, startangle=None, radius=None, counterclock=True, wedgeprops=None, textprops=None, center=(0, 0), frame=False, hold=None, data=None)
x:数据
explode:指定每部分的偏移量
labels:标签
colors:颜色
autopct:饼图上的数据标签显示方式
pctdistance:每个饼切片的中心和通过autopct生成的文本开始之间的比例
labeldistance:被画饼标记的直径,默认值:1.1
shadow:阴影
startangle:开始角度
radius:半径
frame:图框
counterclock:指定指针方向,顺时针或者逆时针

子图绘制

在一些场景中我们不希望把每个图一个一个单独显示在窗口中,而是合并到一个窗口显示,那么子图绘制功能就可以派上用场了。

子图绘制功能主要涉及到两个函数的使用:
plt.figure(num=None, figsize=None, dpi=None, facecolor=None, edgecolor=None, frameon=True, FigureClass=<class 'matplotlib.figure.Figure'>,clear, **kwargs)
这些参数的作用依次是 图形编号、图形尺寸、每英寸像素点、背景色、边界色、允许绘制画图框、使用自定义图实例、不清理该图

plt.subplots(nrows=1, ncols=1, sharex=False, sharey=False, squeeze=True, subplot_kw=None, gridspec_kw=None, **fig_kw)[source]
参数从左到右依次是 子图网格的行数、子图网格的列数、x轴在所有子图中属性共享的等级、y轴在所有子图中属性共享的等级、是否进行挤压操作、用字典的关键字创建每个子图、用字典的关键字创建子图放在网格里。

子图绘制主要分两种方法,先构建子图再填充到图表或者直接构建图表后操作子图
先构建子图然后填充图表

In [4]: fig1 = plt.figure(num=1,figsize=(8,6))
In [5]: plt.plot(np.random.rand(50).cumsum(),'k--')
In [6]: fig2 = plt.figure(num=2,figsize=(8,6))
In [7]: plt.plot(50-np.random.rand(50).cumsum(),'k--')
In [8]: fig = plt.figure(figsize=(10,6),facecolor='gray')
In [9]: ax1 = fig.add_subplot(2,2,1)
In [10]: plt.plot(np.random.rand(50).cumsum(),'k--')
In [11]: plt.plot(np.random.rand(50).cumsum(),'b--')
In [12]: ax2 = fig.add_subplot(2,2,2)
In [13]: ax2.hist(np.random.rand(50),alpha=0.5)
In [14]: ax4 = fig.add_subplot(2,2,4)
In [15]: df2 = pd.DataFrame(np.random.rand(10,4),columns=['a','b','c','d'])
In [16]: ax4.plot(df2,alpha=0.5,linestyle='--',marker='.')

使用subplots创建图表后修改子图

In [30]: fig,axes = plt.subplots(2,3,figsize=(10,4))
In [31]: ts = pd.Series(np.random.randn(1000).cumsum())
In [32]: print(axes,axes.shape,type(axes))
[[<matplotlib.axes._subplots.AxesSubplot object at 0x0000027770EB89E8>
  <matplotlib.axes._subplots.AxesSubplot object at 0x0000027773A846D8>
  <matplotlib.axes._subplots.AxesSubplot object at 0x0000027778B754E0>]
 [<matplotlib.axes._subplots.AxesSubplot object at 0x00000277735ED588>
  <matplotlib.axes._subplots.AxesSubplot object at 0x0000027773605668>
  <matplotlib.axes._subplots.AxesSubplot object at 0x0000027778BBA4E0>]] (2, 3) <class 'numpy.ndarray'>
In [33]: ax1 = axes[0,1]
In [34]: ax1.plot(ts)
In [110]: fig,axes = plt.subplots(2,2,sharex=True,sharey=True)
In [111]: for i in range(2):
     ...:     for j in range(2):
     ...:         axes[i,j].hist(np.random.randn(500),color='k',alpha=0.5)
     ...:
In [112]: plt.subplots_adjust(wspace=0,hspace=0)
# wspace和hspace用于控制subplot之间的的间距

盒图

最后补充一个盒图,这也是度量数据分散情况比较常用的图。盒图可以展示出一组数据的最大值、最小值、上四分位数、下四分位数、异常值这些信息。

In [40]: fig,axes = plt.subplots(2,1,figsize=(10,6))
In [41]: df = pd.DataFrame(np.random.rand(10,5),columns=['A','B','C','D','E'])
In [42]: color = dict(boxes='DarkGreen',whiskers='DarkOrange',medians='DarkBlue',caps='Gr
    ...: ay')
# 箱型图着色
# boxes → 箱线
# whiskers → 分位数与error bar横线之间竖线的颜色
# medians → 中位数线颜色
# caps → error bar横线颜色
In [43]: df.plot.box(ylim=[0,1.2],grid=True,color=color,ax=axes[0])
In [44]: df.plot.box(vert=False,positions=[1,4,5,6,8],ax=axes[1],grid=True,color=color)
# vert:是否垂直,默认True
# position:箱型图占位
In [45]: df = pd.DataFrame(np.random.rand(10, 5), columns=['A', 'B', 'C', 'D', 'E'])
In [46]: plt.figure(figsize=(10,4))
In [47]: f = df.boxplot(sym = 'o',  # 异常点形状,参考marker
    ...:                vert = True,  # 是否垂直
    ...:                whis = 1.5,  # IQR,默认1.5,也可以设置区间比如[5,95],代表
    ...: 强制上下边缘为数据95%和5%位置
    ...:                patch_artist = True,  # 上下四分位框内是否填充,True为填充
    ...:                meanline = False,showmeans=True,  # 是否有均值线及其形状
    ...:                showbox = True,  # 是否显示箱线
    ...:                showcaps = True,  # 是否显示边缘线
    ...:                showfliers = True,  # 是否显示异常值
    ...:                notch = False,  # 中间箱体是否缺口
    ...:                return_type='dict'  # 返回类型为字典
    ...:               )
In [48]: plt.title('boxplot')
In [49]: for box in f['boxes']:
    ...:     box.set( color='b', linewidth=1)        # 箱体边框颜色
    ...:     box.set( facecolor = 'b' ,alpha=0.5)    # 箱体内部填充颜色
In [52]: for whisker in f['whiskers']:
    ...:     whisker.set(color='k',linewidth=0.5,linestyle='-')
In [53]: for cap in f['caps']:
    ...:     cap.set(color='gray',linewidth=2)
In [55]: for median in f['medians']:
    ...:     median.set(color='DarkBlue',linewidth=2)
In [56]: for flier in f['fliers']:
    ...:     flier.set(marker='o',color='y',alpha=0.5)
# boxes, 箱线
# medians, 中位值的横线,
# whiskers, 从box到error bar之间的竖线.
# fliers, 异常值
# caps, error bar横线
# means, 均值的横线,
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,417评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,921评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,850评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,945评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,069评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,188评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,239评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,994评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,409评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,735评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,898评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,578评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,205评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,916评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,156评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,722评论 2 363
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,781评论 2 351

推荐阅读更多精彩内容

  • Matplotlib 入门教程 来源:Introduction to Matplotlib and basic l...
    布客飞龙阅读 31,786评论 5 162
  • 标题中的英文首字母大写比较规范,但在python实际使用中均为小写。2018年7月30日笔记作者的集成开发环境是j...
    潇洒坤阅读 841评论 0 7
  • 一、概述 深度学习的一个重要手段是训练数据和训练过程的可视化,因此,我们关于深度学习的系列介绍文章就从Matplo...
    aoqingy阅读 6,145评论 0 24
  • 这篇笔记主要来自《利用python进行数据分析》的第八章第一节,对matplotlib的基本使用介绍的特别清晰。关...
    ydlstartx阅读 952评论 0 2
  • 我希望 有露,有雾 有朝朝暮暮。 有升腾,有交叠 有世世生生。 有终身许,有长相思, 有轮回不息。
    向阳而生c阅读 241评论 0 0