《利用Python进行数据分析》 9.2 使用pandas和seaborn绘图

9.2.2 柱状图


1.plot.bar()和plot.barh()分别用来绘制垂直和水平的柱状图


2.Series或DataFrame的索引被用作x轴刻度线(bar)或y轴刻度线(barh)(参考图9-15)


图9-15:水平柱状图和垂直柱状图

3.选项color='k'将柱子颜色设置为黑色;alpha将图像的填充设置为部分透明


图9-16 Dataframe柱状图

4.在DataFrame柱状图中(参考图9-16),

               (1)每一行中的值分组到并排的柱子中的一组

               (2)列名称“Genus”被用作图例标题


5.传递stacked=True来生成堆积柱状图,使得每一行的值堆积在一起

图9-17 DataFrame堆积柱状图

6.使用value_counts:

data.value_counts().plot.bar()可以有效的对Series的值频率进行可视化(参考图9-15以及图9-18)

图9-18 使用value_counts

7.示例:绘制一个堆积柱状图,用于展示每个派对在每天的数据点占比(参考图9-20(1)、9-20(2))

     使用read_csv导入文件tips.csv(见图9-19)

图9-19 tips_csv部分文件
图9-20(1) 代码示例
图9-20(2) 示例每天分规模的派对数量百分比



8.对于在绘图前需要聚合或汇总的数据,使用seaborn会使工作更简单

    使用seaborn进行按星期日计算小费百分比(参考图9-21)

图9-21 用错误栏按天数显示小费的百分比

       seaborn中的绘图函数使用一个data参数,这个参数可以是pandas的DataFrame。其他的参数则与列名有关。

       day列中有多个观测值,柱子的值是tip_pct的平均值。

        柱子上画出的黑线代表的是95%的置信区间(置信区间可以通过可选参数进行设置)。     注:置信区间:指由样本统计量所构造的总体参数的估计区间


9.seaborn.barplot拥有一个hue选项,允许我们通过一个额外的分类值将数据分离(如图9-22)

图9-22 hue用法

注:seaborn自动改变了图表的美观性:默认的调色板、图背景和网格线条颜色


9.2.3 直方图和密度图


1.直方图:一种条形图,用于给出值频率的离散显示。                                                   数据点被分成离散的,均匀间隔的箱,并且绘制每个箱中数据点的数量。

使用Series的plot.hist方法制作小费占总费用百分比的直方图(如图9-23)

图9-23 小费百分比的直方图

2.密度图(KDE图):一种与直方图相关的图表类型,它通过计算可能产生观测数据的连续概率分布估计而产生。                                                                                                  通常的做法是将这种分布近似为“内核”的混合,也就是像正态分布那样简单的分布。

plot.kde使用传统法定混合法估计绘制密度图(见图9-24):

图9-24 小费百分比密度图

3. distplot方法可以绘制直方图和连续密度估计,通过distplot方法seaborn使直方图和密度图的绘制更为简单。

示例:考虑由两个不同的标准正态分布组成的双峰分布

图9-25 正态混合的标准化直方图与密度估计

9.2.4 散点图或点图


1.点图或散点图可以用于检验两个一维数据序列之间的关系                                                示例:载入文件,选择对数计算对数差(见图9-27)                                                                                                                                   

图9-26 载入文件部分
图9-28 代码计算对数差

注:(1)np.diff(a,n=1axis=-1)                                                                                               Calculate the n-th discrete difference along the given axis                                        (2)DataFrame.dropna(axis=0,how='any',thresh=None,subset=None,inplace=False)                 Remove missing values.(3)np.log()                                                                                                                            log() 返回 x 的自然对数

使用seaborn的regplot方法,该方法可以绘制散点图,并拟合出一个条线性回归线(见图9-29)

图9-29 seaborn回归散点图

2.对图、散点图矩阵   查看一组变量中的所有散点图

利用seaborn的pairplot函数,它支持在对角线上放置每个变量的直方图或密度估计值(见图9-30)

图9-30 statsmodels macro数据的成对图矩阵

注:plot_ksw参数:使我们能够将配置选项传递给非对角元素上的各个绘图调用


9.2.5 分面网格和分类数据 


1.分面网格是利用多种分组变量对数据进行可视化的方式

seaborn拥有一个有效的内建函数factorplot,它可以简化多种分面绘图(见图9-31):

图9-31 按星期日期/时间/是否吸烟划分的小费百分比

除了根据’time’在一个面内将不同的柱分组为不同的颜色,我们还可以通过每个时间值添加一行来扩展分面网格(见图9-32):

sns.factorplot(x='day', y='tip_pct', row='time',                                                                               .....:                  col='smoker',                                                                                                            .....:                  kind='bar', data=tips[tips.tip_pct < 1])

图9-32 根据时间、是否吸烟分面后的按星期划分的小费百分比

factorplot支持其他可能有用的图类型,具体取决于你要显示的内容。例如,箱形图(显示中位值、四分位数和异常值)可以是有效的可视化类型(图9-33):

图9-33 根据星期日期绘制的小费百分比箱形图
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容