(Python 画图)Seaborn画图常用函数与技巧

关键字:相关性分析、调整字体、Seaborn、Python
涉及Seaborn常用的画图函数,以及常用的调整字体,设置坐标轴标签、设置刻度、保存图片时不留白边等技巧。示例使用了纽约市出租车数据,要注意我对数据进行了预处理。
(New York City. tlc-trip-record-data. https://www1.nyc.gov/site/tlc/about/tlc-trip-record-data.page
在使用这些代码时要调整输入的数据,根据需要改变坐标轴标签和字体大小。

0 全局设置

可以全局地对seaborn字体进行调整:

import seaborn as sns
sns.set(style="darkgrid")  # 这是seaborn默认的风格
sns.set(font_scale=1.5)
plt.rcParams['font.sans-serif'] = ['SimHei'] # 使用中文字体

Mac画图中文乱码,需要:

plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'
plt.rcParams['axes.unicode_minus'] = False

1. 单变量统计分析

1.1 概率密度图:连续型变量的分布

适用于连续型变量:

ax = sns.distplot(dataframe_name[col_name])
# 设置刻度字体, 坐标标签字体大小
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
# ax.set_xticks([0, 200000, 400000])  # 设置x轴刻度
ax.set_xlabel("LabelName", fontsize=20)
ax.set_ylabel("LabelName", fontsize=20)
Figure 1. 概率密度图.png

1.2 柱状图:离散型变量的分布

柱状图;这个函数最好对离散型变量使用,对于dataframe中的一列数据,它会统计不同种类的数据项出现的次数,然后画柱状图。

ax = sns.countplot(x=col_name, data=dataframe_name)
# 设置刻度字体, 坐标标签字体大小
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
# ax.set_xticks([0, 1, 2, 3, 4, 5]) # 设置x轴刻度
ax.set_xlabel("LabelName", fontsize=20)
ax.set_ylabel("LabelName", fontsize=20)
Figure 2. 柱状图.png

2 多变量相关性分析

2.1 散点图

选dataframe中的两列画散点

ax = sns.scatterplot(x=x_name, y=y_name, data=dataframe_name)
# 设置刻度,坐标轴大小,名字。
ax.set_xlabel(x_label, fontsize=20)
ax.set_ylabel(y_label, fontsize=20)
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
Figure 3. 散点图.png

2.2 联合分布图/核密度图:连续型变量之间的相关性

选dataframe中的两列画联合分布,易于发现两个变量间的关系。这里为了让图片显示更清晰,我用了疫情数据和百度迁徙数据。然后核密度图的数据是使用了纽约出租车的数据,核密度图可用于聚类分析。

# kind='reg' 会画出那条拟合的直线和置信区间
ax = sns.jointplot(x=x_name, y=y_name, data=dataframe_name, kind='reg', height=5)
# 核密度图:(实际画图的时候一个一个画)
# ax = sns.kdeplot(dataframe_name[x_name], dataframe_name[y_name], shade=True, shade_lowest=False, cbar=True, color='r')
# 设置刻度字体大小,注意这里对坐标轴的设置与前面不同,核密度图和联合分布图要用set_axis_labels
ax.set_axis_labels(x_label, y_label, fontsize=20)  # label of the coordinate axis
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
Figure 4. 联合分布图.png

Figure 5. 核密度图.png

2.3 小提琴图与箱线图:连续型变量与离散型变量之间的相关性

注意它在设置刻度的时候是和前面的散点图,柱状图,概率密度图等一致的。
这里的三行代码分别画小提琴图,箱线图,分布密度散点图,画图时,我在x轴放的是离散型变量。
另外有许多参数可调,我在这里举了箱线图中hue='taxi_type'的例子

# ax = sns.violinplot(x=x_name, y=y_name, data=dataframe_name, inner=None, whis=np.inf)
ax = sns.boxplot(x=x_name, y=y_name, data=dataframe_name, hue='taxi_type')
# ax = sns.swarmplot(x=x_name, y=y_name, data=dataframe_name, color="c")
# 设置刻度字体大小
ax.set_xlabel(x_label, fontsize=20)
ax.set_ylabel(y_label, fontsize=20)
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
Figure 6. 小提琴图,箱线图和分布密度散点图.png

2.4 相关性的计算

这里相关性计算使用scipy中的函数,计算的结果包括斜率,截距,R-value,P-value,标准差。
选取的y1, y2两列数据应具有同样长度。

import scipy
slope, intercept, r_value, p_value, std_err = scipy.stats.linregress(y1, y2)

3 类别与聚类分析

3.1 点图:直接地看出两种类别的区别

简单地理解,点图可以画出多个类别地均值和方差,可以直观地看出不同类别地区别。
如图7,可以看出黄色出租车的收入均值更小,方差更小。

sample_taxi = all_taxi.sample(n=10000, random_state=1)  # 画图前先采样了,不然数据太多画的慢
ax = sns.pointplot(x="taxi_type", y="total_amount", data=sample_taxi)
# ax = sns.pointplot(x="taxi_type", y="total_amount", data=sample_taxi, estimator=np.median,
#                    dodge=True, palette="Set2", markers=["o", "x"], linestyles=["-", "--"])
# 这里设置坐标轴的方法和上面一致
ax.set_xlabel(x_label, fontsize=20)
ax.set_ylabel(y_label, fontsize=20)
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
Figure 7. 点图.png

3.2 聚类

注意我选取了原始数据中的两列进行聚类。
可以调整sns.clustermap()中的method参数以改变聚类的方式:默认为为average算法,可选’single’,’complete’ ,’weighted’,’centroid’,’median’。

lo_number = lo_number[['engaged number', 'disengaged number']]
g = sns.clustermap(lo_number, fmt="d", cmap='YlGnBu', figsize=(6, 9))
ax = g.ax_heatmap
label_y = ax.get_yticklabels()
plt.setp(label_y, rotation=360, horizontalalignment='left')
Figure 8. 聚类.png

4 画图技巧总结

4.1 调整坐标轴标签及大小

这里分成两部分,一是坐标轴的刻度,二是坐标轴的标签。
调整坐标轴刻度大小,以及旋转角度,对于所有的图都可以使用如下代码(因为是直接调整plt的):

plt.xticks(fontsize=20, rotation=30)
plt.yticks(fontsize=20, rotation=30)

调整坐标轴标签和字体大小,联合分布图和核密度图需要这样:

ax.set_axis_labels(x_label, y_label, fontsize=20)  # label of the coordinate axis

其他的如概率密度图,柱状图,散点图,小提琴图,箱线图,点图等,调整坐标轴标签时可以这样:

# ax.set_xticks([0, 200000, 400000])  # 设置x轴刻度
# ax.set_xticks([0, 1, 2, 3, 4, 5]) # 设置x轴刻度
ax.set_xlabel(x_label, fontsize=20)
ax.set_ylabel(y_label, fontsize=20)

4.2 保存图片时常用技巧

保存图片时,保存为svg格式(可以任意放缩)。且不保留图片四周的白边:

plt.savefig($FigName + '.svg', format='svg', bbox_inches='tight')
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,236评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,867评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,715评论 0 340
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,899评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,895评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,733评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,085评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,722评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,025评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,696评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,816评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,447评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,057评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,009评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,254评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,204评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,561评论 2 343

推荐阅读更多精彩内容