关键字:相关性分析、调整字体、Seaborn、Python
涉及Seaborn常用的画图函数,以及常用的调整字体,设置坐标轴标签、设置刻度、保存图片时不留白边等技巧。示例使用了纽约市出租车数据,要注意我对数据进行了预处理。
(New York City. tlc-trip-record-data. https://www1.nyc.gov/site/tlc/about/tlc-trip-record-data.page)
在使用这些代码时要调整输入的数据,根据需要改变坐标轴标签和字体大小。
0 全局设置
可以全局地对seaborn字体进行调整:
import seaborn as sns
sns.set(style="darkgrid") # 这是seaborn默认的风格
sns.set(font_scale=1.5)
plt.rcParams['font.sans-serif'] = ['SimHei'] # 使用中文字体
Mac画图中文乱码,需要:
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'
plt.rcParams['axes.unicode_minus'] = False
1. 单变量统计分析
1.1 概率密度图:连续型变量的分布
适用于连续型变量:
ax = sns.distplot(dataframe_name[col_name])
# 设置刻度字体, 坐标标签字体大小
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
# ax.set_xticks([0, 200000, 400000]) # 设置x轴刻度
ax.set_xlabel("LabelName", fontsize=20)
ax.set_ylabel("LabelName", fontsize=20)
1.2 柱状图:离散型变量的分布
柱状图;这个函数最好对离散型变量使用,对于dataframe中的一列数据,它会统计不同种类的数据项出现的次数,然后画柱状图。
ax = sns.countplot(x=col_name, data=dataframe_name)
# 设置刻度字体, 坐标标签字体大小
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
# ax.set_xticks([0, 1, 2, 3, 4, 5]) # 设置x轴刻度
ax.set_xlabel("LabelName", fontsize=20)
ax.set_ylabel("LabelName", fontsize=20)
2 多变量相关性分析
2.1 散点图
选dataframe中的两列画散点
ax = sns.scatterplot(x=x_name, y=y_name, data=dataframe_name)
# 设置刻度,坐标轴大小,名字。
ax.set_xlabel(x_label, fontsize=20)
ax.set_ylabel(y_label, fontsize=20)
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
2.2 联合分布图/核密度图:连续型变量之间的相关性
选dataframe中的两列画联合分布,易于发现两个变量间的关系。这里为了让图片显示更清晰,我用了疫情数据和百度迁徙数据。然后核密度图的数据是使用了纽约出租车的数据,核密度图可用于聚类分析。
# kind='reg' 会画出那条拟合的直线和置信区间
ax = sns.jointplot(x=x_name, y=y_name, data=dataframe_name, kind='reg', height=5)
# 核密度图:(实际画图的时候一个一个画)
# ax = sns.kdeplot(dataframe_name[x_name], dataframe_name[y_name], shade=True, shade_lowest=False, cbar=True, color='r')
# 设置刻度字体大小,注意这里对坐标轴的设置与前面不同,核密度图和联合分布图要用set_axis_labels
ax.set_axis_labels(x_label, y_label, fontsize=20) # label of the coordinate axis
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
2.3 小提琴图与箱线图:连续型变量与离散型变量之间的相关性
注意它在设置刻度的时候是和前面的散点图,柱状图,概率密度图等一致的。
这里的三行代码分别画小提琴图,箱线图,分布密度散点图,画图时,我在x轴放的是离散型变量。
另外有许多参数可调,我在这里举了箱线图中hue='taxi_type'的例子
# ax = sns.violinplot(x=x_name, y=y_name, data=dataframe_name, inner=None, whis=np.inf)
ax = sns.boxplot(x=x_name, y=y_name, data=dataframe_name, hue='taxi_type')
# ax = sns.swarmplot(x=x_name, y=y_name, data=dataframe_name, color="c")
# 设置刻度字体大小
ax.set_xlabel(x_label, fontsize=20)
ax.set_ylabel(y_label, fontsize=20)
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
2.4 相关性的计算
这里相关性计算使用scipy中的函数,计算的结果包括斜率,截距,R-value,P-value,标准差。
选取的y1, y2两列数据应具有同样长度。
import scipy
slope, intercept, r_value, p_value, std_err = scipy.stats.linregress(y1, y2)
3 类别与聚类分析
3.1 点图:直接地看出两种类别的区别
简单地理解,点图可以画出多个类别地均值和方差,可以直观地看出不同类别地区别。
如图7,可以看出黄色出租车的收入均值更小,方差更小。
sample_taxi = all_taxi.sample(n=10000, random_state=1) # 画图前先采样了,不然数据太多画的慢
ax = sns.pointplot(x="taxi_type", y="total_amount", data=sample_taxi)
# ax = sns.pointplot(x="taxi_type", y="total_amount", data=sample_taxi, estimator=np.median,
# dodge=True, palette="Set2", markers=["o", "x"], linestyles=["-", "--"])
# 这里设置坐标轴的方法和上面一致
ax.set_xlabel(x_label, fontsize=20)
ax.set_ylabel(y_label, fontsize=20)
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
3.2 聚类
注意我选取了原始数据中的两列进行聚类。
可以调整sns.clustermap()中的method参数以改变聚类的方式:默认为为average算法,可选’single’,’complete’ ,’weighted’,’centroid’,’median’。
lo_number = lo_number[['engaged number', 'disengaged number']]
g = sns.clustermap(lo_number, fmt="d", cmap='YlGnBu', figsize=(6, 9))
ax = g.ax_heatmap
label_y = ax.get_yticklabels()
plt.setp(label_y, rotation=360, horizontalalignment='left')
4 画图技巧总结
4.1 调整坐标轴标签及大小
这里分成两部分,一是坐标轴的刻度,二是坐标轴的标签。
调整坐标轴刻度大小,以及旋转角度,对于所有的图都可以使用如下代码(因为是直接调整plt的):
plt.xticks(fontsize=20, rotation=30)
plt.yticks(fontsize=20, rotation=30)
调整坐标轴标签和字体大小,联合分布图和核密度图需要这样:
ax.set_axis_labels(x_label, y_label, fontsize=20) # label of the coordinate axis
其他的如概率密度图,柱状图,散点图,小提琴图,箱线图,点图等,调整坐标轴标签时可以这样:
# ax.set_xticks([0, 200000, 400000]) # 设置x轴刻度
# ax.set_xticks([0, 1, 2, 3, 4, 5]) # 设置x轴刻度
ax.set_xlabel(x_label, fontsize=20)
ax.set_ylabel(y_label, fontsize=20)
4.2 保存图片时常用技巧
保存图片时,保存为svg格式(可以任意放缩)。且不保留图片四周的白边:
plt.savefig($FigName + '.svg', format='svg', bbox_inches='tight')