关键字：相关性分析、调整字体、Seaborn、Python
涉及Seaborn常用的画图函数，以及常用的调整字体，设置坐标轴标签、设置刻度、保存图片时不留白边等技巧。示例使用了纽约市出租车数据，要注意我对数据进行了预处理。
（New York City. tlc-trip-record-data. https://www1.nyc.gov/site/tlc/about/tlc-trip-record-data.page）
在使用这些代码时要调整输入的数据，根据需要改变坐标轴标签和字体大小。

0 全局设置

可以全局地对seaborn字体进行调整：

import seaborn as sns
sns.set(style="darkgrid")  # 这是seaborn默认的风格
sns.set(font_scale=1.5)
plt.rcParams['font.sans-serif'] = ['SimHei'] # 使用中文字体

Mac画图中文乱码，需要：

plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'
plt.rcParams['axes.unicode_minus'] = False

1. 单变量统计分析

1.1 概率密度图：连续型变量的分布

适用于连续型变量：

ax = sns.distplot(dataframe_name[col_name])
# 设置刻度字体, 坐标标签字体大小
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
# ax.set_xticks([0, 200000, 400000])  # 设置x轴刻度
ax.set_xlabel("LabelName", fontsize=20)
ax.set_ylabel("LabelName", fontsize=20)

Figure 1. 概率密度图.png

1.2 柱状图：离散型变量的分布

柱状图；这个函数最好对离散型变量使用，对于dataframe中的一列数据，它会统计不同种类的数据项出现的次数，然后画柱状图。

ax = sns.countplot(x=col_name, data=dataframe_name)
# 设置刻度字体, 坐标标签字体大小
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
# ax.set_xticks([0, 1, 2, 3, 4, 5]) # 设置x轴刻度
ax.set_xlabel("LabelName", fontsize=20)
ax.set_ylabel("LabelName", fontsize=20)

Figure 2. 柱状图.png

2 多变量相关性分析

2.1 散点图

选dataframe中的两列画散点

ax = sns.scatterplot(x=x_name, y=y_name, data=dataframe_name)
# 设置刻度，坐标轴大小，名字。
ax.set_xlabel(x_label, fontsize=20)
ax.set_ylabel(y_label, fontsize=20)
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)

Figure 3. 散点图.png

2.2 联合分布图/核密度图：连续型变量之间的相关性

选dataframe中的两列画联合分布，易于发现两个变量间的关系。这里为了让图片显示更清晰，我用了疫情数据和百度迁徙数据。然后核密度图的数据是使用了纽约出租车的数据，核密度图可用于聚类分析。

# kind='reg' 会画出那条拟合的直线和置信区间
ax = sns.jointplot(x=x_name, y=y_name, data=dataframe_name, kind='reg', height=5)
# 核密度图：（实际画图的时候一个一个画）
# ax = sns.kdeplot(dataframe_name[x_name], dataframe_name[y_name], shade=True, shade_lowest=False, cbar=True, color='r')
# 设置刻度字体大小，注意这里对坐标轴的设置与前面不同，核密度图和联合分布图要用set_axis_labels
ax.set_axis_labels(x_label, y_label, fontsize=20)  # label of the coordinate axis
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)

Figure 4. 联合分布图.png

Figure 5. 核密度图.png

2.3 小提琴图与箱线图：连续型变量与离散型变量之间的相关性

注意它在设置刻度的时候是和前面的散点图，柱状图，概率密度图等一致的。
这里的三行代码分别画小提琴图，箱线图，分布密度散点图，画图时，我在x轴放的是离散型变量。
另外有许多参数可调，我在这里举了箱线图中hue='taxi_type'的例子

# ax = sns.violinplot(x=x_name, y=y_name, data=dataframe_name, inner=None, whis=np.inf)
ax = sns.boxplot(x=x_name, y=y_name, data=dataframe_name, hue='taxi_type')
# ax = sns.swarmplot(x=x_name, y=y_name, data=dataframe_name, color="c")
# 设置刻度字体大小
ax.set_xlabel(x_label, fontsize=20)
ax.set_ylabel(y_label, fontsize=20)
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)

Figure 6. 小提琴图，箱线图和分布密度散点图.png

2.4 相关性的计算

这里相关性计算使用scipy中的函数，计算的结果包括斜率，截距，R-value，P-value，标准差。
选取的y1, y2两列数据应具有同样长度。

import scipy
slope, intercept, r_value, p_value, std_err = scipy.stats.linregress(y1, y2)

3 类别与聚类分析

3.1 点图：直接地看出两种类别的区别

简单地理解，点图可以画出多个类别地均值和方差，可以直观地看出不同类别地区别。
如图7，可以看出黄色出租车的收入均值更小，方差更小。

sample_taxi = all_taxi.sample(n=10000, random_state=1)  # 画图前先采样了，不然数据太多画的慢
ax = sns.pointplot(x="taxi_type", y="total_amount", data=sample_taxi)
# ax = sns.pointplot(x="taxi_type", y="total_amount", data=sample_taxi, estimator=np.median,
#                    dodge=True, palette="Set2", markers=["o", "x"], linestyles=["-", "--"])
# 这里设置坐标轴的方法和上面一致
ax.set_xlabel(x_label, fontsize=20)
ax.set_ylabel(y_label, fontsize=20)
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)

Figure 7. 点图.png

3.2 聚类

注意我选取了原始数据中的两列进行聚类。
可以调整sns.clustermap()中的method参数以改变聚类的方式：默认为为average算法，可选’single’，’complete’ ,’weighted’,’centroid’,’median’。

lo_number = lo_number[['engaged number', 'disengaged number']]
g = sns.clustermap(lo_number, fmt="d", cmap='YlGnBu', figsize=(6, 9))
ax = g.ax_heatmap
label_y = ax.get_yticklabels()
plt.setp(label_y, rotation=360, horizontalalignment='left')

Figure 8. 聚类.png

4 画图技巧总结

4.1 调整坐标轴标签及大小

这里分成两部分，一是坐标轴的刻度，二是坐标轴的标签。
调整坐标轴刻度大小，以及旋转角度，对于所有的图都可以使用如下代码（因为是直接调整plt的）：

plt.xticks(fontsize=20, rotation=30)
plt.yticks(fontsize=20, rotation=30)

调整坐标轴标签和字体大小，联合分布图和核密度图需要这样：

ax.set_axis_labels(x_label, y_label, fontsize=20)  # label of the coordinate axis

其他的如概率密度图，柱状图，散点图，小提琴图，箱线图，点图等，调整坐标轴标签时可以这样：

# ax.set_xticks([0, 200000, 400000])  # 设置x轴刻度
# ax.set_xticks([0, 1, 2, 3, 4, 5]) # 设置x轴刻度
ax.set_xlabel(x_label, fontsize=20)
ax.set_ylabel(y_label, fontsize=20)

4.2 保存图片时常用技巧

保存图片时，保存为svg格式（可以任意放缩）。且不保留图片四周的白边：

plt.savefig($FigName + '.svg', format='svg', bbox_inches='tight')

（Python 画图）Seaborn画图常用函数与技巧