Python数据可视化库Seaborn的安装使用和常见问题

前言

网上奇怪的教程到处都是,有的是付费教程,免费教程讲的又太少。自己折腾了下终于弄清楚了。本文基于macOS系统、Python3.7。

  • Seaborn库的安装
    Seaborn基于matplotlib库。网上教程大多都说需要一堆库,实际上直接执行:
pip3 install seaborn

使用Seaborn库

网上各种示例都是直接使用网上的iris或tips数据集。作为Hello world也许复杂了一些。可以先随便跑一个基础的试试看:

#库的导入
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

data = np.random.normal(size=100) #产生随机数据
sns.distplot(data)  #直方图绘制
plt.show() #显示图片

运行以上代码将会弹出一个绘图窗口。如果成功了,恭喜!可以开始接下来的应用了。

尝试数据集:

首先去git上下载iris数据库:seaborn官方数据库

把iris.csv放回工作文件夹,即py文件保存的文件夹。接着运行代码

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns #库的导入
iris = pd.read_csv('iris.csv') #读取iris数据集
sns.pairplot(iris, hue="species") #绘图
plt.show() #显示图片

这里要说明一下,网上有的教程使用的是:

iris = sns.load_dataset('iris') #读取iris数据集

实际上,这个iris数据集并非安装seaborn就自带的。而是会到上面的网站获取iris数据集。梯子没搭好可能因为网络的问题访问不了,会导致报错。所以还是推荐直接下载好了用。

跑完之后,应该就会有一个漂亮的图出现了:

如果还想尝试其他的绘图方式,可以去这里看看。里面的绘图方式都可以试试看。

常见问题

网上教程不少不好用的,可以检查几个值得注意的点:

  • 缩写问题

    import matplotlib.pyplot as plt 时把缩写定为了plt,网上各个教程里缩写均有不同,有的写成了pyplot,有的是直接import pyplot from matplotlib。这些情况下查看报错信息就能了解。注意检查前后的一致性。

  • 数据集问题

    之所以一定要到官网上下载iris数据集,是因为网上下的虽然都叫iris数据集,但文件却不尽相同。有的数据集会多了一个column显示序号。有的数据集header会加引号。有个数据集header会大写。总之是各种奇怪的都有。下面这种才是seaborn给出的版本。绘图出错时,检查绘图参数里的数据名是不是都是正确的


参考文章:

  1. 10分钟python图表绘制 | seaborn入门(一):distplot与kdeplot

  2. seaborn 与 iris 数据集

  3. Seaborn 的示例数据集(load_dataset)

  4. seaborn: statistical data visualization

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。