箱线图

import pandas as pd

titanic = pd.read_csv("E:/Anaconda/MachineLearningData/Titanic/test.csv")

titanic_age = titanic["Age"]

fig,ax = plt.subplots()

ax.boxplot(avaliable_age)

ax.set_xticklabels(["age"])

plt.show

结果

一.箱子的中间一条线,是数据的中位数,代表了样本数据的平均水平。

二.箱子的上下限,分别是数据的上四分位数和下四分位数。这意味着箱子包含了50%的数据。因此,箱子的宽度在一定程度上反映了数据的波动程度。

三.在箱子的上方和下方,又各有一条线。有时候代表着最大最小值,有时候会有一些点“冒出去”。请千万不要纠结,不要纠结,不要纠结(重要的事情说三遍),如果有点冒出去,理解成“异常值”就好。

参考:https://blog.csdn.net/littlehaes/article/details/83622856

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 今年的雨水偏多,总感觉要把拥有的雨水都降落下来。今年的冬天也没有往年冷,全球气候变暖的影响在加剧。我心里有种莫名的...
    Changelily1994阅读 166评论 0 0