import pandas as pd
titanic = pd.read_csv("E:/Anaconda/MachineLearningData/Titanic/test.csv")
titanic_age = titanic["Age"]
fig,ax = plt.subplots()
ax.boxplot(avaliable_age)
ax.set_xticklabels(["age"])
plt.show
一.箱子的中间一条线,是数据的中位数,代表了样本数据的平均水平。
二.箱子的上下限,分别是数据的上四分位数和下四分位数。这意味着箱子包含了50%的数据。因此,箱子的宽度在一定程度上反映了数据的波动程度。
三.在箱子的上方和下方,又各有一条线。有时候代表着最大最小值,有时候会有一些点“冒出去”。请千万不要纠结,不要纠结,不要纠结(重要的事情说三遍),如果有点冒出去,理解成“异常值”就好。
参考:https://blog.csdn.net/littlehaes/article/details/83622856