import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
weight_data = pd.read_table('weight.txt')
weight = weight_data['weight']
fig = plt.figure()
plt.rcParams["font.family"] = "SimHei" #修改字体属性,显示汉字
x = weight
ax = fig.add_subplot(111)
numBins = 20
ax.hist(x,numBins,color = 'blue')
plt.title(u'体重的直方图')
plt.show()
weight.mean()
50.7
weight.std()
6.26705268583954
从直方图可以得出的结论如下:
1. 体重不是任意分布,分布范围在38~69。
2. 体重不是平均分布,从平均值50.7和标准差6.26可知,数据集中在44.44~56.96。
3. 组值69、频数2的数据偏离平均值最远,超过标准差范围。
4. 数据主要集中在42~55之间,极端数据对整个样本影响较小。
5. 这组体重数据属于平均斯坦,受到平均数周围数据的影响较大。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
AirPassengers_data= pd.read_csv('AirPassengers.csv')
NumPassengers = AirPassengers_data['NumPassengers']
fig = plt.figure()
x = NumPassengers
ax = fig.add_subplot(111)
numBins = 40
plt.rcParams["font.family"] = "SimHei"
ax.hist(x,numBins,color = 'blue')
plt.title(u'乘客数')
plt.show()
NumPassengers.mean()
280.2986111111111
NumPassengers.std()
119.96631694294321
从直方图可以得出的结论如下:
1. 乘客数不是任意分布,分布范围在100~620。
2. 乘客数不是平均分布,从平均值280和标准差119,可知,主要数据分布范围在161~399
3. 组值600、频数2的数据偏离平均值最大,超过标准差的范围。
4. 大量数据集中在100~400之间, 极端数据对整个样本影响较小。
5. 这组乘客数数据属于平均斯坦,受到平均数周围数据的影响较大。
#2种加载中文方法
#第一种 指定系统的字体属性到一个参数,每次需要加载在指定参数
from matplotlib.font_manager import FontProperties
font = FontProperties(fname=r"c:\windows\fonts\simsun.ttc", size=14)
plt.title(u"体重的直方图", fontproperties=font)
#第二种 直接修改默认的字体属性
plt.rcParams["font.family"] = "SimHei"