1.导入第三方库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
#这个包python不显示警告
import warnings
warnings.filterwarnings("ignore")
2.读取文件程序
使用Pandas读取数据文件
train_data_file = "./zhengqi_train.txt"
test_data_file = "./zhengqi_test.txt"
#read_csv()参数列表(1,文件数据,2,指定分隔符,3,指定编码格式)
#train_data :训练集 test_data :测试集
train_data = pd.read_csv(train_data_file, sep='\t', encoding='utf-8')
test_data = pd.read_csv(test_data_file, sep='\t', encoding='utf-8')
3.查看数据集的各种数据信息
1) xxx.info()查看训练集的特征变量
train_data.info()
test_data.info()
# 用来查看数据集是否有缺失值,以及特征变量的个数,变量类型是什么
2)xxx.describe()查看数据统计信息
train_data.describe()
test_data.describe()
# 上面数据显示了数据的统计信息,例如样本数,数据的均值mean,标准差std,最小值,最大值等
3)xxx.head()查看数据字段信息
train_data.head()
test_data.head()
# head只会显示前5行的数据详细信息,前5行已经足够了
3.绘图函数
箱型图
# 通过matplotlib库来指定绘图对象(画布)宽度和高度
fig = plt.figure(figsize=(4, 6))
#选定训练集的V0列。
## column = train_data.columns.tolist()[:39] # 列表头
sns.boxplot(train_data['V0'],orient="v", width=0.5)
boxplot 函数的参数列表如下
seaborn.boxplot的参数列表