第一步,导入所需的各种包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
import math
sns.set(style="darkgrid",font_scale=1.2)
plt.rcParams["font.family"]="SimHei"
plt.rcParams["axes.unicode_minus"]=False
warnings.filterwarnings("ignore")
第二步,导入文件(一般先将xksx另存为csv文件)
data = pd.read_csv('C:/Users/86187/Desktop/研数模D题/ERα_activity.csv')
print(data.shape)
查看一下数据
data.head()
第三步,数据预处理
缺失值处理
data.info()
如过仅关注缺失值数量,而不关注数据类型等信息,用isnull方法
t=data.isnull().sum()
t=pd.concat([t,t/len(data)],axis=1)
t.columns=["缺失值数量","缺失值比例"]
display(t)
异常值
data.describe()
调用DataFrame对象的describe方法,可以显示数据的统计信息,不过,此种方法仅能作为一种简单的异常探索方式。
重复值
print(data.duplicated().sum())
data[data.duplicated(keep=False)]