1.数据获取
一般有以下四个手段:
数据仓库
检测与抓取
填写、日志、埋点
计算
2.探索性数据分析与可视化
(1)单因子与可视化
集中趋势:均值、中位数、众数、分位数:常用四分位数
离中趋势:标准差、方差数据
分布:偏态系数与峰态系数
,S表示偏态系数,即与均值的偏离程度,S>0为正偏,否则为负偏。
,K为峰态系数,峰态系数越高,其图像越陡,否则越平缓。
对于正态分布来说,经常用到卡方分布,T分布,F分布。
抽样理论:
有放回抽样的误差:
不放回抽样的误差:
这里的方差表示整体方差,n表示抽样的数量
import pandas as pd
df=pd.read_csv('first_round_training_data.csv')
df['Attribute6'].skew()#偏态系数
df['Attribute6'].kurt()#峰态系数
对于正态分布:
import scipy.stats as ss
ss.norm.stats(moments="mvsk")
#(array(0.), array(1.), array(0.), array(0.))
#引入标准正态分布
ss.norm.pdf(0.0)
#返回分布函数在0处的值
ss.norm.ppf(0.9)
#积分到0.9的时候,是从负无穷到返回值
ss.norm.cdf(2)
#从负无穷到2的积分值
ss.norm.rvs(size=10)
#得到10个服从正态分布的数字
同理,卡方分布有ss.chi2
,t分布有ss.t
,f分布有ss.f
,操作也和norm一样。
对于抽样:
#随机抽取10个
df.sample(n=10)
#抽取10%
df.sample(frac=0.1)