数据挖掘与建模

1.数据获取

一般有以下四个手段:
数据仓库
检测与抓取
填写、日志、埋点
计算

2.探索性数据分析与可视化

(1)单因子与可视化

集中趋势:均值、中位数、众数、分位数:常用四分位数
离中趋势:标准差、方差数据

分布:偏态系数与峰态系数
S=\frac{\frac{1}{n}\sum(x_i-x_{mean})^3}{(\frac{1}{n}\sum(x_i-x_{mean})^2)^{\frac{3}{2}}},S表示偏态系数,即与均值的偏离程度,S>0为正偏,否则为负偏。

K=\frac{\frac{1}{n}\sum(x_i-x_{mean})^4}{(\frac{1}{n}\sum(x_i-x_{mean})^2)^{2}},K为峰态系数,峰态系数越高,其图像越陡,否则越平缓。

对于正态分布来说,经常用到卡方分布,T分布,F分布。

抽样理论:
有放回抽样的误差:\mu_x=\sqrt{\sigma^2/n}
不放回抽样的误差:\mu_x=\sqrt{\frac{\sigma^2(N-n)}{n(N-1)}}
这里的方差表示整体方差,n表示抽样的数量

import pandas as pd
df=pd.read_csv('first_round_training_data.csv')
df['Attribute6'].skew()#偏态系数
df['Attribute6'].kurt()#峰态系数

对于正态分布:

import scipy.stats as ss
ss.norm.stats(moments="mvsk")
#(array(0.), array(1.), array(0.), array(0.))
#引入标准正态分布
ss.norm.pdf(0.0)
#返回分布函数在0处的值
ss.norm.ppf(0.9)
#积分到0.9的时候,是从负无穷到返回值
ss.norm.cdf(2)
#从负无穷到2的积分值
ss.norm.rvs(size=10)
#得到10个服从正态分布的数字

同理,卡方分布有ss.chi2,t分布有ss.t,f分布有ss.f,操作也和norm一样。
对于抽样:

#随机抽取10个
df.sample(n=10)
#抽取10%
df.sample(frac=0.1)
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容