数据挖掘与建模

1.数据获取

一般有以下四个手段：
数据仓库
检测与抓取
填写、日志、埋点
计算

2.探索性数据分析与可视化

（1）单因子与可视化

集中趋势：均值、中位数、众数、分位数：常用四分位数
离中趋势：标准差、方差数据

分布：偏态系数与峰态系数
$S=\frac{\frac{1}{n}\sum(x_i-x_{mean})^3}{(\frac{1}{n}\sum(x_i-x_{mean})^2)^{\frac{3}{2}}}$ ，S表示偏态系数，即与均值的偏离程度，S>0为正偏，否则为负偏。

$K=\frac{\frac{1}{n}\sum(x_i-x_{mean})^4}{(\frac{1}{n}\sum(x_i-x_{mean})^2)^{2}}$ ，K为峰态系数，峰态系数越高，其图像越陡，否则越平缓。

对于正态分布来说，经常用到卡方分布，T分布，F分布。

抽样理论：
有放回抽样的误差： $\mu_x=\sqrt{\sigma^2/n}$
不放回抽样的误差： $\mu_x=\sqrt{\frac{\sigma^2(N-n)}{n(N-1)}}$
这里的方差表示整体方差，n表示抽样的数量

import pandas as pd
df=pd.read_csv('first_round_training_data.csv')
df['Attribute6'].skew()#偏态系数
df['Attribute6'].kurt()#峰态系数

对于正态分布：

import scipy.stats as ss
ss.norm.stats(moments="mvsk")
#(array(0.), array(1.), array(0.), array(0.))
#引入标准正态分布
ss.norm.pdf(0.0)
#返回分布函数在0处的值
ss.norm.ppf(0.9)
#积分到0.9的时候，是从负无穷到返回值
ss.norm.cdf(2)
#从负无穷到2的积分值
ss.norm.rvs(size=10)
#得到10个服从正态分布的数字

同理，卡方分布有ss.chi2，t分布有ss.t，f分布有ss.f，操作也和norm一样。
对于抽样：

#随机抽取10个
df.sample(n=10)
#抽取10%
df.sample(frac=0.1)

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

数据挖掘与建模