【关键词:可视化表示法,使用Q-Q图验证数据的分布,数据量小的时候使用BootStrap重采样统计分析数据,Dummy Variable来减少Categories】
可视化表示法
1)直方图
2)离群箱图
一般将超过Q3+1.5(Q3-Q1)的元素视为离群点
3)散点图
4)运行图表:表示随变量而变化的某指标,直观表示时间(或位置.etc)变化引起的指标规模变化。
5)星形图
6)切尔诺夫面图:一种体现认知过程的图,一次只变化一个关键点
问题在于如何在多维空间(多性质元素)中展示变化。
7)正态概率图(Normal Probability Plot):用来评估数据是否接近正态分布(或其它分布)
假设检验:在使用假设之前,需要进行验证(是否满足对应结论的分布)
8)分位数-分位数图(Quantile-Quantile Plot):用来直观的判断数据是否服从正态分布。
数据中一串数目的每个点都是该数据的某分位点,把这些点的(称为样本分位数点)和相应的理论上的分位数配对做出散点图,如果该数据服从正态分布,那么该图看上去应该像一条直线
BootStrap Resampling Statics(BootStrap重采样统计):在数据中加入随机性DIMENTION
数学讲解
在有限的数据中使用数据取出的公平性与随机性生成更多数据用于分析
在本身采样的样本S的基础上,再进行有放回的采样生成重采样集R,其中重采样过程中对S的每个元素抽到的概率均为1/n.之后再进行多次取样生成多个plot(分布图/分布散点图),此时就得到了对应参数的对应可能取值。之后观察分布就可以得到估计。
变化代价评估(Earth Mover's Distance):
将当前数据移动到指定状态的代价。
减少类型(表项)Reducing Categories:
Dummy Variable(虚拟变量)
一般地,在虚拟变量的设置中:基础类型、肯定类型取值为1;比较类型,否定类型取值为0。
适用于无序的离散数字变量。
例如:
若用数字1-12表示1-12月,那么就潜在表示了12月和1月差的很远,其实离的很近。
若用离散数字表示一地域,假如用数字1-23表示23个省,那么数字潜在的意思是,相邻的数字代表的省比较相似,差距的数字表示的省不相似,然而并没有这个意思。所以用单纯用离散的数字表示类别可能会影响后面回归或分类的精度。
dummy化不要冗余,比如有1-23个省,我们用22个0,1变量就可以表示,若22个变量都是0则表示第23个省。
Reducing Category的方法
Use pivot tables(数据透视表) to assess outcome variable sensitivity to the dummies
其它方法:
Naïve Bayes can handle categorical variables without transforming them into dummies
朴素贝叶斯可以不使用dummies方法而可以显示无序数据