研究生你必须知道的几种数据分析方法

近几天你是否被世界杯刷屏,话说他,荷兰人,45岁,因喝醉酒买了德国7-1巴西,200欧元,6500赔率,创世界杯单场最高金额1300000 欧元,折合1100W人民币。

理工男的直觉告诉明明同学是这样的,他肯定学过数据分析,对德国和巴西历史进球和比赛结果加上每个球队球员的表现进行建模,得出一个预测模型,然后把本届每个国家球员素质,心里以及他们的社交什么的因素带入模型,然后就预测出本届的比分7-1(好了,我编不下去了)。由此可见数据分析的重要性。在研究生博士生阶段,你的数据分析做的好,那么你的paper发的是杠杠的。今天明明同学就给大家分享研究生阶段你必须了解的一些数据分析方法。

方差分析

方差分析是最常用的一种分析方法,用于两个及两个以上样本均数差别的显著性检验。

应用条件

1、各样本是相互独立的随机样本

2、各样本均来自正态分布总体

3、各样本的总体方差相等,即具有方差齐性

方差分析分为单因素多因素方差分析,多因素方差分析又有含交互作用无交互作用的两种。

单因素方差分析是检验同一因数下不同水平之间的显著性。例如光照时间对苗木生长是否有影响,那么因素就是光照时间,水平可以有光照2h、4h、6h、8h等。检验目的是4种不同的光照时间对苗木的生长是否有差异。

双因素方差分析是检验多因素多水平下的显著性。其中不含交互作用是指某一因素对其他因素没有影响,即其他因素固定,某一因素不同水平之间均数的差别。交互作用是指某因素的单独效应,随另一因素水平而变化,且不能用随机误差解释。

步骤

1、样本是否正态分布检验

2、样本方差齐性检验

3、提出原假设:H0——无差异;H1——有显著差异,(交互作用的假设H03和H13)

4、选择检验统计量:方差分析采用的检验统计量是F统计量,即F值检验

5、计算检验统计量的观测值和概率P值

6、给定显著性水平,并作出决策

7、如果有显著差异,需要进行多重比较

关于方差分析的方法在微信公共号"毕业零距离"里种介绍了三种方法即:

《如何用EXCEL做方差分析》、《如何用SPSS做方差分析》、《如何用R语言做方差分析》。有不懂的随时私信明明同学。

回归分析

回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系,例如不同的施肥量对苗木高生长的关系、中国人的消费习惯对美国经济的影响等。其又分为线性回归分析和非线性回归分析。

应用条件:

和方差分析一样,数据必须满足独立、正态、方差齐性。

回归分析研究的目的:

(1)确定Y与X间的定量关系表达式,这种表达式称为回归方程;

(2)对求得的回归方程的可信度进行检验;

(3)判断自变量X对因变量Y有无影响;

(4)利用所求得的回归方程进行预测和控制。

回归的类型有:

1、Linear Regression线性回归,2、Logistic Regression逻辑回归,3、Polynomial Regression多项式回归,4、Stepwise Regression逐步回归等常见回归模型。

步骤

1、制作散点图,判断变量关系(简单线性、非线性等);

2、求相关系数及线性验证;

3、求回归系数,建立回归方程;

4、回归方程检验;

5、参数的区间估计;

6、预测;

关于回归分析的做法,我们以后会推出相应的教程,加大家如何使用EXCEL、SPSS、和R语言做回归分析。

判别分析

判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。

判别分析的目的

解决的问题是在一些已知研究对象已经用某种方法分成若干类的情况下,确定新的样品属于已知类别中的哪一类。他用途广泛,如动植物分类、医学疾病诊断、社区种类划分等。

判别分析满足的条件:

1、每一个判别变量都不能是其他判别变量的线性组合

2、各个判别变量之间具有多元正态分布,即控制N-1个变量为固定值时,第N个变量满足正态分布

3、满足②条件时,使用参数法计算判别函数,否则使用非参数法计算判别函数。

判别分析的方法有

Fisher判别(属于确定性判别)包括距离判别、线性判别、非线性判别和典型判别。

Bayes判别(属于概率性判别)


关于判别分析的做法,我们以后会推出相应的教程。

聚类分析

聚类分析的目的

是把分类对象按照一定规则分成若干类,这些类不是事先设定的,而是根据数据的特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中对象趋向于彼此不相似。

聚类分析的方法:

系统聚类法、快速聚类法、模糊聚类法。

系统聚类

常用的有如下六种:

1、最短距离法;2、最长距离法;3、类平均法;4、重心法;5、中间距离法;6、离差平方和法

快速聚类常见的有K-means聚类。

所有聚类的基本原则都是:

希望族(类)内的相似度尽可能高,族(类)间的相似度尽可能低(相异度尽可能高)。

主成分分析

主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。

进行主成分分析主要步骤:

1、将原始数据标准化,以消除变量之间在数量级和量纲上的不同。

2、求标准化的相关矩阵。

3、求相关矩阵的特征值和特征向量。

4、计算方差贡献率和累计方差贡献率,每个主成分的贡献率代表了原始数据总信息量的百分比。

5、确定主成分。

6、用原指标的线性组合来计算各个主成分的得分。

7、综合得分,然后进行得分排序。

在R语言和SPSS中很容易实现主成分分析。

有任何问题可以随时私信明明同学,帮助你解决数据分析的难处。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,793评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,567评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,342评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,825评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,814评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,680评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,033评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,687评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,175评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,668评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,775评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,419评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,020评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,206评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,092评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,510评论 2 343

推荐阅读更多精彩内容