【数据分析师必备】九大常用数据分析方法汇总(上)

一、描述性统计

定义:描述性统计是一类统计方法的汇总,揭示了调查总体的数据分布特性。描述性统计分析要对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。

应用:

①数据的频数分析。在数据的预处理部分,利用频数分析和交叉频数分析可以检验异常值和缺失值。

②数据的集中趋势分析。用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。

③数据的离散程度分析。主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。

④数据的分布。在统计分析中,通常要假设样本所属总体的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本数据是否符合正态分布。

⑤绘制统计图。用图形的形式来表达数据,比用文字表达更清晰、更简明。在SPSS软件里,可以很容易地绘制各个变量的统计图形,包括条形图、饼图和折线图等。

图1 描述性统计分析图例

二、回归分析

定义:回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的自变量的多少,分为回归和多重回归分析;按照自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。

应用:

①一元线性分析

如果在回归分析中,只包括一个自变量X和一个因变量Y,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。一个经济指标的数值往往受许多因素影响,若其中只有一个因素是主要的,起决定性作用,则可用一元线性回归进行预测分析。一元线性回归用途广泛,可处理科学技术的实验数据,也能用于经济现象:统计数据的分析预测。

图2 用身高预测体重的散点图以及回归线

②多元线性回归分析

如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。因此多元线性回归比一元线性回归的实用意义更大。

使用条件:分析多个自变量X与因变量Y的关系,X与Y都必须是连续型变量,因变量Y或其残差必须服从正态分布。

图3 州府数据中因变量谋杀率与自变量人口、文化水平、收入水平以及结霜天数的散点图矩阵(包含线性和平滑拟合曲线,以及相应的边际分布)  

③Logistic回归分析

线性回归模型要求因变量是连续的正态分布变量,且自变量和因变量呈线性关系,而Logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况。常用于预测分类变量,其中主要是二分类变量。

例如,探讨影响用户复购的关键因素,并根据关键因素预测用户复购行为发生的概率等。选择两组人群,一组是复购组,一组是非复购组,两组人群必定具有不同的特征与购买行为等。因此因变量就为是否复购,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、购买频率、客单价、平均下单周期、购买品类占比情况等。自变量既可以是连续的,也可以是分类的。然后通过logistic回归分析,可以得到自变量的权重,从而可以大致了解到底哪些因素是产生复购行为的关键因素。同时可以根据关键因素预测用户复购的的可能性。从而可以通过运营策略去加大复购的可能性,提升店铺销量。

图4 模型拟合图

④其他回归方法:非线性回归、有序回归、Probit回归、加权回归等。

三、方差分析

定义:方差分析用于两个及两个以上样本均数差别的显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。

使用条件:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等。

例如,在饲料养鸡增肥的研究中,某研究所提出的三种饲料配方A、B、C。应该选择哪种饲料,对鸡增肥效果好且便宜?目的是为了比较三种饲料配方下鸡的平均重量是否相等。特选24只相似的雏鸡随机均分为三组,每组各喂一种饲料,60天定期观测它们的重量并记录。得到三组雏鸡重量数据,比较这三组数据之间是否存在显著性差异。若相等,可任选一种饲料,特别是可以选廉价饲料;若不等,应选增肥效果好的饲料。同理,可运用到相似场景中。

应用

①单因素方差分析:

单因素方差分析是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里,由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析。

例如,分析不同施肥量是否给农作物产量带来显著影响,考察地区差异是否影响妇女的生育率,研究学历对工资收入的影响等。这些问题都可以通过单因素方差分析得到答案。

②多因素方差分析:

多因素方差分析用来研究两个及两个以上控制变量是否对观测变量产生显著影响。这里,由于研究多个因素对观测变量的影响,因此称为多因素方差分析。多因素方差分析不仅能够分析多个因素对观测变量的独立影响,更能够分析多个控制因素的交互作用能否对观测变量的分布产生显著影响,进而最终找到利于观测变量的最优组合。

例如,分析不同品种、不同施肥量对农作物产量的影响时,可将农作物产量作为观测变量,品种和施肥量作为控制变量。利用多因素方差分析方法,研究不同品种、不同施肥量是如何影响农作物产量的,并进一步研究哪种品种与哪种水平的施肥量是提高农作物产量的最优组合。

③协方差分祈:

通过上述的分析可以看到,不论是单因素方差分析还是多因素方差分析,控制因素都是可控的,其各个水平可以通过人为的努力得到控制和确定。但在许多实际问题中,有些控制因素很难人为控制,但它们的不同水平确实对观测变量产生了较为显著的影响。

例如,在研究农作物产量问题时,如果仅考察不同施肥量、品种对农作物产量的影响,不考虑不同地块等因素而进行方差分析,显然是不全面的。因为事实上有些地块可能有利于农作物的生长,而另一些却不利于农作物的生长。不考虑这些因素进行分析可能会导致:即使不同的施肥量、不同品种农作物产量没有产生显著影响,但分析的结论却可能相反。这个时候就用到协方差分析。

四、假设检验

定义:假设检验(Hypothesis Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体作法是:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。常用的假设检验方法有u-检验法、t检验法、χ2检验法(卡方检验)、F-检验法,秩和检验等。

应用:

①参数检验

参数检验对参数平均值、方差进行的统计检验,参数检验是推断统计的重要组成部分。

②非参数检验

非参数检验是统计分析方法的重要组成部分,它与参数检验共同构成统计推断的基本内容。参数检验是在总体分布形式已知的情况下,对总体分布的参数如均值、方差等进行推断的方法。但是,在数据分析过程中,由于种种原因,人们往往无法对总体分布形态作简单假定,此时参数检验的方法就不再适用了。非参数检验正是一类基于这种考虑,在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。由于非参数检验方法在推断过程中不涉及有关总体分布的参数,因而得名为"非参数"检验。

非参数检验不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一般性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。

主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。


欢迎前往关注数据宝典公众号,更多数据分析知识分享,以及案例总结分享~~

在数据分析道路上,学无止境,终身成长。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,362评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,330评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,247评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,560评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,580评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,569评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,929评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,587评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,840评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,596评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,678评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,366评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,945评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,929评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,165评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,271评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,403评论 2 342

推荐阅读更多精彩内容

  • 16种常用的数据分析方法汇总 今天给大家整理了十六种常用的数据分析方法,供大家参考学习。 一、描述统计 描述性统计...
    wujingwin阅读 7,802评论 0 8
  • 《R语言与统计分析》的读书笔记 本书的重点内容及感悟: 第三章 概率与分布 1、随机抽样 通过sample()来实...
    格式化_001阅读 6,610评论 1 12
  • 数据分析方法汇总 一、描述统计 描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势...
    浮浮尘尘阅读 1,002评论 0 12
  • 1. 简述相关分析和回归分析的区别和联系。 回归分析和相关分析都是研究两个或两个以上变量之间关系的方法。 广义上说...
    安也也阅读 8,647评论 0 3
  • 常有亲人关心我的心情 也有朋友关注我的心情 自己很少过问自己的心情 我的心情 就像天上那云朵 情随事迁 时而聚散,...
    米雷聪聪阅读 1,268评论 0 0