数据分析之描述性分析

SPSS的模块按功能可以分为三部分:描述性分析、推断性分析、探索性分析。

1.描述性分析主要是对所收集的数据进行分析,得出反映客观现象的各种数量特征的一种分析方法,它包括数据的集中趋势分析、数据离散程度分析、数据的频数分布分析等,描述性分析是对数据进一步分析的基础。

2.推断性分析是研究如何根据样本数据来推断总体样本数量特征,它是在对样本数据进行描述统计分析的基础上,对研究总体的数量特征做出推断。常见的分析方法有假设检验、相关分析、回归分析、时间序列分析等方法。

3.探索性分析主要是通过一些分析方法从大量的数据中发现未知且有价值信息的过程,它不受研究假设和分析模型的限制,尽可能地寻找变量之间的关联性。常见的分析方法有聚类分析、因子分析、对应分析等方法。

文/黄成甲


频率分析

频率分析主要通过频数分布表、条形图和直方图,以及集中趋势和离散趋势的各种统计量来描述数据的分布特征,以便我们队数据的分布特征形成初步的认识,才能发现隐含在数据背后的信息,为后续数据分析提供方向和依据。

频率分析包括分类变量的频率分析和连续变量的频率分析。在SPSS里都采用频率表来做频率分析。对于连续变量数据的分析,描述的统计量包括百分位值、集中趋势、离散趋势和数据分布特征。

1.百分位值

百分位值主要用于对连续变量数据离散程度的测量,常用的百分位值是四分位数。它是将变量中的数据从小到大排序后,用三个数据点将数据分为四等份,与这三个点相对应的数值称为四分位数。由于是等分整个数据,这三个数据点分别位于数据的25%(第一四分位数)、50%(第二四分位数,也就是常用的中位数)和75%(第三四分位数)的位置。

2.集中趋势

集中趋势反映了数据向其中心值聚集的程度,是对数据一般水平的概括性度量,主要通过平均值、中位数和众数来表示。

集中趋势主要统计量

3.离散趋势

离散趋势反映了数据远离中心值的程度,是衡量集中趋势值对整个数据的代表程度。数据的离散度越大,说明集中趋势值的代表性越低;反之,数据的离散程度越接近于0,说明集中趋势值的代表性越高。数据的离散程度主要通过范围、标准差和方差来表示。

离散趋势主要统计量

4.分布特征

对于连续变量,在样本量较大的情况下,研究若你有会提出假设,认为数据应当服从某种分布,每种分布都可以采用一系列的指标来描述数据离散分布的程度。在图形的显示上,对于分类数据,如果需要了解数据分布,则可以选择条形图;如果需要了解数据结构,则选择饼图;而对于连续数据,选择直方图。

条形图和直方图的区别:

(1)条形图用于展示分类数据,直方图用于展示连续数据;

(2)条形图是用条形的长度表示各类别频数的多少,直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度表示各组的组距;

(3)直方图分组数据具有连续性,所以直方图的各矩形通常是连续排列的,而条形图表示分类数据,则是分开排列;

描述分析

描述分析与频率分析的不同之处在于:

(1)描述分析提供的统计量仅适用于连续变量,频率分析既可用于分析连续变量,也可用于分析分类变量;

(2)描述分析无相应统计图绘制输出,并且提供计算的统计量也相对较少。

但在描述性分析里可以进行Z标准化。

交叉表分析

交叉表示一种行列交叉的分类汇总表格,行和列上至少各有一个分类变量,行和列的交叉处可以对数据进行多种汇总计算,如求和、平均值、计数等。交叉表分析是用于分析两个或两个以上分类变量之间的关联关系,以交叉表格的形式进行分类变量间关系的对比分析。它的原理是从数据的不同角度综合进行分组细分,以进一步了解数据的构成、分布特征,它是描述分析常用方法之一。类似于EXcel的数据透视表。

频率分析、描述分析都是对单个变量进行分析,交叉表可以对多个变量在不同取值情况下的数据分布情况进行分析。从而进一步分析变量之间的相互影响和关系。

多选题定义

在SPSS里,多选题也称为多重响应集,意为使用多个变量记录答案,其中每个个案可以给出多个答案。

多选题数据录入的方式有两种:二分法和多重分类法。

(1)二分法:把每一个相应选项定义为一个变量,每一个变量值均做这样的定义——“0”代表未选,“1”代表选中,即对于被调查者选中的选项录入1,对未选的选项录入0。

(2)多重分类法:事先定义录入的数值,比如1,2,3,4,5分别代表选项A、B、C、D、E,并且根据多选题限选的项数确定应录入的变量个数。例如限选3项,那么需要设立3个变量,如果调查者在该题选ACD,则在3个变量下分别录入1、3、4。

在通常情况下,如果多选题没有限定选项个数,并且选项个数不多时,可以采用二分法录入。如果对选项的个数加以限定,则改用多重分类法进行录入。

数据报表制作

常见的表格类型有叠加表、交叉表和嵌套表。

(1)叠加表

同一张表中有多个同类变量的描述分析结果,可以简单地理解为对每个变量分别做同样的分析,然后将结果拼接在一起。

叠加表示意图

(2)交叉表

它是一种行列交叉的分类汇总表格,行和列上至少各有一个分类变量,行和列的交叉处可以对数据进行多种汇总计算,如计数、百分比、求和、平均值等。

交叉表示意图

(3)嵌套表

它是指多个变量放置在同一个表格维度中,也就是说,分析维度是由两个及以上变量的各种类别组合而成的。嵌套表主要应用在需要展现较多的统计指标时,能够使结果更为美观和紧凑。

嵌套表示意图

我的博客即将搬运同步至腾讯云+社区,邀请大家一同入驻:https://cloud.tencent.com/developer/support-plan?invite_code=16uhfxjtsalsw

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,992评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,212评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,535评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,197评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,310评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,383评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,409评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,191评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,621评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,910评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,084评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,763评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,403评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,083评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,318评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,946评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,967评论 2 351

推荐阅读更多精彩内容

  • 数据分析按功能分类 描述性分析 对所收集的数据进行分析,得出反映客观现象的各种数量特征 它包括数据的集中趋势分析、...
    还是太菜阅读 1,075评论 0 0
  • 目录: 数据准备 类别型数据分析 数值型数据分析查看数据分布查看异常值描述性统计分析数据分布模型 相关性分析 1....
    cathy1997阅读 2,484评论 0 1
  • 描述性统计描述性统计是用来概括、表述事物整体状况以及事物间关联、类属关系的统计方法。通过统计处理可以简洁地用几个统...
    AnthRax阅读 25,561评论 -1 5
  • 基本统计分析,又叫描述性统计分析,它是指运用制表、分类、图形以及计算概括性数据来描述数据特征的各项活动,以发现其内...
    小蚊子数据分析阅读 1,581评论 0 0
  • 久违的晴天,家长会。 家长大会开好到教室时,离放学已经没多少时间了。班主任说已经安排了三个家长分享经验。 放学铃声...
    飘雪儿5阅读 7,518评论 16 22