回答:如何进行描述性数据分析?
当所有数据收集回来之后,怎么样对数据进行分析?
小倪分三步骤讲解:数据大通关(讲解基本概念)操作跟着做 图标会解读
示范:
数据大通关
描述性统计研究
什么是描述性统计:
用一种比较简单的方式,呈现和概括一堆数据基本的特征。
常用的描述性统计分三个类别:
频率统计
集中量数
离散趋势
频率统计:计算每一种类别里究竟有多少个数据。也就是数数,数多少个。
集中量数:描述一堆数据聚拢的程度。好像要找出沙堆堆积的最高点,常用指标就是平均数,所有数据加起来的和,除以数据的个数。
离散趋势:描述一堆数据分散的程度。比如说:全距,用一组数据中最大值,减去最小数据,所得到的值。全距就描述这堆数据分散得有多宽,有多广。
案例:
比较三种不同读物的词汇量,那就把文本中每种等级的词汇,都列出来,就可以了,
所以频率统计是最适合这个研究的。
由于这个研究里每类读物都有28万词汇,人工来不及。
所以就用SPSS。
打开SPSS,首先要把分析的数据全都弄进SPSS中,即,录入。
案例中的两位学者用了range对文本词汇按照词频来排序。对于选定的28万个词汇,每个词汇都有一个编码,这就形成了一个变量,我们把这个变量叫做词汇类别。所以这一列数据就是按照单词出现的顺序,依次编码所收集到的数据,出现了一列数据。这里仅举例说明,这13个数据代表这句话里的13个单词。在这个软件最上层选项中,有一个分析按钮。点击分析,看到下拉菜单,每一种就是不同的分析方法。选择描述统计。右边菜单有不同描述统计的方法。本研究要选择频率。出现一个选择框,左边是已有的变量,右边是要进行分析的变量。把词汇类别,从左边拖拽到右边。单击右边的图表按钮。选择直方图,勾选在直方图上显示正态曲线,按继续按钮,回到上层菜单,按确定按钮。
完成数据分析,SPSS自动打开一个结果窗口,看到好几个图表。
第一个表:统计量的总体分析,报告一个研究中,所有数据的个数。专业术语叫:样本量。第一行,是有效数据个数,第二行是缺失数据的个数。
案例中两位学者的研究的有效值+缺失值,应该是28万多个。
第二个表:词汇类别。(需要重点分析)
第一列,不同类别,1000词库,2000词库,
第二列,每一种的个数。
第三列,它占总样本量的百分比。
第四列,个数占所有有效数据的比例。
第五列,累加百分比
1000词汇,总共6个,占所有数据13的46.2%,有效百分比 6/有效数值,因为我们这里举例中没有缺失数值,所以两个百分比一样。如果有缺失数值,通常,有效百分比比百分比略高一点。最后,累加百分比,1000词库6个单词,占46.2%。加2000词库的比例,69.2%左右。就是累加词汇。
案例中研究主要关心有效百分比,即每种词库分别占多少比例,以及从一千到两千到三千词汇,加起来总共的累加百分比,看什么时候能到98%。
直方图,用图片方式表示不同类别的个数。
横轴,不同类别
纵轴,个数
比如1000词汇,用1表示,其词汇总共有6个,它所代表的图形方块,就最高。
最后一步,就是要把答案呈现给别人,就是呈现结果。
数据分析结果——学术结果报告
具体来说,要遵循三个步骤。
第一步:对应问题。即,对应到具体的问题。
第二步:绘制图表。即,根据我们的问题重新绘制图表。
第三步:文字说明。即,给图片配上恰当的文字说明。
案例:
第一步:对应问题
研究问题1: What is the vocabulary size necessary to reach 98% coverage of text written for children?
所以我们要回答三种不同的文本中对词汇覆盖率的累加比例
什么时候能达到98%?
第二步:绘制图表
不能直接把SPSS的图表贴过去。要重新绘制。有三个要求:
要求:
简单:线条清晰。三线表,表里只有三条线,最上层、第一栏下、最下层
,此外,表里不要再加其他横线和竖线
清楚: 行列与符号 过长的词汇用缩写方式,缩写内容要在表格最下面标注。
明了:重要信息一定要标记。
当图表中看到达到98%的时候,就要用星号标注出来
第三步:文字说明
配合图表,为这些图表配上恰当的文字说明,来解释数字本身没有办法说明的问题。
说明相关数字之间的逻辑关系。
文字解说要进一步指出,
对于儿童读物、大人读物来说,至少需要10000词汇库才能覆盖98%的文本内容
对于外语学习者的分级读物:
只用3000词汇库就能覆盖98%的文本内容
对于前两种材料来说,1000词汇库只能覆盖82%和83.25%
2000词汇,只能接近90%的覆盖率
把这些关键数据抽取出来放在一起,加以解说,才能得出结论:
国外儿童读物确实比外语学习者的分级读物,更难一些。
案例中的语言表达:
介绍对应的表格
The cumulative coverage, including proper nouns and marginal words for the three corpora, is shown in Table 3.
介绍表里的数值的计算方式 即每个数值是什么含义?
The 83.25% in the top cell of School Journal is the sum of 79.57%()the coverage of the most frequent1,000 words), 3.47%(proper nouns), and 0.21% (marginal words)
列举关键数值,进行对比
Including proper nouns and marginal words, the vocabulary size required to reach 98% coverage was 10,000 word families for the School Journal and the WWC. In contrast, only 3,000 word families plus proper nouns and marginal words was necessary to reach 98% coverage of the graded readers.
#