第三章 数据准备
相信每个在外工作的人,都有过自己做饭的经历,当然做的好不好吃这就另说了,其实数据就好像我们用来做饭的米,做饭步骤相信大家都清楚,先从米具里舀出我们需要的米,然后放倒盆里进行淘洗,淘洗干净才能开始蒸米,最后得到香喷喷的米饭。对待数据我们也是这样先从数据库或者网页或其他数据源得到我们需要分析的数据,然后要使用Excel对数据进行处理,最后得到我们要进行数据分析前的数据,这就是数据准备。
1. 理解数据
数据由字段和记录组成,字段:事物或现象的某种特征,统计学也叫做变量;记录:事物或现象某种特征的具体表现,记录也叫变量值
举个例子:我身高173cm,“身高173cm”就是数据
2. 数据类型
常用数据类型(Excel里提供的):数字,文字,日期,货币,时间等
3. Excel里我们主要用到的数据类型
字符数据:这类数据就是字符,不具有计算的能力
数值数据:可用于计算的
4. 数据表(我们进行分析需要的表)
数据表的制作原则:
1)数据表由(标题行+数据部分)组成
2)第一行是列标题字段,不可重复
3)第二行起是数据部分,数据部分每一行数据称为一条记录(不可有空的行和列)
4)表中不可出现合并单元格
5)表与其他数据之间留>=1行空白行和1列空白列
6)数据表以一维形式存储,但实际中我们接触的很多都是二维表存放的数据,这是我们要把二维表转化为我们需要的一维表(数据表),如下图,二维表(左),一维表(右)
5. 二维表转化为一维表
法1)Excel里的[数据透视表],Excel里[插入]里的[数据透视表]
法2)Excel2016里可以直接通过[数据]里的[获取和转换]中的[从表格]进入查询编辑器,再选择[转换]中的[逆透视列]下的[逆透视其他列]
6. 数据来源
获取数据的方法分为两种:导入外部数据和自己录入数据,导入外部数据分为:导入文本和导入网站数据来源
方法:Excel[数据]的[导入外部数据]可以导入文本,选择本地文件,可以导入网页,同时还可对网页上的数据进行实时刷新
刷新方法:[数据]中的[刷新数据];或者单击外部数据任意单元格,然后单击鼠标右键[刷新],同时观察会发现这里还可以在[数据范围属性]里设置[刷新频率]或者[打开文件时刷新数据];还可以直接ctrl+c复制网站数据,在粘贴时选择[刷新]
7. 问卷录入要求(手动录入问卷)
我们在进行数据分析时,经常是基于一些问卷进行分析,怎么处理问卷使它变成对于我们有用直观的数据呢。首先我们要对问卷核实,清理,然后录入Excel
问卷中的题型:
数值题(打分,问满意程度之类的):输入实际输入的数值
单选题:定义一个变量X,对于A,X=1;B,X=2,这样用数字表示选项,对于单选题我们留一列作为数据输入列
多选题:多个答案,可以分为选项数不定,选项数限定,对于多选,我们通常有两种方法:
法1)二分法:每一个变量值对应一个选项,变量为“1”表示选择了该选项,“0”表示未选;例如:ACF(6个选项) 对应 1,0,1,0,0,1
法2)多重分类法:事先用数字代替录入的选项,对于ABCDEF:123456,所以例子:ACF 对应 1,3,6
排序题:需要对选项的重要性进行排序,这里也是用数字对应每个选项,把对应排序的数字录入
开放性文字题:一般放在问卷的结尾,需要被调查者填写文字,建议,如果可能的话按含义相同的答案进行归类编码,转换为多选题分析;如果答案丰富,要对这类问题进行定性分析