继续学习统计学,哲学老师教的条理清楚、通俗易懂。好像一位老师在身边手把手的教授,你想到没想到的疑惑,他就知道,你还没想到什么地方不对,他就预先知道了,早早的给你埋好了路标。
SPSS:(Statistical Package for the Social Sciences)为社会科学量身定做的软件包。另外常用软件还有:stata;R。
通常通过四步骤:数据录入、数据转化、数据分析、制作图表。
起始最重要是变项名称,一次输入不要拖延,会忘记。
数据清洗(data cleaning):数据录入很容易出错,最简单是看频次表,看异常值。
转换数据:重新编码;取对数;算平方。注意:“重新编码为不同变项”及时变更后台信息。
制图(graphs):图构建程序(chart builder)
分析(analyze):描述统计(descriptive statistics):频次、描述、交叉表;推理统计(inferential statistics):回归(最小二乘回归、对数回归)、降维(因子分析、量表)。
变项视图(variable view):后台信息,告诉我们数据库数字的意思。
实质相干的变项:互相影响的变项,可以当因变项,如:年薪高低、是否经理、教育程度。
理论相关的变项:影响因变项的自变项,如:年薪为因变项,自变项可能是性别、教育程度、是否经理、族裔。
数据:数据不是数字,是通过对我们感兴趣的某些个体属性进行量化得到的信息。“数”是符号,“据”是事实、信息,数据是以“数”标“据”。
数据库(data bank):数字组成的集合,每个数字都携带信息。
数据点、线、面、体:点是个体单个属性;线是每个变项的全部情况,测量层级越高,曲线越接近正态分布;面是两个变项分别形成的数据线可能(不一定形成)的数据面;体是三个或以上变项分别形成的数据线可能(不一定形成)的数据体,有多个面。
数据挖掘:分析数据关键是发现数据结构。
数据行:代表个体的若干属性。行数就是个体数。
数据列:代表变项(具体状态由操作定义和测量层级共同界定)+抽样信息+调研过程信息+权重
自己的数据库:1、自己调查得到;2、对现有别人数据库有“独到的理解”。注意:现有数据库,有可能关键变项被分享时保留。