数据与统计学

统计学:收集、处理、分析、解释数据并从数据中得出结论的科学

统计学所提供的是是一系列有关数据收集、处理和分析的方法。

收集数据:取得数据
处理数据:图表展示
分析数据:利用统计方法分析数据
数据解释:结果的说明
得到结论:从数据分析中得出客观结论

数据分析

数据分析是利用统计方法对数据进行分析,数据分析所使用的方法大体分为两种:描述统计与推断统计(descriptive statistics & inferential statistics)

一、变量与数据

  • 变量(variable):描述所观察对象某种特征的概念,其的特点是从一次观察到下一次观察可能会出现不同结果

观察一个企业的销售额,这个月和上个月有所不同;观察股票市场上涨股票的家数,今天与昨天数量不一样;观察一个班学生的生活费支出,一个人和另一个人不一样;投掷一枚骰子观察其出现的点数,这次投掷的结果和下一次也不一样
“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”等就是变量

  • 数据(data):变量的观测结果

二、变量分类

  1. 类别变量(categorical variable)
    取值为事物属性或类别以及区间值的变量,也称分类变量(classified variable)定性变量(qualitative variable)

    比如,观察人的性别、公司所属的行业、用户对商品的评价时,得到的结果就不是数字,而是事物的属性此外,考虑学生月生活费支出的档次可能分为1000以下、1000—1500、1500—2000、2000以上4档,作为变量的“月生活费支出档次”这4档取值也不是普通的数值,而是数值区间,因而也称为区间值类别变量

    类别变量根据取值是否有序分为两种
     名义(nominal)值类别变量也称无序类别变量,其取值是不可以排序的
     顺序(ordinal)值类别变量也称有序类别变量,其取值间可以排序
     当类别变量只取两个值时也称为二值(binary)类别变量,例如“性别”这一变量取值为男和女。二值变量可以看成名义变量,也可以看成有序变量

  2. 数值变量(metric variable)
    取值为数字的变量,也称为定量变量(quantitative variable)

    数值变量的观察结果称为数值数据(metric data)或定量数据

    数值型变量根据其取值的不同,可以分为离散变量(discrete variable)连续变量(continuous variable)。离散型变量是只能取有限个值是变量,而且其取值可以一一列举。连续型变量是可以在一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举,当离散变量的取值很多时,也可以将离散变量当作连续变量来处理

三、数据的来源

  • 寻找二手数据
  • 抽取样本
    总体(population):包含所研究的全部个体(数据)的集合
    样本(sample):从总体中抽取的一部分元素的集合
    样本量(sample size):构成样本的元素的数目
  • 概率抽样方法
    例如简单随机抽样、分层抽样、系统抽样、整群抽样等。

四、概率抽样方法

  1. 概率抽样(probability sampling):根据一个已知的概率来抽取样本单位,也称随机抽样
    特点:
     按一定的概率以随机原则抽取样本
     抽取样本时使每个单位都有一定的机会被抽中
     每个单位被抽中的概率是已知的,或是可以计算出来的
     当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率

  2. 简单随机抽样(simple random sampling)
    从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中 。抽取元素的具体方法有重复抽样和不重复抽样

    特点
     简单、直观,在抽样框完整时,可直接从中抽取样本
     用样本统计量对目标量进行估计比较方便

    局限性
     当N很大时,不易构造抽样框
     抽出的单位很分散,给实施调查增加了困难
     没有利用其他辅助信息以提高估计的效率

简单随机样本(simple random sample): 由简单随机抽样形成的样本
从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为n样本都有相同的机会(概率)被抽中。参数估计和假设检验所依据的主要是简单随机样本

  1. 分层抽样(stratified sampling):将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本
    优点:
     保证样本的结构与总体的结构比较相近,从而提高估计的精度
     组织实施调查方便
     既可以对总体参数进行估计,也可以对各层的目标量进行估计

  2. 系统抽样(systematic sampling)
    将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位
    先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位
     优点:操作简便,可提高估计的精度
     缺点:对估计量方差的估计比较困难

  3. 整群抽样(cluster sampling):将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查
    特点
     抽样时只需群的抽样框,可简化工作量
     调查的地点相对集中,节省调查费用,方便调查的实施
     缺点是估计的精度较差

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容