CDA level I 数据分析概念与统计学基础

CDA level I考试大纲 Part1 数据分析概念与统计学基础 占考试比例的30%;

共分5个知识方向,考试占比分布如下:数据分析概念,方法论 流程 5% 描述性统计分析 12% 推断性统计分析8% 方差分析2% 一元线性回归分析3%;

第1个知识方向的笔记,数据分析概念,方法论 流程,再考试题目中出题概率占5%;

一、数据分析概念

目标:以数据为分析对象,以探索数据内的有用信息为主要途径,以解决业务需求为最终目标而建立的一整套分析流程

流程:业务理解,数据采集,数据清洗,数据探索,数据可视化,数据建模,模型结果可视化,分析结果的业务应用;

目的:是为业务发展答疑解惑;

分析层次:描述了 过去发生了什么,现在正在发生什么以及未来可能发生什么。

分析级别:常规报表,即席查询,多维分析,警报;描述阶段 统计分析,预报(时间序列预测),预测型模型(预测性 prdictive模型),优化;挖掘阶段

数据挖掘(Data mining)是一个跨学科的计算机科学分支,是用人工智能,机器学习,统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程。

大数据对传统小数据分析的拓展及区别联系: 数据上:小数据重抽样,大数据重全体;

                                                                         方法上:小数据重实证,大数据重优化;

                                                                         目标上:小数据重解释,大数据重预测;

数据分析目标的意义过程及本质: 数据分析涉及到公司运营的方方面面;重头戏是客户和市场。

二、数据分析的方法论:

      CRISP-DM:将数据挖掘项目生命周期分为6个阶段 业务理解(Business understanding) 数据理解(Data Understanding) 数据准备(Data preparation) 建模(modeling) 模型评估(evaluation) 模型发布(deployment)

      SEMMA:SAS公司根据CRISP-DM进行了拓展,将数据分析分为了5个步骤: 数据整理(sample)构造分析用的到的数据,将散落在内部和外部的数据进行整合。 样本探索(explore)对数据质量进行探索。变量质量:错误值,恰当性,缺失值,一致性,平稳性,重复值,及时性)变量错误时 是否可以修改,是否可以使用的问题 变量修改(modify)数据质量问题的修改涉及:改正错误编码,缺失值填补,单位统一等操作,变量分布情况的修改涉及:函数转换和标准化方法。 建模(model)选取合适的模型。 模型检验(assess)模型样本内验证。

三、数据分析师在业务流程中的作用角色和职责:

       数据分析师在业务与数据间起到协调的作用,是业务问题能否成功转换成统计问题的关键。协调者,数据分析师,报告人的角色决定了数据分析师是一名综合性人才。

第2个知识方向 描述性统计分析 ,再考试中题型分布占12%

大纲要求熟知领会知识点:衡量数据集中趋势,离中趋势和数据分布的常用指标及计算方法;统计图形的绘制 元素调整,可视化效果---条形图,线图,直方图,盒须图,散点图,气泡图,马赛克图,玫瑰图 明确统计图形对统计指标表达上的对应关系。

一、数据的计量尺度:

计量分类:名义测量:(nominal measurement)最低的测量等级,这类变量一般不做高低大小区分,数值仅代表某些分类和属性。

                 次序测量:(ordinal measurement)量化水平高于名义测量,数值代表了一些有序分类,具有一定的顺序性

                 连续变量测量(间距测量):(interval measurement)量化程度更高一些。取值不再是类的编码,采用了一定单位的实际测量值。可进行加减运算。不能乘除。0值不是物理上的绝对0;

                 连续变量测量(比例测量):(ratio measurement)最高级的测量等级,具有间距测量额所有性质,且0值有物理上的绝对意义,可以进行加减乘除。

变量分类:分类变量:通常可以检查变量的 众数,分类取值的百分比间的差别大小,有无太小的比例(异常值)

                                   频次:每个水平出现的次数

                                   百分比:每个水平出现的频数/总数

                                   累积频次与累积百分比:仅对于次序变量有意义,分别计算累积频次和百分比

                 顺序变量:众数,频次,百分比,累积频次与百分比,四分位差

                 连续变量:中心水平,离散程度,偏度和峰度

                 以上变量顺序量化水平是由低到高的,低水平变量统计量可以用于高水平,但高水平统计量不一定能用于低水平。

二、中心水平:

统计量:均值,中位数和众数;

               众数:出现次数最多的变量值。可能没有或者有几个众数。

               中位数:排序后处于中间位置的值,一定要先排序,一般用M表示

               均值(四分位数):定义方式类似于中位数,中位数 百分之50对应的数值。Q1称为下四分位数,Q3称为上四分位数,Q2称为中位数。                均值(算数平均数):样本平均数:X拔=样本之和除以样本数量n 总体平均数:μ=总体数据之和除以总体数量N;

               均值(加权平均数):样本加权平均数:x拔=样本乘以权重后的加和除以权重之和=样本乘以权重后的加和除以样本数量n 总体加权平均数:μ=样本乘以权重后加和除以权重之和=样本乘以权重后的加和除以整体数量N

               均值(几何平均数):适用于计算比率数据的平均,主要用于计算平均增长率。G=所有数据乘积后开n次方;

众数和中位数不易受到极端值得影响,平均数易受到极端值得影响。

众数和中位数适合在非对称情况下使用,众数不是唯一的。

三、离散程度: 

 当知道一个变量的中心水平后,还想知道这个指标到底有多大的代表性。 如果变量变化范围特别小,甚至是常数,这个水平变量就非常有代表意义。

离散程度度量指标:异众比率:非众数组的频数占总频数的比例;r=1-(众数频数/总体频数)主要用于测量分类变量的离散程度。

                                 极差:最大值减去最小值

                                 四分位差:上分位数减去下分位数;Q3-Q1=IQR

                                 方差:总体方差:σ方=(样本值-总体平均数μ)的平方之和除以总体数量N;

                                             样本方差:S方=(样本值-样本平均数X拔)的平方之和除以(样本数量n-1);

                                 标准差:总体标准差 σ=总体方差σ方开平方;

                                                样本标准差S=样本方差S方开平方;

方差在统计学中也称二阶中心距,实际是每个取值到均值之间的距离均值。标准差是描述分析中使用最多的。

零阶矩表示这些点的 总概率(也就是1);

一阶矩表示 期望;

二阶(中心)矩表示 方差;

三阶(中心)矩表示 偏斜度;

四阶(中心)矩表示 峰度

偏度:用户刻画偏态的程度(统计数据峰值与平均值不相等的频率分布)。

偏态有两种情况: 左偏,变量在负的方向有严重拖尾,从小到大排序如下:mean(平均数)median(中位数)mode(众数)

                              右偏,在正的方向有严重拖尾。从小到大排序如下:mode(众数)median(中位数)mean(平均数)

峰度:变量向两边拖尾的情况。相比正态分布,变量是尖峰的, 超过2倍标准差数值的概论会大于5%;超过3倍标准差数值的概论会大于1%;表明出现较大偏离值的可能性提高了。

            正态分布 峰度系数=3,厚尾(峰度值>3)尖峰,瘦尾(峰度值<3)平顶

四、统计图形绘制,图形元素调整 可视化效果与应用

条形图: 很好的展现变量分布情况。但是连续变量不可能做出条形图。

盒须图: 箱线图,提供了中位数,均值,上下分位点的信息。可以了解变量的中心水平,也可以了解变量的变化范围。 内限:最大值和最小值;最大值为 上分位点加上1.5倍的内分位距(IQR)最小值 下分位点-1.5倍的内分位距 超过1.5倍的内分位距的取值称为异常值,或离群值。 IQR=Q3-Q1;

玫瑰图: 南丁格尔玫瑰图。 它可以用转角,扇形面积,以及颜色展现数据的不同维度。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,542评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,596评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,021评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,682评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,792评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,985评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,107评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,845评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,299评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,612评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,747评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,441评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,072评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,828评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,069评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,545评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,658评论 2 350

推荐阅读更多精彩内容