20181128总结-统计概率01(数据分析思路)

先这样吧,回家用电脑修改格式。以下全是在soton学习统计概率第七章做的笔记。记录了主要的文字内容

 0001统计概率

1-统计概率与数据挖掘的关系?

统计概率是数据挖掘的基础,任何学数据挖掘和机器学习或者更高深的学习的时候都必须掌握统计学以及概率论的知识

2-统计学作用

统计更多的是教会我们如何使用一种统计的思维面对数据或者分析数据。统计学让我们学习一些基础的工具和方法让我们去分析数据

3-概率

概率是描述一种不确定性

4-描述性统计

面对一份数据如何分析、用哪些方法、从哪些角度去切入

5-统计数据分类

(主要记住第一种统计数据分类方法:分类数据、顺序数据、数值型数据)

(1)按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。分类数据是指只能归于某一类别的非数字型数据,比如性别中的男女就是分类数据。顺序数据是只能归于某一有序类别的非数字型数据,比如产品的等级。数值型数据是按数字尺度测量的观察值,它是自然或度量衡单位对事物进行测量的结果。

(2)按照统计数据的收集方法,可以将其分为观测数据和实验数据。观测数据是通过调查或观测而收集到的数据,它是在没有对事物进行人为控制的条件下得到的,有关社会经济现象的统计数据几乎都是观测数据。在实验中控制实验对象而收集到的数据则称为实验数据。

(3)按照被描述的对象与时间的关系,可以将统计数据分为截面数据和时间序列数据。在相同或近似相同的时间点上收集到的数据称为截面数据。在不同时间上收集到的数据,称为时间序列数据。


0002描述统计:表格法和图形法

                          —(分类型数据、连续型数据、数量型数据)


一、表格法和图形法:分类型数据汇总

用文本描述的肯定是分类变量、用数值描述的不一定是连续变量(EG:星期几一般是离散变量)。总之分类型的数据没有大小的

数据值型的数据是有大小关系的(EG:身高、电影时长)

1、 频数分布

一般使用数据透视表进行分析。计算每个值(文本)的频数(数量)

2、相对频数分布

每个文本对应的数量 / 所有文本累计数量

3、百分数频数分布

(每个文本对应的数量 / 所有文本累计数量)* 100%

4、柱状图

用柱状图表达频数的分布

5、饼形图

小结:分类型数据第一步是看它的频数分布。看一下条形图、看一下饼形图、看一下频数分布。分类型数据分析的方法非常少


二、表格法和图形法:数量型数据汇总/连续型数据分布

1、频数分布。三步骤:

A 确定互补重叠的组数:规定数据范围,这个范围用于数据进行分组,一般选取5—20

将连续数据进行分组(分层)

B 确定每组的宽度:每组宽度相同。近似组宽 = (最大值 – 最小值)/ 组数

C 确定组限,保证每一个数据属于且只属于一组

将连续的特征离散化

2、直方图hist

变量放置在横轴上,频数放置在纵轴上。每组的频数用一个长方形绘制

添加数据分析工具库

(直方图就是某种条件下的频数分布可视化形式)

小结:统计连续性特征的频数,可以了解数据大致的分布


三、表格法和图形法:双变量—交叉分组和散点图

1、交叉分组表是一种汇总两个变量数据的方法,两个变量可以是分类或者是数量的。最常见的是一个变量为分类,一个变量是数量。

2、散点图是对两个数量变量间关系的图形描述,趋势线是显示相关性近似程度的一条线


0003描述统计:数值方法(连续型数据)


一、位置的度量

二、变异程度的度量

三、分布形态、相对位置的度量以及异常值的检测

四、五数概括法

五、两变量关系的度量


前言1:当我们拿到一份数据是连续型数据的时候,,第一时间想到我们怎么考察这个数据分析这个数据。比如老板给你一份2018年全年的销售数据你应该怎么分析应该有这种思路从频数分布来衡量、位置的角度来衡量、从变异程度来衡量、从相对位置度量检测是否有异常值、包括五数概括法。这些都是我们用来分析的思路

前言:刚刚讲了描述性统计最基础的图表法来描述数据特征,而我们刚刚也说了分类型数据的方法非常少,但是连续型数量型、数值型它的方法就非常多,刚才讲的就是最基础的图形法图表法,这一章节主要讲解数量型/连续型数据的数值计算方法。

以后在面对数据的时候需要从这几个方法切入数据,提出结论用来进行分析报告。这些方法是统计最简单最常用的分析数据


一、数值方法:位置的度量(连续型数据)

1、平均数

平均数存在众多的缺陷,当你有一个极小值或者极大值存在的时候。虽然平均数存在缺陷但是我们可以通过某些计算方式克服掉

2、中位数

所有数据中间的位置。不受极端值的影响。计算中位数首先要从小到大排序

3、众数

出现次数做多的数字,相当于计算频数

4、百分位数

百分位数首先还是要排序。

百分位数提供了数据如何散布在从最小值到最大值的区间上的信息

百分位数是一个数字。

计算第P百分位数:

A 、把数据从小到大排序

B 、计算指数i = (P / 100)* n

C 、P是所求的百分位数,比如25%分位数,P就等于25。n 是观测值的个数,即数据的总个数

D 、若i不是整数,向上取整。大于i的下一个整数表示第P百分位数的位置(百分位数的位置是一个数)。若i是整数,则第P百分位数是第i 项和i+1项的数据平均

5、四分位数

小结:位置的度量除了传统的平均数和中位数。我们更多的是百分位数和四分位数


二、数值方法:变异程度的度量(连续型数据)

数据的波动情况是什么样的

1、极差

2、四分位数间距

Q3 – Q2 (75% - 50%、75% - 25%)。可以克服异常值的影响,极差不能克服异常值的影响

3、方差

对数据变异程度做的一种度量,方差越大变异程度越大。

在统计学里面一个是总体一个是样本。总体方差和样本方差有一点点不同,不同的地方在分母上。我们一般计算方差都是样本方差,无法取到全部的数据

方差越大变异程度越大,方差越小变异程度越小

4、标准差S

方差开根号就是标准差。可以转换为与原始数据一样的单位

5、标准差系数

标准差系数 = (标准差 / 平均数) * 100%

小结:如何要知道数值型数据的变异程度我们就要从这额几个指标来进行计算。


三、数值方法:分布形态、相对位置的度量以及异常值的检测(连续型数据)

1、Z—分数,也叫标准分数。被认为是对数据集中观测值相对位置的度量

A、Z分数 = (观测值 – 平均数)/ 标准差

B、观测值 – 平均数:表示观测值与平均数的距离。

C、得出的值描述为:观测值比平均值小1.2个标准差,观测值比平均值大2个标准差,如果不同观测值的Z分数相同可以说它们的相对位置是相同的

D、Z分数可以用来检测异常值。经验法则,当数据符合正态分布的时候,大部分数据与平均数的距离都是3个标准差之内;如果观测值与平均值之间距离超过3个标准差就是异常值

E、Z分数在学习模型的时候经常用到。

2、切比雪夫定理

定义:与平均数的距离在Z个标准差之内的数值所占比例至少为(1 – 1/Z^2),其中Z是大于1的任意实数

Z表示Z分数。


3、异常值检测(线箱图BOXPLOX)

A 、上限:Q1 – 1.5 * IQR

Q1表示25%分位数,IQR表示四分位距

B 、下限:Q3 + 1.5 * IQR

Q3表示75%分位数


四、数值方法:五数概括法(连续型数据)

1、最小值、最大值、Q1(25%分位数)、Q2(50%分位数)、Q3(75%分位数);线箱图是表达五数概括法数据的图形

2、下限lower limit  、上限upper limit


五、数值方法:两变量关系的度量(连续型数据)

1、协方差Sxy

协方差正负代表了x和y关系的方向,数值的大小代表了关系的强弱,数值越大代表关系越强,数值越小代表关系越弱

协方差会受到数据单位的计量(缺陷)


2、皮尔逊相关系数Rxy

Rxy = Sxy / Sx * Sy

Rxy:相关系数

Sx:X的标准差

Sy:Y的标准差

A、相关系数在-1到1之间,正负代表了X和Y关系的方向(比如身高和体重会成正相关),数值大小代表了关系的强弱,数值越大代表相关性越强,数值越小代表相关性越小。如果是1代表完全一致的相关性或者说非常强的相关性。

B、皮尔逊相关系数越接近于1他们的相关性越强,越接近于0他们的相关性越弱。0的时候代表它们没有任何关系

C、相关系数我只是提供了显性的提供了这两个变量之间他们是否有相关性,并不代表有因果关系

小结:如果拿到两个连续性的特征进行分析,可以做散点图,可以用seaborn作出那条直线、后面还会讲到置信区间,可以用数值的方法皮尔逊相关系数来衡量他们之间的关系。皮尔逊相关系数是一个比较重要的概念,凡是想到两个变量之间是否相关我们一般会用到皮尔逊相关系数


20181209排版更新星期天

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,539评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,911评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,337评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,723评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,795评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,762评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,742评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,508评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,954评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,247评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,404评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,104评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,736评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,352评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,557评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,371评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,292评论 2 352

推荐阅读更多精彩内容