先这样吧,回家用电脑修改格式。以下全是在soton学习统计概率第七章做的笔记。记录了主要的文字内容
0001统计概率
1-统计概率与数据挖掘的关系?
统计概率是数据挖掘的基础,任何学数据挖掘和机器学习或者更高深的学习的时候都必须掌握统计学以及概率论的知识
2-统计学作用
统计更多的是教会我们如何使用一种统计的思维面对数据或者分析数据。统计学让我们学习一些基础的工具和方法让我们去分析数据
3-概率
概率是描述一种不确定性
4-描述性统计
面对一份数据如何分析、用哪些方法、从哪些角度去切入
5-统计数据分类
(主要记住第一种统计数据分类方法:分类数据、顺序数据、数值型数据)
(1)按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。分类数据是指只能归于某一类别的非数字型数据,比如性别中的男女就是分类数据。顺序数据是只能归于某一有序类别的非数字型数据,比如产品的等级。数值型数据是按数字尺度测量的观察值,它是自然或度量衡单位对事物进行测量的结果。
(2)按照统计数据的收集方法,可以将其分为观测数据和实验数据。观测数据是通过调查或观测而收集到的数据,它是在没有对事物进行人为控制的条件下得到的,有关社会经济现象的统计数据几乎都是观测数据。在实验中控制实验对象而收集到的数据则称为实验数据。
(3)按照被描述的对象与时间的关系,可以将统计数据分为截面数据和时间序列数据。在相同或近似相同的时间点上收集到的数据称为截面数据。在不同时间上收集到的数据,称为时间序列数据。
0002描述统计:表格法和图形法
—(分类型数据、连续型数据、数量型数据)
一、表格法和图形法:分类型数据汇总
用文本描述的肯定是分类变量、用数值描述的不一定是连续变量(EG:星期几一般是离散变量)。总之分类型的数据没有大小的
数据值型的数据是有大小关系的(EG:身高、电影时长)
1、 频数分布
一般使用数据透视表进行分析。计算每个值(文本)的频数(数量)
2、相对频数分布
每个文本对应的数量 / 所有文本累计数量
3、百分数频数分布
(每个文本对应的数量 / 所有文本累计数量)* 100%
4、柱状图
用柱状图表达频数的分布
5、饼形图
小结:分类型数据第一步是看它的频数分布。看一下条形图、看一下饼形图、看一下频数分布。分类型数据分析的方法非常少
二、表格法和图形法:数量型数据汇总/连续型数据分布
1、频数分布。三步骤:
A 确定互补重叠的组数:规定数据范围,这个范围用于数据进行分组,一般选取5—20
将连续数据进行分组(分层)
B 确定每组的宽度:每组宽度相同。近似组宽 = (最大值 – 最小值)/ 组数
C 确定组限,保证每一个数据属于且只属于一组
将连续的特征离散化
2、直方图hist
变量放置在横轴上,频数放置在纵轴上。每组的频数用一个长方形绘制
添加数据分析工具库
(直方图就是某种条件下的频数分布可视化形式)
小结:统计连续性特征的频数,可以了解数据大致的分布
三、表格法和图形法:双变量—交叉分组和散点图
1、交叉分组表是一种汇总两个变量数据的方法,两个变量可以是分类或者是数量的。最常见的是一个变量为分类,一个变量是数量。
2、散点图是对两个数量变量间关系的图形描述,趋势线是显示相关性近似程度的一条线
0003描述统计:数值方法(连续型数据)
一、位置的度量
二、变异程度的度量
三、分布形态、相对位置的度量以及异常值的检测
四、五数概括法
五、两变量关系的度量
前言1:当我们拿到一份数据是连续型数据的时候,,第一时间想到我们怎么考察这个数据分析这个数据。比如老板给你一份2018年全年的销售数据你应该怎么分析应该有这种思路从频数分布来衡量、位置的角度来衡量、从变异程度来衡量、从相对位置度量检测是否有异常值、包括五数概括法。这些都是我们用来分析的思路
前言:刚刚讲了描述性统计最基础的图表法来描述数据特征,而我们刚刚也说了分类型数据的方法非常少,但是连续型数量型、数值型它的方法就非常多,刚才讲的就是最基础的图形法图表法,这一章节主要讲解数量型/连续型数据的数值计算方法。
以后在面对数据的时候需要从这几个方法切入数据,提出结论用来进行分析报告。这些方法是统计最简单最常用的分析数据
一、数值方法:位置的度量(连续型数据)
1、平均数
平均数存在众多的缺陷,当你有一个极小值或者极大值存在的时候。虽然平均数存在缺陷但是我们可以通过某些计算方式克服掉
2、中位数
所有数据中间的位置。不受极端值的影响。计算中位数首先要从小到大排序
3、众数
出现次数做多的数字,相当于计算频数
4、百分位数
百分位数首先还是要排序。
百分位数提供了数据如何散布在从最小值到最大值的区间上的信息
百分位数是一个数字。
计算第P百分位数:
A 、把数据从小到大排序
B 、计算指数i = (P / 100)* n
C 、P是所求的百分位数,比如25%分位数,P就等于25。n 是观测值的个数,即数据的总个数
D 、若i不是整数,向上取整。大于i的下一个整数表示第P百分位数的位置(百分位数的位置是一个数)。若i是整数,则第P百分位数是第i 项和i+1项的数据平均
5、四分位数
小结:位置的度量除了传统的平均数和中位数。我们更多的是百分位数和四分位数
二、数值方法:变异程度的度量(连续型数据)
数据的波动情况是什么样的
1、极差
2、四分位数间距
Q3 – Q2 (75% - 50%、75% - 25%)。可以克服异常值的影响,极差不能克服异常值的影响
3、方差
对数据变异程度做的一种度量,方差越大变异程度越大。
在统计学里面一个是总体一个是样本。总体方差和样本方差有一点点不同,不同的地方在分母上。我们一般计算方差都是样本方差,无法取到全部的数据
方差越大变异程度越大,方差越小变异程度越小
4、标准差S
方差开根号就是标准差。可以转换为与原始数据一样的单位
5、标准差系数
标准差系数 = (标准差 / 平均数) * 100%
小结:如何要知道数值型数据的变异程度我们就要从这额几个指标来进行计算。
三、数值方法:分布形态、相对位置的度量以及异常值的检测(连续型数据)
1、Z—分数,也叫标准分数。被认为是对数据集中观测值相对位置的度量
A、Z分数 = (观测值 – 平均数)/ 标准差
B、观测值 – 平均数:表示观测值与平均数的距离。
C、得出的值描述为:观测值比平均值小1.2个标准差,观测值比平均值大2个标准差,如果不同观测值的Z分数相同可以说它们的相对位置是相同的
D、Z分数可以用来检测异常值。经验法则,当数据符合正态分布的时候,大部分数据与平均数的距离都是3个标准差之内;如果观测值与平均值之间距离超过3个标准差就是异常值
E、Z分数在学习模型的时候经常用到。
2、切比雪夫定理
定义:与平均数的距离在Z个标准差之内的数值所占比例至少为(1 – 1/Z^2),其中Z是大于1的任意实数
Z表示Z分数。
3、异常值检测(线箱图BOXPLOX)
A 、上限:Q1 – 1.5 * IQR
Q1表示25%分位数,IQR表示四分位距
B 、下限:Q3 + 1.5 * IQR
Q3表示75%分位数
四、数值方法:五数概括法(连续型数据)
1、最小值、最大值、Q1(25%分位数)、Q2(50%分位数)、Q3(75%分位数);线箱图是表达五数概括法数据的图形
2、下限lower limit 、上限upper limit
五、数值方法:两变量关系的度量(连续型数据)
1、协方差Sxy
协方差正负代表了x和y关系的方向,数值的大小代表了关系的强弱,数值越大代表关系越强,数值越小代表关系越弱
协方差会受到数据单位的计量(缺陷)
2、皮尔逊相关系数Rxy
Rxy = Sxy / Sx * Sy
Rxy:相关系数
Sx:X的标准差
Sy:Y的标准差
A、相关系数在-1到1之间,正负代表了X和Y关系的方向(比如身高和体重会成正相关),数值大小代表了关系的强弱,数值越大代表相关性越强,数值越小代表相关性越小。如果是1代表完全一致的相关性或者说非常强的相关性。
B、皮尔逊相关系数越接近于1他们的相关性越强,越接近于0他们的相关性越弱。0的时候代表它们没有任何关系
C、相关系数我只是提供了显性的提供了这两个变量之间他们是否有相关性,并不代表有因果关系
小结:如果拿到两个连续性的特征进行分析,可以做散点图,可以用seaborn作出那条直线、后面还会讲到置信区间,可以用数值的方法皮尔逊相关系数来衡量他们之间的关系。皮尔逊相关系数是一个比较重要的概念,凡是想到两个变量之间是否相关我们一般会用到皮尔逊相关系数
20181209排版更新星期天