btw 我高中的时候解析几何最好,概率最差。最最讨厌概率(别人都觉得概率是送分题呃)
1.分步计数的例题
2.
二点分布:只存在‘是’、‘否’两种情况,概率是P、1-P
二项分布:n个事件,每次发生的概率都是P,总的发生的概率
超几何分布:一堆产品n中,合格品有m种,不合格品中有n-m种,取出一个产品刚好是合格品的概率。
3.
数学期望:理论上的平均数
4.方差、标准差
方差、标准差:反映离散程度的。例如老师预计这套试卷大多数人得分是120分,结果大家都考了120分,那么标准差就是0。
算一算出现次品的平均数和方差。
5.二项分布
做一个实验,做了n次,发生A事件的次数发生了K次。独立重复实验。
正态分布
x=u,u即是平均数,也称为对称轴。
δ是标准差,δ^2是方差。
线下面积是1,因为概率之和是1。可用积分求得。
回憶了一點點高中的統計學
Chaper 2 Descriptive Statistics 叙述统计
第一单元:如何以图形来展示资料(Graphs)
一、定性资料如何以图来表示?
—利用条图(Bar Graph),柏拉图(Pareto Diagram),单圆图(Pie Chart)。
raw data原始数据,定性资料的原始数据都是类别(yes or no),1000个Y和N两种。要算次数,比如Y发生几次,N发生几次。
1.条图:条图是用来比较及对照不同时期或类别间的差异。
作法:
⑴水平轴——种类,对每一种类录入直立条棒。
⑵垂直轴——观察值的次数,相对次数(次数/总次数)或百分比。
⑶每一跳棒有相同宽度。
⑷条棒彼此之间不相连接。
例1:某制造眼镜的公司认为欲改善镜片的品质需从制程着手,于是该公司的品管人员收集了某天产量中不良品的资料,并列出造成不良品之原因的次数资料,如下表所示。试用上表的资料绘制条图。
(我真的不会画,鼓捣了半天,口吐芬芳)
记得要改成data.frame,不然会一直提示
2.单圆图
3.柏拉图(Pareto):意大利经济学家柏拉图(Vilfredo Pareto)认为社会上大部分的财富是操纵在少数人的手中。在改善制程品质,品质工程师也发现,造成问题或缺失的因素也符合柏拉图原理。因此柏拉图分析是依据‘重要少数,琐细多数’分类法则,进而找出造成问题最关键几个少数因素。
作法:
⑴水平轴——种类,对每一种类绘入直立条棒。
⑵垂直轴——观察值的次数,相对次数或百分比。
⑶每一条棒须有相同宽度。
直方图
class boundaries
绘制直方图原则:data的分组不要分的太少,bar太少。
组数class,分组间隙class interval=2
n=30怎么分组?(组数太多太少都不行)
2的幂次方法则
2^4<n<2^5
所以适当的分组是:5组
原始数据特征值之计算
原始连续型数据分析之特征主要可分为以下四大类:
1.集中趋势 central tendency of location(台湾成年男子身高)
2.离中趋势 dispersion
3.偏态 skewness
4.峰态 kurtosis
1.集中趋势:[集中趋势指标]是表示一组数据中央位点位置所在的一个指标。
最常用的集中趋势指标:平均数、中位数、众数
1)平均数
群体平均数:
样本平均数:
其中N表示群体大小,n表示样本大小
3)众数:在一组数据,出现次数最多的数值称之。
何时用平均数?何时用中位数或众数?
平均数对离群值非常敏感,(就是一组数据中有个数据特别高)而中位数或众数则对离群值较不敏感,因此,当资料中有离群值时,则使用中位数或众数,否则,使用平均数。
离中趋势(Dispersion)
“离中趋势”是表示一组数据间差异大小或数值变化的一个量数。
三个主要量测离中趋势之量数:
全距(Range),变异数或标准差(Variance and Standard Deviation)及变异系数(Coefficient of Variation)
1)全距(R):全距是用来衡量一组数据差异最简单的方法:
公式:R=最大值-最小值
类别型资料,用条图比较好。算百分比。相对次数 relative frequency
(眼镜制片:镜片厚薄
连续型资料讲话:numerical data
偏态系数
盒须图
何为盒须图(Box Plot)
Q1:第一四分位数或第25百分位数。
Q2:第二四分位数或中位数(Md.)。
Q3:第三四分位数或第75百分位数。
Min Max
盒须图常常用来代替直方图(可用于连续型数据,也可用于偏
盒须图是资料的一种图形展示法,此图可同时标出资料之集中趋势、离中趋势、偏态、最小值、最大值等。
盒须图之主要功用:
从视觉上即可有效的找出资料之主要表征值。
盒须图之其他功用:
可同时比较
可辨认出离群值。outliner
何谓离群值: 1.5(Q3-Q1)~3(Q3-Q1)
辛普森诡辩