对不起数学老师系列一

btw 我高中的时候解析几何最好，概率最差。最最讨厌概率（别人都觉得概率是送分题呃）

1.分步计数的例题

二点分布：只存在‘是’、‘否’两种情况，概率是P、1-P

二项分布：n个事件，每次发生的概率都是P，总的发生的概率

超几何分布：一堆产品n中，合格品有m种，不合格品中有n-m种，取出一个产品刚好是合格品的概率。

数学期望：理论上的平均数

4.方差、标准差

方差、标准差：反映离散程度的。例如老师预计这套试卷大多数人得分是120分，结果大家都考了120分，那么标准差就是0。

算一算出现次品的平均数和方差。

5.二项分布

做一个实验，做了n次，发生A事件的次数发生了K次。独立重复实验。

正态分布

x=u，u即是平均数，也称为对称轴。

δ是标准差，δ^2是方差。

线下面积是1，因为概率之和是1。可用积分求得。

回憶了一點點高中的統計學

Chaper 2 Descriptive Statistics 叙述统计

第一单元：如何以图形来展示资料（Graphs）

一、定性资料如何以图来表示？

—利用条图（Bar Graph），柏拉图（Pareto Diagram），单圆图（Pie Chart）。

raw data原始数据，定性资料的原始数据都是类别（yes or no），1000个Y和N两种。要算次数，比如Y发生几次，N发生几次。

1.条图：条图是用来比较及对照不同时期或类别间的差异。

作法：

⑴水平轴——种类，对每一种类录入直立条棒。

⑵垂直轴——观察值的次数，相对次数（次数/总次数）或百分比。

⑶每一跳棒有相同宽度。

⑷条棒彼此之间不相连接。

例1：某制造眼镜的公司认为欲改善镜片的品质需从制程着手，于是该公司的品管人员收集了某天产量中不良品的资料，并列出造成不良品之原因的次数资料，如下表所示。试用上表的资料绘制条图。

(我真的不会画，鼓捣了半天，口吐芬芳)

记得要改成data.frame，不然会一直提示

2.单圆图

3.柏拉图（Pareto）：意大利经济学家柏拉图（Vilfredo Pareto）认为社会上大部分的财富是操纵在少数人的手中。在改善制程品质，品质工程师也发现，造成问题或缺失的因素也符合柏拉图原理。因此柏拉图分析是依据‘重要少数，琐细多数’分类法则，进而找出造成问题最关键几个少数因素。

作法：

⑴水平轴——种类，对每一种类绘入直立条棒。

⑵垂直轴——观察值的次数，相对次数或百分比。

⑶每一条棒须有相同宽度。

直方图

class boundaries

绘制直方图原则：data的分组不要分的太少，bar太少。

组数class，分组间隙class interval=2

n=30怎么分组？（组数太多太少都不行）

2的幂次方法则

2^4<n<2^5

所以适当的分组是：5组

原始数据特征值之计算

原始连续型数据分析之特征主要可分为以下四大类：

1.集中趋势 central tendency of location（台湾成年男子身高）

2.离中趋势 dispersion

3.偏态 skewness

4.峰态 kurtosis

1.集中趋势：[集中趋势指标]是表示一组数据中央位点位置所在的一个指标。

最常用的集中趋势指标：平均数、中位数、众数

1）平均数

群体平均数：

样本平均数：

其中N表示群体大小，n表示样本大小

3）众数：在一组数据，出现次数最多的数值称之。

何时用平均数？何时用中位数或众数？

平均数对离群值非常敏感，（就是一组数据中有个数据特别高）而中位数或众数则对离群值较不敏感，因此，当资料中有离群值时，则使用中位数或众数，否则，使用平均数。

离中趋势（Dispersion）

“离中趋势”是表示一组数据间差异大小或数值变化的一个量数。

三个主要量测离中趋势之量数：

全距（Range），变异数或标准差（Variance and Standard Deviation）及变异系数（Coefficient of Variation）

1）全距（R）：全距是用来衡量一组数据差异最简单的方法：

公式：R=最大值-最小值

类别型资料，用条图比较好。算百分比。相对次数 relative frequency

（眼镜制片：镜片厚薄

连续型资料讲话：numerical data

偏态系数

盒须图

何为盒须图（Box Plot）

Q1:第一四分位数或第25百分位数。

Q2:第二四分位数或中位数（Md.）。

Q3:第三四分位数或第75百分位数。

Min Max

盒须图常常用来代替直方图（可用于连续型数据，也可用于偏

盒须图是资料的一种图形展示法，此图可同时标出资料之集中趋势、离中趋势、偏态、最小值、最大值等。

盒须图之主要功用：

从视觉上即可有效的找出资料之主要表征值。

盒须图之其他功用：

可同时比较

可辨认出离群值。outliner

何谓离群值： 1.5（Q3-Q1)~3(Q3-Q1)

辛普森诡辩