統計學(Statistical)重點整理-1

課程連結:
台灣交通大學 統計學(一) Statistics I 唐麗英老師

[統計學筆記及整理]

第一章.概論

單元一.基本名詞

統計學(Statistics)
統計學是在資料分析的基礎上,研究測定、收集、整理、歸納和分析反映資料,並由樣本推論群體,使在不確定的情況下做成決策的科學方法。
群體或母體(population)
研究某一現象或問題時,針對發生此一現象或問題的對象(個體)進行調查,調查的全體對象即是所謂的母體,也代表被蒐集的這些個體(object)資料所組成的資料檔(data set)。
樣本(sample)
群體的一部分,實際情況較不容易收集群體資料,所以會改取樣本資料(需具有研究特徵代表性)。
實驗單位(experimental unit)
針對有研究興趣之個體(如:人、事、物、…) 收集資料,則此「個體」即稱為實驗單位。
參數(parameter)
由群體資料所計算之群體表徵值(能代表研究群體某特徵的數值)。
統計量(statistic)
由樣本資料所計算之樣本表徵值(能代表研究群體某特徵的數值)。

例 1:某養雞場欲由 30 隻隨機抽出之母雞來估計母雞的體重。請指出此例欲研究之群體、樣本、實驗單位、參數及統計量各為何?

群體:養雞場所有的雞的特徵(體重、年齡...)
樣本:這30隻雞的特徵
實驗單位:養雞場的雞
參數:群體平均體重、群體體指率、群體某項指標(如健康指標)....
統計量:樣本平均體重、樣本體指率、樣本某項指標(如健康指標)....

單元二.隨機變數(Random Variable)

●質變數、定性變數或類別變數(Categorical Random Variable)
(定性)隨機變數的各結果不以數量表示,而依其特性之類別表之。ex.性別、國籍、物種...

●量變數、數值變數(Numerical Random Variable)
(定量)隨機變數的各結果可以數量表示。
1.離散型
經由計數的方式取得資料。ex.不良數
2.連續型
經由量測的方式取得資料。ex.長度

例 2:決定下列隨機變數為定性或定量,若為定量則決定其屬離散型或連續型。

a) 晶片上之缺陷點數
定量、離散
b) 每個產品的重量
定量、連續
c) 造成不良產品可能之原因
定性


第二章.敘述統計(Descriptive Statistics)

單元一.如何以圖形來展示資料 (Graphs)

一、定性資料如何以圖來表示?

利用條圖(Bar Graph),柏拉圖(Pareto Diagram)單圓圖(Pie Chart)

1.條圖:

條圖是用來比較及對照不同時期或類別間的差異。
作法:
1)水平軸---種類,對每一種類繪入直立條棒。
2)垂直軸---觀察值的次數,相對次數或百分比。
3)每一條棒有相同寛度。
4)條棒彼此之間不相連接。


2.單圓圖:

單圓圖是用來顯示一個單一總合量如何攤分於各種類別中。
作法:
1)計算出各類別所佔百分比。
2)各類別在單圓圖中所占之角度為該類別在總量中所占百分比×360°。


3.柏拉圖:

義大利經濟學家柏拉圖(Vilfredo Pareto)認為社會上大部份的財富是操縱在少數人的手中。同理,在改善製程品質時,通常造成品質不良或缺失的因素也符合柏拉圖原理。因此柏拉圖分析是依據「重要少數,瑣細多數」(80/20)法則,找出造成問題最關鍵之幾個少數因素,以有效改善問題。
作法:
1)水平軸---種類,對每一種類繪入直立條棒。
2)垂直軸---觀察值的次數,相對次數或百分比。
3)每一條棒須有相同寛度。


image.png

二、定量資料如何以圖來表示?

利用點圖(Dot Diagram)或直方圖(Histogram)。

1.點圖:

點圖可用以顯現資料之分佈型態。
作法:
1)水平軸---數線(標有數據的直線)。
2)在數線上繪入點。

2.直方圖:

直方圖是次數分佈的圖形表示,是由直立的條狀或矩
形所構建。
作法:
1)水平軸---代表各組之所有組界。
2)垂直軸---代表觀察值的次數,相對次數或百分比。
3)在水平軸上畫矩形,這些矩形須有相同寬度並且須相連在一起。





單元二.常用統計量或指標

一、原始數據特徵值之計算

原始連續型數據分析之特徵主要可分為以下四大類:
1. 集中趨勢(Central Tendency of Location)
2. 變異(Dispersion)、離中趨勢
3. 偏態(Skewness)
4. 峰態(Kurtosis)

1.集中趨勢:

「集中趨勢指標」是表示一組數據中央點位置所在的一個指標,最常用的集中趨勢指標:平均數、中位數、眾數。

1)平均數(mean):

算術平均數。


例 :請找出下列群體數據之平均數: 0, 7, 3, 9, -2, 4, 6

mean:3.857
2)中位數(median):

將一組數據由小至大排序後,最中間的那一個數值稱為中位數,為分位數(quantile)的一種。


補充:
分位數(英語:Quantile),亦稱分位點,是指用分割點(cut point)將一個隨機變量的機率分布範圍分為幾個具有相同機率的連續區間。分割點的數量比劃分出的區間少1,例如3個分割點能分出4個區間。
常用的有中位數(即二分位數)、四分位數(quartile)、十分位數(decile )、百分位數等。

例 :請找出下列樣本數據之中位數: 9, 2, 7, 11, 14

2,7,9,11,14 (ans:9)
3)眾數(mode):

在一組數據,出現次數最多的數值稱之。

例 :請找出下列樣本數據之眾數: 3, 3, 2, 1, 4, 2, 3

3:四次,2:一次,1:一次,4:一次,(ans:3)

何時用平均數?何時用中位數或眾數?
平均數對離群值非常敏感,而中位數或眾數則對離群值較不敏感。因此,當資料中有離群值時,則使用中位數或眾數,否則,使用平均數。

2.離中趨勢(Dispersion)

「變異指標」是表示一組數據間差異大小或數值變化的一個量數,三個主要量測變異之指標,全距(Range)、變異數或標準差(Variance and Standard Deviation)、變異係數(Coefficient of Variation)

1) 全距(R):

全距是用來衡量一組數據差異大小或數值變化最簡單的方法。


●用全距之缺點:
當一組數據中有 離群值 出現或 資料量太大(n>10)時,全距並非一個很好的衡量數據變異的量數,因其無法解釋最小與最大值之間,數據分佈的情形。

2) 變異數和標準差(Variance and Standard Deviation):

變異數單位為原來的單位的平方,而標準差與原來相同。

例 :請找出下列樣本數據之平均數、變異數及標準差:5, 8, 1, 2, 4


使用numpy求標準差:

3) 偏態(Skewness):

「偏態」是用來說明一組數據分佈的形態,單峰分佈有三種形態之偏態:


●偏態係數
樣本偏態係數之公式如下:

4) 峰度(Kurtosis):

樣本峰度係數之公式如下:


二、盒鬚圖

●何謂盒鬚圖(Box-Whisker Plot,簡稱 Box Plot)?
盒鬚圖是資料的一種圖形展示法。此圖可同時標出資料之集中趨勢、變異、偏態、最小值、最大值等。此圖又稱「五指標摘要圖」(five-numbersummary plot)

●盒鬚圖之主要功用:
從視覺上即可有效的找出資料之主要的表徵值。
●盒鬚圖之其它功用:
1.可同時 比較 數組資料
例 :比較四個班級的數學成績

2.可辦認出離群值
●何謂離群值(Outliers)?
離群值是遠大於或遠小於同一筆數據中之其它值之數據。
●如何利用盒鬚圖辨認出離群值?
1)超過盒鬚圖之盒 1.5(Q3-Q1)至 3(Q3-Q1)距離內之值可當作可
能之離群值或極端值。
2)超過盒鬚圖之盒 3(Q3-Q1)距離外之值可當作非常可能之離群值。
註:Q3-Q1=第 75百分位數-第 25百分位數=中四分位距(InterquartileRange, IR)

例 :下列資料為三條生產線的良率,請依下例資料繪製盒鬚圖。


生產線3條圖:

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,928评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,192评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,468评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,186评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,295评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,374评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,403评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,186评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,610评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,906评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,075评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,755评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,393评论 3 320
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,079评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,313评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,934评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,963评论 2 351