66
統統統統統統統

統計設計與分析

Embed Size (px)

DESCRIPTION

統計設計與分析. 詳細大綱. 1. 調查設計 調查設計的基礎 優點與容易犯的錯誤 系統偏誤 訪問偏誤 拒答偏誤 隨機偏誤. 統計問題. 如何設計並引導一個實驗 ? 哈佛學生中抽煙的比例為何 ? 如何檢驗這些結果 ? 哈佛比起全國的學生 , 抽煙比例是高或低 ?. 詳細大綱. 2. 假設檢定 基本方法 有多大的機率 , 我觀察的是錯的 ? 若機率很低 , 則得到兩個數目不同的結論 . 檢定的類型 檢定已知的事實 ( 例 , 已經知道全國性抽煙的比例 ). - PowerPoint PPT Presentation

Citation preview

Page 1: 統計設計與分析

統計設計與分析

Page 2: 統計設計與分析

詳細大綱

1. 調查設計 調查設計的基礎 優點與容易犯的錯誤

系統偏誤 訪問偏誤 拒答偏誤 隨機偏誤

Page 3: 統計設計與分析

統計問題

如何設計並引導一個實驗 ? 哈佛學生中抽煙的比例為何 ?

如何檢驗這些結果 ? 哈佛比起全國的學生 , 抽煙比例是高或低 ?

Page 4: 統計設計與分析

詳細大綱

2. 假設檢定 基本方法

有多大的機率 , 我觀察的是錯的 ? 若機率很低 , 則得到兩個數目不同的結論 .

檢定的類型 檢定已知的事實 ( 例 , 已經知道全國性抽煙的比例 ). 檢定未知 , 預估計的事實 ( 例 , 我不知道全國抽煙的

比例 , 但我想推估它 ).

樣本數與假設檢定

Page 5: 統計設計與分析

設計實驗—感興趣的問題

哈佛學生中有多少比例抽煙 ?

Page 6: 統計設計與分析

可能的解答方式

查看哈佛附近商店菸品銷量 所有的菸品都只能在那兒買嗎 ? 只有學生會去那裡買嗎 ? 店家會告訴我們實情嗎 ?

觀察學生 去上學的途中 ? 在餐廳 ? 派對上 ? 太困難且魯莽

Page 7: 統計設計與分析

可能的解答方式

問學生 問所有的學生 ? 耗時 , 花錢 , 且很困難

問一部分學生 ? 這是我採行的方法 – 調查我學生的成員 , 以及他們的

室友與朋友

Page 8: 統計設計與分析

方法:以我的學生與他們的朋友來推估整體

我的學生抽煙的比例 哈佛學生抽煙的比例

可能的解答方式

Page 9: 統計設計與分析

調查方法—優良

1. 有適當的樣本

2. 相當不花成本

Page 10: 統計設計與分析

調查方法:問題( I )

1. 抽樣偏誤 – 經濟學抽煙的比例或高或低於哈佛學生抽煙的比例 多半是經濟系學生 多半是比較愛表現學生

2. 不正確的揭露 – 他們可能不講實話 或者抽煙者選擇不填答問卷 如何測試 – 問全體的哈佛學生

Page 11: 統計設計與分析

調查方法:問題( II )

3. 無回應 – 可能有人並不參與其中 與他們的回答有關

4. 隨機性問題 – 財政學的樣本 , 本來就與政大學生抽煙的比例不同

Page 12: 統計設計與分析

調查結果

41 份回答 這個班大約有 57 人 , 我相信大多數的人有朋友 , 所以 , 顯示相當大的比例並沒有回答 .

無法判斷回答的正確性

Page 13: 統計設計與分析

答案

我的學生中 , 自我報告的抽煙比例為 17%

我的學生中 , 感覺其他人整體抽煙的比例為 25%

Page 14: 統計設計與分析

為何自我報告與其他人的觀察結果不同 ?

學生覺得其他人應該是過得更多采多姿

哈佛學生認為他們的同學在過去一個月中 , 有抽過菸的比例應高於 2/3, 但事實上僅有 15.6%. 哈佛認為他們的同儕中 , 過去一個月裡有抽大麻的比例為 52.4%, 但事實上是 12.2%.

Page 15: 統計設計與分析

為何不同 ?

也有可能是揭露的偏誤

或者樣本數太小

Page 16: 統計設計與分析

如何做得更好 ?

從哈佛學生中隨機選取樣本

調查更多學生 ( 或許 )

使填答的人更確信他們的回答是匿名的

付錢給願意填答的人

答案給與權數

Page 17: 統計設計與分析

假設檢定

問題:Harvard學生抽煙比例較全美大學生高或低?

Page 18: 統計設計與分析

假設檢定

使用調查資料: 1993 學生調查 . Conducted by Henry Wechsler at the School of Public Health.

關心飲酒問題,但同時問抽煙 . 有 17,000 樣本 .

Page 19: 統計設計與分析

調查結果比較

Page 20: 統計設計與分析

調查結果比較

有可能我的學生抽煙比例超過 Harvard 平均 .

有可能調查學生抽煙比例低過全美學生平均 .

假使我訪問所有 Harvard學生,所有大學生 , 我會知道答案,但不太可能。

Page 21: 統計設計與分析

假設檢定的基礎

哈佛學生的抽煙率和與全美學生是否相當 ? 這是假設檢定的核心。

這個推論僅是考慮抽樣上的誤差,不包括其他誤差(亂回答或未回答)。

Page 22: 統計設計與分析

機率的重要性

拿全美學生的樣本 每一百人為一組 計算每組的抽煙率 將抽煙率畫圖

Page 23: 統計設計與分析
Page 24: 統計設計與分析

機率的重要性

看起來哈佛學生較低,但我不確定。 多有可能? *** 我對的機率有多高?

Page 25: 統計設計與分析

定義可能與不可能

什麼時候我們會說這些數字是「不同」? 一般答案:這些平均數 「不同」 如果它出現的可能

性低於 5 % 的時間 .

Page 26: 統計設計與分析
Page 27: 統計設計與分析

答案

在我們的例子中,兩個平均數很沒有這麼「不同」 . 這兩個平均數不同,但沒這麼不同(出現機率高過 5%)。

Page 28: 統計設計與分析

答案

我們可以考慮另一個標準(如 10 %) . 如果我們較不嚴格,那有可能我們覺得相同時,實際

上是不同。 . 5%表示僅有 5%機率我們會錯。

Page 29: 統計設計與分析

一些術語

虛無假設 (null hypothesis): H0 (null hypothesis): Harvard學生和全美學生抽煙

率相當 .

對立假設 (alternative hypothesis): HA (alternative hypothesis): Harvard學生和全美學

生抽煙率不相當 ..

Page 30: 統計設計與分析

假設檢定

假設檢定包括 虛無假設 Alternative Hypothesis A statistical test An answer

Implementing this is a bit more complex. That’s what I want to talk about next.

Page 31: 統計設計與分析
Page 32: 統計設計與分析
Page 33: 統計設計與分析

中央極限定理

這個類似是有根據的。這是統計學的一個重要定理: 平均數的分配通常是趨近於常態分配 , or 鐘狀 . 中間是母體的平均數 .

Page 34: 統計設計與分析

然後呢 ?

中央極限定理可以幫助我們計算:

如抽煙比率小於 <.14 (approximately) 為 2.5 % 或高於 <.14 >.30 (approximately) 為 2.5 % .

Page 35: 統計設計與分析

常態分配

Page 36: 統計設計與分析

臨界值

X 和 – X 者兩個職稱為臨界值 . 如果一個直超過臨界值,發生的機率低於 5% .

所以發生時,我們稱為拒絕虛無假設 .

Page 37: 統計設計與分析

標準差

我們需要找 X.常態分配有些性質可幫助我們:

常態分配是對稱的 要多遠才算遠? 牽涉到標準差 .

一般叫做 ( "sigma" ). 有公式可循 .

Page 38: 統計設計與分析

標準差

Page 39: 統計設計與分析

標準差

在前述例子中, X 和 – X的距離差不多是兩個標準差 .

Page 40: 統計設計與分析

標準誤

Page 41: 統計設計與分析

標準差

Excel 會幫你計算標準差 . Tools Data Analysis Descriptive Statistics. Choose Summary Statistics 可以使用Excel 做簡單的假設檢定 .

Page 42: 統計設計與分析

學生抽煙的資料—從 Excel 檢視

Page 43: 統計設計與分析

檢定顯著

根據標準差,自己簡單計算一下。 假使距離在兩個標準差以上,則稱為統計顯著 .

Page 44: 統計設計與分析

檢定顯著

在這個例子中, the value is (.17 - .22 ) / .059 = -.85, 統計上不顯著 . 無法拒絕虛無假設。

Page 45: 統計設計與分析

檢定顯著

除了 X和 -X 外,還有另一個方法: P-value

This probability is termed the p-value.

Page 46: 統計設計與分析

P值

Page 47: 統計設計與分析
Page 48: 統計設計與分析

樣本數與假設檢定

Our sample of 100 students gave a distribution that was very spread out. The critical values X and –X were 14 percent and 30 percent. There is a lot of room there where we can’t reject the null hypothesis.

How might we lower that range? Answer: sample more people.

Page 49: 統計設計與分析

常態分配

Suppose I drew groups of more than 100, say 500. What would happen to the expected distribution of answers? It would get tighter around the mean.

Page 50: 統計設計與分析

實際資料

Page 51: 統計設計與分析

樣本數

One can see this with the hypothetical normal distribution as well.

Page 52: 統計設計與分析

常態分配

Page 53: 統計設計與分析

意涵

A difference of 5 percent between Harvard students and the nation is more likely to be significantly different the larger is my sample size.

Page 54: 統計設計與分析

假設檢定的複習

1. Specify an null and alternative hypothesis.

2. See how frequently the data would make the hypothesis false if it were true. If that frequency is small (<5 percent), reject

the null hypothesis for the alternative one. Excel will do all the calculations for you.

Page 55: 統計設計與分析

設計實驗

假設我並非想知道抽煙的比例 , 而是想知道抽煙對學生的影響: 抽煙使成績下降嗎 ?

如何進行 ?

Page 56: 統計設計與分析

大綱

如何進行實驗 抽樣數要夠大 隨機分配樣本(最好受訪者不知道)

如何進行假設檢定

Page 57: 統計設計與分析

設計實驗

有個方法: 隨機選取抽煙與不抽煙的學生 , 並比較他們的 GPA

不抽煙者 B+ 抽煙者 B

得到抽煙對一個人的成績有負面影響這個結論

Page 58: 統計設計與分析

設計實驗

許多醫療研究探討這個主題: 符合倫理嗎 ? 選到的樣本就是剛好不一樣 , 並非因為抽煙與否 ?

Page 59: 統計設計與分析

倫理學

不能從隨機抽出的抽煙樣本中 , 就證明研究的結果 以我們的目的而言 , 會定睛在所要觀察的變數上 , 也

就是這些人抽不抽煙 ? 他們的成績是多少 ? 一個人所能想到的問題都是重要的

Page 60: 統計設計與分析

控制背景的差異

為了控制有否隨機的差異 , 可以在實驗之前先觀察他們的 GPA:

Page 61: 統計設計與分析

控制背景的差異

更一般性

      Before   After   Change Control    Ycb    Yca    ch(Yc) Treatment   Ytb    Yta    ch(Yt)

ch(Yt) - ch(Yc) 也就是所謂的 difference-indifference 觀察值 我們處理了非為隨機的情況 , 仍然可以計算 , 但要更

為謹慎

Page 62: 統計設計與分析

控制實驗

Example (Harris et al.): “隨機控制實驗:瞭解接受遠端祈禱心臟病病人的治療效果 “

Page 63: 統計設計與分析

Harris et el.

實驗設計原則:“隨機 , 控制 , 雙盲 , 事前,同時實驗 . “

隨機:病人隨機分配到禱告與否 控制:有些病人沒有禱告 雙盲:病人或醫師不知道為實驗或對照組 事前:在治療前隨機分配 同時:實驗同時進行

Page 64: 統計設計與分析

Harris et el. 的設計

Page 65: 統計設計與分析
Page 66: 統計設計與分析

Harris et el. 的結論

“ 結論:遠端禱告有效”