統計設計與分析

Preview:

DESCRIPTION

統計設計與分析. 詳細大綱. 1. 調查設計 調查設計的基礎 優點與容易犯的錯誤 系統偏誤 訪問偏誤 拒答偏誤 隨機偏誤. 統計問題. 如何設計並引導一個實驗 ? 哈佛學生中抽煙的比例為何 ? 如何檢驗這些結果 ? 哈佛比起全國的學生 , 抽煙比例是高或低 ?. 詳細大綱. 2. 假設檢定 基本方法 有多大的機率 , 我觀察的是錯的 ? 若機率很低 , 則得到兩個數目不同的結論 . 檢定的類型 檢定已知的事實 ( 例 , 已經知道全國性抽煙的比例 ). - PowerPoint PPT Presentation

Citation preview

統計設計與分析

詳細大綱

1. 調查設計 調查設計的基礎 優點與容易犯的錯誤

系統偏誤 訪問偏誤 拒答偏誤 隨機偏誤

統計問題

如何設計並引導一個實驗 ? 哈佛學生中抽煙的比例為何 ?

如何檢驗這些結果 ? 哈佛比起全國的學生 , 抽煙比例是高或低 ?

詳細大綱

2. 假設檢定 基本方法

有多大的機率 , 我觀察的是錯的 ? 若機率很低 , 則得到兩個數目不同的結論 .

檢定的類型 檢定已知的事實 ( 例 , 已經知道全國性抽煙的比例 ). 檢定未知 , 預估計的事實 ( 例 , 我不知道全國抽煙的

比例 , 但我想推估它 ).

樣本數與假設檢定

設計實驗—感興趣的問題

哈佛學生中有多少比例抽煙 ?

可能的解答方式

查看哈佛附近商店菸品銷量 所有的菸品都只能在那兒買嗎 ? 只有學生會去那裡買嗎 ? 店家會告訴我們實情嗎 ?

觀察學生 去上學的途中 ? 在餐廳 ? 派對上 ? 太困難且魯莽

可能的解答方式

問學生 問所有的學生 ? 耗時 , 花錢 , 且很困難

問一部分學生 ? 這是我採行的方法 – 調查我學生的成員 , 以及他們的

室友與朋友

方法:以我的學生與他們的朋友來推估整體

我的學生抽煙的比例 哈佛學生抽煙的比例

可能的解答方式

調查方法—優良

1. 有適當的樣本

2. 相當不花成本

調查方法:問題( I )

1. 抽樣偏誤 – 經濟學抽煙的比例或高或低於哈佛學生抽煙的比例 多半是經濟系學生 多半是比較愛表現學生

2. 不正確的揭露 – 他們可能不講實話 或者抽煙者選擇不填答問卷 如何測試 – 問全體的哈佛學生

調查方法:問題( II )

3. 無回應 – 可能有人並不參與其中 與他們的回答有關

4. 隨機性問題 – 財政學的樣本 , 本來就與政大學生抽煙的比例不同

調查結果

41 份回答 這個班大約有 57 人 , 我相信大多數的人有朋友 , 所以 , 顯示相當大的比例並沒有回答 .

無法判斷回答的正確性

答案

我的學生中 , 自我報告的抽煙比例為 17%

我的學生中 , 感覺其他人整體抽煙的比例為 25%

為何自我報告與其他人的觀察結果不同 ?

學生覺得其他人應該是過得更多采多姿

哈佛學生認為他們的同學在過去一個月中 , 有抽過菸的比例應高於 2/3, 但事實上僅有 15.6%. 哈佛認為他們的同儕中 , 過去一個月裡有抽大麻的比例為 52.4%, 但事實上是 12.2%.

為何不同 ?

也有可能是揭露的偏誤

或者樣本數太小

如何做得更好 ?

從哈佛學生中隨機選取樣本

調查更多學生 ( 或許 )

使填答的人更確信他們的回答是匿名的

付錢給願意填答的人

答案給與權數

假設檢定

問題:Harvard學生抽煙比例較全美大學生高或低?

假設檢定

使用調查資料: 1993 學生調查 . Conducted by Henry Wechsler at the School of Public Health.

關心飲酒問題,但同時問抽煙 . 有 17,000 樣本 .

調查結果比較

調查結果比較

有可能我的學生抽煙比例超過 Harvard 平均 .

有可能調查學生抽煙比例低過全美學生平均 .

假使我訪問所有 Harvard學生,所有大學生 , 我會知道答案,但不太可能。

假設檢定的基礎

哈佛學生的抽煙率和與全美學生是否相當 ? 這是假設檢定的核心。

這個推論僅是考慮抽樣上的誤差,不包括其他誤差(亂回答或未回答)。

機率的重要性

拿全美學生的樣本 每一百人為一組 計算每組的抽煙率 將抽煙率畫圖

機率的重要性

看起來哈佛學生較低,但我不確定。 多有可能? *** 我對的機率有多高?

定義可能與不可能

什麼時候我們會說這些數字是「不同」? 一般答案:這些平均數 「不同」 如果它出現的可能

性低於 5 % 的時間 .

答案

在我們的例子中,兩個平均數很沒有這麼「不同」 . 這兩個平均數不同,但沒這麼不同(出現機率高過 5%)。

答案

我們可以考慮另一個標準(如 10 %) . 如果我們較不嚴格,那有可能我們覺得相同時,實際

上是不同。 . 5%表示僅有 5%機率我們會錯。

一些術語

虛無假設 (null hypothesis): H0 (null hypothesis): Harvard學生和全美學生抽煙

率相當 .

對立假設 (alternative hypothesis): HA (alternative hypothesis): Harvard學生和全美學

生抽煙率不相當 ..

假設檢定

假設檢定包括 虛無假設 Alternative Hypothesis A statistical test An answer

Implementing this is a bit more complex. That’s what I want to talk about next.

中央極限定理

這個類似是有根據的。這是統計學的一個重要定理: 平均數的分配通常是趨近於常態分配 , or 鐘狀 . 中間是母體的平均數 .

然後呢 ?

中央極限定理可以幫助我們計算:

如抽煙比率小於 <.14 (approximately) 為 2.5 % 或高於 <.14 >.30 (approximately) 為 2.5 % .

常態分配

臨界值

X 和 – X 者兩個職稱為臨界值 . 如果一個直超過臨界值,發生的機率低於 5% .

所以發生時,我們稱為拒絕虛無假設 .

標準差

我們需要找 X.常態分配有些性質可幫助我們:

常態分配是對稱的 要多遠才算遠? 牽涉到標準差 .

一般叫做 ( "sigma" ). 有公式可循 .

標準差

標準差

在前述例子中, X 和 – X的距離差不多是兩個標準差 .

標準誤

標準差

Excel 會幫你計算標準差 . Tools Data Analysis Descriptive Statistics. Choose Summary Statistics 可以使用Excel 做簡單的假設檢定 .

學生抽煙的資料—從 Excel 檢視

檢定顯著

根據標準差,自己簡單計算一下。 假使距離在兩個標準差以上,則稱為統計顯著 .

檢定顯著

在這個例子中, the value is (.17 - .22 ) / .059 = -.85, 統計上不顯著 . 無法拒絕虛無假設。

檢定顯著

除了 X和 -X 外,還有另一個方法: P-value

This probability is termed the p-value.

P值

樣本數與假設檢定

Our sample of 100 students gave a distribution that was very spread out. The critical values X and –X were 14 percent and 30 percent. There is a lot of room there where we can’t reject the null hypothesis.

How might we lower that range? Answer: sample more people.

常態分配

Suppose I drew groups of more than 100, say 500. What would happen to the expected distribution of answers? It would get tighter around the mean.

實際資料

樣本數

One can see this with the hypothetical normal distribution as well.

常態分配

意涵

A difference of 5 percent between Harvard students and the nation is more likely to be significantly different the larger is my sample size.

假設檢定的複習

1. Specify an null and alternative hypothesis.

2. See how frequently the data would make the hypothesis false if it were true. If that frequency is small (<5 percent), reject

the null hypothesis for the alternative one. Excel will do all the calculations for you.

設計實驗

假設我並非想知道抽煙的比例 , 而是想知道抽煙對學生的影響: 抽煙使成績下降嗎 ?

如何進行 ?

大綱

如何進行實驗 抽樣數要夠大 隨機分配樣本(最好受訪者不知道)

如何進行假設檢定

設計實驗

有個方法: 隨機選取抽煙與不抽煙的學生 , 並比較他們的 GPA

不抽煙者 B+ 抽煙者 B

得到抽煙對一個人的成績有負面影響這個結論

設計實驗

許多醫療研究探討這個主題: 符合倫理嗎 ? 選到的樣本就是剛好不一樣 , 並非因為抽煙與否 ?

倫理學

不能從隨機抽出的抽煙樣本中 , 就證明研究的結果 以我們的目的而言 , 會定睛在所要觀察的變數上 , 也

就是這些人抽不抽煙 ? 他們的成績是多少 ? 一個人所能想到的問題都是重要的

控制背景的差異

為了控制有否隨機的差異 , 可以在實驗之前先觀察他們的 GPA:

控制背景的差異

更一般性

      Before   After   Change Control    Ycb    Yca    ch(Yc) Treatment   Ytb    Yta    ch(Yt)

ch(Yt) - ch(Yc) 也就是所謂的 difference-indifference 觀察值 我們處理了非為隨機的情況 , 仍然可以計算 , 但要更

為謹慎

控制實驗

Example (Harris et al.): “隨機控制實驗:瞭解接受遠端祈禱心臟病病人的治療效果 “

Harris et el.

實驗設計原則:“隨機 , 控制 , 雙盲 , 事前,同時實驗 . “

隨機:病人隨機分配到禱告與否 控制:有些病人沒有禱告 雙盲:病人或醫師不知道為實驗或對照組 事前:在治療前隨機分配 同時:實驗同時進行

Harris et el. 的設計

Harris et el. 的結論

“ 結論:遠端禱告有效”

Recommended