27
統統統統 Fa ll 2003 授授授授 授授授授授授 授授2003 授 9 授 18 25 授 授授授 授授授授授授授 一、:

統計實務 Fall 2003 授課教師:統計系余清祥 日期: 2003 年 9 月 18 、 25 日 第一、二週:序論與定義問題

  • View
    228

  • Download
    8

Embed Size (px)

Citation preview

統計實務 Fall 2003

授課教師:統計系余清祥 日期: 2003 年 9 月 18 、25 日第一、二週:序論與定義問題

什麼是統計 ?

統計學是研究定義問題、運用資料蒐集、整理、陳示、分析與推論等科學方法 , 在不確定 (Uncertainty) 情況下 ,

做出合理決策的科學。

以統計做決策的要件1. 事件 (Event) 的可能結果含有不確定性的因素;

2. 決策所衍生的結果可被量化。 ( 也就是說,我們可藉由效用函數判斷哪一個決策較佳。 )

定 義 問 題定 義 問 題

蒐 集 資 料蒐 集 資 料

分 析 資 料分 析 資 料

詮 釋 結 果詮 釋 結 果

馬克吐溫對統計的想法There are three kinds of lies:

Lies,

Damned lies, and

Statistics!!

數 據 (Data)

資 訊 (Information)

事 實 (Fact)

知 識 (Knowledge)

資訊與知識的價值 資料挖掘 (Data Mining) 的範例:$$$

協助超級市場促銷及陳設商品

Customer1

Customer2Customer3

Milk, eggs, sugar, bread

Milk, eggs, cereal, bread Eggs, sugar

A patient takes a lab test and the result comes back positive. The test returns a correct positive result in 99% of the cases in which the disease is actually present, and a correct negative result in 98% of the cases in which the disease is not present. Furthermore, .001 of all people have this cancer.

協助我們更理性的判斷

= .047P(cancer | +) =)(

)()|(

P

cancerPcancerP

P ~cancer) =.02

.999P(~ cancer) =.001P(cancer) =

.01P cancer) =.99P(+ | ~cancer) = .98P(+ | cancer) =

計算細節: 假設某地區有一百萬人:

999,000 人健康, 1,000 人罹患癌症 檢查出陽性反應者:(1) 健康者中有(2) 癌症患者中有

因此,癌症患者佔陽性反應者的比例:

980,19%2000,999 990%99000,1

%72.4970,20

990

990980,19

990)|(

cancerP

Suppose a second test for the same patient returns a positive result as well. What are the posterior probabilities for cancer?

P ~cancer) =.02

.999P(~cancer) =.001P(cancer) =

.01P cancer) =.99

P(+ | ~cancer) = .98

P(+ | cancer) =

= .200P(cancer | +1+2) = )(

)()|(

21

21

P

cancerPcancerP

世界規模最大的醫學實驗 ( 沙克疫苗 )

規避不必要的風險 1986 年美國挑戰者號太空梭的爆炸

O 形環 (O-Ring) 在低溫下無法正常運作,造成燃料外洩而爆炸。

分析過去各種溫度下的失敗比例 ( 羅吉士迴歸; logistic regression)

( 參考書籍:天下文化「你管別人怎麼想」費

曼)

其他生活上範例

定義問題 (Problem Definition)「正確問題的近似答案,遠比錯誤問題的精確答案有價值。」

“An approximate answer to the right question is worth a great deal more than a precise answer to the wrong problem.”

--- the first golden rule of

applied mathematics

有趣 ( 或殘酷 ) 的範例 一位教授及其學生到非洲探勘,在一望無際的平原上被獅子追殺。眼看即將被追到,學生趕緊換上球鞋,教授說:「換上球鞋也跑不過獅子。」學生卻說:「我不必跑贏獅子,只要跑贏你就夠了。」

真正的問題是甚麼?

統計的第三型誤差 Type III error (error of the third kind):

Giving the “right” answer to the wrong question (Kimball, 1957)

統計研究的首要步驟 獲取研究問題的相關背景知識 確立問題的目標 ( 研究目的 ) 以統計的語言定義問題

如果與其他人合作,儘量 「多發問」!

另一個定義問題的範例 某家旅館重新整修內部,將客房數增為原先的 1.25 倍,但電梯數維持不變,房客因等待時間增長而抱怨連連。解決方案: 增加電梯數? 加快電梯速度? 電梯門加設鏡子?

政治大學商學院電梯改善方案 對於商學院電梯使用的缺點,有 47% 的同學認為「未顯示樓層」是最大缺點,其次是「速度太慢」,有 29% 的比例。

樓層顯示版整棟總價至少約 50 萬台幣 (需再加大理石牆壁施工費用 )

電梯速度無法調整加快

哪些問題可能改善?

真正的問題在哪裡? 有時呈現在表面的因素並非造成問題的實際原因,解決方案需從另一方向或更深層的部分去探索。

討論:近來關於氣象預測的話題 (尤其是預測的準確性 )廣為大家討論,請問你 /妳覺得問題為何? 如何解決?

Face the Reality?

美國某家石油公司以管線的方式將阿拉斯加的天然氣輸往本土,但因天然氣中含有腐蝕性物質 ( 二氧化硫 ) ,連接管線間的測量表常遭腐蝕,造成天然氣外洩,該公司必須派人不定時檢修量表。

該公司希望研發耐腐蝕的量表, 但橡膠墊片會與二氧化硫作用。