243
毅進文憑 數學 單元五 基礎統計學 2017/18 學員版

毅進文憑 數學 單元五 基礎統計學 · 一些統計數字,例如今年某某期考的平均分是70分、香港每年的平均雨 量為2,500毫米等。這些數字跟下面兩個例子有什麼分別呢?

  • Upload
    others

  • View
    14

  • Download
    1

Embed Size (px)

Citation preview

  • 毅進文憑

    數學

    單元五

    基礎統計學

    20 17 /18

    學員版

  • 2 毅進文憑課程

    修訂 柯世揚先生

    顧問 陳啟良博士 香港中文大學

    ©自資高等教育聯盟 2017

    有關本教材所載一切資料,自資高等教育聯盟保留一切權利,任何人

    士未經本機構同意,不得擅自轉載或抄錄。本教材不得轉售。

  • 目錄

    引言 1

    學習成果 3

    第一節 抽樣調查 4

    什麼是統計學 4

    抽樣調查與普查 5

    抽樣調查的種類 9

    常用的隨機抽方法 10

    第二節 數據表示 26

    變量類型 26

    頻數分佈表 27

    連續型數據的圖像 33

    定性型變量的統計圖 41

    其它常見的統計圖 46

    第三節 樣本數據的特徵值 52

    數據的平均數 52

    分組數據的集中趨勢 61

    數據的離散 67

    量度離散度的工具與應用 69

    第四節 Excel 試算表運用 92

    認識 Excel 的工作環境 92

    Excel 的公式與函數 93

    第五節 統計學的濫用 105

    公式總表 112

    附錄一:常見計算機統計模式操作指引 113

    附錄二:正態分佈 114

    習題答案 117

  • 數學 單元五 1

    引言

    統計學的思維方法,就像讀和寫的能力一樣,有

    一天會成為有效率的公民的必備能力。

    ─威爾斯

    (Herbert George Wells,公元1866-1946年)

    (圖片來源:維基網站1)

    各位學員是否已掌握統計學的思維方法呢?在日常生活中經常會接觸到

    一些統計數字,例如今年某某期考的平均分是70分、香港每年的平均雨

    量為2,500毫米等。這些數字跟下面兩個例子有什麼分別呢?

    香港青年協會在一項隨機抽樣的全港青少年意見調查發現,在559名10

    -24歲被訪青少年中,接近六成(57.4%)表示,過去一年曾在未徵得

    版權持有人同意下,從網上下載電影或音樂。……

    (http://yrc.hkfyg.org.hk/chi/p186.html)

    1993年,香港中文

    大學醫學院和衞生

    署、醫院管理局合

    作,對香港二萬五

    千個華人兒童進行

    生長數據調查,包

    括隨機抽樣的49間

    中學在讀學員及 8

    間母嬰健康院的嬰

    兒,調查對象足以代表香港。每種性別、每個年齡組別大概有500至800

    人。右圖所示是年齡和身高的調查結果。

    (http://www.cuhk.edu.hk/proj/growthstd/chinese/gs_surve.htm)

    http://yrc.hkfyg.org.hk/chi/p186.htmlhttp://www.cuhk.edu.hk/proj/growthstd/chinese/gs_surve.htm

  • 2 毅進文憑課程

    要計算某某期考的平均分,會把所有科目的分數加起來,然後計得平均

    數,這個數字可說是真實的數字,沒有任何誤差;至於香港的年平均雨

    量,是把天文台總部過去30年的總雨量加起來除以30(世界氣象組織所

    規定的「流動性30年平均值」),因此也是一個確實的數據,可以此數

    據來代表香港每年的雨量。但是,很多時候未必能取得全部數據,例如,

    曾訪問過了559名青少年,或量到500至800名兒童的身高,那麼調查所

    得的結果,是否能代表整體青少年的意見和兒童的身高呢?

    統計學是如何處理和詮釋大量數據的一門學問,也是協助如何在數據上

    「由部分推斷(估計)總體」的一門學問。具體來說,統計學研究如何

    蒐集、整理和分析反映事物總體信息的樣本數據,然後利用樣本數據,

    對總體的特徵進行推斷。例如,以上報道中的調查就是以559名被訪青

    少年作為樣本數據,把意見加以整理分析,以推斷全港青少年在上網方

    面出了什麼問題。

    怎樣才能從樣本數據來推斷總體的特徵呢?不僅要採用合適的抽樣方法,

    還要懂得當中存在的可能誤差,才能作出合理的估計。上述兩個例子採

    用的都是「隨機抽樣」,這是如何進行的?它有什麼好處?根據500至

    800名兒童的身高來推斷總體兒童的身高,這個估計值有多準確?

    要解答以上種種問題,需要運用統計學的工具和思維方法。這套工具和

    方法不僅是進行調查研究的必要裝備,也有助大家了解和分析日常接觸

    到的統計資料與調查結果。

    統計學是何時開始的呢?有些學者相信,英國學者

    葛朗特(公元1620-1674年)在1662年出版的《關

    於死亡公報的自然和政治觀察》,標誌着統計學的

    誕生。中世紀的時候,黑死病(鼠疫)在歐洲蔓延,

    奪去了很多人的生命。由1604年起,倫敦的教會每

    週均會發布「死亡公報」一次,羅列了該週內死亡

    的人的資料如姓名、性別、年齡和死因等。

    統計學自此在各個領域中得到了廣泛的應用,很多

    已經成為獨立的學科,如抽樣調查(SurveySampling)、統計預測

    (Statistical Forecasting)、計量經濟學(Econometrics)、管理統計學

    (ManagerialStatistics)、社會統計學(Social Statistics)、司法統計學

    葛朗特

    (圖片來源:維基網

    站2)

    http://www.hudong.com/wiki/%E4%BF%A1%E6%81%AF

  • 數學 單元五 3

    (Legal Statistics)、人口統計學(Demographic Statistics)、生物統計

    學(Biostatistics)、統計語言學(Statistical Linguistics)、統計物理學

    (Statistical Physics)、計量心理學(Psychometrics)、計量環境學

    (Environometrics)、計量化學(Chemometrics)等。

    在這個單元,學員會學習如何運用不同的統計工具來搜集資料、表示數

    據,並認識如何「由部分推斷(估計)總體」。此外,還會學習從統計

    學的角度來分析一些研究調查,例如:有研究指出,每日睡眠時間為8

    小時的人較長壽,那麼充足睡眠是長壽的原因嗎?完成本單元後,相信

    你會更懂得如何善用統計學這個工具,而且不容易受別人的統計數據或

    結果誤導。

    學習成果

    修畢本單元,你應能:

    ‧ 比較不同抽樣方法的特點並加以適當運用;

    ‧ 說明數據在不同場合的分組與表示;

    ‧ 闡述不同數據分佈模式的特徵;

    ‧ 認識樣本數據中的集中趨勢及與其離散度量,估計平均數( mean )

    與標準差(standard deviation)及其應用;

    ‧ 運用統計工具來分初步分析;

    ‧ 辨識濫用或誤用統計學的情況。

  • 4 毅進文憑課程

    第一節 抽樣調查

    什麼是統計學

    統計分析固然可以涵蓋有興趣的總體(例如全校學員的數學成績分佈和

    變化),但更多的時候,必須「由部分推斷(估計)總體」。看看以下

    一些例子:

    香港政府統計處每季都進行一次「綜合

    住戶調查」,被選中的住戶,會被問及

    他們的家庭收入、家庭人數、居住面積、

    就業情況等。

    港大民意調查中心訪問了1000人,邀請

    他們對行政長官及各局長的工作表現評

    分:一百分為最高,而零分為最低。

    富貴康科技公司為了解現今年輕人對手提電話功能的要求,委託了一家

    巿場研究公司進行調查,訪問了500人,並得出他們的意見數據。

    在日常生活語中,「統計」的意思就是「計數」。從以上三個例子可知,

    小至家庭、大至一個地區或國家,都有許多工作需要計數,天天都跟統

    計打交道。每個國家或地區均設立不同的統計機構,負責收集人口、經

    濟、貿易、社會等各方面的數據資料。

    《大英百科全書》對統計學下了以下的定義:

    統計學是關於收集和分析數據的科學和藝術。

    (圖片來源:政府統計處網站3)

    (圖片來源:香港大學民意網站4)

  • 數學 單元五 5

    從以上的定義可知,統計學的研究對象具有兩個方面:

    ‧ 收集數據;

    ‧ 分析數據。

    為了解決不同方面的問題,大家會利用各種方法如巿場研究、民意調查

    和人口調查等來收集數據,然後把一大堆雜亂無章的數據加以分析,從

    而看到事物的特點,得出一定的結論。那麼,怎樣才能夠收集到有用的

    數據呢?下面會介紹常用的兩種方法。

    抽樣調查與普查

    某一電視廣告「清熱X」,強調調查時用了「全城普查」。

    何謂普查?普查又與抽樣有什麼分別呢?

    藉着以下例子,可以了解一下抽樣的概念。

    例5-1

    假設房屋署想了解公共屋邨居民對

    租金的意見,而調查人員知道所有

    公屋住戶的基本資料如戶主、成員、

    性別等。組織調查時,他們可以選

    擇訪問所有居民或是只訪問一部分

    居民(抽樣)。如果選擇抽樣,可使用房屋署的數據庫(居民

    名冊)。

    從上例可知:

    ‧ 若調查涉及所有居民,則稱為普查(census);若只訪問部分居民,

    則稱為抽樣調查(sample survey);

    ‧ 全體公屋居民被稱為總體(population);

    ‧ 組成總體的每個居民叫做個體(element / individual);

    ‧ 從總體中抽取一部分個體,叫做總體的一個樣本(sample);

  • 6 毅進文憑課程

    ‧ 數據庫或居民名冊叫做抽樣框架(sampling frame)(表5-1);

    ‧ 每個樣本中的個體數量叫樣本容量(sample size)。

    表 5-1 房屋署居民抽樣框架

    序號 戶主姓名 身份證號碼 電話 屋邨 大廈 層 室

    00001 陳守仁 G032xxx(9) 23456789 大和邨 大利樓 3樓 312

    00002 張達德 H453xxx(0) 34567899 天虹邨 天恩樓 23樓 2309

    30000 李伯傑 D564xxx(3) 21111111 愛仁邨 愛善樓 25樓 2511

    為什麼要進行抽樣調查而不進行普查呢?

    要了解一個總體的特徵,進行全面調查(普查)是最理想的,可惜往往

    由於一些原因而不能採用普查。下表比較普查與抽樣調查:

    總體

    樣本

    抽樣

  • 數學 單元五 7

    表 5-2

    類 型 特 點 例 子

    普查

    ‧ 需要大量人力、物力、財

    力和時間

    調查全港人口的平均年齡

    ‧ 總體容量「無限大」時不

    能使用

    ‧ 不能用於帶有破壞性的檢

    調查生產線上的產品次品數

    (這兒的「無限大」指每刻

    都有新產品被製造出來)

    測試每批燈泡的平均壽命

    ‧ 如普查過程中每個步驟均

    正確操作,能得到準確的

    結果

    抽樣

    調查

    ‧ 節省人力、物力、財力和

    時間

    市場調查中,必須迅速知道

    顧客的要求和口味,從而迅

    速生產或提供趨時的產品或

    服務

    ‧ 可用於帶有破壞性的檢查 試酒師品評每種葡萄酒的等

    ‧ 樣本結果與總體會有一定

    差異

    從以上的例子可知,要推斷總體的特徵,必須借助抽樣調查。

    抽樣的特點是:從部分推斷整體。

  • 8 毅進文憑課程

    這是一種在對有關信息缺乏完全掌握的情況下,進行推斷的方法。由於

    這個原因,此種推斷方法不能保證所得的結論一定是準確無誤的,而是

    容許結論可能出錯或有誤差。出錯機會或誤差的大小取決於選取適當的

    抽樣方法,若選擇得宜,則結論出錯的機會就較小。

    圖5-1

    以下例子說明圖5-1的原理:

    例5-2

    為了估計全港觀眾對電視劇集「愛返家」的收視率,TVC電視

    台從全港的家庭(總體)中抽取500個家庭(樣本)進行收視

    率調查。從該500個家庭獲得的樣本收視率就是樣本特徵,電

    視台就是利用這個樣本特徵去估計總體特徵(全港家庭的收視

    率)。

    圖5-1也說明了本單元第一至五節的編排理念。首先,在第一節會介紹

    如何選取適當的抽樣方法來收集數據,以減少估計或推斷出錯的機會;

    第二至三節會說明如何分析和表示收集得來的數據,得出樣本特徵;對

    於數據分佈的規律,數學家已作出不少研究,可運用這些理論從樣本特

    徵得出總體特徵(第四至五節)。在閱讀這個單元期間,應該不時參閱

    上圖,以掌握各課題之間的關係。

    樣本特徵

    抽樣

    總體特徵

    樣本

    總體

    估計(推斷)

  • 數學 單元五 9

    抽樣調查的種類

    抽樣調查可分為兩類:

    由於採取非隨機抽樣會令結果容易出現偏差,進行調查時都會力求採取

    隨機抽樣的方法。以下例子的樣本就是以隨機抽樣抽取:

    例5-3

    陳老師想從班中的40位學員隨機抽取5名學員參加班際問答比

    賽。他先將每個學員的名字寫在紙上,然後放進紙箱內攪勻,

    再從中抽取5張紙,這就是一個樣本容量為5的隨機樣本。

    以下例子的樣本就是以非隨機抽樣抽取:

    例5-4

    上例5-3中,若陳老師挑選了班中學業成績最好的五名學員參

    賽,則這個樣本就是一個非隨機樣本,其他的35位學員是沒有

    機會被抽中的。

    「隨機」這個概念是有嚴格規定的,要點是每個個體被抽中的機會均等。

    留意「任意」一般不等於隨機。例如進行街頭訪問時,每十個經過的人

    抽一個來訪問,就屬於隨機;但假如讓訪問員「任意」選取,則訪問員

    可能下意識地選取一些樣子斯文和衣着光鮮的人來訪問,結果樣本會出

    現傾向性偏差而缺乏代表性。

    抽樣調查

    隨機抽樣(random sampling)

    ‧ 按照隨機原則進行抽樣,不加

    主觀因素

    ‧ 總體中的每個個體都有非零的

    概率被抽中

    ‧ 以這種方式抽取的樣本具有代

    表性

    非隨機抽樣(non-random sampling)

    ‧ 按主觀願望進行的抽樣

    ‧ 總體中的大部分個體都沒有被

    抽中的機會(零概率)

    ‧ 調查結果容易出現傾向性偏差

  • 10 毅進文憑課程

    常用的隨機抽樣方法

    下面分別介紹三種常用的隨機抽樣方法:

    1.簡單隨機抽樣

    此方法又稱為不放回隨機抽樣(random sampling without replacement)。

    其抽樣原理如下:

    一般地,假設總體含有N個個體,從中逐個不放回地抽取n

    個個體作為樣本(n≤N),如果每次抽取時,總體中各個個

    體被抽中的概率都是相同的,則這種抽樣方法稱為簡單隨機

    抽樣(simple random sampling)。

    為了清楚了解此法,看看以下例子:

    例5-5

    毅進學員會共有20個委員,現在從這些委員隨機抽取3人分別

    擔任主席、副主席和秘書,若採用簡單隨機抽樣,則方法如下:

    抽主席:

    在20人中的每一個人,被抽中的概率都是一樣的,即每人被抽

    中的概率為1/20。

    抽副主席:

    由於抽樣是不放回的,所以從餘下19人中抽取,此時,每個人

    都有1/19的概率被抽中。

    抽秘書:

    從餘下的18人中抽取,此時,每個人被選中的概率為1/18。

    這就是說,每次抽取時各人都有相同的概率被抽中,這種抽取

    樣本的方法叫做簡單隨機抽樣,以這種方式抽到的樣本,稱為

    簡單隨機樣本(simple random sample)。

  • 數學 單元五 11

    從例5-5可以看到簡單隨機抽樣的特點:

    ‧ 總體的個體數目必須有限,否則較難做到「完全攪

    勻」,即機會均等。

    ‧ 個體是從總體中逐個逐個抽取,並不是一次過抽取所要

    的樣本數n。

    ‧ 被抽中的個體不放回總體中。

    ‧ 每個個體都有同等的概率被抽中,是一種等可能的抽樣

    方法。

    然而,簡單抽樣法往往會有實際的困難:

    例5-6

    假設要從工廠生產線上的10000件成衣當中,抽取500件進行質

    量檢查。在此例中,總體容量10000件很大,而樣本容量500件

    也較大,故在實際執行時(例如要把衣服編號和製造一萬張紙

    條)會構成很大的困難。

    例5-7

    香港工程師學會的會員分為資深會員、會員和學員會員。資深

    會員在名單的位置排最前,而年資較淺的放在較後位置。在此

    例中,會員在名單的位置不是隨意放置的,而是按資歷深淺排

    列,因此不宜採用簡單隨機抽樣。

    從上述兩例,可以得出以下總結:

    簡單隨機抽樣適用於:

    ‧ 總體中的個體無明顯層次。

    ‧ 總體容量較小,尤其抽取的樣本容量也較小。

    ‧ 用簡單隨機抽樣抽取的個體帶有隨機性,個體間一般無

    固定間距。

  • 12 毅進文憑課程

    習題5-1

    1. 從100個住戶中,隨機抽取20戶進行住戶開支調查,判別下列說法

    的正確性:

    (a) 100個住戶是總體

    (b) 20個住戶是樣本

    (c) 樣本容量為20戶

    (d) 樣本容量為100戶

    2. 某市有20個區議會,每個區議會有20個區議員,現從每個區議會派

    5人參加國外考察團,問這個團共有多少參加者?

    3. 對於簡單隨機抽樣中,每次抽取時每個個體被抽中的概率,以下哪

    個(些)說法是正確的?

    (a) 相等

    (b) 不相等

    (c) 不確定

    (d) 與抽取的次數有關

    4. 樣本是總體的一部分,由某些個體組成;雖然樣本對總體來說具有

    一定的代表性,但樣本始終不等於總體,那為什麼不去調查整個總

    體呢?試舉出三個理由。

    5. 為了提高商場的人流及質素,領會管理公司制定加租政策以便提供

    必要資金來進行維修與改善工程。為此,調查人員訪問了租戶的意

    見,試分析這調查結果是否可信。

    6. 判別下列的抽樣方法是否為簡單隨機抽樣,並說明理由:

    (a) 從顧客服務中心打入的查詢電話中,抽取100個詢問者作為樣

    本;

    (b) 從班中選取學業成績最好的三位學員參加校際常識問答比賽;

    (c) 從患有血癌的病人中,一次過抽取10人進行新藥測試;

    (d) 從DVD櫃內的20張DVD電影中隨意拿出一張播放,看後放回

    再拿下一張,連續看了5齣電影。

  • 數學 單元五 13

    7. 下列各問題中,判別是否適合採用簡單隨機抽樣,並說明原因:

    (a) 德福酒店的會議廳有30排座位,每排有20個座位,座位號碼是

    1-20、21-40等等。參加香江大學醫學院醫學報告會的學者

    坐滿了該會議廳,報告會後,要留下20名學者進行座談。

    (b) 從10台電腦中抽出4台進行病毒檢查。

    (c) 長河集團有限公司有200個員工,其中行政人員有50人,文員

    有120人及工人30人。為了進行公司滿意度調查,從中抽取30

    個員工進行問卷調查。

  • 14 毅進文憑課程

    前面討論的簡單隨機抽樣,必須滿足兩個假設:

    ‧ 總體容量是已知的;

    ‧ 有合適的抽樣框架。

    但是,當總體容量是無限大(在統計學中,「無限大」只

    是指「無法窮盡性地處理」,並非真正數學上的無限大)

    或未知時,或缺乏合適的抽樣框架,如何進行抽樣呢?

    對於這些情況,人們設計了系統抽樣這個方便快捷的抽樣方法。

  • 數學 單元五 15

    2. 系統抽樣

    系統抽樣(systematic sampling)的適用情況:

    ‧ 總體容量是很大或未知;

    ‧ 缺乏合適的抽樣框架。

    以下是系統抽樣適用的例子:

    ‧ 檢驗生產線上的產品次品數時,數目是可數無限大( countably

    infinite);

    ‧ 進行超級市場顧客的意見調查,總體容量是可數無限大;

    ‧ 對電話公司的服務意見調查被訪者的人數是可數無限大。

    由於總體容量是可數無限大,所以缺乏合適的抽樣框架。

    系統抽樣是:

    ‧ 將總體分成等距的幾個部分;

    ‧ 然後按照預先定出的抽樣規則,從每個部分分別抽取個

    體。

    這樣得到的樣本稱為系統樣本(systematic sample)。

    例5-8

    陳老師打算從手上的學員名單中抽取5個學員參加野外定向訓

    練,名單中共有15個學員,若採用系統抽樣抽取所需的樣本,

    可按如下步驟進行:

  • 16 毅進文憑課程

    表 5-3

    德仁中學5A班

    編號 姓名 學號 性別 年齡

    1 陳小新 09001 F 16

    2 王大貴 09002 M 16

    3 李帶金 09003 F 17

    4 陳亞娣 09004 F 16

    5 朱大膽 09005 M 16

    6 馬露露 09006 F 17

    7 石建城 09007 M 17

    8 王栢植 09008 M 16

    9 白小小 09009 F 16

    10 廖向陽 09010 M 17

    11 賀新禧 09011 M 18

    12 吳方 09012 F 19

    13 李文明 09013 M 20

    14 張龍年 09014 M 19

    15 何大力 09015 M 18

    第一步:

    將15個學員分別編號1~15。

    第二步:

    計算抽樣間距(sampling interval)k的值:

    153

    5

    Nk

    n 總體容量

    樣本容量

    這個數值k表示抽樣時,在名單上每3個學員抽取一個。

  • 數學 單元五 17

    第三步:

    要使系統抽樣帶有隨機抽樣的特性,要決定隨機起點(random

    start),方法如下:

    首先利用計算機中的隨機數生成功能RAN# 或 Ran#生成一個

    隨機數,例如0.561。

    然後,求出隨機起點:

    隨機起點 (a) = 隨機數×隨機間距 = 0.561 × 3 = 1.683 2

    即第一個被抽中的是第二位學員。

    故系統樣本為2、2+3、2+2×3、2+3×3、2+4×3,即2、5、8、

    11、14。

    系統樣本的一般形式為

    1a n k

    下表有灰色底色的學員是被抽中的學員:

    表 5-4

    德仁中學5A班

    編號 姓名 學號 性別 年齡

    1 陳小新 09001 F 16

    2 王大貴 09002 M 16

    3 李帶金 09003 F 17

    4 陳亞娣 09004 F 16

    5 朱大膽 09005 M 16

    6 馬露露 09006 F 17

    7 石建城 09007 M 17

    8 王栢植 09008 M 16

    9 白小小 09009 F 16

  • 18 毅進文憑課程

    10 廖向陽 09010 M 17

    11 賀新禧 09011 M 18

    12 吳方 09012 F 19

    13 李文明 09013 M 20

    14 張龍年 09014 M 19

    15 何大力 09015 M 18

    當抽樣間距不是整數時,應如何處理?

    看看以下例子:

    例5-9

    在例6-9中抽取樣本容量為4個學員時,則抽樣間距為

    153.75

    4

    Nk

    n

    抽樣間距不是整數,可從總體容量15中剔除3個,這樣

    123

    4

    Nk

    n

    系統樣本為編號為3、6、12、15的學員。

    ‧ 這樣剔除總體中的一部分個體只是近似做法,因為被剔

    除的3個學員永遠沒有機會被抽中,違反了每個個體必

    須有非零的概率被抽中的原則。

    ‧ 對於隨機抽樣來說,一般要求樣本容量至少為30。

  • 數學 單元五 19

    3. 分層抽樣

    前面提到的簡單隨機抽樣,系統抽樣方式,樣本的特質大致相同。但是

    對總體中每一個個體的某種特徵(例如教育程度)的興趣是一樣的。但

    假如大家對總體(例如全港的消防員)中的一些群組(例如男消防員和

    女消防員)有興趣的話,便需要在抽樣前先作區分,這便是分層隨機抽

    樣(stratified random sampling)。再看看以下的例子,圖中所示是香城

    的人口分佈:

    若該區政府採用簡單隨機抽樣進行綜合住戶調查,會出現

    什麼問題呢?

    若該政府採用簡單隨機抽樣,被抽中的居民可能大都來自人口較多的地

    方,如市區、郊區和工業區,山地和離島的居民被抽中的機會很小,甚

    至沒有被抽中。這樣,山地及離島居民的情況就不能被反映在調查結果

    中。

    例5-10

    利馬豆腐廠有5個部門:會計部、物流部、採購部、市場部和

    行政部。各個部門的員工人數如下圖所示:

    郊區

    20000居民

    山地

    8000居民

    工業區

    50000居民

    市區

    200000居民

    離島

    300居民

  • 20 毅進文憑課程

    行政部(70人) 市場部(40人)

    採購部(20人) 會計部(10人) 物流部(60人)

    (全部員工人數N = 200人)

    公司管理層打算進行薪酬意見調查,調查小組採用簡單隨機抽

    樣抽取n=40人。

    若該公司管理層採用簡單隨機抽樣進行薪酬意見調查,則

    有什麼問題呢?

    這樣被抽中的僱員,很可能只來自行政部、市場部和物流部,少數甚至

    沒有人從採購部和會計部被抽中。這樣被抽中的樣本不具有代表性,因

    為有些員工只有很小甚至零的概率被抽中。基於簡單隨機抽樣的缺點,

    學者引入分層隨機抽樣法以增加大家對總體中不同群組的了解。

    分層抽樣是在抽樣時:

    ‧ 將總體分為(例如按地區或部門等等)幾個互不重疊的

    層(strata);

    ‧ 然後按照一定的比例,從各層中獨立地抽取一定數量的

    個體;

    ‧ 最後,將各層抽取的個體合併成為樣本。

    上面提到的「層」就是慣常所說的「組(group)」。用例6-8展示分層

    抽樣的概念:

    總體容量N=200,樣本容量n=40,

    : 40 : 200 1:5n N

    所以,行政部、市場部、採購部、會計部和物流部抽取的樣本容量分別

    為: 70

    5,

    40

    5,

    20

    5,

    10

    5和

    60

    5

    即14、8、4、2和12人。

  • 數學 單元五 21

    由此例可以看到:

    ‧ 14 + 8 + 4 + 2 + 12 = 40人 = 所需樣本容量;

    ‧ 各部門的總體容量之比 = 各部門抽取的樣本容量之比,即70 : 40 :

    20 : 10 : 60 = 14 : 8 : 4 : 2 : 12;

    ‧ 員工較多的部門抽取較多人,而員工較少的部門就抽取較少,因此

    分層抽樣是一個按比例的抽樣方法;

    ‧ 因為在每個部門(每層)都要進行隨機抽樣,這項調查涉及所有

    「層」,也就是對全部「層」進行全面普查,所以能夠克服簡單隨

    機抽樣的缺點。

    分層抽樣的特徵:

    ‧ 總體呈現明顯的層次時適用;

    ‧ 經分層抽樣後,既有總體的信息,又有各層的個別信

    息,對總體有更充分的了解;

    ‧ 在等可能抽樣中每個個體被抽中的概率為n

    N。

    行政部

    (70人)

    市場部

    (40人)

    採購部

    (20人)

    會計部

    (10人)

    物流部

    (60人)

    2人

    樣本3

    12人

    樣本4

    8人

    樣本5

    抽樣

    抽樣

    4人

    樣本2

    14人

    樣本1

    抽樣

    抽樣

  • 22 毅進文憑課程

    習題5-2

    1. 恆心銀行的員工人數有500人,他們的年齡分佈如下:

    年齡 員工人數

    20 ―<30 220

    30 ―<40 150

    40 ―<50 40

    50 或以上 90

    總和 500

    現需從各個年齡組別中合共抽取100人,進行員工進修狀況調查。

    若用分層隨機抽樣方法,問每個年齡組別分別需抽取多少人?

    2. 速健醫療中心有3位醫生:陳醫生、李醫生和張醫生。各醫生的病

    人數目如下表所示:

    醫生名稱 病人人數

    陳醫生 1500

    李醫生 1200

    張醫生 1800

    總和 4500

    該中心現進行一項病人意見調查,並需抽取450名病人。問各醫生

    分別需抽取多少病人?

  • 數學 單元五 23

  • 24 毅進文憑課程

    三種抽樣方法的比較

    抽樣方法 相同之處 不同之處 適用場合

    簡單隨機

    抽樣

    ‧ 各個個體被

    抽中的概率

    相同

    ‧ 三者都是不

    放回抽樣

    1. 從總體中逐個抽

    2. 不需分組,樣本

    特性大致相同。

    總體容量較小

    系統抽樣 1. 將總體等分為幾

    個區間,然後按預定

    的規則,在每個區間

    抽取個體。

    2. 不需分組,樣本

    特性大致相同。

    ‧ 總體容量較

    ‧ 個 體 特 徵

    的分佈沒有明

    顯差異

    分層隨機

    抽樣

    1. 需按相同特性,

    將總體分為幾個層或

    組別;

    2. 然後在每個層或

    組別按比例或特定的

    數量進行抽樣

    總體存在明顯

    的自然特徵或層

    次(層),可分

    為幾個層

    習題5-3

    1. 富士康健儀器廠對1200名員工進行加班意見調查,打算抽出一個容

    量為30的樣本,若用系統抽樣方法,試求抽樣間距的值。

    2. 為了了解1534名病人的住院日數,研究人員抽取一個容量為250的

    系統樣本,試求出從總體中應剔除的病人人數。

    3 豐前汽車集團打算抽樣檢驗一批100輛私家車的制動器,調查人員

    將這100輛車編號:001~100,並從中抽取若干輛檢查。

    (a) 假設隨機數是0.754,試求出一個樣本容量為10的系統樣本。

    (b) 為了增加結果的可信性,管理層決定增加樣本容量到20輛,試

    求出對應的系統樣本。

  • 數學 單元五 25

  • 26 毅進文憑課程

    第二節 數據表示

    經過普查或抽樣後,會得到大量的數據,有時候變得很難甚至不可能從

    堆積如山的數據中看出數據中包含的信息。那麼,可以怎樣整理數據才

    能找出蘊含的規律呢?這涉及數據表示(Data Representation)的技巧。

    在介紹如何整理數據前,先介紹「變量」或「數據類型」。

    變量類型

    調查或實驗中處理的對象稱為變量(Variable),而實際得到的數值叫

    做數據(Data)。例如,研究一組學員的身高,身高就是要處理的變量,

    經量度後得出的身高值就是數據。

    變量可分為以下幾種:

    下表展示了各種變量的特性:

    變量

    定量型變量(quantitative variable)

    又稱為

    等距變量(interval variable)

    定性型變量(qualitative variable)

    又稱為

    類別型變量(categorical variable)

    連續型變量

    (continuous

    variable)

    離散型變量

    (discrete

    variable)

    名義變量

    (nominal

    variable))

    有序變量

    (ordinal

    variable)

    (例如:房屋

    數、車輛數等)

    (例如:溫度、

    時間等)

    (例如:喜好、

    學歷等)

    (例如:姓名、

    性別等)

  • 數學 單元五 27

    表 5-5

    變量的類型 特 性

    1.定量型變量 可在數軸上量度大小的變量,例如:時間、溫度、擁

    有手機數量

    a.連續型變量 在某區間可取任意值的變量,例如:距離、時間、溫

    b.離散型變量 它只能取整數數值,例如:擁有手機數量、人數

    2.定性型變量 不可在數軸上量度大小的變量,例如:品牌、種族

    a.名義變量 它的數值是能作為分類之用,即這些數值只能表示各

    種類別的編號,例如: 0 = 男性, 1 = 女性

    b.有序變量 它與名義變量都是作為分類之用,但它多了一個特

    性,就是表示各類別的次序關係。例如:小學<中學

    <大專<大學

    懂得以上的變量分類,才能選取合適的數據表示工具。

    頻數分佈表

    收集數據後,需要把原始數據加以分組整理,形成頻數分佈(frequency

    distribution)以至頻數分佈表。這種數據處理方法適用於定量型數據及

    定性型數據。

    頻數分佈

    由原始數據(raw data)構造頻數分佈,必須決定以下兩個值:

    ‧ 組數(number of classes);

    ‧ 組距(class width / size)。

  • 28 毅進文憑課程

    組數

    組數的個數沒有固定的答案,但一般認為組數應介乎5至20個之間,即

    組數是憑主觀要求及經驗決定的,太多或太少都不好,不利於數據規律

    的發現。組數應與樣本的容量有關,樣本容量愈大,組數就愈多。

    組距

    當選定k值後,便可計算組距:

    max min x x R

    ck k

    組距 的近似值

    其中 maxx =數據中最大的值

    minx =數據中最小的值

    R = max minx x 稱為分佈域或全距(range)

    注意:

    ‧ 多數情況下算出的c值不是整數,通常的做法是將c值上捨至較接近

    或方便處理的整數值;

    ‧ 由於人們更習慣使用c為0或5的數值,例如,0、5、10、50、100、

    150等等,故以下將採用這個習慣用法。

    例如,k = 10, maxx = 106, minx = 10,則

    106 109.6

    10

    Rc

    k

    合適的組距應是10。

  • 數學 單元五 29

    下面展示出一些組距計算值取整數的例子:

    表 5-6

    max minx xR

    k k

    組距 (c)

    (上捨數值)

    89.7 90 或100

    1.45 1.5

    (假設各組限均取一位小數)

    47.3 48 或50

    9.2 10

    利用以下例子展示上面的概念:

    例5-11

    下表是50個大學畢業生首份工作的月薪(HK$):

    9450 8850 9350 9200 8750 9900 7550 8350 8350

    8100 8800 7700 9100 8400 8050 7900 8400 7600

    8600 8900 9300 8800 10100 9700 8800 7700 7700

    8050 8200 8650 7750 9500 8100 7750 10150 7900

    10600 9500 11400 15100 16450 15950 15650 12550 14250

    11250 11800 10000 14000 13000

  • 30 毅進文憑課程

    假設組數定為6個。因為 maxx = 16450, minx = 7550,則

    16 450 7 5501483.3

    6

    R

    k

    所以c= 1500。

    利用下表求出最終的頻數分佈表。

    表 5-7

    月薪(元) 用劃記號(1111代表「5」) 頻數

    7500-< 9000 11111111111111111111 1 26

    9000-

  • 數學 單元五 31

    例5-12(定量型數據的頻數分佈)

    下表是運輸署收集了2008年的交通意外傷亡數字,並編製而成的頻數表:

    表 5-8

    年齡組別1 傷亡人數 百分比(%)

    < 5 71 1.9

    5 – 14 416 11.1

    15 – 24 380 10.1

    25 – 34 541 14.4

    35 – 44 553 14.7

    45 – 54 652 17.4

    55 – 64 438 11.7

    65 702 18.7

    總和 3753 100.0

    (來源:運輸署“交通意外傷亡統計”)

    1注意:年齡是一個連續型的定量變量。

    從上表可知:

    ‧ 傷亡人數最少的年齡組別是五歲以下的小孩,人數不足2%;

    ‧ 傷亡人數最多的是65歲或以上的長者,佔18.7%;

    ‧ 年齡組別25-34和35-44的傷亡人數差不多,約為550宗左右。

    若只觀察收集回來的原始數據,則很難看出這些特徵。

  • 32 毅進文憑課程

    例5-13(定性型數據的頻數分佈)

    下表是根據2010年第一季度綜合住戶調查,有關失業人士學歷的調查結

    果:

    表 5-9

    教育程度2 男性人數(千人) 女性人數(千人)

    小學或以下 15.1 6.1

    初中 19.7 6.9

    高中 16.8 7.7

    專上教育 3.6 4.2

    總和 55.2 24.9

    (來源:政府統計處《綜合住戶調查二零一零第一季度報告》)

    注意:教育程度是一定性型有序變量。

    由上表可知:

    ‧ 初中學歷的男性失業人數最多(19700人);

    ‧ 擁有專上學歷的男性失業人數最少(3600人);

    ‧ 一般來說,在同樣學歷的情況下,男性人數比女性人數多一倍以上。

    上節籠統介紹了用不同的「頻數表」表示數據,下一節會介紹連續型數

    據的圖像表示方法,從而對數據有直觀的了解。

  • 數學 單元五 33

    連續型數據的圖像

    1. 直方圖

    嚴格來說,連續型的數據才適用於繪製「直方圖」(Histogram),亦

    常稱「組織圖」或「長條圖」,現在有人對離散型數據繪製直方圖,只

    是以近似的做法。

    利用表5-8的數據繪製對應的直方圖。由於涉及兩個開區間:「

  • 34 毅進文憑課程

    其直方圖如下:

    圖 5-2

    與頻數分佈表相比,直方圖能直觀表明數據的分佈形狀,但原始數據不

    能在圖中表示,說明用直方圖會失去一些信息。

    2. 頻數多邊形

    繪製完直方圖後,可把圖中各小長方形上端的中點連起來,得出「頻數

    多邊形」(frequency polygon),如下圖所示:

    圖 5-3

    為什麼要繪製頻數多邊形呢?

    一般來說,當總體中的個體數較多時,抽取的樣本容量不能太小,隨着

    樣本容量的增加,作圖時所定出的組數也要增加,對應的頻數多邊形就

  • 數學 單元五 35

    會愈接近一條光滑的曲線,這條曲線就是總體的密度曲線(density

    curve)。

    圖5-3的密度曲線如下:

    圖 5-4

    雖然總體密度曲線是客觀存在的,可是準確刻畫它難度頗大,只能用頻

    數分佈來近似得出它的形狀。樣本容量愈大,估計愈準確,如下圖所示:

    為什麼要得到總體密度曲線的近似圖像?

    每一類數據都來自一個獨特的總體,統計學已經找出許多不

    同的總體密度曲線,並對它們的性質有了一定的了解。所

    以,繪製某一樣本的頻數多邊形,能知道該樣本來自某一總

  • 36 毅進文憑課程

    體,從而對數據了解更多。

    以上討論讓大家明白到,從頻數多邊形可以看出總體密度曲線(或分佈

    曲線)的雛形。基本上,常見的數據分佈類型有以下幾種:

    (例如:人的身高、體重、衣服尺碼、人的智商等)

    (例如:電子零件、鏍絲和光管的壽命,以及收入分佈)

    (例如:人們的退休年齡、淺易考卷的學員成績等)

  • 數學 單元五 37

    3. 累積頻數多邊形

    利用每組的下組界及將各組頻數依序累加的累積次數,可繪成「累積頻

    數多邊形」 (cumulative frequency polygon),如例 5-10 所示之交通意外

    傷亡數字所整理後所產生的累積頻分佈表及累積頻數多邊形。:

    年齡組別 組界 傷亡

    人數

    年齡 (X)

    (少於)

    累積頻數 (Y)

    0 –< 5 0 – 5 71 5 71

    5 – 14 5 – 14.5 416 14.5 71+416=487

    15 – 24 14.5 – 24.5 380 24.5 487+380=867

    25 – 34 24.5 – 34.5 541 34.5 867+541=1408

    35 – 44 34.5 – 44.5 553 44.5 1408+553=1961

    45 – 54 44.5 – 54.5 652 54.5 1961+652=2613

    55 – 64 54.5 – 64.5 438 64.5 2613+438=3051

    65 – 74 64.5 – 74.5 702 74.5 3051+702=3753

    總和 - 3753

    累積頻數分佈表是依序累加每一組的次數的分佈表;累積頻數多邊形

    「累積頻數」標示於「Y軸」,其它資料的「組界」則標示於 「X 軸」,

    如例中的年齡。累積頻數多邊形可表現出每一組資料對整體的影響程度。

  • 38 毅進文憑課程

    習題5-4

    1. 2. 某機構對一個工種的時薪(元)進行市場調查,在市面隨機抽樣32

    名相關工人進行問卷調查,資料如下:.

    48 61 78 93 98 94 137 141

    87 103 85 97 108 77 60 75

    107 99 80 59 147 149 118 116

    122 32 115 64 79 73 80 89

    (a) 建立一個頻數分佈表, 包括組別、組界及頻數欄把資料整合,

    第一組別為 30-49, 第二組為50-69, 如此類推;

    (b) 以(a)作基礎,建立一個累積頻數表,並繪製累積頻數多邊形;

    (c) 從累積頻數多邊形中估計有多少工人的時薪是少於100元。

    2. 為了了解年齡介乎18至24歲青年人的體重超標狀況,仁康醫院研究

    人員訪問了40名男士,得到他們的體重(磅)如下:

    129.2 185.3 218.1 182.5 142.8 155.2 170.0 151.3 187.5 145.6

    167.3 161.0 178.7 165.0 172.5 191.1 150.7 187.7 165.0 172.5

    191.1 150.7 187.0 173.7 178.2 161.7 170.1 165.8 214.6 136.7

    278.8 175.6 188.7 132.1 158.5 146.4 209.1 175.4 182.0 173.6

    (a) 將全部數據分成8組,每組等距,求出每組的組距是多少。

    (注意:組距應上捨至一個方便計算的整數,如接近的十位)

    (b) 設第一組的起點為121,試求出體重的頻數分佈表。

    (c) 利用(b)部得出的頻數分佈表,繪製對應直方圖。

    (d) 在(c)的直方圖上,繪製出頻數多邊形。

    (e) 根據直方圖,試描述這個樣本的體重分佈情況。

    (f) 估計體重介乎181-200磅的百分比。

    (g) 繪製累積頻數多邊形,從圖中估計少於175磅的青年人數。

  • 數學 單元五 39

  • 40 毅進文憑課程

  • 數學 單元五 41

    定性型變量的統計圖

    在商業社會裏,將信息簡易快捷地傳達是十分重要的。管理人員日理萬

    機,以圖表表達重要信息,可以幫助他們快速獲得所需的資料,這是由

    於圖表直觀易懂。下面介紹三種在實踐中經常用到的統計圖

    • 棒形圖(bar chart)

    • 圓形圖(pie chart)

    • 線圖(line chart)或時間圖(time chart)。

    1. 棒形圖

    棒形圖的特點:

    ‧ 棒形圖適合定性型變量(名義型或有序型)使用;

    ‧ 每條棒的闊度一樣;

    ‧ 棒與棒之間的距離一樣;

    ‧ 棒形圖主要用途是比較不同時間和不同空間的同類統計

    指標,從中反映類別之間的對比關係,例如:

    ─ 比較不同時間

    例子:同一公司在不同年份的營業額

    ─ 比較不同空間

    例子:不同地區的降雨量

  • 42 毅進文憑課程

    例5-14

    表5-11 2010年第一季度的失業人數

    教 育 程 度 人數(千人)

    小學及以下 21.9

    初中 35.8

    高中 64.8

    專上教育─非學位 13.7

    專上教育─學位 24.5

    總和 160.7

    (來源:政府統計處《二零一零年一月至三月綜合住戶統計調查統計報告》)

    由於上表的教育程度是類別變量,可用棒形圖展示失業人數:

    圖 5-5

  • 數學 單元五 43

    2. 圓形圖

    圓形圖的特點:

    ‧ 圓形圖主要用來表示各成分在總體中所佔的百分比;

    ‧ 整個圓有 360°,圓的總面積表示事物的整體值為

    100%;

    ‧ 各類別所佔的百分比,與其圓心角成比例,扇形面積表

    示整體的一部分。

    方法如下:

    圓心角度=

    各項數量

    × 360∘

    總數量

    例5-15

    利用例5-14的表5-11的數據,計算各扇形所佔的角度和百分比

    列表如下:

    表 5-12

    教 育 程 度 人數

    (千人) 所佔的角度

    所佔的百分比

    (%)

    小學及以下 21.9 21.9

    360 49.1160.7

    21.9

    100% 13.6160.7

    初中 35.8 35.8

    360 80.2160.7

    35.8

    100% 22.3160.7

    高中 64.8 64.8

    360 145.2160.7

    64.8

    100% 40.3160.7

    專上教育-

    非學位 13.7

    13.7360 30.7

    160.7

    13.7100% 8.5

    160.7

    專上教育-

    學位 24.5

    24.5360 54.9

    160.7

    24.5100% 15.2

    160.7

    總和 160.7 360° 100

  • 44 毅進文憑課程

    利用表 5-12 內的數據結果,教育程度的圓形圖展示如下:

    3. 線圖或時間圖

    線圖或時間圖的特點:

    ‧ 線圖或時間圖主要用於動態數量資料(時間序列數

    據),說明事物在時間上的變化發展過程;

    ‧ 幾個變量可在同一線圖上表示出來,以便比較不同變量

    變化趨勢的異同;

    ‧ 如果有幾根線條,要在圖上加上圖例表示不同的線條。

  • 數學 單元五 45

    例5-16

    2001-2009年香港中學會考日校及自修生報考人數如下表所示:

    表 5-13

    年份 日校考生 自修生

    2001 92578 38034

    2002 90297 37319

    2003 86738 36570

    2004 84509 33664

    2005 85784 33687

    2006 84087 37991

    2007 80690 24576

    2008 84565 25009

    2009 88234 30773

    (來源:香港考試及評核局“香港中學會考歷年報考情況及成績統計”)

    其時間圖如下:

    由上圖可見:

    ‧ 日校考生數目每年均大大超過自修生人數;

    ‧ 自2006年後,自修生的數目明顯下跌。

  • 46 毅進文憑課程

    其他常見的統計圖

    在日常生活裏,也有一些常用統計圖在不經意中使用。

    1. 散點圖

    「散點圖」 (Scatter Diagram) ,部份時下軟件如 MS Excel 譯名「散佈

    圖」,由兩組數據資料所構成,其中一組標示於Y軸,另一組在X軸,

    散點圖的數據資料一定是「一對」,與折線圖不同,多用於兩組數據料

    之間是否有「相關性」,點與點之間很少會用線相連。如下所示的10個

    家庭收入與其居住面積的資料及其散點圖。

    家庭收入(萬元)

    (X)

    居住面積 (平方米)

    (Y)

    2.2 15

    2.5 16

    2.8 22

    3.3 17

    3.8 24

    4.0 18

    4.5 25

    5.0 19

    5.6 33

    6.0 30

    圖中可看到家庭收入增加,居住面積亦相對地增大,一個正向的關係。

  • 數學 單元五 47

    2. 幹葉圖

    「幹葉圖」(Stem and Leaf Diagram),又名「莖葉圖」,它比簡單的捧

    形圖更容易看出資料在區間內的真實數字的分佈狀況。

    在繪製幹葉圖時會把資料中的每一個數字,應要求分開「幹」與「葉」

    的部份,再輸入圖內。如數字: 42, 44, 56, 56, 58, 59, 63, 63, 63, 65, 67。

    如: 數字「42」,它以「10」位「4」代表幹的部份,個位「2」代表葉。

    幹 葉

    4 2 4

    5 6 6 8 9

    6 3 3 3 5 7

    除有捧形圖的效果外,可從圖中直接看到數字分佈,獲取簡單統計資料,

    如中位數,眾數,分佈域等。如圖中所示的分佈域(全距) 為 67-42= 25;

    中位數 = 59, 及眾數 = 63。

    3. 象形圖

    「象形圖」 (Pictogram), 又稱「像形圖」是另類捧形圖,以圖像的大小

    或數目代替長捧,使用者能直接從圖像看到關連的物件的比較,可以減

    少不必要的解釋。

    例如圖中所示於 2015年,某機構所僱用的人數為30人。

  • 48 毅進文憑課程

    習題5-5

    1. 政府統計處抽樣調查了全港住戶的人數如下:

    住戶人數 戶數(千戶)

    1 374.7

    2 592.6

    3 553.8

    4 511.5

    5 204.1

    6 82.0

    (來源:政府統計處《二零一零年一至三月綜合住戶調查報告》)

    試繪製住戶人數棒形圖,並作適當解釋。

    2. 下面是按年齡組別及性別劃分的從未結婚人數:

    年齡組別 男性(千人) 女性(千人)

    15-24 285.0 273.6

    25-39 18.7 23.1

    40 35.1 35.0

    (來源:政府統計處《二零一零年一至三月綜合住戶調查報告》)

    (a) 分別繪製男性和女性的從未結婚人數的圓形圖。

    (b) 利用(a)中作出的圓形圖,說明男、女從未結婚的異同。

  • 數學 單元五 49

    3. 某機構響應青海地震賑災捐款活動,其中行政部門的員工捐款情況

    如下所示:

    已知左至右的長方形的高度之比2:4:7:9:2,又知捐款10元和

    20元的員工共有36人。

    (a) 求整個部門的員工共有多少人?

    (b) 求行政部門的同事總捐款額。

    (c) 假設各部門的捐款情況大致相同,若該機構有1000名員工,估

    計該機構會收到總捐款共有多少元?

    4. 個個美集團現正展銷兩種美容產品A和B,在兩星期的展銷期內,

    每個品牌的銷售情況如下表所示:

    品牌 第一週 第二週

    一 二 三 四 五 六 日 一 二 三 四 五 六 日

    A 11 10 8 12 20 30 24 4 6 16 20 18 25 34

    B 7 8 10 11 14 22 18 2 6 8 6 7 9 13

    (a) 繪製品牌A和B的銷售數量在同一折線圖上。

    (b) 經過兩星期的展銷後,管理人員需決定代理哪一個品牌。試結

    合折線的趨勢,決定應該代理哪個品牌?

  • 50 毅進文憑課程

    5. 某便利店上月的 29天 顧客的人數, 數字如下:

    53, 42, 51, 60, 70, 31, 42, 51, 62, 74, 36, 35, 49, 59, 49,

    35, 33, 69, 53,47, 32, 32, 44, 45, 65, 30, 79, 53, 65

    (a) 繪製該店顧客的人數的幹葉圖;

    (b) 試從圖內找出該月的顧客人數的中位數。

    6. 新任的營業部經理想了解更多關於各分店的新來的顧客對公司營業

    額的貢獻,收集的資料如下:

    新顧客

    (人數) 10 28 12 11 26 23 20 15 17 18

    營業額

    (萬元) 24 28 28 21 25 45 38 54 42 34

    (a) 繪製散點圖;

    (b) 能否從圖中看到新顧客人數與營業額的相關趨勢?

  • 數學 單元五 51

  • 52 毅進文憑課程

    第三節 樣本數據的特徵值

    上節提到的數據分佈表示(例如,頻數分佈表、直方圖、棒形圖等)給

    全部數據提供了較為完整的刻畫。但在實際生活中,常常想了解數據在

    某一(些)方面的特定性質,並希望能用一個單一的數值來描述這種性

    質,這個數值就是數據的特徵值。

    為什麼要算出樣本的數據特徵呢?

    如前所述,總體通常都是很大甚至無限大的,要全面了解整個總體可能

    需要龐大的資源,或根本不可行。一般的做法是抽取其中部分個體進行

    調查,利用樣本算出樣本的數據特徵,從而估計(推斷)總體的數據特

    徵。

    數據的平均數

    「平均數」(average)一詞有其廣泛的含義,人們通常認為average與

    mean是相同的,其實不然。嚴格來說,average是一類(族)平均數:

    平均數

    算術平均數

    (arithmetic mean)

    眾數

    (mode)

    加權平均數

    (weighted mean)

    中位數

    (median)

    樣本的兩類特徵值

    用來刻畫數據的平均取值水平的特

    徵值

    (例如,平均數、中位數和眾數)

    用來刻畫數據取值的變異程度的特

    徵值

    (例如,方差和標準差)

  • 數學 單元五 53

    除此之外,平均數族還有幾何平均數(geometric mean)、截尾平均數

    (truncated mean)、調和平均數(harmonic mean)。本節只討論上圖

    中四個常用的平均數。

    日常生活中,會經常聽到、見到或使用到平均數。例如,平均工資、平

    均體重、平均身高、平均年齡等。應當注意,基於樣本數據算出平均數,

    所以嚴格來說這些平均數應冠以「樣本」二字的形容詞,例如,樣本平

    均數、樣本中位數等。

    介紹平均數的計算前,先來重溫連加記號「 」(Summation Notation)

    的用法,統計學經常使用這符號。看看下面的例子:

    例5-17

    若要把 10000021 ..... xxx

    逐個寫出來,一定極之費時失事,一個方法是引入連加記號:

    10000021

    100000

    1

    ..... xxxxi

    i

    其中「i= 1」 : 表示x的下標,下標每次增加1,起點由1

    開始

    「100,000」 : 求和的下標終值

    「」 : 表示兩項x之間用加號相連

    注意:

    下標用哪個記號沒有關係,例如:

    3

    1 2 3

    1

    i

    i

    x x x x

    (此處下標記號用「i」)

    3

    1 2 3

    1

    k

    k

    x x x x

    (此處下標記號用「k」)

    321

    3

    1

    3

    1

    xxxxxk

    k

    i

    i

  • 54 毅進文憑課程

    從調查研究收集到的數據,可能是零散的原始數據,也可能是已整

    理成頻數分佈表的分組數據。以下會分別介紹如何計算兩類數據的

    平均數。

    原始數據(不分組)數據的平均數

    1. 樣本算術平均數 (Sample Arithmetic Mean)

    假設有一個有 n 個觀察值 nxxx ,.....,, 21 的樣本,其平均數定義為:

    .

    n

    i

    in x

    nn

    xxxx

    1

    21 1 .....

    樣本算術平均數

    例5-18

    從毅進文憑學員中抽取5個學員並詢問其入學年齡,得如下的

    結果:

    18, 19, 17, 21, 30

    入學年齡的樣本平均數 = 1

    18 19 17 21 30 215

    怎樣理解這個平均數21呢?

    平均數是有平滑作用(smoothing effect)的,即是說,求平均的過程能

    將極端大或小的值變得沒有那麼極端,就是所謂「拉上補下」。上例中,

    最大的值是30,

  • 數學 單元五 55

    4

    3

    2

    0

    17 21

    18 21

    30 21 4 3 2 0

    19 21

    21 21

    新值 給予其他數值平均數

    由上圖可知,極端值30已變為21,不再那麼極端,而令到其他數17、18

    和19全變為21,不再那麼小。

    數據經過計算平均數後,令極端值產生平滑作用,這對反

    映數據特徵是否必定有利?

    在某些情況下,例如香港的季度出口數據經過平滑之後,可反映它的長

    期發展趨勢。然而,在另外一些情況下,數據經過平滑作用後,反而不

    能將數據的真實情況反映出來,例如,要計算某地的本地生產總值按人

    口數的平均值(人均本地生產總值),若該地相當貧窮,但卻有幾個像

    蓋茨(Bill Gates)那樣有錢的人,則人均本地生產總值便會被大大扯高,

    不能如實反映當地的貧窮情況。

    平均數表示樣本數普遍取的值,稱為數據的集中趨勢( Central

    Tendency)。

    平均數的計算受數據中每一個數的影響,因此,平均數容易受資料中一、

    兩個極大或極小的數值影響。當數據中有一、兩個極端數值時,數據分

    佈會呈偏態或不對稱,只有當分佈是無偏態或對稱時,平均數和中位數

    才是相等。當分佈中有一些極高的數值時,平均數會較中位數的值為大,

    這是右偏態或正偏態的分佈。相反,若分佈中有一些極小的數值時,平

    均數的值會較中位數為小,這是左偏態或負偏態的分佈。(請參看61頁

    的圖像)

  • 56 毅進文憑課程

    2. 樣本加權平均數 (Weighted Mean)

    上節介紹的是「算術平均數」,「算術」二字是什麼意思嗎?這是相對

    於「權重」(weight)而言的,權重就是在一個整體裏,各部分的相對

    重要性;「算術」表示各部分是同等重要的。

    很多生活中的例子都體現了權重的概念。例如,在各種體育運動如體操、

    跳水等,各個動作難度不同,不同動作的難度係數就不同。

    例5-19

    建城學員在4次評核的分數及各評核所佔的百分比如下表所示:

    表 5-14

    評核 分數 權重

    作業 90 1

    測驗 78 2

    期終考試 85 5

    專題報告 79 2

    能否用以下的算術平均數公式來計算建城的平均分數呢?

    1

    90 78 85 79 834

    x

    答案是否定的!這是因為:

    (*) 83 (79)4

    1(85)

    4

    1(78)

    4

    1(90)

    4

    1x

    這裏的「1

    4」就是每個評核的權重。明顯地,(*)式表示了一

    個相等權重的情況,違反了上表5-14中各評核的不同權重是的

    事實。

  • 數學 單元五 57

    自然是有需要一個能夠處理不同權重的平均數計算公式:

    n

    ii

    ii

    n

    nnw

    w

    xw

    wwwxwxwxwx

    1

    n

    1i

    21

    2211

    ....

    .....

    對於上例,加權平均分數應是:

    1 90 2 78 5 85 2 7982.9

    1 2 5 2wx

    注意:雖然此處 x = 83與 wx = 82.9差不多,但 x 並不一定非常接近 wx 。

    上文提到,當樣本含有極大值或極小值時,平均數容易受

    極端值的影響。在這些情況下,應選什麼數值來反映數據

    的集中趨勢?

    例5-20

    忠誠發展公司共有9名員工及一名行政總裁,每名員工的月薪

    為$11,500,而行政總裁的月薪為$50,000。行政總裁現正招聘

    員工,他於報章刊登了如下的招聘廣告:

    招聘

    忠誠發展公司現正招聘行政人員多名,需認可大學畢業,兩

    年有關工作經驗,本公司的平均月薪為$15350。有志加入

    者,可於辦公時間內致電2345 6789約見。

    上述廣告中的平均月薪($15350)顯然高於大部分員工的月薪

    ($11500),廣告內的平均月薪是否有錯?

    全公司員工的平均月薪為 = 9 11500 50 000

    $15 35010

    顯然,廣告沒有出錯。由於平均數容易受到極端值的影響,所

    以需要尋找一個不受極端值影響的量度工具。

  • 58 毅進文憑課程

    3. 樣本中位數

    中「位」數,顧名思義是與其所在位置有關,是一種位置平均數

    (positional average)。求它的值時,必須先將數據由小至大排列。

    中位數公式:

    樣本容量

    (n)

    中位數位置 公式

    奇數

    (1

    2

    n )th

    1

    2

    nX (排序後數據的中間值)

    偶數 1

    2 2

    2

    n nX X

    (中間兩值之和÷ 2)

    例5-21(樣本容量為奇數)

    一個含有9個觀察值的樣本:7, 9, 15, 2, 32, 25, 14, 8, 47

    排序後的數值為:2, 7, 8, 9, 14, 15, 25, 32, 47

    中位數的位置:第 9 1

    2

    = 5個數值

    中位數(M )= 14(中間值)

    例5-22(樣本容量為偶數)

    若上例5-21中增加一個數值59,則排序後的數值為:2, 7, 8, 9,

    14, 15, 25, 32, 47, 59

    現有10個數據,中位數的位置介於第10

    52 和第

    101 6

    2 個數

    之間,故

    中位數 = 14 15

    14.52

  • 數學 單元五 59

    例5-23

    上面例5-20忠誠發展公司的中位數:

    11500, 11500, 11500, 11500, 11500, 11500, 11500, 11500,

    11500, 50000

    現有10個數據,中位數的位置介於第10

    52 和第

    101 6

    2 個數

    之間,故中位數 =11500 11500

    2

    = $11500

    顯然,中位數能夠:

    ‧ 避免極端值$50000的影響;

    ‧ 如實地反映大部分員工的月薪。

    這並非表示中位數優於平均數,只是說它們反映了「平均」

    特性的不同方面。

    有了平均數和中位數後,是否不需要其他量度集中趨勢的

    工具?

    看看以下例子:

    例5-24

    步步高陞皮鞋廠生產多式多樣的皮鞋。下表是各個鞋碼的鞋在

    各門市部過去一星期的銷售數(雙):

    鞋碼 5 5.5 6 6.5 7 7.5 8

    售出皮鞋數(雙) 5 7 25 28 28 15 4

    能否利用平均數或中位數來決定未來的生產策略呢?

  • 60 毅進文憑課程

    皮鞋廠制定生產策略的最終目標是什麼呢?當然是要令利潤達到最高。

    所以,廠方會選擇生產那些售出最多鞋數的鞋碼(即6.5和7鞋碼),以

    期達到最高利潤,這就是眾數的由來。

    4. 樣本眾數

    一般來說,一組數據中頻數最大(即出現次數最多)的那個(些)數據,

    稱為這組數據的眾數。

    例5-25

    求以下數據的眾數:

    (i) 1, 2, 2, 2, 3, 4, 5

    (ii) 1, 2, 2, 2, 3, 4, 5, 5, 5

    (iii) 1, 2, 3, 4, 5

    (i) 因為2的頻數最多,所以眾數為2。

    (ii) 因為2和5的頻數最多,所以眾數為2和5。

    (iii) 因為各個數值的頻數都是一樣的,所以眾數不存在。

    由例5-25可知,不同於平均數或中位數(它們的個數是唯一的),眾數

    可以:

    ‧ 只有一個;

    ‧ 多於一個(個數不唯一);

    ‧ 不存在。

    眾數只能以數據出現的頻數多與寡作論點, 未觸及數學分析環節,因此

    多用於在敘述式統計學上。

  • 數學 單元五 61

    平均數、中位數、眾數的相對位置如下:

    分組數據的集中趨勢

    前節提到,從普查或抽樣調查會得到大量原始數據,很多時會被製成

    「頻數分佈表」。現實生活中,大部份的政府刊物、商會及大學出版的

    專題調查結果,均以頻數分佈表表示。怎樣從這些表估計出樣本的數據

    特徵呢?

    要求出這些數據特徵,一般需要預先對頻數分佈表作處理,即求出頻數

    表的組界。

    頻數表組界的求法

    求組界時,要根據頻數表變量的特點,對每個組別作出適當的調整:

    (i) 一般的連續型變量

    對於一般的連續型變量,例如距離、長度等,需要作連續性修正,即求

    出每個組別的組界(下界和上界)。

  • 62 毅進文憑課程

    看看以下擲標鎗比賽的例子:

    距 離(米) 頻 數

    距 離(米) 頻 數

    0-10 1f 0-10.49 1f

    11-20 2f 10.5-20.49 2f

    21-30 3f 20.5-30.49 3f . . .

    .

    .

    . . . .

    .

    .

    .

    註:由於每組之間相差達一

    米,所以會出現問題。

    註:由於每組之間只是相差

    0.01米,已經超出了一般在運

    動場上的量度精確度,因此

    不會出現問題。

    (ii) 特殊的連續型變量─年齡

    由於在調查訪問時,年齡通常是以「完整年」收集的,故年齡組別「21

    -24」的實際意義是21 年齡

  • 數學 單元五 63

    1. 分組數據的平均數

    由於分組數據帶有不同的頻數,它們的平均數就是以頻數為權重的加權

    平均數。看看以下例子:

    例5-26

    利馬豆腐廠20間門市昨日的營業額如下表所示:

    表 5-16

    營業額(港元)= X 門市數目

    0 -< 2000 3

    2000 -< 4000 4

    4000 -< 6000 8

    6000 -< 8000 3

    8000 -< 18000 2

    總和 20 = n

    求每間門市的平均收入。

    由於營業額組別對應的門市數目不同,所以利用等權重(算術

    平均數)的公式:

    nxn

    xn

    xn

    x1

    ....11

    21

    是不適宜的。另外,上式中的 ix 代表一個數值,而非一個組別,

    所以應該使用加權平均公式:

    i i

    w

    i

    f xx

    f

    其中 if =第i組別的頻數(權重)

    ix =第i組的組標(組中點)

  • 64 毅進文憑課程

    求出每個組別的組標:

    營業額(港元)

    [a, b)

    門市數目

    ( if ) 組標(

    2i

    a bx

    0 -< 2000 3 0 2 000

    2

    1000

    2000 -< 4000 4 3000

    4000 -< 6000 8 5000

    6000 -< 8000 3 7000

    8000 -< 18000 2 13000

    總和 20 -

    那麼, X =[3×1 000+4×3 000+8×5 000+…]/20

    加權平均數 X =5100元

    2. 分組數據的中位數

    要求出中位數,必須先找出中位數組的位置,它的位置如下:

    th1

    2

    n

    確定中位數組後,可利用頻數表的中位數公式:

    2 L

    mc

    nf

    M L cf

    其中 L = 中位數組的下界

    n =樣本容量

    L

    f =中位數組以上各組的頻數和

    mcf

    =中位數組的頻數

    c =中位數組的組距

  • 數學 單元五 65

    仍以表5-16的數據為例:

    注意,此處的營業額數據沒有斷開,無須進行連續性修正。

    中位數的位置:th th

    th1 20 1 10.52 2

    n

    從表5-17得知,第10.5個數據位於 15843 內,因此,中位數位於

    「4000 -< 6000」之間,即「4000-6000」為中位數組。

    表 5-17

    營業額(港元) 門市數目

    0-< 2000 3

    2000-< 4000 4

    4000-< 6000 8

    6000-< 8000 3

    8000-< 18000 2

    總和 20

    20 72 24 000 2 000 4 750

    8

    L

    mc

    nf

    M L cf

    注意,若變量是連續型的,而頻數表的分組卻是不連續的,

    則要進行連續性修正。

    營業額(港元) 頻數

    營業額(港元) 頻數

    0 – 2000 3 0 – 2000.5 3

    2001 – 4000 4 2000.5 – 4000.5 4

    4001 – 6000 8 4000.5 – 6000.5 8

    (分組不連續) (分組連續)

    此時,L= 4000.5,而不是4001;中位數組為4,000.5 – 6,000.5,而不是

    4,001– 6,000。

    L 7L

    f

    中位數組

    mcf

  • 66 毅進文憑課程

    3. 分組數據的眾數

    首先找出眾數組(modal class),然後利用下列的眾數公式:

    10

    1 2

    M L c

    其中 L = 眾數組的下界

    1 = 眾數組的頻數-前眾數組的頻數

    2 = 眾數組的頻數-後眾數組的頻數

    c = 眾數組的組距

    仍是以表5-16的數據為例:

    由於組別「4000-

  • 數學 單元五 67

    數據的離散

    在前面已經懂得計算一組數據的集中趨勢值(平均數、中位數及眾數),

    那麼這三個數字特徵是否已能完全反映數據的特徵呢?請看以下例子:

    例5-27

    中文科陳老師比較兩組學員的考試,結果如下:

    表 5-18 學員成績

    A組學員 B組學員

    66 40

    68 42

    70 70

    70 70

    70 70

    72 98

    74 100

    經過計算後,兩組學員的平均分數、中位分數和眾數分數如下:

    表 5-19

    集 中 趨 勢 A組 B組

    分數平均數 70 70

    分數中位數 70 70

    分數眾數 70 70

  • 68 毅進文憑課程

    基於上表5-19的結果,陳老師認為兩組學員的考試表現是

    一樣的。你是否同意?

    事實上,陳老師的結論是錯誤的!

    這是由於陳老師只着眼於每組的中心部分(集中趨勢),忽略了數據兩

    側的情況。

    圖 5-7 學員考試成績

    從表5-18和圖5-7可知:

    ‧ A組學員兩側的分數更靠近集中趨勢(70),兩側偏離中心差異

    (稱為極差)最多是4;

    ‧ 而B組學員兩側的分數明顯地偏離中心,極差是30。

  • 數學 單元五 69

    由上例可知:

    要對一組數據有較全面的了解,必須考察該組數據的

    ‧ 中心位置;和

    ‧ 兩側位置的數據分佈。

    研究數據兩側的數據分佈,有助大家認識數據波動的大小,

    即數據的離散(dispersion)情況。

    一般情況,離散程度偏小,數據越集中,較為一致;反之離散程度越大,

    數據越分散,差異較大。分散量度離散程度的常用工具如下圖所示:

    量度離散的工具與應用

    下節會集中討論四種較常用的工具和它們相關的應用。

    1. 分佈域

    「分佈域」 (Range), 亦常稱「全距」是量度數據離散的最簡單方法,

    它以一組數據的最大值和最小值之差。

    對於不分組數據,分佈域 (全距)定義如下:

    量度離散程度的工具

    分佈域/全距

    Range

    四分位數間距

    Inter-quartile

    range

    方差

    Variance

    標準差

    Standard

    deviation

    分佈域 (全距) = 最大值 – 最小值

  • 70 毅進文憑課程

    例5-28

    十名學員的英語測驗成績如下:

    59, 60, 23, 80, 97, 45, 77, 20, 14, 87

    學員成績的分佈域 = 97 – 14 = 83 分

    對於分組數據,分佈域 (全距)定義如下:

    例5-29

    某大專院校80位學員的體重(公斤)分佈如下:

    重量 41 - 50 51 - 60 61 - 70 71 - 80 81 - 90

    組界 40.5 – 50.5 50.5 – 60.5 60.5– 70.5 70.5 – 80.5 80.5 – 90.5

    頻數 12 34 25 8 1

    學員體重的分佈域 = 90.5 – 40.5 = 50 公斤

    由於分佈域只注重一組數據的最大值和最小值,故此分佈域易受極

    端數據影響。如例 5-29 所示只有一位學員的數據紀錄在最大的組別,

    郤令分佈域增值了10點。

    2. 四分位數間距

    3. 要分析貼近中央數據的離散,「四分位數間距」(Inter-Quartile Range)

    會是其中的選擇,主要計算中間50% 的數據,因此避免極大值與值

    的影響。計算四分位數並無統一的標準,時下估計方法不少有五種,

    不同的方法有機會得到不同的結果。以下會集中說明一種較多在教

    學課本談論的方法。當估算中位數,會把未分組的數據 nYYY ...,,, 21

    分佈域 (全距) = 最高一組上組界 – 最低一組的下組界

  • 數學 單元五 71

    按小至大排列,它的中位數自然是分開數據兩個等份,同樣原理,

    四分位數 (quartile) 將該組數據分為四個等,如下圖。

    • 第一四分位數 (Q1),又稱「下四分位數」,等於該數據中所有

    數值由小到大排列後第25%的數字。

    • 第二四分位數 (Q2),即「中位數」,等於該數據中所有數值由

    小到大排列後第 50%的數字。

    • 第三四分位數 (Q3),又稱「上四分位數」,等於該數據中所有

    數值由小到大排列後第75%的數字。

    第三四分位數與第一四分位數的差距又稱「四分位數間距」

    (InterQuartile Range, IQR)

    四分位數間距的一半稱為「四分位差」(Quartile deviation)

    四分位數間距 = 第三四分位數 (Q3) – 第一四分位數 (Q1)

    四分位差 =

    第三四分位數 (Q3) – 第一四分位數 (Q1))

  • 72 毅進文憑課程

    四分位數的算法如下:

    1. 先以中位數公式 th2

    1)(n 取得中位數 (Q2) 位置及數字;

    2. 以中位數使數據分成兩列(不要把中位數放入已分好的數列),

    3. 隨後再以公式 th2

    1)(n 及計算中位數的相同方法,以第一組

    數列的中位數為第一四分位數(Q1);第二組數列的中位數為第

    三四分位數(Q3)。

    例5-30

    求 20, 15, 40, 19, 2, 30, 16 的下四分位數、中位數及上四

    分位數。

    排序:2, 15, 16, 19, 20, 30, 40, n=7

    中位數 (Q2) = 位第 4 2

    1)(7

    th , 即 Q2 = 19

    不包括中位數的數字,第一、二組數列各有3個數字

    第一組數列(下半部) 第二 組數列(上半部)

    2 15 16 19 20 30 40

    Q1 = (3+1)/2 = 第2位

    Q1 = 15

    (Q2)

    Q3 = (3+1)/2= 第2位,

    (Q3) = 30

    四分位數: Q1 = 15, Q2 = 19,Q3 = 30,

    例5-31

    求 44, 9, 9, -3, 1, -5, 6, 9, 2, 18 的分佈域,四分位數,四

    分位數間距及四分位差。

    排序:-5, -3, 1, 2, 6, 9, 9, 9, 18, 44, n=10

    分佈域:最大值 – 最小值 = 44 – (-5) = 49

    中位數 (Q2) = 位位 5.5 2

    1)(10

    , 即 Q2 = 7.5

    2

    9)(6

  • 數學 單元五 73

    不包括中位數的數字,第一、二組數列各有5個數字

    第一組數列(下半部) 第二 組數列(上半部)

    -5 -3 1 2 6 9 9 9 18 44

    Q1 = (5+1)/2 = 第3 位,

    Q1 =1

    7.5

    (Q2)

    Q3 = (5+1)/2= 第3 位

    (Q3) = 9

    四分位數: Q1 = 1, Q2 = 7.5,Q3 = 9,

    四分位數間距:Q3 - Q1 = 9 – 1 = 8

    四分位差: 4 2

    19

    2

    QQ 13

    例5-32

    一批員工於一星期內光顧快餐店的次數分佈如下表。

    光顧次數 3 4 5 6 7 8 9 10

    頻數 2 4 5 7 10 9 2 1

    求光顧快餐店的所有四分位數,四分位數間距及四分位差。

    員工人數 (n):2 + 4 +5 + 7 + 10 + 9 + 2 + 1 = 40

    Q2 = 位第 20.5 2

    1)(40

    ,即是在第20位和21位員工之間,

    Q2=7次

    Q1 是第 _____位和 ______ 位員工之間,Q1=_____次;

    Q3 是第 ______ 位和______位員工之間,Q3=______次;

    四分位數間距 =________,四分位數間距 = _________

    對於分組的數據,可以使用該組「累積頻數分佈表」數據的所產生

    的「累積頻數多邊形」或以曲線所繪畫的「累積頻數曲線」,以求

    取四分位數及四分位數間距。若 N 為總頻數,則:

  • 74 毅進文憑課程

    • 第一四分位數 (Q1),是 4

    N (或第25%)的對應值;

    • 第二四分位數, 中位數 (Q2),是4

    2N (或第50%)的對應值;

    • 第三四分位數 (Q3),是4

    3N (或第75%)的對應值。

    例5-33

    如例 5-29, 某大專院校80位學員的體重(公斤)分佈如下:

    重量 41 - 50 51 - 60 61 - 70 71 - 80 81 - 90

    頻數 12 34 25 8 1

    (i) 建立累積頻數表及繪製累積頻數多邊形;

    (ii) 從圖中找出第一及第三四分位數及四分位數間距。

    (i) 大專院校80位學員的體重累積頻數表

    (組界)

    重量(少於) 40.5 50.5 60.5 70.5 80. 90.5

    累積頻數 0 12 46 71 79 80

    (ii) Q1 是 N/4 =80/4=20位,Q3 是 3N/4=3(80/4)= 60位,

    從圖得出Q1=52公斤 , Q3= 66公斤;四分位數間距

    66– 52=14 公斤。

  • 數學 單元五 75

    框線圖

    「框線圖」(Box and Whisker Diagram /Boxplot) , 因形狀似一個箱子又

    稱為「箱形圖」、「箱線圖」、「盒鬚圖」、「盒式圖」、「箱尾圖」

    或「盒狀圖」等是一種用作顯示一組數據分散情況資料的統計圖,除

    收納了分佈域(全距)、四分位數間距功能,把最大值,最小值及四分位

    數值圖像化,常見於品質管理,金融投資領域。

    框線圖由一個箱框和兩條線組成,一條線起點為最小值至下四分位

    數(Q1),另一條由上四分位數(Q3)開始至最大值,箱框由下四分位數

    (Q1) 起至上四分位數(Q3),中位數(Q2)的位置在框內以一直線代表。

    繪製框線圖時的「長度」應按「準確的尺吋比例」定位。

    例5-34

    一組男運動員在參加比賽前的體重紀錄(公斤)分佈,列出

    他們的所有體重的四分位數值,四分位數間距,分佈域。

    下四分位數(Q1) = 64公斤, 上四分位數(Q3) = 72公斤

    中位數 (Q2) = 69公斤, 四分位數間距 =72 – 64 = 8公斤

    分佈域 =最大值 – 最小值 = 76 – 56 = 20公斤

    部份框線圖因工作上需要以垂直方法表示,它並不會顯示

    有關具體資料,很多時會加入幹葉圖和直方圖作資料補充。

  • 76 毅進文憑課程

    樣本方差與標準差的定義

    4. 樣本方差

    為了了解兩側數據偏離中心的情況,必須選定一個標準(通常是平均

    數),見下圖:

    由於任一數值 ix 可位於 x的左邊或右邊,所以 ix 離開中心距離(離差)

    可定義為:

    ix x 或 ix x

    對於所有的 1 2, , , nx x x 來說,全部x偏離中心的距離為:

    1

    n

    i

    i

    x x

    或 1

    n

    i

    i

    x x

    但因為按照平均數的定義和計算方法, 1

    n

    i

    i

    x x

    必然等於零,或

    1

    0n

    i

    i

    x x

    ,故此二式任一條均不能用來量度離散程度。

    一個可行的辦法是採用離差平方和:

    2

    1

    n

    i

    i

    x x

  • 數學 單元五 77

    為了帶出「平均」的意思,平均離差平方和(以後稱為方差)定義為:

    2

    1

    1n

    i

    i

    x xn

    可惜的是,方差有一個明顯的缺點,那就是單位出錯。

    若 x 以公斤為單位,則 x 以至 ix x 均以公斤為單位。這樣,

    2

    1

    1n

    i

    i

    x xn

    的單位便是(公斤)2 一個不合理的單位!

    5. 樣本標準差

    解決方差單位出錯的方法很簡單,就是對它取平方根:

    標準差 (SD) = 2

    1

    1n

    i

    i

    x xn

    這樣,錯誤的單位(公斤)2可變回合理的單位(公斤)。

    注意:

    ‧ 一般教科書中的樣本方差(

    2s )和樣本標準差(s)分

    別定義為:

    22

    1

    1

    1

    n

    i

    i

    s x xn

    2

    1

    1

    1

    n

    i

    i

    s x xn

    基於統計理論,分母由「n」改「n-1」,能令樣本標準

    差估計總體標準差時,有更佳的估計值。

    ‧ 雖然標準差在量度單位上優於方差,但並不表示方差沒

    有價值。在統計理論中,方差比標準差更為常用。

  • 78 毅進文憑課程

    以下會以例子示範如何計算原始數據和分組數據的標準差。若要計算方

    差,只需取平方就可以了。

    原始數據的標準差

    (i) 樣本標準差公式→可直接計算

    2

    1

    1

    1

    n

    i

    i

    s x xn

    其中n=樣本容量

    (ii) 總體標準差公式→一般無法直接計算(因實際運作中不能涵蓋N中

    的所有個體)

    2

    1

    1N

    i

    i

    x xN

    其中 N=總體容量

    注意:

    ‧ 方差或標準差是用來比較兩組或多組數據的離散程度的

    量度工具;

    ‧ 方差或標準差的值小,表明數據大多集中在它的平均數

    附近;

    ‧ 方差或標準差的值相對地大,表明數據偏離它的平均

    數,比較分散;

    ‧ 一般來說,若沒有指明,所有統計題目中的數據都視為

    樣本數據。

  • 數學 單元五 79

    例5-35

    十名學員的英語測驗成績如下:

    59, 60, 23, 80, 97, 45, 77, 20, 14, 87

    分別計算測驗成績的樣本和總體標準差。

    如使用計算機,計算以上數據的樣本標準差和總體標準差:

    步驟 計算機型號

    Casio fx-3650P Casio fx-50FH

    1. 選「SD」模式 按【MODE】【MODE】【1】

    選「SD」模式 按【MODE】【MODE】【4】

    選「SD」模式

    2. 清除數據 按【SHIFT】【MODE】【1】

    【EXE】 按【SHIFT】【9】【1】

    【EXE】

    3. 輸入數據 按:

    59【M+】60【M+】23【M+】80【M+】…… 14【M+】87【M+】

    4. 顯示結果 輸入了多少數據 (n)

    按【Shift】【1】【3】【EXE】鍵,顯示:10

    平均數 ( )

    按【Shift】【2】【1】【EXE】鍵,顯示:56.2

    樣本標準差(n-1)

    按【Shift】【2】【3】【EXE】鍵,顯示:29.727…

    總體標準差(n)

    按【Shift】【2】【2】【EXE】鍵,顯示:28.202…

    (其他型號計算機,請參照附錄一:常見計算機统計模式操作指引)

    數據的樣本標準差:

    SD = 2

    1

    1

    1

    n

    i

    i

    x xn

    = 29.7

    數據的總體標準差:

    SD = 2

    1

    1n

    i

    i

    x xn

    = 28.2

  • 80 毅進文憑課程

    分組數據的標準差

    類似分組數據求平均數的情況,需要使用加權標準差公式:

    (i) 樣本標準差

    2

    1

    1

    1

    n

    i i

    i

    s f x xn

    ,其中n =

    1

    n

    i

    i

    f

    (ii) 總體標準差

    2

    1

    1N

    i i

    i

    f x xN

    ,其中N =

    N

    ii

    f1

    例5-36

    雄基社區中心隨機抽取100名參與成員作智商(IQ)檢定,結

    果如下表所示:

    IQ 45-

  • 數學 單元五 81

    100【SHIFT】【,】29【M+】

    110【SHIFT】【,】24【M+】

    120【SHIFT】【,】12【M+】

    129.5【SHIFT】【,】4【M+】

    4. 顯示結果 輸入了多少數據 (n)

    按【Shift】【1】【3】【EXE】鍵,顯示:100

    樣本標準差 (n-1)

    按【Shift】【2】【3】【EXE】鍵,顯示:14.544…

    (其他型號計算機,請參照附錄一:常見計算機统計模式操作指引)

    2

    1

    114.5

    1

    n

    i i

    i

    s f x xn

    6. 相對離差

    在統計學中,相對離差又稱「變異係數」(Coefficient of Variation)。

    前文提及當標準差的數值愈大,表示數據的分佈愈大,離散度愈高,如

    果兩個整體數據的平均數很接近,可以單從標準差的數值,判別那組數

    據的離差程度較大。但是,如果它們的平均數值相差很遠,使用單位不

    同,計算比例尺度不同,例如同一份試卷,甲老師以100分為滿分,而

    乙老師則設計為20分作滿分,自然甲老師所得分數標準差的數值必較大,

    難作比較。在這幾類情況下,則需要比較它們的相對離差。

    相對離差是概率分佈離散程度的一個歸一化量度,只在平均值不為零時

    有定義,一般適用於平均值大於零的情況。其定義:

    在互相比較離差程度,相對離差數值越小,表示某事物的表現較穏定,

    反之數值越大,相對而言某事物的表現會有較大反覆。

    相對離差 = 樣本標準差

    樣本平數值 = %100

    x

    s

    https://zh.wikipedia.org/wiki/%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83https://zh.wikipedia.org/wiki/%E6%AD%B8%E4%B8%80%E5%8C%96

  • 82 毅進文憑課程

    例5-37

    找出 12, 14, 28, 36, 39, 42 的平均數、標準差和相對離差。

    平均數 = 6

    423936281412 = 28.5

    標準差 =

    16

    5.28425.28395.2836

    5.28285.28145.2812

    222

    222

    = 12.90

    相對離差 = %1005.28

    90.12 = 45.25%

    例5-38

    某小學三年級學員的平均體重為27公斤,其標準差為3.2公斤;

    平均身高為120公分,標準差為5.6公分。問體重與身高哪一個

    相對離差程度較大?

    體重相對離差 = %85.11%10027

    2.3

    身高相對離差 = %67.4%100120

    6.5

    體重相對離差較大。

    例5-39

    請找出例5-28中,第一組十名學員的英語測驗成績:

    59, 60, 23, 80, 97, 45, 77, 20, 14, 87

    (a) 相對離差。

    (b) 第二組的廿名學員的平均值為 60.5 分,標準差為32分。

    哪一組的學員英語成績較反覆?

  • 數學 單元五 83

    (a) 平均數 = 10

    87 14 20 77 45 97 80 23 60 59

    = 56.20

    標準差 =

    110

    2.5687..2.56802.5623222

    = 29.73

    (b) 相對離差 = %1002.56

    73.29 = 52.90%

    (c) 第二組相對離差 = %10050.60

    32 = 52.89%

    (d) 基本上兩組的表現大致相同。

    習題5-6

    1. 利用習題5-5, 題5某便利店每天顧客的人數:

    53, 42, 51, 60, 70, 31,