斷裂時代中的量化研究：統計方法學的興起與未來scholar.fju.edu.tw/課程大綱/upload/033064/handout/971...統計方法學的興起與未來3 量化研究學刊

1統計方法學的興起與未來

量化研究學刊第一卷第一期 2007

Journal of Quantitative Research

斷裂時代中的量化研究：統計方法學的興起與未來

邱皓政國立中央大學企業管理學系

摘要

量化研究方法是近幾個世紀以來的重要科學研究典範，過去許多有關研究方

法的爭議多與質化與量化的對比有關，但是近年來有關量化研究的議題卻多與

測量、分析與量化方法論本身的議題有關，本文列舉了古典測量理論與項目反

應理論、外顯變數模型與潛在變數模型、單層次模型分析與多層次模型分析、

明確測量與模糊測量、古典機率理論與貝氏理論等五個當代重要的量化方法理

論與技術，說明量化研究的發展現況，並檢視了台灣近二十年來（1986-2005 年）

博碩士論文應用這五種新量化技術的概況，發現結構方程模式（SEM）是近二

十年來發展最快速，應用最廣泛的統計方法學，並逐年快速增加中。本文同時

說明了統計方法學的精神與要義，並利用三個希臘字母α、β、γ對於量化研究未

來的發展與應用議題以隱喻的方式來加以說明。

關鍵字：統計方法學、項目反應理論、結構方程模式、階層線性模式、模糊統

計、貝氏統計

2 統計方法學的興起與未來



壹、緒論：新雙城記

英國文學家狄更斯（Charles Dickens; 1812-1870）在其以法國大革命為背景

所完成的名著《雙城記》（A Tale of Two Cities）中，以下列數語開場：

這是最好的時代，也是最壞的時代;

這是智慧的時代，也是愚蠢的時代;

這是篤信的時代，也是疑慮的時代;

這是光明的季節，也是黑暗的季節;

這是希望的春天，也是絕望的冬天;

我們什麼都有，也什麼都沒有;

我們全都會上天堂，也全都會下地獄。

以這些文學緘言對應到學術研究的當代發展，是一個非常貼切且令人深思

的對照。心理學的研究發現，未知的歷史與未知的未來，都同樣令處在當下的

人類感到焦慮而被迫採取行動，然而行動的結果，未必讓人類得到緊張的抒解，

除非人們能夠正確的找到問題的癥結加以解決，這就是一種創造者能夠「上天

堂」的智慧。當代的量化研究，也走到一個令人驚愕的新《斷層線上》（Living on

the Fault Line）1，不論是結構方程模式（structural equation modeling, SEM）、階

層線性模式（hierarchical linear modeling, HLM）、潛在類別模式（latent class

modeling, LCM）、項目反應理論（item response theory, IRT）、模糊統計（fuzzy

statistics）、貝氏統計（Bayesian statistics），雖然無一是方法學或統計學上的新觀

念或新產物，但是對於社會科學的量化研究傳統卻都是一種斷裂式的發展

（disruptive innovation），更可能是一種典範的轉移。研究者會突然發現，過去

我們所賴以維繫的信念、成功的歷史與經驗、慣用的方法與策略，都面臨了挑

戰。事實上，有人仍篤信傳統，有人卻在邁進新時代之前遲疑、疑慮、觀望。

這果真是一個我們什麼都有，也卻是什麼都沒有的尷尬年代。

傳統以來，量化研究（quantitative research）的主要對比是質化研究

（qualitative research），除了因為兩種取向所使用的符號系統不同之外，質化方

1 Jeoffrey Moore 所著，敘說網路科技對於企業經營的衝擊與因應的策略。台灣由臉譜出版，陳正平翻譯。




式的科學想像與哲學基礎都與量化研究迥然不同，對於「真理」（truth）的定義

與信念也不相同，造成兩種取向的疏離、分裂，甚至於相互排斥。到了今天，

質與量的爭議似乎趨向平緩，甚至有越來越多的學者對於質量爭議所造成的內

在耗損提出批判與反思，例如 Hardy 與 Bryman（2004）指出，質與量的分裂讓

社會科學內部的派系林立情形惡化，學者們之間的交流與學習成長速度趨緩，

但是大家所面對的社會實體卻是同一個，目標也相同。不論是質或是量化研究，

在操作上都面臨資料整理與縮減（data reduction）、從事文獻對話、避免偏激或

事實的扭曲、事實的投影與再現的相同要求，而且都需要面對誤差（error）的問

題，尤其是當我們提出更複雜的問題時，誤差結構益趨複雜（Hardy & Bryman,

2004; Kirk & Miller, 1986; Mishler, 1979）。如果我們面對的挑戰都一樣，問題都

相似，只是達成目的方式與途徑不同，那麼爭議的意義在哪裡？

當社會科學研究者逐漸脫離對立，發展出相互尊重與包容的學術氛圍的同

時，量化研究本身又陷入了另一場傳統與現代的爭議之中。更由於身處於同一

種實證典範的思維與理論技術系統之下，這一次的爭議不但更直接的挑戰到量

化數據的統計原理（例如貝氏統計與傳統機率）、抽樣理論與方法（例如多層次

樣本結構問題）、測量基礎（例如古典測量理論與項目反應理論、模糊測量與明

確測量的對話）與分析模式（例如潛在變數模式的發展）等各個關鍵環節，議

題的對話更加尖銳。從另一個角度來看，也正因為斷裂式變革帶來的衝擊，使

得社會科學研究者能夠跳脫習以為常的工作模式，挑戰自己視為理所當然的觀

點，正視各種替代方案，擴展科學視野，這種在測量方法、分析技術與研究方

法學上的變革，毋寧是社會科學領域在量化取向的躍升進步的契機，如同雙城

記之緘言：這是光明的季節與希望的春天的前夕，但是，我們必須穿越這一切，

否則此刻研究者所面臨的黑暗季節將無限延伸，而非僅是絕望的冬天而已。

貳、當代量化研究中的張力

一、科學史觀下的量化研究

對於科學典範與其變動描述最傳神者，非科學哲學家孔恩（Thomas Kuhn）

莫屬。自從上個世紀初，以符號哲學與實證主義為核心的科學方法從自然科學

領域擴展到社會科學與行為科學領域，科學家們在重要的研究議題、科學論述

的常規程序與方法、科學問題解決的模式與評價判準等各面向逐漸獲得共識，

發展出一個龐大的科學社群，也使得以假設考驗與數量檢證為核心程序的量化




方法成為常態方法。以孔恩的語言來說，這個歷史時段中的強勢科學社群，其

所思、所言、所行，構成了一個常態科學中被共同遵守的典範（paradigm），在

著名的《科學革命的結構》（The Structure of Scientific Revolutions）一書2中，孔

恩指出科學發展的韻律就是科學典範興衰的循環。當一個典範成熟之時，典範

支持者所屬的科學社群主宰了科學的運作方式，同時也決定了知識的產出，但

是一旦渡過了常態的顛峰，典範科學無法解決的問題或內部矛盾逐漸增加，未

解的異例形成危機（scientific crisis），促成邊緣科學或新方法與新技術的興起與

競爭，當某一群人在某些有利的條件下逐漸獲得多數人的認同，形成新的共識

時，舊有典範於是逐漸衰亡，新典範取而代之，完成了一場寧靜的科學革命，

再次進入另一輪迴的常態科學。

從孔恩的科學史觀來看，量化方法足以被視為是一個常態科學，雖然異例

不斷，但是站在挑戰位置的質化方法在過去五十年來也未能搖撼量化方法的主

宰地位，這背後有兩個可能，第一，是真正的潛在新科學社群尚未形成，第二，

是孔恩的科學演化史觀有問題。

我們先從第二個可能來談。因為理論粒子物理上的突破而獲得 1979 年諾貝

爾物理學獎與 1991 年美國國家科學獎章的德州大學教授溫伯格（Steven

Weinberg），在他的一本近作《科學迎戰文化敵手》3（Facing Up: Science and Its

Cultural Adversaries）中，以聳動的標題「迎戰」，來凸顯他的「科學知識是客觀

真理」觀點與一些哲學家、文化評論家、科學社會學家、女性主義者等反對有

所謂的客觀知識的科學「文化敵手」的碰撞，更重要的是他單挑了被這些文化

敵手奉為規臬的科學史學家孔恩，將其「科學革命」、「蓋士塔轉換」、「不可共

量」等核心概念加以剖析，指出其間盲點。例如溫伯格認為經過科學革命之後，

新社群並不會發生無法瞭解、或完全批判揚棄前科學的激烈對抗從而產生不可

共量問題，例如物理系的學生學習相對論之前，還是要從定型的牛頓力學開始。

溫伯格批評孔恩為了維護自己立場而提出一些不全然正確的論述。

溫伯格的一個重要理念，是認為科學知識具有普遍性與客觀性，當代的科

學家要了解前常態科學期的成熟理論並不困難，前期的觀點也不會全然消失或

2《科學革命的結構》被譽為二十世紀後半葉最有影響力的一本學術著作，首版於 1962 年出版，1970 年加上後記(Postscript)後的第二版為最常被引用的版本，1996 年出版第三版。3 Steven Weinberg 所著，輯錄其 23 篇非專業性文章，由天下文化（2003）出版，李國偉翻譯。




被遺棄。科學上的變革可以算是演化，但不能稱之為革命。科學思想與技術的

變革或許造成某些基本立場或重要概念的改變，也不必然全盤推翻科學家們評

估理論的方法與標準，也不影響前期理論發現的價值，他說「…假如理論奠基

於簡單普遍的原則上，又能以自然的方式好好解釋實驗的數據，那它就算是成

功的理論。」(p. 194)…，他甚至說明了演化的內在張力，他說「當科學家達到

對自然的一種新理解時，他或她會經驗到強烈的快感。在長時間內這類經驗會

教導我們如何判斷，哪種類型的科學理論會產生讓我們瞭解自然的快感。」(p.

197)。

從溫伯格出發，我們要回到第一個可能的討論就相對簡單了。因為質性研

究的基本教義派就是溫格伯眼中的「文化敵手」之一。那些激進的質性研究者

站在啟蒙觀與後現代的思潮中，挑戰溫伯格所身處的常態科學陣營，但是並沒

有提出決定性的替代方案。就如同先前所說的，當代社會科學領域對於質量爭

議已經採取兼容並蓄的觀點，並接受各種方法都能為科學發現與人類知識的提

升有所助益（Babbie, 2002; Hardy & Bryman, 2004）。換言之，我們的「敵人」不

再是質性研究，那麼造成新一波科學演化或變革的主要因子會是什麼？

二、當代量化科學中的重要爭議

（一）古典測量與客觀測量

我們如果從量化研究最前端的測量出發，第一個發生在量化研究當中的重

要議題是古典測量理論（classical test theory, CTT）與項目反應理論（IRT）的爭

議。這兩種測量理論觀點的歧異，主要圍繞在客觀測量（objective measurement）

與線性關係（linear relationship）兩個核心議題上。前者牽涉到測量的行動本身

與測量結果的關係，後者則與潛在特質的計量模型有關。在此，我們並不想重

述 CTT 與 IRT 的對話細節，但是對於這兩個理論學派爭論的核心議題與造成的

影響卻感到興趣。

CTT 的主要焦點在於測量誤差的評估與控制，換言之，CTT 關心的是測量

信度，因此 CTT 的主要（甚至於唯一）假設是測驗分數（O）由真分數（T）與

誤差分數（E）所組成：

(O)bserved score = (T)rue score + (E)rror score (1)




透過對於誤差的估計（例如同一份工具進行兩次測量的分數變動、同一個

構念的兩題類似題目的得分差異），我們得以掌握真分數被測量到的程度。誤差

是具有獨立同質分佈（independently identically distributed, IID）的隨機變數，信

度的定義即是 1 減去誤差分數的變異佔總變異的比例：

2

2

1O

Txxr

(2)

一旦測量的信度達到一定的理想程度，測驗分數即被視為可以代表個體能

力的真實分數，進而進行測驗分數的意義的檢驗（效度衡鑑），或是進行實務上

的應用（例如成就評量或人事決策）。

IRT 對於 CTT 的基本定義所做出的致命一擊，是對於測量得到的數據無法

客觀反應特質的內容，而是工具依賴的結果的質疑。例如甲乙兩人在 IQ 測驗得

分 100 分與 80 分，其中的 100、80，以及相減後的 20，都僅是測驗工具上的一

種數量現象，沒有客觀與等距的意義。而由於是非等距測量，對於誤差是 IID 分

配的假設即不存在。為了解決非等距問題，IRT 利用勝敗比（Odds）的計算來獲

得客觀測量分數，以及以 ICC（item characteristic curve）來建立受測者能力特質

的分佈狀況。例如對於一個二元計分的題目，答對記為 1，答錯記為 0，所有受

測者的答題狀況可以換算成答對機率 P1 與答錯機率 P0，兩者的比值即為 Odds。

若有兩位能力分別為θ1 與θ2 的學生，在同樣一個難度（δ）的題目上作答情形分

別是 Odds1 與 Odds2，兩者比值如下：

Odds ratio2

1

2

1

2

1

//

OddsOdds

(3)

如果求出的比值為 2，即表示第一位的能力是第二位的兩倍，若比值為.5，

表示第二位的能力是第一位的兩倍，此時得到的量尺即為比率量尺。將公式 3

取對數後得到 θ1-θ2，為兩人能力差距的邏輯（logit）單位，此一數值與測驗本

身及題目特性無關，符合心理特質的強度為等距的假設，可進行加減乘除的運

算。進一步的，由於測量尺度為等距邏輯單位，因此所有受測者在特定題目的

得分可以描繪成一個服從羅吉斯分配的肩形項目特徵曲線，說明該題的難度、

鑑別度、與猜測度，如圖 1 所示：




圖 1 三個不同難度測驗題目的項目特徵曲線

在傳統的測量理論下，測驗題目的難度、鑑別度、信度都是樣本依賴（sample

dependent）的統計量，亦即同一個題目的計量特性會隨著樣本的特性而改變，

不符合科學客觀原則。相對之下，ICC 各參數不會隨著樣本特性的不同而改變，

具有項目參數不變性（invariance of item parameters）之優勢。

IRT 的出現可追溯至 1930 年代（例如 Richardson, 1936）甚至更早，發展至

今可以說是當代心理計量領域獨領風騷的重要學理觀點。到了電腦出現後的

80、90 年代更是迅速蓬勃發展。根據余民寧（1991）的說法，「…這兩派理論目

前並行流通於測驗學界，但試題反應理論卻有後來居上，逐漸凌駕古典測驗理

論之上，甚至進而取而代之之勢…」，但是余文中亦曾提及「…古典測驗理論雖

然不夠嚴謹，但理論淺顯易懂，便於在實際測驗情境（尤其是小規模資料）實

施；當代測驗理論雖然嚴謹，但理論艱深難懂，僅適用於大樣本測驗資料的分

析」。另一方面，IRT 的應用亦有其所植基的基本假設基礎，例如測驗題目都在

測量單向度（unidimension）特質，且每個題目具有局部獨立（local independence）

的特徵，亦即項目間無相關，某一個題目不能為另一個題目提供線索。這些假

設的滿足也造成 IRT 取向的普及上的限制。

基本上，IRT 對於社會科學研究的意義，不僅在於他可以解決傳統測驗發展

的瓶頸，提出創新的作法（例如以題目訊息量來反應測量的信度，提出非常模

參照的測驗模式、直接的測驗等化與比較、提升電腦適性測驗應用價值等），更

重要的是在於 IRT 提供了社會科學與自然科學一樣能夠進行客觀測量的實證研




究的基礎，得以鉅細靡遺的檢驗心理測量所存在的測量偏誤（test bias），並進一

步的能夠與當代重要的分析技術（例如 SEM、HLM）相結合，未來的發展可期。

（參見王文中, 2004, 2006; 余民寧, 1991; Hambleton & Swaminathan, 1985;

Hambleton, Swaminathan, & Rogers, 1991; Hulin, Drasgow, & Parsons, 1983; Lord,

1980)。

（二）外顯變數與潛在變數

如果說 IRT 是心理計量領域的獨門暗器的話，那麼潛在變數模型（latent

variable modeling, LVM）（余民寧，2006; Benlter, 1980; Bollon, 1989; Loehlin,

2004）則是橫掃社會科學各領域的重裝武器。如果 Spearnman 能夠看到一百年

後他所提出的因素分析的基本概念被如此發揚光大，對於當代社會科學研究影

響如此之深的話，他一定心滿意足、了無遺憾。在民國七十年代中期的一場學

術會議中，剛進入研究所就讀的我，親見一位學者慷慨激昂的大肆抨擊因素分

析的使用過於氾濫，結果二十年過後，問題不但沒有稍解，因素分析的延伸模

型：結構方程模式（structural equation modeling, SEM）更是野火燎原、一發不

可收拾，在一些重要期刊上，有接近三成的論文都與因素分析有關（Fabrigar,

Wegener, MacCallum, & Strahan, 1999），本文檢視台灣博碩士論文當中 SEM 的普

及率為各種新量化方法之冠，可見其在社會科學研究中的重要性。

潛在變數（latent variable）可以說是二十世紀計量心理學家最重要的發明之

一。學過統計的朋友都知道，統計教科書的第一章一定會介紹四個重要名詞：

名義、順序、等距與比率尺度（Stevens, 1946），利用這些尺度所測量到的變數

是統計分析的基本材料，但是這些測量的概念與測量結果無法解決社會科學的

一個大難題，亦即有許多人類的行為特質、心理屬性或社會現象沒辦法直接觀

察，例如智力、創造力、憂鬱這些被稱為構念（construct）的抽象概念，不像傳

統測量程序能夠對於所關心的現象（例如身高、股價、投票率）可直接加以測

量，得到的變數稱為外顯變數（manifest variables）或觀察變數（observed

variables），相對之下，用於反應構念強度與內涵者稱為潛在變數。潛在變數必

須經過操作型定義，將潛在變數與構念的現象加以連結，並藉由統計程序來

加以估計，得到的潛在變數得以用來反應構念的強度（Nunnally & Bernstein，

1994）。

在各種統計方法中，最具代表性的潛在變數模型為因素分析模型。因素分

析（factor analysis）作為潛在變數模型最早獲得發展的一種技術，被形容為一種

「將變項的複雜性加以簡化的最有效的工具」（one of the most powerful methods




yet for reducing variable complexity to greater simplicity）（Kerlinger, 1979, p.

180），Nunnally 與 Bernstein（1994）直言因素分析是心理構念測量的核心。

Guiford 在一甲子之前，就已經認為因素分析所能夠幫助研究者所提出因素效度

（factorial validity）證據，是心理構念研究的重要方法學突破。他篤定的說，構

念是否存在，一切都看因素（…the answer then should be in terms of factors）

（Guiford, 1946, p. 428）。Borsboom, Mellenbergh,＆ Heerden（2004）抱持著本

體論的觀點（ontology），認為構念雖隱含在可觀察的事物背後，但我們所測量到的相關（ ij），事實上是由於一個真實存在的構念直接影響的結果，如

果把構念的影響力以因素負荷量（以 λ係數表示）來表示，我們所觀察到的外顯變數的相關係數（ ij）可被兩個 λ係數的乘積所取代：

jiij (4)

此時我們可以宣稱外顯變數之間的關係被「構念」所解釋，當構念存在

於模型中時，外顯變數之間即不再具有關連，達成所謂的局部獨立性（local

independence）。若以路徑概念圖來表示，潛在變數與外顯變數的關係可由圖二

來表示。

圖 2 基本的潛在變數模型（CFA）圖示

圖 2 呈現了帶有三個外顯變數與一個潛在變數的因素分析模型。模型中，

即為潛在變數，以橢圓表示。作為 X1 到 X3 三個外顯變數的共同影響源（common

source），可以完全解釋外顯變數之間的相關，使得三個變數之間形成沒有關連

的局部獨立，各外顯變數被潛在變數解釋的程度以λ11、λ21、λ31 表示，因素負荷

量係數的平方表示外顯變數被潛在變數解釋的程度，亦即項目信度（ item

reliability），無法被解釋的部分（1-信度）就是測量誤差，為圖三當中的 δ1、δ2

X1

X2

X3

1

λ11

λ21

λ31

δ1

δ2

δ3




與δ3。整個模型可以下列迴歸方程式來表示：

xx (5)

傳統上，研究者在進行因素分析之前，並未對因素結構有任何預期與立

場，而藉由統計數據來研判因素結構，帶有濃厚的嘗試錯誤的意味，因此稱為

探索性因素分析（exploratory factor analysis; EFA）。然而，有時研究者在研究之

初既已提出某種特定結構關係的假設，例如某一個概念的測量問卷是由數個不

同子量表所組成，此時因素分析可以被用來確認資料的模式是否即為研究者所

預期的形式，稱為驗證性因素分析（confirmatory factor analysis; CFA）（Anderson

& Rubin, 1956; Jöreskog, 1967）。CFA 使用的範圍相當廣泛，大大超越了傳統

EFA 用來簡化數據或抽取因素的單純目的，CFA 可以用來檢驗抽象概念或潛

在變項的存在與否，評估測驗工具的項目效度與信效度，並且檢驗特定理論

假設下的因素結構。然而，雖然 CFA 可以說是因素分析技術的一大進展，但

是 EFA 與 CFA 意兩者的目的不同，使用的時機也不一樣。從研究的立場來

看，CFA 並不足以完全取代 EFA，兩者反而具有相輔相成的功效（Coste, Bouee,

Ecosse, & Pouchot, 2005; Thompson, 2004）。到了七十年代，隨著電腦的普及，

因素分析的便利性大為提高，同時在 Jöreskog 等人的努力下，因素分析模式與

社會科學的另一個重要分析技術：路徑分析（path analysis）相結合，促成了結

構方程模式的發展與風行。

圖 3 典型的 SEM 模型與參數圖示

X1

X2

X3

1

Y1

Y2

Y3

η1

Y4

Y5

Y6

η2

γ21

γ11

β21

1

2




一個典型的 SEM 模型，包含了測量模型（measurement model）與結構模

型（structure model）兩部分，前者用來定義潛在變數（亦即 CFA），後者用來探

討潛在變數間的影響與相互的作用（亦即路徑分析），如果我們今天有三個潛在

變數，每一個潛在變數可以利用前面圖二的概念來加以定義，那麼我們即可以

進一步以單箭頭來說明三個潛在變數的影響關係，如圖 3 所示。其中1、η1、η2

代表三個潛在變數，η1、η2 作為被解釋的依變數，為潛在的內衍變項（endogenous

variables）; 1 作為解釋他人的自變數，為潛在的外衍變項（exogenous variables），

潛在內衍變項無法被解釋的部分稱為干擾項（disturbance），以表示，在潛在變

數之間的關係可以用下列迴歸方程式來表示，即為 SEM 的結構模型：

(6)

將測量模型的方程式（公式 5）與結構模型方程式（公式 6）加以整合來求

取最佳聯立解，即是結構方程模式分析（Jöreskog & Sörbom, 2004）4。到了今

天，可以用來估計結構方程模型的統計軟體越來越多（例如 LISREL、AMOS、

MPLUS、EQS、PLS、SAS 等），也擁有專屬的期刊、龐大的學術社群，以及不

計其數的相關論文的發表，堪稱當代最具常態科學的一的學術社群5。究其根本，

都回歸 Spearman 當初所關心的問題：為什麼智力測驗的測量分數之間會有高相

關？是不是有一個智力的心理構念在背後？

當初 Spearman 對於因素分析的興趣來自於他對於智力（IQ）測量的好奇，

由於智力是一個強度的概念，因此因素分析一向把潛在變數以連續變數視之，

後來的學者把潛在變數擴展到類別形式，進行潛在類別分析（latent class analysis,

LCA）（McCutcheon, 1987），用以探討類別外顯變數（categorical manifest

variables）背後的類別潛在變數（categorical latent variables），稱為潛在類別模

式（LCM）（Lazarsfeld & Henry, 1968），也是一種用以探討潛在變數的模型化

分析技術。

4這些符號系統是由最早出現的 LISREL 軟體所定義，該軟體可至 Scientific SoftwareInternational, Inc.的網頁http://www.lisrel.com或http://www.ssicentral.com獲得試用版軟體。5台灣有關 SEM 的討論，最早是林清山教授（1984）在測驗年刊發表的《線性結構關係（LISREL）電腦程式的理論與應用》一文，近年來在社會與行為科學的應用領域，許多博碩士論文與實證研究已經採用 SEM 技術，教學上，已經許多學校開授 SEM 課程，並有專書出版（如侯傑泰、溫忠麟、成子娟，2003; 余民寧，2006；李茂能，2006；邱皓政，2003；吳明隆，2006；黃芳銘，2002）。




以圖 3 為例，如果把圖中的各外顯變數與潛在變數視為類別變數時，即成

為潛在類別模型。因素分析是以潛在變數來解釋外顯變數之間的線性相關（linear

relationship），達到局部獨立性；LCA 的目的即在於以最少的潛在類別數目來解

釋外顯變數之間的關連，來達到局部獨立性。先前我們已經介紹過的 IRT 模型

也是一種針對類別變數進行的潛在變數模型，因此 LCA 模型的提出，意味著類

別變數與連續變數均可以整合在同一個潛在模型當中，LCM 的提出替 IRT 與

SEM 兩種潛在變數模型提供了一個最佳的溝通互補的平台與橋樑，隨著分析

軟體（例如 MPLUS 與 LatentGold）的成熟，LCA、SEM、IRT 三者的整合發

展將是潛在變數模型下一波的重要議題（參見 Muthén & Muthén, 2004）。

（三）個體分析與整體分析

如果說「構念」是重視人類個別差異的心理學家一生揮之不去的夢魘，那

麼「脈絡」（context）就是重視社會結構與社會影響力的社會科學家心中永遠的

痛。傳統以來，社會科學的量化研究對於個體的關心多於整體與結構，個體雖

然是基本的研究單位，但是個體卻身存於系統、結構或脈絡之中。當研究者忽

略了總體，以個別觀察值為單位所進行的個體主義式研究（individualism）時，

研究者的眼界無疑受到根本的約束，而這個約束，慢慢被多層次研究（multilevel

research）或脈絡分析（contextual analysis）這種整體主義式研究（holism）所打

開（Courgeau，2003）。

量化研究對於脈絡的分析，主要建築在社會科學常見的多層次資料結構之

上。多層次資料（multilevel data）是指研究樣本具有階層性（hierarchical）或叢

集（clustered）的特徵，使得研究者所測量到的觀察值具有特殊的相依/隸屬/配

對關係，造成樣本獨立性假設的違反與統計檢定的失效。常見的例子為家庭研

究的子女夫妻嵌套（nested）在家庭之中，各家庭又嵌套在縣市地域之中；學生

嵌套在班級之中，班級嵌套在學校之中；員工嵌套在部門之中，部門嵌套在組

織之中；團隊成員嵌套在各團體中；縱貫研究的個體重複觀察嵌套在個體之中。

在多層次資料結構中，最底層是由最小的分析單位所組成（例如個別的學

生），稱為個體層次（micro level）。越高階的層次則分析單位越大，稱為總體層

次（macro level），例如學生為第一層（個體層次），其所屬的「班級」屬於第二

層（總體層次），班級所屬的「學校」屬於第三層（亦為總體層次）。依變數（或

稱為效標變數或準則變數）是個體層次的觀察值，對於依變數進行解釋的預測

變數（稱為解釋變數或自變數）可以存在於個體層次，也可以存在於總體層次，

或同時存在兩個層次，用以探討不同層次解釋變數對於依變數的影響。當個體




層次解釋變數透過組內聚合（aggregate）程序形成高階解釋變數時，特別稱為脈

絡變數（contextual variables）（Duncan, Curzort, & Duncan, 1966），例如學生 IQ

對於學業成績的影響，學生 IQ 雖作為個體層次解釋變數，但可聚合成為班級 IQ

（亦即求取全班學生 IQ 的平均數），此時的平均 IQ 作為脈絡變數，係以「班級」

為測量與分析單位。如果還有學校的區分，班級層次的脈絡變數可以再聚合成

更高階的校級層次 IQ。

圖 4 二階層模型的階層結構變數型態與關係

以學業成就研究為例，若研究者關心師生 IQ 對於學生學習成就的影響時，

如果資料結構為多位學生嵌套在一個老師之中，「師生 IQ」一詞就涉及了不同層

次不同分析單位的三種變數，此一二階層的模型架構與變數關係如圖 4 所示。

個體層次的學生 IQ 是學生學習成就的低階解釋變數（對於依變項的影響，以 A

實線箭頭表示），老師的 IQ 則是高階層解釋變數（對於依變項的影響，以 B 實

線箭頭表示），同一個班級的學生同屬一組，因此總體層次自然存在一個類似於

類別變數的效果形成班級差異，造成各組之間平均數與係數的變動，是為組間

效果。同一個班級的學生 IQ 可以聚合成高階的脈絡變數（全班平均 IQ），表示

該班的 IQ 優劣。脈絡變數與嵌套的低階解釋變數為同一個變數（學生 IQ），但

是分析單位不同。脈絡變數對於依變項的影響即為脈絡效果（當低階解釋變數

獲得控制的情況下，脈絡變數對於依變項的影響，以實線箭頭 C 表示）。各變數

的關係可以下列三式來表示。

學生個人 IQ

導師 IQ

學習成就

全班平均 IQ

Level 1: 學生

Level 2: 班級

脈絡變數高階解釋變數

低階解釋變數依變數

組間差異

C

A

B

個體層次

總體層次




Level 1: ijijjjij XY 10 (7)

Level 2: jjj uZ 001000 (8)

jjj uZ 111101 (9)

若 X 與 Z 為不同的變數，則 Z 稱為高階解釋變數。若 jj XZ ，則 Z 稱

為脈絡變數。公式 7 代表第一層的迴歸模式，也就是個體層次解釋變項與被解

釋變項的關係，而公式 8、9 代表第二層的迴歸模式， j0 與 j1 表示高階迴歸

分析的誤差項，誤差分配均需滿足以 0 為平均數、以 00 與 11 為變異數的聯合

常態分配假設。高階迴歸是對低階迴歸分析的參數變化進行解釋（也就是影響

學業成績的個體因素的強弱或差異），而非對依變項（學習成就）本身的解釋。

若將三個公式整合，得到整合方程式（或混合模型，mixed model），其表示如下：

Mixed: ijijjjijjjijij XuuXZZXY 1011011000 (10)

公式 10 中，迴歸係數 00 為第二層對於第一層截距進行解釋的截距， 01 為

第二層變數對於第一層截距進行解釋的斜率，在混合模型中代表的就是總體層

次解釋變項對個體層次依變項的影響； 10為第二層對於第一層斜率進行解釋的

截距，也就是個體層次解釋變項對第一層依變項的影響， 11為第二層變數對於

第一層斜率進行解釋的斜率，即為跨層級交互作用效果（cross-level interaction）。

總體層次解釋變數反應了環境或背景的特徵，對個體的影響是一種脈絡效果

（contextual effects）（邱皓政、溫福星，2007; Courgeau，2003; Snijder & Bosker,

1999）。脈絡分析的最大價值在於生態謬誤（ecological fallacy）（Robinson, 1950;

Snijders & Bosker, 1999）的避免。

基本上，多層次分析技術是延伸自線性迴歸的概念，將代表各階層的多組

迴歸方程式組合成混合模型，再以多元迴歸原理進行參數估計，稱為多層次線

性模式（Multilevel Linear Modeling; MLM）（Tabachnick & Fidell, 2006; Curran,

2003; Snijders & Bosker, 1999）。經過了諸多學者的努力探究，近年來多層次資料

的分析在原理與技術上都已有非常成熟的發展（參考溫福星，2006；張雷、雷

靂、郭伯良，2003; Ferron, Dailey, & Yi, 2002; Ferron, Hess, Hogarty, Dedrick,

Kromrey, Lang, & Niles, 2004; Raudenbush & Bryk, 2002）6。

6台灣對於多層次模型的應用尚處於起步的階段，溫福星（2006）所著的《階層




值得注意的是，傳統的 MLM 模型並沒有納入潛在構念的概念，在目前廣為

流行的 HLM 軟體（Raudenbush, Bryk, Cheong, & Congdon, 2004）雖然可以處理

因素的萃取，但是仍是受到諸多的限制（Tabachnick & Fidell，2006）。近年來多

層次分析技術的主要焦點議題之一，就是以 SEM 來處理多層次資料，進行多層

次結構方程模式（Multilevel SEM; MSEM）（Heck, 2001; Jedidi & Ansari, 2001;

Goldstein, 2003; Goldstein & Browne, 2001; Goldstein & McDonald, 2003; Hox,

2002; Jöreskog & Sörbom, 2004; Rabe-Hesketh, Skrondal, & Zheng, 2007），是 SEM

與 MLM 兩大技術典範整合應用的前夕。

（四）明確測度與模糊測度

在社會科學領域，測量理論與分析技術的另一個突破是源自於工程領域中

的模糊控制理論。在本卷的另一篇論文中，林原宏教授回顧了模糊理論在社會

科學界的發展與現況後，樂觀的指出模糊量化方法在社會科學資料分析上具有

高度應用價值，主要原因之一是人類思考與決策歷程具有模糊的特性，採用模

糊方法不但不會「越看越模糊」，而可以提供研究者更貼近人類行為現象的本

質。其次是模糊資料的分析模式大多不需要資料分配假設，可以得到更具有強

韌、穩健特性（robust）的量化發現。

基本上，模糊理論從數學的模糊集合（fuzzy set）的觀點出發，採取有別於

傳統機率論以或然率（probability）來表示事件出現的先驗機率，改以可能性

（possibility）來說明事件在發生後的不確定性，進而配合不同的測量需要或分

析議題而發展出獨特的模糊分析方法。換言之，將模糊理論的觀點應用在社會

科學的測量與分析上，可能涉及模糊理論的不同部分的應用，在社會科學應用

仍處於起步的狀態，仍有相當值得探討的空間（劉湘川，2007; Nguyen & Wu,

2006）。林原宏（2007）將模糊理論在社會科學領域的應用，區分成樣本的分群

（集群分析）、態度與意見調查分析（模糊測量）、模糊量化參數估計、評鑑的

應用、決策與判斷等幾個不同面向。

傳統測量是採古典集合的統計觀點，例如測量題目的不同選項、變數的不

同數值是若 P 則非 Q 的完全互斥事件，從集合論的觀點來看，事件的發生情形

是一種明確集合（crisp set），例如不是男、就是女; 不是喜歡，就是不喜歡。傳

線性模式》是台灣第一本有關 HLM 的專門著作，香港則有張雷、雷靂、郭伯良（2002）的專書。邱皓政（2006）翻譯了 Kraft 與 de Leeuw（1998）的多層次模型導論一書。在余民寧（2006）、陳正昌、程炳林、陳新豐、劉子鍵（2006）的著作中則有專章討論。




統的李克特五點量表（Likert scale）要求受測者圈選 1 到 5 點量尺當中的一個，

來反應個人的想法或感受，也是一種明確集合的觀念。在自然科學中，研究者

所觀測的對象多為客觀的實體，因此多能符合明確集合的基本要求。但是在社

會科學研究中，研究對象多為「人」，而人的思維與感受卻帶有大量的波動與不

明確特性。因此以明確集合來進行測量與量化模型的建立多有不妥之處。

舉一個實例來說，如果詢問同學畢業旅行的最佳地點，可能的選項包括 1.

出國一週、2.環島一周、3.台灣外島、4.露營烤肉加轟趴，明確集合的作法是以

單選題形式要求同學從四個中選擇一個最偏好的方式，此時「比較想要出國」

的某生的測量結果是 1、0、0、0。相對的，模糊集合的作法則是考慮了隸屬度

（membership），亦即每一個選擇你有多麼喜歡，要求列出喜歡程度，此時某生

的回答可能是 70%、20%、10%、0%，結果仍是「比較想要出國」。林原宏（2007）

的例子則說明了「老人」一詞的模糊集合定義與年齡變數的關係（不同年齡的

人的「老人」隸屬度不同）。一旦以數學方式完成了模糊集合的定義後，兩個或

更多集合元素的相似程度（或傳統統計上的相關概念）即可以利用模糊關係矩

陣（fuzzy relation matrix）來進行估計，得到類似性與相關性的估計結果。

與 IRT 相同之處，模糊測量對於古典測量理論的質疑仍是「等距測量」的

假定。林原宏（2002）指出，一般心理測驗當中的題目量尺（例如 Likert 量尺）

只能說是順序測量，但普遍被社會科學研究者視為等距量尺，過度簡化了人類

感受的複雜性與不確定性，因此建議應以模糊數（fuzzy number）來代替傳統量

尺的測量方式。

台灣學術領域有關模糊理論的應用，集中於工程領域，社會科學領域的應

用可以追溯到劉湘川與簡茂發（1992）在測驗年刊的論文，本卷當中，林原宏

教授（2007）提出了極具參考價值的文獻整理論文，北京大學程乾生教授與吳

伯林教授（2007）從數學原理與實際應用的角度說明，劉湘川教授（2007）則

完成了模糊測度重要數學程序的推導，在模糊方法學的發展上注入一股新的力

量7。

（五）古典機率與貝氏統計

在數學裡給定某個數是 2, 它就一直是 2。但在機率裡，某事件的機率有可

7 吳伯林（2005）所著之《模糊統計導論》為台灣第一本有關模糊統計的專門著作，林原宏（2006）將James J. Buckley的《模糊統計》予以翻譯，兩書皆由五南圖書公司出版。




能因情況而變。例如在馬路上遇到一個人，在隨機的情況下，是男與是女的機

率各為 0.5，但如果是走在女生宿舍的走廊上的話，機率就變成 1.0 了（因為宿

舍裡不會有男生）。當我們在進行一個研究或實驗之前，即獲得某些資訊時，對

於我們所觀測到的機率就會隨之改變，這就是貝氏機率的觀念。以正式的數學

來定義，若 A 與 B 為樣本空間Ω中的二事件, 且 )(BP >0，那麼在給定 B 的發

生機率的條件下，A 事件的條件機率, 以 BAP | 定義如下：

)(

)(|

BPBAP

BAP

(11)

若令 )|()()( ABPAPBAP ，則上式則為：

)(

)|()(|

BPABPAP

BAP (12)

公式 12 稱為貝氏定理（Bayes’ rule）。P(A|B)為事件 B 發生的前提下，事件

A 發生的機率，亦即 A 事件的條件機率，也稱為事後機率（posterior probability），

)|( ABP 為樣本機率（sample probability）， )(AP 為事前機率（prior probability）。

在貝氏的觀點下，樣本資料與參數（例如迴歸係數、變異數等）都是未知

的隨機變數（Cox & Hinkley, 1974; Lee, 1989; Gelman et al., 1995），貝氏的觀點

將先驗機率或特定訊息（例如專家知識）連同樣本資料一起用來估計參數分配，

一旦後驗分配被決定之後，即可利用傳統的機率原則進行統計決策或應用，例

如參數機率超過某一個閾值即被視為一特定情況。

傳統統計方法（又稱為頻次統計學，frequentist statistics）與貝氏統計最大的

不同是對於機率的看法，頻次統計學者眼中的機率是特定事件（A）在一個固定

的樣本空間反覆出現的頻率，即先前公式中的 P(A)。貝氏統計學者眼中的機率

則是基於科學知識所建構出的一種模型（a model of scientific knowledge）

（Austin, et al, 2002），機率的計算帶有主觀或可操弄的元素，允許研究者對於參

數的出現形式進行特殊的定義並納入估計。在進行統計推論時，頻次學者先提

出一組統計假設，再從樣本計算出觀察機率（後驗機率）即俗稱的 p 值，如果 p

值非常極端，小於某一顯著水準（例如 5%），即宣稱推翻虛無假設，接受對立

假設，此一過程可以說是一種演繹（deductive）的結果（Freedman, 1996; Davidoff,




1999; Goodman, 1999）。相較之下，貝氏方法則是一種歸納（inductive）的策略，

藉由觀察到的資訊來評估特定假設的可能性，藉以進行後驗機率的計算。

另一方面，貝氏方法亦可以像傳統樣本統計量的區間估計，對於所關心的

特定參數計算可靠區間（credible interval），95%的可靠區間意味著有 95%的機率

可以正確估計到母體的參數。由於貝氏定理結合了事前機率與事後機率，因為

可以導入先前的經驗（事前機率），比起傳統機率理論只由樣本統計量推導出事

後機率更有效率。另一方面，繁瑣耗時的演算藉由馬可夫鏈蒙地卡羅法（Markov

Chain Monte Carlo; MCMC）（Gilks et al., 1996）與電腦科技，可以大幅提昇貝氏

估計的效率，預測的品質較傳統頻次統計更為理想，因此近年來貝氏方法在醫

學、財務、資管、工程等領域發展非常快速（Goodman, 1999; Lilford & Braunholtz,

1996）。

在社會與行為科學領域，貝氏的應用雖然仍不多見，但是已經可以看到一

些實際的應用，例如 French 與 Smith（1997）證明了人類的判斷歷程並不完全符

合傳統固定機率的推導模式，而帶有特殊的主觀影響。Austin、Brunner, & Hux

（2002）以 Bayeswatch 一詞，認為貝氏統計在臨床研究具有重要價值。最近的

一篇文章中，Norris（2006）將貝氏方法應用到語言認知決策歷程的研究，用以

解釋文字的頻率為何會影響字詞辨識，認為視覺文字辨識歷程是一種理想的貝

氏決策結果。

圖 5 單徑型貝氏網路之圖示

在財務、工程、資訊管理領域的貝氏應用，多結合模擬與資料庫分析，以

貝氏網路（Bayesian network）來進行預測。貝氏網路是將貝氏定理與類圖理論

（graphoid theory）相結合，利用非循環性的圖形（directed acyclic graph）見構

成一個貝氏網路（如圖 5），藉以進行預測。圖五中的圓圈是節點（node），亦即

隨機變數，因此網路中有 A 到 F 六個隨機變數。各節點的關係由單箭頭，亦即

A

B D E

C F




鍊結（chain）來連結。上層的節點稱為根節點（root node），表示所有的資訊未

蒐集前的事前機率，最下層的機率代表某一現象的發生情形，稱為證據節點

（evidence node）。由於各節點僅以單一見頭符號鍊結，因此是一個單徑型網路

（single connected network）。整個網路的機率可以下面的貝氏機率式來反應：

)|()|(),|(),|()|()(),,,,,( DFPAEPEBDPBACPABPAPFEDCBAP (13)

以 D 為例，B 與 E 均為 D 的母節點（parent node），亦即造成 D 的原因

（cause），D 就是結果（outcome）。在 D 未知的情況下，B 與 E 互相獨立，但是

如果 D 為已知時，則 B 與 E 稱為相依。對於 D 節點，可以計算出前導機率（head

of D）與結果機率（tail of D），其中 EBAe ,, ， FCe , ，貝氏網路主

要即是在進行π與λ的估計。

)|()( eDPD )|()( DePD (14)

與貝氏網路具有類似的預測功能的模型還包括決策樹（decision tree）與類

神經網路（neural network），在電腦運算功能大幅提昇的推波助瀾下，這些方法

都有長足的發展，尤其是作為人工智慧（actifact intelligence）發展學習網路或預

測系統的重要算則與分析技術。其中決策樹是一連串決策點的連結而成的決策

網路，用以進行決策分析，包括建立決策樹（訓練資料來建立）、修剪決策樹、

產生學習規則等三個主要步驟（Quinlan, 1986, 1993）。另一方面，類神經網路則

是從腦與神經系統的類比獲得啟發的一種資訊處理技術，具有平行運算與高嘗

試錯誤容忍率的學習特性，近年來則廣泛被應用在資訊與工程科技的探勘、診

斷與預測研究中（Rumelhart & Mcclelland, 1986）。

三、台灣學術領域應用的現況

近年來，台灣高等教育的發展極為迅速，除了公私立大學的擴充，技職體

系亦朝大學化的方向發展，到了 95 學年度（2006），台灣地區總計有 163 所大

專院校（大學 94 所、獨立學院 53 所、專科 16 所），研究所數目為 2832，學系

數為 4666，專任教師 48255 人（男性 32630 人，女性 15625 人）。高等教育的擴

充一方面提高大學與研究所的入學率，同時也擴大了學術研究人才的規模。其




中最明顯的變化是博碩士畢業人數的增加，在 76 學年度（1987）時，碩士畢業

人數僅有 4483 人，90 學年度（2001）增加到 25900 人，94 學年度（2005）則

為 45736 人，增加超過 10 倍。博士畢業人數也從 76 學年度（1987）的 297 人，

逐年增加到 94 學年度（2005）的 2614 人（教育部教育統計資料，2006）。當博

碩士畢業生人數以倍數增加的同時，我們可以推估每年涉入論文指導的指導教

授以及論文口試委員的人數將相當可觀，為了使這些研究生能夠順利完成論

文，所開授的方法學課程數量龐大。因此，要瞭解各種新興技術在台灣學術領

域的應用情形，最直接的一個管道是檢視台灣博碩士論文當中使用各種技術的

情形，另一方面，由於國家圖書館所建制的博碩士論文資訊網

（http://etds.ncl.edu.tw/theabs/index.jsp）功能完善，因此利用該系統分別針對五

種量化方法在過去二十年間（1986 至 2005）的應用狀況進行檢索。檢索時，各

種方法所使用的關鍵字如下：

1. IRT：試題反應理論、項目反應理論、Item Response Theory、Item Character

Curve

2. SEM：結構方程模式、結構方程模型、驗證性因素分析、Structural Equation

Modeling、LISREL

3. MLM：階層線性模式、階層線性模型、Hierarchical Linear Modeling、Multilevel

Modeling

4. Fuzzy：模糊集合、模糊統計、模糊數學、模糊測度、Fuzzy set、Fuzzy Statistics

5. Bayesian：貝氏統計、貝氏方法、貝氏網路、貝氏定理、Bayesian、Bayes’ rule

剔除無關的論文之後，五種方法得到的論文篇數分別為 IRT（533）、SEM

（3631）、MLM（90）、Fuzzy（2726）、Bayesian（481），共 7461 筆資料有效資

料。其中以 SEM 的應用篇數最多，其次是 Fuzzy 方法。而 SEM 的應用在 2000

年之後呈現逐年快速增加的趨勢，顯示台灣近年來使用 SEM 於博碩士論文的情

況相當可觀，並且持續增加中，相對之下，有關模糊方法的應用數量雖多，但

是卻有趨於平緩的趨勢。至於多層次模型分析的使用最少，只有 90 篇，但是卻

集中於近兩年：2004 年有 22 篇、2005 年則有 45 篇，顯示 MLM 的應用在台灣

屬於起步的階段。貝氏統計的應用則在過去四年間呈現高峰，但是並沒有增加

的趨勢（如圖 6 所示）。




圖 6 過去二十年（1986-2005）台灣碩博士論文應用五種主要統計方法的趨勢

值得注意的是，雖然模糊統計與貝氏統計的應用數量不少，但是如果就不

同的學門來看，這兩種方法應用在社會科學的比例並不高，各學門的分類結果

如表 1。其中模糊統計的應用在工程學門最多，共有 1344 筆，幾佔模糊方法的

2726 篇中的一半，其次是商業管理類的 398 篇，可見得在工程學門大量使用模

糊控制理論。貝氏方法應用在商業及管理的 190 最多，數學及電算電機學門的

136 篇居次，工程 90 篇第三，顯示貝氏方法應用在社會科學當中的管理商業類

科具有相當之潛力。

雖然貝氏統計與模糊統計應用在商業管理類科的篇數很多，但是商業管理

類科則以 SEM 的應用最為普遍，共有 2015 篇，同時在 90 學年度之後，每年的

篇數逐年增加，分別為 135、210、355、482、565，顯示在商學領域，SEM 是

非常重要的一個量化方法。SEM 不但應用在商業管理學門，在教育學門的應用

也很高，共有 420 篇，也呈現逐年遞增的現象。有趣的是，在 SEM 發源地的心

理學門，SEM 的應用情形卻相對冷清，在以經濟、社會與心理學門的合併歸類

下，只有 142 篇 SEM 的應用，心理學門在其他四類方法的使用也很少，顯示台

灣心理學門對於這些進階量化方法的使用情形並不普遍。




表 1 過去二十年（1986-2005）台灣各學門博碩士論文應用五種統計方法趨勢

學門及領域方法 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 Total

經社及心理 IRT 1 2 1 1 1 3 2 5 4 8 9 37

SEM 1 2 3 3 1 4 5 7 9 16 25 35 31 142MLM 1 2 1 6 10

Fuzzy 1 1 3 4 5 6 20Bayesian 1 1 1 3 1 2 9

教育 IRT 1 1 4 3 4 12 6 13 12 14 29 21 24 38 23 205SEM 2 2 1 5 1 1 5 3 11 11 17 50 53 61 85 112 420

MLM 1 1 5 2 9Fuzzy 1 1 1 4 6 4 7 7 8 9 12 6 66

Bayesian 1 4 4 2 2 2 15

商業及管理 IRT 1 1 2 2 2 4 5 10 27

SEM 2 6 3 4 6 3 9 10 12 14 24 48 37 90 135 210 355 482 565 2015MLM 1 2 2 6 27 38

Fuzzy 3 6 9 9 11 16 28 39 34 65 55 77 70 76 498Bayesian 1 2 2 2 4 5 3 5 4 1 9 11 7 10 12 26 30 27 29 190

建築都市規劃 IRT 1 1 1 3

SEM 1 1 1 1 2 7 3 16MLM 1 1

Fuzzy 5 2 1 2 5 6 6 7 18 4 15 12 83Bayesian 1 1 2

觀光服務

大眾傳播

IRT 1 1 2

SEM 1 2 1 3 5 6 16 27 27 39 127 254

MLM 1 0 3 4 8Fuzzy 1 1 1 2 2 7 14

Bayesian 0

醫藥衛生家政 IRT 1 1 1 2 2 7 5 19

SEM 1 1 1 2 3 5 8 11 27 29 35 42 165MLM 3 1 6 1 11

Fuzzy 2 1 1 1 1 1 1 2 2 2 14Bayesian 1 2 2 3 4 3 4 7 26

自然科學 IRT 1 1 1 1 4SEM 1 3 4

MLM 0Fuzzy 2 1 2 1 1 2 1 2 2 1 1 16

Bayesian 1 2 1 1 5

數學及電算

電機

IRT 2 2 3 9 15 26 26 24 45 42 194

SEM 1 1 3 4 11 25 32 44 59 83 263MLM 1 3 4

Fuzzy 2 2 1 4 7 6 5 5 8 10 28 27 36 48 69 79 74 65 476Bayesian 1 2 1 2 4 1 4 4 2 6 8 5 7 6 15 11 22 35 136

工程(含工業

技藝)

IRT 1 2 3 4 5 5 20

SEM 1 1 1 2 9 10 16 16 17 73MLM 1 3 1 5

Fuzzy 1 3 10 9 15 35 33 20 28 27 29 115 119 122 133 152 157 177 159 1344Bayesian 1 1 2 4 2 1 1 4 2 4 7 6 12 9 12 15 7 90

運輸通信 IRT 1 1

SEM 1 3 3 11 16 27 26 19 106

MLM 0Fuzzy 1 1 1 1 5 1 5 15 16 14 16 20 15 24 24 159

Bayesian 1 1 1 3

農林漁牧 IRT 2 1 1 4

SEM 1 1 1 2 1 5 7 10 11 10 49MLM 1 2 3

Fuzzy 1 1 2 2 1 2 1 5 5 1 1 3 25Bayesian 1 2 1 1 5

其他(含人文

藝術法律)

IRT 1 2 2 3 2 3 4 17SEM 2 3 5 5 11 16 14 16 27 25 124

MLM 1 1Fuzzy 1 1 1 1 1 2 2 2 11

Bayesian 0

註：本表之學門分類係依教育部統計處與國家圖書館之分類架構略作整併而成。




肆、統計方法學世代的興起

一、量化方法的傳統與現代

量化研究方法之所以能夠成為社會科學的重要研究典範，除了他能夠提供

一套可靠的作業程序、對於數據進行客觀分析、協助研究者進行統計決策、解

決問題，更重要的是量化研究本身也是一門具有反省力與發展性的學科。上個

世紀初，在 Pearson、Fisher、Thurston、Spearman 等學者陸續提出測量與統計的

重要基本觀念，使現代統計雛形得以建立，到了 80、90 年代，計量方法與電腦

科技相接軌，量化研究走入了一個全新的時空，大量採用疊代與估計技術的相

關技術來分析複變量資料成為主流，這可以說是古典取向的一次跳躍性的創新

發展。然而當時間跨越了公元兩千年，我們又看到了量化方法新一波的變革，

本文藉由五種當代量化觀點的陳述來瞭解這個脈絡與趨勢，所碰觸的或許只是

典範變革的冰山一角，但是讓我們得以體會量化方法本身強韌的生命力。

科學的本質是能夠忠實的反應人類社會的真貌，而科學活動則需要一套客

觀有效的程序與作法。不論在哪一個學門，學術性的活動能夠以「科學」為名

為人類探尋真理、解答疑惑、謀求福祉，端賴學術工作者是否能夠保有科學「態

表 2 五種對應觀點的爭議內容與貢獻

傳統觀點當代觀點爭議內容爭議的焦點

古典測量理論項目反應理論

（IRT）

客觀測量的達成透過 ICC 曲線來

估計，能力估計不受樣本的影響測量、解釋

外顯變數模型潛在變數模型

（SEM）

潛在變數必須藉由多重指標來定

義，潛在變數之間的分析必須建立

在穩固的測量基礎上

測量、分析

單層次模型多層次模型

（MLM）

抽樣方法必須考量多層次的社會

現象，脈絡的影響必須納入分析抽樣、分析

明確測度模型模糊測度模型

（Fuzzy）

心理計量的等距測量假設不存

在，模糊統計提高分析的彈性測量、分析

頻次機率理論貝氏機率理論

（Bayesian）

先驗機率影響後驗估計的計算，現

象的預測在導入先驗機率後會有

更佳的預測力

分析、預測




度」並能熟用科學「方法」。從方法的角度來看，本文提供的五種典範創新，有

的著墨於測量問題（measurement）（例如 IRT、Fuzzy meaures、CFA），有的涉

及抽樣方法與分析技術的關係（例如 MLM），有的則在於統計分析上的尋求整

合與突破（例如 SEM 與 Bayesian Statistics），涵蓋範圍非常寬廣，變化的幅度也

非常大，雖然所對應的古典思想與技術雖未必遭到淘汰的命運，但是已經為我

們描繪了一個非常明確的新未來（五種方法的傳統與現代的對應請參考表 2）。

這些測量理論、統計原理、分析技術上的新思維若能夠發展成為一套成熟典範，

在方法層次將可提供學術工作者有利的工具，但是工具的使用還是在於「人」，

透過人類的思維，站在一個更高的位置，去省思學術活動當中的每一個細節，

去反思我們自身的位置與內在脈絡，在「方法學」層次來檢視「測量」與「分

析」對於我們的意義，才能為科學注入源源不絕的生命，繼續為我們的真理探

尋之路提供協助。

Byrne（1998）指出，SEM 是能夠為我們處理複雜變數的「統計方法學」

（statistical methodology）。隨著 MLM 的興起，貝氏統計的復辟，「統計方法學」

一詞不僅可用在 SEM 身上，更可以說是量化研究方法的新代稱。統計方法學除

了以統計原理技術的發展為核心議題之外，更牽涉到問題發現的策略、研究的

設計、測量的方法、分析的技術、以及結果論述的策略等各個主題。統計方法

學的探究，不僅延續了學術傳統，更能結合當代科技的發展，開創屬於計量研

究與實務的獨特方法論，進而對當代科學社群乃至於實務應用領域產生貢獻。

為了闡明統計方法學的結構與內涵，我們以一棵統計方法學之樹（a tree of

statistical methodology）來作為譬喻（如圖 7）。在科學史的發展脈絡中，統計方

法學植基於實證主義的科學思潮之上，吸收不同的領域（knowledge domain）的

知識養分而成長，例如農業實驗促成變異數分析的發展，財務預測的需求促成

時間序列分析的進步。但是，一棵健壯的大樹得力於粗壯的根與幹，統計方法

學的大樹需要數學（機率、線性代數、微積分）來厚實根基，仰賴測量與抽樣

理論來吸取土地裡的養分（獲得足夠的有代表性的有信度與效度的分析材料），

就好像一個好廚師，要做出一道美味可口的佳餚，除了經驗老到與優秀廚藝以

外，還要新鮮的食材，統計分析的「材料」，有賴完善的測量與抽樣。最後才是

統計分析，從最簡單的描述統計，到最尖端的各種技術。簡單來說，統計方法

學以測量數據為素材，以統計與數學模式為手段，以電腦作業為平台，以問題

解決與知識累積為目的，環環相扣，相輔相成。然後，研究者帶著他們的先備

知識與研究問題，穿越這棵大樹，最終能夠發掘新知識，達到新境界。




圖 7 統計方法學之樹

伍、結語：量化研究的變革脈絡—αβγ的隱喻

在統計學的課堂中，比較難教、也比較難懂的議題之一是統計決策理論當

中的第一類型錯誤（type I error）、第二類型錯誤（type II error）、統計檢定力

（power）與信心水準（confident interval）等概念，但是大家也應該會同意他們

是統計分析甚至是學術研究中的重要概念，如果學生無法回答第一類型錯誤的

機率是α、第二類型錯誤的機率是β，那麼應該會遭到重修統計的悲慘命運。但

是如果學生追問，是否有第三類型錯誤？第三類型錯誤的機率是不是γ？不知您

會如何回答。

α、β、γ是希臘文的前三個字母，也就是英文中的 A、B 與 C，在統計學領

域，α、β、γ三個希臘字母往往被賦予重要的意義，type I error 與 type II error

Positivism Domain Knowledge

Measurement

Applied Statistics

Mathematics

RegressionANOVA

Chi-Square test

Log-Linear Modeling

Factor Analysis

Structural Equation Modeling

Path Analysis

Hierarchical Linear Modeling Multivariate MANOVA

Analysis of Covariance

MDS

Cluster Analysis

Time Series Analysis Profile Analysis

Correlation

Survival Analysis

Discriminant Function Analysis

DescriptiveStatistics

Reliability Validity

ProbabilityCalculus

Sampling Theory

Algebra

New DiscoveryPreviousKnowledge:Theory

Latent Class Modeling




的機率分別以α、β來表示即為一例。換言之，以α、β、γ作為隱喻，探討以數

量為研究素材的社會科學研究的一些相關問題，包括測量、分析、方法學層次

的討論，以及典範之間的零合遊戲與對立衝突，其實其來有自。

在量化研究中，α所代表的都是重要的起點。α，可能是統計學中的 type I error

機率、可能是測量當中的信度係數（Cronbach, 1951）、可能是迴歸方程式中的截

距（intercept）、也可能是實驗設計中的實驗效果（Kirk, 1995），這些都是統計、

測量、研究法當中最重要且根本的議題。例如發展一個量表時，首要追求的是

信度，高信度（α係數很高）代表數據穩定可靠的程度；另外，當我們犯了統計

的第一類型錯誤時，代表我們的顯著結論是「無中生有」，這是科學研究的一大

禁忌。如果犯第一類型錯誤與第二類型錯誤可以選擇的話，我們寧願選擇不要

犯第一類型錯誤，因為「無中生有」的研究結論（第一類型錯誤）比「錯失真

相」的遺憾結論（第二類型錯誤）對於社會的不良影響更大。

在量化研究中，β所隱喻的是科學的發現與目的達成。β，可能是前面所說

的第二類型錯誤機率，可能是迴歸方程式的斜率，也可以說是測驗發展當中的

效度係數。換言之，當 α處於良好狀況時，我們便可以追求另一層次的成功，

當信度係數良好時，我們即可以追求測驗的效度。當一個研究的第二類型錯誤

（β）較小時，表示統計的檢定力較高（power=1-β），當一個迴歸方程式的斜率

具有統計顯著性時，他的解釋力就由 β係數來反應。如果說 α所隱喻的概念是

科學探索的必要條件的話，β所隱喻的概念則是科學探索具有意義的充分條件。

γ的隱喻，表示在α與β的關切之外所忽略的第三種可能，統計學的第一類

型錯誤（α）與第二類型錯誤（β）早為人熟知，但是第三類或更多的錯誤，量

化研究者是否能夠察覺而避免？在此我們或許可將之稱為γ的錯誤，那可能是模

式設定的錯誤（model misspecification）、統計方法選用的錯誤，還有科學未能及

於真理的落差；就好比，在我們處理迴歸方程式之時，並沒有γ係數的概念，但

是到了結構方程模式，我們開始把外因對於內因變數的解釋稱為γ；在 MLM 模

型中，階層線性模型的γ已經完全取代β係數，作為變項解釋能力的係數。

表 3 當中，我們把α、β、γ的三個隱喻以科學的精神（正確判斷真偽）與研

究的執行（測量、分析、方法學）兩個維度來表示。其中 α與 β所隱喻的是傳

統測量與分析當中的信度與效度、以及截距與斜率的概念，我們不能忽略基本

的信度與截距的概念，但是科學所追求的是真相的發掘，因此效度與變項的解

釋力（斜率）成為學者所追求的積極意義。




表 3 α、β、γ的隱喻與科學活動的關係科學的精神

第一類型的真偽α

第二類型的真偽

第一二之外的真偽

研究的脈絡

測量α

信度效度之外的

Ex. IRT、Fuzzy

分析

截距斜率之外的

HLM、SEM、Bayes

方法學

虛無理論Null theory

Statistical theory

社會科學理論Social theory

Management theory

之外的對話、批判與創造力量化研究的另類猜想

如果從方法學的角度來看，α反應的是統計的虛無假設的正確接受，雖可能

讓我們錯失真相發掘的機會，但是避免我們錯誤的拒絕虛無假設。相對之下，β

所隱喻的是科學研究的積極面向，表示科學家們可以正確推翻虛無假設，建立

自己的假說與理論的能力，是社會科學理論得以發展建構的面向。

在兩個維度的第三種狀況，則是傳統量化研究者所忽略或尚未成為議題的

部分。例如本文所介紹的 IRT 與 Fuzzy，在測量理論上都超越了傳統的觀點，跳

脫了第一二類型之外的真偽。同樣的，本文所介紹的 HLM、SEM、Bayesian 觀

點，也都是在分析層次的超越，使得我們所擁有的分析技術，可以替我們找到

更有意義的發現。至於科學精神與研究脈絡的同時的超越，表示了方法學層次

的一種突破契機，是我們目前沒有發現的新思想、新議題、新技術，也可能是

科學的另類想像。正因為學術領域保有一個不斷超越既有系統、自我發展與修

正的生命力、探討未知的創造力，我們今日才得以享有不斷創新變革的動力。

本文從雙城記的楔子出發，試圖引導讀者進入量化研究的新世界，文中時

而傳統、時而當代，就像雙城記中時而巴黎、時而倫敦的雙城交錯。但是在此

特別要強調的是，本文無法也沒有必要斷言傳統觀點（古典測量理論、外顯變

數分析、單層次模型、明確測量與傳統機率理論）一定會敗亡消滅，也有可能

如同質量爭議，最後獲致兼容並蓄的和平收場。當代思潮最大的主觀與盲點，

就是論述有關自己的歷史。因此，我們沒有辦法在這裡論述我們自身的歷史，

也沒有必要為正在進行中的演化定調，我們可以做的是通過對於發生在我們周

遭的客觀事實的檢視，瞭解爭議與異例的內涵，進而理解並掌握變化的可能趨




勢，如果你相信溫伯格所言「真理一旦發現就形成人類知識的永久部分」，那麼

透過這些外在世界的觀察所得到的個人啟發，將對我們這些量化研究實務工作

者，注入一劑強心針。

本文所主張的是當代量化方法的進步，對應傳統模式的觀點，如果社會科

學研究者沒有能夠正視這一場變革的來臨，那麼就如同雙城記的悲歌，我們活

在當代社會的研究者，雖然我們擁有了很多、擁有了許多智慧、這是最好的時

刻，但是，無法體認到他們的存在者，所面臨的卻是什麼都沒有的、黑暗的、

愚蠢的黑暗季節，這無疑是另一場新雙城記，正在量化研究的世界中悄悄上演。

參考文獻

王文中（2004）。Rasch 測量理論與其在教育和心理之應用。《教育與心理研究》，27，637-694。

王文中（2006）。《模基方法學的發展與應用：從 IRT 的發展講起》，台灣統計方法學學會年會主題演講。嘉義民雄，國立嘉義大學。

余民寧（1991）。項目反應理論的介紹。《研習資訊》，8（6），13-18 頁。余民寧（2006）。《潛在變數模式：SIMPLIS 的應用》。台北：高等教育出版

公司。吳明隆（2006）。《結構方程模式－SIMPLIS 的應用》。台北：五南。吳柏林（1997）。社會科學研究中的模糊邏輯與模糊統計分析。《國立政治大

學研究通訊》,7 , 17-38.吳柏林（2005）。《模糊統計導論》。台北：五南。李茂能（2006）。《結構方程模式軟體 Amos 之簡介及其在測驗編製上之應用》。

台北：心理出版社。林原宏（2004）。模糊相關係數。《教育研究月刊》，122，148-149。林原宏（2007）。模糊理論在社會科學研究的方法論之回顧。《αβγ量化研究學

刊》，1，本期頁數。林清山（1984）。「線性結構關係」（LISREL）電腦程式的理論與應用。《測

驗年刊》，31。邱皓政（2003）。《結構方程模式：LISREL 的理論、技術與應用》。台北市：

雙葉書廊有限公司。邱皓政譯（2006）。《多層次模型分析導論》，Kraft & de Leeuw 原著。台北：

五南圖書公司。邱皓政、溫福星（2007）。脈絡效果的階層線性模式：以組織創新氣氛與創意

表現為例。《教育與心理研究》，30（1），1-35。




張雷、雷靂、郭伯良（2002）。《多層次線性模型應用》，北京：教育科學出版社。

陳正昌、程炳林、陳新豐、劉子鍵（2005）。《多變量分析方法：統計軟體應用》（第四版），台北：五南。

陳玉樹、黃財尉、黃芳銘譯（2006）。《結構方程模式的基本原理》，GeoffreyM. Maruyama 原著，台北：麗文文化圖書公司。

黃芳銘（2003）。《結構方程模式理論與應用》。台北市：五南圖書公司。溫福星（2006）。《階層線性模式：原理、方法與運用》。台北市：雙葉書廊

有限公司。侯杰泰、溫忠麟、成子娟（2002）。《結構方程模型及其應用》。北京：教育

科學出版社。程乾生、吳柏林（2007）。模糊統計分析的數學原理及其應用。《αβγ量化

研究學刊》，1，本期頁數。劉湘川（2007）。廣義 m 測度之模糊積分及其在測驗整合計分之應用。《αβ

γ量化研究學刊》，1，本期頁數。劉湘川、簡茂發（1992）：模糊綜合評判法及其在教學觀摩評鑑上之應用。《測

驗年刊》，39，269-283。陳耀茂/譯（2006）。《線性混合模式 spss 使用手冊》。台北：鼎茂圖書公司。

Anderson, J. C., & Gerbing, D. W. (1988). Structural equation modeling in practice:A review and recommended two-step approach. Psychological Bulletin, 103,411-423.

Anderson, T. W., & Rubin, H. (1956). Statistical inference in factor analysis. In J.Neyman (Ed.), Proceedings of the third Berkeley symposium for mathematicalstatistics and probability (Vol. 5, pp. 111-150). Berkeley: University ofCalifornia Press.

Austin, P. C., Brunner, L. J., & Hux, J. E. (2002). Bayeswatch: An overview ofBayesian statistics. Journal of Evaluation in Clinical Practice, 8(2), 277-286.

Babbie, E. (2002). The Practice of Social Research (4th Ed.). Wadsworth PublishingCompany.

Baker, F. B. (1985). The basics of item response theory. Portsmouth, NH:Heinemann.

Bentler, P. M. (1980). Multivariate analysis with latent variables: Causal modeling.Annual Review of Psychology, 31, 419-456.

Bollen, K. A. (1989). Structural equation modeling with latent variables. New York:John Wiley.

Bollen, K. A. (2002). Latent variables in psychology and the social sciences. AnnualReview of Psychology, 53, 605-634.

Borsboom, D., Mellenbergh, G. J. & Van Heerden, J. (2003). The theoretical status of




latent variables. Psychological Review, 110, 203-219.Bryk, A. S., & Raudenbush, S. W. (1992). Hierarchical linear models: Applications

and data analysis methods. Newbury Park, CA: Sage.Byrne, B. M. (1998). Structural equation modeling with LISREL, PRELIS and

SIMPLIS: Basic Concepts, Applications and Programming. Mahwah, NJ:Lawrence Erlbaum Associates.

Coste, J. Boue’ e, S., Ecosse, E., Leple` ge, A., & Jacques Pouchot (2005).Methodological issues in determining the dimensionality of composite healthmeasures using principal component analysis: Case illustration and suggestionsfor practice. Quality of LifeResearch, 14, 641–654.

Courgeau, D. (2003). Methodology and epistemology of multilevel analysis:Approaches from different social sciences. Norwell, MA: Kluwer.

Cox, D. R., & Hinkley, D. Y. (1974). Theoretical Statistics. Boca Raton, FL: CRCPress.

Crocker, L., & Algina, J. (1986). Introduction to classical and modern test theory.New York: Holt, Rinehart & Winston.

Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests.Psychometrika, 16, 297-334.

Curran, P. J. (2003). Have multilevel models been structural equation models allalong? Multivariate Behavioral Research, 38, 529-569.

Davidoff, F. (1999). Standing statistics right-side-up. Annuals of Internal Medicine,130, 1019-1021.

Duncan, C., Jones, K., & Moon, G. (1998). Context, composition and heterogeneity:Using multilevel models in health research. Social Science and Medicine, 46,97-117..

Duncan, O. D., Curzort, R. P., & Duncan, R. P. (1966). Statistical geography:Problems in analyzing areal data. Glencoe, IL: Free Press.

Fabrigar, L.R., Wegener, D.T., MacCallum, R.C., ＆ Strahan, E.L. (1999).Evaluating the Use of Exploratory Factor Analysis in Psychological Research.Psychological Methods, 4, 272-299.

Ferron, J., Dailey, R. F., & Yi, Q. (2002). Effects of misspecifying the first-level errorstructure in two-level models of change. Multivariate BehavioralResearch,37,379-403.

Ferron, J., Hess, M. R., Hogarty, K. Y., Dedrick, R. F., Kromrey, J. D., Lang, T. R.,& Niles, J. (2004). Hierarchical linear modeling: A review of methodologicalissues and applications. Paper presented at the 2004 annual meeting of AmericanEducational Research Association, San Diego.

Freeman, L. (1996). Bayesian statistical methods (Ed.). British Medical Journal, 313,569-570.




French, S., & Smith, J. Q. (1997). Bayesian analysis. In S. French & J. Q. Smith(Eds.), The Practice of Bayesian Analysis (pp. 1-24). Arnold, London.

Gelman, A., Carlin, J. B., Stern, H. S., & Rubin, D. B. (1995). Bayesian data analysis.London: Chapman & Hall.

Gilks, W. R., Richardson, S., & Spiegelhalter, D. J. (1996). Introducing Markov chainMonte Carlo. In In W. R. Gilks, S. Richardson, and D. J. Spiegelhalter (Eds.),Markov chain Monte Carlo in practice(pp.1-19). London: Chapman & Hall.

Goldstein, H. (2003). Multilevel statistical models (3rd ed.). London: Arnold.Goldstein, H., & Browne, W. (2001). Multilevel factor analysis modeling using

Markov Chain Monte Carlo (MCMC) estimation. In G.A. Marcoulides & I.Moustaki (Eds.). Latent variable and latent structure models. Mahwah: NJ:Lawrence Erlbaum Associates.

Goodman, S. N. (1999). Toward evidence-based medical statistics I: the p-valuefallacy. Annual of Internal Medicine, 130, 995-1004.

Guilford, J. P. (1954). Psychometric methods. New York: McGraw-Hill.Hambleton, R. K., & Swaminathan, H. (1985). Item response theory: Principles and

applications. Boston, MA: Kluwer-Nijhoff.Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of item

response theory. Newburry Park, CA: SAGE.Hand, D. J. (1996). “Statistics and the theory of measurement. Journal of the Royal

Statistical Society, 159(3), 445-492.Hardy, M., & Bryman, A. (2004). Introduction: Common threads among techniques

of data analysis. In M. Hardy and A. Bryman(Eds.), Handbook of Data Analysis(pp.1-13). Newburry Park, CA: Sage.

Heck, R. H. (2001). Multilevel modeling with SEM. In G.A. Marcoulides & R.E.Schumacker (Eds.). New developments and techniques in structural equationmodeling. (pp. 89-127). Mahwah, NJ: Lawrence Erlbaum Associates.

Henson, R. K., & Roberts, J. K. (2006). Use of exploratory factor analysis inpublished research. Educational and Psychological Measurement, 66(3),393-416.

Hox, J. J. (2002). Multilevel analysis: Techniques and applications. Mahwah, NJ:Lawrence Erlbaum Associates.

Hulin, C. L., Drasgow, F., & Parsons, C. K. (1983). Item response theory:Application to psychological measurement. Homewood, IL: Dow Jones-Irwin.

Iversen, G. (1991). Contextual analysis. Newbury Park, CA: Sage.Jansen, B. R. J. & Van der Maas, H. L. J. (1997). Statistical tests of the rule

assessment methodology by latent class analysis. Developmental Review, 17,321-357.




Jedidi, K., & Ansari, A. (2001). Bayesian structural equation models for multileveldata. In G. A. Marcoulides & R. E. Schumacker (Eds.) (pp. 129-157). Newdevelopments and techniques in structural equation modeling. Mahwah, NJ:Lawrence Erlbaum Associates.

Joreskog, K. G. (1967). Some contributions to maximum likelihood factor analysis.Psychometrika, 32, 443-482.

Joreskog, K. G., & Sorbom, D. (2004). LISREL 8.7. Lincolnwood, IL: ScientificSoftware International, Inc.

Kirk, J., & Miller, m. L. (1986). Reliability and validity in quantitative research:Essays in partisanship and bias. London: Routledge.

Kirk, R. E. (1995). Experimental design: Procedures for the behavioral sciences.Pacific Grove, CA: Brooks/Cole Publishing.

Kreft, I., & de Leeuw, J. (1998). Introducing multilevel modeling. Newbury Park, CA:Sage.

Lazarsfeld, P. F., & Henry, N. W. (1968). Latent Structure Analysis. Boston:Houghton Mifflin Co.

Lee, P. M. (1989). Bayesian Statistics: An introduction (2nd Ed.), New York: Arnold.Lilford, R. J., Braunholtz, D. (1996). The statistical basis of public policy: A

paradigm shift is overdue. British Medical Journal, 313, 603-607.Loehlin, J. C. (2004). Latent variable models: An introduction to factor, path, and

structural equation analysis. Mahwah, NJ: Lawrence Erlbaum Associates.Lord, F. M. (1980). Applications of item response theory to practional testing

problems. Hillsdale, NJ: Lawrence Erlbawn Associates.McCutcheon, A. L. (1987). Latent Class Analysis. Newbury Park: Sage.Mishler, E. (1979). Meaning in context: Is there any other kind? Harvard Educational

Review, 49, 1-19.Muthen, L. K., & Muthen, B. O. (2004). Mplus user’s guide (3rd ed.). Log Angeles,

Muthen & Muthen.

Nguyen, J. C., & Wu, B. (2006). Fundamentals of Statistics with Fuzzy Data. NewYork: Springer.

Norris, D. (2006). The Bayesian reader: Explaining word recognition as an optimalBayesian decision process. Psychological Review, 113(2), 327-357.

Nunnally, J. C., & Bernstein, I. H. (1994). Psychometric Theory (3rd ed.). New York:McGraw-Hill.

Quinlan, J. R. (1993). C4.5: Programs for Machine Learning. San Fransisco, MorganKaufmann.

Quinlan, J. R. (1986). Induction of decision trees. Machine Learning, 1, pp.81-106.Rabe-Hesketh, S., Skrondal, A., & Zheng, X. (2007). Multilevel structural equation




modeling. In S.-Y. Lee (Ed.), Handbook of Latent Variable and Related Models(pp. 209-227). Amsterdam: Elsevier.

Raudenbush, S. W., & Bryk, A. S. (2002). Hierarchical linear models: Applicationsand data analysis methods (2nd Ed.). Newbury Park, CA: Sage.

Raudenbush, S. W., Bryk, A. S., Cheong, Y. F., & Congdon Jr., R. T. (2004). HLM 6:Hierarchical Linear and Nonlinear Modeling. Lincolnwood, IL: ScientificSoftware International, Inc.

Richardson, M. W. (1936). The relationship between difficulty and the differentialvalidity of a test. Psychometrika, 1, 33-49.

Robinson, W. S. (1950). Ecological correlations and the behaviour of individuals.American Sociological Review, 15, 351-357.

Rumberger, R. & Palardy, G. (2004). Multilevel Models for School EffectivenessResearch. In David Kaplan (Ed.), The Sage Handbook of QuantitativeMethodology for the Social Sciences（pp. 235-258）. Thousand Oaks, CA: SagePublications.

Rumelhart ,D. E., Hinton, G. E. and Williams, R. J. (1986). Learning internalrepresentations by error propagation. In D. Rumelhart, J. MeClelland, and thePDP Research Group（Ed.）Parallel distributed processing. Cambridge, MA:MIT Press, p.318.

Skrondal, A., & Rabe-Hesketh, S. (2007). Multilevel and related models forlongitudinal data. In J. de Leeuw and E. Meijer (Eds.) Handbook for MultilevelAnalysis (pp.277-301). New York: Springer.

Snijders, T. & Bosker, R. (1999). Multilevel Analysis: An Introduction to Basic andAdvanced Multilevel Modelling. Thousand Oaks, CA: Sage Publications.

Stevens, J. (1946). On the theory of scales of measurement. Science, 103, 677-680.Tabachnick, B. G., & Fidell, L. S. (2006). Using Multivariate Statistics (5th Ed.).

Boston, MA: Allyn and Bacon.Thompson, B. (2004). Exploratory and Confirmatory Factor Analysis: Understanding

Concepts and Applications. Washington, DC: American PsychologicalAssociation.

Tucker, L. R. (1946). Maximum validity of a test with equivalent items.Psychometrika, 11, 1-13.

Westen, D. & Rosenthal, R. (2003). Quantifying construct validity. Journal ofPersonality and Social Psychology, 84, 608-618.




Quantitative Research on the Fault Line:The Development of Statistical Methodology

Hawjeng ChiouDepartment of Business AdministrationNational Central University

Abstract

Quantitative research is the major paradigm of science in the past century.Traditionally, qualitative is contrasted with qualitative approach toward science,however, issues regarding quantitative methods in the past decades mostly concerningabout the substantial features of the approaches. These challenges from the inside ofthe discipline of the research methods relate to measurement, analysis, as well asmethodology. In this paper, five major progresses on quantitative methods wereintroduced: item response theory, structural equation modeling, multilevel modeling,fuzzy statistics, and Bayesian statistics. At the same time, this paper reviewed theliteratures on the doctoral dissertation and master thesis information networkprovided by the National Library of Taiwan for the period of 1996 to 2005. Resultsrevealed that the SEM is the most frequently used paradigm among these fivemethods, particularly for the research of management and business fields. Theterminology of statistical methodology is proposed in this paper for integrating thenew development of quantitative theory, principles, and techniques, in terms ofmeasurement, analysis, and methodology. At the end of the paper, the analogy ofthe Greek alphabet of α, β, γwere suggested by the authors for illustrating theimplications of the new methods in the new era on the fault line.

Keywords: Bayesian statistics, fuzzy statistics, hierarchical linear modeling, itemresponse theory, statistical methodology, structural equation modeling

35



回應文一

主題回應一

「斷裂時代中的量化研究：統計方法學的興起與未來」回應文

丁承國立交通大學經營管理研究所

統計的範圍甚廣，新興方法日新月異，國科會自然科學發展處在 2005 年統

計學門規劃報告（http://www.sinica.edu.tw/~mrpcwww）中，已將統計之研究現

況就各發展重點領域按方法別作了相當完整的回顧與整理，本文則針對古典測

量理論與項目反應理論、外顯變數模型與潛在變數模型、單層次模型分析與多

層次模型分析、明確測量與模糊測量、古典機率理論與貝氏理論等五個當代重

要的量化理論方法進行較深入的比較性探討，並檢視了國內近二十年來

（1986-2005）博碩士論文應用這五種新量化技術的概況。全文組織嚴謹，文獻

掌握適切，回顧過程引喻巧妙，行文流暢，對上述五大議題提供了精闢的詮釋，

同時也引領著讀者解析統計方法學的發展過程，並對量化研究之理論與應用注

入了新的啟示，閱後深感受益匪淺。

本文發現 SEM（含 CFA）是國內博碩士論文應用最多的統計方法，且持續

增加中，在商管領域，SEM 的應用最為普遍。然而，SEM 卻常遭濫用或誤用，

故本人擬針對 SEM 應用時之注意要點提供若干補充。

在行為科學研究中，由於很多屬性構念無法直接觀察，需經由其所對應之

外顯變數（題項）從事測量，測量結果具信效度是結構關聯分析的前提要件

（Anderson & Girbing, 1982），亦乃 Anderson & Girbing（1988）所提 two-step

approach 之第一步，SEM 之測量模型（即 CFA）因而扮演著關鍵性之角色。相

對於 EFA，CFA 有較嚴謹之統計推論功能，且可藉助常用之統計軟體落實之，

故使用日趨普及。然而，應用 SEM 與 CFA 時，有若干注意要點常被使用者所忽

略，值得再次強調如下：

一、多變量常態性

在 SEM 中通常使用最大概似（ML）法進行推論，而該法之前提假設係外

36



回應文一

顯變數具多變量常態性，使用者多未正視多變量常態性未滿足時將導致模型配

適（model fit）卡方（chi-square）檢定產生偏誤之後果，故應先行確認多變量常

態性成立（其評估可參見 Looney（1995））方宜使用最大概似法，否則應改採

ADF（Asymptotically Distribution-Free）法（Browne, 1984），請參考 Anderson &

Girbing（1988）對估計方法所提出之討論。

二、誤差項之相關性

在 SEM 中，通常習慣於將誤差項視為相互無關（uncorrelated），然而當誤

差間存在著相關性時，信效度評估須隨之調整，即 CFA 模式須納入誤差共變數

（covariance）（e.g., Komaroff, 1997），否則將產生偏誤，此時 α信度係數

（Cronbach, 1951）已不宜使用，應改採誤差項相關情況下之組合信度（composite

reliability）（e.g, Komaroff, 1997; Raykov, 2001），至於誤差項間是否相關亦可利

用 CFA 檢測之（e.g., Komaroff, 1997; Osburn, 2000; Reuterberg & Gustafsson,

1992）。

三、單一構面性（unidimensionality）與內部一致性（internal consistency）

單一構面性即題項間之 homogeneity，與題項間之內部一致性係不同概念

（e.g, Cortina, 1993），單一構面性須在評估內部一致性前先予確認（e.g, Girbing

& Anderson, 1988; Hinkin, 1998），不具單一構面性之衡量題項不宜冒然計算其信

度係數。單一構面性之評估可採用 CFA（Girbing & Anderson, 1988; Osburn,

2000），須獲得支持後再進一步計算各構念之組合信度藉以評估內部一致性。

四、EFA 與 CFA

在量表發展過程中，EFA 常與 CFA 一起使用，先利用 EFA（配合斜交轉軸）

萃取因素構面並建立初始量表，再以 CFA 對該初始量表進行信效度驗證（e.g.,

Girbing & Anderson, 1988），驗證信效度時須符合交叉效度（cross-validation）的

要求（e.g., Anderson & Girbing, 1988; Hinkin, 1998），即在驗證階段須使用獨立樣

本，而非以 EFA 所使用之同一樣本來進行 CFA。

五、模型修訂

SEM 係屬驗證性（confirmatory），而非探索性（exploratory）的方法（Hair,

37



回應文一

Anderson, Tatham, & Black, 1998），針對某一理論模型，可藉 SEM 進行資料實

証，當配適結果不理想而需對原模型從事修訂時，宜謹慎為之，模型之修訂若

無法提供適當之理論或文獻依據，將淪為 data-driven modification，所得結果不

具概化性（generalizability）（e.g., Hair, Anderson, Tatham, & Black, 1998; Hatcher,

1994）。若模型修訂有據，則修訂後模型之再驗証仍須滿足交叉效度。

六、 SEM 配適指標之標準

有關 SEM 中之配適指標如 GFI、NFI、NNFI、CFI 等，很多實證研究者採

0.9 作為配適度通過標準，然而，Lance, Butts, & Michels（2006）提醒研究者，

勿陷入配適指標值達 0.9 即表配適度佳之迷思，反應留意若配適指標值低於 0.9

則表示配適度尚有頗大的改善空間，換言之，配適指標值低於 0.9 即已反映配適

度不足。雖然 0.9 能否當作標準仍具爭議性，但當配適指標值低於 0.9 時，即應

面對此一配適不佳之問題，此時宜採取適當之補救措施，例如再多收集一些資

料，若仍不見改善，則需修訂模型，唯須避免 data-driven modification（如上述

第五點）。

參考文獻

Anderson, J. C., & Gerbing, D. W. (1982). Some methods for respecifyingmeasurement models to obtain unidimensional construct measurement. Journalof Marketing Research, 19, 453-460.

Anderson, J. C., & Gerbing, D. W. (1988). Structural equation modeling in practice: Areview and recommended two-step approach. Psychological Bulletin, 103,411–423.

Browne, M. W. (1984). Aymptotically distribution-free methods for the analysis ofcovariance structures. British Journal of Mathematical and StatisticalPsychology, 37, 62-83.

Cortina, J. M. (1993). What is coefficient alpha? An examination of theory andapplications. Journal of Applied Psychology, 78, 96–104.

Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests.Psychometrika, 16, 297–334.

Girbing, D. W., & Anderson, J. C. (1988). An updated paradigm for scaledevelopment incorporating unidimensionality and its assessment. Journal ofMarketing Research, 25, 186-192.

38



回應文一

Hair, J. F., Anderson, R. E., Tatham, R. L., & Black, W. C. (1998). Multivariate DataAnalysis (5th ed.). London: Prentice-Hall International, Inc.

Hatcher, L. (1994). A Step-by-Step Approach to Using the SAS System for FactorAnalysis and Structural Equation Modeling. Cary, NC: SAS Institute Inc.

Hinkin, T. R. (1998). A brief tutorial on the development of measures for use insurvey questionnaires. Organizational Research Methods, 1, 104-121.

Komaroff, E. (1997). Effect of simultaneous violations of essential -equivalence anduncorrelated error on coefficient . Applied Psychological Measurement, 21,337–48.

Lance, C. E., Butts, M. M., & Michels, L. C. (2006). The sources of four commonlyreported cutoff criteria: What did they really say? Organizational ResearchMethods, 9, 202-220.

Looney, S. W. (1995). How to use tests for univariate normality to assess multivariatenormality. The American Statistician, 49, 64-70.

Osburn, H. G. (2000). Coefficient alpha and related internal consistency reliabilitycoefficients. Psychological Methods, 5, 343–55.

Raykov, T. (2001). Bias of coefficient α for fixed congeneric measures with correlated errors. Applied Psychological Measurement, 25, 69–76.

Reuterberg, S. E., & Gustafsson, J. E. (1992). Confirmatory factor analysis andreliability: Testing measurement model assumptions. Educational andPsychological Measurement, 52, 795–811.

39



回應文二

主題回應二

不是回應，而是反思

林鉦棽國立屏東科技大學企業管理系

在案頭前，邱教授的「斷裂時代中的量化研究：統計方法學的興起與未來」

一文已被我反覆閱讀多次。對我而言，要針對統計原理來回應這篇文章並不容

易。嚴格來說，我只是一個統計工具的使用者，對於統計方法背後深厚的學理，

以我在統計理論上的功力，自然難以窺探其中奧妙。這篇短文，與其說是針對

該文的「回應」，倒不如說是我自己在閱讀後的「反思」更為恰當。之所以名為

反思，在於多年自己的觀察與深刻感想。簡言之，我相當同意邱教授的「斷裂」

一詞，只是，竊自認為斷裂的不只是在統計方法的新舊世代之差，更在理論建

構與實徵分析之間的無缺乏連結。就學術的發展而言，後者的重要性並不下於

前者，然而，後者所受到的重視卻是相對地少。在統計方法的學習風潮逐漸興

盛之際，對於理論建構、假設推論、研究設計等問題，似乎所受到的關注少了

許多。

上述失衡現象的產生原因很多，以分析方法應用的方便性與學習而言，拜

軟體語言的發展所賜，著實使得我們的進入障礙減低許多，一些在早期不容易

尋得答案的問題，如今我們可以透過統計軟體輕易地分析出來。但這種方便性

卻也同時地帶來許多危險，讓我們反而陷入統計軟體的操作之中，而忘了研究

最基本的研究步驟與目標。結果是一份研究的重點是以分析方法為主體，為方

法而方法，對於一份學術研究所應該注重的地方反倒是被忽略了。

這種現象，在組織研究的領域中，確實如邱教授的觀察，SEM（structural

equation modeling）、MLM（multiple-level modeling）等方法在近幾年來開始「流

行」（對我而言，流行這個字眼有點反諷），許多研究者競相投入這些新方法的

應用，似乎總有這樣的感覺，許多人不論研究主題為何？不論理論基礎何在？

只要能夠 SEM（structural equation modeling）一下，研究水準便高出許多！只要

MLM（multiple-level modeling）一番，論文的質感便出來了！事實上，所謂學

術研究應該是如此嗎？好的研究是取決於方法的深淺嗎？答案當然不是！

40



回應文二

其實，在寫這篇文章的同時，我正在整理幾本管理學界重視的頂尖期刊在

分析方法上的使用情況，例如管理學刊（Academy of Management）、行政科學季

刊（Administration Science Quarterly）、應用心理學期刊（Journal of Applied

Psychology）、組織行為期刊（Journal of Organizational Behavior）、管理期刊

（Journal of Management）等。初步檢視的結論似乎與國內這股「新方法」的風

潮有點不一樣。在近五年的文章中，傳統的迴歸分析、變異數分析等仍然佔有

相當重要的比例，當然以組織研究領域而言，SEM 與 MLM 的應用的確是研究

者所必須具備的工具，這些方法的使用在假設的驗證與量表特質上的檢驗都

有，因此在現有的頂尖論文中，新舊方法是並存的。這個結果反應出好的研究

就並不一定在方法的新舊與深淺，相反地，這些方法是否能解決研究者的疑問

才是重點。統計是研究者最好的「工具」，工具越新，分析結果越精確，但是，

沒有理論時，連分析什麼都無法掌握，遑論所得到結果的意義！！

就我自己的經驗，我常常遇到一些研究生與我討論有關方法應用上的問

題。比如說，常見的問題是問：「我可不可以把 X 變數彙總（aggregate）至組織

層次，然後再應用 HLM 分析？」或是「我的架構能不能跑一下 SEM 的模式，

如此看起來比較嚴謹？」有時，很難回答這樣的問題，在研究問題與理論建構

尚未釐清之前，方法本身是很難決定的！

在早期新詩流行時，常有一句玩笑話：「我的天空很希臘！」詩裡頭總要一

些隱誨難懂的字句，才稱得是「新」或是「現代」！觀照現在許多研究者，尤

其是在博碩士論文裡，也似乎要有點「希臘」，才能夠算得上好研究！當文章充

滿了α、β、γ等希臘字眼時，似乎便是一份好研究。甚者，有些研究者很努力地

學習一些新的統計方法，他們認為只要具備了各種分析方法，做什麼研究都行！

我對這種看法無法認同，這不是研究，充其量只是方法的練習而已。研究者更

應該專心的是理論的瞭解與詮釋！從理論出發，學術才能累積，真相方能被進

一步地瞭解。至於統計方法，僅是協助我們更趨向真理的工具，而非目的。

所有的好詩，都是從生活的觀察與體驗著手，缺乏對周遭的關照，無法成

其一首好詩；而所有的好研究，也都得從現象與理論出發，缺乏對理論的對話，

亦無法成其一份好研究。這篇短文，持平而論，對邱兄的文章並不公平，他主

要是對於這些方法對於量化研究未來的發展與應用議題加以討論。只是，在邱

兄是站在方法的角度來思考未來我們所應該採取的路子，本短文則是立足於研

究的角度看方法的新舊之辯。我想，兩種思考角度應該是可以相互補充的！

41



回應文三

主題回應三


吳柏林國立政治大學應用數學系

本文「斷裂時代中的量化研究：統計方法學的興起與未來」主要提及當今

社會科學的五種重要統計研究方法：IRT、SEM、MLM、Fuzzy 與 Bayesian，並

與傳統的方法作一比較。是當代很難得的一篇好文章。因為現在研究方法分工

愈來愈細，一般學者研究方法大多專注一二領域，要領會活用此五種重要統計

研究方法並不容易。而本文作者能利用其流利之文筆。深入淺出，對此五種研

究方法做一起發性介紹與評論，相當難得。

不過儘管作者已經將社會科學所使用的統計方法做了很完整之介紹與評

論，但針對資訊或情報科學目前漸廣泛使用之資料採礦（Data Mining）技術以

及神經網路及遺傳演算法等卻少提及。若能加入分類比較則本文將更出色。

因為我們生活在一個資料快速擴張的動態的 e 世代，到處都充滿著大量資

料。如何有效發展與利用新的技術由大量的資料中挖掘資訊，成為未來 21 世紀

的一個重要研究工具。資料挖掘可比喻為 21 世紀的資訊統計學。有別於傳統統

計學的地方是：傳統的統計學強調資料收集與資料陳示（如統計圖表），推論與

檢定技術與模式架構. 而資料挖掘主要應用電腦系統訊息，蒐取大量資訊（屬量

或屬質或兩者混合），藉這特徵選擇（features selection)，知識萃取（knowledge

extraction），型態識別（pattern recognition）等，獲得寶貴知識(knowledge)。

值得一提的是現代資料庫的內容，已非數值（計量）資料而以，屬質資料，

屬模糊數資料（如區間資料、離散型模糊資料）等，都能給研究進行很好之參

考或歸納價值。隨之而來的，軟計算（soft computing）及軟計算之統計量再測

量與描述結果也逐漸受到重視。例如在我們對於今年畢業生求職潮中，調查出

下列五位研究所畢業生對薪資期望的一組模糊樣本為[2,3]，[3,4]，[4,6]，[5,8]，

[4,7]（見吳柏林，2005），則根據適當統計定義，其模糊眾數、模糊期望值、模

糊中位數為何？又如研究現代人的理想結婚年齡，樣本資料可能為一三角形或

42



回應文三

梯形模糊數（見 Nguyen & Wu , 2006）。如何有效的藉傳統統計方法或開創新的

統計方法是目前許多研究學者致力之方向。此部分似可考慮放入本文比較評論

範圍。

最後本人由衷欽佩作者對各種統計方法的介紹與比較整理，深感本文對台

灣學術界在測量與分析研究方法的發展與接軌上，貢獻實屬良多。

參考文獻

吳柏林（2005）。模糊統計導論。台北：五南。

Nguyen, H., & Wu, Berlin (2006). Fundamentals of Statistics with Fuzzy Data,Springer-Verlag: Heidelberg.

43



回應文四

主題回應四


溫福星東吳大學國際經營與貿易學系

在邱皓政教授的「斷裂時代中的量化研究：統計方法學的興起與未來」一

文中，主要提及當今社會科學的五種主要統計方法：「IRT」、「SEM」、「MLM」、

「Fuzzy」與「Bayesian」的緣起，並與傳統的方法作一比較。很難得的是，要

將這五種方法同時呈現在一篇文章中，自有相當難度，可見邱教授統計方法功

力之深厚。除此之外，邱教授並從國家圖書館的最近 20 年來碩博士論文所使用

這五種統計方法，進行與對應學門領域的分類，除了反應這五種統計方法使用

的時間數列趨勢外，也相當程度反應不同領域學門的使用習慣，讓我們瞭解到

現在的主流統計方法是什麼。邱教授並在文章後半段，將前面所述的所有測量、

統計與方法學的概念匯集呈現在一棵枝葉茂盛且根部深植土中的大樹，闡述了

之間的先後與關連。最後在文章結尾處提出了統計、測量與方法學的 α、β與 γ

的隱喻，除了與文章前半段的五種統計方法相呼應外，也為αβγ量化研究學刊作

一深入淺出的發刊詞介紹與鮮明清楚的學刊定位。

不僅如此，邱教授在「斷裂時代中的量化研究」緒論開場的雙城記，意有

所指對應現代「IRT」、「SEM」、「MLM」、「Fuzzy」與「Bayesian」統計方法（個

人姑且稱現代與古典的對照），如果我們會這些方法，就是活在這現代統計方法

的城牆內，面對國際期刊這些方法的大量使用，您可以輕易閱讀游刃有餘，並

可以南爭北討攻城掠地。如果我們不會這些方法，甚至還沒有耳聞，則我們就

是還依然沈浸於古典方法的城堡中，不知深處在時間洪流中的我們已經慢慢的

被逝去。這不意味古典統計方法的不好與不對，古典統計方法也有不斷的創新

與進步，結合簡單清晰的觀念仍然有助於知識真諦的探索，但處在尖端科技眾

多的統計套裝軟體之前，面對「IRT」、「SEM」、「MLM」、「Fuzzy」與「Bayesian」

的應用，根本會使不上力，加上越來越複雜的資料結構，古典的方法似乎不敷

使用。在現代與古典的城堡之間，我們必須作一抉擇，這會涉及到我們對統計

44



回應文五

方法的學習方法與態度的改變，但是不變的是 αβγ的統計、測量與方法學的概

念，它仍是這兩個城堡的核心價值所在。

邱教授文章中，個人覺得已經將社會科學所使用的統計方法整合了十之八

九，但針對商學與資訊管理領域中常使用的「Time Series」與「Artificial Neural

Network」卻未有著墨。類神經網路在 10 幾年前也曾風行一陣子，特別是在圖

形辨識與預測上的應用，也常常與多變量統計分析方法進行比較。而時間數列

也一樣有類似現代與古典的區分，雖然都強調預測，但都是可以運用在理論的

建構。除了過去我們常聽見的是 ARIMA外，現在有 ARCH（Engle, 1982）、GARCH

（Bollerslev, 1986）、Cointegration（Granger & Engle, 1987）與 VAR 等，而 Engle

與 Granger 更因為這些新方法而獲得 2003 年諾貝爾經濟學獎的肯定。不僅如此，

這些時間數列的原理與特性也被應用在 SEM 與 MLM 上面（Hamaker, Dolan, &

Molenaar, 2002；van Buuren, 1997）。當然新興的統計方法也不斷的被提出，他們

的共同點都是為了解決現有方法無法或不適而起。以心理學背景的邱教授為文

整理社會科學常用的五種統計、測量與方法學工具，應該是相當完整，若以這

樣財金與管理領域的統計方法知識要求，未免過於嚴苛。

在「斷裂時代中的量化研究：統計方法學的興起與未來」中，個人覺得邱

教授另一個貢獻為，作了起頭的示範，將現代國外越來越發達的這五種統計方

法學工具整合在這篇文章中，並將其緣起精簡的介紹。底下，即以個人對這五

種統計方法的認知與瞭解，對邱教授這篇文章這五種統計方法的現況發展作一

簡要的敘述。

「IRT」、「SEM」、「MLM」、「Fuzzy」與「Bayesian」，前三者除了是測量

與統計外，其實有很濃厚的方法學味道。而後兩者之前應用在社會科學不多，

而是廣泛出現在自動控制、網路與統計科學的領域。但是，這些統計方法在台

灣逐漸成為社會科學研究學者在學術研究上的主要工具。這五種統計方法的思

維已經在邱教授文中已有介紹，不在此贅述。這些方法都有一個共同的特徵就

是統計原理較過去的多變量分析要艱深、所用統計符號要比以前更複雜，以貝

氏統計為例，過去對於參數的看法是認為常數，但在貝氏統計理論下，有事前

機率分配與事後機率分配之分，因此參數可以有機率分配：事前機率分配。當

然在操作上，會用到許多的機率密度函數，大學的初等統計所教的機率分配都

會在貝氏理統計中出現。而統計運算法則都以線性代數的向量與矩陣符號代

替，為了能快且準確求得結果，不斷有新的演算法出現，例如 EM 與 MCMC 等。

這樣的統計方法要能在「統計白話運動」中普及，有一定的難度，但至少還可

45



回應文四

以達到「統計實用主義」的目的。不過，這些統計方法的起源都是會了解決人

類實際所遇到的問題而來，更接近我們所蒐集資料的特性、以及對問題的認識、

對答案的推理，當然更貼近研究方法。

個人理解，除了模糊統計外，在文獻上其它的四種統計方法好像越來越有

統整的趨勢。在台灣模糊統計的社會科學應用中，有吳柏林（1997，2005）、林

原宏（與鄭舜仁、吳柏林）（2003，2006）與游森期（2007a，2007b）等學者致

力於模糊問卷、模糊時間數列、模糊統計的應用與推廣。不過中外皆然，大量

研究還是在理工方面，我們家電產品中的洗衣機、冷氣機就是最好的應用實例。

事實上，模糊概念比較貼近人類的思維模式，但是在數學的表達與運算上卻是

這五種統計方法中最難理解的地方，也較難和其它四種統計方法相連結。

而在「IRT」、「SEM」、「MLM」、與「Bayesian」四種統計方法中，Muthén

（1978）一開始就研究二元變項的因素分析與結構方程模式，當二元變項結合

SEM 之後，IRT 可以以二參數邏輯斯形式出現在 Mplus 裡（Muthén & Muthén,

2004）。最近，IRT 又與 MLM 結合，Raudenbush、Johnson 與 Sampson（2003）

介紹了多層次 Rasch 模型在犯罪行為上的應用。Jöreskog（2002-2005）最近幾年

致力於次序變項的 SEM（Jöreskog & Moustaki, 2001），亦研究截斷資料的分析，

把 LISREL 軟體功能發揮到極致。不僅如此，在其 LISREL 軟體中也結合了

「MLM」，不僅可以處理多層次迴歸分析外，也可以進行多層次 SEM。研究多

層次 SEM 學者相當多，當然首推 Muthén。Muthén（1991，1994）在 10 多年前

就研究多層次 CFA 與多層次 SEM，其發展的軟體 Mplus 皆可以執行這些功能。

除了上述學者外，在「IRT」、「SEM」與「MLM」三方面的研究有相當成果還

有 Skrondal 與 Rabe-Hesketh（2004），他們所提出的 GLLAMM 模式可以處理類

別、次序與連續資料的「MLM」、「SEM」，以及多層次 SEM，並將傳統多層次

SEM 更往前邁進一步，允許上層變項（或構念）可以對下層變項（或構念）產

生影響。不僅如此，他們和 Muthén 一樣，盡可能處理各種不同量尺的變項，特

別是能將不同量尺的變項出現在同一個分析模式中。最近 2007 年 3 月新發行一

本專書：「Bayesian Structural Equation Modeling」，作者是香港中文大學統計系

李錫欽教授（Lee, 2007），書中介紹了貝氏與貝氏如何應用在 SEM 中。Lee 很早

就研究貝氏（Lee, 1981），20 年來一直將貝氏運用在 CFA 與 SEM 中。除此之外，

Lee 在多層次 SEM 中也佔有一席之地，當然書中亦有貝氏多層次結構方程模式，

在 SEM 裡是屬於重量級學者。事實上，現有的「MLM」就利用到貝氏理論，特

別是 Empirical Bayes 的使用，當我們想從 mixed 或是 composite 模式的估計結果

46



回應文五

來求第一層的迴歸係數時，就是利用到貝氏估計法，在 HLM 軟體中用到就是這

個方法。而許多軟體中的 MCMC 演算法法也是利用貝氏理論，甚至 AMOS6.0

版中也有貝氏估計法（Arbuckle, 1995-2005）。上述這些學者都是屬於理論模式

的開創者，不僅如此，他們也利用其開創的方法進行不少的實證文獻，而其它

商管領域的研究者更是在其研究領域大量使用這些方法。

除了上述四種個人較為熟悉的方法外，而國際期刊的重要統計方法還有一

種，就是屬於完全類別變項的資料分析：潛在類別分析。Muthén (2001)特別結

合了上述統計方法，發展出 mixture modeling 來，其應用領域亦相當的廣。而提

到潛在類別變項的研究，不能不提及 Vermunt（2003），不僅致力研究潛在類別

因素分析、潛在類別集群分析與潛在類別迴歸分析，他更將潛在類別分析推展

到多層次潛在類別變項分析的層次。

筆者才疏學淺，利用約一頁篇幅介紹當代這些方法的現況有點班門弄斧，

目的無他，剛好在邱教授的文章中可以做出一點點的延伸。在邱教授文章中提

及國內近幾年來統計方法的使用趨勢，是個量的分析，希望藉由個人小小的介

紹，提出這些統計方法的應用範疇，當作質的補充，回應邱教授的「斷裂時代

中的量化研究：統計方法學的興起與未來」。

參考文獻

吳柏林（1997）。社會科學研究中的模糊邏輯與模糊統計分析。《國立政治大學研究通訊》,7 , 17-38.

吳柏林（2005）。《模糊統計導論:方法與應用》。台北：五南。林原宏、鄭舜仁、吳柏林（2003）。模糊眾數及其在教育與心理評量分析之應用。

《中國統計學報》41(1),39-66.林原宏譯（2006）。《模糊統計》。台北：五南。

Arbuckle, J. (1995-2005). Amos 6.0 user’s guide. Spring House, PA: Amos Development Corporation.

Bollerslev, T.(1986). Generalized autoregressive conditional heteroskedasticity,Journal of Econometrics, 31, 307-327.

Engle, R. (1982). Autoregressive conditional heteroskedasticity with estimates of thevariance of U.K. Inflation, Econometrica 50. 987-1008.

Engle, R., & Granger, C.W.J. (1987), Co-integration and error correction:representation, estimation and testing, Econometrica, 55, 251-276.

47



回應文四

Hamaker, E. L., Dolan, C. V., & Molenaar, P. C. (2002). On the nature of SEMestimates of ARMA parameters. Structural Equation Modeling, 9(3), 347-368.

Jöreskog, K. G. (2002-2005). Structural equation modeling with ordinal variablesusing LISREL. Available at www.ssicentral.com/lisrel/techdocs.ordinal.pdf.

Jöreskog, K. G., & Moustaki, I. (2001). Factor analysis of ordinal variables: Acomparison of three Approaches. Multivariate Behavioral Research, 36,347-387.

Lee, S.Y. (1981). A Bayesian approach to confirmatory factor analysis.Psychometrika, 46, 153-160.

Lee, S.Y. (1990). Multilevel analysis of structural equation models. Biometrika, 77,763-772.

Lee, S.Y. (2007). Structural Equation Modelling: A Bayesian Approach. N.Y.: Wiley.Muthén, B. (1978). Contributions to factor analysis of dichotomous variables.

Psychometrika, 43, 551 -560.Muthén, B. (1991). Multilevel factor analysis of class and student achievement

components. Journal of Educational Measurement, 28, 338-354.Muthén, B. (1994). Multilevel covariance structure analysis. In J. Hox & I. Kreft

(eds.), Multilevel Modeling, a special issue of Sociological Methods & Research,22, 376-398.

Muthén, B. (2001). Latent variable mixture modeling. In G. A. Marcoulides & R. E.Schumacker (eds.), New Developments and Techniques in Structural EquationModeling (pp. 1-33). Lawrence Erlbaum Associates.

Muthén, L. K., & Muthén, B. O. (2004). Mplus user’s guide (3rd ed.). Log Angeles, Muthén & Muthén.

Raudenbush, S. W., Johnson, C. , & Sampson, R.J. (2003). A multivariate, multilevelRasch model with application to self-reported criminal behavior. SociologicalMethodology, 33, 169-211.

Skrondal, A. and Rabe-Hesketh, S. (2004). Generalized Latent Variable Modeling:Multilevel, Longitudinal and Structural Equation Models. Boca Raton, FL:Chapman & Hall/CRC.

van Buuren, S.(1997). Fitting ARMA time series by structural equation models,Psychometrika, 62(2), 215-236.

Vermunt, J.K. (2003). Multilevel latent class models. Sociological Methodology, 33,213-239.

Yu, S., & Wu, B. (2007b). Fuzzy partial credit scaling: A new approach to generatemembership function for psychological measurement. Quality and Quantity,Accepted.

Yu, S., & Yu, M. (2007a). Fuzzy partial credit scaling: A more valid approach toscoring Beck Depression Inventory II. Social Behavior and Personality,

48



回應文五

Accepted.

49



回應文五

主題回應五

非典型回應—斷裂研究中的量化時代

薛承泰國立台灣大學社會學系

拜讀了邱教授大作「斷裂時代中的量化研究：統計方法學的興起與未來」，

又連續看到幾位先進的回應文，作為一個社會科學研究者，在統計學上只有學

習與應用，稱不上對話，更沒有批判的本事！只好從最根本的問題—即作者的

主題，來「回應」！

根據過去 20 年來的博碩士論文所採用的統計方法，按相關「關鍵字」出

現的次數，邱教授整理出五大「顯學」（IRT, SEM, MLM, Fuzzy, Bayesian），卻

用最簡單的次數表來說明台灣各學門「統計方法學的興起與未來」。換一個角

度來說，當我在欣賞邱教授「跨越領域，貫穿方法」，即將拍案叫絕之際，表

一卻成為驚奇的終結；採借邱教授的主題，可稱之為「斷裂」！擺著五大功夫

秘笈不用（或許用不上），就只出了那麼一拳，搞定了統計方法學的「興起」

與「未來」！

就拿表一的數字來看，各學門之間採用統計方法之「變異」甚為明顯。以

冠軍方法 SEM 為例（總數 3631），論絕對次數「商管」2015 次為最多，其次

為「教育」學門的 420 次，與「數學電機」的 263 次；若以比率來觀察，超過

百分比 50 者學們依序為「傳播」91.4、「其他」81.0、「商管」72.8、「醫衛」70.2、

「經社」65.1「教育」58.7、「農林」57.0。總數位居第二名的 FUZZY（總數

2716），論絕對次數，以「工程」1344 次為最多，其次為「商管」的 498 次，

與「數學電機」的 476 次；以比率來觀察，超過百分之 50 者依序為「工程」

87.7、「建築都市」79.0（83 次）、「通訊」59.1（159 次）、「自然」55.2（16 次）。

前述的變異，沒有明顯規則，相信邱教授也明白，才沒有搬出這五大顯學來分

析之。

由於學門的分類在此研究中已是既定，各學門每年之論文總數並未提供，

即便忽視這些因素，就只觀察邱教授所關心的五種方法，其「興起」從 20 年

前算起似乎有點牽強；而根據圖六歷年博碩士論文數字，主要「興起」應在最

50



回應文五

近 10 年。值得注意的，冠軍的 SEM 近五年不論量或年度比率都在上揚，從民

國 90 年佔四成三逐年上升至 94 年的六成四；亞軍的 FUZZY 卻從 90 年佔四成

二逐年下降至 94 年的二成二；至於其他三種統計方法年度比率（謹以此五種

方法為總數）都很低，恐怕談不上是顯學（如果用 survival analysis、failure time

analysis、event-history analysis 等相關關鍵字去搜尋，前述三種方法恐怕都會

被擠下來）。這就是為什麼，筆者認為邱教授所介紹的五個「重要」統計方法

和台灣博碩士論文之間產生「斷裂」。

此外，邱教授在介紹各統計方法時，不時地題到「傳統」，並隱含著這個

「傳統」該過去了，但卻未提到相對於這「當代」統計方法的「傳統」為何？

如果是指一般的迴歸或變異數分析，那麼這些當代方法也不都是在試圖解釋

「變異」？所不同的是前提（ assumptions ）、採用所謂較精準的測量

（measurement）、以及不同方式的推估（estimation）；其目的也都是針對現象

的複雜來找尋其規則－－簡言之，八個字「馭繁為簡，舉一反三」。筆者認為，

這些「傳統」方法仍和「當代」方法有其無法分割的關係，如果拿孔恩的典範

來暗示「舊典範」的「逐漸衰亡」以及「新典範」的「取而代之」，似乎言之

過重！而邱教授不也是用最簡單的博碩士論文數字做為佐證嗎？

邱教授在行文之間，數度嘗試和質性研究對話，可是欲言又止；其實撇開

方法論（methodology）的爭辯，一個現實狀況在於資料的量與可及性，如果沒

有柴火再多的材料，統計方法也只能擺著好看（模擬）；柴火有限，想燒出滿漢

大餐也不可能。反過來說，如果研究時間夠長、經費夠多，一個質性研究者有

機會從事大規模的深入訪談，不用量化方法去整理資料也是失職！在許多研究

場域中，尤其是社會學領域，質與量不應該是「對立」的！邱教授不也是用「質」

的方式來闡述統計方法學的興起與未來嗎？

最後，邱教授很有創意地畫了一顆統計方法之樹來譬喻統計方法的「過去」

與「未來」，筆者不明白，為何發展的方向是一個（由左向右）橫向的箭頭？像

似一陣風要把大樹吹倒。為甚麼不是大樹往上伸展、往外擴展？不可否認，統

計學知識的累積與創新，是大樹的陽光和雨露，但近年來發展的動力與推手，

資料的增長與（電腦）軟體的便捷也不可忽視。也因此，推廣統計方法的同時

也應注意到統計濫用的可能。近年來採用這些當代統計方法明顯增多了，筆者

猜想，這些博士論文的產生，相當程度是 data-driven，甚至是 software-driven；

可以說，「統計方法－資料－軟體」（SDS）三合一連體嬰已經誕生了。這個現

象不是「好不好」或「對不對」的問題，而是內部規範的議題、學術發展意義

51



回應文五

的反省、以及之於人類社會的定位；缺乏這些思維，SDS 就會變成 SOS！筆者

數年前曾經寫下一段極具嘲諷的話：

「在量化研究方面，許多憑電腦科技與統計技術的進步，常會有濫用統計模型，

大量生產資料導向（data driven）的研究報告與學術論文。為了描述或推估所謂

的「全貌」，將現象「簡化」成為一些皮毛甚至可笑的指標，然後再以「高深」

（advanced）的統計模型來將之「複雜化」，並藉電腦科技的進步來玩障眼的「科

學」（scientific）魔術。雖然很少人敢聲稱量化研究是「客觀」的，卻常在無法

自圓其說時，推出兩把「客觀」的尚方寶劍－那就是「純屬機率的解釋」，「必

須符合前提的說法」來為自己解套。」

邱教授有心推廣各種統計方法，並透過新期刊的發行，來加強界面的多元；

相信這不僅是廣發英雄帖試圖尋找新典範也是希望能擴展學科之間的對話，讓

統計不僅說話，而且要說真話！筆者這篇「回應」，在看完邱教授大作以及幾篇

回應文之後，有感而發一氣呵成，或許不夠專業但求幾分原真。總之，雖然邱

教授大作當中沒有明白告訴我們「斷裂的時代」，但我卻覺得台灣存在「斷裂的

研究」，邱教授最大的貢獻在於，嚐試創造出看不見卻可以貫穿不同學科的γ射

線，來修補這個裂痕！當然，邱教授大作也有「斷裂」的現象，或許這才是所

謂的「新雙城記」－這是最好的寫法，也是最壞的寫法，…。



版權聲明

Taiwanese Association of Statistical Methodology 2007

本刊論文與相關文獻版權由台灣統計方法學學會量化研究學刊所有，除教學需要與個人研究所需，請勿翻印。如有專業引用、大量複製或商業效益之關係，請與本學刊聯繫，以維本刊與著作

人之權益。http://www.tasm-sem.org

Documents

斷裂時代中的量化研究：統計方法學 的興起與未來scholar.fju.edu.tw/課程大綱/upload/033064/handout/971...統計方法學的興起與未來3 量化研究學刊

斷裂時代中的量化研究：統計方法學的興起與未來scholar.fju.edu.tw/課程大綱/upload/033064/handout/971...統計方法學的興起與未來3 量化研究學刊