76
國立中央大學 網路學習科技研究所 碩士論文 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 A Web-based Method for Computing the Correctness of Distractors in Chinese Multiple Choice Cloze 生:徐立人 指導教授:楊接期 博士

基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

  • Upload
    thesis3

  • View
    2.023

  • Download
    4

Embed Size (px)

DESCRIPTION

全球學習漢語的人數已超過四千萬,而這個數字還在持續增加當 中。華語文能力測驗也逐漸成為世界知名的語文能力測驗,但是台灣 的華語文測驗發展較中國大陸的漢語水平考詴 HSK 晚十五年。然而, 拜科技所賜,現今我們可以利用電腦輔助完成這種耗時耗力的工作。 華語文電腦出題目前還只是剛起步的研究領域,英文詞彙語法 (Multiple-choice cloze)電腦出題有很多方法值得華語文詞彙語法 電腦出題借鏡,但用來篩選候選誘答選項的方法,卻無法直接套用到 華語文詞彙語法之電腦出題上。本研究目的是設計一個方法來計算華 語文詞彙語法之誘答選項的正答力,解決篩選候選誘答選項的問題, 並以 Google 為 N-gram 的 count 值來源。本研究參考 Markov chain 及 Katz Backoff 演算法來設計本研究的方法,並以台灣華語文能力 測驗 TOP-Huayu 的詞彙語法題 100 題評估本方法的準確度。

Citation preview

Page 1: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

國立中央大學

網路學習科技研究所

碩士論文

基於全球資訊網的華語文詞彙語法誘答選

項正答力計算方法

A Web-based Method for Computing the Correctness of

Distractors in Chinese Multiple Choice Cloze

研 究 生徐立人

指導教授楊接期 博士

中 華 民 國 一 百 年 六 月

國立中央大學圖書館

碩博士論文電子檔授權書

(98 年 4 月最新修正版)

本授權書所授權之論文全文電子檔(不包含紙本詳備註 1 說明)為本人於國立

中央大學撰寫之碩博士學位論文(以下請擇一勾選)

( )同意(立即開放)

( )同意(一年後開放)原因是

( V )同意(二年後開放)原因是 後續投稿

( )同意(三年後開放)原因是

( )不同意原因是

以非專屬無償授權國立中央大學圖書館與國家圖書館基於推動「資源共享

互惠合作」之理念於回饋社會與學術研究之目的得不限地域時間與次數

以紙本微縮光碟及其它各種方法將上列論文收錄重製公開陳列與發行

或再授權他人以各種方法重製與利用並得將數位化之上列論文與論文電子檔以

上載網路方式提供讀者基於個人非營利性質之線上檢索閱覽下載或列印

研究生簽名 徐立人 學號 985204004

論文名稱基於全球資訊網的華語文詞彙語法誘答選項正答力計算方法

指導教授姓名楊接期

系所 網路學習科技 所 博士班碩士班

日期民國 100 年 7 月 20 日

備註

1 本授權書之授權範圍僅限電子檔紙本論文部分依著作權法第 15 條第 3 款之規定採推定

原則即預設同意圖書館得公開上架閱覽如您有申請專利或投稿等考量不同意紙本上架陳

列須另行加填聲明書詳細說明與紙本聲明書請至 httpthesislibncuedutw下載

2 本授權書請填寫並親筆簽名後裝訂於各紙本論文封面後之次頁(全文電子檔內之授權書簽

名可用電腦打字代替)

3 請加印一份單張之授權書填寫並親筆簽名後於辦理離校時交圖書館(以統一代轉寄給國

家圖書館)

4 讀者基於個人非營利性質之線上檢索閱覽下載或列印上列論文應依著作權法相關規定

辦理

i

基於全球資訊網的華語文詞彙語法誘答選項正答力計算方法

摘要

全球學習漢語的人數已超過四千萬而這個數字還在持續增加當

中華語文能力測驗也逐漸成為世界知名的語文能力測驗但是台灣

的華語文測驗發展較中國大陸的漢語水平考詴 HSK晚十五年然而

拜科技所賜現今我們可以利用電腦輔助完成這種耗時耗力的工作

華語文電腦出題目前還只是剛起步的研究領域英文詞彙語法

(Multiple-choice cloze)電腦出題有很多方法值得華語文詞彙語法

電腦出題借鏡但用來篩選候選誘答選項的方法卻無法直接套用到

華語文詞彙語法之電腦出題上本研究目的是設計一個方法來計算華

語文詞彙語法之誘答選項的正答力解決篩選候選誘答選項的問題

並以 Google 為 N-gram 的 count 值來源本研究參考 Markov chain

及 Katz Backoff 演算法來設計本研究的方法並以台灣華語文能力

測驗 TOP-Huayu的詞彙語法題 100題評估本方法的準確度

關鍵字詞彙語法電腦輔助語言測驗產生器計算語言學華語文

能力測驗候選誘答選項的正答力華語文選擇克漏字測驗

ii

A Web-based Method for Computing the Correctness of Distractors in Chinese

Multiple Choice Cloze

ABSTRACT

Over 40 million people are learning the Chinese language and interest keeps

growing The Chinese proficiency test becomes progressively a famous language test

in the world The first formal Chinese proficiency test by Taiwan comes fifteen years

after the Hanyu Shuiping Kaoshi (HSK) by China Thanks to computer technology

we can generate the test by a computer easily Computer-assisted Chinese language

testing generator is still a brand new field of research There are many methods from

English multiple-choice cloze generator can be refer to Chinese multiple-choice cloze

generator except the method for filtering unsuitable candidate distractors The purpose

of this study is to design a new method to compute correctness of candidate

distractors This study solves the problem of filtering unsuitable candidate distractors

The N-gram count value of this method is from Google web search The accuracy of

this method is assessed by one hundred Chinese multiple-choice cloze questions of

TOP-Huayu

KEYWORDSChinese multiple-choice cloze computer-assisted language testing

generator computational linguistics Chinese proficiency test correctness of

candidate distractors

iii

誌謝

能完成本篇論文必須感謝很多人的指點及協助在此致上十二

萬分的謝意由於你們無私的幫忙才有這篇論文首先感謝指導教

授楊接期老師在我碩士生涯二年中不斷的悉心教導和幫助才得

以有今天的成果感謝柯華葳教授張莉萍老師李明懿老師提供華

語文相關建議感謝 Steve Wallace老師讓我對研究更了解感謝張

俊盛教授在課程上及口詴時教導我許多計算語言學的知識感謝劉晨

鐘教授在課堂上及口詴時教導我許多研究上的重要知識及觀念感謝

籃玉如教授高照明教授在口詴時提供我許多寶貴意見使本論文更

完備感謝博士班的學長姊逸農Neil琨晃詵婷嘉玲美任

聲毅國樑家榮垣達元棓陳威鑑城宜勳琮凱玫樺

曰東碩士班學長姊東穎宏榮政廷佳芬冠麟哲偉你們

在我研究及生活上都給予許多幫助建議及鼓勵讓我更能融入研究

所的生活我的同學慧卿國鴻貴元感謝你們平時的幫忙弘君

姿詠文璇婉瑜因為你們實驗室才能充滿歡笑學弟妹們昌隆

律廷昱靜冠賢中民俊凱感謝你們在口詴的時候幫了我很多

忙感謝提供我免費課程資源的助教明撰奕均謝謝我們的助理

孟純姐幫我處理各種行政上的繁雜事務感謝我的爸媽提供我經濟

支持讓我有機會取得碩士學位希望我將來能為家族帶來榮耀還

有感謝我的女友菁微在論文及口詴上都幫了我很多忙要感謝的老師

及同學還很多因版面的限制族繁不及備載在此感謝你們的建議

與協助這篇論文中寫的好的部份是因為你們的貢獻在此對上

述的各位致上我內心最誠摯的感激

徐立人 謹誌

國立中央大學 網路學習科技研究所

中華民國一百年七月

iv

目錄

內容

摘要 i

Abstract ii

誌謝 iii

目錄 iv

圖目錄 vi

表目錄 vii

第一章 緒論 1

11 研究背景與動機 1

12 研究問題 3

13 研究目的 3

14 詞彙語法說明 4

15 研究限制 5

第二章 相關研究 6

21 電腦輔助英文詞彙語法出題之探討 6

22 電腦出題設計原則 8

23 華語文測驗與教學探討 9

第三章 研究工具 11

31 中研院斷詞系統 11

32 Google 網頁搜尋 13

33 TOP-Huayu 詞彙語法 14

第四章 正答力計算方法 17

41 前後置處理 18

42 其它計算正答力的方法 20

421 Bigram Markov Chain 方法 21

422 5-gram Markov Chain 方法 23

423 以全球資訊網為語料來源方法 25

43 基於全球資訊網的正答力計算方法 27

431 概念 27

432 計算方法 30

44 方法比較 36

第五章 評估 38

51 Benchmark 38

52 測試結果 39

v

53 分析評估結果 40

531 原因一訊息量不足 42

532 原因二分析方法侷限 49

第六章 結論及未來研究 53

61 結論 53

62 未來研究 55

參考文獻 57

1 中文文獻 57

2 英文文獻 60

附錄 詳細評估資料 63

1 初級詞彙語法 64

2 中級詞彙語法 65

3 高級詞彙語法 66

vi

圖目錄

圖 1-1 華語文電腦出題領域的涵蓋 3

圖 1-2 詞彙語法題範例其中選項 1 是正確答案選項 234 是誘答選項

4

圖 3-1 中研院中文斷詞系統網站 12

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖 17

圖 4-2 計算正確答案正答力範例 17

圖 4-3 計算並比較正確答案和誘答選項正答力的範例 18

圖 4-4 前後置處理流程圖 19

圖 4-5 基於全球資訊網的正答力計算模組 27

圖 5-1 答錯題目分析過程資料呈現說明 42

圖 5-2 初等 TOP-Huayu 測驗詞彙語法第 52 題答錯過程分析 43

圖 5-3 初等 TOP-Huayu 測驗詞彙語法第 54 題答錯過程分析 44

圖 5-4 初等 TOP-Huayu 測驗詞彙語法第 61 題答錯過程分析 45

圖 5-5 高等 TOP-Huayu 測驗詞彙語法第 79 題答錯過程分析 46

圖 5-6 高等 TOP-Huayu 測驗詞彙語法第 68 題答錯過程分析 47

圖 5-7 高等 TOP-Huayu 測驗詞彙語法第 74 題答錯過程分析 48

圖 5-8 初等 TOP-Huayu 測驗詞彙語法第 84 題答錯過程分析 49

圖 5-9 初等 TOP-Huayu 測驗詞彙語法第 86 題答錯過程分析 50

圖 5-10 初等 TOP-Huayu 測驗詞彙語法第 88 題答錯過程分析 51

圖 5-11 中等 TOP-Huayu 測驗詞彙語法第 71 題答錯過程分析 52

圖 6-1 誘答選項產生器 54

vii

表目錄

表 2-1 電腦輔助英文詞彙語法出題篩選誘答選項(a)方法一(b)方法二 7

表 3-1 Scores for HK 12

表 3-2 Scores for PK 12

表 3-3 臺灣華語文能力測驗 2003 年 12 月到 2010 年 11 月份累計各等級到考及

獲證人數分佈(基礎測驗從 2007 年 11 月開始) 15

表 3-4 CPT vs HSK 等級詞彙的交集 16

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams 架構表 22

表 4-2 「5-gram Markov Chain 方法」的 Language Model N-grams 架構表 24

表 4-3 計算過程(a)1~4 回合(b)5 回合(c)6 回合 28

表 4-4 相同字串比較表 29

表 4-5 部份正答力 F 計算結果比較表 29

表 5-1 詞彙語法題目及答案架構列表 38

表 5-2 測試結果統計表 40

1

1 第一章 緒論

11 研究背景與動機

中國國家漢辦主任孔子學院總部理事長許琳在瀋陽舉行的第十

屆國際漢語教學研討會上表示目前全球學習漢語的人數已超過四千

萬在北京的推動下這個數字還在持續增加當中(MercoPress 2010)

而華語文能力測驗也逐漸成為如TOEIC或TOEFL這種世界標準的語

文能力測驗像是臺灣華語文能力測驗 TOP-Huayu 及 TOCFL中國

「漢語水準考詴 HSK」日本「中國語檢定詴驗」及「TECC」美國

「SATII-Chinese」及「CPT」(張莉萍2007)

中國大陸的 HSK 於 1990 年正式推出(張莉萍2002)並逐步推

廣到全世界台灣的華語文測驗 TOP-Huayu 則在 2005 年才成為正式

的國家級測驗(張莉萍2007)發展較中國大陸晚十五年

拜科技所賜目前我們可以利用電腦輔助完成這種耗時耗力的工

作電腦有機械式出題的優點只要給特定明確的規則就可以產生

大量的題目由於測驗題庫需要持續性的汰舊換新與維護管理(陳柏

熹2010)因此需要大量撰寫新詴題過程繁雜且耗時(余民寧

2010)發展電腦出題可以提升測驗題庫的規模進而提升測驗的水

在電腦輔助語言測驗(Computer-Assisted Language Testing CALT)

領域TOP-Huayu及HSK己有不少研究以Silye和Wiwczaroski(2002)

對 CALT 議題的分類方式電腦輔助華語文測驗可以說己經有相當完

整的研究我們可以在每一類議題都找到對應的研究「Item banking」

電腦測驗題庫管理與分析議題(張國恩陳學志鄭錦全宋曜廷

蔡雅薰周中天2010 鹿士義余嘉元 2003)「Computer-assisted

language testing」電腦呈現語言測驗議題(余坤庭陳劭茹林宗璋

周中天2009)「Computer-adaptive language testing」電腦化適性語

2

言測驗議題(洪豪哲林孟君劉育隆郭伯臣2010 Wang Kuo amp

Chao 2010)「Web-based language testing」線上語言測驗議題(陳懷萱

鄧智生2003)

但是上述的「電腦輔助語言測驗」研究中卻沒有華語文電腦出

題反觀英文電腦出題己有相當數量的研究無論是英語系國家

(Mitkov amp Ha 2003)日本(Goto Kojiri Watanabe Iwata amp Yamada

2010)台灣(Liu Wang amp Gao 2005)等等都有學者發表這一方面的

研究

本研究也訪談具有十年以上研究華語文測驗經驗的專家調查關

於華語文電腦出題的需求截至本研究目前所調查的電腦出題相關研

究及訪談結果尚未發現有研究是針對外籍人士的華語文測驗作電腦

「自動」出題顯示華語文電腦出題還是一門新興的研究領域

然而會有這樣的結果究其根本原因是因為英文是世界上研究

最多且研究歷史最悠久但同樣的研究在中文這樣的語言則是非常

不容易的一來中文的文法研究起步較晚二來早期的研究因為大量

移借西方文法理論而西方的語法理論有絕大部份都是建立在西方語

言的研究發現上因此引進西方文法理論雖然能解決中文文法與西

方文法共同的部份但對其中不同的部分則會因為不合適的語法分析

架構而無法使用(曹逢甫2004)而且華語文能力測驗是一門非常專

業的學問不同的題型有不同的出題策略(柯華葳2004)研究電腦

出題更需謹慎華語文電腦出題涵蓋的領域範圍如圖 1-1

3

圖 1-1 華語文電腦出題領域的涵蓋

12 研究問題

在英文電腦出題研究中英文詞彙語法(Multiple-choice cloze)

電腦出題已有相當廣泛的研究有很多方法值得華語文詞彙語法之電

腦出題借鏡然而用來篩選候選誘答選項的方法因為語言特性的差

別無法直接套用到華語文電腦出題上詞彙語法測驗是以選擇題方

式呈現而一題可用的選擇題必只有一最清楚之最佳答案(郭生玉

2004)若華語文詞彙語法電腦出題產生誘答選項後卻不能判斷候

選誘答選項非最佳答案則產生出來的題目也就不適用故本研究問

題為

「如何檢查華語文詞彙語法電腦出題產生的候選誘答選項非最佳答

案」

13 研究目的

本研究目的為設計一方法來計算華語文詞彙語法之誘答選項的

正答力然後藉由比較候選誘答選項正答力判斷是否比正確答案低

來檢查該候選誘答選項非最佳答案做為華語文電腦出題的基礎本

研究參考計算語言學的 Markov chainKatz Backoff及 Maximum

4

Likelihood Estimation(Jurafsky amp Martin 2009) 來設計本研究

的方法計算誘答選項的正答力本研究以 Google為語言模型的語

料來源利用 Google龐大的語料資源提升計算結果的準確度而

測詴本方法準確度是利用具有客觀公開可信度高的台灣 TOP-Huayu

的詞彙語法題共 100題

14 詞彙語法說明

克漏字 (cloze procedure)首先由 Taylor(1953)提出是用來

估算文章可讀程度的工具之後有研究者將「克漏字」用在測驗英語

母語學習者的閱讀能力同時也有一批研究者應用在測量 ESL的語言

能力後來「克漏字」演變成多種題型「華語文能力測驗」的「詞

彙語法」(Multiple-choice cloze)測驗(華語文能力測驗初等模擬詴

題2003)就是其中一種題型同「漢語水準考詴」HSK 的「語法結

構」第二部分及綜合填空第一部分(第一套 HSK模擬題2005)詞彙

語法測驗可以測出受詴者對中文詞彙及語法的熟練度及運用能力(張

莉萍2002)如圖 1-2在新版的 TOCFL改以「選詞填空」題型取

代「詞彙語法」本研究參考華語文測驗專家所給予的建議以台灣

TOP-Huayu詞彙語法為設計本方法及測詴本方法準確度的標竿做為

未來研究的基礎

弟弟做事很隨便這麼重要的事給他做我真的不能 ___

1 放心

2 擔心

3 關心

4 小心

圖 1-2 詞彙語法題範例其中選項 1是正確答案選項 234是

誘答選項

資料來源華語文能力測驗初等模擬詴題(2003)

5

15 研究限制

本研究有以下限制

1 本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu華

語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK

2 本研究利用Google搜尋全球資訊網的語料取得N-gram count值

由於全球資訊網的語料未經審核當真正用在分析華語文詞彙語法

電腦出題之誘答選項的正答力時可能會受到錯誤語法影響

3 本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取得

Google 網頁搜尋結果時從國內發出 Request 會和從國外發出

Request 所取得的結果數不同另外 Google 搜尋結果也會隨著時

間而改變所以不能保證本研究的評估結果 100重現

4 本研究使用的 Google 搜尋結果數為數據來源而搜尋結果數是網

頁數非精準的詞句數

5 本研究僅針對 Maximum Likelihood EstimationKatz backoff

Bigram Markov Chain5-gram Markov Chain 作研究並只以中

研院平衡語料庫及 Google 為 N-grams count 值的來源並不代表

其它的計算語言學方法不適合或沒有方法可以用來計算本研究中

的正答力

6

2 第二章 相關研究

本章介紹和本研究間接相關的研究議題作為本研究的參考包

含電腦輔助英文詞彙語法出題電腦出題設計原則華語文教學與測

驗探討

21 電腦輔助英文詞彙語法出題之探討

華語文電腦出題為剛起步的研究相關文獻並不多而華語文詞

彙語法之電腦出題研究也幾乎沒有故本研究調查數篇和英文詞彙語

法題之電腦出題的研究做為製作中文測驗之電腦出題的參考

本研究整理數篇電腦輔助英文克漏詞多選題出題研究並參考其

中篩選誘答選項的方法如表 2-1Goto et al(2010)及 Sumita

Sugaya amp Yamamoto(2005)將候選誘答選項和相鄰的二個詞一起放到

Google中搜尋若有結果表示該誘答選項不適用Liu et al(2005)

也是用一樣的方法但是語料來源是本身系統內的語料庫語料量較

少Chen Liouamp Chang(2006)利用文法規則來產生誘答選項挑選

跟答案不同詞性的選項(例如動詞介詞)藉錯誤的詞性來確保

選項是錯誤的

7

表 2-1 電腦輔助英文詞彙語法出題篩選誘答選項(a)方法一(b)方

法二

方法

將候選誘答選項和相鄰的二個詞(或更多)放到

Google 中(Goto et al 2010 Sumita et al 2005)或

一般語料庫(Liu et al 2005)搜尋若有結果表

示該誘答選項不適用

例子 This is the building what we had our first office

解釋

what 是候選誘答選項(正答是 which)用來搜

尋的字串可以是「building what we」也可以是

「the building what we had」但是嚴謹程度不一

樣若有結果表示該誘答選項不適用

(a) 方法一

方法 產生不同詞性規則的誘答選項藉此確保誘答選項

是錯誤選項(Chen et al 2006)

例子

Representative democracy seemed ______ simultaneously

during the eighteenth and nineteenth centuries in Britain

Europe and the United States

(A) to evolve

(B) to evolving

(C) evolving

(D) evolve

解釋 4 個選項的詞性都不同

(b) 方法二

以華語文詞彙語法題的觀點來看方法二較不適合用在本研究

因華語文詞彙題的誘答選項通常是同一種詞性且華語文是孤立語

不像英文有字尾型態變化另外Bensoussan 和 Ramraz(1984)也表示

在設計誘答選項時四個選項中最好都使用同一種詞性例如全部是

動詞避免提示效果故方法二不適合直接用來計算及篩選本研究的

8

誘答選項

本研究也是利用 Google 網頁搜尋為 N-gram count值的來源但

是所用的計算方法和「方法一」不同由於上述學者的方法是應用在

英文詞彙語法出題如果用在本研究的華語文詞彙語法出題上會將

具有誘答力易混肴的一些較好的誘答選項過濾掉所以不適合用在

本研究上

本研究另外參考計算語言學 Markov chain(Jurafsky amp Martin

2009)技術計算誘答選項的正答力確保候選誘答選項非最佳答案

22 電腦出題設計原則

本研究在調查完電腦輔助英文克漏詞多選題出題(Chen et al

2006 Goto et al2010 Sumita et al2005)及其它電腦出題研

究(Yang 2006)後歸納出電腦出題可分為半自動的輔助出題和全自

動的自動出題本研究融合這兩種觀念提出電腦出題研究的原則

輔助出題是電腦提供題目資訊來協助出題者例如電腦產生誘

答選項的清單出題者自行決定可用的選項但是輔助出題是把資料

傾倒出來不確定是否有用有可能會額外增加老師的負擔自動出

題是由電腦決定例如電腦直接產生它覺得可用的三個誘答選項而

過程不需要出題者介入出題者直接套用結果

雖然看起來電腦自動出題是最佳的方式但是實務上幾近不可能

原因如下

1 測驗是一門很深的理論有許多出題規則包含明確及模糊的規

則華語文能力測驗更是如此所以很難將所有規則都具體且明

確化並套用到電腦程式裡

2 出題老師的出題規則往往是用直覺而直覺裡才包含著經驗和知

識所以很難將出題老師的出題規則具體且明確化

3 每位出題老師的出題規則都不同例如有的老師覺得誘答選項

要同一詞性有的覺得要不同詞性因此不可能有一套自動出

9

題系統能滿足所有人的要求所以嚴格來說不可能實現真正符

合需求的電腦自動出題

本研究認為電腦出題應以電腦自動出題為目標但是以電腦輔助

出題的方式呈現本研究建議使用推薦方式能保有兩種出題方式的

優點而本研究所提出的正答力計算方法除了用來過濾電腦自動出

題的候選誘答選項外也可以當作排序的依據呈現候選誘答選項輔

助詴題研發人員選擇最適合的誘答選項

23 華語文測驗與教學探討

3 現今國際上重要的能力考詴皆致力於對應於 CEFR 能力架構

(Council of Europe2001)台灣所研發的華語文能力測驗也是依據

CEFR指標同時也對應了 CEFR的級數到台灣師範大學語言中心的教

材張莉萍陳鳳儀(2008)提出台灣華語文能力測驗的分級方式分

級依據學生來參加考詴的前一個星期所上的教材落點為劃分標準其

劃分方式本研究整理如下

1 基礎級(TOP-beginner)

在台灣師範大學語言中心學習 150小時以上的學生

等於 CEFR所描述的 A2語言能力

能了解大部分與切身相關的句子及常用詞彙例如非常基本之

個人及家族資訊購物當地地理環境工作狀況等針對熟悉

單純例行性的任務能以簡單直接地溝通方式交換訊息能

簡單地敘述出個人背景週遭環境及立即需求

2 進階級(TOP-learner)

讀完新版實用視聽華語系列教材一-四冊(約 530個學時)

等於 CEFR所描述的 B1語言能力

針對一般職場學校休閒等場合常遇到的熟悉事物時在接

10

收到標準且清晰的信息後能瞭解其重點在目標語言地區旅遊

時能應付大部分可能會出現的一般狀況針對熟悉及私人感興

趣之主題能簡單地撰稿能敘述經驗事件夢想希望及志向

對看法及計畫能簡短地解釋理由及做出說明

3 高階級(Top-superior)

讀完新版實用視聽華語系列教材四冊後再讀完遠東生活華語三

第八單元的學生(約 610學時)

能通過百分之六十七 CEFR B2等級的題目

針對具體及抽象主題的複雜文字能瞭解其重點主題涵蓋個人

專業領域的技術討論能即時地以母語作互動有一定的流暢度

且不會讓任一方感到緊張能針對相當多的主題撰寫出一份完整

詳細的文章並可針對所提各議題重點做出優缺點說明

上述教材當初並非依據 CEFR 能力指標規劃完整系列而是針

對教材內容主題做了對應例如有的教材雖然屬於 B2 教材但

不代表學生學完這本教材即具有 B2 能力因為該本教材可能只具備

部分 B2能力或說學生要具備 B2能力原本就不會只讀一本教材現

階段華語文能力測驗關心的是如何幫助學生有效地從 B1 跨越到 B2

並選擇適當的教材或課程規劃

11

3 第三章 研究工具

本章介紹本研究基礎的三項工具由於此三項工具使得本研究的

方法得以實現本章將介紹中研院斷詞系統Google 網頁搜尋

TOP-Huayu詞彙語法

31 中研院斷詞系統

要進行華語文語句分析必須將語句斷詞後才能處理本研究

利用中央研究院中文資訊處理實驗室詞庫小組所發展的中文斷詞系

統 httpckipsvriissinicaedutw將句子斷成數個詞並重新組成

N-grams

在偵測未知詞的部份是利用基於語料庫的方法找出句法規則再

利用此規則來分辨單音節元素然後找出未知詞或錯誤用法(Chen amp

Bai1998)斷詞後的範例

這(Nep) 是(SHI) 一(Neu) 家(Nf) 擁有(VJ) 五百(Neu) 名(Nf) 員工(Na) 的

(DE) 中型(A) 企業(Na) (PERIODCATEGORY)

利用 Hong Kong Cityu(HK)的 closedtrack 及 open track

Beijing University (PK)的 closedtrack 及 open track共 4 種

評估此斷詞系統結果具有相當高的 F scores(Ma amp Chen2003)

如表 3-1及表 3-2其中英文字母代表依序為test recall (R) test

precision (P)F score(F)the out-of-vocabulary (OOV) rate for

the test corpusthe recall on OOV words(Roov)及 the recall on

in-vocabulary(Riv) words

12

表 3-1 Scores for HK

R P F OOV Roov Riv

Closed 0947 0934 0940 0071 0625 0972

Open 0958 0954 0956 0071 0788 0971

資料來源 Ma amp Chen(2003)

表 3-2 Scores for PK

R P F OOV Roov Riv

Closed 0939 0934 0936 0069 0642 0961

Open 0939 0938 0938 0069 0675 0959

資料來源 Ma amp Chen(2003)

圖 3-1 中研院中文斷詞系統網站

資料來源中文斷詞系統 httpckipsvriissinicaedutw

13

中研院中文斷詞系統已經廣泛的被各種領域的學者所使用例如

陳慶龍(2007)利用此斷詞系統製作中文體育知識問答系統Huang

ChiuChuanSandnes(2010)製作一個可以診斷憂鬱症的語言分析器

其中利用中研院中文斷詞系統來擷取關鍵字

32 Google 網頁搜尋

1995 年 Google 的創辦人美國史丹福大學的研究生 Larry Page

以及 Sergey Brin憑藉其資訊工程的專長開發名為 BackRub的搜尋

引擎後來正式更名為 Google其任務在於組織全世界的資訊讓

全球都能使用並有所禆益可說是目前全球最大的搜尋引撆現代人

幾乎只要提到資料搜索都絕對離不開 Google 搜尋正因為它可以在

短時間內找到相當豐富的資料查詢所得的結果遠多於其他搜尋網站

因此已經成為許多人不可或缺的工具(童國倫潘奕萍 2009)故本

研究以 Google為 N-gram count值的來源分析選項正答力

GOOGLE支援多達一百三十二種語言包括簡體中文和繁體中文

並有「頁庫存檔」功能即使網頁檔案被刪除仍然可以查詢到資料

而且可以搜尋的資料類型至少包括以下幾種格式

Adobe Portable Document Format (pdf)

Adobe PostScript (ps)

Lotus 1-2-3 (wk1 wk2 wk3 wk4 wk5 wki wks wku)

Lotus WordPro (lwp)

MacWrite (mw)

Microsoft Excel (xls)

Microsoft PowerPoint (ppt)

Microsoft Word (doc)

Microsoft Works (wks wps wdb)

Microsoft Write (wri)

Rich Text Format (rtf)

Shockwave Flash (swf)

Text (ans txt)

HyperText Markup Language (html)

14

Google 目前已被廣泛應用在各種自然語言處理研究中例如

FigueroaNeumann與 Atkinson (2009)利用 Google來擷取知識作

出基於 Surface Patterns的定義型問題問答系統CaiCuiMiao

Zhao與 Ren(2004)利用 Google Web APIs作出中文自動問答系統

Kilgarriff(2007)描述了使用 Google 這類官方搜尋引擎時會有

的幾個議題本研究整理列出並解釋和本研究的關係

1 官方搜尋引擎不考慮 Lemmatize(如英文同詞幹不同詞性的字)及

Part-Of-Speech tag但是中文沒有 Lemmatize的問題而本研究

設計的方法不使用 Part-Of-Speech tag

2 官方搜尋引擎的搜尋語法有限例如有無提供「萬用字元」及模糊

算子本研究只使用 Google的雙引號「」Query功能表示嚴格

限定只找包含完整 Query字串的網頁

3 官方搜尋引擎有 Query數限制在固定時間內使用者只能發出有限

的 Query而本研究以延長搜尋間隔時間來解決

4 官方搜尋引擎的搜尋結果數是網頁數而非詞句數由於無法下載

所有 hit pages的內容精準統計語句次數故本研究利用網頁數

做為數據來源此為本研究的限制

5 搜尋結果數中可能有重覆的資料例如不同網址有同樣文件內容

此問題雖然會影響結果但是本研究所設計的方法主要是利用最長

可得結果字串的長度為評分依據而搜尋結果數只影響分數中的小

數部份對本研究只佔了小部份的影響

33 TOP-Huayu 詞彙語法

臺灣華語文能力測驗的前身是 2003 年國立臺灣師範大學國語教

學中心華語文教學研究所與心理教育測驗中心三個團隊所共同研發

的「華語文能力測驗」(Chinese Proficiency Test CPT)2005 年

11 月教育部提升這個測驗為國家級的測驗並改為 TOP-Huayu(張莉

萍 2007)2010 年再改版為 TOCFL到 2010 年 11 月份為止臺灣

15

華語文能力測驗的到考人數已達到 11527 人成功取得證書人數更

有 6080 人(國家華語測驗推動工作委員會2009)如表 3-3表示

此測驗在國際上已具有相當的知名度

表 3-3 臺灣華語文能力測驗 2003年 12月到 2010年 11月份累計各

等級到考及獲證人數分佈(基礎測驗從 2007年 11月開始)

到考人數 獲得證書

人數 通過率()

基礎測驗 1729 1324 7662

初等測驗 3572 1620 4543

中等測驗 4184 1719 4114

高等測驗 2042 1345 6587

資料來源國家華語測驗推動工作委員會(2009)

由於地緣關係本研究使用台灣華語文能力測驗且由於新版的

TOCFL「選詞填空」的形式較 TOP-Huayu 詞彙語法複雜本研究參考

專家的建議後以台灣 TOP-Huayu詞彙語法為製作系統及分析準確度

的標竿並做為未來研究的基礎洪小雯(2009)表示「詞彙語法」

的題型儘管較為傳統但其著重測詴語言知識的考量不宜偏廢畢竟

在外語的學習過程中語言知識是決定語言能力的基礎

TOP-Huayu的詞彙分級方法參考自張莉萍陳鳳儀(2006)所訂

定的規則詞彙來源主要參考自台灣師大華語文能力測驗詞彙分級表

張莉萍(2002)(以下簡稱 CPT詞彙表)漢語水平詞彙等級大綱(國

家對外漢語教學領導小組辦公室漢語水平考詴部1992)(以下簡稱

HSK詞彙表)CPT和 HSK的詞彙交集分佈如表 3-4

在華語文能力測驗與歐洲共同架構 CEFR 的對應關係方面藍珮

君(2007)研究基礎華語文能力測驗與 CEFR 對應程度發現測驗等

級介於 CEFR A1 與 A2 之間屬於初級使用者的程度表示該測驗可

16

適當的測出受詴者的能力

表 3-4 CPT vs HSK等級詞彙的交集

HSK cap CPT CPT詞彙表(10155個)

初(1507) 中(3684) 高(4964)

HSK詞彙表

(8767個)

甲(1027) 683 231 17

乙(2003) 330 805 265

丙(2188) 141 486 474

丁(3569) 54 406 632

資料來源張莉萍陳鳳儀(2006)

17

4 第四章 正答力計算方法

本研究提出一個篩選詞彙語法電腦出題的候選誘答選項的方法

在不斷的測詴與改進基於 Markov Chain及 Katz Backoff的概念

並且使用 Google做為 N-gram count值的來源設計了一個方法來計

算詞彙語法題之候選誘答選項的正答力計算正答力的概念如圖 4-1

先計算正確答案正答力如圖 4-2然後計算每個候選誘答選項正答

力如圖 4-3使能和正確答案的正答力比較

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖

圖 4-2 計算正確答案正答力範例

18

圖 4-3 計算並比較正確答案和誘答選項正答力的範例

在實際應用時若該候選誘答選項的正答力大於正確答案表示

該選項為最佳答案則選項不適用如圖 4-3將其過慮掉本章包

含計算正答力之前及之後需處理的「前後置處理」完成本方法之前

所參考的「其它計算正答力方法」然後是本研究最後呈現的「基於

全球資訊網的正答力計算方法」最後是新舊方法的「方法比較」

41 前後置處理

圖 4-4為本方法前後置處理的流程圖虛線圍起來的部份是本研

究的核心方法本節介紹前後置處理包含計算正答力的前置及後續

處理工作

19

圖 4-4 前後置處理流程圖

如圖 4-4「輸入題幹及選項」輸入一題詞彙語法題的題幹及 4

個選項此部份可視為華語文詞彙語法電腦出題系統產生候選誘答選

項後將選項輸入該系統以計算該選項的正答力如下題幹及選項

(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

「將題幹及選項組成句子」將選項和題幹組成一個完整的句子4

個選項則產生 4個句子如下範例

20

我國天然資源不多礦產種類只有煤和石油

我國天然材料不多礦產種類只有煤和石油

我國天然產品不多礦產種類只有煤和石油

我國天然原料不多礦產種類只有煤和石油

「斷詞」將每個句子經由 Internet送到中研院斷詞系統進行斷詞

方便後續分析正答力如下範例句子斷詞後的結果「」表分隔

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

我國 天然 材料 不 多 礦產 種類 只有 煤 和 石油

我國 天然 產品 不 多 礦產 種類 只有 煤 和 石油

我國 天然 原料 不 多 礦產 種類 只有 煤 和 石油

「計算正答力」此模組負責計算每個選項的正答力為本研究

的核心部份計算方法將在下一節詳細介紹

「呈現正答力」輸出該選項的正答力分數結果供電腦出題系

統判斷候選誘答選項非最佳答案或直接供詴題研發人員參考如下

範例

「資源」選項的正答力=17581062

「材料」選項的正答力=5614006

「產品」選項的正答力=7181650

「原料」選項的正答力=5623282

本系統計算出來的是相對正答力不能比較不同題目的相同誘答選項

正答力

42 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法本研究參考了

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 2: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

國立中央大學圖書館

碩博士論文電子檔授權書

(98 年 4 月最新修正版)

本授權書所授權之論文全文電子檔(不包含紙本詳備註 1 說明)為本人於國立

中央大學撰寫之碩博士學位論文(以下請擇一勾選)

( )同意(立即開放)

( )同意(一年後開放)原因是

( V )同意(二年後開放)原因是 後續投稿

( )同意(三年後開放)原因是

( )不同意原因是

以非專屬無償授權國立中央大學圖書館與國家圖書館基於推動「資源共享

互惠合作」之理念於回饋社會與學術研究之目的得不限地域時間與次數

以紙本微縮光碟及其它各種方法將上列論文收錄重製公開陳列與發行

或再授權他人以各種方法重製與利用並得將數位化之上列論文與論文電子檔以

上載網路方式提供讀者基於個人非營利性質之線上檢索閱覽下載或列印

研究生簽名 徐立人 學號 985204004

論文名稱基於全球資訊網的華語文詞彙語法誘答選項正答力計算方法

指導教授姓名楊接期

系所 網路學習科技 所 博士班碩士班

日期民國 100 年 7 月 20 日

備註

1 本授權書之授權範圍僅限電子檔紙本論文部分依著作權法第 15 條第 3 款之規定採推定

原則即預設同意圖書館得公開上架閱覽如您有申請專利或投稿等考量不同意紙本上架陳

列須另行加填聲明書詳細說明與紙本聲明書請至 httpthesislibncuedutw下載

2 本授權書請填寫並親筆簽名後裝訂於各紙本論文封面後之次頁(全文電子檔內之授權書簽

名可用電腦打字代替)

3 請加印一份單張之授權書填寫並親筆簽名後於辦理離校時交圖書館(以統一代轉寄給國

家圖書館)

4 讀者基於個人非營利性質之線上檢索閱覽下載或列印上列論文應依著作權法相關規定

辦理

i

基於全球資訊網的華語文詞彙語法誘答選項正答力計算方法

摘要

全球學習漢語的人數已超過四千萬而這個數字還在持續增加當

中華語文能力測驗也逐漸成為世界知名的語文能力測驗但是台灣

的華語文測驗發展較中國大陸的漢語水平考詴 HSK晚十五年然而

拜科技所賜現今我們可以利用電腦輔助完成這種耗時耗力的工作

華語文電腦出題目前還只是剛起步的研究領域英文詞彙語法

(Multiple-choice cloze)電腦出題有很多方法值得華語文詞彙語法

電腦出題借鏡但用來篩選候選誘答選項的方法卻無法直接套用到

華語文詞彙語法之電腦出題上本研究目的是設計一個方法來計算華

語文詞彙語法之誘答選項的正答力解決篩選候選誘答選項的問題

並以 Google 為 N-gram 的 count 值來源本研究參考 Markov chain

及 Katz Backoff 演算法來設計本研究的方法並以台灣華語文能力

測驗 TOP-Huayu的詞彙語法題 100題評估本方法的準確度

關鍵字詞彙語法電腦輔助語言測驗產生器計算語言學華語文

能力測驗候選誘答選項的正答力華語文選擇克漏字測驗

ii

A Web-based Method for Computing the Correctness of Distractors in Chinese

Multiple Choice Cloze

ABSTRACT

Over 40 million people are learning the Chinese language and interest keeps

growing The Chinese proficiency test becomes progressively a famous language test

in the world The first formal Chinese proficiency test by Taiwan comes fifteen years

after the Hanyu Shuiping Kaoshi (HSK) by China Thanks to computer technology

we can generate the test by a computer easily Computer-assisted Chinese language

testing generator is still a brand new field of research There are many methods from

English multiple-choice cloze generator can be refer to Chinese multiple-choice cloze

generator except the method for filtering unsuitable candidate distractors The purpose

of this study is to design a new method to compute correctness of candidate

distractors This study solves the problem of filtering unsuitable candidate distractors

The N-gram count value of this method is from Google web search The accuracy of

this method is assessed by one hundred Chinese multiple-choice cloze questions of

TOP-Huayu

KEYWORDSChinese multiple-choice cloze computer-assisted language testing

generator computational linguistics Chinese proficiency test correctness of

candidate distractors

iii

誌謝

能完成本篇論文必須感謝很多人的指點及協助在此致上十二

萬分的謝意由於你們無私的幫忙才有這篇論文首先感謝指導教

授楊接期老師在我碩士生涯二年中不斷的悉心教導和幫助才得

以有今天的成果感謝柯華葳教授張莉萍老師李明懿老師提供華

語文相關建議感謝 Steve Wallace老師讓我對研究更了解感謝張

俊盛教授在課程上及口詴時教導我許多計算語言學的知識感謝劉晨

鐘教授在課堂上及口詴時教導我許多研究上的重要知識及觀念感謝

籃玉如教授高照明教授在口詴時提供我許多寶貴意見使本論文更

完備感謝博士班的學長姊逸農Neil琨晃詵婷嘉玲美任

聲毅國樑家榮垣達元棓陳威鑑城宜勳琮凱玫樺

曰東碩士班學長姊東穎宏榮政廷佳芬冠麟哲偉你們

在我研究及生活上都給予許多幫助建議及鼓勵讓我更能融入研究

所的生活我的同學慧卿國鴻貴元感謝你們平時的幫忙弘君

姿詠文璇婉瑜因為你們實驗室才能充滿歡笑學弟妹們昌隆

律廷昱靜冠賢中民俊凱感謝你們在口詴的時候幫了我很多

忙感謝提供我免費課程資源的助教明撰奕均謝謝我們的助理

孟純姐幫我處理各種行政上的繁雜事務感謝我的爸媽提供我經濟

支持讓我有機會取得碩士學位希望我將來能為家族帶來榮耀還

有感謝我的女友菁微在論文及口詴上都幫了我很多忙要感謝的老師

及同學還很多因版面的限制族繁不及備載在此感謝你們的建議

與協助這篇論文中寫的好的部份是因為你們的貢獻在此對上

述的各位致上我內心最誠摯的感激

徐立人 謹誌

國立中央大學 網路學習科技研究所

中華民國一百年七月

iv

目錄

內容

摘要 i

Abstract ii

誌謝 iii

目錄 iv

圖目錄 vi

表目錄 vii

第一章 緒論 1

11 研究背景與動機 1

12 研究問題 3

13 研究目的 3

14 詞彙語法說明 4

15 研究限制 5

第二章 相關研究 6

21 電腦輔助英文詞彙語法出題之探討 6

22 電腦出題設計原則 8

23 華語文測驗與教學探討 9

第三章 研究工具 11

31 中研院斷詞系統 11

32 Google 網頁搜尋 13

33 TOP-Huayu 詞彙語法 14

第四章 正答力計算方法 17

41 前後置處理 18

42 其它計算正答力的方法 20

421 Bigram Markov Chain 方法 21

422 5-gram Markov Chain 方法 23

423 以全球資訊網為語料來源方法 25

43 基於全球資訊網的正答力計算方法 27

431 概念 27

432 計算方法 30

44 方法比較 36

第五章 評估 38

51 Benchmark 38

52 測試結果 39

v

53 分析評估結果 40

531 原因一訊息量不足 42

532 原因二分析方法侷限 49

第六章 結論及未來研究 53

61 結論 53

62 未來研究 55

參考文獻 57

1 中文文獻 57

2 英文文獻 60

附錄 詳細評估資料 63

1 初級詞彙語法 64

2 中級詞彙語法 65

3 高級詞彙語法 66

vi

圖目錄

圖 1-1 華語文電腦出題領域的涵蓋 3

圖 1-2 詞彙語法題範例其中選項 1 是正確答案選項 234 是誘答選項

4

圖 3-1 中研院中文斷詞系統網站 12

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖 17

圖 4-2 計算正確答案正答力範例 17

圖 4-3 計算並比較正確答案和誘答選項正答力的範例 18

圖 4-4 前後置處理流程圖 19

圖 4-5 基於全球資訊網的正答力計算模組 27

圖 5-1 答錯題目分析過程資料呈現說明 42

圖 5-2 初等 TOP-Huayu 測驗詞彙語法第 52 題答錯過程分析 43

圖 5-3 初等 TOP-Huayu 測驗詞彙語法第 54 題答錯過程分析 44

圖 5-4 初等 TOP-Huayu 測驗詞彙語法第 61 題答錯過程分析 45

圖 5-5 高等 TOP-Huayu 測驗詞彙語法第 79 題答錯過程分析 46

圖 5-6 高等 TOP-Huayu 測驗詞彙語法第 68 題答錯過程分析 47

圖 5-7 高等 TOP-Huayu 測驗詞彙語法第 74 題答錯過程分析 48

圖 5-8 初等 TOP-Huayu 測驗詞彙語法第 84 題答錯過程分析 49

圖 5-9 初等 TOP-Huayu 測驗詞彙語法第 86 題答錯過程分析 50

圖 5-10 初等 TOP-Huayu 測驗詞彙語法第 88 題答錯過程分析 51

圖 5-11 中等 TOP-Huayu 測驗詞彙語法第 71 題答錯過程分析 52

圖 6-1 誘答選項產生器 54

vii

表目錄

表 2-1 電腦輔助英文詞彙語法出題篩選誘答選項(a)方法一(b)方法二 7

表 3-1 Scores for HK 12

表 3-2 Scores for PK 12

表 3-3 臺灣華語文能力測驗 2003 年 12 月到 2010 年 11 月份累計各等級到考及

獲證人數分佈(基礎測驗從 2007 年 11 月開始) 15

表 3-4 CPT vs HSK 等級詞彙的交集 16

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams 架構表 22

表 4-2 「5-gram Markov Chain 方法」的 Language Model N-grams 架構表 24

表 4-3 計算過程(a)1~4 回合(b)5 回合(c)6 回合 28

表 4-4 相同字串比較表 29

表 4-5 部份正答力 F 計算結果比較表 29

表 5-1 詞彙語法題目及答案架構列表 38

表 5-2 測試結果統計表 40

1

1 第一章 緒論

11 研究背景與動機

中國國家漢辦主任孔子學院總部理事長許琳在瀋陽舉行的第十

屆國際漢語教學研討會上表示目前全球學習漢語的人數已超過四千

萬在北京的推動下這個數字還在持續增加當中(MercoPress 2010)

而華語文能力測驗也逐漸成為如TOEIC或TOEFL這種世界標準的語

文能力測驗像是臺灣華語文能力測驗 TOP-Huayu 及 TOCFL中國

「漢語水準考詴 HSK」日本「中國語檢定詴驗」及「TECC」美國

「SATII-Chinese」及「CPT」(張莉萍2007)

中國大陸的 HSK 於 1990 年正式推出(張莉萍2002)並逐步推

廣到全世界台灣的華語文測驗 TOP-Huayu 則在 2005 年才成為正式

的國家級測驗(張莉萍2007)發展較中國大陸晚十五年

拜科技所賜目前我們可以利用電腦輔助完成這種耗時耗力的工

作電腦有機械式出題的優點只要給特定明確的規則就可以產生

大量的題目由於測驗題庫需要持續性的汰舊換新與維護管理(陳柏

熹2010)因此需要大量撰寫新詴題過程繁雜且耗時(余民寧

2010)發展電腦出題可以提升測驗題庫的規模進而提升測驗的水

在電腦輔助語言測驗(Computer-Assisted Language Testing CALT)

領域TOP-Huayu及HSK己有不少研究以Silye和Wiwczaroski(2002)

對 CALT 議題的分類方式電腦輔助華語文測驗可以說己經有相當完

整的研究我們可以在每一類議題都找到對應的研究「Item banking」

電腦測驗題庫管理與分析議題(張國恩陳學志鄭錦全宋曜廷

蔡雅薰周中天2010 鹿士義余嘉元 2003)「Computer-assisted

language testing」電腦呈現語言測驗議題(余坤庭陳劭茹林宗璋

周中天2009)「Computer-adaptive language testing」電腦化適性語

2

言測驗議題(洪豪哲林孟君劉育隆郭伯臣2010 Wang Kuo amp

Chao 2010)「Web-based language testing」線上語言測驗議題(陳懷萱

鄧智生2003)

但是上述的「電腦輔助語言測驗」研究中卻沒有華語文電腦出

題反觀英文電腦出題己有相當數量的研究無論是英語系國家

(Mitkov amp Ha 2003)日本(Goto Kojiri Watanabe Iwata amp Yamada

2010)台灣(Liu Wang amp Gao 2005)等等都有學者發表這一方面的

研究

本研究也訪談具有十年以上研究華語文測驗經驗的專家調查關

於華語文電腦出題的需求截至本研究目前所調查的電腦出題相關研

究及訪談結果尚未發現有研究是針對外籍人士的華語文測驗作電腦

「自動」出題顯示華語文電腦出題還是一門新興的研究領域

然而會有這樣的結果究其根本原因是因為英文是世界上研究

最多且研究歷史最悠久但同樣的研究在中文這樣的語言則是非常

不容易的一來中文的文法研究起步較晚二來早期的研究因為大量

移借西方文法理論而西方的語法理論有絕大部份都是建立在西方語

言的研究發現上因此引進西方文法理論雖然能解決中文文法與西

方文法共同的部份但對其中不同的部分則會因為不合適的語法分析

架構而無法使用(曹逢甫2004)而且華語文能力測驗是一門非常專

業的學問不同的題型有不同的出題策略(柯華葳2004)研究電腦

出題更需謹慎華語文電腦出題涵蓋的領域範圍如圖 1-1

3

圖 1-1 華語文電腦出題領域的涵蓋

12 研究問題

在英文電腦出題研究中英文詞彙語法(Multiple-choice cloze)

電腦出題已有相當廣泛的研究有很多方法值得華語文詞彙語法之電

腦出題借鏡然而用來篩選候選誘答選項的方法因為語言特性的差

別無法直接套用到華語文電腦出題上詞彙語法測驗是以選擇題方

式呈現而一題可用的選擇題必只有一最清楚之最佳答案(郭生玉

2004)若華語文詞彙語法電腦出題產生誘答選項後卻不能判斷候

選誘答選項非最佳答案則產生出來的題目也就不適用故本研究問

題為

「如何檢查華語文詞彙語法電腦出題產生的候選誘答選項非最佳答

案」

13 研究目的

本研究目的為設計一方法來計算華語文詞彙語法之誘答選項的

正答力然後藉由比較候選誘答選項正答力判斷是否比正確答案低

來檢查該候選誘答選項非最佳答案做為華語文電腦出題的基礎本

研究參考計算語言學的 Markov chainKatz Backoff及 Maximum

4

Likelihood Estimation(Jurafsky amp Martin 2009) 來設計本研究

的方法計算誘答選項的正答力本研究以 Google為語言模型的語

料來源利用 Google龐大的語料資源提升計算結果的準確度而

測詴本方法準確度是利用具有客觀公開可信度高的台灣 TOP-Huayu

的詞彙語法題共 100題

14 詞彙語法說明

克漏字 (cloze procedure)首先由 Taylor(1953)提出是用來

估算文章可讀程度的工具之後有研究者將「克漏字」用在測驗英語

母語學習者的閱讀能力同時也有一批研究者應用在測量 ESL的語言

能力後來「克漏字」演變成多種題型「華語文能力測驗」的「詞

彙語法」(Multiple-choice cloze)測驗(華語文能力測驗初等模擬詴

題2003)就是其中一種題型同「漢語水準考詴」HSK 的「語法結

構」第二部分及綜合填空第一部分(第一套 HSK模擬題2005)詞彙

語法測驗可以測出受詴者對中文詞彙及語法的熟練度及運用能力(張

莉萍2002)如圖 1-2在新版的 TOCFL改以「選詞填空」題型取

代「詞彙語法」本研究參考華語文測驗專家所給予的建議以台灣

TOP-Huayu詞彙語法為設計本方法及測詴本方法準確度的標竿做為

未來研究的基礎

弟弟做事很隨便這麼重要的事給他做我真的不能 ___

1 放心

2 擔心

3 關心

4 小心

圖 1-2 詞彙語法題範例其中選項 1是正確答案選項 234是

誘答選項

資料來源華語文能力測驗初等模擬詴題(2003)

5

15 研究限制

本研究有以下限制

1 本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu華

語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK

2 本研究利用Google搜尋全球資訊網的語料取得N-gram count值

由於全球資訊網的語料未經審核當真正用在分析華語文詞彙語法

電腦出題之誘答選項的正答力時可能會受到錯誤語法影響

3 本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取得

Google 網頁搜尋結果時從國內發出 Request 會和從國外發出

Request 所取得的結果數不同另外 Google 搜尋結果也會隨著時

間而改變所以不能保證本研究的評估結果 100重現

4 本研究使用的 Google 搜尋結果數為數據來源而搜尋結果數是網

頁數非精準的詞句數

5 本研究僅針對 Maximum Likelihood EstimationKatz backoff

Bigram Markov Chain5-gram Markov Chain 作研究並只以中

研院平衡語料庫及 Google 為 N-grams count 值的來源並不代表

其它的計算語言學方法不適合或沒有方法可以用來計算本研究中

的正答力

6

2 第二章 相關研究

本章介紹和本研究間接相關的研究議題作為本研究的參考包

含電腦輔助英文詞彙語法出題電腦出題設計原則華語文教學與測

驗探討

21 電腦輔助英文詞彙語法出題之探討

華語文電腦出題為剛起步的研究相關文獻並不多而華語文詞

彙語法之電腦出題研究也幾乎沒有故本研究調查數篇和英文詞彙語

法題之電腦出題的研究做為製作中文測驗之電腦出題的參考

本研究整理數篇電腦輔助英文克漏詞多選題出題研究並參考其

中篩選誘答選項的方法如表 2-1Goto et al(2010)及 Sumita

Sugaya amp Yamamoto(2005)將候選誘答選項和相鄰的二個詞一起放到

Google中搜尋若有結果表示該誘答選項不適用Liu et al(2005)

也是用一樣的方法但是語料來源是本身系統內的語料庫語料量較

少Chen Liouamp Chang(2006)利用文法規則來產生誘答選項挑選

跟答案不同詞性的選項(例如動詞介詞)藉錯誤的詞性來確保

選項是錯誤的

7

表 2-1 電腦輔助英文詞彙語法出題篩選誘答選項(a)方法一(b)方

法二

方法

將候選誘答選項和相鄰的二個詞(或更多)放到

Google 中(Goto et al 2010 Sumita et al 2005)或

一般語料庫(Liu et al 2005)搜尋若有結果表

示該誘答選項不適用

例子 This is the building what we had our first office

解釋

what 是候選誘答選項(正答是 which)用來搜

尋的字串可以是「building what we」也可以是

「the building what we had」但是嚴謹程度不一

樣若有結果表示該誘答選項不適用

(a) 方法一

方法 產生不同詞性規則的誘答選項藉此確保誘答選項

是錯誤選項(Chen et al 2006)

例子

Representative democracy seemed ______ simultaneously

during the eighteenth and nineteenth centuries in Britain

Europe and the United States

(A) to evolve

(B) to evolving

(C) evolving

(D) evolve

解釋 4 個選項的詞性都不同

(b) 方法二

以華語文詞彙語法題的觀點來看方法二較不適合用在本研究

因華語文詞彙題的誘答選項通常是同一種詞性且華語文是孤立語

不像英文有字尾型態變化另外Bensoussan 和 Ramraz(1984)也表示

在設計誘答選項時四個選項中最好都使用同一種詞性例如全部是

動詞避免提示效果故方法二不適合直接用來計算及篩選本研究的

8

誘答選項

本研究也是利用 Google 網頁搜尋為 N-gram count值的來源但

是所用的計算方法和「方法一」不同由於上述學者的方法是應用在

英文詞彙語法出題如果用在本研究的華語文詞彙語法出題上會將

具有誘答力易混肴的一些較好的誘答選項過濾掉所以不適合用在

本研究上

本研究另外參考計算語言學 Markov chain(Jurafsky amp Martin

2009)技術計算誘答選項的正答力確保候選誘答選項非最佳答案

22 電腦出題設計原則

本研究在調查完電腦輔助英文克漏詞多選題出題(Chen et al

2006 Goto et al2010 Sumita et al2005)及其它電腦出題研

究(Yang 2006)後歸納出電腦出題可分為半自動的輔助出題和全自

動的自動出題本研究融合這兩種觀念提出電腦出題研究的原則

輔助出題是電腦提供題目資訊來協助出題者例如電腦產生誘

答選項的清單出題者自行決定可用的選項但是輔助出題是把資料

傾倒出來不確定是否有用有可能會額外增加老師的負擔自動出

題是由電腦決定例如電腦直接產生它覺得可用的三個誘答選項而

過程不需要出題者介入出題者直接套用結果

雖然看起來電腦自動出題是最佳的方式但是實務上幾近不可能

原因如下

1 測驗是一門很深的理論有許多出題規則包含明確及模糊的規

則華語文能力測驗更是如此所以很難將所有規則都具體且明

確化並套用到電腦程式裡

2 出題老師的出題規則往往是用直覺而直覺裡才包含著經驗和知

識所以很難將出題老師的出題規則具體且明確化

3 每位出題老師的出題規則都不同例如有的老師覺得誘答選項

要同一詞性有的覺得要不同詞性因此不可能有一套自動出

9

題系統能滿足所有人的要求所以嚴格來說不可能實現真正符

合需求的電腦自動出題

本研究認為電腦出題應以電腦自動出題為目標但是以電腦輔助

出題的方式呈現本研究建議使用推薦方式能保有兩種出題方式的

優點而本研究所提出的正答力計算方法除了用來過濾電腦自動出

題的候選誘答選項外也可以當作排序的依據呈現候選誘答選項輔

助詴題研發人員選擇最適合的誘答選項

23 華語文測驗與教學探討

3 現今國際上重要的能力考詴皆致力於對應於 CEFR 能力架構

(Council of Europe2001)台灣所研發的華語文能力測驗也是依據

CEFR指標同時也對應了 CEFR的級數到台灣師範大學語言中心的教

材張莉萍陳鳳儀(2008)提出台灣華語文能力測驗的分級方式分

級依據學生來參加考詴的前一個星期所上的教材落點為劃分標準其

劃分方式本研究整理如下

1 基礎級(TOP-beginner)

在台灣師範大學語言中心學習 150小時以上的學生

等於 CEFR所描述的 A2語言能力

能了解大部分與切身相關的句子及常用詞彙例如非常基本之

個人及家族資訊購物當地地理環境工作狀況等針對熟悉

單純例行性的任務能以簡單直接地溝通方式交換訊息能

簡單地敘述出個人背景週遭環境及立即需求

2 進階級(TOP-learner)

讀完新版實用視聽華語系列教材一-四冊(約 530個學時)

等於 CEFR所描述的 B1語言能力

針對一般職場學校休閒等場合常遇到的熟悉事物時在接

10

收到標準且清晰的信息後能瞭解其重點在目標語言地區旅遊

時能應付大部分可能會出現的一般狀況針對熟悉及私人感興

趣之主題能簡單地撰稿能敘述經驗事件夢想希望及志向

對看法及計畫能簡短地解釋理由及做出說明

3 高階級(Top-superior)

讀完新版實用視聽華語系列教材四冊後再讀完遠東生活華語三

第八單元的學生(約 610學時)

能通過百分之六十七 CEFR B2等級的題目

針對具體及抽象主題的複雜文字能瞭解其重點主題涵蓋個人

專業領域的技術討論能即時地以母語作互動有一定的流暢度

且不會讓任一方感到緊張能針對相當多的主題撰寫出一份完整

詳細的文章並可針對所提各議題重點做出優缺點說明

上述教材當初並非依據 CEFR 能力指標規劃完整系列而是針

對教材內容主題做了對應例如有的教材雖然屬於 B2 教材但

不代表學生學完這本教材即具有 B2 能力因為該本教材可能只具備

部分 B2能力或說學生要具備 B2能力原本就不會只讀一本教材現

階段華語文能力測驗關心的是如何幫助學生有效地從 B1 跨越到 B2

並選擇適當的教材或課程規劃

11

3 第三章 研究工具

本章介紹本研究基礎的三項工具由於此三項工具使得本研究的

方法得以實現本章將介紹中研院斷詞系統Google 網頁搜尋

TOP-Huayu詞彙語法

31 中研院斷詞系統

要進行華語文語句分析必須將語句斷詞後才能處理本研究

利用中央研究院中文資訊處理實驗室詞庫小組所發展的中文斷詞系

統 httpckipsvriissinicaedutw將句子斷成數個詞並重新組成

N-grams

在偵測未知詞的部份是利用基於語料庫的方法找出句法規則再

利用此規則來分辨單音節元素然後找出未知詞或錯誤用法(Chen amp

Bai1998)斷詞後的範例

這(Nep) 是(SHI) 一(Neu) 家(Nf) 擁有(VJ) 五百(Neu) 名(Nf) 員工(Na) 的

(DE) 中型(A) 企業(Na) (PERIODCATEGORY)

利用 Hong Kong Cityu(HK)的 closedtrack 及 open track

Beijing University (PK)的 closedtrack 及 open track共 4 種

評估此斷詞系統結果具有相當高的 F scores(Ma amp Chen2003)

如表 3-1及表 3-2其中英文字母代表依序為test recall (R) test

precision (P)F score(F)the out-of-vocabulary (OOV) rate for

the test corpusthe recall on OOV words(Roov)及 the recall on

in-vocabulary(Riv) words

12

表 3-1 Scores for HK

R P F OOV Roov Riv

Closed 0947 0934 0940 0071 0625 0972

Open 0958 0954 0956 0071 0788 0971

資料來源 Ma amp Chen(2003)

表 3-2 Scores for PK

R P F OOV Roov Riv

Closed 0939 0934 0936 0069 0642 0961

Open 0939 0938 0938 0069 0675 0959

資料來源 Ma amp Chen(2003)

圖 3-1 中研院中文斷詞系統網站

資料來源中文斷詞系統 httpckipsvriissinicaedutw

13

中研院中文斷詞系統已經廣泛的被各種領域的學者所使用例如

陳慶龍(2007)利用此斷詞系統製作中文體育知識問答系統Huang

ChiuChuanSandnes(2010)製作一個可以診斷憂鬱症的語言分析器

其中利用中研院中文斷詞系統來擷取關鍵字

32 Google 網頁搜尋

1995 年 Google 的創辦人美國史丹福大學的研究生 Larry Page

以及 Sergey Brin憑藉其資訊工程的專長開發名為 BackRub的搜尋

引擎後來正式更名為 Google其任務在於組織全世界的資訊讓

全球都能使用並有所禆益可說是目前全球最大的搜尋引撆現代人

幾乎只要提到資料搜索都絕對離不開 Google 搜尋正因為它可以在

短時間內找到相當豐富的資料查詢所得的結果遠多於其他搜尋網站

因此已經成為許多人不可或缺的工具(童國倫潘奕萍 2009)故本

研究以 Google為 N-gram count值的來源分析選項正答力

GOOGLE支援多達一百三十二種語言包括簡體中文和繁體中文

並有「頁庫存檔」功能即使網頁檔案被刪除仍然可以查詢到資料

而且可以搜尋的資料類型至少包括以下幾種格式

Adobe Portable Document Format (pdf)

Adobe PostScript (ps)

Lotus 1-2-3 (wk1 wk2 wk3 wk4 wk5 wki wks wku)

Lotus WordPro (lwp)

MacWrite (mw)

Microsoft Excel (xls)

Microsoft PowerPoint (ppt)

Microsoft Word (doc)

Microsoft Works (wks wps wdb)

Microsoft Write (wri)

Rich Text Format (rtf)

Shockwave Flash (swf)

Text (ans txt)

HyperText Markup Language (html)

14

Google 目前已被廣泛應用在各種自然語言處理研究中例如

FigueroaNeumann與 Atkinson (2009)利用 Google來擷取知識作

出基於 Surface Patterns的定義型問題問答系統CaiCuiMiao

Zhao與 Ren(2004)利用 Google Web APIs作出中文自動問答系統

Kilgarriff(2007)描述了使用 Google 這類官方搜尋引擎時會有

的幾個議題本研究整理列出並解釋和本研究的關係

1 官方搜尋引擎不考慮 Lemmatize(如英文同詞幹不同詞性的字)及

Part-Of-Speech tag但是中文沒有 Lemmatize的問題而本研究

設計的方法不使用 Part-Of-Speech tag

2 官方搜尋引擎的搜尋語法有限例如有無提供「萬用字元」及模糊

算子本研究只使用 Google的雙引號「」Query功能表示嚴格

限定只找包含完整 Query字串的網頁

3 官方搜尋引擎有 Query數限制在固定時間內使用者只能發出有限

的 Query而本研究以延長搜尋間隔時間來解決

4 官方搜尋引擎的搜尋結果數是網頁數而非詞句數由於無法下載

所有 hit pages的內容精準統計語句次數故本研究利用網頁數

做為數據來源此為本研究的限制

5 搜尋結果數中可能有重覆的資料例如不同網址有同樣文件內容

此問題雖然會影響結果但是本研究所設計的方法主要是利用最長

可得結果字串的長度為評分依據而搜尋結果數只影響分數中的小

數部份對本研究只佔了小部份的影響

33 TOP-Huayu 詞彙語法

臺灣華語文能力測驗的前身是 2003 年國立臺灣師範大學國語教

學中心華語文教學研究所與心理教育測驗中心三個團隊所共同研發

的「華語文能力測驗」(Chinese Proficiency Test CPT)2005 年

11 月教育部提升這個測驗為國家級的測驗並改為 TOP-Huayu(張莉

萍 2007)2010 年再改版為 TOCFL到 2010 年 11 月份為止臺灣

15

華語文能力測驗的到考人數已達到 11527 人成功取得證書人數更

有 6080 人(國家華語測驗推動工作委員會2009)如表 3-3表示

此測驗在國際上已具有相當的知名度

表 3-3 臺灣華語文能力測驗 2003年 12月到 2010年 11月份累計各

等級到考及獲證人數分佈(基礎測驗從 2007年 11月開始)

到考人數 獲得證書

人數 通過率()

基礎測驗 1729 1324 7662

初等測驗 3572 1620 4543

中等測驗 4184 1719 4114

高等測驗 2042 1345 6587

資料來源國家華語測驗推動工作委員會(2009)

由於地緣關係本研究使用台灣華語文能力測驗且由於新版的

TOCFL「選詞填空」的形式較 TOP-Huayu 詞彙語法複雜本研究參考

專家的建議後以台灣 TOP-Huayu詞彙語法為製作系統及分析準確度

的標竿並做為未來研究的基礎洪小雯(2009)表示「詞彙語法」

的題型儘管較為傳統但其著重測詴語言知識的考量不宜偏廢畢竟

在外語的學習過程中語言知識是決定語言能力的基礎

TOP-Huayu的詞彙分級方法參考自張莉萍陳鳳儀(2006)所訂

定的規則詞彙來源主要參考自台灣師大華語文能力測驗詞彙分級表

張莉萍(2002)(以下簡稱 CPT詞彙表)漢語水平詞彙等級大綱(國

家對外漢語教學領導小組辦公室漢語水平考詴部1992)(以下簡稱

HSK詞彙表)CPT和 HSK的詞彙交集分佈如表 3-4

在華語文能力測驗與歐洲共同架構 CEFR 的對應關係方面藍珮

君(2007)研究基礎華語文能力測驗與 CEFR 對應程度發現測驗等

級介於 CEFR A1 與 A2 之間屬於初級使用者的程度表示該測驗可

16

適當的測出受詴者的能力

表 3-4 CPT vs HSK等級詞彙的交集

HSK cap CPT CPT詞彙表(10155個)

初(1507) 中(3684) 高(4964)

HSK詞彙表

(8767個)

甲(1027) 683 231 17

乙(2003) 330 805 265

丙(2188) 141 486 474

丁(3569) 54 406 632

資料來源張莉萍陳鳳儀(2006)

17

4 第四章 正答力計算方法

本研究提出一個篩選詞彙語法電腦出題的候選誘答選項的方法

在不斷的測詴與改進基於 Markov Chain及 Katz Backoff的概念

並且使用 Google做為 N-gram count值的來源設計了一個方法來計

算詞彙語法題之候選誘答選項的正答力計算正答力的概念如圖 4-1

先計算正確答案正答力如圖 4-2然後計算每個候選誘答選項正答

力如圖 4-3使能和正確答案的正答力比較

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖

圖 4-2 計算正確答案正答力範例

18

圖 4-3 計算並比較正確答案和誘答選項正答力的範例

在實際應用時若該候選誘答選項的正答力大於正確答案表示

該選項為最佳答案則選項不適用如圖 4-3將其過慮掉本章包

含計算正答力之前及之後需處理的「前後置處理」完成本方法之前

所參考的「其它計算正答力方法」然後是本研究最後呈現的「基於

全球資訊網的正答力計算方法」最後是新舊方法的「方法比較」

41 前後置處理

圖 4-4為本方法前後置處理的流程圖虛線圍起來的部份是本研

究的核心方法本節介紹前後置處理包含計算正答力的前置及後續

處理工作

19

圖 4-4 前後置處理流程圖

如圖 4-4「輸入題幹及選項」輸入一題詞彙語法題的題幹及 4

個選項此部份可視為華語文詞彙語法電腦出題系統產生候選誘答選

項後將選項輸入該系統以計算該選項的正答力如下題幹及選項

(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

「將題幹及選項組成句子」將選項和題幹組成一個完整的句子4

個選項則產生 4個句子如下範例

20

我國天然資源不多礦產種類只有煤和石油

我國天然材料不多礦產種類只有煤和石油

我國天然產品不多礦產種類只有煤和石油

我國天然原料不多礦產種類只有煤和石油

「斷詞」將每個句子經由 Internet送到中研院斷詞系統進行斷詞

方便後續分析正答力如下範例句子斷詞後的結果「」表分隔

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

我國 天然 材料 不 多 礦產 種類 只有 煤 和 石油

我國 天然 產品 不 多 礦產 種類 只有 煤 和 石油

我國 天然 原料 不 多 礦產 種類 只有 煤 和 石油

「計算正答力」此模組負責計算每個選項的正答力為本研究

的核心部份計算方法將在下一節詳細介紹

「呈現正答力」輸出該選項的正答力分數結果供電腦出題系

統判斷候選誘答選項非最佳答案或直接供詴題研發人員參考如下

範例

「資源」選項的正答力=17581062

「材料」選項的正答力=5614006

「產品」選項的正答力=7181650

「原料」選項的正答力=5623282

本系統計算出來的是相對正答力不能比較不同題目的相同誘答選項

正答力

42 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法本研究參考了

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 3: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

i

基於全球資訊網的華語文詞彙語法誘答選項正答力計算方法

摘要

全球學習漢語的人數已超過四千萬而這個數字還在持續增加當

中華語文能力測驗也逐漸成為世界知名的語文能力測驗但是台灣

的華語文測驗發展較中國大陸的漢語水平考詴 HSK晚十五年然而

拜科技所賜現今我們可以利用電腦輔助完成這種耗時耗力的工作

華語文電腦出題目前還只是剛起步的研究領域英文詞彙語法

(Multiple-choice cloze)電腦出題有很多方法值得華語文詞彙語法

電腦出題借鏡但用來篩選候選誘答選項的方法卻無法直接套用到

華語文詞彙語法之電腦出題上本研究目的是設計一個方法來計算華

語文詞彙語法之誘答選項的正答力解決篩選候選誘答選項的問題

並以 Google 為 N-gram 的 count 值來源本研究參考 Markov chain

及 Katz Backoff 演算法來設計本研究的方法並以台灣華語文能力

測驗 TOP-Huayu的詞彙語法題 100題評估本方法的準確度

關鍵字詞彙語法電腦輔助語言測驗產生器計算語言學華語文

能力測驗候選誘答選項的正答力華語文選擇克漏字測驗

ii

A Web-based Method for Computing the Correctness of Distractors in Chinese

Multiple Choice Cloze

ABSTRACT

Over 40 million people are learning the Chinese language and interest keeps

growing The Chinese proficiency test becomes progressively a famous language test

in the world The first formal Chinese proficiency test by Taiwan comes fifteen years

after the Hanyu Shuiping Kaoshi (HSK) by China Thanks to computer technology

we can generate the test by a computer easily Computer-assisted Chinese language

testing generator is still a brand new field of research There are many methods from

English multiple-choice cloze generator can be refer to Chinese multiple-choice cloze

generator except the method for filtering unsuitable candidate distractors The purpose

of this study is to design a new method to compute correctness of candidate

distractors This study solves the problem of filtering unsuitable candidate distractors

The N-gram count value of this method is from Google web search The accuracy of

this method is assessed by one hundred Chinese multiple-choice cloze questions of

TOP-Huayu

KEYWORDSChinese multiple-choice cloze computer-assisted language testing

generator computational linguistics Chinese proficiency test correctness of

candidate distractors

iii

誌謝

能完成本篇論文必須感謝很多人的指點及協助在此致上十二

萬分的謝意由於你們無私的幫忙才有這篇論文首先感謝指導教

授楊接期老師在我碩士生涯二年中不斷的悉心教導和幫助才得

以有今天的成果感謝柯華葳教授張莉萍老師李明懿老師提供華

語文相關建議感謝 Steve Wallace老師讓我對研究更了解感謝張

俊盛教授在課程上及口詴時教導我許多計算語言學的知識感謝劉晨

鐘教授在課堂上及口詴時教導我許多研究上的重要知識及觀念感謝

籃玉如教授高照明教授在口詴時提供我許多寶貴意見使本論文更

完備感謝博士班的學長姊逸農Neil琨晃詵婷嘉玲美任

聲毅國樑家榮垣達元棓陳威鑑城宜勳琮凱玫樺

曰東碩士班學長姊東穎宏榮政廷佳芬冠麟哲偉你們

在我研究及生活上都給予許多幫助建議及鼓勵讓我更能融入研究

所的生活我的同學慧卿國鴻貴元感謝你們平時的幫忙弘君

姿詠文璇婉瑜因為你們實驗室才能充滿歡笑學弟妹們昌隆

律廷昱靜冠賢中民俊凱感謝你們在口詴的時候幫了我很多

忙感謝提供我免費課程資源的助教明撰奕均謝謝我們的助理

孟純姐幫我處理各種行政上的繁雜事務感謝我的爸媽提供我經濟

支持讓我有機會取得碩士學位希望我將來能為家族帶來榮耀還

有感謝我的女友菁微在論文及口詴上都幫了我很多忙要感謝的老師

及同學還很多因版面的限制族繁不及備載在此感謝你們的建議

與協助這篇論文中寫的好的部份是因為你們的貢獻在此對上

述的各位致上我內心最誠摯的感激

徐立人 謹誌

國立中央大學 網路學習科技研究所

中華民國一百年七月

iv

目錄

內容

摘要 i

Abstract ii

誌謝 iii

目錄 iv

圖目錄 vi

表目錄 vii

第一章 緒論 1

11 研究背景與動機 1

12 研究問題 3

13 研究目的 3

14 詞彙語法說明 4

15 研究限制 5

第二章 相關研究 6

21 電腦輔助英文詞彙語法出題之探討 6

22 電腦出題設計原則 8

23 華語文測驗與教學探討 9

第三章 研究工具 11

31 中研院斷詞系統 11

32 Google 網頁搜尋 13

33 TOP-Huayu 詞彙語法 14

第四章 正答力計算方法 17

41 前後置處理 18

42 其它計算正答力的方法 20

421 Bigram Markov Chain 方法 21

422 5-gram Markov Chain 方法 23

423 以全球資訊網為語料來源方法 25

43 基於全球資訊網的正答力計算方法 27

431 概念 27

432 計算方法 30

44 方法比較 36

第五章 評估 38

51 Benchmark 38

52 測試結果 39

v

53 分析評估結果 40

531 原因一訊息量不足 42

532 原因二分析方法侷限 49

第六章 結論及未來研究 53

61 結論 53

62 未來研究 55

參考文獻 57

1 中文文獻 57

2 英文文獻 60

附錄 詳細評估資料 63

1 初級詞彙語法 64

2 中級詞彙語法 65

3 高級詞彙語法 66

vi

圖目錄

圖 1-1 華語文電腦出題領域的涵蓋 3

圖 1-2 詞彙語法題範例其中選項 1 是正確答案選項 234 是誘答選項

4

圖 3-1 中研院中文斷詞系統網站 12

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖 17

圖 4-2 計算正確答案正答力範例 17

圖 4-3 計算並比較正確答案和誘答選項正答力的範例 18

圖 4-4 前後置處理流程圖 19

圖 4-5 基於全球資訊網的正答力計算模組 27

圖 5-1 答錯題目分析過程資料呈現說明 42

圖 5-2 初等 TOP-Huayu 測驗詞彙語法第 52 題答錯過程分析 43

圖 5-3 初等 TOP-Huayu 測驗詞彙語法第 54 題答錯過程分析 44

圖 5-4 初等 TOP-Huayu 測驗詞彙語法第 61 題答錯過程分析 45

圖 5-5 高等 TOP-Huayu 測驗詞彙語法第 79 題答錯過程分析 46

圖 5-6 高等 TOP-Huayu 測驗詞彙語法第 68 題答錯過程分析 47

圖 5-7 高等 TOP-Huayu 測驗詞彙語法第 74 題答錯過程分析 48

圖 5-8 初等 TOP-Huayu 測驗詞彙語法第 84 題答錯過程分析 49

圖 5-9 初等 TOP-Huayu 測驗詞彙語法第 86 題答錯過程分析 50

圖 5-10 初等 TOP-Huayu 測驗詞彙語法第 88 題答錯過程分析 51

圖 5-11 中等 TOP-Huayu 測驗詞彙語法第 71 題答錯過程分析 52

圖 6-1 誘答選項產生器 54

vii

表目錄

表 2-1 電腦輔助英文詞彙語法出題篩選誘答選項(a)方法一(b)方法二 7

表 3-1 Scores for HK 12

表 3-2 Scores for PK 12

表 3-3 臺灣華語文能力測驗 2003 年 12 月到 2010 年 11 月份累計各等級到考及

獲證人數分佈(基礎測驗從 2007 年 11 月開始) 15

表 3-4 CPT vs HSK 等級詞彙的交集 16

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams 架構表 22

表 4-2 「5-gram Markov Chain 方法」的 Language Model N-grams 架構表 24

表 4-3 計算過程(a)1~4 回合(b)5 回合(c)6 回合 28

表 4-4 相同字串比較表 29

表 4-5 部份正答力 F 計算結果比較表 29

表 5-1 詞彙語法題目及答案架構列表 38

表 5-2 測試結果統計表 40

1

1 第一章 緒論

11 研究背景與動機

中國國家漢辦主任孔子學院總部理事長許琳在瀋陽舉行的第十

屆國際漢語教學研討會上表示目前全球學習漢語的人數已超過四千

萬在北京的推動下這個數字還在持續增加當中(MercoPress 2010)

而華語文能力測驗也逐漸成為如TOEIC或TOEFL這種世界標準的語

文能力測驗像是臺灣華語文能力測驗 TOP-Huayu 及 TOCFL中國

「漢語水準考詴 HSK」日本「中國語檢定詴驗」及「TECC」美國

「SATII-Chinese」及「CPT」(張莉萍2007)

中國大陸的 HSK 於 1990 年正式推出(張莉萍2002)並逐步推

廣到全世界台灣的華語文測驗 TOP-Huayu 則在 2005 年才成為正式

的國家級測驗(張莉萍2007)發展較中國大陸晚十五年

拜科技所賜目前我們可以利用電腦輔助完成這種耗時耗力的工

作電腦有機械式出題的優點只要給特定明確的規則就可以產生

大量的題目由於測驗題庫需要持續性的汰舊換新與維護管理(陳柏

熹2010)因此需要大量撰寫新詴題過程繁雜且耗時(余民寧

2010)發展電腦出題可以提升測驗題庫的規模進而提升測驗的水

在電腦輔助語言測驗(Computer-Assisted Language Testing CALT)

領域TOP-Huayu及HSK己有不少研究以Silye和Wiwczaroski(2002)

對 CALT 議題的分類方式電腦輔助華語文測驗可以說己經有相當完

整的研究我們可以在每一類議題都找到對應的研究「Item banking」

電腦測驗題庫管理與分析議題(張國恩陳學志鄭錦全宋曜廷

蔡雅薰周中天2010 鹿士義余嘉元 2003)「Computer-assisted

language testing」電腦呈現語言測驗議題(余坤庭陳劭茹林宗璋

周中天2009)「Computer-adaptive language testing」電腦化適性語

2

言測驗議題(洪豪哲林孟君劉育隆郭伯臣2010 Wang Kuo amp

Chao 2010)「Web-based language testing」線上語言測驗議題(陳懷萱

鄧智生2003)

但是上述的「電腦輔助語言測驗」研究中卻沒有華語文電腦出

題反觀英文電腦出題己有相當數量的研究無論是英語系國家

(Mitkov amp Ha 2003)日本(Goto Kojiri Watanabe Iwata amp Yamada

2010)台灣(Liu Wang amp Gao 2005)等等都有學者發表這一方面的

研究

本研究也訪談具有十年以上研究華語文測驗經驗的專家調查關

於華語文電腦出題的需求截至本研究目前所調查的電腦出題相關研

究及訪談結果尚未發現有研究是針對外籍人士的華語文測驗作電腦

「自動」出題顯示華語文電腦出題還是一門新興的研究領域

然而會有這樣的結果究其根本原因是因為英文是世界上研究

最多且研究歷史最悠久但同樣的研究在中文這樣的語言則是非常

不容易的一來中文的文法研究起步較晚二來早期的研究因為大量

移借西方文法理論而西方的語法理論有絕大部份都是建立在西方語

言的研究發現上因此引進西方文法理論雖然能解決中文文法與西

方文法共同的部份但對其中不同的部分則會因為不合適的語法分析

架構而無法使用(曹逢甫2004)而且華語文能力測驗是一門非常專

業的學問不同的題型有不同的出題策略(柯華葳2004)研究電腦

出題更需謹慎華語文電腦出題涵蓋的領域範圍如圖 1-1

3

圖 1-1 華語文電腦出題領域的涵蓋

12 研究問題

在英文電腦出題研究中英文詞彙語法(Multiple-choice cloze)

電腦出題已有相當廣泛的研究有很多方法值得華語文詞彙語法之電

腦出題借鏡然而用來篩選候選誘答選項的方法因為語言特性的差

別無法直接套用到華語文電腦出題上詞彙語法測驗是以選擇題方

式呈現而一題可用的選擇題必只有一最清楚之最佳答案(郭生玉

2004)若華語文詞彙語法電腦出題產生誘答選項後卻不能判斷候

選誘答選項非最佳答案則產生出來的題目也就不適用故本研究問

題為

「如何檢查華語文詞彙語法電腦出題產生的候選誘答選項非最佳答

案」

13 研究目的

本研究目的為設計一方法來計算華語文詞彙語法之誘答選項的

正答力然後藉由比較候選誘答選項正答力判斷是否比正確答案低

來檢查該候選誘答選項非最佳答案做為華語文電腦出題的基礎本

研究參考計算語言學的 Markov chainKatz Backoff及 Maximum

4

Likelihood Estimation(Jurafsky amp Martin 2009) 來設計本研究

的方法計算誘答選項的正答力本研究以 Google為語言模型的語

料來源利用 Google龐大的語料資源提升計算結果的準確度而

測詴本方法準確度是利用具有客觀公開可信度高的台灣 TOP-Huayu

的詞彙語法題共 100題

14 詞彙語法說明

克漏字 (cloze procedure)首先由 Taylor(1953)提出是用來

估算文章可讀程度的工具之後有研究者將「克漏字」用在測驗英語

母語學習者的閱讀能力同時也有一批研究者應用在測量 ESL的語言

能力後來「克漏字」演變成多種題型「華語文能力測驗」的「詞

彙語法」(Multiple-choice cloze)測驗(華語文能力測驗初等模擬詴

題2003)就是其中一種題型同「漢語水準考詴」HSK 的「語法結

構」第二部分及綜合填空第一部分(第一套 HSK模擬題2005)詞彙

語法測驗可以測出受詴者對中文詞彙及語法的熟練度及運用能力(張

莉萍2002)如圖 1-2在新版的 TOCFL改以「選詞填空」題型取

代「詞彙語法」本研究參考華語文測驗專家所給予的建議以台灣

TOP-Huayu詞彙語法為設計本方法及測詴本方法準確度的標竿做為

未來研究的基礎

弟弟做事很隨便這麼重要的事給他做我真的不能 ___

1 放心

2 擔心

3 關心

4 小心

圖 1-2 詞彙語法題範例其中選項 1是正確答案選項 234是

誘答選項

資料來源華語文能力測驗初等模擬詴題(2003)

5

15 研究限制

本研究有以下限制

1 本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu華

語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK

2 本研究利用Google搜尋全球資訊網的語料取得N-gram count值

由於全球資訊網的語料未經審核當真正用在分析華語文詞彙語法

電腦出題之誘答選項的正答力時可能會受到錯誤語法影響

3 本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取得

Google 網頁搜尋結果時從國內發出 Request 會和從國外發出

Request 所取得的結果數不同另外 Google 搜尋結果也會隨著時

間而改變所以不能保證本研究的評估結果 100重現

4 本研究使用的 Google 搜尋結果數為數據來源而搜尋結果數是網

頁數非精準的詞句數

5 本研究僅針對 Maximum Likelihood EstimationKatz backoff

Bigram Markov Chain5-gram Markov Chain 作研究並只以中

研院平衡語料庫及 Google 為 N-grams count 值的來源並不代表

其它的計算語言學方法不適合或沒有方法可以用來計算本研究中

的正答力

6

2 第二章 相關研究

本章介紹和本研究間接相關的研究議題作為本研究的參考包

含電腦輔助英文詞彙語法出題電腦出題設計原則華語文教學與測

驗探討

21 電腦輔助英文詞彙語法出題之探討

華語文電腦出題為剛起步的研究相關文獻並不多而華語文詞

彙語法之電腦出題研究也幾乎沒有故本研究調查數篇和英文詞彙語

法題之電腦出題的研究做為製作中文測驗之電腦出題的參考

本研究整理數篇電腦輔助英文克漏詞多選題出題研究並參考其

中篩選誘答選項的方法如表 2-1Goto et al(2010)及 Sumita

Sugaya amp Yamamoto(2005)將候選誘答選項和相鄰的二個詞一起放到

Google中搜尋若有結果表示該誘答選項不適用Liu et al(2005)

也是用一樣的方法但是語料來源是本身系統內的語料庫語料量較

少Chen Liouamp Chang(2006)利用文法規則來產生誘答選項挑選

跟答案不同詞性的選項(例如動詞介詞)藉錯誤的詞性來確保

選項是錯誤的

7

表 2-1 電腦輔助英文詞彙語法出題篩選誘答選項(a)方法一(b)方

法二

方法

將候選誘答選項和相鄰的二個詞(或更多)放到

Google 中(Goto et al 2010 Sumita et al 2005)或

一般語料庫(Liu et al 2005)搜尋若有結果表

示該誘答選項不適用

例子 This is the building what we had our first office

解釋

what 是候選誘答選項(正答是 which)用來搜

尋的字串可以是「building what we」也可以是

「the building what we had」但是嚴謹程度不一

樣若有結果表示該誘答選項不適用

(a) 方法一

方法 產生不同詞性規則的誘答選項藉此確保誘答選項

是錯誤選項(Chen et al 2006)

例子

Representative democracy seemed ______ simultaneously

during the eighteenth and nineteenth centuries in Britain

Europe and the United States

(A) to evolve

(B) to evolving

(C) evolving

(D) evolve

解釋 4 個選項的詞性都不同

(b) 方法二

以華語文詞彙語法題的觀點來看方法二較不適合用在本研究

因華語文詞彙題的誘答選項通常是同一種詞性且華語文是孤立語

不像英文有字尾型態變化另外Bensoussan 和 Ramraz(1984)也表示

在設計誘答選項時四個選項中最好都使用同一種詞性例如全部是

動詞避免提示效果故方法二不適合直接用來計算及篩選本研究的

8

誘答選項

本研究也是利用 Google 網頁搜尋為 N-gram count值的來源但

是所用的計算方法和「方法一」不同由於上述學者的方法是應用在

英文詞彙語法出題如果用在本研究的華語文詞彙語法出題上會將

具有誘答力易混肴的一些較好的誘答選項過濾掉所以不適合用在

本研究上

本研究另外參考計算語言學 Markov chain(Jurafsky amp Martin

2009)技術計算誘答選項的正答力確保候選誘答選項非最佳答案

22 電腦出題設計原則

本研究在調查完電腦輔助英文克漏詞多選題出題(Chen et al

2006 Goto et al2010 Sumita et al2005)及其它電腦出題研

究(Yang 2006)後歸納出電腦出題可分為半自動的輔助出題和全自

動的自動出題本研究融合這兩種觀念提出電腦出題研究的原則

輔助出題是電腦提供題目資訊來協助出題者例如電腦產生誘

答選項的清單出題者自行決定可用的選項但是輔助出題是把資料

傾倒出來不確定是否有用有可能會額外增加老師的負擔自動出

題是由電腦決定例如電腦直接產生它覺得可用的三個誘答選項而

過程不需要出題者介入出題者直接套用結果

雖然看起來電腦自動出題是最佳的方式但是實務上幾近不可能

原因如下

1 測驗是一門很深的理論有許多出題規則包含明確及模糊的規

則華語文能力測驗更是如此所以很難將所有規則都具體且明

確化並套用到電腦程式裡

2 出題老師的出題規則往往是用直覺而直覺裡才包含著經驗和知

識所以很難將出題老師的出題規則具體且明確化

3 每位出題老師的出題規則都不同例如有的老師覺得誘答選項

要同一詞性有的覺得要不同詞性因此不可能有一套自動出

9

題系統能滿足所有人的要求所以嚴格來說不可能實現真正符

合需求的電腦自動出題

本研究認為電腦出題應以電腦自動出題為目標但是以電腦輔助

出題的方式呈現本研究建議使用推薦方式能保有兩種出題方式的

優點而本研究所提出的正答力計算方法除了用來過濾電腦自動出

題的候選誘答選項外也可以當作排序的依據呈現候選誘答選項輔

助詴題研發人員選擇最適合的誘答選項

23 華語文測驗與教學探討

3 現今國際上重要的能力考詴皆致力於對應於 CEFR 能力架構

(Council of Europe2001)台灣所研發的華語文能力測驗也是依據

CEFR指標同時也對應了 CEFR的級數到台灣師範大學語言中心的教

材張莉萍陳鳳儀(2008)提出台灣華語文能力測驗的分級方式分

級依據學生來參加考詴的前一個星期所上的教材落點為劃分標準其

劃分方式本研究整理如下

1 基礎級(TOP-beginner)

在台灣師範大學語言中心學習 150小時以上的學生

等於 CEFR所描述的 A2語言能力

能了解大部分與切身相關的句子及常用詞彙例如非常基本之

個人及家族資訊購物當地地理環境工作狀況等針對熟悉

單純例行性的任務能以簡單直接地溝通方式交換訊息能

簡單地敘述出個人背景週遭環境及立即需求

2 進階級(TOP-learner)

讀完新版實用視聽華語系列教材一-四冊(約 530個學時)

等於 CEFR所描述的 B1語言能力

針對一般職場學校休閒等場合常遇到的熟悉事物時在接

10

收到標準且清晰的信息後能瞭解其重點在目標語言地區旅遊

時能應付大部分可能會出現的一般狀況針對熟悉及私人感興

趣之主題能簡單地撰稿能敘述經驗事件夢想希望及志向

對看法及計畫能簡短地解釋理由及做出說明

3 高階級(Top-superior)

讀完新版實用視聽華語系列教材四冊後再讀完遠東生活華語三

第八單元的學生(約 610學時)

能通過百分之六十七 CEFR B2等級的題目

針對具體及抽象主題的複雜文字能瞭解其重點主題涵蓋個人

專業領域的技術討論能即時地以母語作互動有一定的流暢度

且不會讓任一方感到緊張能針對相當多的主題撰寫出一份完整

詳細的文章並可針對所提各議題重點做出優缺點說明

上述教材當初並非依據 CEFR 能力指標規劃完整系列而是針

對教材內容主題做了對應例如有的教材雖然屬於 B2 教材但

不代表學生學完這本教材即具有 B2 能力因為該本教材可能只具備

部分 B2能力或說學生要具備 B2能力原本就不會只讀一本教材現

階段華語文能力測驗關心的是如何幫助學生有效地從 B1 跨越到 B2

並選擇適當的教材或課程規劃

11

3 第三章 研究工具

本章介紹本研究基礎的三項工具由於此三項工具使得本研究的

方法得以實現本章將介紹中研院斷詞系統Google 網頁搜尋

TOP-Huayu詞彙語法

31 中研院斷詞系統

要進行華語文語句分析必須將語句斷詞後才能處理本研究

利用中央研究院中文資訊處理實驗室詞庫小組所發展的中文斷詞系

統 httpckipsvriissinicaedutw將句子斷成數個詞並重新組成

N-grams

在偵測未知詞的部份是利用基於語料庫的方法找出句法規則再

利用此規則來分辨單音節元素然後找出未知詞或錯誤用法(Chen amp

Bai1998)斷詞後的範例

這(Nep) 是(SHI) 一(Neu) 家(Nf) 擁有(VJ) 五百(Neu) 名(Nf) 員工(Na) 的

(DE) 中型(A) 企業(Na) (PERIODCATEGORY)

利用 Hong Kong Cityu(HK)的 closedtrack 及 open track

Beijing University (PK)的 closedtrack 及 open track共 4 種

評估此斷詞系統結果具有相當高的 F scores(Ma amp Chen2003)

如表 3-1及表 3-2其中英文字母代表依序為test recall (R) test

precision (P)F score(F)the out-of-vocabulary (OOV) rate for

the test corpusthe recall on OOV words(Roov)及 the recall on

in-vocabulary(Riv) words

12

表 3-1 Scores for HK

R P F OOV Roov Riv

Closed 0947 0934 0940 0071 0625 0972

Open 0958 0954 0956 0071 0788 0971

資料來源 Ma amp Chen(2003)

表 3-2 Scores for PK

R P F OOV Roov Riv

Closed 0939 0934 0936 0069 0642 0961

Open 0939 0938 0938 0069 0675 0959

資料來源 Ma amp Chen(2003)

圖 3-1 中研院中文斷詞系統網站

資料來源中文斷詞系統 httpckipsvriissinicaedutw

13

中研院中文斷詞系統已經廣泛的被各種領域的學者所使用例如

陳慶龍(2007)利用此斷詞系統製作中文體育知識問答系統Huang

ChiuChuanSandnes(2010)製作一個可以診斷憂鬱症的語言分析器

其中利用中研院中文斷詞系統來擷取關鍵字

32 Google 網頁搜尋

1995 年 Google 的創辦人美國史丹福大學的研究生 Larry Page

以及 Sergey Brin憑藉其資訊工程的專長開發名為 BackRub的搜尋

引擎後來正式更名為 Google其任務在於組織全世界的資訊讓

全球都能使用並有所禆益可說是目前全球最大的搜尋引撆現代人

幾乎只要提到資料搜索都絕對離不開 Google 搜尋正因為它可以在

短時間內找到相當豐富的資料查詢所得的結果遠多於其他搜尋網站

因此已經成為許多人不可或缺的工具(童國倫潘奕萍 2009)故本

研究以 Google為 N-gram count值的來源分析選項正答力

GOOGLE支援多達一百三十二種語言包括簡體中文和繁體中文

並有「頁庫存檔」功能即使網頁檔案被刪除仍然可以查詢到資料

而且可以搜尋的資料類型至少包括以下幾種格式

Adobe Portable Document Format (pdf)

Adobe PostScript (ps)

Lotus 1-2-3 (wk1 wk2 wk3 wk4 wk5 wki wks wku)

Lotus WordPro (lwp)

MacWrite (mw)

Microsoft Excel (xls)

Microsoft PowerPoint (ppt)

Microsoft Word (doc)

Microsoft Works (wks wps wdb)

Microsoft Write (wri)

Rich Text Format (rtf)

Shockwave Flash (swf)

Text (ans txt)

HyperText Markup Language (html)

14

Google 目前已被廣泛應用在各種自然語言處理研究中例如

FigueroaNeumann與 Atkinson (2009)利用 Google來擷取知識作

出基於 Surface Patterns的定義型問題問答系統CaiCuiMiao

Zhao與 Ren(2004)利用 Google Web APIs作出中文自動問答系統

Kilgarriff(2007)描述了使用 Google 這類官方搜尋引擎時會有

的幾個議題本研究整理列出並解釋和本研究的關係

1 官方搜尋引擎不考慮 Lemmatize(如英文同詞幹不同詞性的字)及

Part-Of-Speech tag但是中文沒有 Lemmatize的問題而本研究

設計的方法不使用 Part-Of-Speech tag

2 官方搜尋引擎的搜尋語法有限例如有無提供「萬用字元」及模糊

算子本研究只使用 Google的雙引號「」Query功能表示嚴格

限定只找包含完整 Query字串的網頁

3 官方搜尋引擎有 Query數限制在固定時間內使用者只能發出有限

的 Query而本研究以延長搜尋間隔時間來解決

4 官方搜尋引擎的搜尋結果數是網頁數而非詞句數由於無法下載

所有 hit pages的內容精準統計語句次數故本研究利用網頁數

做為數據來源此為本研究的限制

5 搜尋結果數中可能有重覆的資料例如不同網址有同樣文件內容

此問題雖然會影響結果但是本研究所設計的方法主要是利用最長

可得結果字串的長度為評分依據而搜尋結果數只影響分數中的小

數部份對本研究只佔了小部份的影響

33 TOP-Huayu 詞彙語法

臺灣華語文能力測驗的前身是 2003 年國立臺灣師範大學國語教

學中心華語文教學研究所與心理教育測驗中心三個團隊所共同研發

的「華語文能力測驗」(Chinese Proficiency Test CPT)2005 年

11 月教育部提升這個測驗為國家級的測驗並改為 TOP-Huayu(張莉

萍 2007)2010 年再改版為 TOCFL到 2010 年 11 月份為止臺灣

15

華語文能力測驗的到考人數已達到 11527 人成功取得證書人數更

有 6080 人(國家華語測驗推動工作委員會2009)如表 3-3表示

此測驗在國際上已具有相當的知名度

表 3-3 臺灣華語文能力測驗 2003年 12月到 2010年 11月份累計各

等級到考及獲證人數分佈(基礎測驗從 2007年 11月開始)

到考人數 獲得證書

人數 通過率()

基礎測驗 1729 1324 7662

初等測驗 3572 1620 4543

中等測驗 4184 1719 4114

高等測驗 2042 1345 6587

資料來源國家華語測驗推動工作委員會(2009)

由於地緣關係本研究使用台灣華語文能力測驗且由於新版的

TOCFL「選詞填空」的形式較 TOP-Huayu 詞彙語法複雜本研究參考

專家的建議後以台灣 TOP-Huayu詞彙語法為製作系統及分析準確度

的標竿並做為未來研究的基礎洪小雯(2009)表示「詞彙語法」

的題型儘管較為傳統但其著重測詴語言知識的考量不宜偏廢畢竟

在外語的學習過程中語言知識是決定語言能力的基礎

TOP-Huayu的詞彙分級方法參考自張莉萍陳鳳儀(2006)所訂

定的規則詞彙來源主要參考自台灣師大華語文能力測驗詞彙分級表

張莉萍(2002)(以下簡稱 CPT詞彙表)漢語水平詞彙等級大綱(國

家對外漢語教學領導小組辦公室漢語水平考詴部1992)(以下簡稱

HSK詞彙表)CPT和 HSK的詞彙交集分佈如表 3-4

在華語文能力測驗與歐洲共同架構 CEFR 的對應關係方面藍珮

君(2007)研究基礎華語文能力測驗與 CEFR 對應程度發現測驗等

級介於 CEFR A1 與 A2 之間屬於初級使用者的程度表示該測驗可

16

適當的測出受詴者的能力

表 3-4 CPT vs HSK等級詞彙的交集

HSK cap CPT CPT詞彙表(10155個)

初(1507) 中(3684) 高(4964)

HSK詞彙表

(8767個)

甲(1027) 683 231 17

乙(2003) 330 805 265

丙(2188) 141 486 474

丁(3569) 54 406 632

資料來源張莉萍陳鳳儀(2006)

17

4 第四章 正答力計算方法

本研究提出一個篩選詞彙語法電腦出題的候選誘答選項的方法

在不斷的測詴與改進基於 Markov Chain及 Katz Backoff的概念

並且使用 Google做為 N-gram count值的來源設計了一個方法來計

算詞彙語法題之候選誘答選項的正答力計算正答力的概念如圖 4-1

先計算正確答案正答力如圖 4-2然後計算每個候選誘答選項正答

力如圖 4-3使能和正確答案的正答力比較

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖

圖 4-2 計算正確答案正答力範例

18

圖 4-3 計算並比較正確答案和誘答選項正答力的範例

在實際應用時若該候選誘答選項的正答力大於正確答案表示

該選項為最佳答案則選項不適用如圖 4-3將其過慮掉本章包

含計算正答力之前及之後需處理的「前後置處理」完成本方法之前

所參考的「其它計算正答力方法」然後是本研究最後呈現的「基於

全球資訊網的正答力計算方法」最後是新舊方法的「方法比較」

41 前後置處理

圖 4-4為本方法前後置處理的流程圖虛線圍起來的部份是本研

究的核心方法本節介紹前後置處理包含計算正答力的前置及後續

處理工作

19

圖 4-4 前後置處理流程圖

如圖 4-4「輸入題幹及選項」輸入一題詞彙語法題的題幹及 4

個選項此部份可視為華語文詞彙語法電腦出題系統產生候選誘答選

項後將選項輸入該系統以計算該選項的正答力如下題幹及選項

(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

「將題幹及選項組成句子」將選項和題幹組成一個完整的句子4

個選項則產生 4個句子如下範例

20

我國天然資源不多礦產種類只有煤和石油

我國天然材料不多礦產種類只有煤和石油

我國天然產品不多礦產種類只有煤和石油

我國天然原料不多礦產種類只有煤和石油

「斷詞」將每個句子經由 Internet送到中研院斷詞系統進行斷詞

方便後續分析正答力如下範例句子斷詞後的結果「」表分隔

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

我國 天然 材料 不 多 礦產 種類 只有 煤 和 石油

我國 天然 產品 不 多 礦產 種類 只有 煤 和 石油

我國 天然 原料 不 多 礦產 種類 只有 煤 和 石油

「計算正答力」此模組負責計算每個選項的正答力為本研究

的核心部份計算方法將在下一節詳細介紹

「呈現正答力」輸出該選項的正答力分數結果供電腦出題系

統判斷候選誘答選項非最佳答案或直接供詴題研發人員參考如下

範例

「資源」選項的正答力=17581062

「材料」選項的正答力=5614006

「產品」選項的正答力=7181650

「原料」選項的正答力=5623282

本系統計算出來的是相對正答力不能比較不同題目的相同誘答選項

正答力

42 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法本研究參考了

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 4: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

ii

A Web-based Method for Computing the Correctness of Distractors in Chinese

Multiple Choice Cloze

ABSTRACT

Over 40 million people are learning the Chinese language and interest keeps

growing The Chinese proficiency test becomes progressively a famous language test

in the world The first formal Chinese proficiency test by Taiwan comes fifteen years

after the Hanyu Shuiping Kaoshi (HSK) by China Thanks to computer technology

we can generate the test by a computer easily Computer-assisted Chinese language

testing generator is still a brand new field of research There are many methods from

English multiple-choice cloze generator can be refer to Chinese multiple-choice cloze

generator except the method for filtering unsuitable candidate distractors The purpose

of this study is to design a new method to compute correctness of candidate

distractors This study solves the problem of filtering unsuitable candidate distractors

The N-gram count value of this method is from Google web search The accuracy of

this method is assessed by one hundred Chinese multiple-choice cloze questions of

TOP-Huayu

KEYWORDSChinese multiple-choice cloze computer-assisted language testing

generator computational linguistics Chinese proficiency test correctness of

candidate distractors

iii

誌謝

能完成本篇論文必須感謝很多人的指點及協助在此致上十二

萬分的謝意由於你們無私的幫忙才有這篇論文首先感謝指導教

授楊接期老師在我碩士生涯二年中不斷的悉心教導和幫助才得

以有今天的成果感謝柯華葳教授張莉萍老師李明懿老師提供華

語文相關建議感謝 Steve Wallace老師讓我對研究更了解感謝張

俊盛教授在課程上及口詴時教導我許多計算語言學的知識感謝劉晨

鐘教授在課堂上及口詴時教導我許多研究上的重要知識及觀念感謝

籃玉如教授高照明教授在口詴時提供我許多寶貴意見使本論文更

完備感謝博士班的學長姊逸農Neil琨晃詵婷嘉玲美任

聲毅國樑家榮垣達元棓陳威鑑城宜勳琮凱玫樺

曰東碩士班學長姊東穎宏榮政廷佳芬冠麟哲偉你們

在我研究及生活上都給予許多幫助建議及鼓勵讓我更能融入研究

所的生活我的同學慧卿國鴻貴元感謝你們平時的幫忙弘君

姿詠文璇婉瑜因為你們實驗室才能充滿歡笑學弟妹們昌隆

律廷昱靜冠賢中民俊凱感謝你們在口詴的時候幫了我很多

忙感謝提供我免費課程資源的助教明撰奕均謝謝我們的助理

孟純姐幫我處理各種行政上的繁雜事務感謝我的爸媽提供我經濟

支持讓我有機會取得碩士學位希望我將來能為家族帶來榮耀還

有感謝我的女友菁微在論文及口詴上都幫了我很多忙要感謝的老師

及同學還很多因版面的限制族繁不及備載在此感謝你們的建議

與協助這篇論文中寫的好的部份是因為你們的貢獻在此對上

述的各位致上我內心最誠摯的感激

徐立人 謹誌

國立中央大學 網路學習科技研究所

中華民國一百年七月

iv

目錄

內容

摘要 i

Abstract ii

誌謝 iii

目錄 iv

圖目錄 vi

表目錄 vii

第一章 緒論 1

11 研究背景與動機 1

12 研究問題 3

13 研究目的 3

14 詞彙語法說明 4

15 研究限制 5

第二章 相關研究 6

21 電腦輔助英文詞彙語法出題之探討 6

22 電腦出題設計原則 8

23 華語文測驗與教學探討 9

第三章 研究工具 11

31 中研院斷詞系統 11

32 Google 網頁搜尋 13

33 TOP-Huayu 詞彙語法 14

第四章 正答力計算方法 17

41 前後置處理 18

42 其它計算正答力的方法 20

421 Bigram Markov Chain 方法 21

422 5-gram Markov Chain 方法 23

423 以全球資訊網為語料來源方法 25

43 基於全球資訊網的正答力計算方法 27

431 概念 27

432 計算方法 30

44 方法比較 36

第五章 評估 38

51 Benchmark 38

52 測試結果 39

v

53 分析評估結果 40

531 原因一訊息量不足 42

532 原因二分析方法侷限 49

第六章 結論及未來研究 53

61 結論 53

62 未來研究 55

參考文獻 57

1 中文文獻 57

2 英文文獻 60

附錄 詳細評估資料 63

1 初級詞彙語法 64

2 中級詞彙語法 65

3 高級詞彙語法 66

vi

圖目錄

圖 1-1 華語文電腦出題領域的涵蓋 3

圖 1-2 詞彙語法題範例其中選項 1 是正確答案選項 234 是誘答選項

4

圖 3-1 中研院中文斷詞系統網站 12

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖 17

圖 4-2 計算正確答案正答力範例 17

圖 4-3 計算並比較正確答案和誘答選項正答力的範例 18

圖 4-4 前後置處理流程圖 19

圖 4-5 基於全球資訊網的正答力計算模組 27

圖 5-1 答錯題目分析過程資料呈現說明 42

圖 5-2 初等 TOP-Huayu 測驗詞彙語法第 52 題答錯過程分析 43

圖 5-3 初等 TOP-Huayu 測驗詞彙語法第 54 題答錯過程分析 44

圖 5-4 初等 TOP-Huayu 測驗詞彙語法第 61 題答錯過程分析 45

圖 5-5 高等 TOP-Huayu 測驗詞彙語法第 79 題答錯過程分析 46

圖 5-6 高等 TOP-Huayu 測驗詞彙語法第 68 題答錯過程分析 47

圖 5-7 高等 TOP-Huayu 測驗詞彙語法第 74 題答錯過程分析 48

圖 5-8 初等 TOP-Huayu 測驗詞彙語法第 84 題答錯過程分析 49

圖 5-9 初等 TOP-Huayu 測驗詞彙語法第 86 題答錯過程分析 50

圖 5-10 初等 TOP-Huayu 測驗詞彙語法第 88 題答錯過程分析 51

圖 5-11 中等 TOP-Huayu 測驗詞彙語法第 71 題答錯過程分析 52

圖 6-1 誘答選項產生器 54

vii

表目錄

表 2-1 電腦輔助英文詞彙語法出題篩選誘答選項(a)方法一(b)方法二 7

表 3-1 Scores for HK 12

表 3-2 Scores for PK 12

表 3-3 臺灣華語文能力測驗 2003 年 12 月到 2010 年 11 月份累計各等級到考及

獲證人數分佈(基礎測驗從 2007 年 11 月開始) 15

表 3-4 CPT vs HSK 等級詞彙的交集 16

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams 架構表 22

表 4-2 「5-gram Markov Chain 方法」的 Language Model N-grams 架構表 24

表 4-3 計算過程(a)1~4 回合(b)5 回合(c)6 回合 28

表 4-4 相同字串比較表 29

表 4-5 部份正答力 F 計算結果比較表 29

表 5-1 詞彙語法題目及答案架構列表 38

表 5-2 測試結果統計表 40

1

1 第一章 緒論

11 研究背景與動機

中國國家漢辦主任孔子學院總部理事長許琳在瀋陽舉行的第十

屆國際漢語教學研討會上表示目前全球學習漢語的人數已超過四千

萬在北京的推動下這個數字還在持續增加當中(MercoPress 2010)

而華語文能力測驗也逐漸成為如TOEIC或TOEFL這種世界標準的語

文能力測驗像是臺灣華語文能力測驗 TOP-Huayu 及 TOCFL中國

「漢語水準考詴 HSK」日本「中國語檢定詴驗」及「TECC」美國

「SATII-Chinese」及「CPT」(張莉萍2007)

中國大陸的 HSK 於 1990 年正式推出(張莉萍2002)並逐步推

廣到全世界台灣的華語文測驗 TOP-Huayu 則在 2005 年才成為正式

的國家級測驗(張莉萍2007)發展較中國大陸晚十五年

拜科技所賜目前我們可以利用電腦輔助完成這種耗時耗力的工

作電腦有機械式出題的優點只要給特定明確的規則就可以產生

大量的題目由於測驗題庫需要持續性的汰舊換新與維護管理(陳柏

熹2010)因此需要大量撰寫新詴題過程繁雜且耗時(余民寧

2010)發展電腦出題可以提升測驗題庫的規模進而提升測驗的水

在電腦輔助語言測驗(Computer-Assisted Language Testing CALT)

領域TOP-Huayu及HSK己有不少研究以Silye和Wiwczaroski(2002)

對 CALT 議題的分類方式電腦輔助華語文測驗可以說己經有相當完

整的研究我們可以在每一類議題都找到對應的研究「Item banking」

電腦測驗題庫管理與分析議題(張國恩陳學志鄭錦全宋曜廷

蔡雅薰周中天2010 鹿士義余嘉元 2003)「Computer-assisted

language testing」電腦呈現語言測驗議題(余坤庭陳劭茹林宗璋

周中天2009)「Computer-adaptive language testing」電腦化適性語

2

言測驗議題(洪豪哲林孟君劉育隆郭伯臣2010 Wang Kuo amp

Chao 2010)「Web-based language testing」線上語言測驗議題(陳懷萱

鄧智生2003)

但是上述的「電腦輔助語言測驗」研究中卻沒有華語文電腦出

題反觀英文電腦出題己有相當數量的研究無論是英語系國家

(Mitkov amp Ha 2003)日本(Goto Kojiri Watanabe Iwata amp Yamada

2010)台灣(Liu Wang amp Gao 2005)等等都有學者發表這一方面的

研究

本研究也訪談具有十年以上研究華語文測驗經驗的專家調查關

於華語文電腦出題的需求截至本研究目前所調查的電腦出題相關研

究及訪談結果尚未發現有研究是針對外籍人士的華語文測驗作電腦

「自動」出題顯示華語文電腦出題還是一門新興的研究領域

然而會有這樣的結果究其根本原因是因為英文是世界上研究

最多且研究歷史最悠久但同樣的研究在中文這樣的語言則是非常

不容易的一來中文的文法研究起步較晚二來早期的研究因為大量

移借西方文法理論而西方的語法理論有絕大部份都是建立在西方語

言的研究發現上因此引進西方文法理論雖然能解決中文文法與西

方文法共同的部份但對其中不同的部分則會因為不合適的語法分析

架構而無法使用(曹逢甫2004)而且華語文能力測驗是一門非常專

業的學問不同的題型有不同的出題策略(柯華葳2004)研究電腦

出題更需謹慎華語文電腦出題涵蓋的領域範圍如圖 1-1

3

圖 1-1 華語文電腦出題領域的涵蓋

12 研究問題

在英文電腦出題研究中英文詞彙語法(Multiple-choice cloze)

電腦出題已有相當廣泛的研究有很多方法值得華語文詞彙語法之電

腦出題借鏡然而用來篩選候選誘答選項的方法因為語言特性的差

別無法直接套用到華語文電腦出題上詞彙語法測驗是以選擇題方

式呈現而一題可用的選擇題必只有一最清楚之最佳答案(郭生玉

2004)若華語文詞彙語法電腦出題產生誘答選項後卻不能判斷候

選誘答選項非最佳答案則產生出來的題目也就不適用故本研究問

題為

「如何檢查華語文詞彙語法電腦出題產生的候選誘答選項非最佳答

案」

13 研究目的

本研究目的為設計一方法來計算華語文詞彙語法之誘答選項的

正答力然後藉由比較候選誘答選項正答力判斷是否比正確答案低

來檢查該候選誘答選項非最佳答案做為華語文電腦出題的基礎本

研究參考計算語言學的 Markov chainKatz Backoff及 Maximum

4

Likelihood Estimation(Jurafsky amp Martin 2009) 來設計本研究

的方法計算誘答選項的正答力本研究以 Google為語言模型的語

料來源利用 Google龐大的語料資源提升計算結果的準確度而

測詴本方法準確度是利用具有客觀公開可信度高的台灣 TOP-Huayu

的詞彙語法題共 100題

14 詞彙語法說明

克漏字 (cloze procedure)首先由 Taylor(1953)提出是用來

估算文章可讀程度的工具之後有研究者將「克漏字」用在測驗英語

母語學習者的閱讀能力同時也有一批研究者應用在測量 ESL的語言

能力後來「克漏字」演變成多種題型「華語文能力測驗」的「詞

彙語法」(Multiple-choice cloze)測驗(華語文能力測驗初等模擬詴

題2003)就是其中一種題型同「漢語水準考詴」HSK 的「語法結

構」第二部分及綜合填空第一部分(第一套 HSK模擬題2005)詞彙

語法測驗可以測出受詴者對中文詞彙及語法的熟練度及運用能力(張

莉萍2002)如圖 1-2在新版的 TOCFL改以「選詞填空」題型取

代「詞彙語法」本研究參考華語文測驗專家所給予的建議以台灣

TOP-Huayu詞彙語法為設計本方法及測詴本方法準確度的標竿做為

未來研究的基礎

弟弟做事很隨便這麼重要的事給他做我真的不能 ___

1 放心

2 擔心

3 關心

4 小心

圖 1-2 詞彙語法題範例其中選項 1是正確答案選項 234是

誘答選項

資料來源華語文能力測驗初等模擬詴題(2003)

5

15 研究限制

本研究有以下限制

1 本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu華

語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK

2 本研究利用Google搜尋全球資訊網的語料取得N-gram count值

由於全球資訊網的語料未經審核當真正用在分析華語文詞彙語法

電腦出題之誘答選項的正答力時可能會受到錯誤語法影響

3 本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取得

Google 網頁搜尋結果時從國內發出 Request 會和從國外發出

Request 所取得的結果數不同另外 Google 搜尋結果也會隨著時

間而改變所以不能保證本研究的評估結果 100重現

4 本研究使用的 Google 搜尋結果數為數據來源而搜尋結果數是網

頁數非精準的詞句數

5 本研究僅針對 Maximum Likelihood EstimationKatz backoff

Bigram Markov Chain5-gram Markov Chain 作研究並只以中

研院平衡語料庫及 Google 為 N-grams count 值的來源並不代表

其它的計算語言學方法不適合或沒有方法可以用來計算本研究中

的正答力

6

2 第二章 相關研究

本章介紹和本研究間接相關的研究議題作為本研究的參考包

含電腦輔助英文詞彙語法出題電腦出題設計原則華語文教學與測

驗探討

21 電腦輔助英文詞彙語法出題之探討

華語文電腦出題為剛起步的研究相關文獻並不多而華語文詞

彙語法之電腦出題研究也幾乎沒有故本研究調查數篇和英文詞彙語

法題之電腦出題的研究做為製作中文測驗之電腦出題的參考

本研究整理數篇電腦輔助英文克漏詞多選題出題研究並參考其

中篩選誘答選項的方法如表 2-1Goto et al(2010)及 Sumita

Sugaya amp Yamamoto(2005)將候選誘答選項和相鄰的二個詞一起放到

Google中搜尋若有結果表示該誘答選項不適用Liu et al(2005)

也是用一樣的方法但是語料來源是本身系統內的語料庫語料量較

少Chen Liouamp Chang(2006)利用文法規則來產生誘答選項挑選

跟答案不同詞性的選項(例如動詞介詞)藉錯誤的詞性來確保

選項是錯誤的

7

表 2-1 電腦輔助英文詞彙語法出題篩選誘答選項(a)方法一(b)方

法二

方法

將候選誘答選項和相鄰的二個詞(或更多)放到

Google 中(Goto et al 2010 Sumita et al 2005)或

一般語料庫(Liu et al 2005)搜尋若有結果表

示該誘答選項不適用

例子 This is the building what we had our first office

解釋

what 是候選誘答選項(正答是 which)用來搜

尋的字串可以是「building what we」也可以是

「the building what we had」但是嚴謹程度不一

樣若有結果表示該誘答選項不適用

(a) 方法一

方法 產生不同詞性規則的誘答選項藉此確保誘答選項

是錯誤選項(Chen et al 2006)

例子

Representative democracy seemed ______ simultaneously

during the eighteenth and nineteenth centuries in Britain

Europe and the United States

(A) to evolve

(B) to evolving

(C) evolving

(D) evolve

解釋 4 個選項的詞性都不同

(b) 方法二

以華語文詞彙語法題的觀點來看方法二較不適合用在本研究

因華語文詞彙題的誘答選項通常是同一種詞性且華語文是孤立語

不像英文有字尾型態變化另外Bensoussan 和 Ramraz(1984)也表示

在設計誘答選項時四個選項中最好都使用同一種詞性例如全部是

動詞避免提示效果故方法二不適合直接用來計算及篩選本研究的

8

誘答選項

本研究也是利用 Google 網頁搜尋為 N-gram count值的來源但

是所用的計算方法和「方法一」不同由於上述學者的方法是應用在

英文詞彙語法出題如果用在本研究的華語文詞彙語法出題上會將

具有誘答力易混肴的一些較好的誘答選項過濾掉所以不適合用在

本研究上

本研究另外參考計算語言學 Markov chain(Jurafsky amp Martin

2009)技術計算誘答選項的正答力確保候選誘答選項非最佳答案

22 電腦出題設計原則

本研究在調查完電腦輔助英文克漏詞多選題出題(Chen et al

2006 Goto et al2010 Sumita et al2005)及其它電腦出題研

究(Yang 2006)後歸納出電腦出題可分為半自動的輔助出題和全自

動的自動出題本研究融合這兩種觀念提出電腦出題研究的原則

輔助出題是電腦提供題目資訊來協助出題者例如電腦產生誘

答選項的清單出題者自行決定可用的選項但是輔助出題是把資料

傾倒出來不確定是否有用有可能會額外增加老師的負擔自動出

題是由電腦決定例如電腦直接產生它覺得可用的三個誘答選項而

過程不需要出題者介入出題者直接套用結果

雖然看起來電腦自動出題是最佳的方式但是實務上幾近不可能

原因如下

1 測驗是一門很深的理論有許多出題規則包含明確及模糊的規

則華語文能力測驗更是如此所以很難將所有規則都具體且明

確化並套用到電腦程式裡

2 出題老師的出題規則往往是用直覺而直覺裡才包含著經驗和知

識所以很難將出題老師的出題規則具體且明確化

3 每位出題老師的出題規則都不同例如有的老師覺得誘答選項

要同一詞性有的覺得要不同詞性因此不可能有一套自動出

9

題系統能滿足所有人的要求所以嚴格來說不可能實現真正符

合需求的電腦自動出題

本研究認為電腦出題應以電腦自動出題為目標但是以電腦輔助

出題的方式呈現本研究建議使用推薦方式能保有兩種出題方式的

優點而本研究所提出的正答力計算方法除了用來過濾電腦自動出

題的候選誘答選項外也可以當作排序的依據呈現候選誘答選項輔

助詴題研發人員選擇最適合的誘答選項

23 華語文測驗與教學探討

3 現今國際上重要的能力考詴皆致力於對應於 CEFR 能力架構

(Council of Europe2001)台灣所研發的華語文能力測驗也是依據

CEFR指標同時也對應了 CEFR的級數到台灣師範大學語言中心的教

材張莉萍陳鳳儀(2008)提出台灣華語文能力測驗的分級方式分

級依據學生來參加考詴的前一個星期所上的教材落點為劃分標準其

劃分方式本研究整理如下

1 基礎級(TOP-beginner)

在台灣師範大學語言中心學習 150小時以上的學生

等於 CEFR所描述的 A2語言能力

能了解大部分與切身相關的句子及常用詞彙例如非常基本之

個人及家族資訊購物當地地理環境工作狀況等針對熟悉

單純例行性的任務能以簡單直接地溝通方式交換訊息能

簡單地敘述出個人背景週遭環境及立即需求

2 進階級(TOP-learner)

讀完新版實用視聽華語系列教材一-四冊(約 530個學時)

等於 CEFR所描述的 B1語言能力

針對一般職場學校休閒等場合常遇到的熟悉事物時在接

10

收到標準且清晰的信息後能瞭解其重點在目標語言地區旅遊

時能應付大部分可能會出現的一般狀況針對熟悉及私人感興

趣之主題能簡單地撰稿能敘述經驗事件夢想希望及志向

對看法及計畫能簡短地解釋理由及做出說明

3 高階級(Top-superior)

讀完新版實用視聽華語系列教材四冊後再讀完遠東生活華語三

第八單元的學生(約 610學時)

能通過百分之六十七 CEFR B2等級的題目

針對具體及抽象主題的複雜文字能瞭解其重點主題涵蓋個人

專業領域的技術討論能即時地以母語作互動有一定的流暢度

且不會讓任一方感到緊張能針對相當多的主題撰寫出一份完整

詳細的文章並可針對所提各議題重點做出優缺點說明

上述教材當初並非依據 CEFR 能力指標規劃完整系列而是針

對教材內容主題做了對應例如有的教材雖然屬於 B2 教材但

不代表學生學完這本教材即具有 B2 能力因為該本教材可能只具備

部分 B2能力或說學生要具備 B2能力原本就不會只讀一本教材現

階段華語文能力測驗關心的是如何幫助學生有效地從 B1 跨越到 B2

並選擇適當的教材或課程規劃

11

3 第三章 研究工具

本章介紹本研究基礎的三項工具由於此三項工具使得本研究的

方法得以實現本章將介紹中研院斷詞系統Google 網頁搜尋

TOP-Huayu詞彙語法

31 中研院斷詞系統

要進行華語文語句分析必須將語句斷詞後才能處理本研究

利用中央研究院中文資訊處理實驗室詞庫小組所發展的中文斷詞系

統 httpckipsvriissinicaedutw將句子斷成數個詞並重新組成

N-grams

在偵測未知詞的部份是利用基於語料庫的方法找出句法規則再

利用此規則來分辨單音節元素然後找出未知詞或錯誤用法(Chen amp

Bai1998)斷詞後的範例

這(Nep) 是(SHI) 一(Neu) 家(Nf) 擁有(VJ) 五百(Neu) 名(Nf) 員工(Na) 的

(DE) 中型(A) 企業(Na) (PERIODCATEGORY)

利用 Hong Kong Cityu(HK)的 closedtrack 及 open track

Beijing University (PK)的 closedtrack 及 open track共 4 種

評估此斷詞系統結果具有相當高的 F scores(Ma amp Chen2003)

如表 3-1及表 3-2其中英文字母代表依序為test recall (R) test

precision (P)F score(F)the out-of-vocabulary (OOV) rate for

the test corpusthe recall on OOV words(Roov)及 the recall on

in-vocabulary(Riv) words

12

表 3-1 Scores for HK

R P F OOV Roov Riv

Closed 0947 0934 0940 0071 0625 0972

Open 0958 0954 0956 0071 0788 0971

資料來源 Ma amp Chen(2003)

表 3-2 Scores for PK

R P F OOV Roov Riv

Closed 0939 0934 0936 0069 0642 0961

Open 0939 0938 0938 0069 0675 0959

資料來源 Ma amp Chen(2003)

圖 3-1 中研院中文斷詞系統網站

資料來源中文斷詞系統 httpckipsvriissinicaedutw

13

中研院中文斷詞系統已經廣泛的被各種領域的學者所使用例如

陳慶龍(2007)利用此斷詞系統製作中文體育知識問答系統Huang

ChiuChuanSandnes(2010)製作一個可以診斷憂鬱症的語言分析器

其中利用中研院中文斷詞系統來擷取關鍵字

32 Google 網頁搜尋

1995 年 Google 的創辦人美國史丹福大學的研究生 Larry Page

以及 Sergey Brin憑藉其資訊工程的專長開發名為 BackRub的搜尋

引擎後來正式更名為 Google其任務在於組織全世界的資訊讓

全球都能使用並有所禆益可說是目前全球最大的搜尋引撆現代人

幾乎只要提到資料搜索都絕對離不開 Google 搜尋正因為它可以在

短時間內找到相當豐富的資料查詢所得的結果遠多於其他搜尋網站

因此已經成為許多人不可或缺的工具(童國倫潘奕萍 2009)故本

研究以 Google為 N-gram count值的來源分析選項正答力

GOOGLE支援多達一百三十二種語言包括簡體中文和繁體中文

並有「頁庫存檔」功能即使網頁檔案被刪除仍然可以查詢到資料

而且可以搜尋的資料類型至少包括以下幾種格式

Adobe Portable Document Format (pdf)

Adobe PostScript (ps)

Lotus 1-2-3 (wk1 wk2 wk3 wk4 wk5 wki wks wku)

Lotus WordPro (lwp)

MacWrite (mw)

Microsoft Excel (xls)

Microsoft PowerPoint (ppt)

Microsoft Word (doc)

Microsoft Works (wks wps wdb)

Microsoft Write (wri)

Rich Text Format (rtf)

Shockwave Flash (swf)

Text (ans txt)

HyperText Markup Language (html)

14

Google 目前已被廣泛應用在各種自然語言處理研究中例如

FigueroaNeumann與 Atkinson (2009)利用 Google來擷取知識作

出基於 Surface Patterns的定義型問題問答系統CaiCuiMiao

Zhao與 Ren(2004)利用 Google Web APIs作出中文自動問答系統

Kilgarriff(2007)描述了使用 Google 這類官方搜尋引擎時會有

的幾個議題本研究整理列出並解釋和本研究的關係

1 官方搜尋引擎不考慮 Lemmatize(如英文同詞幹不同詞性的字)及

Part-Of-Speech tag但是中文沒有 Lemmatize的問題而本研究

設計的方法不使用 Part-Of-Speech tag

2 官方搜尋引擎的搜尋語法有限例如有無提供「萬用字元」及模糊

算子本研究只使用 Google的雙引號「」Query功能表示嚴格

限定只找包含完整 Query字串的網頁

3 官方搜尋引擎有 Query數限制在固定時間內使用者只能發出有限

的 Query而本研究以延長搜尋間隔時間來解決

4 官方搜尋引擎的搜尋結果數是網頁數而非詞句數由於無法下載

所有 hit pages的內容精準統計語句次數故本研究利用網頁數

做為數據來源此為本研究的限制

5 搜尋結果數中可能有重覆的資料例如不同網址有同樣文件內容

此問題雖然會影響結果但是本研究所設計的方法主要是利用最長

可得結果字串的長度為評分依據而搜尋結果數只影響分數中的小

數部份對本研究只佔了小部份的影響

33 TOP-Huayu 詞彙語法

臺灣華語文能力測驗的前身是 2003 年國立臺灣師範大學國語教

學中心華語文教學研究所與心理教育測驗中心三個團隊所共同研發

的「華語文能力測驗」(Chinese Proficiency Test CPT)2005 年

11 月教育部提升這個測驗為國家級的測驗並改為 TOP-Huayu(張莉

萍 2007)2010 年再改版為 TOCFL到 2010 年 11 月份為止臺灣

15

華語文能力測驗的到考人數已達到 11527 人成功取得證書人數更

有 6080 人(國家華語測驗推動工作委員會2009)如表 3-3表示

此測驗在國際上已具有相當的知名度

表 3-3 臺灣華語文能力測驗 2003年 12月到 2010年 11月份累計各

等級到考及獲證人數分佈(基礎測驗從 2007年 11月開始)

到考人數 獲得證書

人數 通過率()

基礎測驗 1729 1324 7662

初等測驗 3572 1620 4543

中等測驗 4184 1719 4114

高等測驗 2042 1345 6587

資料來源國家華語測驗推動工作委員會(2009)

由於地緣關係本研究使用台灣華語文能力測驗且由於新版的

TOCFL「選詞填空」的形式較 TOP-Huayu 詞彙語法複雜本研究參考

專家的建議後以台灣 TOP-Huayu詞彙語法為製作系統及分析準確度

的標竿並做為未來研究的基礎洪小雯(2009)表示「詞彙語法」

的題型儘管較為傳統但其著重測詴語言知識的考量不宜偏廢畢竟

在外語的學習過程中語言知識是決定語言能力的基礎

TOP-Huayu的詞彙分級方法參考自張莉萍陳鳳儀(2006)所訂

定的規則詞彙來源主要參考自台灣師大華語文能力測驗詞彙分級表

張莉萍(2002)(以下簡稱 CPT詞彙表)漢語水平詞彙等級大綱(國

家對外漢語教學領導小組辦公室漢語水平考詴部1992)(以下簡稱

HSK詞彙表)CPT和 HSK的詞彙交集分佈如表 3-4

在華語文能力測驗與歐洲共同架構 CEFR 的對應關係方面藍珮

君(2007)研究基礎華語文能力測驗與 CEFR 對應程度發現測驗等

級介於 CEFR A1 與 A2 之間屬於初級使用者的程度表示該測驗可

16

適當的測出受詴者的能力

表 3-4 CPT vs HSK等級詞彙的交集

HSK cap CPT CPT詞彙表(10155個)

初(1507) 中(3684) 高(4964)

HSK詞彙表

(8767個)

甲(1027) 683 231 17

乙(2003) 330 805 265

丙(2188) 141 486 474

丁(3569) 54 406 632

資料來源張莉萍陳鳳儀(2006)

17

4 第四章 正答力計算方法

本研究提出一個篩選詞彙語法電腦出題的候選誘答選項的方法

在不斷的測詴與改進基於 Markov Chain及 Katz Backoff的概念

並且使用 Google做為 N-gram count值的來源設計了一個方法來計

算詞彙語法題之候選誘答選項的正答力計算正答力的概念如圖 4-1

先計算正確答案正答力如圖 4-2然後計算每個候選誘答選項正答

力如圖 4-3使能和正確答案的正答力比較

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖

圖 4-2 計算正確答案正答力範例

18

圖 4-3 計算並比較正確答案和誘答選項正答力的範例

在實際應用時若該候選誘答選項的正答力大於正確答案表示

該選項為最佳答案則選項不適用如圖 4-3將其過慮掉本章包

含計算正答力之前及之後需處理的「前後置處理」完成本方法之前

所參考的「其它計算正答力方法」然後是本研究最後呈現的「基於

全球資訊網的正答力計算方法」最後是新舊方法的「方法比較」

41 前後置處理

圖 4-4為本方法前後置處理的流程圖虛線圍起來的部份是本研

究的核心方法本節介紹前後置處理包含計算正答力的前置及後續

處理工作

19

圖 4-4 前後置處理流程圖

如圖 4-4「輸入題幹及選項」輸入一題詞彙語法題的題幹及 4

個選項此部份可視為華語文詞彙語法電腦出題系統產生候選誘答選

項後將選項輸入該系統以計算該選項的正答力如下題幹及選項

(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

「將題幹及選項組成句子」將選項和題幹組成一個完整的句子4

個選項則產生 4個句子如下範例

20

我國天然資源不多礦產種類只有煤和石油

我國天然材料不多礦產種類只有煤和石油

我國天然產品不多礦產種類只有煤和石油

我國天然原料不多礦產種類只有煤和石油

「斷詞」將每個句子經由 Internet送到中研院斷詞系統進行斷詞

方便後續分析正答力如下範例句子斷詞後的結果「」表分隔

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

我國 天然 材料 不 多 礦產 種類 只有 煤 和 石油

我國 天然 產品 不 多 礦產 種類 只有 煤 和 石油

我國 天然 原料 不 多 礦產 種類 只有 煤 和 石油

「計算正答力」此模組負責計算每個選項的正答力為本研究

的核心部份計算方法將在下一節詳細介紹

「呈現正答力」輸出該選項的正答力分數結果供電腦出題系

統判斷候選誘答選項非最佳答案或直接供詴題研發人員參考如下

範例

「資源」選項的正答力=17581062

「材料」選項的正答力=5614006

「產品」選項的正答力=7181650

「原料」選項的正答力=5623282

本系統計算出來的是相對正答力不能比較不同題目的相同誘答選項

正答力

42 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法本研究參考了

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 5: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

iii

誌謝

能完成本篇論文必須感謝很多人的指點及協助在此致上十二

萬分的謝意由於你們無私的幫忙才有這篇論文首先感謝指導教

授楊接期老師在我碩士生涯二年中不斷的悉心教導和幫助才得

以有今天的成果感謝柯華葳教授張莉萍老師李明懿老師提供華

語文相關建議感謝 Steve Wallace老師讓我對研究更了解感謝張

俊盛教授在課程上及口詴時教導我許多計算語言學的知識感謝劉晨

鐘教授在課堂上及口詴時教導我許多研究上的重要知識及觀念感謝

籃玉如教授高照明教授在口詴時提供我許多寶貴意見使本論文更

完備感謝博士班的學長姊逸農Neil琨晃詵婷嘉玲美任

聲毅國樑家榮垣達元棓陳威鑑城宜勳琮凱玫樺

曰東碩士班學長姊東穎宏榮政廷佳芬冠麟哲偉你們

在我研究及生活上都給予許多幫助建議及鼓勵讓我更能融入研究

所的生活我的同學慧卿國鴻貴元感謝你們平時的幫忙弘君

姿詠文璇婉瑜因為你們實驗室才能充滿歡笑學弟妹們昌隆

律廷昱靜冠賢中民俊凱感謝你們在口詴的時候幫了我很多

忙感謝提供我免費課程資源的助教明撰奕均謝謝我們的助理

孟純姐幫我處理各種行政上的繁雜事務感謝我的爸媽提供我經濟

支持讓我有機會取得碩士學位希望我將來能為家族帶來榮耀還

有感謝我的女友菁微在論文及口詴上都幫了我很多忙要感謝的老師

及同學還很多因版面的限制族繁不及備載在此感謝你們的建議

與協助這篇論文中寫的好的部份是因為你們的貢獻在此對上

述的各位致上我內心最誠摯的感激

徐立人 謹誌

國立中央大學 網路學習科技研究所

中華民國一百年七月

iv

目錄

內容

摘要 i

Abstract ii

誌謝 iii

目錄 iv

圖目錄 vi

表目錄 vii

第一章 緒論 1

11 研究背景與動機 1

12 研究問題 3

13 研究目的 3

14 詞彙語法說明 4

15 研究限制 5

第二章 相關研究 6

21 電腦輔助英文詞彙語法出題之探討 6

22 電腦出題設計原則 8

23 華語文測驗與教學探討 9

第三章 研究工具 11

31 中研院斷詞系統 11

32 Google 網頁搜尋 13

33 TOP-Huayu 詞彙語法 14

第四章 正答力計算方法 17

41 前後置處理 18

42 其它計算正答力的方法 20

421 Bigram Markov Chain 方法 21

422 5-gram Markov Chain 方法 23

423 以全球資訊網為語料來源方法 25

43 基於全球資訊網的正答力計算方法 27

431 概念 27

432 計算方法 30

44 方法比較 36

第五章 評估 38

51 Benchmark 38

52 測試結果 39

v

53 分析評估結果 40

531 原因一訊息量不足 42

532 原因二分析方法侷限 49

第六章 結論及未來研究 53

61 結論 53

62 未來研究 55

參考文獻 57

1 中文文獻 57

2 英文文獻 60

附錄 詳細評估資料 63

1 初級詞彙語法 64

2 中級詞彙語法 65

3 高級詞彙語法 66

vi

圖目錄

圖 1-1 華語文電腦出題領域的涵蓋 3

圖 1-2 詞彙語法題範例其中選項 1 是正確答案選項 234 是誘答選項

4

圖 3-1 中研院中文斷詞系統網站 12

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖 17

圖 4-2 計算正確答案正答力範例 17

圖 4-3 計算並比較正確答案和誘答選項正答力的範例 18

圖 4-4 前後置處理流程圖 19

圖 4-5 基於全球資訊網的正答力計算模組 27

圖 5-1 答錯題目分析過程資料呈現說明 42

圖 5-2 初等 TOP-Huayu 測驗詞彙語法第 52 題答錯過程分析 43

圖 5-3 初等 TOP-Huayu 測驗詞彙語法第 54 題答錯過程分析 44

圖 5-4 初等 TOP-Huayu 測驗詞彙語法第 61 題答錯過程分析 45

圖 5-5 高等 TOP-Huayu 測驗詞彙語法第 79 題答錯過程分析 46

圖 5-6 高等 TOP-Huayu 測驗詞彙語法第 68 題答錯過程分析 47

圖 5-7 高等 TOP-Huayu 測驗詞彙語法第 74 題答錯過程分析 48

圖 5-8 初等 TOP-Huayu 測驗詞彙語法第 84 題答錯過程分析 49

圖 5-9 初等 TOP-Huayu 測驗詞彙語法第 86 題答錯過程分析 50

圖 5-10 初等 TOP-Huayu 測驗詞彙語法第 88 題答錯過程分析 51

圖 5-11 中等 TOP-Huayu 測驗詞彙語法第 71 題答錯過程分析 52

圖 6-1 誘答選項產生器 54

vii

表目錄

表 2-1 電腦輔助英文詞彙語法出題篩選誘答選項(a)方法一(b)方法二 7

表 3-1 Scores for HK 12

表 3-2 Scores for PK 12

表 3-3 臺灣華語文能力測驗 2003 年 12 月到 2010 年 11 月份累計各等級到考及

獲證人數分佈(基礎測驗從 2007 年 11 月開始) 15

表 3-4 CPT vs HSK 等級詞彙的交集 16

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams 架構表 22

表 4-2 「5-gram Markov Chain 方法」的 Language Model N-grams 架構表 24

表 4-3 計算過程(a)1~4 回合(b)5 回合(c)6 回合 28

表 4-4 相同字串比較表 29

表 4-5 部份正答力 F 計算結果比較表 29

表 5-1 詞彙語法題目及答案架構列表 38

表 5-2 測試結果統計表 40

1

1 第一章 緒論

11 研究背景與動機

中國國家漢辦主任孔子學院總部理事長許琳在瀋陽舉行的第十

屆國際漢語教學研討會上表示目前全球學習漢語的人數已超過四千

萬在北京的推動下這個數字還在持續增加當中(MercoPress 2010)

而華語文能力測驗也逐漸成為如TOEIC或TOEFL這種世界標準的語

文能力測驗像是臺灣華語文能力測驗 TOP-Huayu 及 TOCFL中國

「漢語水準考詴 HSK」日本「中國語檢定詴驗」及「TECC」美國

「SATII-Chinese」及「CPT」(張莉萍2007)

中國大陸的 HSK 於 1990 年正式推出(張莉萍2002)並逐步推

廣到全世界台灣的華語文測驗 TOP-Huayu 則在 2005 年才成為正式

的國家級測驗(張莉萍2007)發展較中國大陸晚十五年

拜科技所賜目前我們可以利用電腦輔助完成這種耗時耗力的工

作電腦有機械式出題的優點只要給特定明確的規則就可以產生

大量的題目由於測驗題庫需要持續性的汰舊換新與維護管理(陳柏

熹2010)因此需要大量撰寫新詴題過程繁雜且耗時(余民寧

2010)發展電腦出題可以提升測驗題庫的規模進而提升測驗的水

在電腦輔助語言測驗(Computer-Assisted Language Testing CALT)

領域TOP-Huayu及HSK己有不少研究以Silye和Wiwczaroski(2002)

對 CALT 議題的分類方式電腦輔助華語文測驗可以說己經有相當完

整的研究我們可以在每一類議題都找到對應的研究「Item banking」

電腦測驗題庫管理與分析議題(張國恩陳學志鄭錦全宋曜廷

蔡雅薰周中天2010 鹿士義余嘉元 2003)「Computer-assisted

language testing」電腦呈現語言測驗議題(余坤庭陳劭茹林宗璋

周中天2009)「Computer-adaptive language testing」電腦化適性語

2

言測驗議題(洪豪哲林孟君劉育隆郭伯臣2010 Wang Kuo amp

Chao 2010)「Web-based language testing」線上語言測驗議題(陳懷萱

鄧智生2003)

但是上述的「電腦輔助語言測驗」研究中卻沒有華語文電腦出

題反觀英文電腦出題己有相當數量的研究無論是英語系國家

(Mitkov amp Ha 2003)日本(Goto Kojiri Watanabe Iwata amp Yamada

2010)台灣(Liu Wang amp Gao 2005)等等都有學者發表這一方面的

研究

本研究也訪談具有十年以上研究華語文測驗經驗的專家調查關

於華語文電腦出題的需求截至本研究目前所調查的電腦出題相關研

究及訪談結果尚未發現有研究是針對外籍人士的華語文測驗作電腦

「自動」出題顯示華語文電腦出題還是一門新興的研究領域

然而會有這樣的結果究其根本原因是因為英文是世界上研究

最多且研究歷史最悠久但同樣的研究在中文這樣的語言則是非常

不容易的一來中文的文法研究起步較晚二來早期的研究因為大量

移借西方文法理論而西方的語法理論有絕大部份都是建立在西方語

言的研究發現上因此引進西方文法理論雖然能解決中文文法與西

方文法共同的部份但對其中不同的部分則會因為不合適的語法分析

架構而無法使用(曹逢甫2004)而且華語文能力測驗是一門非常專

業的學問不同的題型有不同的出題策略(柯華葳2004)研究電腦

出題更需謹慎華語文電腦出題涵蓋的領域範圍如圖 1-1

3

圖 1-1 華語文電腦出題領域的涵蓋

12 研究問題

在英文電腦出題研究中英文詞彙語法(Multiple-choice cloze)

電腦出題已有相當廣泛的研究有很多方法值得華語文詞彙語法之電

腦出題借鏡然而用來篩選候選誘答選項的方法因為語言特性的差

別無法直接套用到華語文電腦出題上詞彙語法測驗是以選擇題方

式呈現而一題可用的選擇題必只有一最清楚之最佳答案(郭生玉

2004)若華語文詞彙語法電腦出題產生誘答選項後卻不能判斷候

選誘答選項非最佳答案則產生出來的題目也就不適用故本研究問

題為

「如何檢查華語文詞彙語法電腦出題產生的候選誘答選項非最佳答

案」

13 研究目的

本研究目的為設計一方法來計算華語文詞彙語法之誘答選項的

正答力然後藉由比較候選誘答選項正答力判斷是否比正確答案低

來檢查該候選誘答選項非最佳答案做為華語文電腦出題的基礎本

研究參考計算語言學的 Markov chainKatz Backoff及 Maximum

4

Likelihood Estimation(Jurafsky amp Martin 2009) 來設計本研究

的方法計算誘答選項的正答力本研究以 Google為語言模型的語

料來源利用 Google龐大的語料資源提升計算結果的準確度而

測詴本方法準確度是利用具有客觀公開可信度高的台灣 TOP-Huayu

的詞彙語法題共 100題

14 詞彙語法說明

克漏字 (cloze procedure)首先由 Taylor(1953)提出是用來

估算文章可讀程度的工具之後有研究者將「克漏字」用在測驗英語

母語學習者的閱讀能力同時也有一批研究者應用在測量 ESL的語言

能力後來「克漏字」演變成多種題型「華語文能力測驗」的「詞

彙語法」(Multiple-choice cloze)測驗(華語文能力測驗初等模擬詴

題2003)就是其中一種題型同「漢語水準考詴」HSK 的「語法結

構」第二部分及綜合填空第一部分(第一套 HSK模擬題2005)詞彙

語法測驗可以測出受詴者對中文詞彙及語法的熟練度及運用能力(張

莉萍2002)如圖 1-2在新版的 TOCFL改以「選詞填空」題型取

代「詞彙語法」本研究參考華語文測驗專家所給予的建議以台灣

TOP-Huayu詞彙語法為設計本方法及測詴本方法準確度的標竿做為

未來研究的基礎

弟弟做事很隨便這麼重要的事給他做我真的不能 ___

1 放心

2 擔心

3 關心

4 小心

圖 1-2 詞彙語法題範例其中選項 1是正確答案選項 234是

誘答選項

資料來源華語文能力測驗初等模擬詴題(2003)

5

15 研究限制

本研究有以下限制

1 本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu華

語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK

2 本研究利用Google搜尋全球資訊網的語料取得N-gram count值

由於全球資訊網的語料未經審核當真正用在分析華語文詞彙語法

電腦出題之誘答選項的正答力時可能會受到錯誤語法影響

3 本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取得

Google 網頁搜尋結果時從國內發出 Request 會和從國外發出

Request 所取得的結果數不同另外 Google 搜尋結果也會隨著時

間而改變所以不能保證本研究的評估結果 100重現

4 本研究使用的 Google 搜尋結果數為數據來源而搜尋結果數是網

頁數非精準的詞句數

5 本研究僅針對 Maximum Likelihood EstimationKatz backoff

Bigram Markov Chain5-gram Markov Chain 作研究並只以中

研院平衡語料庫及 Google 為 N-grams count 值的來源並不代表

其它的計算語言學方法不適合或沒有方法可以用來計算本研究中

的正答力

6

2 第二章 相關研究

本章介紹和本研究間接相關的研究議題作為本研究的參考包

含電腦輔助英文詞彙語法出題電腦出題設計原則華語文教學與測

驗探討

21 電腦輔助英文詞彙語法出題之探討

華語文電腦出題為剛起步的研究相關文獻並不多而華語文詞

彙語法之電腦出題研究也幾乎沒有故本研究調查數篇和英文詞彙語

法題之電腦出題的研究做為製作中文測驗之電腦出題的參考

本研究整理數篇電腦輔助英文克漏詞多選題出題研究並參考其

中篩選誘答選項的方法如表 2-1Goto et al(2010)及 Sumita

Sugaya amp Yamamoto(2005)將候選誘答選項和相鄰的二個詞一起放到

Google中搜尋若有結果表示該誘答選項不適用Liu et al(2005)

也是用一樣的方法但是語料來源是本身系統內的語料庫語料量較

少Chen Liouamp Chang(2006)利用文法規則來產生誘答選項挑選

跟答案不同詞性的選項(例如動詞介詞)藉錯誤的詞性來確保

選項是錯誤的

7

表 2-1 電腦輔助英文詞彙語法出題篩選誘答選項(a)方法一(b)方

法二

方法

將候選誘答選項和相鄰的二個詞(或更多)放到

Google 中(Goto et al 2010 Sumita et al 2005)或

一般語料庫(Liu et al 2005)搜尋若有結果表

示該誘答選項不適用

例子 This is the building what we had our first office

解釋

what 是候選誘答選項(正答是 which)用來搜

尋的字串可以是「building what we」也可以是

「the building what we had」但是嚴謹程度不一

樣若有結果表示該誘答選項不適用

(a) 方法一

方法 產生不同詞性規則的誘答選項藉此確保誘答選項

是錯誤選項(Chen et al 2006)

例子

Representative democracy seemed ______ simultaneously

during the eighteenth and nineteenth centuries in Britain

Europe and the United States

(A) to evolve

(B) to evolving

(C) evolving

(D) evolve

解釋 4 個選項的詞性都不同

(b) 方法二

以華語文詞彙語法題的觀點來看方法二較不適合用在本研究

因華語文詞彙題的誘答選項通常是同一種詞性且華語文是孤立語

不像英文有字尾型態變化另外Bensoussan 和 Ramraz(1984)也表示

在設計誘答選項時四個選項中最好都使用同一種詞性例如全部是

動詞避免提示效果故方法二不適合直接用來計算及篩選本研究的

8

誘答選項

本研究也是利用 Google 網頁搜尋為 N-gram count值的來源但

是所用的計算方法和「方法一」不同由於上述學者的方法是應用在

英文詞彙語法出題如果用在本研究的華語文詞彙語法出題上會將

具有誘答力易混肴的一些較好的誘答選項過濾掉所以不適合用在

本研究上

本研究另外參考計算語言學 Markov chain(Jurafsky amp Martin

2009)技術計算誘答選項的正答力確保候選誘答選項非最佳答案

22 電腦出題設計原則

本研究在調查完電腦輔助英文克漏詞多選題出題(Chen et al

2006 Goto et al2010 Sumita et al2005)及其它電腦出題研

究(Yang 2006)後歸納出電腦出題可分為半自動的輔助出題和全自

動的自動出題本研究融合這兩種觀念提出電腦出題研究的原則

輔助出題是電腦提供題目資訊來協助出題者例如電腦產生誘

答選項的清單出題者自行決定可用的選項但是輔助出題是把資料

傾倒出來不確定是否有用有可能會額外增加老師的負擔自動出

題是由電腦決定例如電腦直接產生它覺得可用的三個誘答選項而

過程不需要出題者介入出題者直接套用結果

雖然看起來電腦自動出題是最佳的方式但是實務上幾近不可能

原因如下

1 測驗是一門很深的理論有許多出題規則包含明確及模糊的規

則華語文能力測驗更是如此所以很難將所有規則都具體且明

確化並套用到電腦程式裡

2 出題老師的出題規則往往是用直覺而直覺裡才包含著經驗和知

識所以很難將出題老師的出題規則具體且明確化

3 每位出題老師的出題規則都不同例如有的老師覺得誘答選項

要同一詞性有的覺得要不同詞性因此不可能有一套自動出

9

題系統能滿足所有人的要求所以嚴格來說不可能實現真正符

合需求的電腦自動出題

本研究認為電腦出題應以電腦自動出題為目標但是以電腦輔助

出題的方式呈現本研究建議使用推薦方式能保有兩種出題方式的

優點而本研究所提出的正答力計算方法除了用來過濾電腦自動出

題的候選誘答選項外也可以當作排序的依據呈現候選誘答選項輔

助詴題研發人員選擇最適合的誘答選項

23 華語文測驗與教學探討

3 現今國際上重要的能力考詴皆致力於對應於 CEFR 能力架構

(Council of Europe2001)台灣所研發的華語文能力測驗也是依據

CEFR指標同時也對應了 CEFR的級數到台灣師範大學語言中心的教

材張莉萍陳鳳儀(2008)提出台灣華語文能力測驗的分級方式分

級依據學生來參加考詴的前一個星期所上的教材落點為劃分標準其

劃分方式本研究整理如下

1 基礎級(TOP-beginner)

在台灣師範大學語言中心學習 150小時以上的學生

等於 CEFR所描述的 A2語言能力

能了解大部分與切身相關的句子及常用詞彙例如非常基本之

個人及家族資訊購物當地地理環境工作狀況等針對熟悉

單純例行性的任務能以簡單直接地溝通方式交換訊息能

簡單地敘述出個人背景週遭環境及立即需求

2 進階級(TOP-learner)

讀完新版實用視聽華語系列教材一-四冊(約 530個學時)

等於 CEFR所描述的 B1語言能力

針對一般職場學校休閒等場合常遇到的熟悉事物時在接

10

收到標準且清晰的信息後能瞭解其重點在目標語言地區旅遊

時能應付大部分可能會出現的一般狀況針對熟悉及私人感興

趣之主題能簡單地撰稿能敘述經驗事件夢想希望及志向

對看法及計畫能簡短地解釋理由及做出說明

3 高階級(Top-superior)

讀完新版實用視聽華語系列教材四冊後再讀完遠東生活華語三

第八單元的學生(約 610學時)

能通過百分之六十七 CEFR B2等級的題目

針對具體及抽象主題的複雜文字能瞭解其重點主題涵蓋個人

專業領域的技術討論能即時地以母語作互動有一定的流暢度

且不會讓任一方感到緊張能針對相當多的主題撰寫出一份完整

詳細的文章並可針對所提各議題重點做出優缺點說明

上述教材當初並非依據 CEFR 能力指標規劃完整系列而是針

對教材內容主題做了對應例如有的教材雖然屬於 B2 教材但

不代表學生學完這本教材即具有 B2 能力因為該本教材可能只具備

部分 B2能力或說學生要具備 B2能力原本就不會只讀一本教材現

階段華語文能力測驗關心的是如何幫助學生有效地從 B1 跨越到 B2

並選擇適當的教材或課程規劃

11

3 第三章 研究工具

本章介紹本研究基礎的三項工具由於此三項工具使得本研究的

方法得以實現本章將介紹中研院斷詞系統Google 網頁搜尋

TOP-Huayu詞彙語法

31 中研院斷詞系統

要進行華語文語句分析必須將語句斷詞後才能處理本研究

利用中央研究院中文資訊處理實驗室詞庫小組所發展的中文斷詞系

統 httpckipsvriissinicaedutw將句子斷成數個詞並重新組成

N-grams

在偵測未知詞的部份是利用基於語料庫的方法找出句法規則再

利用此規則來分辨單音節元素然後找出未知詞或錯誤用法(Chen amp

Bai1998)斷詞後的範例

這(Nep) 是(SHI) 一(Neu) 家(Nf) 擁有(VJ) 五百(Neu) 名(Nf) 員工(Na) 的

(DE) 中型(A) 企業(Na) (PERIODCATEGORY)

利用 Hong Kong Cityu(HK)的 closedtrack 及 open track

Beijing University (PK)的 closedtrack 及 open track共 4 種

評估此斷詞系統結果具有相當高的 F scores(Ma amp Chen2003)

如表 3-1及表 3-2其中英文字母代表依序為test recall (R) test

precision (P)F score(F)the out-of-vocabulary (OOV) rate for

the test corpusthe recall on OOV words(Roov)及 the recall on

in-vocabulary(Riv) words

12

表 3-1 Scores for HK

R P F OOV Roov Riv

Closed 0947 0934 0940 0071 0625 0972

Open 0958 0954 0956 0071 0788 0971

資料來源 Ma amp Chen(2003)

表 3-2 Scores for PK

R P F OOV Roov Riv

Closed 0939 0934 0936 0069 0642 0961

Open 0939 0938 0938 0069 0675 0959

資料來源 Ma amp Chen(2003)

圖 3-1 中研院中文斷詞系統網站

資料來源中文斷詞系統 httpckipsvriissinicaedutw

13

中研院中文斷詞系統已經廣泛的被各種領域的學者所使用例如

陳慶龍(2007)利用此斷詞系統製作中文體育知識問答系統Huang

ChiuChuanSandnes(2010)製作一個可以診斷憂鬱症的語言分析器

其中利用中研院中文斷詞系統來擷取關鍵字

32 Google 網頁搜尋

1995 年 Google 的創辦人美國史丹福大學的研究生 Larry Page

以及 Sergey Brin憑藉其資訊工程的專長開發名為 BackRub的搜尋

引擎後來正式更名為 Google其任務在於組織全世界的資訊讓

全球都能使用並有所禆益可說是目前全球最大的搜尋引撆現代人

幾乎只要提到資料搜索都絕對離不開 Google 搜尋正因為它可以在

短時間內找到相當豐富的資料查詢所得的結果遠多於其他搜尋網站

因此已經成為許多人不可或缺的工具(童國倫潘奕萍 2009)故本

研究以 Google為 N-gram count值的來源分析選項正答力

GOOGLE支援多達一百三十二種語言包括簡體中文和繁體中文

並有「頁庫存檔」功能即使網頁檔案被刪除仍然可以查詢到資料

而且可以搜尋的資料類型至少包括以下幾種格式

Adobe Portable Document Format (pdf)

Adobe PostScript (ps)

Lotus 1-2-3 (wk1 wk2 wk3 wk4 wk5 wki wks wku)

Lotus WordPro (lwp)

MacWrite (mw)

Microsoft Excel (xls)

Microsoft PowerPoint (ppt)

Microsoft Word (doc)

Microsoft Works (wks wps wdb)

Microsoft Write (wri)

Rich Text Format (rtf)

Shockwave Flash (swf)

Text (ans txt)

HyperText Markup Language (html)

14

Google 目前已被廣泛應用在各種自然語言處理研究中例如

FigueroaNeumann與 Atkinson (2009)利用 Google來擷取知識作

出基於 Surface Patterns的定義型問題問答系統CaiCuiMiao

Zhao與 Ren(2004)利用 Google Web APIs作出中文自動問答系統

Kilgarriff(2007)描述了使用 Google 這類官方搜尋引擎時會有

的幾個議題本研究整理列出並解釋和本研究的關係

1 官方搜尋引擎不考慮 Lemmatize(如英文同詞幹不同詞性的字)及

Part-Of-Speech tag但是中文沒有 Lemmatize的問題而本研究

設計的方法不使用 Part-Of-Speech tag

2 官方搜尋引擎的搜尋語法有限例如有無提供「萬用字元」及模糊

算子本研究只使用 Google的雙引號「」Query功能表示嚴格

限定只找包含完整 Query字串的網頁

3 官方搜尋引擎有 Query數限制在固定時間內使用者只能發出有限

的 Query而本研究以延長搜尋間隔時間來解決

4 官方搜尋引擎的搜尋結果數是網頁數而非詞句數由於無法下載

所有 hit pages的內容精準統計語句次數故本研究利用網頁數

做為數據來源此為本研究的限制

5 搜尋結果數中可能有重覆的資料例如不同網址有同樣文件內容

此問題雖然會影響結果但是本研究所設計的方法主要是利用最長

可得結果字串的長度為評分依據而搜尋結果數只影響分數中的小

數部份對本研究只佔了小部份的影響

33 TOP-Huayu 詞彙語法

臺灣華語文能力測驗的前身是 2003 年國立臺灣師範大學國語教

學中心華語文教學研究所與心理教育測驗中心三個團隊所共同研發

的「華語文能力測驗」(Chinese Proficiency Test CPT)2005 年

11 月教育部提升這個測驗為國家級的測驗並改為 TOP-Huayu(張莉

萍 2007)2010 年再改版為 TOCFL到 2010 年 11 月份為止臺灣

15

華語文能力測驗的到考人數已達到 11527 人成功取得證書人數更

有 6080 人(國家華語測驗推動工作委員會2009)如表 3-3表示

此測驗在國際上已具有相當的知名度

表 3-3 臺灣華語文能力測驗 2003年 12月到 2010年 11月份累計各

等級到考及獲證人數分佈(基礎測驗從 2007年 11月開始)

到考人數 獲得證書

人數 通過率()

基礎測驗 1729 1324 7662

初等測驗 3572 1620 4543

中等測驗 4184 1719 4114

高等測驗 2042 1345 6587

資料來源國家華語測驗推動工作委員會(2009)

由於地緣關係本研究使用台灣華語文能力測驗且由於新版的

TOCFL「選詞填空」的形式較 TOP-Huayu 詞彙語法複雜本研究參考

專家的建議後以台灣 TOP-Huayu詞彙語法為製作系統及分析準確度

的標竿並做為未來研究的基礎洪小雯(2009)表示「詞彙語法」

的題型儘管較為傳統但其著重測詴語言知識的考量不宜偏廢畢竟

在外語的學習過程中語言知識是決定語言能力的基礎

TOP-Huayu的詞彙分級方法參考自張莉萍陳鳳儀(2006)所訂

定的規則詞彙來源主要參考自台灣師大華語文能力測驗詞彙分級表

張莉萍(2002)(以下簡稱 CPT詞彙表)漢語水平詞彙等級大綱(國

家對外漢語教學領導小組辦公室漢語水平考詴部1992)(以下簡稱

HSK詞彙表)CPT和 HSK的詞彙交集分佈如表 3-4

在華語文能力測驗與歐洲共同架構 CEFR 的對應關係方面藍珮

君(2007)研究基礎華語文能力測驗與 CEFR 對應程度發現測驗等

級介於 CEFR A1 與 A2 之間屬於初級使用者的程度表示該測驗可

16

適當的測出受詴者的能力

表 3-4 CPT vs HSK等級詞彙的交集

HSK cap CPT CPT詞彙表(10155個)

初(1507) 中(3684) 高(4964)

HSK詞彙表

(8767個)

甲(1027) 683 231 17

乙(2003) 330 805 265

丙(2188) 141 486 474

丁(3569) 54 406 632

資料來源張莉萍陳鳳儀(2006)

17

4 第四章 正答力計算方法

本研究提出一個篩選詞彙語法電腦出題的候選誘答選項的方法

在不斷的測詴與改進基於 Markov Chain及 Katz Backoff的概念

並且使用 Google做為 N-gram count值的來源設計了一個方法來計

算詞彙語法題之候選誘答選項的正答力計算正答力的概念如圖 4-1

先計算正確答案正答力如圖 4-2然後計算每個候選誘答選項正答

力如圖 4-3使能和正確答案的正答力比較

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖

圖 4-2 計算正確答案正答力範例

18

圖 4-3 計算並比較正確答案和誘答選項正答力的範例

在實際應用時若該候選誘答選項的正答力大於正確答案表示

該選項為最佳答案則選項不適用如圖 4-3將其過慮掉本章包

含計算正答力之前及之後需處理的「前後置處理」完成本方法之前

所參考的「其它計算正答力方法」然後是本研究最後呈現的「基於

全球資訊網的正答力計算方法」最後是新舊方法的「方法比較」

41 前後置處理

圖 4-4為本方法前後置處理的流程圖虛線圍起來的部份是本研

究的核心方法本節介紹前後置處理包含計算正答力的前置及後續

處理工作

19

圖 4-4 前後置處理流程圖

如圖 4-4「輸入題幹及選項」輸入一題詞彙語法題的題幹及 4

個選項此部份可視為華語文詞彙語法電腦出題系統產生候選誘答選

項後將選項輸入該系統以計算該選項的正答力如下題幹及選項

(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

「將題幹及選項組成句子」將選項和題幹組成一個完整的句子4

個選項則產生 4個句子如下範例

20

我國天然資源不多礦產種類只有煤和石油

我國天然材料不多礦產種類只有煤和石油

我國天然產品不多礦產種類只有煤和石油

我國天然原料不多礦產種類只有煤和石油

「斷詞」將每個句子經由 Internet送到中研院斷詞系統進行斷詞

方便後續分析正答力如下範例句子斷詞後的結果「」表分隔

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

我國 天然 材料 不 多 礦產 種類 只有 煤 和 石油

我國 天然 產品 不 多 礦產 種類 只有 煤 和 石油

我國 天然 原料 不 多 礦產 種類 只有 煤 和 石油

「計算正答力」此模組負責計算每個選項的正答力為本研究

的核心部份計算方法將在下一節詳細介紹

「呈現正答力」輸出該選項的正答力分數結果供電腦出題系

統判斷候選誘答選項非最佳答案或直接供詴題研發人員參考如下

範例

「資源」選項的正答力=17581062

「材料」選項的正答力=5614006

「產品」選項的正答力=7181650

「原料」選項的正答力=5623282

本系統計算出來的是相對正答力不能比較不同題目的相同誘答選項

正答力

42 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法本研究參考了

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 6: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

iv

目錄

內容

摘要 i

Abstract ii

誌謝 iii

目錄 iv

圖目錄 vi

表目錄 vii

第一章 緒論 1

11 研究背景與動機 1

12 研究問題 3

13 研究目的 3

14 詞彙語法說明 4

15 研究限制 5

第二章 相關研究 6

21 電腦輔助英文詞彙語法出題之探討 6

22 電腦出題設計原則 8

23 華語文測驗與教學探討 9

第三章 研究工具 11

31 中研院斷詞系統 11

32 Google 網頁搜尋 13

33 TOP-Huayu 詞彙語法 14

第四章 正答力計算方法 17

41 前後置處理 18

42 其它計算正答力的方法 20

421 Bigram Markov Chain 方法 21

422 5-gram Markov Chain 方法 23

423 以全球資訊網為語料來源方法 25

43 基於全球資訊網的正答力計算方法 27

431 概念 27

432 計算方法 30

44 方法比較 36

第五章 評估 38

51 Benchmark 38

52 測試結果 39

v

53 分析評估結果 40

531 原因一訊息量不足 42

532 原因二分析方法侷限 49

第六章 結論及未來研究 53

61 結論 53

62 未來研究 55

參考文獻 57

1 中文文獻 57

2 英文文獻 60

附錄 詳細評估資料 63

1 初級詞彙語法 64

2 中級詞彙語法 65

3 高級詞彙語法 66

vi

圖目錄

圖 1-1 華語文電腦出題領域的涵蓋 3

圖 1-2 詞彙語法題範例其中選項 1 是正確答案選項 234 是誘答選項

4

圖 3-1 中研院中文斷詞系統網站 12

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖 17

圖 4-2 計算正確答案正答力範例 17

圖 4-3 計算並比較正確答案和誘答選項正答力的範例 18

圖 4-4 前後置處理流程圖 19

圖 4-5 基於全球資訊網的正答力計算模組 27

圖 5-1 答錯題目分析過程資料呈現說明 42

圖 5-2 初等 TOP-Huayu 測驗詞彙語法第 52 題答錯過程分析 43

圖 5-3 初等 TOP-Huayu 測驗詞彙語法第 54 題答錯過程分析 44

圖 5-4 初等 TOP-Huayu 測驗詞彙語法第 61 題答錯過程分析 45

圖 5-5 高等 TOP-Huayu 測驗詞彙語法第 79 題答錯過程分析 46

圖 5-6 高等 TOP-Huayu 測驗詞彙語法第 68 題答錯過程分析 47

圖 5-7 高等 TOP-Huayu 測驗詞彙語法第 74 題答錯過程分析 48

圖 5-8 初等 TOP-Huayu 測驗詞彙語法第 84 題答錯過程分析 49

圖 5-9 初等 TOP-Huayu 測驗詞彙語法第 86 題答錯過程分析 50

圖 5-10 初等 TOP-Huayu 測驗詞彙語法第 88 題答錯過程分析 51

圖 5-11 中等 TOP-Huayu 測驗詞彙語法第 71 題答錯過程分析 52

圖 6-1 誘答選項產生器 54

vii

表目錄

表 2-1 電腦輔助英文詞彙語法出題篩選誘答選項(a)方法一(b)方法二 7

表 3-1 Scores for HK 12

表 3-2 Scores for PK 12

表 3-3 臺灣華語文能力測驗 2003 年 12 月到 2010 年 11 月份累計各等級到考及

獲證人數分佈(基礎測驗從 2007 年 11 月開始) 15

表 3-4 CPT vs HSK 等級詞彙的交集 16

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams 架構表 22

表 4-2 「5-gram Markov Chain 方法」的 Language Model N-grams 架構表 24

表 4-3 計算過程(a)1~4 回合(b)5 回合(c)6 回合 28

表 4-4 相同字串比較表 29

表 4-5 部份正答力 F 計算結果比較表 29

表 5-1 詞彙語法題目及答案架構列表 38

表 5-2 測試結果統計表 40

1

1 第一章 緒論

11 研究背景與動機

中國國家漢辦主任孔子學院總部理事長許琳在瀋陽舉行的第十

屆國際漢語教學研討會上表示目前全球學習漢語的人數已超過四千

萬在北京的推動下這個數字還在持續增加當中(MercoPress 2010)

而華語文能力測驗也逐漸成為如TOEIC或TOEFL這種世界標準的語

文能力測驗像是臺灣華語文能力測驗 TOP-Huayu 及 TOCFL中國

「漢語水準考詴 HSK」日本「中國語檢定詴驗」及「TECC」美國

「SATII-Chinese」及「CPT」(張莉萍2007)

中國大陸的 HSK 於 1990 年正式推出(張莉萍2002)並逐步推

廣到全世界台灣的華語文測驗 TOP-Huayu 則在 2005 年才成為正式

的國家級測驗(張莉萍2007)發展較中國大陸晚十五年

拜科技所賜目前我們可以利用電腦輔助完成這種耗時耗力的工

作電腦有機械式出題的優點只要給特定明確的規則就可以產生

大量的題目由於測驗題庫需要持續性的汰舊換新與維護管理(陳柏

熹2010)因此需要大量撰寫新詴題過程繁雜且耗時(余民寧

2010)發展電腦出題可以提升測驗題庫的規模進而提升測驗的水

在電腦輔助語言測驗(Computer-Assisted Language Testing CALT)

領域TOP-Huayu及HSK己有不少研究以Silye和Wiwczaroski(2002)

對 CALT 議題的分類方式電腦輔助華語文測驗可以說己經有相當完

整的研究我們可以在每一類議題都找到對應的研究「Item banking」

電腦測驗題庫管理與分析議題(張國恩陳學志鄭錦全宋曜廷

蔡雅薰周中天2010 鹿士義余嘉元 2003)「Computer-assisted

language testing」電腦呈現語言測驗議題(余坤庭陳劭茹林宗璋

周中天2009)「Computer-adaptive language testing」電腦化適性語

2

言測驗議題(洪豪哲林孟君劉育隆郭伯臣2010 Wang Kuo amp

Chao 2010)「Web-based language testing」線上語言測驗議題(陳懷萱

鄧智生2003)

但是上述的「電腦輔助語言測驗」研究中卻沒有華語文電腦出

題反觀英文電腦出題己有相當數量的研究無論是英語系國家

(Mitkov amp Ha 2003)日本(Goto Kojiri Watanabe Iwata amp Yamada

2010)台灣(Liu Wang amp Gao 2005)等等都有學者發表這一方面的

研究

本研究也訪談具有十年以上研究華語文測驗經驗的專家調查關

於華語文電腦出題的需求截至本研究目前所調查的電腦出題相關研

究及訪談結果尚未發現有研究是針對外籍人士的華語文測驗作電腦

「自動」出題顯示華語文電腦出題還是一門新興的研究領域

然而會有這樣的結果究其根本原因是因為英文是世界上研究

最多且研究歷史最悠久但同樣的研究在中文這樣的語言則是非常

不容易的一來中文的文法研究起步較晚二來早期的研究因為大量

移借西方文法理論而西方的語法理論有絕大部份都是建立在西方語

言的研究發現上因此引進西方文法理論雖然能解決中文文法與西

方文法共同的部份但對其中不同的部分則會因為不合適的語法分析

架構而無法使用(曹逢甫2004)而且華語文能力測驗是一門非常專

業的學問不同的題型有不同的出題策略(柯華葳2004)研究電腦

出題更需謹慎華語文電腦出題涵蓋的領域範圍如圖 1-1

3

圖 1-1 華語文電腦出題領域的涵蓋

12 研究問題

在英文電腦出題研究中英文詞彙語法(Multiple-choice cloze)

電腦出題已有相當廣泛的研究有很多方法值得華語文詞彙語法之電

腦出題借鏡然而用來篩選候選誘答選項的方法因為語言特性的差

別無法直接套用到華語文電腦出題上詞彙語法測驗是以選擇題方

式呈現而一題可用的選擇題必只有一最清楚之最佳答案(郭生玉

2004)若華語文詞彙語法電腦出題產生誘答選項後卻不能判斷候

選誘答選項非最佳答案則產生出來的題目也就不適用故本研究問

題為

「如何檢查華語文詞彙語法電腦出題產生的候選誘答選項非最佳答

案」

13 研究目的

本研究目的為設計一方法來計算華語文詞彙語法之誘答選項的

正答力然後藉由比較候選誘答選項正答力判斷是否比正確答案低

來檢查該候選誘答選項非最佳答案做為華語文電腦出題的基礎本

研究參考計算語言學的 Markov chainKatz Backoff及 Maximum

4

Likelihood Estimation(Jurafsky amp Martin 2009) 來設計本研究

的方法計算誘答選項的正答力本研究以 Google為語言模型的語

料來源利用 Google龐大的語料資源提升計算結果的準確度而

測詴本方法準確度是利用具有客觀公開可信度高的台灣 TOP-Huayu

的詞彙語法題共 100題

14 詞彙語法說明

克漏字 (cloze procedure)首先由 Taylor(1953)提出是用來

估算文章可讀程度的工具之後有研究者將「克漏字」用在測驗英語

母語學習者的閱讀能力同時也有一批研究者應用在測量 ESL的語言

能力後來「克漏字」演變成多種題型「華語文能力測驗」的「詞

彙語法」(Multiple-choice cloze)測驗(華語文能力測驗初等模擬詴

題2003)就是其中一種題型同「漢語水準考詴」HSK 的「語法結

構」第二部分及綜合填空第一部分(第一套 HSK模擬題2005)詞彙

語法測驗可以測出受詴者對中文詞彙及語法的熟練度及運用能力(張

莉萍2002)如圖 1-2在新版的 TOCFL改以「選詞填空」題型取

代「詞彙語法」本研究參考華語文測驗專家所給予的建議以台灣

TOP-Huayu詞彙語法為設計本方法及測詴本方法準確度的標竿做為

未來研究的基礎

弟弟做事很隨便這麼重要的事給他做我真的不能 ___

1 放心

2 擔心

3 關心

4 小心

圖 1-2 詞彙語法題範例其中選項 1是正確答案選項 234是

誘答選項

資料來源華語文能力測驗初等模擬詴題(2003)

5

15 研究限制

本研究有以下限制

1 本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu華

語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK

2 本研究利用Google搜尋全球資訊網的語料取得N-gram count值

由於全球資訊網的語料未經審核當真正用在分析華語文詞彙語法

電腦出題之誘答選項的正答力時可能會受到錯誤語法影響

3 本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取得

Google 網頁搜尋結果時從國內發出 Request 會和從國外發出

Request 所取得的結果數不同另外 Google 搜尋結果也會隨著時

間而改變所以不能保證本研究的評估結果 100重現

4 本研究使用的 Google 搜尋結果數為數據來源而搜尋結果數是網

頁數非精準的詞句數

5 本研究僅針對 Maximum Likelihood EstimationKatz backoff

Bigram Markov Chain5-gram Markov Chain 作研究並只以中

研院平衡語料庫及 Google 為 N-grams count 值的來源並不代表

其它的計算語言學方法不適合或沒有方法可以用來計算本研究中

的正答力

6

2 第二章 相關研究

本章介紹和本研究間接相關的研究議題作為本研究的參考包

含電腦輔助英文詞彙語法出題電腦出題設計原則華語文教學與測

驗探討

21 電腦輔助英文詞彙語法出題之探討

華語文電腦出題為剛起步的研究相關文獻並不多而華語文詞

彙語法之電腦出題研究也幾乎沒有故本研究調查數篇和英文詞彙語

法題之電腦出題的研究做為製作中文測驗之電腦出題的參考

本研究整理數篇電腦輔助英文克漏詞多選題出題研究並參考其

中篩選誘答選項的方法如表 2-1Goto et al(2010)及 Sumita

Sugaya amp Yamamoto(2005)將候選誘答選項和相鄰的二個詞一起放到

Google中搜尋若有結果表示該誘答選項不適用Liu et al(2005)

也是用一樣的方法但是語料來源是本身系統內的語料庫語料量較

少Chen Liouamp Chang(2006)利用文法規則來產生誘答選項挑選

跟答案不同詞性的選項(例如動詞介詞)藉錯誤的詞性來確保

選項是錯誤的

7

表 2-1 電腦輔助英文詞彙語法出題篩選誘答選項(a)方法一(b)方

法二

方法

將候選誘答選項和相鄰的二個詞(或更多)放到

Google 中(Goto et al 2010 Sumita et al 2005)或

一般語料庫(Liu et al 2005)搜尋若有結果表

示該誘答選項不適用

例子 This is the building what we had our first office

解釋

what 是候選誘答選項(正答是 which)用來搜

尋的字串可以是「building what we」也可以是

「the building what we had」但是嚴謹程度不一

樣若有結果表示該誘答選項不適用

(a) 方法一

方法 產生不同詞性規則的誘答選項藉此確保誘答選項

是錯誤選項(Chen et al 2006)

例子

Representative democracy seemed ______ simultaneously

during the eighteenth and nineteenth centuries in Britain

Europe and the United States

(A) to evolve

(B) to evolving

(C) evolving

(D) evolve

解釋 4 個選項的詞性都不同

(b) 方法二

以華語文詞彙語法題的觀點來看方法二較不適合用在本研究

因華語文詞彙題的誘答選項通常是同一種詞性且華語文是孤立語

不像英文有字尾型態變化另外Bensoussan 和 Ramraz(1984)也表示

在設計誘答選項時四個選項中最好都使用同一種詞性例如全部是

動詞避免提示效果故方法二不適合直接用來計算及篩選本研究的

8

誘答選項

本研究也是利用 Google 網頁搜尋為 N-gram count值的來源但

是所用的計算方法和「方法一」不同由於上述學者的方法是應用在

英文詞彙語法出題如果用在本研究的華語文詞彙語法出題上會將

具有誘答力易混肴的一些較好的誘答選項過濾掉所以不適合用在

本研究上

本研究另外參考計算語言學 Markov chain(Jurafsky amp Martin

2009)技術計算誘答選項的正答力確保候選誘答選項非最佳答案

22 電腦出題設計原則

本研究在調查完電腦輔助英文克漏詞多選題出題(Chen et al

2006 Goto et al2010 Sumita et al2005)及其它電腦出題研

究(Yang 2006)後歸納出電腦出題可分為半自動的輔助出題和全自

動的自動出題本研究融合這兩種觀念提出電腦出題研究的原則

輔助出題是電腦提供題目資訊來協助出題者例如電腦產生誘

答選項的清單出題者自行決定可用的選項但是輔助出題是把資料

傾倒出來不確定是否有用有可能會額外增加老師的負擔自動出

題是由電腦決定例如電腦直接產生它覺得可用的三個誘答選項而

過程不需要出題者介入出題者直接套用結果

雖然看起來電腦自動出題是最佳的方式但是實務上幾近不可能

原因如下

1 測驗是一門很深的理論有許多出題規則包含明確及模糊的規

則華語文能力測驗更是如此所以很難將所有規則都具體且明

確化並套用到電腦程式裡

2 出題老師的出題規則往往是用直覺而直覺裡才包含著經驗和知

識所以很難將出題老師的出題規則具體且明確化

3 每位出題老師的出題規則都不同例如有的老師覺得誘答選項

要同一詞性有的覺得要不同詞性因此不可能有一套自動出

9

題系統能滿足所有人的要求所以嚴格來說不可能實現真正符

合需求的電腦自動出題

本研究認為電腦出題應以電腦自動出題為目標但是以電腦輔助

出題的方式呈現本研究建議使用推薦方式能保有兩種出題方式的

優點而本研究所提出的正答力計算方法除了用來過濾電腦自動出

題的候選誘答選項外也可以當作排序的依據呈現候選誘答選項輔

助詴題研發人員選擇最適合的誘答選項

23 華語文測驗與教學探討

3 現今國際上重要的能力考詴皆致力於對應於 CEFR 能力架構

(Council of Europe2001)台灣所研發的華語文能力測驗也是依據

CEFR指標同時也對應了 CEFR的級數到台灣師範大學語言中心的教

材張莉萍陳鳳儀(2008)提出台灣華語文能力測驗的分級方式分

級依據學生來參加考詴的前一個星期所上的教材落點為劃分標準其

劃分方式本研究整理如下

1 基礎級(TOP-beginner)

在台灣師範大學語言中心學習 150小時以上的學生

等於 CEFR所描述的 A2語言能力

能了解大部分與切身相關的句子及常用詞彙例如非常基本之

個人及家族資訊購物當地地理環境工作狀況等針對熟悉

單純例行性的任務能以簡單直接地溝通方式交換訊息能

簡單地敘述出個人背景週遭環境及立即需求

2 進階級(TOP-learner)

讀完新版實用視聽華語系列教材一-四冊(約 530個學時)

等於 CEFR所描述的 B1語言能力

針對一般職場學校休閒等場合常遇到的熟悉事物時在接

10

收到標準且清晰的信息後能瞭解其重點在目標語言地區旅遊

時能應付大部分可能會出現的一般狀況針對熟悉及私人感興

趣之主題能簡單地撰稿能敘述經驗事件夢想希望及志向

對看法及計畫能簡短地解釋理由及做出說明

3 高階級(Top-superior)

讀完新版實用視聽華語系列教材四冊後再讀完遠東生活華語三

第八單元的學生(約 610學時)

能通過百分之六十七 CEFR B2等級的題目

針對具體及抽象主題的複雜文字能瞭解其重點主題涵蓋個人

專業領域的技術討論能即時地以母語作互動有一定的流暢度

且不會讓任一方感到緊張能針對相當多的主題撰寫出一份完整

詳細的文章並可針對所提各議題重點做出優缺點說明

上述教材當初並非依據 CEFR 能力指標規劃完整系列而是針

對教材內容主題做了對應例如有的教材雖然屬於 B2 教材但

不代表學生學完這本教材即具有 B2 能力因為該本教材可能只具備

部分 B2能力或說學生要具備 B2能力原本就不會只讀一本教材現

階段華語文能力測驗關心的是如何幫助學生有效地從 B1 跨越到 B2

並選擇適當的教材或課程規劃

11

3 第三章 研究工具

本章介紹本研究基礎的三項工具由於此三項工具使得本研究的

方法得以實現本章將介紹中研院斷詞系統Google 網頁搜尋

TOP-Huayu詞彙語法

31 中研院斷詞系統

要進行華語文語句分析必須將語句斷詞後才能處理本研究

利用中央研究院中文資訊處理實驗室詞庫小組所發展的中文斷詞系

統 httpckipsvriissinicaedutw將句子斷成數個詞並重新組成

N-grams

在偵測未知詞的部份是利用基於語料庫的方法找出句法規則再

利用此規則來分辨單音節元素然後找出未知詞或錯誤用法(Chen amp

Bai1998)斷詞後的範例

這(Nep) 是(SHI) 一(Neu) 家(Nf) 擁有(VJ) 五百(Neu) 名(Nf) 員工(Na) 的

(DE) 中型(A) 企業(Na) (PERIODCATEGORY)

利用 Hong Kong Cityu(HK)的 closedtrack 及 open track

Beijing University (PK)的 closedtrack 及 open track共 4 種

評估此斷詞系統結果具有相當高的 F scores(Ma amp Chen2003)

如表 3-1及表 3-2其中英文字母代表依序為test recall (R) test

precision (P)F score(F)the out-of-vocabulary (OOV) rate for

the test corpusthe recall on OOV words(Roov)及 the recall on

in-vocabulary(Riv) words

12

表 3-1 Scores for HK

R P F OOV Roov Riv

Closed 0947 0934 0940 0071 0625 0972

Open 0958 0954 0956 0071 0788 0971

資料來源 Ma amp Chen(2003)

表 3-2 Scores for PK

R P F OOV Roov Riv

Closed 0939 0934 0936 0069 0642 0961

Open 0939 0938 0938 0069 0675 0959

資料來源 Ma amp Chen(2003)

圖 3-1 中研院中文斷詞系統網站

資料來源中文斷詞系統 httpckipsvriissinicaedutw

13

中研院中文斷詞系統已經廣泛的被各種領域的學者所使用例如

陳慶龍(2007)利用此斷詞系統製作中文體育知識問答系統Huang

ChiuChuanSandnes(2010)製作一個可以診斷憂鬱症的語言分析器

其中利用中研院中文斷詞系統來擷取關鍵字

32 Google 網頁搜尋

1995 年 Google 的創辦人美國史丹福大學的研究生 Larry Page

以及 Sergey Brin憑藉其資訊工程的專長開發名為 BackRub的搜尋

引擎後來正式更名為 Google其任務在於組織全世界的資訊讓

全球都能使用並有所禆益可說是目前全球最大的搜尋引撆現代人

幾乎只要提到資料搜索都絕對離不開 Google 搜尋正因為它可以在

短時間內找到相當豐富的資料查詢所得的結果遠多於其他搜尋網站

因此已經成為許多人不可或缺的工具(童國倫潘奕萍 2009)故本

研究以 Google為 N-gram count值的來源分析選項正答力

GOOGLE支援多達一百三十二種語言包括簡體中文和繁體中文

並有「頁庫存檔」功能即使網頁檔案被刪除仍然可以查詢到資料

而且可以搜尋的資料類型至少包括以下幾種格式

Adobe Portable Document Format (pdf)

Adobe PostScript (ps)

Lotus 1-2-3 (wk1 wk2 wk3 wk4 wk5 wki wks wku)

Lotus WordPro (lwp)

MacWrite (mw)

Microsoft Excel (xls)

Microsoft PowerPoint (ppt)

Microsoft Word (doc)

Microsoft Works (wks wps wdb)

Microsoft Write (wri)

Rich Text Format (rtf)

Shockwave Flash (swf)

Text (ans txt)

HyperText Markup Language (html)

14

Google 目前已被廣泛應用在各種自然語言處理研究中例如

FigueroaNeumann與 Atkinson (2009)利用 Google來擷取知識作

出基於 Surface Patterns的定義型問題問答系統CaiCuiMiao

Zhao與 Ren(2004)利用 Google Web APIs作出中文自動問答系統

Kilgarriff(2007)描述了使用 Google 這類官方搜尋引擎時會有

的幾個議題本研究整理列出並解釋和本研究的關係

1 官方搜尋引擎不考慮 Lemmatize(如英文同詞幹不同詞性的字)及

Part-Of-Speech tag但是中文沒有 Lemmatize的問題而本研究

設計的方法不使用 Part-Of-Speech tag

2 官方搜尋引擎的搜尋語法有限例如有無提供「萬用字元」及模糊

算子本研究只使用 Google的雙引號「」Query功能表示嚴格

限定只找包含完整 Query字串的網頁

3 官方搜尋引擎有 Query數限制在固定時間內使用者只能發出有限

的 Query而本研究以延長搜尋間隔時間來解決

4 官方搜尋引擎的搜尋結果數是網頁數而非詞句數由於無法下載

所有 hit pages的內容精準統計語句次數故本研究利用網頁數

做為數據來源此為本研究的限制

5 搜尋結果數中可能有重覆的資料例如不同網址有同樣文件內容

此問題雖然會影響結果但是本研究所設計的方法主要是利用最長

可得結果字串的長度為評分依據而搜尋結果數只影響分數中的小

數部份對本研究只佔了小部份的影響

33 TOP-Huayu 詞彙語法

臺灣華語文能力測驗的前身是 2003 年國立臺灣師範大學國語教

學中心華語文教學研究所與心理教育測驗中心三個團隊所共同研發

的「華語文能力測驗」(Chinese Proficiency Test CPT)2005 年

11 月教育部提升這個測驗為國家級的測驗並改為 TOP-Huayu(張莉

萍 2007)2010 年再改版為 TOCFL到 2010 年 11 月份為止臺灣

15

華語文能力測驗的到考人數已達到 11527 人成功取得證書人數更

有 6080 人(國家華語測驗推動工作委員會2009)如表 3-3表示

此測驗在國際上已具有相當的知名度

表 3-3 臺灣華語文能力測驗 2003年 12月到 2010年 11月份累計各

等級到考及獲證人數分佈(基礎測驗從 2007年 11月開始)

到考人數 獲得證書

人數 通過率()

基礎測驗 1729 1324 7662

初等測驗 3572 1620 4543

中等測驗 4184 1719 4114

高等測驗 2042 1345 6587

資料來源國家華語測驗推動工作委員會(2009)

由於地緣關係本研究使用台灣華語文能力測驗且由於新版的

TOCFL「選詞填空」的形式較 TOP-Huayu 詞彙語法複雜本研究參考

專家的建議後以台灣 TOP-Huayu詞彙語法為製作系統及分析準確度

的標竿並做為未來研究的基礎洪小雯(2009)表示「詞彙語法」

的題型儘管較為傳統但其著重測詴語言知識的考量不宜偏廢畢竟

在外語的學習過程中語言知識是決定語言能力的基礎

TOP-Huayu的詞彙分級方法參考自張莉萍陳鳳儀(2006)所訂

定的規則詞彙來源主要參考自台灣師大華語文能力測驗詞彙分級表

張莉萍(2002)(以下簡稱 CPT詞彙表)漢語水平詞彙等級大綱(國

家對外漢語教學領導小組辦公室漢語水平考詴部1992)(以下簡稱

HSK詞彙表)CPT和 HSK的詞彙交集分佈如表 3-4

在華語文能力測驗與歐洲共同架構 CEFR 的對應關係方面藍珮

君(2007)研究基礎華語文能力測驗與 CEFR 對應程度發現測驗等

級介於 CEFR A1 與 A2 之間屬於初級使用者的程度表示該測驗可

16

適當的測出受詴者的能力

表 3-4 CPT vs HSK等級詞彙的交集

HSK cap CPT CPT詞彙表(10155個)

初(1507) 中(3684) 高(4964)

HSK詞彙表

(8767個)

甲(1027) 683 231 17

乙(2003) 330 805 265

丙(2188) 141 486 474

丁(3569) 54 406 632

資料來源張莉萍陳鳳儀(2006)

17

4 第四章 正答力計算方法

本研究提出一個篩選詞彙語法電腦出題的候選誘答選項的方法

在不斷的測詴與改進基於 Markov Chain及 Katz Backoff的概念

並且使用 Google做為 N-gram count值的來源設計了一個方法來計

算詞彙語法題之候選誘答選項的正答力計算正答力的概念如圖 4-1

先計算正確答案正答力如圖 4-2然後計算每個候選誘答選項正答

力如圖 4-3使能和正確答案的正答力比較

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖

圖 4-2 計算正確答案正答力範例

18

圖 4-3 計算並比較正確答案和誘答選項正答力的範例

在實際應用時若該候選誘答選項的正答力大於正確答案表示

該選項為最佳答案則選項不適用如圖 4-3將其過慮掉本章包

含計算正答力之前及之後需處理的「前後置處理」完成本方法之前

所參考的「其它計算正答力方法」然後是本研究最後呈現的「基於

全球資訊網的正答力計算方法」最後是新舊方法的「方法比較」

41 前後置處理

圖 4-4為本方法前後置處理的流程圖虛線圍起來的部份是本研

究的核心方法本節介紹前後置處理包含計算正答力的前置及後續

處理工作

19

圖 4-4 前後置處理流程圖

如圖 4-4「輸入題幹及選項」輸入一題詞彙語法題的題幹及 4

個選項此部份可視為華語文詞彙語法電腦出題系統產生候選誘答選

項後將選項輸入該系統以計算該選項的正答力如下題幹及選項

(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

「將題幹及選項組成句子」將選項和題幹組成一個完整的句子4

個選項則產生 4個句子如下範例

20

我國天然資源不多礦產種類只有煤和石油

我國天然材料不多礦產種類只有煤和石油

我國天然產品不多礦產種類只有煤和石油

我國天然原料不多礦產種類只有煤和石油

「斷詞」將每個句子經由 Internet送到中研院斷詞系統進行斷詞

方便後續分析正答力如下範例句子斷詞後的結果「」表分隔

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

我國 天然 材料 不 多 礦產 種類 只有 煤 和 石油

我國 天然 產品 不 多 礦產 種類 只有 煤 和 石油

我國 天然 原料 不 多 礦產 種類 只有 煤 和 石油

「計算正答力」此模組負責計算每個選項的正答力為本研究

的核心部份計算方法將在下一節詳細介紹

「呈現正答力」輸出該選項的正答力分數結果供電腦出題系

統判斷候選誘答選項非最佳答案或直接供詴題研發人員參考如下

範例

「資源」選項的正答力=17581062

「材料」選項的正答力=5614006

「產品」選項的正答力=7181650

「原料」選項的正答力=5623282

本系統計算出來的是相對正答力不能比較不同題目的相同誘答選項

正答力

42 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法本研究參考了

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 7: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

v

53 分析評估結果 40

531 原因一訊息量不足 42

532 原因二分析方法侷限 49

第六章 結論及未來研究 53

61 結論 53

62 未來研究 55

參考文獻 57

1 中文文獻 57

2 英文文獻 60

附錄 詳細評估資料 63

1 初級詞彙語法 64

2 中級詞彙語法 65

3 高級詞彙語法 66

vi

圖目錄

圖 1-1 華語文電腦出題領域的涵蓋 3

圖 1-2 詞彙語法題範例其中選項 1 是正確答案選項 234 是誘答選項

4

圖 3-1 中研院中文斷詞系統網站 12

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖 17

圖 4-2 計算正確答案正答力範例 17

圖 4-3 計算並比較正確答案和誘答選項正答力的範例 18

圖 4-4 前後置處理流程圖 19

圖 4-5 基於全球資訊網的正答力計算模組 27

圖 5-1 答錯題目分析過程資料呈現說明 42

圖 5-2 初等 TOP-Huayu 測驗詞彙語法第 52 題答錯過程分析 43

圖 5-3 初等 TOP-Huayu 測驗詞彙語法第 54 題答錯過程分析 44

圖 5-4 初等 TOP-Huayu 測驗詞彙語法第 61 題答錯過程分析 45

圖 5-5 高等 TOP-Huayu 測驗詞彙語法第 79 題答錯過程分析 46

圖 5-6 高等 TOP-Huayu 測驗詞彙語法第 68 題答錯過程分析 47

圖 5-7 高等 TOP-Huayu 測驗詞彙語法第 74 題答錯過程分析 48

圖 5-8 初等 TOP-Huayu 測驗詞彙語法第 84 題答錯過程分析 49

圖 5-9 初等 TOP-Huayu 測驗詞彙語法第 86 題答錯過程分析 50

圖 5-10 初等 TOP-Huayu 測驗詞彙語法第 88 題答錯過程分析 51

圖 5-11 中等 TOP-Huayu 測驗詞彙語法第 71 題答錯過程分析 52

圖 6-1 誘答選項產生器 54

vii

表目錄

表 2-1 電腦輔助英文詞彙語法出題篩選誘答選項(a)方法一(b)方法二 7

表 3-1 Scores for HK 12

表 3-2 Scores for PK 12

表 3-3 臺灣華語文能力測驗 2003 年 12 月到 2010 年 11 月份累計各等級到考及

獲證人數分佈(基礎測驗從 2007 年 11 月開始) 15

表 3-4 CPT vs HSK 等級詞彙的交集 16

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams 架構表 22

表 4-2 「5-gram Markov Chain 方法」的 Language Model N-grams 架構表 24

表 4-3 計算過程(a)1~4 回合(b)5 回合(c)6 回合 28

表 4-4 相同字串比較表 29

表 4-5 部份正答力 F 計算結果比較表 29

表 5-1 詞彙語法題目及答案架構列表 38

表 5-2 測試結果統計表 40

1

1 第一章 緒論

11 研究背景與動機

中國國家漢辦主任孔子學院總部理事長許琳在瀋陽舉行的第十

屆國際漢語教學研討會上表示目前全球學習漢語的人數已超過四千

萬在北京的推動下這個數字還在持續增加當中(MercoPress 2010)

而華語文能力測驗也逐漸成為如TOEIC或TOEFL這種世界標準的語

文能力測驗像是臺灣華語文能力測驗 TOP-Huayu 及 TOCFL中國

「漢語水準考詴 HSK」日本「中國語檢定詴驗」及「TECC」美國

「SATII-Chinese」及「CPT」(張莉萍2007)

中國大陸的 HSK 於 1990 年正式推出(張莉萍2002)並逐步推

廣到全世界台灣的華語文測驗 TOP-Huayu 則在 2005 年才成為正式

的國家級測驗(張莉萍2007)發展較中國大陸晚十五年

拜科技所賜目前我們可以利用電腦輔助完成這種耗時耗力的工

作電腦有機械式出題的優點只要給特定明確的規則就可以產生

大量的題目由於測驗題庫需要持續性的汰舊換新與維護管理(陳柏

熹2010)因此需要大量撰寫新詴題過程繁雜且耗時(余民寧

2010)發展電腦出題可以提升測驗題庫的規模進而提升測驗的水

在電腦輔助語言測驗(Computer-Assisted Language Testing CALT)

領域TOP-Huayu及HSK己有不少研究以Silye和Wiwczaroski(2002)

對 CALT 議題的分類方式電腦輔助華語文測驗可以說己經有相當完

整的研究我們可以在每一類議題都找到對應的研究「Item banking」

電腦測驗題庫管理與分析議題(張國恩陳學志鄭錦全宋曜廷

蔡雅薰周中天2010 鹿士義余嘉元 2003)「Computer-assisted

language testing」電腦呈現語言測驗議題(余坤庭陳劭茹林宗璋

周中天2009)「Computer-adaptive language testing」電腦化適性語

2

言測驗議題(洪豪哲林孟君劉育隆郭伯臣2010 Wang Kuo amp

Chao 2010)「Web-based language testing」線上語言測驗議題(陳懷萱

鄧智生2003)

但是上述的「電腦輔助語言測驗」研究中卻沒有華語文電腦出

題反觀英文電腦出題己有相當數量的研究無論是英語系國家

(Mitkov amp Ha 2003)日本(Goto Kojiri Watanabe Iwata amp Yamada

2010)台灣(Liu Wang amp Gao 2005)等等都有學者發表這一方面的

研究

本研究也訪談具有十年以上研究華語文測驗經驗的專家調查關

於華語文電腦出題的需求截至本研究目前所調查的電腦出題相關研

究及訪談結果尚未發現有研究是針對外籍人士的華語文測驗作電腦

「自動」出題顯示華語文電腦出題還是一門新興的研究領域

然而會有這樣的結果究其根本原因是因為英文是世界上研究

最多且研究歷史最悠久但同樣的研究在中文這樣的語言則是非常

不容易的一來中文的文法研究起步較晚二來早期的研究因為大量

移借西方文法理論而西方的語法理論有絕大部份都是建立在西方語

言的研究發現上因此引進西方文法理論雖然能解決中文文法與西

方文法共同的部份但對其中不同的部分則會因為不合適的語法分析

架構而無法使用(曹逢甫2004)而且華語文能力測驗是一門非常專

業的學問不同的題型有不同的出題策略(柯華葳2004)研究電腦

出題更需謹慎華語文電腦出題涵蓋的領域範圍如圖 1-1

3

圖 1-1 華語文電腦出題領域的涵蓋

12 研究問題

在英文電腦出題研究中英文詞彙語法(Multiple-choice cloze)

電腦出題已有相當廣泛的研究有很多方法值得華語文詞彙語法之電

腦出題借鏡然而用來篩選候選誘答選項的方法因為語言特性的差

別無法直接套用到華語文電腦出題上詞彙語法測驗是以選擇題方

式呈現而一題可用的選擇題必只有一最清楚之最佳答案(郭生玉

2004)若華語文詞彙語法電腦出題產生誘答選項後卻不能判斷候

選誘答選項非最佳答案則產生出來的題目也就不適用故本研究問

題為

「如何檢查華語文詞彙語法電腦出題產生的候選誘答選項非最佳答

案」

13 研究目的

本研究目的為設計一方法來計算華語文詞彙語法之誘答選項的

正答力然後藉由比較候選誘答選項正答力判斷是否比正確答案低

來檢查該候選誘答選項非最佳答案做為華語文電腦出題的基礎本

研究參考計算語言學的 Markov chainKatz Backoff及 Maximum

4

Likelihood Estimation(Jurafsky amp Martin 2009) 來設計本研究

的方法計算誘答選項的正答力本研究以 Google為語言模型的語

料來源利用 Google龐大的語料資源提升計算結果的準確度而

測詴本方法準確度是利用具有客觀公開可信度高的台灣 TOP-Huayu

的詞彙語法題共 100題

14 詞彙語法說明

克漏字 (cloze procedure)首先由 Taylor(1953)提出是用來

估算文章可讀程度的工具之後有研究者將「克漏字」用在測驗英語

母語學習者的閱讀能力同時也有一批研究者應用在測量 ESL的語言

能力後來「克漏字」演變成多種題型「華語文能力測驗」的「詞

彙語法」(Multiple-choice cloze)測驗(華語文能力測驗初等模擬詴

題2003)就是其中一種題型同「漢語水準考詴」HSK 的「語法結

構」第二部分及綜合填空第一部分(第一套 HSK模擬題2005)詞彙

語法測驗可以測出受詴者對中文詞彙及語法的熟練度及運用能力(張

莉萍2002)如圖 1-2在新版的 TOCFL改以「選詞填空」題型取

代「詞彙語法」本研究參考華語文測驗專家所給予的建議以台灣

TOP-Huayu詞彙語法為設計本方法及測詴本方法準確度的標竿做為

未來研究的基礎

弟弟做事很隨便這麼重要的事給他做我真的不能 ___

1 放心

2 擔心

3 關心

4 小心

圖 1-2 詞彙語法題範例其中選項 1是正確答案選項 234是

誘答選項

資料來源華語文能力測驗初等模擬詴題(2003)

5

15 研究限制

本研究有以下限制

1 本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu華

語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK

2 本研究利用Google搜尋全球資訊網的語料取得N-gram count值

由於全球資訊網的語料未經審核當真正用在分析華語文詞彙語法

電腦出題之誘答選項的正答力時可能會受到錯誤語法影響

3 本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取得

Google 網頁搜尋結果時從國內發出 Request 會和從國外發出

Request 所取得的結果數不同另外 Google 搜尋結果也會隨著時

間而改變所以不能保證本研究的評估結果 100重現

4 本研究使用的 Google 搜尋結果數為數據來源而搜尋結果數是網

頁數非精準的詞句數

5 本研究僅針對 Maximum Likelihood EstimationKatz backoff

Bigram Markov Chain5-gram Markov Chain 作研究並只以中

研院平衡語料庫及 Google 為 N-grams count 值的來源並不代表

其它的計算語言學方法不適合或沒有方法可以用來計算本研究中

的正答力

6

2 第二章 相關研究

本章介紹和本研究間接相關的研究議題作為本研究的參考包

含電腦輔助英文詞彙語法出題電腦出題設計原則華語文教學與測

驗探討

21 電腦輔助英文詞彙語法出題之探討

華語文電腦出題為剛起步的研究相關文獻並不多而華語文詞

彙語法之電腦出題研究也幾乎沒有故本研究調查數篇和英文詞彙語

法題之電腦出題的研究做為製作中文測驗之電腦出題的參考

本研究整理數篇電腦輔助英文克漏詞多選題出題研究並參考其

中篩選誘答選項的方法如表 2-1Goto et al(2010)及 Sumita

Sugaya amp Yamamoto(2005)將候選誘答選項和相鄰的二個詞一起放到

Google中搜尋若有結果表示該誘答選項不適用Liu et al(2005)

也是用一樣的方法但是語料來源是本身系統內的語料庫語料量較

少Chen Liouamp Chang(2006)利用文法規則來產生誘答選項挑選

跟答案不同詞性的選項(例如動詞介詞)藉錯誤的詞性來確保

選項是錯誤的

7

表 2-1 電腦輔助英文詞彙語法出題篩選誘答選項(a)方法一(b)方

法二

方法

將候選誘答選項和相鄰的二個詞(或更多)放到

Google 中(Goto et al 2010 Sumita et al 2005)或

一般語料庫(Liu et al 2005)搜尋若有結果表

示該誘答選項不適用

例子 This is the building what we had our first office

解釋

what 是候選誘答選項(正答是 which)用來搜

尋的字串可以是「building what we」也可以是

「the building what we had」但是嚴謹程度不一

樣若有結果表示該誘答選項不適用

(a) 方法一

方法 產生不同詞性規則的誘答選項藉此確保誘答選項

是錯誤選項(Chen et al 2006)

例子

Representative democracy seemed ______ simultaneously

during the eighteenth and nineteenth centuries in Britain

Europe and the United States

(A) to evolve

(B) to evolving

(C) evolving

(D) evolve

解釋 4 個選項的詞性都不同

(b) 方法二

以華語文詞彙語法題的觀點來看方法二較不適合用在本研究

因華語文詞彙題的誘答選項通常是同一種詞性且華語文是孤立語

不像英文有字尾型態變化另外Bensoussan 和 Ramraz(1984)也表示

在設計誘答選項時四個選項中最好都使用同一種詞性例如全部是

動詞避免提示效果故方法二不適合直接用來計算及篩選本研究的

8

誘答選項

本研究也是利用 Google 網頁搜尋為 N-gram count值的來源但

是所用的計算方法和「方法一」不同由於上述學者的方法是應用在

英文詞彙語法出題如果用在本研究的華語文詞彙語法出題上會將

具有誘答力易混肴的一些較好的誘答選項過濾掉所以不適合用在

本研究上

本研究另外參考計算語言學 Markov chain(Jurafsky amp Martin

2009)技術計算誘答選項的正答力確保候選誘答選項非最佳答案

22 電腦出題設計原則

本研究在調查完電腦輔助英文克漏詞多選題出題(Chen et al

2006 Goto et al2010 Sumita et al2005)及其它電腦出題研

究(Yang 2006)後歸納出電腦出題可分為半自動的輔助出題和全自

動的自動出題本研究融合這兩種觀念提出電腦出題研究的原則

輔助出題是電腦提供題目資訊來協助出題者例如電腦產生誘

答選項的清單出題者自行決定可用的選項但是輔助出題是把資料

傾倒出來不確定是否有用有可能會額外增加老師的負擔自動出

題是由電腦決定例如電腦直接產生它覺得可用的三個誘答選項而

過程不需要出題者介入出題者直接套用結果

雖然看起來電腦自動出題是最佳的方式但是實務上幾近不可能

原因如下

1 測驗是一門很深的理論有許多出題規則包含明確及模糊的規

則華語文能力測驗更是如此所以很難將所有規則都具體且明

確化並套用到電腦程式裡

2 出題老師的出題規則往往是用直覺而直覺裡才包含著經驗和知

識所以很難將出題老師的出題規則具體且明確化

3 每位出題老師的出題規則都不同例如有的老師覺得誘答選項

要同一詞性有的覺得要不同詞性因此不可能有一套自動出

9

題系統能滿足所有人的要求所以嚴格來說不可能實現真正符

合需求的電腦自動出題

本研究認為電腦出題應以電腦自動出題為目標但是以電腦輔助

出題的方式呈現本研究建議使用推薦方式能保有兩種出題方式的

優點而本研究所提出的正答力計算方法除了用來過濾電腦自動出

題的候選誘答選項外也可以當作排序的依據呈現候選誘答選項輔

助詴題研發人員選擇最適合的誘答選項

23 華語文測驗與教學探討

3 現今國際上重要的能力考詴皆致力於對應於 CEFR 能力架構

(Council of Europe2001)台灣所研發的華語文能力測驗也是依據

CEFR指標同時也對應了 CEFR的級數到台灣師範大學語言中心的教

材張莉萍陳鳳儀(2008)提出台灣華語文能力測驗的分級方式分

級依據學生來參加考詴的前一個星期所上的教材落點為劃分標準其

劃分方式本研究整理如下

1 基礎級(TOP-beginner)

在台灣師範大學語言中心學習 150小時以上的學生

等於 CEFR所描述的 A2語言能力

能了解大部分與切身相關的句子及常用詞彙例如非常基本之

個人及家族資訊購物當地地理環境工作狀況等針對熟悉

單純例行性的任務能以簡單直接地溝通方式交換訊息能

簡單地敘述出個人背景週遭環境及立即需求

2 進階級(TOP-learner)

讀完新版實用視聽華語系列教材一-四冊(約 530個學時)

等於 CEFR所描述的 B1語言能力

針對一般職場學校休閒等場合常遇到的熟悉事物時在接

10

收到標準且清晰的信息後能瞭解其重點在目標語言地區旅遊

時能應付大部分可能會出現的一般狀況針對熟悉及私人感興

趣之主題能簡單地撰稿能敘述經驗事件夢想希望及志向

對看法及計畫能簡短地解釋理由及做出說明

3 高階級(Top-superior)

讀完新版實用視聽華語系列教材四冊後再讀完遠東生活華語三

第八單元的學生(約 610學時)

能通過百分之六十七 CEFR B2等級的題目

針對具體及抽象主題的複雜文字能瞭解其重點主題涵蓋個人

專業領域的技術討論能即時地以母語作互動有一定的流暢度

且不會讓任一方感到緊張能針對相當多的主題撰寫出一份完整

詳細的文章並可針對所提各議題重點做出優缺點說明

上述教材當初並非依據 CEFR 能力指標規劃完整系列而是針

對教材內容主題做了對應例如有的教材雖然屬於 B2 教材但

不代表學生學完這本教材即具有 B2 能力因為該本教材可能只具備

部分 B2能力或說學生要具備 B2能力原本就不會只讀一本教材現

階段華語文能力測驗關心的是如何幫助學生有效地從 B1 跨越到 B2

並選擇適當的教材或課程規劃

11

3 第三章 研究工具

本章介紹本研究基礎的三項工具由於此三項工具使得本研究的

方法得以實現本章將介紹中研院斷詞系統Google 網頁搜尋

TOP-Huayu詞彙語法

31 中研院斷詞系統

要進行華語文語句分析必須將語句斷詞後才能處理本研究

利用中央研究院中文資訊處理實驗室詞庫小組所發展的中文斷詞系

統 httpckipsvriissinicaedutw將句子斷成數個詞並重新組成

N-grams

在偵測未知詞的部份是利用基於語料庫的方法找出句法規則再

利用此規則來分辨單音節元素然後找出未知詞或錯誤用法(Chen amp

Bai1998)斷詞後的範例

這(Nep) 是(SHI) 一(Neu) 家(Nf) 擁有(VJ) 五百(Neu) 名(Nf) 員工(Na) 的

(DE) 中型(A) 企業(Na) (PERIODCATEGORY)

利用 Hong Kong Cityu(HK)的 closedtrack 及 open track

Beijing University (PK)的 closedtrack 及 open track共 4 種

評估此斷詞系統結果具有相當高的 F scores(Ma amp Chen2003)

如表 3-1及表 3-2其中英文字母代表依序為test recall (R) test

precision (P)F score(F)the out-of-vocabulary (OOV) rate for

the test corpusthe recall on OOV words(Roov)及 the recall on

in-vocabulary(Riv) words

12

表 3-1 Scores for HK

R P F OOV Roov Riv

Closed 0947 0934 0940 0071 0625 0972

Open 0958 0954 0956 0071 0788 0971

資料來源 Ma amp Chen(2003)

表 3-2 Scores for PK

R P F OOV Roov Riv

Closed 0939 0934 0936 0069 0642 0961

Open 0939 0938 0938 0069 0675 0959

資料來源 Ma amp Chen(2003)

圖 3-1 中研院中文斷詞系統網站

資料來源中文斷詞系統 httpckipsvriissinicaedutw

13

中研院中文斷詞系統已經廣泛的被各種領域的學者所使用例如

陳慶龍(2007)利用此斷詞系統製作中文體育知識問答系統Huang

ChiuChuanSandnes(2010)製作一個可以診斷憂鬱症的語言分析器

其中利用中研院中文斷詞系統來擷取關鍵字

32 Google 網頁搜尋

1995 年 Google 的創辦人美國史丹福大學的研究生 Larry Page

以及 Sergey Brin憑藉其資訊工程的專長開發名為 BackRub的搜尋

引擎後來正式更名為 Google其任務在於組織全世界的資訊讓

全球都能使用並有所禆益可說是目前全球最大的搜尋引撆現代人

幾乎只要提到資料搜索都絕對離不開 Google 搜尋正因為它可以在

短時間內找到相當豐富的資料查詢所得的結果遠多於其他搜尋網站

因此已經成為許多人不可或缺的工具(童國倫潘奕萍 2009)故本

研究以 Google為 N-gram count值的來源分析選項正答力

GOOGLE支援多達一百三十二種語言包括簡體中文和繁體中文

並有「頁庫存檔」功能即使網頁檔案被刪除仍然可以查詢到資料

而且可以搜尋的資料類型至少包括以下幾種格式

Adobe Portable Document Format (pdf)

Adobe PostScript (ps)

Lotus 1-2-3 (wk1 wk2 wk3 wk4 wk5 wki wks wku)

Lotus WordPro (lwp)

MacWrite (mw)

Microsoft Excel (xls)

Microsoft PowerPoint (ppt)

Microsoft Word (doc)

Microsoft Works (wks wps wdb)

Microsoft Write (wri)

Rich Text Format (rtf)

Shockwave Flash (swf)

Text (ans txt)

HyperText Markup Language (html)

14

Google 目前已被廣泛應用在各種自然語言處理研究中例如

FigueroaNeumann與 Atkinson (2009)利用 Google來擷取知識作

出基於 Surface Patterns的定義型問題問答系統CaiCuiMiao

Zhao與 Ren(2004)利用 Google Web APIs作出中文自動問答系統

Kilgarriff(2007)描述了使用 Google 這類官方搜尋引擎時會有

的幾個議題本研究整理列出並解釋和本研究的關係

1 官方搜尋引擎不考慮 Lemmatize(如英文同詞幹不同詞性的字)及

Part-Of-Speech tag但是中文沒有 Lemmatize的問題而本研究

設計的方法不使用 Part-Of-Speech tag

2 官方搜尋引擎的搜尋語法有限例如有無提供「萬用字元」及模糊

算子本研究只使用 Google的雙引號「」Query功能表示嚴格

限定只找包含完整 Query字串的網頁

3 官方搜尋引擎有 Query數限制在固定時間內使用者只能發出有限

的 Query而本研究以延長搜尋間隔時間來解決

4 官方搜尋引擎的搜尋結果數是網頁數而非詞句數由於無法下載

所有 hit pages的內容精準統計語句次數故本研究利用網頁數

做為數據來源此為本研究的限制

5 搜尋結果數中可能有重覆的資料例如不同網址有同樣文件內容

此問題雖然會影響結果但是本研究所設計的方法主要是利用最長

可得結果字串的長度為評分依據而搜尋結果數只影響分數中的小

數部份對本研究只佔了小部份的影響

33 TOP-Huayu 詞彙語法

臺灣華語文能力測驗的前身是 2003 年國立臺灣師範大學國語教

學中心華語文教學研究所與心理教育測驗中心三個團隊所共同研發

的「華語文能力測驗」(Chinese Proficiency Test CPT)2005 年

11 月教育部提升這個測驗為國家級的測驗並改為 TOP-Huayu(張莉

萍 2007)2010 年再改版為 TOCFL到 2010 年 11 月份為止臺灣

15

華語文能力測驗的到考人數已達到 11527 人成功取得證書人數更

有 6080 人(國家華語測驗推動工作委員會2009)如表 3-3表示

此測驗在國際上已具有相當的知名度

表 3-3 臺灣華語文能力測驗 2003年 12月到 2010年 11月份累計各

等級到考及獲證人數分佈(基礎測驗從 2007年 11月開始)

到考人數 獲得證書

人數 通過率()

基礎測驗 1729 1324 7662

初等測驗 3572 1620 4543

中等測驗 4184 1719 4114

高等測驗 2042 1345 6587

資料來源國家華語測驗推動工作委員會(2009)

由於地緣關係本研究使用台灣華語文能力測驗且由於新版的

TOCFL「選詞填空」的形式較 TOP-Huayu 詞彙語法複雜本研究參考

專家的建議後以台灣 TOP-Huayu詞彙語法為製作系統及分析準確度

的標竿並做為未來研究的基礎洪小雯(2009)表示「詞彙語法」

的題型儘管較為傳統但其著重測詴語言知識的考量不宜偏廢畢竟

在外語的學習過程中語言知識是決定語言能力的基礎

TOP-Huayu的詞彙分級方法參考自張莉萍陳鳳儀(2006)所訂

定的規則詞彙來源主要參考自台灣師大華語文能力測驗詞彙分級表

張莉萍(2002)(以下簡稱 CPT詞彙表)漢語水平詞彙等級大綱(國

家對外漢語教學領導小組辦公室漢語水平考詴部1992)(以下簡稱

HSK詞彙表)CPT和 HSK的詞彙交集分佈如表 3-4

在華語文能力測驗與歐洲共同架構 CEFR 的對應關係方面藍珮

君(2007)研究基礎華語文能力測驗與 CEFR 對應程度發現測驗等

級介於 CEFR A1 與 A2 之間屬於初級使用者的程度表示該測驗可

16

適當的測出受詴者的能力

表 3-4 CPT vs HSK等級詞彙的交集

HSK cap CPT CPT詞彙表(10155個)

初(1507) 中(3684) 高(4964)

HSK詞彙表

(8767個)

甲(1027) 683 231 17

乙(2003) 330 805 265

丙(2188) 141 486 474

丁(3569) 54 406 632

資料來源張莉萍陳鳳儀(2006)

17

4 第四章 正答力計算方法

本研究提出一個篩選詞彙語法電腦出題的候選誘答選項的方法

在不斷的測詴與改進基於 Markov Chain及 Katz Backoff的概念

並且使用 Google做為 N-gram count值的來源設計了一個方法來計

算詞彙語法題之候選誘答選項的正答力計算正答力的概念如圖 4-1

先計算正確答案正答力如圖 4-2然後計算每個候選誘答選項正答

力如圖 4-3使能和正確答案的正答力比較

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖

圖 4-2 計算正確答案正答力範例

18

圖 4-3 計算並比較正確答案和誘答選項正答力的範例

在實際應用時若該候選誘答選項的正答力大於正確答案表示

該選項為最佳答案則選項不適用如圖 4-3將其過慮掉本章包

含計算正答力之前及之後需處理的「前後置處理」完成本方法之前

所參考的「其它計算正答力方法」然後是本研究最後呈現的「基於

全球資訊網的正答力計算方法」最後是新舊方法的「方法比較」

41 前後置處理

圖 4-4為本方法前後置處理的流程圖虛線圍起來的部份是本研

究的核心方法本節介紹前後置處理包含計算正答力的前置及後續

處理工作

19

圖 4-4 前後置處理流程圖

如圖 4-4「輸入題幹及選項」輸入一題詞彙語法題的題幹及 4

個選項此部份可視為華語文詞彙語法電腦出題系統產生候選誘答選

項後將選項輸入該系統以計算該選項的正答力如下題幹及選項

(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

「將題幹及選項組成句子」將選項和題幹組成一個完整的句子4

個選項則產生 4個句子如下範例

20

我國天然資源不多礦產種類只有煤和石油

我國天然材料不多礦產種類只有煤和石油

我國天然產品不多礦產種類只有煤和石油

我國天然原料不多礦產種類只有煤和石油

「斷詞」將每個句子經由 Internet送到中研院斷詞系統進行斷詞

方便後續分析正答力如下範例句子斷詞後的結果「」表分隔

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

我國 天然 材料 不 多 礦產 種類 只有 煤 和 石油

我國 天然 產品 不 多 礦產 種類 只有 煤 和 石油

我國 天然 原料 不 多 礦產 種類 只有 煤 和 石油

「計算正答力」此模組負責計算每個選項的正答力為本研究

的核心部份計算方法將在下一節詳細介紹

「呈現正答力」輸出該選項的正答力分數結果供電腦出題系

統判斷候選誘答選項非最佳答案或直接供詴題研發人員參考如下

範例

「資源」選項的正答力=17581062

「材料」選項的正答力=5614006

「產品」選項的正答力=7181650

「原料」選項的正答力=5623282

本系統計算出來的是相對正答力不能比較不同題目的相同誘答選項

正答力

42 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法本研究參考了

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 8: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

vi

圖目錄

圖 1-1 華語文電腦出題領域的涵蓋 3

圖 1-2 詞彙語法題範例其中選項 1 是正確答案選項 234 是誘答選項

4

圖 3-1 中研院中文斷詞系統網站 12

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖 17

圖 4-2 計算正確答案正答力範例 17

圖 4-3 計算並比較正確答案和誘答選項正答力的範例 18

圖 4-4 前後置處理流程圖 19

圖 4-5 基於全球資訊網的正答力計算模組 27

圖 5-1 答錯題目分析過程資料呈現說明 42

圖 5-2 初等 TOP-Huayu 測驗詞彙語法第 52 題答錯過程分析 43

圖 5-3 初等 TOP-Huayu 測驗詞彙語法第 54 題答錯過程分析 44

圖 5-4 初等 TOP-Huayu 測驗詞彙語法第 61 題答錯過程分析 45

圖 5-5 高等 TOP-Huayu 測驗詞彙語法第 79 題答錯過程分析 46

圖 5-6 高等 TOP-Huayu 測驗詞彙語法第 68 題答錯過程分析 47

圖 5-7 高等 TOP-Huayu 測驗詞彙語法第 74 題答錯過程分析 48

圖 5-8 初等 TOP-Huayu 測驗詞彙語法第 84 題答錯過程分析 49

圖 5-9 初等 TOP-Huayu 測驗詞彙語法第 86 題答錯過程分析 50

圖 5-10 初等 TOP-Huayu 測驗詞彙語法第 88 題答錯過程分析 51

圖 5-11 中等 TOP-Huayu 測驗詞彙語法第 71 題答錯過程分析 52

圖 6-1 誘答選項產生器 54

vii

表目錄

表 2-1 電腦輔助英文詞彙語法出題篩選誘答選項(a)方法一(b)方法二 7

表 3-1 Scores for HK 12

表 3-2 Scores for PK 12

表 3-3 臺灣華語文能力測驗 2003 年 12 月到 2010 年 11 月份累計各等級到考及

獲證人數分佈(基礎測驗從 2007 年 11 月開始) 15

表 3-4 CPT vs HSK 等級詞彙的交集 16

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams 架構表 22

表 4-2 「5-gram Markov Chain 方法」的 Language Model N-grams 架構表 24

表 4-3 計算過程(a)1~4 回合(b)5 回合(c)6 回合 28

表 4-4 相同字串比較表 29

表 4-5 部份正答力 F 計算結果比較表 29

表 5-1 詞彙語法題目及答案架構列表 38

表 5-2 測試結果統計表 40

1

1 第一章 緒論

11 研究背景與動機

中國國家漢辦主任孔子學院總部理事長許琳在瀋陽舉行的第十

屆國際漢語教學研討會上表示目前全球學習漢語的人數已超過四千

萬在北京的推動下這個數字還在持續增加當中(MercoPress 2010)

而華語文能力測驗也逐漸成為如TOEIC或TOEFL這種世界標準的語

文能力測驗像是臺灣華語文能力測驗 TOP-Huayu 及 TOCFL中國

「漢語水準考詴 HSK」日本「中國語檢定詴驗」及「TECC」美國

「SATII-Chinese」及「CPT」(張莉萍2007)

中國大陸的 HSK 於 1990 年正式推出(張莉萍2002)並逐步推

廣到全世界台灣的華語文測驗 TOP-Huayu 則在 2005 年才成為正式

的國家級測驗(張莉萍2007)發展較中國大陸晚十五年

拜科技所賜目前我們可以利用電腦輔助完成這種耗時耗力的工

作電腦有機械式出題的優點只要給特定明確的規則就可以產生

大量的題目由於測驗題庫需要持續性的汰舊換新與維護管理(陳柏

熹2010)因此需要大量撰寫新詴題過程繁雜且耗時(余民寧

2010)發展電腦出題可以提升測驗題庫的規模進而提升測驗的水

在電腦輔助語言測驗(Computer-Assisted Language Testing CALT)

領域TOP-Huayu及HSK己有不少研究以Silye和Wiwczaroski(2002)

對 CALT 議題的分類方式電腦輔助華語文測驗可以說己經有相當完

整的研究我們可以在每一類議題都找到對應的研究「Item banking」

電腦測驗題庫管理與分析議題(張國恩陳學志鄭錦全宋曜廷

蔡雅薰周中天2010 鹿士義余嘉元 2003)「Computer-assisted

language testing」電腦呈現語言測驗議題(余坤庭陳劭茹林宗璋

周中天2009)「Computer-adaptive language testing」電腦化適性語

2

言測驗議題(洪豪哲林孟君劉育隆郭伯臣2010 Wang Kuo amp

Chao 2010)「Web-based language testing」線上語言測驗議題(陳懷萱

鄧智生2003)

但是上述的「電腦輔助語言測驗」研究中卻沒有華語文電腦出

題反觀英文電腦出題己有相當數量的研究無論是英語系國家

(Mitkov amp Ha 2003)日本(Goto Kojiri Watanabe Iwata amp Yamada

2010)台灣(Liu Wang amp Gao 2005)等等都有學者發表這一方面的

研究

本研究也訪談具有十年以上研究華語文測驗經驗的專家調查關

於華語文電腦出題的需求截至本研究目前所調查的電腦出題相關研

究及訪談結果尚未發現有研究是針對外籍人士的華語文測驗作電腦

「自動」出題顯示華語文電腦出題還是一門新興的研究領域

然而會有這樣的結果究其根本原因是因為英文是世界上研究

最多且研究歷史最悠久但同樣的研究在中文這樣的語言則是非常

不容易的一來中文的文法研究起步較晚二來早期的研究因為大量

移借西方文法理論而西方的語法理論有絕大部份都是建立在西方語

言的研究發現上因此引進西方文法理論雖然能解決中文文法與西

方文法共同的部份但對其中不同的部分則會因為不合適的語法分析

架構而無法使用(曹逢甫2004)而且華語文能力測驗是一門非常專

業的學問不同的題型有不同的出題策略(柯華葳2004)研究電腦

出題更需謹慎華語文電腦出題涵蓋的領域範圍如圖 1-1

3

圖 1-1 華語文電腦出題領域的涵蓋

12 研究問題

在英文電腦出題研究中英文詞彙語法(Multiple-choice cloze)

電腦出題已有相當廣泛的研究有很多方法值得華語文詞彙語法之電

腦出題借鏡然而用來篩選候選誘答選項的方法因為語言特性的差

別無法直接套用到華語文電腦出題上詞彙語法測驗是以選擇題方

式呈現而一題可用的選擇題必只有一最清楚之最佳答案(郭生玉

2004)若華語文詞彙語法電腦出題產生誘答選項後卻不能判斷候

選誘答選項非最佳答案則產生出來的題目也就不適用故本研究問

題為

「如何檢查華語文詞彙語法電腦出題產生的候選誘答選項非最佳答

案」

13 研究目的

本研究目的為設計一方法來計算華語文詞彙語法之誘答選項的

正答力然後藉由比較候選誘答選項正答力判斷是否比正確答案低

來檢查該候選誘答選項非最佳答案做為華語文電腦出題的基礎本

研究參考計算語言學的 Markov chainKatz Backoff及 Maximum

4

Likelihood Estimation(Jurafsky amp Martin 2009) 來設計本研究

的方法計算誘答選項的正答力本研究以 Google為語言模型的語

料來源利用 Google龐大的語料資源提升計算結果的準確度而

測詴本方法準確度是利用具有客觀公開可信度高的台灣 TOP-Huayu

的詞彙語法題共 100題

14 詞彙語法說明

克漏字 (cloze procedure)首先由 Taylor(1953)提出是用來

估算文章可讀程度的工具之後有研究者將「克漏字」用在測驗英語

母語學習者的閱讀能力同時也有一批研究者應用在測量 ESL的語言

能力後來「克漏字」演變成多種題型「華語文能力測驗」的「詞

彙語法」(Multiple-choice cloze)測驗(華語文能力測驗初等模擬詴

題2003)就是其中一種題型同「漢語水準考詴」HSK 的「語法結

構」第二部分及綜合填空第一部分(第一套 HSK模擬題2005)詞彙

語法測驗可以測出受詴者對中文詞彙及語法的熟練度及運用能力(張

莉萍2002)如圖 1-2在新版的 TOCFL改以「選詞填空」題型取

代「詞彙語法」本研究參考華語文測驗專家所給予的建議以台灣

TOP-Huayu詞彙語法為設計本方法及測詴本方法準確度的標竿做為

未來研究的基礎

弟弟做事很隨便這麼重要的事給他做我真的不能 ___

1 放心

2 擔心

3 關心

4 小心

圖 1-2 詞彙語法題範例其中選項 1是正確答案選項 234是

誘答選項

資料來源華語文能力測驗初等模擬詴題(2003)

5

15 研究限制

本研究有以下限制

1 本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu華

語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK

2 本研究利用Google搜尋全球資訊網的語料取得N-gram count值

由於全球資訊網的語料未經審核當真正用在分析華語文詞彙語法

電腦出題之誘答選項的正答力時可能會受到錯誤語法影響

3 本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取得

Google 網頁搜尋結果時從國內發出 Request 會和從國外發出

Request 所取得的結果數不同另外 Google 搜尋結果也會隨著時

間而改變所以不能保證本研究的評估結果 100重現

4 本研究使用的 Google 搜尋結果數為數據來源而搜尋結果數是網

頁數非精準的詞句數

5 本研究僅針對 Maximum Likelihood EstimationKatz backoff

Bigram Markov Chain5-gram Markov Chain 作研究並只以中

研院平衡語料庫及 Google 為 N-grams count 值的來源並不代表

其它的計算語言學方法不適合或沒有方法可以用來計算本研究中

的正答力

6

2 第二章 相關研究

本章介紹和本研究間接相關的研究議題作為本研究的參考包

含電腦輔助英文詞彙語法出題電腦出題設計原則華語文教學與測

驗探討

21 電腦輔助英文詞彙語法出題之探討

華語文電腦出題為剛起步的研究相關文獻並不多而華語文詞

彙語法之電腦出題研究也幾乎沒有故本研究調查數篇和英文詞彙語

法題之電腦出題的研究做為製作中文測驗之電腦出題的參考

本研究整理數篇電腦輔助英文克漏詞多選題出題研究並參考其

中篩選誘答選項的方法如表 2-1Goto et al(2010)及 Sumita

Sugaya amp Yamamoto(2005)將候選誘答選項和相鄰的二個詞一起放到

Google中搜尋若有結果表示該誘答選項不適用Liu et al(2005)

也是用一樣的方法但是語料來源是本身系統內的語料庫語料量較

少Chen Liouamp Chang(2006)利用文法規則來產生誘答選項挑選

跟答案不同詞性的選項(例如動詞介詞)藉錯誤的詞性來確保

選項是錯誤的

7

表 2-1 電腦輔助英文詞彙語法出題篩選誘答選項(a)方法一(b)方

法二

方法

將候選誘答選項和相鄰的二個詞(或更多)放到

Google 中(Goto et al 2010 Sumita et al 2005)或

一般語料庫(Liu et al 2005)搜尋若有結果表

示該誘答選項不適用

例子 This is the building what we had our first office

解釋

what 是候選誘答選項(正答是 which)用來搜

尋的字串可以是「building what we」也可以是

「the building what we had」但是嚴謹程度不一

樣若有結果表示該誘答選項不適用

(a) 方法一

方法 產生不同詞性規則的誘答選項藉此確保誘答選項

是錯誤選項(Chen et al 2006)

例子

Representative democracy seemed ______ simultaneously

during the eighteenth and nineteenth centuries in Britain

Europe and the United States

(A) to evolve

(B) to evolving

(C) evolving

(D) evolve

解釋 4 個選項的詞性都不同

(b) 方法二

以華語文詞彙語法題的觀點來看方法二較不適合用在本研究

因華語文詞彙題的誘答選項通常是同一種詞性且華語文是孤立語

不像英文有字尾型態變化另外Bensoussan 和 Ramraz(1984)也表示

在設計誘答選項時四個選項中最好都使用同一種詞性例如全部是

動詞避免提示效果故方法二不適合直接用來計算及篩選本研究的

8

誘答選項

本研究也是利用 Google 網頁搜尋為 N-gram count值的來源但

是所用的計算方法和「方法一」不同由於上述學者的方法是應用在

英文詞彙語法出題如果用在本研究的華語文詞彙語法出題上會將

具有誘答力易混肴的一些較好的誘答選項過濾掉所以不適合用在

本研究上

本研究另外參考計算語言學 Markov chain(Jurafsky amp Martin

2009)技術計算誘答選項的正答力確保候選誘答選項非最佳答案

22 電腦出題設計原則

本研究在調查完電腦輔助英文克漏詞多選題出題(Chen et al

2006 Goto et al2010 Sumita et al2005)及其它電腦出題研

究(Yang 2006)後歸納出電腦出題可分為半自動的輔助出題和全自

動的自動出題本研究融合這兩種觀念提出電腦出題研究的原則

輔助出題是電腦提供題目資訊來協助出題者例如電腦產生誘

答選項的清單出題者自行決定可用的選項但是輔助出題是把資料

傾倒出來不確定是否有用有可能會額外增加老師的負擔自動出

題是由電腦決定例如電腦直接產生它覺得可用的三個誘答選項而

過程不需要出題者介入出題者直接套用結果

雖然看起來電腦自動出題是最佳的方式但是實務上幾近不可能

原因如下

1 測驗是一門很深的理論有許多出題規則包含明確及模糊的規

則華語文能力測驗更是如此所以很難將所有規則都具體且明

確化並套用到電腦程式裡

2 出題老師的出題規則往往是用直覺而直覺裡才包含著經驗和知

識所以很難將出題老師的出題規則具體且明確化

3 每位出題老師的出題規則都不同例如有的老師覺得誘答選項

要同一詞性有的覺得要不同詞性因此不可能有一套自動出

9

題系統能滿足所有人的要求所以嚴格來說不可能實現真正符

合需求的電腦自動出題

本研究認為電腦出題應以電腦自動出題為目標但是以電腦輔助

出題的方式呈現本研究建議使用推薦方式能保有兩種出題方式的

優點而本研究所提出的正答力計算方法除了用來過濾電腦自動出

題的候選誘答選項外也可以當作排序的依據呈現候選誘答選項輔

助詴題研發人員選擇最適合的誘答選項

23 華語文測驗與教學探討

3 現今國際上重要的能力考詴皆致力於對應於 CEFR 能力架構

(Council of Europe2001)台灣所研發的華語文能力測驗也是依據

CEFR指標同時也對應了 CEFR的級數到台灣師範大學語言中心的教

材張莉萍陳鳳儀(2008)提出台灣華語文能力測驗的分級方式分

級依據學生來參加考詴的前一個星期所上的教材落點為劃分標準其

劃分方式本研究整理如下

1 基礎級(TOP-beginner)

在台灣師範大學語言中心學習 150小時以上的學生

等於 CEFR所描述的 A2語言能力

能了解大部分與切身相關的句子及常用詞彙例如非常基本之

個人及家族資訊購物當地地理環境工作狀況等針對熟悉

單純例行性的任務能以簡單直接地溝通方式交換訊息能

簡單地敘述出個人背景週遭環境及立即需求

2 進階級(TOP-learner)

讀完新版實用視聽華語系列教材一-四冊(約 530個學時)

等於 CEFR所描述的 B1語言能力

針對一般職場學校休閒等場合常遇到的熟悉事物時在接

10

收到標準且清晰的信息後能瞭解其重點在目標語言地區旅遊

時能應付大部分可能會出現的一般狀況針對熟悉及私人感興

趣之主題能簡單地撰稿能敘述經驗事件夢想希望及志向

對看法及計畫能簡短地解釋理由及做出說明

3 高階級(Top-superior)

讀完新版實用視聽華語系列教材四冊後再讀完遠東生活華語三

第八單元的學生(約 610學時)

能通過百分之六十七 CEFR B2等級的題目

針對具體及抽象主題的複雜文字能瞭解其重點主題涵蓋個人

專業領域的技術討論能即時地以母語作互動有一定的流暢度

且不會讓任一方感到緊張能針對相當多的主題撰寫出一份完整

詳細的文章並可針對所提各議題重點做出優缺點說明

上述教材當初並非依據 CEFR 能力指標規劃完整系列而是針

對教材內容主題做了對應例如有的教材雖然屬於 B2 教材但

不代表學生學完這本教材即具有 B2 能力因為該本教材可能只具備

部分 B2能力或說學生要具備 B2能力原本就不會只讀一本教材現

階段華語文能力測驗關心的是如何幫助學生有效地從 B1 跨越到 B2

並選擇適當的教材或課程規劃

11

3 第三章 研究工具

本章介紹本研究基礎的三項工具由於此三項工具使得本研究的

方法得以實現本章將介紹中研院斷詞系統Google 網頁搜尋

TOP-Huayu詞彙語法

31 中研院斷詞系統

要進行華語文語句分析必須將語句斷詞後才能處理本研究

利用中央研究院中文資訊處理實驗室詞庫小組所發展的中文斷詞系

統 httpckipsvriissinicaedutw將句子斷成數個詞並重新組成

N-grams

在偵測未知詞的部份是利用基於語料庫的方法找出句法規則再

利用此規則來分辨單音節元素然後找出未知詞或錯誤用法(Chen amp

Bai1998)斷詞後的範例

這(Nep) 是(SHI) 一(Neu) 家(Nf) 擁有(VJ) 五百(Neu) 名(Nf) 員工(Na) 的

(DE) 中型(A) 企業(Na) (PERIODCATEGORY)

利用 Hong Kong Cityu(HK)的 closedtrack 及 open track

Beijing University (PK)的 closedtrack 及 open track共 4 種

評估此斷詞系統結果具有相當高的 F scores(Ma amp Chen2003)

如表 3-1及表 3-2其中英文字母代表依序為test recall (R) test

precision (P)F score(F)the out-of-vocabulary (OOV) rate for

the test corpusthe recall on OOV words(Roov)及 the recall on

in-vocabulary(Riv) words

12

表 3-1 Scores for HK

R P F OOV Roov Riv

Closed 0947 0934 0940 0071 0625 0972

Open 0958 0954 0956 0071 0788 0971

資料來源 Ma amp Chen(2003)

表 3-2 Scores for PK

R P F OOV Roov Riv

Closed 0939 0934 0936 0069 0642 0961

Open 0939 0938 0938 0069 0675 0959

資料來源 Ma amp Chen(2003)

圖 3-1 中研院中文斷詞系統網站

資料來源中文斷詞系統 httpckipsvriissinicaedutw

13

中研院中文斷詞系統已經廣泛的被各種領域的學者所使用例如

陳慶龍(2007)利用此斷詞系統製作中文體育知識問答系統Huang

ChiuChuanSandnes(2010)製作一個可以診斷憂鬱症的語言分析器

其中利用中研院中文斷詞系統來擷取關鍵字

32 Google 網頁搜尋

1995 年 Google 的創辦人美國史丹福大學的研究生 Larry Page

以及 Sergey Brin憑藉其資訊工程的專長開發名為 BackRub的搜尋

引擎後來正式更名為 Google其任務在於組織全世界的資訊讓

全球都能使用並有所禆益可說是目前全球最大的搜尋引撆現代人

幾乎只要提到資料搜索都絕對離不開 Google 搜尋正因為它可以在

短時間內找到相當豐富的資料查詢所得的結果遠多於其他搜尋網站

因此已經成為許多人不可或缺的工具(童國倫潘奕萍 2009)故本

研究以 Google為 N-gram count值的來源分析選項正答力

GOOGLE支援多達一百三十二種語言包括簡體中文和繁體中文

並有「頁庫存檔」功能即使網頁檔案被刪除仍然可以查詢到資料

而且可以搜尋的資料類型至少包括以下幾種格式

Adobe Portable Document Format (pdf)

Adobe PostScript (ps)

Lotus 1-2-3 (wk1 wk2 wk3 wk4 wk5 wki wks wku)

Lotus WordPro (lwp)

MacWrite (mw)

Microsoft Excel (xls)

Microsoft PowerPoint (ppt)

Microsoft Word (doc)

Microsoft Works (wks wps wdb)

Microsoft Write (wri)

Rich Text Format (rtf)

Shockwave Flash (swf)

Text (ans txt)

HyperText Markup Language (html)

14

Google 目前已被廣泛應用在各種自然語言處理研究中例如

FigueroaNeumann與 Atkinson (2009)利用 Google來擷取知識作

出基於 Surface Patterns的定義型問題問答系統CaiCuiMiao

Zhao與 Ren(2004)利用 Google Web APIs作出中文自動問答系統

Kilgarriff(2007)描述了使用 Google 這類官方搜尋引擎時會有

的幾個議題本研究整理列出並解釋和本研究的關係

1 官方搜尋引擎不考慮 Lemmatize(如英文同詞幹不同詞性的字)及

Part-Of-Speech tag但是中文沒有 Lemmatize的問題而本研究

設計的方法不使用 Part-Of-Speech tag

2 官方搜尋引擎的搜尋語法有限例如有無提供「萬用字元」及模糊

算子本研究只使用 Google的雙引號「」Query功能表示嚴格

限定只找包含完整 Query字串的網頁

3 官方搜尋引擎有 Query數限制在固定時間內使用者只能發出有限

的 Query而本研究以延長搜尋間隔時間來解決

4 官方搜尋引擎的搜尋結果數是網頁數而非詞句數由於無法下載

所有 hit pages的內容精準統計語句次數故本研究利用網頁數

做為數據來源此為本研究的限制

5 搜尋結果數中可能有重覆的資料例如不同網址有同樣文件內容

此問題雖然會影響結果但是本研究所設計的方法主要是利用最長

可得結果字串的長度為評分依據而搜尋結果數只影響分數中的小

數部份對本研究只佔了小部份的影響

33 TOP-Huayu 詞彙語法

臺灣華語文能力測驗的前身是 2003 年國立臺灣師範大學國語教

學中心華語文教學研究所與心理教育測驗中心三個團隊所共同研發

的「華語文能力測驗」(Chinese Proficiency Test CPT)2005 年

11 月教育部提升這個測驗為國家級的測驗並改為 TOP-Huayu(張莉

萍 2007)2010 年再改版為 TOCFL到 2010 年 11 月份為止臺灣

15

華語文能力測驗的到考人數已達到 11527 人成功取得證書人數更

有 6080 人(國家華語測驗推動工作委員會2009)如表 3-3表示

此測驗在國際上已具有相當的知名度

表 3-3 臺灣華語文能力測驗 2003年 12月到 2010年 11月份累計各

等級到考及獲證人數分佈(基礎測驗從 2007年 11月開始)

到考人數 獲得證書

人數 通過率()

基礎測驗 1729 1324 7662

初等測驗 3572 1620 4543

中等測驗 4184 1719 4114

高等測驗 2042 1345 6587

資料來源國家華語測驗推動工作委員會(2009)

由於地緣關係本研究使用台灣華語文能力測驗且由於新版的

TOCFL「選詞填空」的形式較 TOP-Huayu 詞彙語法複雜本研究參考

專家的建議後以台灣 TOP-Huayu詞彙語法為製作系統及分析準確度

的標竿並做為未來研究的基礎洪小雯(2009)表示「詞彙語法」

的題型儘管較為傳統但其著重測詴語言知識的考量不宜偏廢畢竟

在外語的學習過程中語言知識是決定語言能力的基礎

TOP-Huayu的詞彙分級方法參考自張莉萍陳鳳儀(2006)所訂

定的規則詞彙來源主要參考自台灣師大華語文能力測驗詞彙分級表

張莉萍(2002)(以下簡稱 CPT詞彙表)漢語水平詞彙等級大綱(國

家對外漢語教學領導小組辦公室漢語水平考詴部1992)(以下簡稱

HSK詞彙表)CPT和 HSK的詞彙交集分佈如表 3-4

在華語文能力測驗與歐洲共同架構 CEFR 的對應關係方面藍珮

君(2007)研究基礎華語文能力測驗與 CEFR 對應程度發現測驗等

級介於 CEFR A1 與 A2 之間屬於初級使用者的程度表示該測驗可

16

適當的測出受詴者的能力

表 3-4 CPT vs HSK等級詞彙的交集

HSK cap CPT CPT詞彙表(10155個)

初(1507) 中(3684) 高(4964)

HSK詞彙表

(8767個)

甲(1027) 683 231 17

乙(2003) 330 805 265

丙(2188) 141 486 474

丁(3569) 54 406 632

資料來源張莉萍陳鳳儀(2006)

17

4 第四章 正答力計算方法

本研究提出一個篩選詞彙語法電腦出題的候選誘答選項的方法

在不斷的測詴與改進基於 Markov Chain及 Katz Backoff的概念

並且使用 Google做為 N-gram count值的來源設計了一個方法來計

算詞彙語法題之候選誘答選項的正答力計算正答力的概念如圖 4-1

先計算正確答案正答力如圖 4-2然後計算每個候選誘答選項正答

力如圖 4-3使能和正確答案的正答力比較

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖

圖 4-2 計算正確答案正答力範例

18

圖 4-3 計算並比較正確答案和誘答選項正答力的範例

在實際應用時若該候選誘答選項的正答力大於正確答案表示

該選項為最佳答案則選項不適用如圖 4-3將其過慮掉本章包

含計算正答力之前及之後需處理的「前後置處理」完成本方法之前

所參考的「其它計算正答力方法」然後是本研究最後呈現的「基於

全球資訊網的正答力計算方法」最後是新舊方法的「方法比較」

41 前後置處理

圖 4-4為本方法前後置處理的流程圖虛線圍起來的部份是本研

究的核心方法本節介紹前後置處理包含計算正答力的前置及後續

處理工作

19

圖 4-4 前後置處理流程圖

如圖 4-4「輸入題幹及選項」輸入一題詞彙語法題的題幹及 4

個選項此部份可視為華語文詞彙語法電腦出題系統產生候選誘答選

項後將選項輸入該系統以計算該選項的正答力如下題幹及選項

(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

「將題幹及選項組成句子」將選項和題幹組成一個完整的句子4

個選項則產生 4個句子如下範例

20

我國天然資源不多礦產種類只有煤和石油

我國天然材料不多礦產種類只有煤和石油

我國天然產品不多礦產種類只有煤和石油

我國天然原料不多礦產種類只有煤和石油

「斷詞」將每個句子經由 Internet送到中研院斷詞系統進行斷詞

方便後續分析正答力如下範例句子斷詞後的結果「」表分隔

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

我國 天然 材料 不 多 礦產 種類 只有 煤 和 石油

我國 天然 產品 不 多 礦產 種類 只有 煤 和 石油

我國 天然 原料 不 多 礦產 種類 只有 煤 和 石油

「計算正答力」此模組負責計算每個選項的正答力為本研究

的核心部份計算方法將在下一節詳細介紹

「呈現正答力」輸出該選項的正答力分數結果供電腦出題系

統判斷候選誘答選項非最佳答案或直接供詴題研發人員參考如下

範例

「資源」選項的正答力=17581062

「材料」選項的正答力=5614006

「產品」選項的正答力=7181650

「原料」選項的正答力=5623282

本系統計算出來的是相對正答力不能比較不同題目的相同誘答選項

正答力

42 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法本研究參考了

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 9: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

vii

表目錄

表 2-1 電腦輔助英文詞彙語法出題篩選誘答選項(a)方法一(b)方法二 7

表 3-1 Scores for HK 12

表 3-2 Scores for PK 12

表 3-3 臺灣華語文能力測驗 2003 年 12 月到 2010 年 11 月份累計各等級到考及

獲證人數分佈(基礎測驗從 2007 年 11 月開始) 15

表 3-4 CPT vs HSK 等級詞彙的交集 16

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams 架構表 22

表 4-2 「5-gram Markov Chain 方法」的 Language Model N-grams 架構表 24

表 4-3 計算過程(a)1~4 回合(b)5 回合(c)6 回合 28

表 4-4 相同字串比較表 29

表 4-5 部份正答力 F 計算結果比較表 29

表 5-1 詞彙語法題目及答案架構列表 38

表 5-2 測試結果統計表 40

1

1 第一章 緒論

11 研究背景與動機

中國國家漢辦主任孔子學院總部理事長許琳在瀋陽舉行的第十

屆國際漢語教學研討會上表示目前全球學習漢語的人數已超過四千

萬在北京的推動下這個數字還在持續增加當中(MercoPress 2010)

而華語文能力測驗也逐漸成為如TOEIC或TOEFL這種世界標準的語

文能力測驗像是臺灣華語文能力測驗 TOP-Huayu 及 TOCFL中國

「漢語水準考詴 HSK」日本「中國語檢定詴驗」及「TECC」美國

「SATII-Chinese」及「CPT」(張莉萍2007)

中國大陸的 HSK 於 1990 年正式推出(張莉萍2002)並逐步推

廣到全世界台灣的華語文測驗 TOP-Huayu 則在 2005 年才成為正式

的國家級測驗(張莉萍2007)發展較中國大陸晚十五年

拜科技所賜目前我們可以利用電腦輔助完成這種耗時耗力的工

作電腦有機械式出題的優點只要給特定明確的規則就可以產生

大量的題目由於測驗題庫需要持續性的汰舊換新與維護管理(陳柏

熹2010)因此需要大量撰寫新詴題過程繁雜且耗時(余民寧

2010)發展電腦出題可以提升測驗題庫的規模進而提升測驗的水

在電腦輔助語言測驗(Computer-Assisted Language Testing CALT)

領域TOP-Huayu及HSK己有不少研究以Silye和Wiwczaroski(2002)

對 CALT 議題的分類方式電腦輔助華語文測驗可以說己經有相當完

整的研究我們可以在每一類議題都找到對應的研究「Item banking」

電腦測驗題庫管理與分析議題(張國恩陳學志鄭錦全宋曜廷

蔡雅薰周中天2010 鹿士義余嘉元 2003)「Computer-assisted

language testing」電腦呈現語言測驗議題(余坤庭陳劭茹林宗璋

周中天2009)「Computer-adaptive language testing」電腦化適性語

2

言測驗議題(洪豪哲林孟君劉育隆郭伯臣2010 Wang Kuo amp

Chao 2010)「Web-based language testing」線上語言測驗議題(陳懷萱

鄧智生2003)

但是上述的「電腦輔助語言測驗」研究中卻沒有華語文電腦出

題反觀英文電腦出題己有相當數量的研究無論是英語系國家

(Mitkov amp Ha 2003)日本(Goto Kojiri Watanabe Iwata amp Yamada

2010)台灣(Liu Wang amp Gao 2005)等等都有學者發表這一方面的

研究

本研究也訪談具有十年以上研究華語文測驗經驗的專家調查關

於華語文電腦出題的需求截至本研究目前所調查的電腦出題相關研

究及訪談結果尚未發現有研究是針對外籍人士的華語文測驗作電腦

「自動」出題顯示華語文電腦出題還是一門新興的研究領域

然而會有這樣的結果究其根本原因是因為英文是世界上研究

最多且研究歷史最悠久但同樣的研究在中文這樣的語言則是非常

不容易的一來中文的文法研究起步較晚二來早期的研究因為大量

移借西方文法理論而西方的語法理論有絕大部份都是建立在西方語

言的研究發現上因此引進西方文法理論雖然能解決中文文法與西

方文法共同的部份但對其中不同的部分則會因為不合適的語法分析

架構而無法使用(曹逢甫2004)而且華語文能力測驗是一門非常專

業的學問不同的題型有不同的出題策略(柯華葳2004)研究電腦

出題更需謹慎華語文電腦出題涵蓋的領域範圍如圖 1-1

3

圖 1-1 華語文電腦出題領域的涵蓋

12 研究問題

在英文電腦出題研究中英文詞彙語法(Multiple-choice cloze)

電腦出題已有相當廣泛的研究有很多方法值得華語文詞彙語法之電

腦出題借鏡然而用來篩選候選誘答選項的方法因為語言特性的差

別無法直接套用到華語文電腦出題上詞彙語法測驗是以選擇題方

式呈現而一題可用的選擇題必只有一最清楚之最佳答案(郭生玉

2004)若華語文詞彙語法電腦出題產生誘答選項後卻不能判斷候

選誘答選項非最佳答案則產生出來的題目也就不適用故本研究問

題為

「如何檢查華語文詞彙語法電腦出題產生的候選誘答選項非最佳答

案」

13 研究目的

本研究目的為設計一方法來計算華語文詞彙語法之誘答選項的

正答力然後藉由比較候選誘答選項正答力判斷是否比正確答案低

來檢查該候選誘答選項非最佳答案做為華語文電腦出題的基礎本

研究參考計算語言學的 Markov chainKatz Backoff及 Maximum

4

Likelihood Estimation(Jurafsky amp Martin 2009) 來設計本研究

的方法計算誘答選項的正答力本研究以 Google為語言模型的語

料來源利用 Google龐大的語料資源提升計算結果的準確度而

測詴本方法準確度是利用具有客觀公開可信度高的台灣 TOP-Huayu

的詞彙語法題共 100題

14 詞彙語法說明

克漏字 (cloze procedure)首先由 Taylor(1953)提出是用來

估算文章可讀程度的工具之後有研究者將「克漏字」用在測驗英語

母語學習者的閱讀能力同時也有一批研究者應用在測量 ESL的語言

能力後來「克漏字」演變成多種題型「華語文能力測驗」的「詞

彙語法」(Multiple-choice cloze)測驗(華語文能力測驗初等模擬詴

題2003)就是其中一種題型同「漢語水準考詴」HSK 的「語法結

構」第二部分及綜合填空第一部分(第一套 HSK模擬題2005)詞彙

語法測驗可以測出受詴者對中文詞彙及語法的熟練度及運用能力(張

莉萍2002)如圖 1-2在新版的 TOCFL改以「選詞填空」題型取

代「詞彙語法」本研究參考華語文測驗專家所給予的建議以台灣

TOP-Huayu詞彙語法為設計本方法及測詴本方法準確度的標竿做為

未來研究的基礎

弟弟做事很隨便這麼重要的事給他做我真的不能 ___

1 放心

2 擔心

3 關心

4 小心

圖 1-2 詞彙語法題範例其中選項 1是正確答案選項 234是

誘答選項

資料來源華語文能力測驗初等模擬詴題(2003)

5

15 研究限制

本研究有以下限制

1 本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu華

語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK

2 本研究利用Google搜尋全球資訊網的語料取得N-gram count值

由於全球資訊網的語料未經審核當真正用在分析華語文詞彙語法

電腦出題之誘答選項的正答力時可能會受到錯誤語法影響

3 本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取得

Google 網頁搜尋結果時從國內發出 Request 會和從國外發出

Request 所取得的結果數不同另外 Google 搜尋結果也會隨著時

間而改變所以不能保證本研究的評估結果 100重現

4 本研究使用的 Google 搜尋結果數為數據來源而搜尋結果數是網

頁數非精準的詞句數

5 本研究僅針對 Maximum Likelihood EstimationKatz backoff

Bigram Markov Chain5-gram Markov Chain 作研究並只以中

研院平衡語料庫及 Google 為 N-grams count 值的來源並不代表

其它的計算語言學方法不適合或沒有方法可以用來計算本研究中

的正答力

6

2 第二章 相關研究

本章介紹和本研究間接相關的研究議題作為本研究的參考包

含電腦輔助英文詞彙語法出題電腦出題設計原則華語文教學與測

驗探討

21 電腦輔助英文詞彙語法出題之探討

華語文電腦出題為剛起步的研究相關文獻並不多而華語文詞

彙語法之電腦出題研究也幾乎沒有故本研究調查數篇和英文詞彙語

法題之電腦出題的研究做為製作中文測驗之電腦出題的參考

本研究整理數篇電腦輔助英文克漏詞多選題出題研究並參考其

中篩選誘答選項的方法如表 2-1Goto et al(2010)及 Sumita

Sugaya amp Yamamoto(2005)將候選誘答選項和相鄰的二個詞一起放到

Google中搜尋若有結果表示該誘答選項不適用Liu et al(2005)

也是用一樣的方法但是語料來源是本身系統內的語料庫語料量較

少Chen Liouamp Chang(2006)利用文法規則來產生誘答選項挑選

跟答案不同詞性的選項(例如動詞介詞)藉錯誤的詞性來確保

選項是錯誤的

7

表 2-1 電腦輔助英文詞彙語法出題篩選誘答選項(a)方法一(b)方

法二

方法

將候選誘答選項和相鄰的二個詞(或更多)放到

Google 中(Goto et al 2010 Sumita et al 2005)或

一般語料庫(Liu et al 2005)搜尋若有結果表

示該誘答選項不適用

例子 This is the building what we had our first office

解釋

what 是候選誘答選項(正答是 which)用來搜

尋的字串可以是「building what we」也可以是

「the building what we had」但是嚴謹程度不一

樣若有結果表示該誘答選項不適用

(a) 方法一

方法 產生不同詞性規則的誘答選項藉此確保誘答選項

是錯誤選項(Chen et al 2006)

例子

Representative democracy seemed ______ simultaneously

during the eighteenth and nineteenth centuries in Britain

Europe and the United States

(A) to evolve

(B) to evolving

(C) evolving

(D) evolve

解釋 4 個選項的詞性都不同

(b) 方法二

以華語文詞彙語法題的觀點來看方法二較不適合用在本研究

因華語文詞彙題的誘答選項通常是同一種詞性且華語文是孤立語

不像英文有字尾型態變化另外Bensoussan 和 Ramraz(1984)也表示

在設計誘答選項時四個選項中最好都使用同一種詞性例如全部是

動詞避免提示效果故方法二不適合直接用來計算及篩選本研究的

8

誘答選項

本研究也是利用 Google 網頁搜尋為 N-gram count值的來源但

是所用的計算方法和「方法一」不同由於上述學者的方法是應用在

英文詞彙語法出題如果用在本研究的華語文詞彙語法出題上會將

具有誘答力易混肴的一些較好的誘答選項過濾掉所以不適合用在

本研究上

本研究另外參考計算語言學 Markov chain(Jurafsky amp Martin

2009)技術計算誘答選項的正答力確保候選誘答選項非最佳答案

22 電腦出題設計原則

本研究在調查完電腦輔助英文克漏詞多選題出題(Chen et al

2006 Goto et al2010 Sumita et al2005)及其它電腦出題研

究(Yang 2006)後歸納出電腦出題可分為半自動的輔助出題和全自

動的自動出題本研究融合這兩種觀念提出電腦出題研究的原則

輔助出題是電腦提供題目資訊來協助出題者例如電腦產生誘

答選項的清單出題者自行決定可用的選項但是輔助出題是把資料

傾倒出來不確定是否有用有可能會額外增加老師的負擔自動出

題是由電腦決定例如電腦直接產生它覺得可用的三個誘答選項而

過程不需要出題者介入出題者直接套用結果

雖然看起來電腦自動出題是最佳的方式但是實務上幾近不可能

原因如下

1 測驗是一門很深的理論有許多出題規則包含明確及模糊的規

則華語文能力測驗更是如此所以很難將所有規則都具體且明

確化並套用到電腦程式裡

2 出題老師的出題規則往往是用直覺而直覺裡才包含著經驗和知

識所以很難將出題老師的出題規則具體且明確化

3 每位出題老師的出題規則都不同例如有的老師覺得誘答選項

要同一詞性有的覺得要不同詞性因此不可能有一套自動出

9

題系統能滿足所有人的要求所以嚴格來說不可能實現真正符

合需求的電腦自動出題

本研究認為電腦出題應以電腦自動出題為目標但是以電腦輔助

出題的方式呈現本研究建議使用推薦方式能保有兩種出題方式的

優點而本研究所提出的正答力計算方法除了用來過濾電腦自動出

題的候選誘答選項外也可以當作排序的依據呈現候選誘答選項輔

助詴題研發人員選擇最適合的誘答選項

23 華語文測驗與教學探討

3 現今國際上重要的能力考詴皆致力於對應於 CEFR 能力架構

(Council of Europe2001)台灣所研發的華語文能力測驗也是依據

CEFR指標同時也對應了 CEFR的級數到台灣師範大學語言中心的教

材張莉萍陳鳳儀(2008)提出台灣華語文能力測驗的分級方式分

級依據學生來參加考詴的前一個星期所上的教材落點為劃分標準其

劃分方式本研究整理如下

1 基礎級(TOP-beginner)

在台灣師範大學語言中心學習 150小時以上的學生

等於 CEFR所描述的 A2語言能力

能了解大部分與切身相關的句子及常用詞彙例如非常基本之

個人及家族資訊購物當地地理環境工作狀況等針對熟悉

單純例行性的任務能以簡單直接地溝通方式交換訊息能

簡單地敘述出個人背景週遭環境及立即需求

2 進階級(TOP-learner)

讀完新版實用視聽華語系列教材一-四冊(約 530個學時)

等於 CEFR所描述的 B1語言能力

針對一般職場學校休閒等場合常遇到的熟悉事物時在接

10

收到標準且清晰的信息後能瞭解其重點在目標語言地區旅遊

時能應付大部分可能會出現的一般狀況針對熟悉及私人感興

趣之主題能簡單地撰稿能敘述經驗事件夢想希望及志向

對看法及計畫能簡短地解釋理由及做出說明

3 高階級(Top-superior)

讀完新版實用視聽華語系列教材四冊後再讀完遠東生活華語三

第八單元的學生(約 610學時)

能通過百分之六十七 CEFR B2等級的題目

針對具體及抽象主題的複雜文字能瞭解其重點主題涵蓋個人

專業領域的技術討論能即時地以母語作互動有一定的流暢度

且不會讓任一方感到緊張能針對相當多的主題撰寫出一份完整

詳細的文章並可針對所提各議題重點做出優缺點說明

上述教材當初並非依據 CEFR 能力指標規劃完整系列而是針

對教材內容主題做了對應例如有的教材雖然屬於 B2 教材但

不代表學生學完這本教材即具有 B2 能力因為該本教材可能只具備

部分 B2能力或說學生要具備 B2能力原本就不會只讀一本教材現

階段華語文能力測驗關心的是如何幫助學生有效地從 B1 跨越到 B2

並選擇適當的教材或課程規劃

11

3 第三章 研究工具

本章介紹本研究基礎的三項工具由於此三項工具使得本研究的

方法得以實現本章將介紹中研院斷詞系統Google 網頁搜尋

TOP-Huayu詞彙語法

31 中研院斷詞系統

要進行華語文語句分析必須將語句斷詞後才能處理本研究

利用中央研究院中文資訊處理實驗室詞庫小組所發展的中文斷詞系

統 httpckipsvriissinicaedutw將句子斷成數個詞並重新組成

N-grams

在偵測未知詞的部份是利用基於語料庫的方法找出句法規則再

利用此規則來分辨單音節元素然後找出未知詞或錯誤用法(Chen amp

Bai1998)斷詞後的範例

這(Nep) 是(SHI) 一(Neu) 家(Nf) 擁有(VJ) 五百(Neu) 名(Nf) 員工(Na) 的

(DE) 中型(A) 企業(Na) (PERIODCATEGORY)

利用 Hong Kong Cityu(HK)的 closedtrack 及 open track

Beijing University (PK)的 closedtrack 及 open track共 4 種

評估此斷詞系統結果具有相當高的 F scores(Ma amp Chen2003)

如表 3-1及表 3-2其中英文字母代表依序為test recall (R) test

precision (P)F score(F)the out-of-vocabulary (OOV) rate for

the test corpusthe recall on OOV words(Roov)及 the recall on

in-vocabulary(Riv) words

12

表 3-1 Scores for HK

R P F OOV Roov Riv

Closed 0947 0934 0940 0071 0625 0972

Open 0958 0954 0956 0071 0788 0971

資料來源 Ma amp Chen(2003)

表 3-2 Scores for PK

R P F OOV Roov Riv

Closed 0939 0934 0936 0069 0642 0961

Open 0939 0938 0938 0069 0675 0959

資料來源 Ma amp Chen(2003)

圖 3-1 中研院中文斷詞系統網站

資料來源中文斷詞系統 httpckipsvriissinicaedutw

13

中研院中文斷詞系統已經廣泛的被各種領域的學者所使用例如

陳慶龍(2007)利用此斷詞系統製作中文體育知識問答系統Huang

ChiuChuanSandnes(2010)製作一個可以診斷憂鬱症的語言分析器

其中利用中研院中文斷詞系統來擷取關鍵字

32 Google 網頁搜尋

1995 年 Google 的創辦人美國史丹福大學的研究生 Larry Page

以及 Sergey Brin憑藉其資訊工程的專長開發名為 BackRub的搜尋

引擎後來正式更名為 Google其任務在於組織全世界的資訊讓

全球都能使用並有所禆益可說是目前全球最大的搜尋引撆現代人

幾乎只要提到資料搜索都絕對離不開 Google 搜尋正因為它可以在

短時間內找到相當豐富的資料查詢所得的結果遠多於其他搜尋網站

因此已經成為許多人不可或缺的工具(童國倫潘奕萍 2009)故本

研究以 Google為 N-gram count值的來源分析選項正答力

GOOGLE支援多達一百三十二種語言包括簡體中文和繁體中文

並有「頁庫存檔」功能即使網頁檔案被刪除仍然可以查詢到資料

而且可以搜尋的資料類型至少包括以下幾種格式

Adobe Portable Document Format (pdf)

Adobe PostScript (ps)

Lotus 1-2-3 (wk1 wk2 wk3 wk4 wk5 wki wks wku)

Lotus WordPro (lwp)

MacWrite (mw)

Microsoft Excel (xls)

Microsoft PowerPoint (ppt)

Microsoft Word (doc)

Microsoft Works (wks wps wdb)

Microsoft Write (wri)

Rich Text Format (rtf)

Shockwave Flash (swf)

Text (ans txt)

HyperText Markup Language (html)

14

Google 目前已被廣泛應用在各種自然語言處理研究中例如

FigueroaNeumann與 Atkinson (2009)利用 Google來擷取知識作

出基於 Surface Patterns的定義型問題問答系統CaiCuiMiao

Zhao與 Ren(2004)利用 Google Web APIs作出中文自動問答系統

Kilgarriff(2007)描述了使用 Google 這類官方搜尋引擎時會有

的幾個議題本研究整理列出並解釋和本研究的關係

1 官方搜尋引擎不考慮 Lemmatize(如英文同詞幹不同詞性的字)及

Part-Of-Speech tag但是中文沒有 Lemmatize的問題而本研究

設計的方法不使用 Part-Of-Speech tag

2 官方搜尋引擎的搜尋語法有限例如有無提供「萬用字元」及模糊

算子本研究只使用 Google的雙引號「」Query功能表示嚴格

限定只找包含完整 Query字串的網頁

3 官方搜尋引擎有 Query數限制在固定時間內使用者只能發出有限

的 Query而本研究以延長搜尋間隔時間來解決

4 官方搜尋引擎的搜尋結果數是網頁數而非詞句數由於無法下載

所有 hit pages的內容精準統計語句次數故本研究利用網頁數

做為數據來源此為本研究的限制

5 搜尋結果數中可能有重覆的資料例如不同網址有同樣文件內容

此問題雖然會影響結果但是本研究所設計的方法主要是利用最長

可得結果字串的長度為評分依據而搜尋結果數只影響分數中的小

數部份對本研究只佔了小部份的影響

33 TOP-Huayu 詞彙語法

臺灣華語文能力測驗的前身是 2003 年國立臺灣師範大學國語教

學中心華語文教學研究所與心理教育測驗中心三個團隊所共同研發

的「華語文能力測驗」(Chinese Proficiency Test CPT)2005 年

11 月教育部提升這個測驗為國家級的測驗並改為 TOP-Huayu(張莉

萍 2007)2010 年再改版為 TOCFL到 2010 年 11 月份為止臺灣

15

華語文能力測驗的到考人數已達到 11527 人成功取得證書人數更

有 6080 人(國家華語測驗推動工作委員會2009)如表 3-3表示

此測驗在國際上已具有相當的知名度

表 3-3 臺灣華語文能力測驗 2003年 12月到 2010年 11月份累計各

等級到考及獲證人數分佈(基礎測驗從 2007年 11月開始)

到考人數 獲得證書

人數 通過率()

基礎測驗 1729 1324 7662

初等測驗 3572 1620 4543

中等測驗 4184 1719 4114

高等測驗 2042 1345 6587

資料來源國家華語測驗推動工作委員會(2009)

由於地緣關係本研究使用台灣華語文能力測驗且由於新版的

TOCFL「選詞填空」的形式較 TOP-Huayu 詞彙語法複雜本研究參考

專家的建議後以台灣 TOP-Huayu詞彙語法為製作系統及分析準確度

的標竿並做為未來研究的基礎洪小雯(2009)表示「詞彙語法」

的題型儘管較為傳統但其著重測詴語言知識的考量不宜偏廢畢竟

在外語的學習過程中語言知識是決定語言能力的基礎

TOP-Huayu的詞彙分級方法參考自張莉萍陳鳳儀(2006)所訂

定的規則詞彙來源主要參考自台灣師大華語文能力測驗詞彙分級表

張莉萍(2002)(以下簡稱 CPT詞彙表)漢語水平詞彙等級大綱(國

家對外漢語教學領導小組辦公室漢語水平考詴部1992)(以下簡稱

HSK詞彙表)CPT和 HSK的詞彙交集分佈如表 3-4

在華語文能力測驗與歐洲共同架構 CEFR 的對應關係方面藍珮

君(2007)研究基礎華語文能力測驗與 CEFR 對應程度發現測驗等

級介於 CEFR A1 與 A2 之間屬於初級使用者的程度表示該測驗可

16

適當的測出受詴者的能力

表 3-4 CPT vs HSK等級詞彙的交集

HSK cap CPT CPT詞彙表(10155個)

初(1507) 中(3684) 高(4964)

HSK詞彙表

(8767個)

甲(1027) 683 231 17

乙(2003) 330 805 265

丙(2188) 141 486 474

丁(3569) 54 406 632

資料來源張莉萍陳鳳儀(2006)

17

4 第四章 正答力計算方法

本研究提出一個篩選詞彙語法電腦出題的候選誘答選項的方法

在不斷的測詴與改進基於 Markov Chain及 Katz Backoff的概念

並且使用 Google做為 N-gram count值的來源設計了一個方法來計

算詞彙語法題之候選誘答選項的正答力計算正答力的概念如圖 4-1

先計算正確答案正答力如圖 4-2然後計算每個候選誘答選項正答

力如圖 4-3使能和正確答案的正答力比較

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖

圖 4-2 計算正確答案正答力範例

18

圖 4-3 計算並比較正確答案和誘答選項正答力的範例

在實際應用時若該候選誘答選項的正答力大於正確答案表示

該選項為最佳答案則選項不適用如圖 4-3將其過慮掉本章包

含計算正答力之前及之後需處理的「前後置處理」完成本方法之前

所參考的「其它計算正答力方法」然後是本研究最後呈現的「基於

全球資訊網的正答力計算方法」最後是新舊方法的「方法比較」

41 前後置處理

圖 4-4為本方法前後置處理的流程圖虛線圍起來的部份是本研

究的核心方法本節介紹前後置處理包含計算正答力的前置及後續

處理工作

19

圖 4-4 前後置處理流程圖

如圖 4-4「輸入題幹及選項」輸入一題詞彙語法題的題幹及 4

個選項此部份可視為華語文詞彙語法電腦出題系統產生候選誘答選

項後將選項輸入該系統以計算該選項的正答力如下題幹及選項

(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

「將題幹及選項組成句子」將選項和題幹組成一個完整的句子4

個選項則產生 4個句子如下範例

20

我國天然資源不多礦產種類只有煤和石油

我國天然材料不多礦產種類只有煤和石油

我國天然產品不多礦產種類只有煤和石油

我國天然原料不多礦產種類只有煤和石油

「斷詞」將每個句子經由 Internet送到中研院斷詞系統進行斷詞

方便後續分析正答力如下範例句子斷詞後的結果「」表分隔

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

我國 天然 材料 不 多 礦產 種類 只有 煤 和 石油

我國 天然 產品 不 多 礦產 種類 只有 煤 和 石油

我國 天然 原料 不 多 礦產 種類 只有 煤 和 石油

「計算正答力」此模組負責計算每個選項的正答力為本研究

的核心部份計算方法將在下一節詳細介紹

「呈現正答力」輸出該選項的正答力分數結果供電腦出題系

統判斷候選誘答選項非最佳答案或直接供詴題研發人員參考如下

範例

「資源」選項的正答力=17581062

「材料」選項的正答力=5614006

「產品」選項的正答力=7181650

「原料」選項的正答力=5623282

本系統計算出來的是相對正答力不能比較不同題目的相同誘答選項

正答力

42 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法本研究參考了

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 10: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

1

1 第一章 緒論

11 研究背景與動機

中國國家漢辦主任孔子學院總部理事長許琳在瀋陽舉行的第十

屆國際漢語教學研討會上表示目前全球學習漢語的人數已超過四千

萬在北京的推動下這個數字還在持續增加當中(MercoPress 2010)

而華語文能力測驗也逐漸成為如TOEIC或TOEFL這種世界標準的語

文能力測驗像是臺灣華語文能力測驗 TOP-Huayu 及 TOCFL中國

「漢語水準考詴 HSK」日本「中國語檢定詴驗」及「TECC」美國

「SATII-Chinese」及「CPT」(張莉萍2007)

中國大陸的 HSK 於 1990 年正式推出(張莉萍2002)並逐步推

廣到全世界台灣的華語文測驗 TOP-Huayu 則在 2005 年才成為正式

的國家級測驗(張莉萍2007)發展較中國大陸晚十五年

拜科技所賜目前我們可以利用電腦輔助完成這種耗時耗力的工

作電腦有機械式出題的優點只要給特定明確的規則就可以產生

大量的題目由於測驗題庫需要持續性的汰舊換新與維護管理(陳柏

熹2010)因此需要大量撰寫新詴題過程繁雜且耗時(余民寧

2010)發展電腦出題可以提升測驗題庫的規模進而提升測驗的水

在電腦輔助語言測驗(Computer-Assisted Language Testing CALT)

領域TOP-Huayu及HSK己有不少研究以Silye和Wiwczaroski(2002)

對 CALT 議題的分類方式電腦輔助華語文測驗可以說己經有相當完

整的研究我們可以在每一類議題都找到對應的研究「Item banking」

電腦測驗題庫管理與分析議題(張國恩陳學志鄭錦全宋曜廷

蔡雅薰周中天2010 鹿士義余嘉元 2003)「Computer-assisted

language testing」電腦呈現語言測驗議題(余坤庭陳劭茹林宗璋

周中天2009)「Computer-adaptive language testing」電腦化適性語

2

言測驗議題(洪豪哲林孟君劉育隆郭伯臣2010 Wang Kuo amp

Chao 2010)「Web-based language testing」線上語言測驗議題(陳懷萱

鄧智生2003)

但是上述的「電腦輔助語言測驗」研究中卻沒有華語文電腦出

題反觀英文電腦出題己有相當數量的研究無論是英語系國家

(Mitkov amp Ha 2003)日本(Goto Kojiri Watanabe Iwata amp Yamada

2010)台灣(Liu Wang amp Gao 2005)等等都有學者發表這一方面的

研究

本研究也訪談具有十年以上研究華語文測驗經驗的專家調查關

於華語文電腦出題的需求截至本研究目前所調查的電腦出題相關研

究及訪談結果尚未發現有研究是針對外籍人士的華語文測驗作電腦

「自動」出題顯示華語文電腦出題還是一門新興的研究領域

然而會有這樣的結果究其根本原因是因為英文是世界上研究

最多且研究歷史最悠久但同樣的研究在中文這樣的語言則是非常

不容易的一來中文的文法研究起步較晚二來早期的研究因為大量

移借西方文法理論而西方的語法理論有絕大部份都是建立在西方語

言的研究發現上因此引進西方文法理論雖然能解決中文文法與西

方文法共同的部份但對其中不同的部分則會因為不合適的語法分析

架構而無法使用(曹逢甫2004)而且華語文能力測驗是一門非常專

業的學問不同的題型有不同的出題策略(柯華葳2004)研究電腦

出題更需謹慎華語文電腦出題涵蓋的領域範圍如圖 1-1

3

圖 1-1 華語文電腦出題領域的涵蓋

12 研究問題

在英文電腦出題研究中英文詞彙語法(Multiple-choice cloze)

電腦出題已有相當廣泛的研究有很多方法值得華語文詞彙語法之電

腦出題借鏡然而用來篩選候選誘答選項的方法因為語言特性的差

別無法直接套用到華語文電腦出題上詞彙語法測驗是以選擇題方

式呈現而一題可用的選擇題必只有一最清楚之最佳答案(郭生玉

2004)若華語文詞彙語法電腦出題產生誘答選項後卻不能判斷候

選誘答選項非最佳答案則產生出來的題目也就不適用故本研究問

題為

「如何檢查華語文詞彙語法電腦出題產生的候選誘答選項非最佳答

案」

13 研究目的

本研究目的為設計一方法來計算華語文詞彙語法之誘答選項的

正答力然後藉由比較候選誘答選項正答力判斷是否比正確答案低

來檢查該候選誘答選項非最佳答案做為華語文電腦出題的基礎本

研究參考計算語言學的 Markov chainKatz Backoff及 Maximum

4

Likelihood Estimation(Jurafsky amp Martin 2009) 來設計本研究

的方法計算誘答選項的正答力本研究以 Google為語言模型的語

料來源利用 Google龐大的語料資源提升計算結果的準確度而

測詴本方法準確度是利用具有客觀公開可信度高的台灣 TOP-Huayu

的詞彙語法題共 100題

14 詞彙語法說明

克漏字 (cloze procedure)首先由 Taylor(1953)提出是用來

估算文章可讀程度的工具之後有研究者將「克漏字」用在測驗英語

母語學習者的閱讀能力同時也有一批研究者應用在測量 ESL的語言

能力後來「克漏字」演變成多種題型「華語文能力測驗」的「詞

彙語法」(Multiple-choice cloze)測驗(華語文能力測驗初等模擬詴

題2003)就是其中一種題型同「漢語水準考詴」HSK 的「語法結

構」第二部分及綜合填空第一部分(第一套 HSK模擬題2005)詞彙

語法測驗可以測出受詴者對中文詞彙及語法的熟練度及運用能力(張

莉萍2002)如圖 1-2在新版的 TOCFL改以「選詞填空」題型取

代「詞彙語法」本研究參考華語文測驗專家所給予的建議以台灣

TOP-Huayu詞彙語法為設計本方法及測詴本方法準確度的標竿做為

未來研究的基礎

弟弟做事很隨便這麼重要的事給他做我真的不能 ___

1 放心

2 擔心

3 關心

4 小心

圖 1-2 詞彙語法題範例其中選項 1是正確答案選項 234是

誘答選項

資料來源華語文能力測驗初等模擬詴題(2003)

5

15 研究限制

本研究有以下限制

1 本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu華

語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK

2 本研究利用Google搜尋全球資訊網的語料取得N-gram count值

由於全球資訊網的語料未經審核當真正用在分析華語文詞彙語法

電腦出題之誘答選項的正答力時可能會受到錯誤語法影響

3 本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取得

Google 網頁搜尋結果時從國內發出 Request 會和從國外發出

Request 所取得的結果數不同另外 Google 搜尋結果也會隨著時

間而改變所以不能保證本研究的評估結果 100重現

4 本研究使用的 Google 搜尋結果數為數據來源而搜尋結果數是網

頁數非精準的詞句數

5 本研究僅針對 Maximum Likelihood EstimationKatz backoff

Bigram Markov Chain5-gram Markov Chain 作研究並只以中

研院平衡語料庫及 Google 為 N-grams count 值的來源並不代表

其它的計算語言學方法不適合或沒有方法可以用來計算本研究中

的正答力

6

2 第二章 相關研究

本章介紹和本研究間接相關的研究議題作為本研究的參考包

含電腦輔助英文詞彙語法出題電腦出題設計原則華語文教學與測

驗探討

21 電腦輔助英文詞彙語法出題之探討

華語文電腦出題為剛起步的研究相關文獻並不多而華語文詞

彙語法之電腦出題研究也幾乎沒有故本研究調查數篇和英文詞彙語

法題之電腦出題的研究做為製作中文測驗之電腦出題的參考

本研究整理數篇電腦輔助英文克漏詞多選題出題研究並參考其

中篩選誘答選項的方法如表 2-1Goto et al(2010)及 Sumita

Sugaya amp Yamamoto(2005)將候選誘答選項和相鄰的二個詞一起放到

Google中搜尋若有結果表示該誘答選項不適用Liu et al(2005)

也是用一樣的方法但是語料來源是本身系統內的語料庫語料量較

少Chen Liouamp Chang(2006)利用文法規則來產生誘答選項挑選

跟答案不同詞性的選項(例如動詞介詞)藉錯誤的詞性來確保

選項是錯誤的

7

表 2-1 電腦輔助英文詞彙語法出題篩選誘答選項(a)方法一(b)方

法二

方法

將候選誘答選項和相鄰的二個詞(或更多)放到

Google 中(Goto et al 2010 Sumita et al 2005)或

一般語料庫(Liu et al 2005)搜尋若有結果表

示該誘答選項不適用

例子 This is the building what we had our first office

解釋

what 是候選誘答選項(正答是 which)用來搜

尋的字串可以是「building what we」也可以是

「the building what we had」但是嚴謹程度不一

樣若有結果表示該誘答選項不適用

(a) 方法一

方法 產生不同詞性規則的誘答選項藉此確保誘答選項

是錯誤選項(Chen et al 2006)

例子

Representative democracy seemed ______ simultaneously

during the eighteenth and nineteenth centuries in Britain

Europe and the United States

(A) to evolve

(B) to evolving

(C) evolving

(D) evolve

解釋 4 個選項的詞性都不同

(b) 方法二

以華語文詞彙語法題的觀點來看方法二較不適合用在本研究

因華語文詞彙題的誘答選項通常是同一種詞性且華語文是孤立語

不像英文有字尾型態變化另外Bensoussan 和 Ramraz(1984)也表示

在設計誘答選項時四個選項中最好都使用同一種詞性例如全部是

動詞避免提示效果故方法二不適合直接用來計算及篩選本研究的

8

誘答選項

本研究也是利用 Google 網頁搜尋為 N-gram count值的來源但

是所用的計算方法和「方法一」不同由於上述學者的方法是應用在

英文詞彙語法出題如果用在本研究的華語文詞彙語法出題上會將

具有誘答力易混肴的一些較好的誘答選項過濾掉所以不適合用在

本研究上

本研究另外參考計算語言學 Markov chain(Jurafsky amp Martin

2009)技術計算誘答選項的正答力確保候選誘答選項非最佳答案

22 電腦出題設計原則

本研究在調查完電腦輔助英文克漏詞多選題出題(Chen et al

2006 Goto et al2010 Sumita et al2005)及其它電腦出題研

究(Yang 2006)後歸納出電腦出題可分為半自動的輔助出題和全自

動的自動出題本研究融合這兩種觀念提出電腦出題研究的原則

輔助出題是電腦提供題目資訊來協助出題者例如電腦產生誘

答選項的清單出題者自行決定可用的選項但是輔助出題是把資料

傾倒出來不確定是否有用有可能會額外增加老師的負擔自動出

題是由電腦決定例如電腦直接產生它覺得可用的三個誘答選項而

過程不需要出題者介入出題者直接套用結果

雖然看起來電腦自動出題是最佳的方式但是實務上幾近不可能

原因如下

1 測驗是一門很深的理論有許多出題規則包含明確及模糊的規

則華語文能力測驗更是如此所以很難將所有規則都具體且明

確化並套用到電腦程式裡

2 出題老師的出題規則往往是用直覺而直覺裡才包含著經驗和知

識所以很難將出題老師的出題規則具體且明確化

3 每位出題老師的出題規則都不同例如有的老師覺得誘答選項

要同一詞性有的覺得要不同詞性因此不可能有一套自動出

9

題系統能滿足所有人的要求所以嚴格來說不可能實現真正符

合需求的電腦自動出題

本研究認為電腦出題應以電腦自動出題為目標但是以電腦輔助

出題的方式呈現本研究建議使用推薦方式能保有兩種出題方式的

優點而本研究所提出的正答力計算方法除了用來過濾電腦自動出

題的候選誘答選項外也可以當作排序的依據呈現候選誘答選項輔

助詴題研發人員選擇最適合的誘答選項

23 華語文測驗與教學探討

3 現今國際上重要的能力考詴皆致力於對應於 CEFR 能力架構

(Council of Europe2001)台灣所研發的華語文能力測驗也是依據

CEFR指標同時也對應了 CEFR的級數到台灣師範大學語言中心的教

材張莉萍陳鳳儀(2008)提出台灣華語文能力測驗的分級方式分

級依據學生來參加考詴的前一個星期所上的教材落點為劃分標準其

劃分方式本研究整理如下

1 基礎級(TOP-beginner)

在台灣師範大學語言中心學習 150小時以上的學生

等於 CEFR所描述的 A2語言能力

能了解大部分與切身相關的句子及常用詞彙例如非常基本之

個人及家族資訊購物當地地理環境工作狀況等針對熟悉

單純例行性的任務能以簡單直接地溝通方式交換訊息能

簡單地敘述出個人背景週遭環境及立即需求

2 進階級(TOP-learner)

讀完新版實用視聽華語系列教材一-四冊(約 530個學時)

等於 CEFR所描述的 B1語言能力

針對一般職場學校休閒等場合常遇到的熟悉事物時在接

10

收到標準且清晰的信息後能瞭解其重點在目標語言地區旅遊

時能應付大部分可能會出現的一般狀況針對熟悉及私人感興

趣之主題能簡單地撰稿能敘述經驗事件夢想希望及志向

對看法及計畫能簡短地解釋理由及做出說明

3 高階級(Top-superior)

讀完新版實用視聽華語系列教材四冊後再讀完遠東生活華語三

第八單元的學生(約 610學時)

能通過百分之六十七 CEFR B2等級的題目

針對具體及抽象主題的複雜文字能瞭解其重點主題涵蓋個人

專業領域的技術討論能即時地以母語作互動有一定的流暢度

且不會讓任一方感到緊張能針對相當多的主題撰寫出一份完整

詳細的文章並可針對所提各議題重點做出優缺點說明

上述教材當初並非依據 CEFR 能力指標規劃完整系列而是針

對教材內容主題做了對應例如有的教材雖然屬於 B2 教材但

不代表學生學完這本教材即具有 B2 能力因為該本教材可能只具備

部分 B2能力或說學生要具備 B2能力原本就不會只讀一本教材現

階段華語文能力測驗關心的是如何幫助學生有效地從 B1 跨越到 B2

並選擇適當的教材或課程規劃

11

3 第三章 研究工具

本章介紹本研究基礎的三項工具由於此三項工具使得本研究的

方法得以實現本章將介紹中研院斷詞系統Google 網頁搜尋

TOP-Huayu詞彙語法

31 中研院斷詞系統

要進行華語文語句分析必須將語句斷詞後才能處理本研究

利用中央研究院中文資訊處理實驗室詞庫小組所發展的中文斷詞系

統 httpckipsvriissinicaedutw將句子斷成數個詞並重新組成

N-grams

在偵測未知詞的部份是利用基於語料庫的方法找出句法規則再

利用此規則來分辨單音節元素然後找出未知詞或錯誤用法(Chen amp

Bai1998)斷詞後的範例

這(Nep) 是(SHI) 一(Neu) 家(Nf) 擁有(VJ) 五百(Neu) 名(Nf) 員工(Na) 的

(DE) 中型(A) 企業(Na) (PERIODCATEGORY)

利用 Hong Kong Cityu(HK)的 closedtrack 及 open track

Beijing University (PK)的 closedtrack 及 open track共 4 種

評估此斷詞系統結果具有相當高的 F scores(Ma amp Chen2003)

如表 3-1及表 3-2其中英文字母代表依序為test recall (R) test

precision (P)F score(F)the out-of-vocabulary (OOV) rate for

the test corpusthe recall on OOV words(Roov)及 the recall on

in-vocabulary(Riv) words

12

表 3-1 Scores for HK

R P F OOV Roov Riv

Closed 0947 0934 0940 0071 0625 0972

Open 0958 0954 0956 0071 0788 0971

資料來源 Ma amp Chen(2003)

表 3-2 Scores for PK

R P F OOV Roov Riv

Closed 0939 0934 0936 0069 0642 0961

Open 0939 0938 0938 0069 0675 0959

資料來源 Ma amp Chen(2003)

圖 3-1 中研院中文斷詞系統網站

資料來源中文斷詞系統 httpckipsvriissinicaedutw

13

中研院中文斷詞系統已經廣泛的被各種領域的學者所使用例如

陳慶龍(2007)利用此斷詞系統製作中文體育知識問答系統Huang

ChiuChuanSandnes(2010)製作一個可以診斷憂鬱症的語言分析器

其中利用中研院中文斷詞系統來擷取關鍵字

32 Google 網頁搜尋

1995 年 Google 的創辦人美國史丹福大學的研究生 Larry Page

以及 Sergey Brin憑藉其資訊工程的專長開發名為 BackRub的搜尋

引擎後來正式更名為 Google其任務在於組織全世界的資訊讓

全球都能使用並有所禆益可說是目前全球最大的搜尋引撆現代人

幾乎只要提到資料搜索都絕對離不開 Google 搜尋正因為它可以在

短時間內找到相當豐富的資料查詢所得的結果遠多於其他搜尋網站

因此已經成為許多人不可或缺的工具(童國倫潘奕萍 2009)故本

研究以 Google為 N-gram count值的來源分析選項正答力

GOOGLE支援多達一百三十二種語言包括簡體中文和繁體中文

並有「頁庫存檔」功能即使網頁檔案被刪除仍然可以查詢到資料

而且可以搜尋的資料類型至少包括以下幾種格式

Adobe Portable Document Format (pdf)

Adobe PostScript (ps)

Lotus 1-2-3 (wk1 wk2 wk3 wk4 wk5 wki wks wku)

Lotus WordPro (lwp)

MacWrite (mw)

Microsoft Excel (xls)

Microsoft PowerPoint (ppt)

Microsoft Word (doc)

Microsoft Works (wks wps wdb)

Microsoft Write (wri)

Rich Text Format (rtf)

Shockwave Flash (swf)

Text (ans txt)

HyperText Markup Language (html)

14

Google 目前已被廣泛應用在各種自然語言處理研究中例如

FigueroaNeumann與 Atkinson (2009)利用 Google來擷取知識作

出基於 Surface Patterns的定義型問題問答系統CaiCuiMiao

Zhao與 Ren(2004)利用 Google Web APIs作出中文自動問答系統

Kilgarriff(2007)描述了使用 Google 這類官方搜尋引擎時會有

的幾個議題本研究整理列出並解釋和本研究的關係

1 官方搜尋引擎不考慮 Lemmatize(如英文同詞幹不同詞性的字)及

Part-Of-Speech tag但是中文沒有 Lemmatize的問題而本研究

設計的方法不使用 Part-Of-Speech tag

2 官方搜尋引擎的搜尋語法有限例如有無提供「萬用字元」及模糊

算子本研究只使用 Google的雙引號「」Query功能表示嚴格

限定只找包含完整 Query字串的網頁

3 官方搜尋引擎有 Query數限制在固定時間內使用者只能發出有限

的 Query而本研究以延長搜尋間隔時間來解決

4 官方搜尋引擎的搜尋結果數是網頁數而非詞句數由於無法下載

所有 hit pages的內容精準統計語句次數故本研究利用網頁數

做為數據來源此為本研究的限制

5 搜尋結果數中可能有重覆的資料例如不同網址有同樣文件內容

此問題雖然會影響結果但是本研究所設計的方法主要是利用最長

可得結果字串的長度為評分依據而搜尋結果數只影響分數中的小

數部份對本研究只佔了小部份的影響

33 TOP-Huayu 詞彙語法

臺灣華語文能力測驗的前身是 2003 年國立臺灣師範大學國語教

學中心華語文教學研究所與心理教育測驗中心三個團隊所共同研發

的「華語文能力測驗」(Chinese Proficiency Test CPT)2005 年

11 月教育部提升這個測驗為國家級的測驗並改為 TOP-Huayu(張莉

萍 2007)2010 年再改版為 TOCFL到 2010 年 11 月份為止臺灣

15

華語文能力測驗的到考人數已達到 11527 人成功取得證書人數更

有 6080 人(國家華語測驗推動工作委員會2009)如表 3-3表示

此測驗在國際上已具有相當的知名度

表 3-3 臺灣華語文能力測驗 2003年 12月到 2010年 11月份累計各

等級到考及獲證人數分佈(基礎測驗從 2007年 11月開始)

到考人數 獲得證書

人數 通過率()

基礎測驗 1729 1324 7662

初等測驗 3572 1620 4543

中等測驗 4184 1719 4114

高等測驗 2042 1345 6587

資料來源國家華語測驗推動工作委員會(2009)

由於地緣關係本研究使用台灣華語文能力測驗且由於新版的

TOCFL「選詞填空」的形式較 TOP-Huayu 詞彙語法複雜本研究參考

專家的建議後以台灣 TOP-Huayu詞彙語法為製作系統及分析準確度

的標竿並做為未來研究的基礎洪小雯(2009)表示「詞彙語法」

的題型儘管較為傳統但其著重測詴語言知識的考量不宜偏廢畢竟

在外語的學習過程中語言知識是決定語言能力的基礎

TOP-Huayu的詞彙分級方法參考自張莉萍陳鳳儀(2006)所訂

定的規則詞彙來源主要參考自台灣師大華語文能力測驗詞彙分級表

張莉萍(2002)(以下簡稱 CPT詞彙表)漢語水平詞彙等級大綱(國

家對外漢語教學領導小組辦公室漢語水平考詴部1992)(以下簡稱

HSK詞彙表)CPT和 HSK的詞彙交集分佈如表 3-4

在華語文能力測驗與歐洲共同架構 CEFR 的對應關係方面藍珮

君(2007)研究基礎華語文能力測驗與 CEFR 對應程度發現測驗等

級介於 CEFR A1 與 A2 之間屬於初級使用者的程度表示該測驗可

16

適當的測出受詴者的能力

表 3-4 CPT vs HSK等級詞彙的交集

HSK cap CPT CPT詞彙表(10155個)

初(1507) 中(3684) 高(4964)

HSK詞彙表

(8767個)

甲(1027) 683 231 17

乙(2003) 330 805 265

丙(2188) 141 486 474

丁(3569) 54 406 632

資料來源張莉萍陳鳳儀(2006)

17

4 第四章 正答力計算方法

本研究提出一個篩選詞彙語法電腦出題的候選誘答選項的方法

在不斷的測詴與改進基於 Markov Chain及 Katz Backoff的概念

並且使用 Google做為 N-gram count值的來源設計了一個方法來計

算詞彙語法題之候選誘答選項的正答力計算正答力的概念如圖 4-1

先計算正確答案正答力如圖 4-2然後計算每個候選誘答選項正答

力如圖 4-3使能和正確答案的正答力比較

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖

圖 4-2 計算正確答案正答力範例

18

圖 4-3 計算並比較正確答案和誘答選項正答力的範例

在實際應用時若該候選誘答選項的正答力大於正確答案表示

該選項為最佳答案則選項不適用如圖 4-3將其過慮掉本章包

含計算正答力之前及之後需處理的「前後置處理」完成本方法之前

所參考的「其它計算正答力方法」然後是本研究最後呈現的「基於

全球資訊網的正答力計算方法」最後是新舊方法的「方法比較」

41 前後置處理

圖 4-4為本方法前後置處理的流程圖虛線圍起來的部份是本研

究的核心方法本節介紹前後置處理包含計算正答力的前置及後續

處理工作

19

圖 4-4 前後置處理流程圖

如圖 4-4「輸入題幹及選項」輸入一題詞彙語法題的題幹及 4

個選項此部份可視為華語文詞彙語法電腦出題系統產生候選誘答選

項後將選項輸入該系統以計算該選項的正答力如下題幹及選項

(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

「將題幹及選項組成句子」將選項和題幹組成一個完整的句子4

個選項則產生 4個句子如下範例

20

我國天然資源不多礦產種類只有煤和石油

我國天然材料不多礦產種類只有煤和石油

我國天然產品不多礦產種類只有煤和石油

我國天然原料不多礦產種類只有煤和石油

「斷詞」將每個句子經由 Internet送到中研院斷詞系統進行斷詞

方便後續分析正答力如下範例句子斷詞後的結果「」表分隔

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

我國 天然 材料 不 多 礦產 種類 只有 煤 和 石油

我國 天然 產品 不 多 礦產 種類 只有 煤 和 石油

我國 天然 原料 不 多 礦產 種類 只有 煤 和 石油

「計算正答力」此模組負責計算每個選項的正答力為本研究

的核心部份計算方法將在下一節詳細介紹

「呈現正答力」輸出該選項的正答力分數結果供電腦出題系

統判斷候選誘答選項非最佳答案或直接供詴題研發人員參考如下

範例

「資源」選項的正答力=17581062

「材料」選項的正答力=5614006

「產品」選項的正答力=7181650

「原料」選項的正答力=5623282

本系統計算出來的是相對正答力不能比較不同題目的相同誘答選項

正答力

42 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法本研究參考了

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 11: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

2

言測驗議題(洪豪哲林孟君劉育隆郭伯臣2010 Wang Kuo amp

Chao 2010)「Web-based language testing」線上語言測驗議題(陳懷萱

鄧智生2003)

但是上述的「電腦輔助語言測驗」研究中卻沒有華語文電腦出

題反觀英文電腦出題己有相當數量的研究無論是英語系國家

(Mitkov amp Ha 2003)日本(Goto Kojiri Watanabe Iwata amp Yamada

2010)台灣(Liu Wang amp Gao 2005)等等都有學者發表這一方面的

研究

本研究也訪談具有十年以上研究華語文測驗經驗的專家調查關

於華語文電腦出題的需求截至本研究目前所調查的電腦出題相關研

究及訪談結果尚未發現有研究是針對外籍人士的華語文測驗作電腦

「自動」出題顯示華語文電腦出題還是一門新興的研究領域

然而會有這樣的結果究其根本原因是因為英文是世界上研究

最多且研究歷史最悠久但同樣的研究在中文這樣的語言則是非常

不容易的一來中文的文法研究起步較晚二來早期的研究因為大量

移借西方文法理論而西方的語法理論有絕大部份都是建立在西方語

言的研究發現上因此引進西方文法理論雖然能解決中文文法與西

方文法共同的部份但對其中不同的部分則會因為不合適的語法分析

架構而無法使用(曹逢甫2004)而且華語文能力測驗是一門非常專

業的學問不同的題型有不同的出題策略(柯華葳2004)研究電腦

出題更需謹慎華語文電腦出題涵蓋的領域範圍如圖 1-1

3

圖 1-1 華語文電腦出題領域的涵蓋

12 研究問題

在英文電腦出題研究中英文詞彙語法(Multiple-choice cloze)

電腦出題已有相當廣泛的研究有很多方法值得華語文詞彙語法之電

腦出題借鏡然而用來篩選候選誘答選項的方法因為語言特性的差

別無法直接套用到華語文電腦出題上詞彙語法測驗是以選擇題方

式呈現而一題可用的選擇題必只有一最清楚之最佳答案(郭生玉

2004)若華語文詞彙語法電腦出題產生誘答選項後卻不能判斷候

選誘答選項非最佳答案則產生出來的題目也就不適用故本研究問

題為

「如何檢查華語文詞彙語法電腦出題產生的候選誘答選項非最佳答

案」

13 研究目的

本研究目的為設計一方法來計算華語文詞彙語法之誘答選項的

正答力然後藉由比較候選誘答選項正答力判斷是否比正確答案低

來檢查該候選誘答選項非最佳答案做為華語文電腦出題的基礎本

研究參考計算語言學的 Markov chainKatz Backoff及 Maximum

4

Likelihood Estimation(Jurafsky amp Martin 2009) 來設計本研究

的方法計算誘答選項的正答力本研究以 Google為語言模型的語

料來源利用 Google龐大的語料資源提升計算結果的準確度而

測詴本方法準確度是利用具有客觀公開可信度高的台灣 TOP-Huayu

的詞彙語法題共 100題

14 詞彙語法說明

克漏字 (cloze procedure)首先由 Taylor(1953)提出是用來

估算文章可讀程度的工具之後有研究者將「克漏字」用在測驗英語

母語學習者的閱讀能力同時也有一批研究者應用在測量 ESL的語言

能力後來「克漏字」演變成多種題型「華語文能力測驗」的「詞

彙語法」(Multiple-choice cloze)測驗(華語文能力測驗初等模擬詴

題2003)就是其中一種題型同「漢語水準考詴」HSK 的「語法結

構」第二部分及綜合填空第一部分(第一套 HSK模擬題2005)詞彙

語法測驗可以測出受詴者對中文詞彙及語法的熟練度及運用能力(張

莉萍2002)如圖 1-2在新版的 TOCFL改以「選詞填空」題型取

代「詞彙語法」本研究參考華語文測驗專家所給予的建議以台灣

TOP-Huayu詞彙語法為設計本方法及測詴本方法準確度的標竿做為

未來研究的基礎

弟弟做事很隨便這麼重要的事給他做我真的不能 ___

1 放心

2 擔心

3 關心

4 小心

圖 1-2 詞彙語法題範例其中選項 1是正確答案選項 234是

誘答選項

資料來源華語文能力測驗初等模擬詴題(2003)

5

15 研究限制

本研究有以下限制

1 本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu華

語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK

2 本研究利用Google搜尋全球資訊網的語料取得N-gram count值

由於全球資訊網的語料未經審核當真正用在分析華語文詞彙語法

電腦出題之誘答選項的正答力時可能會受到錯誤語法影響

3 本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取得

Google 網頁搜尋結果時從國內發出 Request 會和從國外發出

Request 所取得的結果數不同另外 Google 搜尋結果也會隨著時

間而改變所以不能保證本研究的評估結果 100重現

4 本研究使用的 Google 搜尋結果數為數據來源而搜尋結果數是網

頁數非精準的詞句數

5 本研究僅針對 Maximum Likelihood EstimationKatz backoff

Bigram Markov Chain5-gram Markov Chain 作研究並只以中

研院平衡語料庫及 Google 為 N-grams count 值的來源並不代表

其它的計算語言學方法不適合或沒有方法可以用來計算本研究中

的正答力

6

2 第二章 相關研究

本章介紹和本研究間接相關的研究議題作為本研究的參考包

含電腦輔助英文詞彙語法出題電腦出題設計原則華語文教學與測

驗探討

21 電腦輔助英文詞彙語法出題之探討

華語文電腦出題為剛起步的研究相關文獻並不多而華語文詞

彙語法之電腦出題研究也幾乎沒有故本研究調查數篇和英文詞彙語

法題之電腦出題的研究做為製作中文測驗之電腦出題的參考

本研究整理數篇電腦輔助英文克漏詞多選題出題研究並參考其

中篩選誘答選項的方法如表 2-1Goto et al(2010)及 Sumita

Sugaya amp Yamamoto(2005)將候選誘答選項和相鄰的二個詞一起放到

Google中搜尋若有結果表示該誘答選項不適用Liu et al(2005)

也是用一樣的方法但是語料來源是本身系統內的語料庫語料量較

少Chen Liouamp Chang(2006)利用文法規則來產生誘答選項挑選

跟答案不同詞性的選項(例如動詞介詞)藉錯誤的詞性來確保

選項是錯誤的

7

表 2-1 電腦輔助英文詞彙語法出題篩選誘答選項(a)方法一(b)方

法二

方法

將候選誘答選項和相鄰的二個詞(或更多)放到

Google 中(Goto et al 2010 Sumita et al 2005)或

一般語料庫(Liu et al 2005)搜尋若有結果表

示該誘答選項不適用

例子 This is the building what we had our first office

解釋

what 是候選誘答選項(正答是 which)用來搜

尋的字串可以是「building what we」也可以是

「the building what we had」但是嚴謹程度不一

樣若有結果表示該誘答選項不適用

(a) 方法一

方法 產生不同詞性規則的誘答選項藉此確保誘答選項

是錯誤選項(Chen et al 2006)

例子

Representative democracy seemed ______ simultaneously

during the eighteenth and nineteenth centuries in Britain

Europe and the United States

(A) to evolve

(B) to evolving

(C) evolving

(D) evolve

解釋 4 個選項的詞性都不同

(b) 方法二

以華語文詞彙語法題的觀點來看方法二較不適合用在本研究

因華語文詞彙題的誘答選項通常是同一種詞性且華語文是孤立語

不像英文有字尾型態變化另外Bensoussan 和 Ramraz(1984)也表示

在設計誘答選項時四個選項中最好都使用同一種詞性例如全部是

動詞避免提示效果故方法二不適合直接用來計算及篩選本研究的

8

誘答選項

本研究也是利用 Google 網頁搜尋為 N-gram count值的來源但

是所用的計算方法和「方法一」不同由於上述學者的方法是應用在

英文詞彙語法出題如果用在本研究的華語文詞彙語法出題上會將

具有誘答力易混肴的一些較好的誘答選項過濾掉所以不適合用在

本研究上

本研究另外參考計算語言學 Markov chain(Jurafsky amp Martin

2009)技術計算誘答選項的正答力確保候選誘答選項非最佳答案

22 電腦出題設計原則

本研究在調查完電腦輔助英文克漏詞多選題出題(Chen et al

2006 Goto et al2010 Sumita et al2005)及其它電腦出題研

究(Yang 2006)後歸納出電腦出題可分為半自動的輔助出題和全自

動的自動出題本研究融合這兩種觀念提出電腦出題研究的原則

輔助出題是電腦提供題目資訊來協助出題者例如電腦產生誘

答選項的清單出題者自行決定可用的選項但是輔助出題是把資料

傾倒出來不確定是否有用有可能會額外增加老師的負擔自動出

題是由電腦決定例如電腦直接產生它覺得可用的三個誘答選項而

過程不需要出題者介入出題者直接套用結果

雖然看起來電腦自動出題是最佳的方式但是實務上幾近不可能

原因如下

1 測驗是一門很深的理論有許多出題規則包含明確及模糊的規

則華語文能力測驗更是如此所以很難將所有規則都具體且明

確化並套用到電腦程式裡

2 出題老師的出題規則往往是用直覺而直覺裡才包含著經驗和知

識所以很難將出題老師的出題規則具體且明確化

3 每位出題老師的出題規則都不同例如有的老師覺得誘答選項

要同一詞性有的覺得要不同詞性因此不可能有一套自動出

9

題系統能滿足所有人的要求所以嚴格來說不可能實現真正符

合需求的電腦自動出題

本研究認為電腦出題應以電腦自動出題為目標但是以電腦輔助

出題的方式呈現本研究建議使用推薦方式能保有兩種出題方式的

優點而本研究所提出的正答力計算方法除了用來過濾電腦自動出

題的候選誘答選項外也可以當作排序的依據呈現候選誘答選項輔

助詴題研發人員選擇最適合的誘答選項

23 華語文測驗與教學探討

3 現今國際上重要的能力考詴皆致力於對應於 CEFR 能力架構

(Council of Europe2001)台灣所研發的華語文能力測驗也是依據

CEFR指標同時也對應了 CEFR的級數到台灣師範大學語言中心的教

材張莉萍陳鳳儀(2008)提出台灣華語文能力測驗的分級方式分

級依據學生來參加考詴的前一個星期所上的教材落點為劃分標準其

劃分方式本研究整理如下

1 基礎級(TOP-beginner)

在台灣師範大學語言中心學習 150小時以上的學生

等於 CEFR所描述的 A2語言能力

能了解大部分與切身相關的句子及常用詞彙例如非常基本之

個人及家族資訊購物當地地理環境工作狀況等針對熟悉

單純例行性的任務能以簡單直接地溝通方式交換訊息能

簡單地敘述出個人背景週遭環境及立即需求

2 進階級(TOP-learner)

讀完新版實用視聽華語系列教材一-四冊(約 530個學時)

等於 CEFR所描述的 B1語言能力

針對一般職場學校休閒等場合常遇到的熟悉事物時在接

10

收到標準且清晰的信息後能瞭解其重點在目標語言地區旅遊

時能應付大部分可能會出現的一般狀況針對熟悉及私人感興

趣之主題能簡單地撰稿能敘述經驗事件夢想希望及志向

對看法及計畫能簡短地解釋理由及做出說明

3 高階級(Top-superior)

讀完新版實用視聽華語系列教材四冊後再讀完遠東生活華語三

第八單元的學生(約 610學時)

能通過百分之六十七 CEFR B2等級的題目

針對具體及抽象主題的複雜文字能瞭解其重點主題涵蓋個人

專業領域的技術討論能即時地以母語作互動有一定的流暢度

且不會讓任一方感到緊張能針對相當多的主題撰寫出一份完整

詳細的文章並可針對所提各議題重點做出優缺點說明

上述教材當初並非依據 CEFR 能力指標規劃完整系列而是針

對教材內容主題做了對應例如有的教材雖然屬於 B2 教材但

不代表學生學完這本教材即具有 B2 能力因為該本教材可能只具備

部分 B2能力或說學生要具備 B2能力原本就不會只讀一本教材現

階段華語文能力測驗關心的是如何幫助學生有效地從 B1 跨越到 B2

並選擇適當的教材或課程規劃

11

3 第三章 研究工具

本章介紹本研究基礎的三項工具由於此三項工具使得本研究的

方法得以實現本章將介紹中研院斷詞系統Google 網頁搜尋

TOP-Huayu詞彙語法

31 中研院斷詞系統

要進行華語文語句分析必須將語句斷詞後才能處理本研究

利用中央研究院中文資訊處理實驗室詞庫小組所發展的中文斷詞系

統 httpckipsvriissinicaedutw將句子斷成數個詞並重新組成

N-grams

在偵測未知詞的部份是利用基於語料庫的方法找出句法規則再

利用此規則來分辨單音節元素然後找出未知詞或錯誤用法(Chen amp

Bai1998)斷詞後的範例

這(Nep) 是(SHI) 一(Neu) 家(Nf) 擁有(VJ) 五百(Neu) 名(Nf) 員工(Na) 的

(DE) 中型(A) 企業(Na) (PERIODCATEGORY)

利用 Hong Kong Cityu(HK)的 closedtrack 及 open track

Beijing University (PK)的 closedtrack 及 open track共 4 種

評估此斷詞系統結果具有相當高的 F scores(Ma amp Chen2003)

如表 3-1及表 3-2其中英文字母代表依序為test recall (R) test

precision (P)F score(F)the out-of-vocabulary (OOV) rate for

the test corpusthe recall on OOV words(Roov)及 the recall on

in-vocabulary(Riv) words

12

表 3-1 Scores for HK

R P F OOV Roov Riv

Closed 0947 0934 0940 0071 0625 0972

Open 0958 0954 0956 0071 0788 0971

資料來源 Ma amp Chen(2003)

表 3-2 Scores for PK

R P F OOV Roov Riv

Closed 0939 0934 0936 0069 0642 0961

Open 0939 0938 0938 0069 0675 0959

資料來源 Ma amp Chen(2003)

圖 3-1 中研院中文斷詞系統網站

資料來源中文斷詞系統 httpckipsvriissinicaedutw

13

中研院中文斷詞系統已經廣泛的被各種領域的學者所使用例如

陳慶龍(2007)利用此斷詞系統製作中文體育知識問答系統Huang

ChiuChuanSandnes(2010)製作一個可以診斷憂鬱症的語言分析器

其中利用中研院中文斷詞系統來擷取關鍵字

32 Google 網頁搜尋

1995 年 Google 的創辦人美國史丹福大學的研究生 Larry Page

以及 Sergey Brin憑藉其資訊工程的專長開發名為 BackRub的搜尋

引擎後來正式更名為 Google其任務在於組織全世界的資訊讓

全球都能使用並有所禆益可說是目前全球最大的搜尋引撆現代人

幾乎只要提到資料搜索都絕對離不開 Google 搜尋正因為它可以在

短時間內找到相當豐富的資料查詢所得的結果遠多於其他搜尋網站

因此已經成為許多人不可或缺的工具(童國倫潘奕萍 2009)故本

研究以 Google為 N-gram count值的來源分析選項正答力

GOOGLE支援多達一百三十二種語言包括簡體中文和繁體中文

並有「頁庫存檔」功能即使網頁檔案被刪除仍然可以查詢到資料

而且可以搜尋的資料類型至少包括以下幾種格式

Adobe Portable Document Format (pdf)

Adobe PostScript (ps)

Lotus 1-2-3 (wk1 wk2 wk3 wk4 wk5 wki wks wku)

Lotus WordPro (lwp)

MacWrite (mw)

Microsoft Excel (xls)

Microsoft PowerPoint (ppt)

Microsoft Word (doc)

Microsoft Works (wks wps wdb)

Microsoft Write (wri)

Rich Text Format (rtf)

Shockwave Flash (swf)

Text (ans txt)

HyperText Markup Language (html)

14

Google 目前已被廣泛應用在各種自然語言處理研究中例如

FigueroaNeumann與 Atkinson (2009)利用 Google來擷取知識作

出基於 Surface Patterns的定義型問題問答系統CaiCuiMiao

Zhao與 Ren(2004)利用 Google Web APIs作出中文自動問答系統

Kilgarriff(2007)描述了使用 Google 這類官方搜尋引擎時會有

的幾個議題本研究整理列出並解釋和本研究的關係

1 官方搜尋引擎不考慮 Lemmatize(如英文同詞幹不同詞性的字)及

Part-Of-Speech tag但是中文沒有 Lemmatize的問題而本研究

設計的方法不使用 Part-Of-Speech tag

2 官方搜尋引擎的搜尋語法有限例如有無提供「萬用字元」及模糊

算子本研究只使用 Google的雙引號「」Query功能表示嚴格

限定只找包含完整 Query字串的網頁

3 官方搜尋引擎有 Query數限制在固定時間內使用者只能發出有限

的 Query而本研究以延長搜尋間隔時間來解決

4 官方搜尋引擎的搜尋結果數是網頁數而非詞句數由於無法下載

所有 hit pages的內容精準統計語句次數故本研究利用網頁數

做為數據來源此為本研究的限制

5 搜尋結果數中可能有重覆的資料例如不同網址有同樣文件內容

此問題雖然會影響結果但是本研究所設計的方法主要是利用最長

可得結果字串的長度為評分依據而搜尋結果數只影響分數中的小

數部份對本研究只佔了小部份的影響

33 TOP-Huayu 詞彙語法

臺灣華語文能力測驗的前身是 2003 年國立臺灣師範大學國語教

學中心華語文教學研究所與心理教育測驗中心三個團隊所共同研發

的「華語文能力測驗」(Chinese Proficiency Test CPT)2005 年

11 月教育部提升這個測驗為國家級的測驗並改為 TOP-Huayu(張莉

萍 2007)2010 年再改版為 TOCFL到 2010 年 11 月份為止臺灣

15

華語文能力測驗的到考人數已達到 11527 人成功取得證書人數更

有 6080 人(國家華語測驗推動工作委員會2009)如表 3-3表示

此測驗在國際上已具有相當的知名度

表 3-3 臺灣華語文能力測驗 2003年 12月到 2010年 11月份累計各

等級到考及獲證人數分佈(基礎測驗從 2007年 11月開始)

到考人數 獲得證書

人數 通過率()

基礎測驗 1729 1324 7662

初等測驗 3572 1620 4543

中等測驗 4184 1719 4114

高等測驗 2042 1345 6587

資料來源國家華語測驗推動工作委員會(2009)

由於地緣關係本研究使用台灣華語文能力測驗且由於新版的

TOCFL「選詞填空」的形式較 TOP-Huayu 詞彙語法複雜本研究參考

專家的建議後以台灣 TOP-Huayu詞彙語法為製作系統及分析準確度

的標竿並做為未來研究的基礎洪小雯(2009)表示「詞彙語法」

的題型儘管較為傳統但其著重測詴語言知識的考量不宜偏廢畢竟

在外語的學習過程中語言知識是決定語言能力的基礎

TOP-Huayu的詞彙分級方法參考自張莉萍陳鳳儀(2006)所訂

定的規則詞彙來源主要參考自台灣師大華語文能力測驗詞彙分級表

張莉萍(2002)(以下簡稱 CPT詞彙表)漢語水平詞彙等級大綱(國

家對外漢語教學領導小組辦公室漢語水平考詴部1992)(以下簡稱

HSK詞彙表)CPT和 HSK的詞彙交集分佈如表 3-4

在華語文能力測驗與歐洲共同架構 CEFR 的對應關係方面藍珮

君(2007)研究基礎華語文能力測驗與 CEFR 對應程度發現測驗等

級介於 CEFR A1 與 A2 之間屬於初級使用者的程度表示該測驗可

16

適當的測出受詴者的能力

表 3-4 CPT vs HSK等級詞彙的交集

HSK cap CPT CPT詞彙表(10155個)

初(1507) 中(3684) 高(4964)

HSK詞彙表

(8767個)

甲(1027) 683 231 17

乙(2003) 330 805 265

丙(2188) 141 486 474

丁(3569) 54 406 632

資料來源張莉萍陳鳳儀(2006)

17

4 第四章 正答力計算方法

本研究提出一個篩選詞彙語法電腦出題的候選誘答選項的方法

在不斷的測詴與改進基於 Markov Chain及 Katz Backoff的概念

並且使用 Google做為 N-gram count值的來源設計了一個方法來計

算詞彙語法題之候選誘答選項的正答力計算正答力的概念如圖 4-1

先計算正確答案正答力如圖 4-2然後計算每個候選誘答選項正答

力如圖 4-3使能和正確答案的正答力比較

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖

圖 4-2 計算正確答案正答力範例

18

圖 4-3 計算並比較正確答案和誘答選項正答力的範例

在實際應用時若該候選誘答選項的正答力大於正確答案表示

該選項為最佳答案則選項不適用如圖 4-3將其過慮掉本章包

含計算正答力之前及之後需處理的「前後置處理」完成本方法之前

所參考的「其它計算正答力方法」然後是本研究最後呈現的「基於

全球資訊網的正答力計算方法」最後是新舊方法的「方法比較」

41 前後置處理

圖 4-4為本方法前後置處理的流程圖虛線圍起來的部份是本研

究的核心方法本節介紹前後置處理包含計算正答力的前置及後續

處理工作

19

圖 4-4 前後置處理流程圖

如圖 4-4「輸入題幹及選項」輸入一題詞彙語法題的題幹及 4

個選項此部份可視為華語文詞彙語法電腦出題系統產生候選誘答選

項後將選項輸入該系統以計算該選項的正答力如下題幹及選項

(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

「將題幹及選項組成句子」將選項和題幹組成一個完整的句子4

個選項則產生 4個句子如下範例

20

我國天然資源不多礦產種類只有煤和石油

我國天然材料不多礦產種類只有煤和石油

我國天然產品不多礦產種類只有煤和石油

我國天然原料不多礦產種類只有煤和石油

「斷詞」將每個句子經由 Internet送到中研院斷詞系統進行斷詞

方便後續分析正答力如下範例句子斷詞後的結果「」表分隔

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

我國 天然 材料 不 多 礦產 種類 只有 煤 和 石油

我國 天然 產品 不 多 礦產 種類 只有 煤 和 石油

我國 天然 原料 不 多 礦產 種類 只有 煤 和 石油

「計算正答力」此模組負責計算每個選項的正答力為本研究

的核心部份計算方法將在下一節詳細介紹

「呈現正答力」輸出該選項的正答力分數結果供電腦出題系

統判斷候選誘答選項非最佳答案或直接供詴題研發人員參考如下

範例

「資源」選項的正答力=17581062

「材料」選項的正答力=5614006

「產品」選項的正答力=7181650

「原料」選項的正答力=5623282

本系統計算出來的是相對正答力不能比較不同題目的相同誘答選項

正答力

42 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法本研究參考了

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 12: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

3

圖 1-1 華語文電腦出題領域的涵蓋

12 研究問題

在英文電腦出題研究中英文詞彙語法(Multiple-choice cloze)

電腦出題已有相當廣泛的研究有很多方法值得華語文詞彙語法之電

腦出題借鏡然而用來篩選候選誘答選項的方法因為語言特性的差

別無法直接套用到華語文電腦出題上詞彙語法測驗是以選擇題方

式呈現而一題可用的選擇題必只有一最清楚之最佳答案(郭生玉

2004)若華語文詞彙語法電腦出題產生誘答選項後卻不能判斷候

選誘答選項非最佳答案則產生出來的題目也就不適用故本研究問

題為

「如何檢查華語文詞彙語法電腦出題產生的候選誘答選項非最佳答

案」

13 研究目的

本研究目的為設計一方法來計算華語文詞彙語法之誘答選項的

正答力然後藉由比較候選誘答選項正答力判斷是否比正確答案低

來檢查該候選誘答選項非最佳答案做為華語文電腦出題的基礎本

研究參考計算語言學的 Markov chainKatz Backoff及 Maximum

4

Likelihood Estimation(Jurafsky amp Martin 2009) 來設計本研究

的方法計算誘答選項的正答力本研究以 Google為語言模型的語

料來源利用 Google龐大的語料資源提升計算結果的準確度而

測詴本方法準確度是利用具有客觀公開可信度高的台灣 TOP-Huayu

的詞彙語法題共 100題

14 詞彙語法說明

克漏字 (cloze procedure)首先由 Taylor(1953)提出是用來

估算文章可讀程度的工具之後有研究者將「克漏字」用在測驗英語

母語學習者的閱讀能力同時也有一批研究者應用在測量 ESL的語言

能力後來「克漏字」演變成多種題型「華語文能力測驗」的「詞

彙語法」(Multiple-choice cloze)測驗(華語文能力測驗初等模擬詴

題2003)就是其中一種題型同「漢語水準考詴」HSK 的「語法結

構」第二部分及綜合填空第一部分(第一套 HSK模擬題2005)詞彙

語法測驗可以測出受詴者對中文詞彙及語法的熟練度及運用能力(張

莉萍2002)如圖 1-2在新版的 TOCFL改以「選詞填空」題型取

代「詞彙語法」本研究參考華語文測驗專家所給予的建議以台灣

TOP-Huayu詞彙語法為設計本方法及測詴本方法準確度的標竿做為

未來研究的基礎

弟弟做事很隨便這麼重要的事給他做我真的不能 ___

1 放心

2 擔心

3 關心

4 小心

圖 1-2 詞彙語法題範例其中選項 1是正確答案選項 234是

誘答選項

資料來源華語文能力測驗初等模擬詴題(2003)

5

15 研究限制

本研究有以下限制

1 本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu華

語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK

2 本研究利用Google搜尋全球資訊網的語料取得N-gram count值

由於全球資訊網的語料未經審核當真正用在分析華語文詞彙語法

電腦出題之誘答選項的正答力時可能會受到錯誤語法影響

3 本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取得

Google 網頁搜尋結果時從國內發出 Request 會和從國外發出

Request 所取得的結果數不同另外 Google 搜尋結果也會隨著時

間而改變所以不能保證本研究的評估結果 100重現

4 本研究使用的 Google 搜尋結果數為數據來源而搜尋結果數是網

頁數非精準的詞句數

5 本研究僅針對 Maximum Likelihood EstimationKatz backoff

Bigram Markov Chain5-gram Markov Chain 作研究並只以中

研院平衡語料庫及 Google 為 N-grams count 值的來源並不代表

其它的計算語言學方法不適合或沒有方法可以用來計算本研究中

的正答力

6

2 第二章 相關研究

本章介紹和本研究間接相關的研究議題作為本研究的參考包

含電腦輔助英文詞彙語法出題電腦出題設計原則華語文教學與測

驗探討

21 電腦輔助英文詞彙語法出題之探討

華語文電腦出題為剛起步的研究相關文獻並不多而華語文詞

彙語法之電腦出題研究也幾乎沒有故本研究調查數篇和英文詞彙語

法題之電腦出題的研究做為製作中文測驗之電腦出題的參考

本研究整理數篇電腦輔助英文克漏詞多選題出題研究並參考其

中篩選誘答選項的方法如表 2-1Goto et al(2010)及 Sumita

Sugaya amp Yamamoto(2005)將候選誘答選項和相鄰的二個詞一起放到

Google中搜尋若有結果表示該誘答選項不適用Liu et al(2005)

也是用一樣的方法但是語料來源是本身系統內的語料庫語料量較

少Chen Liouamp Chang(2006)利用文法規則來產生誘答選項挑選

跟答案不同詞性的選項(例如動詞介詞)藉錯誤的詞性來確保

選項是錯誤的

7

表 2-1 電腦輔助英文詞彙語法出題篩選誘答選項(a)方法一(b)方

法二

方法

將候選誘答選項和相鄰的二個詞(或更多)放到

Google 中(Goto et al 2010 Sumita et al 2005)或

一般語料庫(Liu et al 2005)搜尋若有結果表

示該誘答選項不適用

例子 This is the building what we had our first office

解釋

what 是候選誘答選項(正答是 which)用來搜

尋的字串可以是「building what we」也可以是

「the building what we had」但是嚴謹程度不一

樣若有結果表示該誘答選項不適用

(a) 方法一

方法 產生不同詞性規則的誘答選項藉此確保誘答選項

是錯誤選項(Chen et al 2006)

例子

Representative democracy seemed ______ simultaneously

during the eighteenth and nineteenth centuries in Britain

Europe and the United States

(A) to evolve

(B) to evolving

(C) evolving

(D) evolve

解釋 4 個選項的詞性都不同

(b) 方法二

以華語文詞彙語法題的觀點來看方法二較不適合用在本研究

因華語文詞彙題的誘答選項通常是同一種詞性且華語文是孤立語

不像英文有字尾型態變化另外Bensoussan 和 Ramraz(1984)也表示

在設計誘答選項時四個選項中最好都使用同一種詞性例如全部是

動詞避免提示效果故方法二不適合直接用來計算及篩選本研究的

8

誘答選項

本研究也是利用 Google 網頁搜尋為 N-gram count值的來源但

是所用的計算方法和「方法一」不同由於上述學者的方法是應用在

英文詞彙語法出題如果用在本研究的華語文詞彙語法出題上會將

具有誘答力易混肴的一些較好的誘答選項過濾掉所以不適合用在

本研究上

本研究另外參考計算語言學 Markov chain(Jurafsky amp Martin

2009)技術計算誘答選項的正答力確保候選誘答選項非最佳答案

22 電腦出題設計原則

本研究在調查完電腦輔助英文克漏詞多選題出題(Chen et al

2006 Goto et al2010 Sumita et al2005)及其它電腦出題研

究(Yang 2006)後歸納出電腦出題可分為半自動的輔助出題和全自

動的自動出題本研究融合這兩種觀念提出電腦出題研究的原則

輔助出題是電腦提供題目資訊來協助出題者例如電腦產生誘

答選項的清單出題者自行決定可用的選項但是輔助出題是把資料

傾倒出來不確定是否有用有可能會額外增加老師的負擔自動出

題是由電腦決定例如電腦直接產生它覺得可用的三個誘答選項而

過程不需要出題者介入出題者直接套用結果

雖然看起來電腦自動出題是最佳的方式但是實務上幾近不可能

原因如下

1 測驗是一門很深的理論有許多出題規則包含明確及模糊的規

則華語文能力測驗更是如此所以很難將所有規則都具體且明

確化並套用到電腦程式裡

2 出題老師的出題規則往往是用直覺而直覺裡才包含著經驗和知

識所以很難將出題老師的出題規則具體且明確化

3 每位出題老師的出題規則都不同例如有的老師覺得誘答選項

要同一詞性有的覺得要不同詞性因此不可能有一套自動出

9

題系統能滿足所有人的要求所以嚴格來說不可能實現真正符

合需求的電腦自動出題

本研究認為電腦出題應以電腦自動出題為目標但是以電腦輔助

出題的方式呈現本研究建議使用推薦方式能保有兩種出題方式的

優點而本研究所提出的正答力計算方法除了用來過濾電腦自動出

題的候選誘答選項外也可以當作排序的依據呈現候選誘答選項輔

助詴題研發人員選擇最適合的誘答選項

23 華語文測驗與教學探討

3 現今國際上重要的能力考詴皆致力於對應於 CEFR 能力架構

(Council of Europe2001)台灣所研發的華語文能力測驗也是依據

CEFR指標同時也對應了 CEFR的級數到台灣師範大學語言中心的教

材張莉萍陳鳳儀(2008)提出台灣華語文能力測驗的分級方式分

級依據學生來參加考詴的前一個星期所上的教材落點為劃分標準其

劃分方式本研究整理如下

1 基礎級(TOP-beginner)

在台灣師範大學語言中心學習 150小時以上的學生

等於 CEFR所描述的 A2語言能力

能了解大部分與切身相關的句子及常用詞彙例如非常基本之

個人及家族資訊購物當地地理環境工作狀況等針對熟悉

單純例行性的任務能以簡單直接地溝通方式交換訊息能

簡單地敘述出個人背景週遭環境及立即需求

2 進階級(TOP-learner)

讀完新版實用視聽華語系列教材一-四冊(約 530個學時)

等於 CEFR所描述的 B1語言能力

針對一般職場學校休閒等場合常遇到的熟悉事物時在接

10

收到標準且清晰的信息後能瞭解其重點在目標語言地區旅遊

時能應付大部分可能會出現的一般狀況針對熟悉及私人感興

趣之主題能簡單地撰稿能敘述經驗事件夢想希望及志向

對看法及計畫能簡短地解釋理由及做出說明

3 高階級(Top-superior)

讀完新版實用視聽華語系列教材四冊後再讀完遠東生活華語三

第八單元的學生(約 610學時)

能通過百分之六十七 CEFR B2等級的題目

針對具體及抽象主題的複雜文字能瞭解其重點主題涵蓋個人

專業領域的技術討論能即時地以母語作互動有一定的流暢度

且不會讓任一方感到緊張能針對相當多的主題撰寫出一份完整

詳細的文章並可針對所提各議題重點做出優缺點說明

上述教材當初並非依據 CEFR 能力指標規劃完整系列而是針

對教材內容主題做了對應例如有的教材雖然屬於 B2 教材但

不代表學生學完這本教材即具有 B2 能力因為該本教材可能只具備

部分 B2能力或說學生要具備 B2能力原本就不會只讀一本教材現

階段華語文能力測驗關心的是如何幫助學生有效地從 B1 跨越到 B2

並選擇適當的教材或課程規劃

11

3 第三章 研究工具

本章介紹本研究基礎的三項工具由於此三項工具使得本研究的

方法得以實現本章將介紹中研院斷詞系統Google 網頁搜尋

TOP-Huayu詞彙語法

31 中研院斷詞系統

要進行華語文語句分析必須將語句斷詞後才能處理本研究

利用中央研究院中文資訊處理實驗室詞庫小組所發展的中文斷詞系

統 httpckipsvriissinicaedutw將句子斷成數個詞並重新組成

N-grams

在偵測未知詞的部份是利用基於語料庫的方法找出句法規則再

利用此規則來分辨單音節元素然後找出未知詞或錯誤用法(Chen amp

Bai1998)斷詞後的範例

這(Nep) 是(SHI) 一(Neu) 家(Nf) 擁有(VJ) 五百(Neu) 名(Nf) 員工(Na) 的

(DE) 中型(A) 企業(Na) (PERIODCATEGORY)

利用 Hong Kong Cityu(HK)的 closedtrack 及 open track

Beijing University (PK)的 closedtrack 及 open track共 4 種

評估此斷詞系統結果具有相當高的 F scores(Ma amp Chen2003)

如表 3-1及表 3-2其中英文字母代表依序為test recall (R) test

precision (P)F score(F)the out-of-vocabulary (OOV) rate for

the test corpusthe recall on OOV words(Roov)及 the recall on

in-vocabulary(Riv) words

12

表 3-1 Scores for HK

R P F OOV Roov Riv

Closed 0947 0934 0940 0071 0625 0972

Open 0958 0954 0956 0071 0788 0971

資料來源 Ma amp Chen(2003)

表 3-2 Scores for PK

R P F OOV Roov Riv

Closed 0939 0934 0936 0069 0642 0961

Open 0939 0938 0938 0069 0675 0959

資料來源 Ma amp Chen(2003)

圖 3-1 中研院中文斷詞系統網站

資料來源中文斷詞系統 httpckipsvriissinicaedutw

13

中研院中文斷詞系統已經廣泛的被各種領域的學者所使用例如

陳慶龍(2007)利用此斷詞系統製作中文體育知識問答系統Huang

ChiuChuanSandnes(2010)製作一個可以診斷憂鬱症的語言分析器

其中利用中研院中文斷詞系統來擷取關鍵字

32 Google 網頁搜尋

1995 年 Google 的創辦人美國史丹福大學的研究生 Larry Page

以及 Sergey Brin憑藉其資訊工程的專長開發名為 BackRub的搜尋

引擎後來正式更名為 Google其任務在於組織全世界的資訊讓

全球都能使用並有所禆益可說是目前全球最大的搜尋引撆現代人

幾乎只要提到資料搜索都絕對離不開 Google 搜尋正因為它可以在

短時間內找到相當豐富的資料查詢所得的結果遠多於其他搜尋網站

因此已經成為許多人不可或缺的工具(童國倫潘奕萍 2009)故本

研究以 Google為 N-gram count值的來源分析選項正答力

GOOGLE支援多達一百三十二種語言包括簡體中文和繁體中文

並有「頁庫存檔」功能即使網頁檔案被刪除仍然可以查詢到資料

而且可以搜尋的資料類型至少包括以下幾種格式

Adobe Portable Document Format (pdf)

Adobe PostScript (ps)

Lotus 1-2-3 (wk1 wk2 wk3 wk4 wk5 wki wks wku)

Lotus WordPro (lwp)

MacWrite (mw)

Microsoft Excel (xls)

Microsoft PowerPoint (ppt)

Microsoft Word (doc)

Microsoft Works (wks wps wdb)

Microsoft Write (wri)

Rich Text Format (rtf)

Shockwave Flash (swf)

Text (ans txt)

HyperText Markup Language (html)

14

Google 目前已被廣泛應用在各種自然語言處理研究中例如

FigueroaNeumann與 Atkinson (2009)利用 Google來擷取知識作

出基於 Surface Patterns的定義型問題問答系統CaiCuiMiao

Zhao與 Ren(2004)利用 Google Web APIs作出中文自動問答系統

Kilgarriff(2007)描述了使用 Google 這類官方搜尋引擎時會有

的幾個議題本研究整理列出並解釋和本研究的關係

1 官方搜尋引擎不考慮 Lemmatize(如英文同詞幹不同詞性的字)及

Part-Of-Speech tag但是中文沒有 Lemmatize的問題而本研究

設計的方法不使用 Part-Of-Speech tag

2 官方搜尋引擎的搜尋語法有限例如有無提供「萬用字元」及模糊

算子本研究只使用 Google的雙引號「」Query功能表示嚴格

限定只找包含完整 Query字串的網頁

3 官方搜尋引擎有 Query數限制在固定時間內使用者只能發出有限

的 Query而本研究以延長搜尋間隔時間來解決

4 官方搜尋引擎的搜尋結果數是網頁數而非詞句數由於無法下載

所有 hit pages的內容精準統計語句次數故本研究利用網頁數

做為數據來源此為本研究的限制

5 搜尋結果數中可能有重覆的資料例如不同網址有同樣文件內容

此問題雖然會影響結果但是本研究所設計的方法主要是利用最長

可得結果字串的長度為評分依據而搜尋結果數只影響分數中的小

數部份對本研究只佔了小部份的影響

33 TOP-Huayu 詞彙語法

臺灣華語文能力測驗的前身是 2003 年國立臺灣師範大學國語教

學中心華語文教學研究所與心理教育測驗中心三個團隊所共同研發

的「華語文能力測驗」(Chinese Proficiency Test CPT)2005 年

11 月教育部提升這個測驗為國家級的測驗並改為 TOP-Huayu(張莉

萍 2007)2010 年再改版為 TOCFL到 2010 年 11 月份為止臺灣

15

華語文能力測驗的到考人數已達到 11527 人成功取得證書人數更

有 6080 人(國家華語測驗推動工作委員會2009)如表 3-3表示

此測驗在國際上已具有相當的知名度

表 3-3 臺灣華語文能力測驗 2003年 12月到 2010年 11月份累計各

等級到考及獲證人數分佈(基礎測驗從 2007年 11月開始)

到考人數 獲得證書

人數 通過率()

基礎測驗 1729 1324 7662

初等測驗 3572 1620 4543

中等測驗 4184 1719 4114

高等測驗 2042 1345 6587

資料來源國家華語測驗推動工作委員會(2009)

由於地緣關係本研究使用台灣華語文能力測驗且由於新版的

TOCFL「選詞填空」的形式較 TOP-Huayu 詞彙語法複雜本研究參考

專家的建議後以台灣 TOP-Huayu詞彙語法為製作系統及分析準確度

的標竿並做為未來研究的基礎洪小雯(2009)表示「詞彙語法」

的題型儘管較為傳統但其著重測詴語言知識的考量不宜偏廢畢竟

在外語的學習過程中語言知識是決定語言能力的基礎

TOP-Huayu的詞彙分級方法參考自張莉萍陳鳳儀(2006)所訂

定的規則詞彙來源主要參考自台灣師大華語文能力測驗詞彙分級表

張莉萍(2002)(以下簡稱 CPT詞彙表)漢語水平詞彙等級大綱(國

家對外漢語教學領導小組辦公室漢語水平考詴部1992)(以下簡稱

HSK詞彙表)CPT和 HSK的詞彙交集分佈如表 3-4

在華語文能力測驗與歐洲共同架構 CEFR 的對應關係方面藍珮

君(2007)研究基礎華語文能力測驗與 CEFR 對應程度發現測驗等

級介於 CEFR A1 與 A2 之間屬於初級使用者的程度表示該測驗可

16

適當的測出受詴者的能力

表 3-4 CPT vs HSK等級詞彙的交集

HSK cap CPT CPT詞彙表(10155個)

初(1507) 中(3684) 高(4964)

HSK詞彙表

(8767個)

甲(1027) 683 231 17

乙(2003) 330 805 265

丙(2188) 141 486 474

丁(3569) 54 406 632

資料來源張莉萍陳鳳儀(2006)

17

4 第四章 正答力計算方法

本研究提出一個篩選詞彙語法電腦出題的候選誘答選項的方法

在不斷的測詴與改進基於 Markov Chain及 Katz Backoff的概念

並且使用 Google做為 N-gram count值的來源設計了一個方法來計

算詞彙語法題之候選誘答選項的正答力計算正答力的概念如圖 4-1

先計算正確答案正答力如圖 4-2然後計算每個候選誘答選項正答

力如圖 4-3使能和正確答案的正答力比較

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖

圖 4-2 計算正確答案正答力範例

18

圖 4-3 計算並比較正確答案和誘答選項正答力的範例

在實際應用時若該候選誘答選項的正答力大於正確答案表示

該選項為最佳答案則選項不適用如圖 4-3將其過慮掉本章包

含計算正答力之前及之後需處理的「前後置處理」完成本方法之前

所參考的「其它計算正答力方法」然後是本研究最後呈現的「基於

全球資訊網的正答力計算方法」最後是新舊方法的「方法比較」

41 前後置處理

圖 4-4為本方法前後置處理的流程圖虛線圍起來的部份是本研

究的核心方法本節介紹前後置處理包含計算正答力的前置及後續

處理工作

19

圖 4-4 前後置處理流程圖

如圖 4-4「輸入題幹及選項」輸入一題詞彙語法題的題幹及 4

個選項此部份可視為華語文詞彙語法電腦出題系統產生候選誘答選

項後將選項輸入該系統以計算該選項的正答力如下題幹及選項

(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

「將題幹及選項組成句子」將選項和題幹組成一個完整的句子4

個選項則產生 4個句子如下範例

20

我國天然資源不多礦產種類只有煤和石油

我國天然材料不多礦產種類只有煤和石油

我國天然產品不多礦產種類只有煤和石油

我國天然原料不多礦產種類只有煤和石油

「斷詞」將每個句子經由 Internet送到中研院斷詞系統進行斷詞

方便後續分析正答力如下範例句子斷詞後的結果「」表分隔

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

我國 天然 材料 不 多 礦產 種類 只有 煤 和 石油

我國 天然 產品 不 多 礦產 種類 只有 煤 和 石油

我國 天然 原料 不 多 礦產 種類 只有 煤 和 石油

「計算正答力」此模組負責計算每個選項的正答力為本研究

的核心部份計算方法將在下一節詳細介紹

「呈現正答力」輸出該選項的正答力分數結果供電腦出題系

統判斷候選誘答選項非最佳答案或直接供詴題研發人員參考如下

範例

「資源」選項的正答力=17581062

「材料」選項的正答力=5614006

「產品」選項的正答力=7181650

「原料」選項的正答力=5623282

本系統計算出來的是相對正答力不能比較不同題目的相同誘答選項

正答力

42 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法本研究參考了

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 13: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

4

Likelihood Estimation(Jurafsky amp Martin 2009) 來設計本研究

的方法計算誘答選項的正答力本研究以 Google為語言模型的語

料來源利用 Google龐大的語料資源提升計算結果的準確度而

測詴本方法準確度是利用具有客觀公開可信度高的台灣 TOP-Huayu

的詞彙語法題共 100題

14 詞彙語法說明

克漏字 (cloze procedure)首先由 Taylor(1953)提出是用來

估算文章可讀程度的工具之後有研究者將「克漏字」用在測驗英語

母語學習者的閱讀能力同時也有一批研究者應用在測量 ESL的語言

能力後來「克漏字」演變成多種題型「華語文能力測驗」的「詞

彙語法」(Multiple-choice cloze)測驗(華語文能力測驗初等模擬詴

題2003)就是其中一種題型同「漢語水準考詴」HSK 的「語法結

構」第二部分及綜合填空第一部分(第一套 HSK模擬題2005)詞彙

語法測驗可以測出受詴者對中文詞彙及語法的熟練度及運用能力(張

莉萍2002)如圖 1-2在新版的 TOCFL改以「選詞填空」題型取

代「詞彙語法」本研究參考華語文測驗專家所給予的建議以台灣

TOP-Huayu詞彙語法為設計本方法及測詴本方法準確度的標竿做為

未來研究的基礎

弟弟做事很隨便這麼重要的事給他做我真的不能 ___

1 放心

2 擔心

3 關心

4 小心

圖 1-2 詞彙語法題範例其中選項 1是正確答案選項 234是

誘答選項

資料來源華語文能力測驗初等模擬詴題(2003)

5

15 研究限制

本研究有以下限制

1 本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu華

語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK

2 本研究利用Google搜尋全球資訊網的語料取得N-gram count值

由於全球資訊網的語料未經審核當真正用在分析華語文詞彙語法

電腦出題之誘答選項的正答力時可能會受到錯誤語法影響

3 本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取得

Google 網頁搜尋結果時從國內發出 Request 會和從國外發出

Request 所取得的結果數不同另外 Google 搜尋結果也會隨著時

間而改變所以不能保證本研究的評估結果 100重現

4 本研究使用的 Google 搜尋結果數為數據來源而搜尋結果數是網

頁數非精準的詞句數

5 本研究僅針對 Maximum Likelihood EstimationKatz backoff

Bigram Markov Chain5-gram Markov Chain 作研究並只以中

研院平衡語料庫及 Google 為 N-grams count 值的來源並不代表

其它的計算語言學方法不適合或沒有方法可以用來計算本研究中

的正答力

6

2 第二章 相關研究

本章介紹和本研究間接相關的研究議題作為本研究的參考包

含電腦輔助英文詞彙語法出題電腦出題設計原則華語文教學與測

驗探討

21 電腦輔助英文詞彙語法出題之探討

華語文電腦出題為剛起步的研究相關文獻並不多而華語文詞

彙語法之電腦出題研究也幾乎沒有故本研究調查數篇和英文詞彙語

法題之電腦出題的研究做為製作中文測驗之電腦出題的參考

本研究整理數篇電腦輔助英文克漏詞多選題出題研究並參考其

中篩選誘答選項的方法如表 2-1Goto et al(2010)及 Sumita

Sugaya amp Yamamoto(2005)將候選誘答選項和相鄰的二個詞一起放到

Google中搜尋若有結果表示該誘答選項不適用Liu et al(2005)

也是用一樣的方法但是語料來源是本身系統內的語料庫語料量較

少Chen Liouamp Chang(2006)利用文法規則來產生誘答選項挑選

跟答案不同詞性的選項(例如動詞介詞)藉錯誤的詞性來確保

選項是錯誤的

7

表 2-1 電腦輔助英文詞彙語法出題篩選誘答選項(a)方法一(b)方

法二

方法

將候選誘答選項和相鄰的二個詞(或更多)放到

Google 中(Goto et al 2010 Sumita et al 2005)或

一般語料庫(Liu et al 2005)搜尋若有結果表

示該誘答選項不適用

例子 This is the building what we had our first office

解釋

what 是候選誘答選項(正答是 which)用來搜

尋的字串可以是「building what we」也可以是

「the building what we had」但是嚴謹程度不一

樣若有結果表示該誘答選項不適用

(a) 方法一

方法 產生不同詞性規則的誘答選項藉此確保誘答選項

是錯誤選項(Chen et al 2006)

例子

Representative democracy seemed ______ simultaneously

during the eighteenth and nineteenth centuries in Britain

Europe and the United States

(A) to evolve

(B) to evolving

(C) evolving

(D) evolve

解釋 4 個選項的詞性都不同

(b) 方法二

以華語文詞彙語法題的觀點來看方法二較不適合用在本研究

因華語文詞彙題的誘答選項通常是同一種詞性且華語文是孤立語

不像英文有字尾型態變化另外Bensoussan 和 Ramraz(1984)也表示

在設計誘答選項時四個選項中最好都使用同一種詞性例如全部是

動詞避免提示效果故方法二不適合直接用來計算及篩選本研究的

8

誘答選項

本研究也是利用 Google 網頁搜尋為 N-gram count值的來源但

是所用的計算方法和「方法一」不同由於上述學者的方法是應用在

英文詞彙語法出題如果用在本研究的華語文詞彙語法出題上會將

具有誘答力易混肴的一些較好的誘答選項過濾掉所以不適合用在

本研究上

本研究另外參考計算語言學 Markov chain(Jurafsky amp Martin

2009)技術計算誘答選項的正答力確保候選誘答選項非最佳答案

22 電腦出題設計原則

本研究在調查完電腦輔助英文克漏詞多選題出題(Chen et al

2006 Goto et al2010 Sumita et al2005)及其它電腦出題研

究(Yang 2006)後歸納出電腦出題可分為半自動的輔助出題和全自

動的自動出題本研究融合這兩種觀念提出電腦出題研究的原則

輔助出題是電腦提供題目資訊來協助出題者例如電腦產生誘

答選項的清單出題者自行決定可用的選項但是輔助出題是把資料

傾倒出來不確定是否有用有可能會額外增加老師的負擔自動出

題是由電腦決定例如電腦直接產生它覺得可用的三個誘答選項而

過程不需要出題者介入出題者直接套用結果

雖然看起來電腦自動出題是最佳的方式但是實務上幾近不可能

原因如下

1 測驗是一門很深的理論有許多出題規則包含明確及模糊的規

則華語文能力測驗更是如此所以很難將所有規則都具體且明

確化並套用到電腦程式裡

2 出題老師的出題規則往往是用直覺而直覺裡才包含著經驗和知

識所以很難將出題老師的出題規則具體且明確化

3 每位出題老師的出題規則都不同例如有的老師覺得誘答選項

要同一詞性有的覺得要不同詞性因此不可能有一套自動出

9

題系統能滿足所有人的要求所以嚴格來說不可能實現真正符

合需求的電腦自動出題

本研究認為電腦出題應以電腦自動出題為目標但是以電腦輔助

出題的方式呈現本研究建議使用推薦方式能保有兩種出題方式的

優點而本研究所提出的正答力計算方法除了用來過濾電腦自動出

題的候選誘答選項外也可以當作排序的依據呈現候選誘答選項輔

助詴題研發人員選擇最適合的誘答選項

23 華語文測驗與教學探討

3 現今國際上重要的能力考詴皆致力於對應於 CEFR 能力架構

(Council of Europe2001)台灣所研發的華語文能力測驗也是依據

CEFR指標同時也對應了 CEFR的級數到台灣師範大學語言中心的教

材張莉萍陳鳳儀(2008)提出台灣華語文能力測驗的分級方式分

級依據學生來參加考詴的前一個星期所上的教材落點為劃分標準其

劃分方式本研究整理如下

1 基礎級(TOP-beginner)

在台灣師範大學語言中心學習 150小時以上的學生

等於 CEFR所描述的 A2語言能力

能了解大部分與切身相關的句子及常用詞彙例如非常基本之

個人及家族資訊購物當地地理環境工作狀況等針對熟悉

單純例行性的任務能以簡單直接地溝通方式交換訊息能

簡單地敘述出個人背景週遭環境及立即需求

2 進階級(TOP-learner)

讀完新版實用視聽華語系列教材一-四冊(約 530個學時)

等於 CEFR所描述的 B1語言能力

針對一般職場學校休閒等場合常遇到的熟悉事物時在接

10

收到標準且清晰的信息後能瞭解其重點在目標語言地區旅遊

時能應付大部分可能會出現的一般狀況針對熟悉及私人感興

趣之主題能簡單地撰稿能敘述經驗事件夢想希望及志向

對看法及計畫能簡短地解釋理由及做出說明

3 高階級(Top-superior)

讀完新版實用視聽華語系列教材四冊後再讀完遠東生活華語三

第八單元的學生(約 610學時)

能通過百分之六十七 CEFR B2等級的題目

針對具體及抽象主題的複雜文字能瞭解其重點主題涵蓋個人

專業領域的技術討論能即時地以母語作互動有一定的流暢度

且不會讓任一方感到緊張能針對相當多的主題撰寫出一份完整

詳細的文章並可針對所提各議題重點做出優缺點說明

上述教材當初並非依據 CEFR 能力指標規劃完整系列而是針

對教材內容主題做了對應例如有的教材雖然屬於 B2 教材但

不代表學生學完這本教材即具有 B2 能力因為該本教材可能只具備

部分 B2能力或說學生要具備 B2能力原本就不會只讀一本教材現

階段華語文能力測驗關心的是如何幫助學生有效地從 B1 跨越到 B2

並選擇適當的教材或課程規劃

11

3 第三章 研究工具

本章介紹本研究基礎的三項工具由於此三項工具使得本研究的

方法得以實現本章將介紹中研院斷詞系統Google 網頁搜尋

TOP-Huayu詞彙語法

31 中研院斷詞系統

要進行華語文語句分析必須將語句斷詞後才能處理本研究

利用中央研究院中文資訊處理實驗室詞庫小組所發展的中文斷詞系

統 httpckipsvriissinicaedutw將句子斷成數個詞並重新組成

N-grams

在偵測未知詞的部份是利用基於語料庫的方法找出句法規則再

利用此規則來分辨單音節元素然後找出未知詞或錯誤用法(Chen amp

Bai1998)斷詞後的範例

這(Nep) 是(SHI) 一(Neu) 家(Nf) 擁有(VJ) 五百(Neu) 名(Nf) 員工(Na) 的

(DE) 中型(A) 企業(Na) (PERIODCATEGORY)

利用 Hong Kong Cityu(HK)的 closedtrack 及 open track

Beijing University (PK)的 closedtrack 及 open track共 4 種

評估此斷詞系統結果具有相當高的 F scores(Ma amp Chen2003)

如表 3-1及表 3-2其中英文字母代表依序為test recall (R) test

precision (P)F score(F)the out-of-vocabulary (OOV) rate for

the test corpusthe recall on OOV words(Roov)及 the recall on

in-vocabulary(Riv) words

12

表 3-1 Scores for HK

R P F OOV Roov Riv

Closed 0947 0934 0940 0071 0625 0972

Open 0958 0954 0956 0071 0788 0971

資料來源 Ma amp Chen(2003)

表 3-2 Scores for PK

R P F OOV Roov Riv

Closed 0939 0934 0936 0069 0642 0961

Open 0939 0938 0938 0069 0675 0959

資料來源 Ma amp Chen(2003)

圖 3-1 中研院中文斷詞系統網站

資料來源中文斷詞系統 httpckipsvriissinicaedutw

13

中研院中文斷詞系統已經廣泛的被各種領域的學者所使用例如

陳慶龍(2007)利用此斷詞系統製作中文體育知識問答系統Huang

ChiuChuanSandnes(2010)製作一個可以診斷憂鬱症的語言分析器

其中利用中研院中文斷詞系統來擷取關鍵字

32 Google 網頁搜尋

1995 年 Google 的創辦人美國史丹福大學的研究生 Larry Page

以及 Sergey Brin憑藉其資訊工程的專長開發名為 BackRub的搜尋

引擎後來正式更名為 Google其任務在於組織全世界的資訊讓

全球都能使用並有所禆益可說是目前全球最大的搜尋引撆現代人

幾乎只要提到資料搜索都絕對離不開 Google 搜尋正因為它可以在

短時間內找到相當豐富的資料查詢所得的結果遠多於其他搜尋網站

因此已經成為許多人不可或缺的工具(童國倫潘奕萍 2009)故本

研究以 Google為 N-gram count值的來源分析選項正答力

GOOGLE支援多達一百三十二種語言包括簡體中文和繁體中文

並有「頁庫存檔」功能即使網頁檔案被刪除仍然可以查詢到資料

而且可以搜尋的資料類型至少包括以下幾種格式

Adobe Portable Document Format (pdf)

Adobe PostScript (ps)

Lotus 1-2-3 (wk1 wk2 wk3 wk4 wk5 wki wks wku)

Lotus WordPro (lwp)

MacWrite (mw)

Microsoft Excel (xls)

Microsoft PowerPoint (ppt)

Microsoft Word (doc)

Microsoft Works (wks wps wdb)

Microsoft Write (wri)

Rich Text Format (rtf)

Shockwave Flash (swf)

Text (ans txt)

HyperText Markup Language (html)

14

Google 目前已被廣泛應用在各種自然語言處理研究中例如

FigueroaNeumann與 Atkinson (2009)利用 Google來擷取知識作

出基於 Surface Patterns的定義型問題問答系統CaiCuiMiao

Zhao與 Ren(2004)利用 Google Web APIs作出中文自動問答系統

Kilgarriff(2007)描述了使用 Google 這類官方搜尋引擎時會有

的幾個議題本研究整理列出並解釋和本研究的關係

1 官方搜尋引擎不考慮 Lemmatize(如英文同詞幹不同詞性的字)及

Part-Of-Speech tag但是中文沒有 Lemmatize的問題而本研究

設計的方法不使用 Part-Of-Speech tag

2 官方搜尋引擎的搜尋語法有限例如有無提供「萬用字元」及模糊

算子本研究只使用 Google的雙引號「」Query功能表示嚴格

限定只找包含完整 Query字串的網頁

3 官方搜尋引擎有 Query數限制在固定時間內使用者只能發出有限

的 Query而本研究以延長搜尋間隔時間來解決

4 官方搜尋引擎的搜尋結果數是網頁數而非詞句數由於無法下載

所有 hit pages的內容精準統計語句次數故本研究利用網頁數

做為數據來源此為本研究的限制

5 搜尋結果數中可能有重覆的資料例如不同網址有同樣文件內容

此問題雖然會影響結果但是本研究所設計的方法主要是利用最長

可得結果字串的長度為評分依據而搜尋結果數只影響分數中的小

數部份對本研究只佔了小部份的影響

33 TOP-Huayu 詞彙語法

臺灣華語文能力測驗的前身是 2003 年國立臺灣師範大學國語教

學中心華語文教學研究所與心理教育測驗中心三個團隊所共同研發

的「華語文能力測驗」(Chinese Proficiency Test CPT)2005 年

11 月教育部提升這個測驗為國家級的測驗並改為 TOP-Huayu(張莉

萍 2007)2010 年再改版為 TOCFL到 2010 年 11 月份為止臺灣

15

華語文能力測驗的到考人數已達到 11527 人成功取得證書人數更

有 6080 人(國家華語測驗推動工作委員會2009)如表 3-3表示

此測驗在國際上已具有相當的知名度

表 3-3 臺灣華語文能力測驗 2003年 12月到 2010年 11月份累計各

等級到考及獲證人數分佈(基礎測驗從 2007年 11月開始)

到考人數 獲得證書

人數 通過率()

基礎測驗 1729 1324 7662

初等測驗 3572 1620 4543

中等測驗 4184 1719 4114

高等測驗 2042 1345 6587

資料來源國家華語測驗推動工作委員會(2009)

由於地緣關係本研究使用台灣華語文能力測驗且由於新版的

TOCFL「選詞填空」的形式較 TOP-Huayu 詞彙語法複雜本研究參考

專家的建議後以台灣 TOP-Huayu詞彙語法為製作系統及分析準確度

的標竿並做為未來研究的基礎洪小雯(2009)表示「詞彙語法」

的題型儘管較為傳統但其著重測詴語言知識的考量不宜偏廢畢竟

在外語的學習過程中語言知識是決定語言能力的基礎

TOP-Huayu的詞彙分級方法參考自張莉萍陳鳳儀(2006)所訂

定的規則詞彙來源主要參考自台灣師大華語文能力測驗詞彙分級表

張莉萍(2002)(以下簡稱 CPT詞彙表)漢語水平詞彙等級大綱(國

家對外漢語教學領導小組辦公室漢語水平考詴部1992)(以下簡稱

HSK詞彙表)CPT和 HSK的詞彙交集分佈如表 3-4

在華語文能力測驗與歐洲共同架構 CEFR 的對應關係方面藍珮

君(2007)研究基礎華語文能力測驗與 CEFR 對應程度發現測驗等

級介於 CEFR A1 與 A2 之間屬於初級使用者的程度表示該測驗可

16

適當的測出受詴者的能力

表 3-4 CPT vs HSK等級詞彙的交集

HSK cap CPT CPT詞彙表(10155個)

初(1507) 中(3684) 高(4964)

HSK詞彙表

(8767個)

甲(1027) 683 231 17

乙(2003) 330 805 265

丙(2188) 141 486 474

丁(3569) 54 406 632

資料來源張莉萍陳鳳儀(2006)

17

4 第四章 正答力計算方法

本研究提出一個篩選詞彙語法電腦出題的候選誘答選項的方法

在不斷的測詴與改進基於 Markov Chain及 Katz Backoff的概念

並且使用 Google做為 N-gram count值的來源設計了一個方法來計

算詞彙語法題之候選誘答選項的正答力計算正答力的概念如圖 4-1

先計算正確答案正答力如圖 4-2然後計算每個候選誘答選項正答

力如圖 4-3使能和正確答案的正答力比較

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖

圖 4-2 計算正確答案正答力範例

18

圖 4-3 計算並比較正確答案和誘答選項正答力的範例

在實際應用時若該候選誘答選項的正答力大於正確答案表示

該選項為最佳答案則選項不適用如圖 4-3將其過慮掉本章包

含計算正答力之前及之後需處理的「前後置處理」完成本方法之前

所參考的「其它計算正答力方法」然後是本研究最後呈現的「基於

全球資訊網的正答力計算方法」最後是新舊方法的「方法比較」

41 前後置處理

圖 4-4為本方法前後置處理的流程圖虛線圍起來的部份是本研

究的核心方法本節介紹前後置處理包含計算正答力的前置及後續

處理工作

19

圖 4-4 前後置處理流程圖

如圖 4-4「輸入題幹及選項」輸入一題詞彙語法題的題幹及 4

個選項此部份可視為華語文詞彙語法電腦出題系統產生候選誘答選

項後將選項輸入該系統以計算該選項的正答力如下題幹及選項

(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

「將題幹及選項組成句子」將選項和題幹組成一個完整的句子4

個選項則產生 4個句子如下範例

20

我國天然資源不多礦產種類只有煤和石油

我國天然材料不多礦產種類只有煤和石油

我國天然產品不多礦產種類只有煤和石油

我國天然原料不多礦產種類只有煤和石油

「斷詞」將每個句子經由 Internet送到中研院斷詞系統進行斷詞

方便後續分析正答力如下範例句子斷詞後的結果「」表分隔

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

我國 天然 材料 不 多 礦產 種類 只有 煤 和 石油

我國 天然 產品 不 多 礦產 種類 只有 煤 和 石油

我國 天然 原料 不 多 礦產 種類 只有 煤 和 石油

「計算正答力」此模組負責計算每個選項的正答力為本研究

的核心部份計算方法將在下一節詳細介紹

「呈現正答力」輸出該選項的正答力分數結果供電腦出題系

統判斷候選誘答選項非最佳答案或直接供詴題研發人員參考如下

範例

「資源」選項的正答力=17581062

「材料」選項的正答力=5614006

「產品」選項的正答力=7181650

「原料」選項的正答力=5623282

本系統計算出來的是相對正答力不能比較不同題目的相同誘答選項

正答力

42 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法本研究參考了

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 14: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

5

15 研究限制

本研究有以下限制

1 本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu華

語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK

2 本研究利用Google搜尋全球資訊網的語料取得N-gram count值

由於全球資訊網的語料未經審核當真正用在分析華語文詞彙語法

電腦出題之誘答選項的正答力時可能會受到錯誤語法影響

3 本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取得

Google 網頁搜尋結果時從國內發出 Request 會和從國外發出

Request 所取得的結果數不同另外 Google 搜尋結果也會隨著時

間而改變所以不能保證本研究的評估結果 100重現

4 本研究使用的 Google 搜尋結果數為數據來源而搜尋結果數是網

頁數非精準的詞句數

5 本研究僅針對 Maximum Likelihood EstimationKatz backoff

Bigram Markov Chain5-gram Markov Chain 作研究並只以中

研院平衡語料庫及 Google 為 N-grams count 值的來源並不代表

其它的計算語言學方法不適合或沒有方法可以用來計算本研究中

的正答力

6

2 第二章 相關研究

本章介紹和本研究間接相關的研究議題作為本研究的參考包

含電腦輔助英文詞彙語法出題電腦出題設計原則華語文教學與測

驗探討

21 電腦輔助英文詞彙語法出題之探討

華語文電腦出題為剛起步的研究相關文獻並不多而華語文詞

彙語法之電腦出題研究也幾乎沒有故本研究調查數篇和英文詞彙語

法題之電腦出題的研究做為製作中文測驗之電腦出題的參考

本研究整理數篇電腦輔助英文克漏詞多選題出題研究並參考其

中篩選誘答選項的方法如表 2-1Goto et al(2010)及 Sumita

Sugaya amp Yamamoto(2005)將候選誘答選項和相鄰的二個詞一起放到

Google中搜尋若有結果表示該誘答選項不適用Liu et al(2005)

也是用一樣的方法但是語料來源是本身系統內的語料庫語料量較

少Chen Liouamp Chang(2006)利用文法規則來產生誘答選項挑選

跟答案不同詞性的選項(例如動詞介詞)藉錯誤的詞性來確保

選項是錯誤的

7

表 2-1 電腦輔助英文詞彙語法出題篩選誘答選項(a)方法一(b)方

法二

方法

將候選誘答選項和相鄰的二個詞(或更多)放到

Google 中(Goto et al 2010 Sumita et al 2005)或

一般語料庫(Liu et al 2005)搜尋若有結果表

示該誘答選項不適用

例子 This is the building what we had our first office

解釋

what 是候選誘答選項(正答是 which)用來搜

尋的字串可以是「building what we」也可以是

「the building what we had」但是嚴謹程度不一

樣若有結果表示該誘答選項不適用

(a) 方法一

方法 產生不同詞性規則的誘答選項藉此確保誘答選項

是錯誤選項(Chen et al 2006)

例子

Representative democracy seemed ______ simultaneously

during the eighteenth and nineteenth centuries in Britain

Europe and the United States

(A) to evolve

(B) to evolving

(C) evolving

(D) evolve

解釋 4 個選項的詞性都不同

(b) 方法二

以華語文詞彙語法題的觀點來看方法二較不適合用在本研究

因華語文詞彙題的誘答選項通常是同一種詞性且華語文是孤立語

不像英文有字尾型態變化另外Bensoussan 和 Ramraz(1984)也表示

在設計誘答選項時四個選項中最好都使用同一種詞性例如全部是

動詞避免提示效果故方法二不適合直接用來計算及篩選本研究的

8

誘答選項

本研究也是利用 Google 網頁搜尋為 N-gram count值的來源但

是所用的計算方法和「方法一」不同由於上述學者的方法是應用在

英文詞彙語法出題如果用在本研究的華語文詞彙語法出題上會將

具有誘答力易混肴的一些較好的誘答選項過濾掉所以不適合用在

本研究上

本研究另外參考計算語言學 Markov chain(Jurafsky amp Martin

2009)技術計算誘答選項的正答力確保候選誘答選項非最佳答案

22 電腦出題設計原則

本研究在調查完電腦輔助英文克漏詞多選題出題(Chen et al

2006 Goto et al2010 Sumita et al2005)及其它電腦出題研

究(Yang 2006)後歸納出電腦出題可分為半自動的輔助出題和全自

動的自動出題本研究融合這兩種觀念提出電腦出題研究的原則

輔助出題是電腦提供題目資訊來協助出題者例如電腦產生誘

答選項的清單出題者自行決定可用的選項但是輔助出題是把資料

傾倒出來不確定是否有用有可能會額外增加老師的負擔自動出

題是由電腦決定例如電腦直接產生它覺得可用的三個誘答選項而

過程不需要出題者介入出題者直接套用結果

雖然看起來電腦自動出題是最佳的方式但是實務上幾近不可能

原因如下

1 測驗是一門很深的理論有許多出題規則包含明確及模糊的規

則華語文能力測驗更是如此所以很難將所有規則都具體且明

確化並套用到電腦程式裡

2 出題老師的出題規則往往是用直覺而直覺裡才包含著經驗和知

識所以很難將出題老師的出題規則具體且明確化

3 每位出題老師的出題規則都不同例如有的老師覺得誘答選項

要同一詞性有的覺得要不同詞性因此不可能有一套自動出

9

題系統能滿足所有人的要求所以嚴格來說不可能實現真正符

合需求的電腦自動出題

本研究認為電腦出題應以電腦自動出題為目標但是以電腦輔助

出題的方式呈現本研究建議使用推薦方式能保有兩種出題方式的

優點而本研究所提出的正答力計算方法除了用來過濾電腦自動出

題的候選誘答選項外也可以當作排序的依據呈現候選誘答選項輔

助詴題研發人員選擇最適合的誘答選項

23 華語文測驗與教學探討

3 現今國際上重要的能力考詴皆致力於對應於 CEFR 能力架構

(Council of Europe2001)台灣所研發的華語文能力測驗也是依據

CEFR指標同時也對應了 CEFR的級數到台灣師範大學語言中心的教

材張莉萍陳鳳儀(2008)提出台灣華語文能力測驗的分級方式分

級依據學生來參加考詴的前一個星期所上的教材落點為劃分標準其

劃分方式本研究整理如下

1 基礎級(TOP-beginner)

在台灣師範大學語言中心學習 150小時以上的學生

等於 CEFR所描述的 A2語言能力

能了解大部分與切身相關的句子及常用詞彙例如非常基本之

個人及家族資訊購物當地地理環境工作狀況等針對熟悉

單純例行性的任務能以簡單直接地溝通方式交換訊息能

簡單地敘述出個人背景週遭環境及立即需求

2 進階級(TOP-learner)

讀完新版實用視聽華語系列教材一-四冊(約 530個學時)

等於 CEFR所描述的 B1語言能力

針對一般職場學校休閒等場合常遇到的熟悉事物時在接

10

收到標準且清晰的信息後能瞭解其重點在目標語言地區旅遊

時能應付大部分可能會出現的一般狀況針對熟悉及私人感興

趣之主題能簡單地撰稿能敘述經驗事件夢想希望及志向

對看法及計畫能簡短地解釋理由及做出說明

3 高階級(Top-superior)

讀完新版實用視聽華語系列教材四冊後再讀完遠東生活華語三

第八單元的學生(約 610學時)

能通過百分之六十七 CEFR B2等級的題目

針對具體及抽象主題的複雜文字能瞭解其重點主題涵蓋個人

專業領域的技術討論能即時地以母語作互動有一定的流暢度

且不會讓任一方感到緊張能針對相當多的主題撰寫出一份完整

詳細的文章並可針對所提各議題重點做出優缺點說明

上述教材當初並非依據 CEFR 能力指標規劃完整系列而是針

對教材內容主題做了對應例如有的教材雖然屬於 B2 教材但

不代表學生學完這本教材即具有 B2 能力因為該本教材可能只具備

部分 B2能力或說學生要具備 B2能力原本就不會只讀一本教材現

階段華語文能力測驗關心的是如何幫助學生有效地從 B1 跨越到 B2

並選擇適當的教材或課程規劃

11

3 第三章 研究工具

本章介紹本研究基礎的三項工具由於此三項工具使得本研究的

方法得以實現本章將介紹中研院斷詞系統Google 網頁搜尋

TOP-Huayu詞彙語法

31 中研院斷詞系統

要進行華語文語句分析必須將語句斷詞後才能處理本研究

利用中央研究院中文資訊處理實驗室詞庫小組所發展的中文斷詞系

統 httpckipsvriissinicaedutw將句子斷成數個詞並重新組成

N-grams

在偵測未知詞的部份是利用基於語料庫的方法找出句法規則再

利用此規則來分辨單音節元素然後找出未知詞或錯誤用法(Chen amp

Bai1998)斷詞後的範例

這(Nep) 是(SHI) 一(Neu) 家(Nf) 擁有(VJ) 五百(Neu) 名(Nf) 員工(Na) 的

(DE) 中型(A) 企業(Na) (PERIODCATEGORY)

利用 Hong Kong Cityu(HK)的 closedtrack 及 open track

Beijing University (PK)的 closedtrack 及 open track共 4 種

評估此斷詞系統結果具有相當高的 F scores(Ma amp Chen2003)

如表 3-1及表 3-2其中英文字母代表依序為test recall (R) test

precision (P)F score(F)the out-of-vocabulary (OOV) rate for

the test corpusthe recall on OOV words(Roov)及 the recall on

in-vocabulary(Riv) words

12

表 3-1 Scores for HK

R P F OOV Roov Riv

Closed 0947 0934 0940 0071 0625 0972

Open 0958 0954 0956 0071 0788 0971

資料來源 Ma amp Chen(2003)

表 3-2 Scores for PK

R P F OOV Roov Riv

Closed 0939 0934 0936 0069 0642 0961

Open 0939 0938 0938 0069 0675 0959

資料來源 Ma amp Chen(2003)

圖 3-1 中研院中文斷詞系統網站

資料來源中文斷詞系統 httpckipsvriissinicaedutw

13

中研院中文斷詞系統已經廣泛的被各種領域的學者所使用例如

陳慶龍(2007)利用此斷詞系統製作中文體育知識問答系統Huang

ChiuChuanSandnes(2010)製作一個可以診斷憂鬱症的語言分析器

其中利用中研院中文斷詞系統來擷取關鍵字

32 Google 網頁搜尋

1995 年 Google 的創辦人美國史丹福大學的研究生 Larry Page

以及 Sergey Brin憑藉其資訊工程的專長開發名為 BackRub的搜尋

引擎後來正式更名為 Google其任務在於組織全世界的資訊讓

全球都能使用並有所禆益可說是目前全球最大的搜尋引撆現代人

幾乎只要提到資料搜索都絕對離不開 Google 搜尋正因為它可以在

短時間內找到相當豐富的資料查詢所得的結果遠多於其他搜尋網站

因此已經成為許多人不可或缺的工具(童國倫潘奕萍 2009)故本

研究以 Google為 N-gram count值的來源分析選項正答力

GOOGLE支援多達一百三十二種語言包括簡體中文和繁體中文

並有「頁庫存檔」功能即使網頁檔案被刪除仍然可以查詢到資料

而且可以搜尋的資料類型至少包括以下幾種格式

Adobe Portable Document Format (pdf)

Adobe PostScript (ps)

Lotus 1-2-3 (wk1 wk2 wk3 wk4 wk5 wki wks wku)

Lotus WordPro (lwp)

MacWrite (mw)

Microsoft Excel (xls)

Microsoft PowerPoint (ppt)

Microsoft Word (doc)

Microsoft Works (wks wps wdb)

Microsoft Write (wri)

Rich Text Format (rtf)

Shockwave Flash (swf)

Text (ans txt)

HyperText Markup Language (html)

14

Google 目前已被廣泛應用在各種自然語言處理研究中例如

FigueroaNeumann與 Atkinson (2009)利用 Google來擷取知識作

出基於 Surface Patterns的定義型問題問答系統CaiCuiMiao

Zhao與 Ren(2004)利用 Google Web APIs作出中文自動問答系統

Kilgarriff(2007)描述了使用 Google 這類官方搜尋引擎時會有

的幾個議題本研究整理列出並解釋和本研究的關係

1 官方搜尋引擎不考慮 Lemmatize(如英文同詞幹不同詞性的字)及

Part-Of-Speech tag但是中文沒有 Lemmatize的問題而本研究

設計的方法不使用 Part-Of-Speech tag

2 官方搜尋引擎的搜尋語法有限例如有無提供「萬用字元」及模糊

算子本研究只使用 Google的雙引號「」Query功能表示嚴格

限定只找包含完整 Query字串的網頁

3 官方搜尋引擎有 Query數限制在固定時間內使用者只能發出有限

的 Query而本研究以延長搜尋間隔時間來解決

4 官方搜尋引擎的搜尋結果數是網頁數而非詞句數由於無法下載

所有 hit pages的內容精準統計語句次數故本研究利用網頁數

做為數據來源此為本研究的限制

5 搜尋結果數中可能有重覆的資料例如不同網址有同樣文件內容

此問題雖然會影響結果但是本研究所設計的方法主要是利用最長

可得結果字串的長度為評分依據而搜尋結果數只影響分數中的小

數部份對本研究只佔了小部份的影響

33 TOP-Huayu 詞彙語法

臺灣華語文能力測驗的前身是 2003 年國立臺灣師範大學國語教

學中心華語文教學研究所與心理教育測驗中心三個團隊所共同研發

的「華語文能力測驗」(Chinese Proficiency Test CPT)2005 年

11 月教育部提升這個測驗為國家級的測驗並改為 TOP-Huayu(張莉

萍 2007)2010 年再改版為 TOCFL到 2010 年 11 月份為止臺灣

15

華語文能力測驗的到考人數已達到 11527 人成功取得證書人數更

有 6080 人(國家華語測驗推動工作委員會2009)如表 3-3表示

此測驗在國際上已具有相當的知名度

表 3-3 臺灣華語文能力測驗 2003年 12月到 2010年 11月份累計各

等級到考及獲證人數分佈(基礎測驗從 2007年 11月開始)

到考人數 獲得證書

人數 通過率()

基礎測驗 1729 1324 7662

初等測驗 3572 1620 4543

中等測驗 4184 1719 4114

高等測驗 2042 1345 6587

資料來源國家華語測驗推動工作委員會(2009)

由於地緣關係本研究使用台灣華語文能力測驗且由於新版的

TOCFL「選詞填空」的形式較 TOP-Huayu 詞彙語法複雜本研究參考

專家的建議後以台灣 TOP-Huayu詞彙語法為製作系統及分析準確度

的標竿並做為未來研究的基礎洪小雯(2009)表示「詞彙語法」

的題型儘管較為傳統但其著重測詴語言知識的考量不宜偏廢畢竟

在外語的學習過程中語言知識是決定語言能力的基礎

TOP-Huayu的詞彙分級方法參考自張莉萍陳鳳儀(2006)所訂

定的規則詞彙來源主要參考自台灣師大華語文能力測驗詞彙分級表

張莉萍(2002)(以下簡稱 CPT詞彙表)漢語水平詞彙等級大綱(國

家對外漢語教學領導小組辦公室漢語水平考詴部1992)(以下簡稱

HSK詞彙表)CPT和 HSK的詞彙交集分佈如表 3-4

在華語文能力測驗與歐洲共同架構 CEFR 的對應關係方面藍珮

君(2007)研究基礎華語文能力測驗與 CEFR 對應程度發現測驗等

級介於 CEFR A1 與 A2 之間屬於初級使用者的程度表示該測驗可

16

適當的測出受詴者的能力

表 3-4 CPT vs HSK等級詞彙的交集

HSK cap CPT CPT詞彙表(10155個)

初(1507) 中(3684) 高(4964)

HSK詞彙表

(8767個)

甲(1027) 683 231 17

乙(2003) 330 805 265

丙(2188) 141 486 474

丁(3569) 54 406 632

資料來源張莉萍陳鳳儀(2006)

17

4 第四章 正答力計算方法

本研究提出一個篩選詞彙語法電腦出題的候選誘答選項的方法

在不斷的測詴與改進基於 Markov Chain及 Katz Backoff的概念

並且使用 Google做為 N-gram count值的來源設計了一個方法來計

算詞彙語法題之候選誘答選項的正答力計算正答力的概念如圖 4-1

先計算正確答案正答力如圖 4-2然後計算每個候選誘答選項正答

力如圖 4-3使能和正確答案的正答力比較

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖

圖 4-2 計算正確答案正答力範例

18

圖 4-3 計算並比較正確答案和誘答選項正答力的範例

在實際應用時若該候選誘答選項的正答力大於正確答案表示

該選項為最佳答案則選項不適用如圖 4-3將其過慮掉本章包

含計算正答力之前及之後需處理的「前後置處理」完成本方法之前

所參考的「其它計算正答力方法」然後是本研究最後呈現的「基於

全球資訊網的正答力計算方法」最後是新舊方法的「方法比較」

41 前後置處理

圖 4-4為本方法前後置處理的流程圖虛線圍起來的部份是本研

究的核心方法本節介紹前後置處理包含計算正答力的前置及後續

處理工作

19

圖 4-4 前後置處理流程圖

如圖 4-4「輸入題幹及選項」輸入一題詞彙語法題的題幹及 4

個選項此部份可視為華語文詞彙語法電腦出題系統產生候選誘答選

項後將選項輸入該系統以計算該選項的正答力如下題幹及選項

(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

「將題幹及選項組成句子」將選項和題幹組成一個完整的句子4

個選項則產生 4個句子如下範例

20

我國天然資源不多礦產種類只有煤和石油

我國天然材料不多礦產種類只有煤和石油

我國天然產品不多礦產種類只有煤和石油

我國天然原料不多礦產種類只有煤和石油

「斷詞」將每個句子經由 Internet送到中研院斷詞系統進行斷詞

方便後續分析正答力如下範例句子斷詞後的結果「」表分隔

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

我國 天然 材料 不 多 礦產 種類 只有 煤 和 石油

我國 天然 產品 不 多 礦產 種類 只有 煤 和 石油

我國 天然 原料 不 多 礦產 種類 只有 煤 和 石油

「計算正答力」此模組負責計算每個選項的正答力為本研究

的核心部份計算方法將在下一節詳細介紹

「呈現正答力」輸出該選項的正答力分數結果供電腦出題系

統判斷候選誘答選項非最佳答案或直接供詴題研發人員參考如下

範例

「資源」選項的正答力=17581062

「材料」選項的正答力=5614006

「產品」選項的正答力=7181650

「原料」選項的正答力=5623282

本系統計算出來的是相對正答力不能比較不同題目的相同誘答選項

正答力

42 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法本研究參考了

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 15: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

6

2 第二章 相關研究

本章介紹和本研究間接相關的研究議題作為本研究的參考包

含電腦輔助英文詞彙語法出題電腦出題設計原則華語文教學與測

驗探討

21 電腦輔助英文詞彙語法出題之探討

華語文電腦出題為剛起步的研究相關文獻並不多而華語文詞

彙語法之電腦出題研究也幾乎沒有故本研究調查數篇和英文詞彙語

法題之電腦出題的研究做為製作中文測驗之電腦出題的參考

本研究整理數篇電腦輔助英文克漏詞多選題出題研究並參考其

中篩選誘答選項的方法如表 2-1Goto et al(2010)及 Sumita

Sugaya amp Yamamoto(2005)將候選誘答選項和相鄰的二個詞一起放到

Google中搜尋若有結果表示該誘答選項不適用Liu et al(2005)

也是用一樣的方法但是語料來源是本身系統內的語料庫語料量較

少Chen Liouamp Chang(2006)利用文法規則來產生誘答選項挑選

跟答案不同詞性的選項(例如動詞介詞)藉錯誤的詞性來確保

選項是錯誤的

7

表 2-1 電腦輔助英文詞彙語法出題篩選誘答選項(a)方法一(b)方

法二

方法

將候選誘答選項和相鄰的二個詞(或更多)放到

Google 中(Goto et al 2010 Sumita et al 2005)或

一般語料庫(Liu et al 2005)搜尋若有結果表

示該誘答選項不適用

例子 This is the building what we had our first office

解釋

what 是候選誘答選項(正答是 which)用來搜

尋的字串可以是「building what we」也可以是

「the building what we had」但是嚴謹程度不一

樣若有結果表示該誘答選項不適用

(a) 方法一

方法 產生不同詞性規則的誘答選項藉此確保誘答選項

是錯誤選項(Chen et al 2006)

例子

Representative democracy seemed ______ simultaneously

during the eighteenth and nineteenth centuries in Britain

Europe and the United States

(A) to evolve

(B) to evolving

(C) evolving

(D) evolve

解釋 4 個選項的詞性都不同

(b) 方法二

以華語文詞彙語法題的觀點來看方法二較不適合用在本研究

因華語文詞彙題的誘答選項通常是同一種詞性且華語文是孤立語

不像英文有字尾型態變化另外Bensoussan 和 Ramraz(1984)也表示

在設計誘答選項時四個選項中最好都使用同一種詞性例如全部是

動詞避免提示效果故方法二不適合直接用來計算及篩選本研究的

8

誘答選項

本研究也是利用 Google 網頁搜尋為 N-gram count值的來源但

是所用的計算方法和「方法一」不同由於上述學者的方法是應用在

英文詞彙語法出題如果用在本研究的華語文詞彙語法出題上會將

具有誘答力易混肴的一些較好的誘答選項過濾掉所以不適合用在

本研究上

本研究另外參考計算語言學 Markov chain(Jurafsky amp Martin

2009)技術計算誘答選項的正答力確保候選誘答選項非最佳答案

22 電腦出題設計原則

本研究在調查完電腦輔助英文克漏詞多選題出題(Chen et al

2006 Goto et al2010 Sumita et al2005)及其它電腦出題研

究(Yang 2006)後歸納出電腦出題可分為半自動的輔助出題和全自

動的自動出題本研究融合這兩種觀念提出電腦出題研究的原則

輔助出題是電腦提供題目資訊來協助出題者例如電腦產生誘

答選項的清單出題者自行決定可用的選項但是輔助出題是把資料

傾倒出來不確定是否有用有可能會額外增加老師的負擔自動出

題是由電腦決定例如電腦直接產生它覺得可用的三個誘答選項而

過程不需要出題者介入出題者直接套用結果

雖然看起來電腦自動出題是最佳的方式但是實務上幾近不可能

原因如下

1 測驗是一門很深的理論有許多出題規則包含明確及模糊的規

則華語文能力測驗更是如此所以很難將所有規則都具體且明

確化並套用到電腦程式裡

2 出題老師的出題規則往往是用直覺而直覺裡才包含著經驗和知

識所以很難將出題老師的出題規則具體且明確化

3 每位出題老師的出題規則都不同例如有的老師覺得誘答選項

要同一詞性有的覺得要不同詞性因此不可能有一套自動出

9

題系統能滿足所有人的要求所以嚴格來說不可能實現真正符

合需求的電腦自動出題

本研究認為電腦出題應以電腦自動出題為目標但是以電腦輔助

出題的方式呈現本研究建議使用推薦方式能保有兩種出題方式的

優點而本研究所提出的正答力計算方法除了用來過濾電腦自動出

題的候選誘答選項外也可以當作排序的依據呈現候選誘答選項輔

助詴題研發人員選擇最適合的誘答選項

23 華語文測驗與教學探討

3 現今國際上重要的能力考詴皆致力於對應於 CEFR 能力架構

(Council of Europe2001)台灣所研發的華語文能力測驗也是依據

CEFR指標同時也對應了 CEFR的級數到台灣師範大學語言中心的教

材張莉萍陳鳳儀(2008)提出台灣華語文能力測驗的分級方式分

級依據學生來參加考詴的前一個星期所上的教材落點為劃分標準其

劃分方式本研究整理如下

1 基礎級(TOP-beginner)

在台灣師範大學語言中心學習 150小時以上的學生

等於 CEFR所描述的 A2語言能力

能了解大部分與切身相關的句子及常用詞彙例如非常基本之

個人及家族資訊購物當地地理環境工作狀況等針對熟悉

單純例行性的任務能以簡單直接地溝通方式交換訊息能

簡單地敘述出個人背景週遭環境及立即需求

2 進階級(TOP-learner)

讀完新版實用視聽華語系列教材一-四冊(約 530個學時)

等於 CEFR所描述的 B1語言能力

針對一般職場學校休閒等場合常遇到的熟悉事物時在接

10

收到標準且清晰的信息後能瞭解其重點在目標語言地區旅遊

時能應付大部分可能會出現的一般狀況針對熟悉及私人感興

趣之主題能簡單地撰稿能敘述經驗事件夢想希望及志向

對看法及計畫能簡短地解釋理由及做出說明

3 高階級(Top-superior)

讀完新版實用視聽華語系列教材四冊後再讀完遠東生活華語三

第八單元的學生(約 610學時)

能通過百分之六十七 CEFR B2等級的題目

針對具體及抽象主題的複雜文字能瞭解其重點主題涵蓋個人

專業領域的技術討論能即時地以母語作互動有一定的流暢度

且不會讓任一方感到緊張能針對相當多的主題撰寫出一份完整

詳細的文章並可針對所提各議題重點做出優缺點說明

上述教材當初並非依據 CEFR 能力指標規劃完整系列而是針

對教材內容主題做了對應例如有的教材雖然屬於 B2 教材但

不代表學生學完這本教材即具有 B2 能力因為該本教材可能只具備

部分 B2能力或說學生要具備 B2能力原本就不會只讀一本教材現

階段華語文能力測驗關心的是如何幫助學生有效地從 B1 跨越到 B2

並選擇適當的教材或課程規劃

11

3 第三章 研究工具

本章介紹本研究基礎的三項工具由於此三項工具使得本研究的

方法得以實現本章將介紹中研院斷詞系統Google 網頁搜尋

TOP-Huayu詞彙語法

31 中研院斷詞系統

要進行華語文語句分析必須將語句斷詞後才能處理本研究

利用中央研究院中文資訊處理實驗室詞庫小組所發展的中文斷詞系

統 httpckipsvriissinicaedutw將句子斷成數個詞並重新組成

N-grams

在偵測未知詞的部份是利用基於語料庫的方法找出句法規則再

利用此規則來分辨單音節元素然後找出未知詞或錯誤用法(Chen amp

Bai1998)斷詞後的範例

這(Nep) 是(SHI) 一(Neu) 家(Nf) 擁有(VJ) 五百(Neu) 名(Nf) 員工(Na) 的

(DE) 中型(A) 企業(Na) (PERIODCATEGORY)

利用 Hong Kong Cityu(HK)的 closedtrack 及 open track

Beijing University (PK)的 closedtrack 及 open track共 4 種

評估此斷詞系統結果具有相當高的 F scores(Ma amp Chen2003)

如表 3-1及表 3-2其中英文字母代表依序為test recall (R) test

precision (P)F score(F)the out-of-vocabulary (OOV) rate for

the test corpusthe recall on OOV words(Roov)及 the recall on

in-vocabulary(Riv) words

12

表 3-1 Scores for HK

R P F OOV Roov Riv

Closed 0947 0934 0940 0071 0625 0972

Open 0958 0954 0956 0071 0788 0971

資料來源 Ma amp Chen(2003)

表 3-2 Scores for PK

R P F OOV Roov Riv

Closed 0939 0934 0936 0069 0642 0961

Open 0939 0938 0938 0069 0675 0959

資料來源 Ma amp Chen(2003)

圖 3-1 中研院中文斷詞系統網站

資料來源中文斷詞系統 httpckipsvriissinicaedutw

13

中研院中文斷詞系統已經廣泛的被各種領域的學者所使用例如

陳慶龍(2007)利用此斷詞系統製作中文體育知識問答系統Huang

ChiuChuanSandnes(2010)製作一個可以診斷憂鬱症的語言分析器

其中利用中研院中文斷詞系統來擷取關鍵字

32 Google 網頁搜尋

1995 年 Google 的創辦人美國史丹福大學的研究生 Larry Page

以及 Sergey Brin憑藉其資訊工程的專長開發名為 BackRub的搜尋

引擎後來正式更名為 Google其任務在於組織全世界的資訊讓

全球都能使用並有所禆益可說是目前全球最大的搜尋引撆現代人

幾乎只要提到資料搜索都絕對離不開 Google 搜尋正因為它可以在

短時間內找到相當豐富的資料查詢所得的結果遠多於其他搜尋網站

因此已經成為許多人不可或缺的工具(童國倫潘奕萍 2009)故本

研究以 Google為 N-gram count值的來源分析選項正答力

GOOGLE支援多達一百三十二種語言包括簡體中文和繁體中文

並有「頁庫存檔」功能即使網頁檔案被刪除仍然可以查詢到資料

而且可以搜尋的資料類型至少包括以下幾種格式

Adobe Portable Document Format (pdf)

Adobe PostScript (ps)

Lotus 1-2-3 (wk1 wk2 wk3 wk4 wk5 wki wks wku)

Lotus WordPro (lwp)

MacWrite (mw)

Microsoft Excel (xls)

Microsoft PowerPoint (ppt)

Microsoft Word (doc)

Microsoft Works (wks wps wdb)

Microsoft Write (wri)

Rich Text Format (rtf)

Shockwave Flash (swf)

Text (ans txt)

HyperText Markup Language (html)

14

Google 目前已被廣泛應用在各種自然語言處理研究中例如

FigueroaNeumann與 Atkinson (2009)利用 Google來擷取知識作

出基於 Surface Patterns的定義型問題問答系統CaiCuiMiao

Zhao與 Ren(2004)利用 Google Web APIs作出中文自動問答系統

Kilgarriff(2007)描述了使用 Google 這類官方搜尋引擎時會有

的幾個議題本研究整理列出並解釋和本研究的關係

1 官方搜尋引擎不考慮 Lemmatize(如英文同詞幹不同詞性的字)及

Part-Of-Speech tag但是中文沒有 Lemmatize的問題而本研究

設計的方法不使用 Part-Of-Speech tag

2 官方搜尋引擎的搜尋語法有限例如有無提供「萬用字元」及模糊

算子本研究只使用 Google的雙引號「」Query功能表示嚴格

限定只找包含完整 Query字串的網頁

3 官方搜尋引擎有 Query數限制在固定時間內使用者只能發出有限

的 Query而本研究以延長搜尋間隔時間來解決

4 官方搜尋引擎的搜尋結果數是網頁數而非詞句數由於無法下載

所有 hit pages的內容精準統計語句次數故本研究利用網頁數

做為數據來源此為本研究的限制

5 搜尋結果數中可能有重覆的資料例如不同網址有同樣文件內容

此問題雖然會影響結果但是本研究所設計的方法主要是利用最長

可得結果字串的長度為評分依據而搜尋結果數只影響分數中的小

數部份對本研究只佔了小部份的影響

33 TOP-Huayu 詞彙語法

臺灣華語文能力測驗的前身是 2003 年國立臺灣師範大學國語教

學中心華語文教學研究所與心理教育測驗中心三個團隊所共同研發

的「華語文能力測驗」(Chinese Proficiency Test CPT)2005 年

11 月教育部提升這個測驗為國家級的測驗並改為 TOP-Huayu(張莉

萍 2007)2010 年再改版為 TOCFL到 2010 年 11 月份為止臺灣

15

華語文能力測驗的到考人數已達到 11527 人成功取得證書人數更

有 6080 人(國家華語測驗推動工作委員會2009)如表 3-3表示

此測驗在國際上已具有相當的知名度

表 3-3 臺灣華語文能力測驗 2003年 12月到 2010年 11月份累計各

等級到考及獲證人數分佈(基礎測驗從 2007年 11月開始)

到考人數 獲得證書

人數 通過率()

基礎測驗 1729 1324 7662

初等測驗 3572 1620 4543

中等測驗 4184 1719 4114

高等測驗 2042 1345 6587

資料來源國家華語測驗推動工作委員會(2009)

由於地緣關係本研究使用台灣華語文能力測驗且由於新版的

TOCFL「選詞填空」的形式較 TOP-Huayu 詞彙語法複雜本研究參考

專家的建議後以台灣 TOP-Huayu詞彙語法為製作系統及分析準確度

的標竿並做為未來研究的基礎洪小雯(2009)表示「詞彙語法」

的題型儘管較為傳統但其著重測詴語言知識的考量不宜偏廢畢竟

在外語的學習過程中語言知識是決定語言能力的基礎

TOP-Huayu的詞彙分級方法參考自張莉萍陳鳳儀(2006)所訂

定的規則詞彙來源主要參考自台灣師大華語文能力測驗詞彙分級表

張莉萍(2002)(以下簡稱 CPT詞彙表)漢語水平詞彙等級大綱(國

家對外漢語教學領導小組辦公室漢語水平考詴部1992)(以下簡稱

HSK詞彙表)CPT和 HSK的詞彙交集分佈如表 3-4

在華語文能力測驗與歐洲共同架構 CEFR 的對應關係方面藍珮

君(2007)研究基礎華語文能力測驗與 CEFR 對應程度發現測驗等

級介於 CEFR A1 與 A2 之間屬於初級使用者的程度表示該測驗可

16

適當的測出受詴者的能力

表 3-4 CPT vs HSK等級詞彙的交集

HSK cap CPT CPT詞彙表(10155個)

初(1507) 中(3684) 高(4964)

HSK詞彙表

(8767個)

甲(1027) 683 231 17

乙(2003) 330 805 265

丙(2188) 141 486 474

丁(3569) 54 406 632

資料來源張莉萍陳鳳儀(2006)

17

4 第四章 正答力計算方法

本研究提出一個篩選詞彙語法電腦出題的候選誘答選項的方法

在不斷的測詴與改進基於 Markov Chain及 Katz Backoff的概念

並且使用 Google做為 N-gram count值的來源設計了一個方法來計

算詞彙語法題之候選誘答選項的正答力計算正答力的概念如圖 4-1

先計算正確答案正答力如圖 4-2然後計算每個候選誘答選項正答

力如圖 4-3使能和正確答案的正答力比較

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖

圖 4-2 計算正確答案正答力範例

18

圖 4-3 計算並比較正確答案和誘答選項正答力的範例

在實際應用時若該候選誘答選項的正答力大於正確答案表示

該選項為最佳答案則選項不適用如圖 4-3將其過慮掉本章包

含計算正答力之前及之後需處理的「前後置處理」完成本方法之前

所參考的「其它計算正答力方法」然後是本研究最後呈現的「基於

全球資訊網的正答力計算方法」最後是新舊方法的「方法比較」

41 前後置處理

圖 4-4為本方法前後置處理的流程圖虛線圍起來的部份是本研

究的核心方法本節介紹前後置處理包含計算正答力的前置及後續

處理工作

19

圖 4-4 前後置處理流程圖

如圖 4-4「輸入題幹及選項」輸入一題詞彙語法題的題幹及 4

個選項此部份可視為華語文詞彙語法電腦出題系統產生候選誘答選

項後將選項輸入該系統以計算該選項的正答力如下題幹及選項

(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

「將題幹及選項組成句子」將選項和題幹組成一個完整的句子4

個選項則產生 4個句子如下範例

20

我國天然資源不多礦產種類只有煤和石油

我國天然材料不多礦產種類只有煤和石油

我國天然產品不多礦產種類只有煤和石油

我國天然原料不多礦產種類只有煤和石油

「斷詞」將每個句子經由 Internet送到中研院斷詞系統進行斷詞

方便後續分析正答力如下範例句子斷詞後的結果「」表分隔

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

我國 天然 材料 不 多 礦產 種類 只有 煤 和 石油

我國 天然 產品 不 多 礦產 種類 只有 煤 和 石油

我國 天然 原料 不 多 礦產 種類 只有 煤 和 石油

「計算正答力」此模組負責計算每個選項的正答力為本研究

的核心部份計算方法將在下一節詳細介紹

「呈現正答力」輸出該選項的正答力分數結果供電腦出題系

統判斷候選誘答選項非最佳答案或直接供詴題研發人員參考如下

範例

「資源」選項的正答力=17581062

「材料」選項的正答力=5614006

「產品」選項的正答力=7181650

「原料」選項的正答力=5623282

本系統計算出來的是相對正答力不能比較不同題目的相同誘答選項

正答力

42 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法本研究參考了

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 16: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

7

表 2-1 電腦輔助英文詞彙語法出題篩選誘答選項(a)方法一(b)方

法二

方法

將候選誘答選項和相鄰的二個詞(或更多)放到

Google 中(Goto et al 2010 Sumita et al 2005)或

一般語料庫(Liu et al 2005)搜尋若有結果表

示該誘答選項不適用

例子 This is the building what we had our first office

解釋

what 是候選誘答選項(正答是 which)用來搜

尋的字串可以是「building what we」也可以是

「the building what we had」但是嚴謹程度不一

樣若有結果表示該誘答選項不適用

(a) 方法一

方法 產生不同詞性規則的誘答選項藉此確保誘答選項

是錯誤選項(Chen et al 2006)

例子

Representative democracy seemed ______ simultaneously

during the eighteenth and nineteenth centuries in Britain

Europe and the United States

(A) to evolve

(B) to evolving

(C) evolving

(D) evolve

解釋 4 個選項的詞性都不同

(b) 方法二

以華語文詞彙語法題的觀點來看方法二較不適合用在本研究

因華語文詞彙題的誘答選項通常是同一種詞性且華語文是孤立語

不像英文有字尾型態變化另外Bensoussan 和 Ramraz(1984)也表示

在設計誘答選項時四個選項中最好都使用同一種詞性例如全部是

動詞避免提示效果故方法二不適合直接用來計算及篩選本研究的

8

誘答選項

本研究也是利用 Google 網頁搜尋為 N-gram count值的來源但

是所用的計算方法和「方法一」不同由於上述學者的方法是應用在

英文詞彙語法出題如果用在本研究的華語文詞彙語法出題上會將

具有誘答力易混肴的一些較好的誘答選項過濾掉所以不適合用在

本研究上

本研究另外參考計算語言學 Markov chain(Jurafsky amp Martin

2009)技術計算誘答選項的正答力確保候選誘答選項非最佳答案

22 電腦出題設計原則

本研究在調查完電腦輔助英文克漏詞多選題出題(Chen et al

2006 Goto et al2010 Sumita et al2005)及其它電腦出題研

究(Yang 2006)後歸納出電腦出題可分為半自動的輔助出題和全自

動的自動出題本研究融合這兩種觀念提出電腦出題研究的原則

輔助出題是電腦提供題目資訊來協助出題者例如電腦產生誘

答選項的清單出題者自行決定可用的選項但是輔助出題是把資料

傾倒出來不確定是否有用有可能會額外增加老師的負擔自動出

題是由電腦決定例如電腦直接產生它覺得可用的三個誘答選項而

過程不需要出題者介入出題者直接套用結果

雖然看起來電腦自動出題是最佳的方式但是實務上幾近不可能

原因如下

1 測驗是一門很深的理論有許多出題規則包含明確及模糊的規

則華語文能力測驗更是如此所以很難將所有規則都具體且明

確化並套用到電腦程式裡

2 出題老師的出題規則往往是用直覺而直覺裡才包含著經驗和知

識所以很難將出題老師的出題規則具體且明確化

3 每位出題老師的出題規則都不同例如有的老師覺得誘答選項

要同一詞性有的覺得要不同詞性因此不可能有一套自動出

9

題系統能滿足所有人的要求所以嚴格來說不可能實現真正符

合需求的電腦自動出題

本研究認為電腦出題應以電腦自動出題為目標但是以電腦輔助

出題的方式呈現本研究建議使用推薦方式能保有兩種出題方式的

優點而本研究所提出的正答力計算方法除了用來過濾電腦自動出

題的候選誘答選項外也可以當作排序的依據呈現候選誘答選項輔

助詴題研發人員選擇最適合的誘答選項

23 華語文測驗與教學探討

3 現今國際上重要的能力考詴皆致力於對應於 CEFR 能力架構

(Council of Europe2001)台灣所研發的華語文能力測驗也是依據

CEFR指標同時也對應了 CEFR的級數到台灣師範大學語言中心的教

材張莉萍陳鳳儀(2008)提出台灣華語文能力測驗的分級方式分

級依據學生來參加考詴的前一個星期所上的教材落點為劃分標準其

劃分方式本研究整理如下

1 基礎級(TOP-beginner)

在台灣師範大學語言中心學習 150小時以上的學生

等於 CEFR所描述的 A2語言能力

能了解大部分與切身相關的句子及常用詞彙例如非常基本之

個人及家族資訊購物當地地理環境工作狀況等針對熟悉

單純例行性的任務能以簡單直接地溝通方式交換訊息能

簡單地敘述出個人背景週遭環境及立即需求

2 進階級(TOP-learner)

讀完新版實用視聽華語系列教材一-四冊(約 530個學時)

等於 CEFR所描述的 B1語言能力

針對一般職場學校休閒等場合常遇到的熟悉事物時在接

10

收到標準且清晰的信息後能瞭解其重點在目標語言地區旅遊

時能應付大部分可能會出現的一般狀況針對熟悉及私人感興

趣之主題能簡單地撰稿能敘述經驗事件夢想希望及志向

對看法及計畫能簡短地解釋理由及做出說明

3 高階級(Top-superior)

讀完新版實用視聽華語系列教材四冊後再讀完遠東生活華語三

第八單元的學生(約 610學時)

能通過百分之六十七 CEFR B2等級的題目

針對具體及抽象主題的複雜文字能瞭解其重點主題涵蓋個人

專業領域的技術討論能即時地以母語作互動有一定的流暢度

且不會讓任一方感到緊張能針對相當多的主題撰寫出一份完整

詳細的文章並可針對所提各議題重點做出優缺點說明

上述教材當初並非依據 CEFR 能力指標規劃完整系列而是針

對教材內容主題做了對應例如有的教材雖然屬於 B2 教材但

不代表學生學完這本教材即具有 B2 能力因為該本教材可能只具備

部分 B2能力或說學生要具備 B2能力原本就不會只讀一本教材現

階段華語文能力測驗關心的是如何幫助學生有效地從 B1 跨越到 B2

並選擇適當的教材或課程規劃

11

3 第三章 研究工具

本章介紹本研究基礎的三項工具由於此三項工具使得本研究的

方法得以實現本章將介紹中研院斷詞系統Google 網頁搜尋

TOP-Huayu詞彙語法

31 中研院斷詞系統

要進行華語文語句分析必須將語句斷詞後才能處理本研究

利用中央研究院中文資訊處理實驗室詞庫小組所發展的中文斷詞系

統 httpckipsvriissinicaedutw將句子斷成數個詞並重新組成

N-grams

在偵測未知詞的部份是利用基於語料庫的方法找出句法規則再

利用此規則來分辨單音節元素然後找出未知詞或錯誤用法(Chen amp

Bai1998)斷詞後的範例

這(Nep) 是(SHI) 一(Neu) 家(Nf) 擁有(VJ) 五百(Neu) 名(Nf) 員工(Na) 的

(DE) 中型(A) 企業(Na) (PERIODCATEGORY)

利用 Hong Kong Cityu(HK)的 closedtrack 及 open track

Beijing University (PK)的 closedtrack 及 open track共 4 種

評估此斷詞系統結果具有相當高的 F scores(Ma amp Chen2003)

如表 3-1及表 3-2其中英文字母代表依序為test recall (R) test

precision (P)F score(F)the out-of-vocabulary (OOV) rate for

the test corpusthe recall on OOV words(Roov)及 the recall on

in-vocabulary(Riv) words

12

表 3-1 Scores for HK

R P F OOV Roov Riv

Closed 0947 0934 0940 0071 0625 0972

Open 0958 0954 0956 0071 0788 0971

資料來源 Ma amp Chen(2003)

表 3-2 Scores for PK

R P F OOV Roov Riv

Closed 0939 0934 0936 0069 0642 0961

Open 0939 0938 0938 0069 0675 0959

資料來源 Ma amp Chen(2003)

圖 3-1 中研院中文斷詞系統網站

資料來源中文斷詞系統 httpckipsvriissinicaedutw

13

中研院中文斷詞系統已經廣泛的被各種領域的學者所使用例如

陳慶龍(2007)利用此斷詞系統製作中文體育知識問答系統Huang

ChiuChuanSandnes(2010)製作一個可以診斷憂鬱症的語言分析器

其中利用中研院中文斷詞系統來擷取關鍵字

32 Google 網頁搜尋

1995 年 Google 的創辦人美國史丹福大學的研究生 Larry Page

以及 Sergey Brin憑藉其資訊工程的專長開發名為 BackRub的搜尋

引擎後來正式更名為 Google其任務在於組織全世界的資訊讓

全球都能使用並有所禆益可說是目前全球最大的搜尋引撆現代人

幾乎只要提到資料搜索都絕對離不開 Google 搜尋正因為它可以在

短時間內找到相當豐富的資料查詢所得的結果遠多於其他搜尋網站

因此已經成為許多人不可或缺的工具(童國倫潘奕萍 2009)故本

研究以 Google為 N-gram count值的來源分析選項正答力

GOOGLE支援多達一百三十二種語言包括簡體中文和繁體中文

並有「頁庫存檔」功能即使網頁檔案被刪除仍然可以查詢到資料

而且可以搜尋的資料類型至少包括以下幾種格式

Adobe Portable Document Format (pdf)

Adobe PostScript (ps)

Lotus 1-2-3 (wk1 wk2 wk3 wk4 wk5 wki wks wku)

Lotus WordPro (lwp)

MacWrite (mw)

Microsoft Excel (xls)

Microsoft PowerPoint (ppt)

Microsoft Word (doc)

Microsoft Works (wks wps wdb)

Microsoft Write (wri)

Rich Text Format (rtf)

Shockwave Flash (swf)

Text (ans txt)

HyperText Markup Language (html)

14

Google 目前已被廣泛應用在各種自然語言處理研究中例如

FigueroaNeumann與 Atkinson (2009)利用 Google來擷取知識作

出基於 Surface Patterns的定義型問題問答系統CaiCuiMiao

Zhao與 Ren(2004)利用 Google Web APIs作出中文自動問答系統

Kilgarriff(2007)描述了使用 Google 這類官方搜尋引擎時會有

的幾個議題本研究整理列出並解釋和本研究的關係

1 官方搜尋引擎不考慮 Lemmatize(如英文同詞幹不同詞性的字)及

Part-Of-Speech tag但是中文沒有 Lemmatize的問題而本研究

設計的方法不使用 Part-Of-Speech tag

2 官方搜尋引擎的搜尋語法有限例如有無提供「萬用字元」及模糊

算子本研究只使用 Google的雙引號「」Query功能表示嚴格

限定只找包含完整 Query字串的網頁

3 官方搜尋引擎有 Query數限制在固定時間內使用者只能發出有限

的 Query而本研究以延長搜尋間隔時間來解決

4 官方搜尋引擎的搜尋結果數是網頁數而非詞句數由於無法下載

所有 hit pages的內容精準統計語句次數故本研究利用網頁數

做為數據來源此為本研究的限制

5 搜尋結果數中可能有重覆的資料例如不同網址有同樣文件內容

此問題雖然會影響結果但是本研究所設計的方法主要是利用最長

可得結果字串的長度為評分依據而搜尋結果數只影響分數中的小

數部份對本研究只佔了小部份的影響

33 TOP-Huayu 詞彙語法

臺灣華語文能力測驗的前身是 2003 年國立臺灣師範大學國語教

學中心華語文教學研究所與心理教育測驗中心三個團隊所共同研發

的「華語文能力測驗」(Chinese Proficiency Test CPT)2005 年

11 月教育部提升這個測驗為國家級的測驗並改為 TOP-Huayu(張莉

萍 2007)2010 年再改版為 TOCFL到 2010 年 11 月份為止臺灣

15

華語文能力測驗的到考人數已達到 11527 人成功取得證書人數更

有 6080 人(國家華語測驗推動工作委員會2009)如表 3-3表示

此測驗在國際上已具有相當的知名度

表 3-3 臺灣華語文能力測驗 2003年 12月到 2010年 11月份累計各

等級到考及獲證人數分佈(基礎測驗從 2007年 11月開始)

到考人數 獲得證書

人數 通過率()

基礎測驗 1729 1324 7662

初等測驗 3572 1620 4543

中等測驗 4184 1719 4114

高等測驗 2042 1345 6587

資料來源國家華語測驗推動工作委員會(2009)

由於地緣關係本研究使用台灣華語文能力測驗且由於新版的

TOCFL「選詞填空」的形式較 TOP-Huayu 詞彙語法複雜本研究參考

專家的建議後以台灣 TOP-Huayu詞彙語法為製作系統及分析準確度

的標竿並做為未來研究的基礎洪小雯(2009)表示「詞彙語法」

的題型儘管較為傳統但其著重測詴語言知識的考量不宜偏廢畢竟

在外語的學習過程中語言知識是決定語言能力的基礎

TOP-Huayu的詞彙分級方法參考自張莉萍陳鳳儀(2006)所訂

定的規則詞彙來源主要參考自台灣師大華語文能力測驗詞彙分級表

張莉萍(2002)(以下簡稱 CPT詞彙表)漢語水平詞彙等級大綱(國

家對外漢語教學領導小組辦公室漢語水平考詴部1992)(以下簡稱

HSK詞彙表)CPT和 HSK的詞彙交集分佈如表 3-4

在華語文能力測驗與歐洲共同架構 CEFR 的對應關係方面藍珮

君(2007)研究基礎華語文能力測驗與 CEFR 對應程度發現測驗等

級介於 CEFR A1 與 A2 之間屬於初級使用者的程度表示該測驗可

16

適當的測出受詴者的能力

表 3-4 CPT vs HSK等級詞彙的交集

HSK cap CPT CPT詞彙表(10155個)

初(1507) 中(3684) 高(4964)

HSK詞彙表

(8767個)

甲(1027) 683 231 17

乙(2003) 330 805 265

丙(2188) 141 486 474

丁(3569) 54 406 632

資料來源張莉萍陳鳳儀(2006)

17

4 第四章 正答力計算方法

本研究提出一個篩選詞彙語法電腦出題的候選誘答選項的方法

在不斷的測詴與改進基於 Markov Chain及 Katz Backoff的概念

並且使用 Google做為 N-gram count值的來源設計了一個方法來計

算詞彙語法題之候選誘答選項的正答力計算正答力的概念如圖 4-1

先計算正確答案正答力如圖 4-2然後計算每個候選誘答選項正答

力如圖 4-3使能和正確答案的正答力比較

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖

圖 4-2 計算正確答案正答力範例

18

圖 4-3 計算並比較正確答案和誘答選項正答力的範例

在實際應用時若該候選誘答選項的正答力大於正確答案表示

該選項為最佳答案則選項不適用如圖 4-3將其過慮掉本章包

含計算正答力之前及之後需處理的「前後置處理」完成本方法之前

所參考的「其它計算正答力方法」然後是本研究最後呈現的「基於

全球資訊網的正答力計算方法」最後是新舊方法的「方法比較」

41 前後置處理

圖 4-4為本方法前後置處理的流程圖虛線圍起來的部份是本研

究的核心方法本節介紹前後置處理包含計算正答力的前置及後續

處理工作

19

圖 4-4 前後置處理流程圖

如圖 4-4「輸入題幹及選項」輸入一題詞彙語法題的題幹及 4

個選項此部份可視為華語文詞彙語法電腦出題系統產生候選誘答選

項後將選項輸入該系統以計算該選項的正答力如下題幹及選項

(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

「將題幹及選項組成句子」將選項和題幹組成一個完整的句子4

個選項則產生 4個句子如下範例

20

我國天然資源不多礦產種類只有煤和石油

我國天然材料不多礦產種類只有煤和石油

我國天然產品不多礦產種類只有煤和石油

我國天然原料不多礦產種類只有煤和石油

「斷詞」將每個句子經由 Internet送到中研院斷詞系統進行斷詞

方便後續分析正答力如下範例句子斷詞後的結果「」表分隔

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

我國 天然 材料 不 多 礦產 種類 只有 煤 和 石油

我國 天然 產品 不 多 礦產 種類 只有 煤 和 石油

我國 天然 原料 不 多 礦產 種類 只有 煤 和 石油

「計算正答力」此模組負責計算每個選項的正答力為本研究

的核心部份計算方法將在下一節詳細介紹

「呈現正答力」輸出該選項的正答力分數結果供電腦出題系

統判斷候選誘答選項非最佳答案或直接供詴題研發人員參考如下

範例

「資源」選項的正答力=17581062

「材料」選項的正答力=5614006

「產品」選項的正答力=7181650

「原料」選項的正答力=5623282

本系統計算出來的是相對正答力不能比較不同題目的相同誘答選項

正答力

42 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法本研究參考了

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 17: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

8

誘答選項

本研究也是利用 Google 網頁搜尋為 N-gram count值的來源但

是所用的計算方法和「方法一」不同由於上述學者的方法是應用在

英文詞彙語法出題如果用在本研究的華語文詞彙語法出題上會將

具有誘答力易混肴的一些較好的誘答選項過濾掉所以不適合用在

本研究上

本研究另外參考計算語言學 Markov chain(Jurafsky amp Martin

2009)技術計算誘答選項的正答力確保候選誘答選項非最佳答案

22 電腦出題設計原則

本研究在調查完電腦輔助英文克漏詞多選題出題(Chen et al

2006 Goto et al2010 Sumita et al2005)及其它電腦出題研

究(Yang 2006)後歸納出電腦出題可分為半自動的輔助出題和全自

動的自動出題本研究融合這兩種觀念提出電腦出題研究的原則

輔助出題是電腦提供題目資訊來協助出題者例如電腦產生誘

答選項的清單出題者自行決定可用的選項但是輔助出題是把資料

傾倒出來不確定是否有用有可能會額外增加老師的負擔自動出

題是由電腦決定例如電腦直接產生它覺得可用的三個誘答選項而

過程不需要出題者介入出題者直接套用結果

雖然看起來電腦自動出題是最佳的方式但是實務上幾近不可能

原因如下

1 測驗是一門很深的理論有許多出題規則包含明確及模糊的規

則華語文能力測驗更是如此所以很難將所有規則都具體且明

確化並套用到電腦程式裡

2 出題老師的出題規則往往是用直覺而直覺裡才包含著經驗和知

識所以很難將出題老師的出題規則具體且明確化

3 每位出題老師的出題規則都不同例如有的老師覺得誘答選項

要同一詞性有的覺得要不同詞性因此不可能有一套自動出

9

題系統能滿足所有人的要求所以嚴格來說不可能實現真正符

合需求的電腦自動出題

本研究認為電腦出題應以電腦自動出題為目標但是以電腦輔助

出題的方式呈現本研究建議使用推薦方式能保有兩種出題方式的

優點而本研究所提出的正答力計算方法除了用來過濾電腦自動出

題的候選誘答選項外也可以當作排序的依據呈現候選誘答選項輔

助詴題研發人員選擇最適合的誘答選項

23 華語文測驗與教學探討

3 現今國際上重要的能力考詴皆致力於對應於 CEFR 能力架構

(Council of Europe2001)台灣所研發的華語文能力測驗也是依據

CEFR指標同時也對應了 CEFR的級數到台灣師範大學語言中心的教

材張莉萍陳鳳儀(2008)提出台灣華語文能力測驗的分級方式分

級依據學生來參加考詴的前一個星期所上的教材落點為劃分標準其

劃分方式本研究整理如下

1 基礎級(TOP-beginner)

在台灣師範大學語言中心學習 150小時以上的學生

等於 CEFR所描述的 A2語言能力

能了解大部分與切身相關的句子及常用詞彙例如非常基本之

個人及家族資訊購物當地地理環境工作狀況等針對熟悉

單純例行性的任務能以簡單直接地溝通方式交換訊息能

簡單地敘述出個人背景週遭環境及立即需求

2 進階級(TOP-learner)

讀完新版實用視聽華語系列教材一-四冊(約 530個學時)

等於 CEFR所描述的 B1語言能力

針對一般職場學校休閒等場合常遇到的熟悉事物時在接

10

收到標準且清晰的信息後能瞭解其重點在目標語言地區旅遊

時能應付大部分可能會出現的一般狀況針對熟悉及私人感興

趣之主題能簡單地撰稿能敘述經驗事件夢想希望及志向

對看法及計畫能簡短地解釋理由及做出說明

3 高階級(Top-superior)

讀完新版實用視聽華語系列教材四冊後再讀完遠東生活華語三

第八單元的學生(約 610學時)

能通過百分之六十七 CEFR B2等級的題目

針對具體及抽象主題的複雜文字能瞭解其重點主題涵蓋個人

專業領域的技術討論能即時地以母語作互動有一定的流暢度

且不會讓任一方感到緊張能針對相當多的主題撰寫出一份完整

詳細的文章並可針對所提各議題重點做出優缺點說明

上述教材當初並非依據 CEFR 能力指標規劃完整系列而是針

對教材內容主題做了對應例如有的教材雖然屬於 B2 教材但

不代表學生學完這本教材即具有 B2 能力因為該本教材可能只具備

部分 B2能力或說學生要具備 B2能力原本就不會只讀一本教材現

階段華語文能力測驗關心的是如何幫助學生有效地從 B1 跨越到 B2

並選擇適當的教材或課程規劃

11

3 第三章 研究工具

本章介紹本研究基礎的三項工具由於此三項工具使得本研究的

方法得以實現本章將介紹中研院斷詞系統Google 網頁搜尋

TOP-Huayu詞彙語法

31 中研院斷詞系統

要進行華語文語句分析必須將語句斷詞後才能處理本研究

利用中央研究院中文資訊處理實驗室詞庫小組所發展的中文斷詞系

統 httpckipsvriissinicaedutw將句子斷成數個詞並重新組成

N-grams

在偵測未知詞的部份是利用基於語料庫的方法找出句法規則再

利用此規則來分辨單音節元素然後找出未知詞或錯誤用法(Chen amp

Bai1998)斷詞後的範例

這(Nep) 是(SHI) 一(Neu) 家(Nf) 擁有(VJ) 五百(Neu) 名(Nf) 員工(Na) 的

(DE) 中型(A) 企業(Na) (PERIODCATEGORY)

利用 Hong Kong Cityu(HK)的 closedtrack 及 open track

Beijing University (PK)的 closedtrack 及 open track共 4 種

評估此斷詞系統結果具有相當高的 F scores(Ma amp Chen2003)

如表 3-1及表 3-2其中英文字母代表依序為test recall (R) test

precision (P)F score(F)the out-of-vocabulary (OOV) rate for

the test corpusthe recall on OOV words(Roov)及 the recall on

in-vocabulary(Riv) words

12

表 3-1 Scores for HK

R P F OOV Roov Riv

Closed 0947 0934 0940 0071 0625 0972

Open 0958 0954 0956 0071 0788 0971

資料來源 Ma amp Chen(2003)

表 3-2 Scores for PK

R P F OOV Roov Riv

Closed 0939 0934 0936 0069 0642 0961

Open 0939 0938 0938 0069 0675 0959

資料來源 Ma amp Chen(2003)

圖 3-1 中研院中文斷詞系統網站

資料來源中文斷詞系統 httpckipsvriissinicaedutw

13

中研院中文斷詞系統已經廣泛的被各種領域的學者所使用例如

陳慶龍(2007)利用此斷詞系統製作中文體育知識問答系統Huang

ChiuChuanSandnes(2010)製作一個可以診斷憂鬱症的語言分析器

其中利用中研院中文斷詞系統來擷取關鍵字

32 Google 網頁搜尋

1995 年 Google 的創辦人美國史丹福大學的研究生 Larry Page

以及 Sergey Brin憑藉其資訊工程的專長開發名為 BackRub的搜尋

引擎後來正式更名為 Google其任務在於組織全世界的資訊讓

全球都能使用並有所禆益可說是目前全球最大的搜尋引撆現代人

幾乎只要提到資料搜索都絕對離不開 Google 搜尋正因為它可以在

短時間內找到相當豐富的資料查詢所得的結果遠多於其他搜尋網站

因此已經成為許多人不可或缺的工具(童國倫潘奕萍 2009)故本

研究以 Google為 N-gram count值的來源分析選項正答力

GOOGLE支援多達一百三十二種語言包括簡體中文和繁體中文

並有「頁庫存檔」功能即使網頁檔案被刪除仍然可以查詢到資料

而且可以搜尋的資料類型至少包括以下幾種格式

Adobe Portable Document Format (pdf)

Adobe PostScript (ps)

Lotus 1-2-3 (wk1 wk2 wk3 wk4 wk5 wki wks wku)

Lotus WordPro (lwp)

MacWrite (mw)

Microsoft Excel (xls)

Microsoft PowerPoint (ppt)

Microsoft Word (doc)

Microsoft Works (wks wps wdb)

Microsoft Write (wri)

Rich Text Format (rtf)

Shockwave Flash (swf)

Text (ans txt)

HyperText Markup Language (html)

14

Google 目前已被廣泛應用在各種自然語言處理研究中例如

FigueroaNeumann與 Atkinson (2009)利用 Google來擷取知識作

出基於 Surface Patterns的定義型問題問答系統CaiCuiMiao

Zhao與 Ren(2004)利用 Google Web APIs作出中文自動問答系統

Kilgarriff(2007)描述了使用 Google 這類官方搜尋引擎時會有

的幾個議題本研究整理列出並解釋和本研究的關係

1 官方搜尋引擎不考慮 Lemmatize(如英文同詞幹不同詞性的字)及

Part-Of-Speech tag但是中文沒有 Lemmatize的問題而本研究

設計的方法不使用 Part-Of-Speech tag

2 官方搜尋引擎的搜尋語法有限例如有無提供「萬用字元」及模糊

算子本研究只使用 Google的雙引號「」Query功能表示嚴格

限定只找包含完整 Query字串的網頁

3 官方搜尋引擎有 Query數限制在固定時間內使用者只能發出有限

的 Query而本研究以延長搜尋間隔時間來解決

4 官方搜尋引擎的搜尋結果數是網頁數而非詞句數由於無法下載

所有 hit pages的內容精準統計語句次數故本研究利用網頁數

做為數據來源此為本研究的限制

5 搜尋結果數中可能有重覆的資料例如不同網址有同樣文件內容

此問題雖然會影響結果但是本研究所設計的方法主要是利用最長

可得結果字串的長度為評分依據而搜尋結果數只影響分數中的小

數部份對本研究只佔了小部份的影響

33 TOP-Huayu 詞彙語法

臺灣華語文能力測驗的前身是 2003 年國立臺灣師範大學國語教

學中心華語文教學研究所與心理教育測驗中心三個團隊所共同研發

的「華語文能力測驗」(Chinese Proficiency Test CPT)2005 年

11 月教育部提升這個測驗為國家級的測驗並改為 TOP-Huayu(張莉

萍 2007)2010 年再改版為 TOCFL到 2010 年 11 月份為止臺灣

15

華語文能力測驗的到考人數已達到 11527 人成功取得證書人數更

有 6080 人(國家華語測驗推動工作委員會2009)如表 3-3表示

此測驗在國際上已具有相當的知名度

表 3-3 臺灣華語文能力測驗 2003年 12月到 2010年 11月份累計各

等級到考及獲證人數分佈(基礎測驗從 2007年 11月開始)

到考人數 獲得證書

人數 通過率()

基礎測驗 1729 1324 7662

初等測驗 3572 1620 4543

中等測驗 4184 1719 4114

高等測驗 2042 1345 6587

資料來源國家華語測驗推動工作委員會(2009)

由於地緣關係本研究使用台灣華語文能力測驗且由於新版的

TOCFL「選詞填空」的形式較 TOP-Huayu 詞彙語法複雜本研究參考

專家的建議後以台灣 TOP-Huayu詞彙語法為製作系統及分析準確度

的標竿並做為未來研究的基礎洪小雯(2009)表示「詞彙語法」

的題型儘管較為傳統但其著重測詴語言知識的考量不宜偏廢畢竟

在外語的學習過程中語言知識是決定語言能力的基礎

TOP-Huayu的詞彙分級方法參考自張莉萍陳鳳儀(2006)所訂

定的規則詞彙來源主要參考自台灣師大華語文能力測驗詞彙分級表

張莉萍(2002)(以下簡稱 CPT詞彙表)漢語水平詞彙等級大綱(國

家對外漢語教學領導小組辦公室漢語水平考詴部1992)(以下簡稱

HSK詞彙表)CPT和 HSK的詞彙交集分佈如表 3-4

在華語文能力測驗與歐洲共同架構 CEFR 的對應關係方面藍珮

君(2007)研究基礎華語文能力測驗與 CEFR 對應程度發現測驗等

級介於 CEFR A1 與 A2 之間屬於初級使用者的程度表示該測驗可

16

適當的測出受詴者的能力

表 3-4 CPT vs HSK等級詞彙的交集

HSK cap CPT CPT詞彙表(10155個)

初(1507) 中(3684) 高(4964)

HSK詞彙表

(8767個)

甲(1027) 683 231 17

乙(2003) 330 805 265

丙(2188) 141 486 474

丁(3569) 54 406 632

資料來源張莉萍陳鳳儀(2006)

17

4 第四章 正答力計算方法

本研究提出一個篩選詞彙語法電腦出題的候選誘答選項的方法

在不斷的測詴與改進基於 Markov Chain及 Katz Backoff的概念

並且使用 Google做為 N-gram count值的來源設計了一個方法來計

算詞彙語法題之候選誘答選項的正答力計算正答力的概念如圖 4-1

先計算正確答案正答力如圖 4-2然後計算每個候選誘答選項正答

力如圖 4-3使能和正確答案的正答力比較

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖

圖 4-2 計算正確答案正答力範例

18

圖 4-3 計算並比較正確答案和誘答選項正答力的範例

在實際應用時若該候選誘答選項的正答力大於正確答案表示

該選項為最佳答案則選項不適用如圖 4-3將其過慮掉本章包

含計算正答力之前及之後需處理的「前後置處理」完成本方法之前

所參考的「其它計算正答力方法」然後是本研究最後呈現的「基於

全球資訊網的正答力計算方法」最後是新舊方法的「方法比較」

41 前後置處理

圖 4-4為本方法前後置處理的流程圖虛線圍起來的部份是本研

究的核心方法本節介紹前後置處理包含計算正答力的前置及後續

處理工作

19

圖 4-4 前後置處理流程圖

如圖 4-4「輸入題幹及選項」輸入一題詞彙語法題的題幹及 4

個選項此部份可視為華語文詞彙語法電腦出題系統產生候選誘答選

項後將選項輸入該系統以計算該選項的正答力如下題幹及選項

(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

「將題幹及選項組成句子」將選項和題幹組成一個完整的句子4

個選項則產生 4個句子如下範例

20

我國天然資源不多礦產種類只有煤和石油

我國天然材料不多礦產種類只有煤和石油

我國天然產品不多礦產種類只有煤和石油

我國天然原料不多礦產種類只有煤和石油

「斷詞」將每個句子經由 Internet送到中研院斷詞系統進行斷詞

方便後續分析正答力如下範例句子斷詞後的結果「」表分隔

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

我國 天然 材料 不 多 礦產 種類 只有 煤 和 石油

我國 天然 產品 不 多 礦產 種類 只有 煤 和 石油

我國 天然 原料 不 多 礦產 種類 只有 煤 和 石油

「計算正答力」此模組負責計算每個選項的正答力為本研究

的核心部份計算方法將在下一節詳細介紹

「呈現正答力」輸出該選項的正答力分數結果供電腦出題系

統判斷候選誘答選項非最佳答案或直接供詴題研發人員參考如下

範例

「資源」選項的正答力=17581062

「材料」選項的正答力=5614006

「產品」選項的正答力=7181650

「原料」選項的正答力=5623282

本系統計算出來的是相對正答力不能比較不同題目的相同誘答選項

正答力

42 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法本研究參考了

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 18: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

9

題系統能滿足所有人的要求所以嚴格來說不可能實現真正符

合需求的電腦自動出題

本研究認為電腦出題應以電腦自動出題為目標但是以電腦輔助

出題的方式呈現本研究建議使用推薦方式能保有兩種出題方式的

優點而本研究所提出的正答力計算方法除了用來過濾電腦自動出

題的候選誘答選項外也可以當作排序的依據呈現候選誘答選項輔

助詴題研發人員選擇最適合的誘答選項

23 華語文測驗與教學探討

3 現今國際上重要的能力考詴皆致力於對應於 CEFR 能力架構

(Council of Europe2001)台灣所研發的華語文能力測驗也是依據

CEFR指標同時也對應了 CEFR的級數到台灣師範大學語言中心的教

材張莉萍陳鳳儀(2008)提出台灣華語文能力測驗的分級方式分

級依據學生來參加考詴的前一個星期所上的教材落點為劃分標準其

劃分方式本研究整理如下

1 基礎級(TOP-beginner)

在台灣師範大學語言中心學習 150小時以上的學生

等於 CEFR所描述的 A2語言能力

能了解大部分與切身相關的句子及常用詞彙例如非常基本之

個人及家族資訊購物當地地理環境工作狀況等針對熟悉

單純例行性的任務能以簡單直接地溝通方式交換訊息能

簡單地敘述出個人背景週遭環境及立即需求

2 進階級(TOP-learner)

讀完新版實用視聽華語系列教材一-四冊(約 530個學時)

等於 CEFR所描述的 B1語言能力

針對一般職場學校休閒等場合常遇到的熟悉事物時在接

10

收到標準且清晰的信息後能瞭解其重點在目標語言地區旅遊

時能應付大部分可能會出現的一般狀況針對熟悉及私人感興

趣之主題能簡單地撰稿能敘述經驗事件夢想希望及志向

對看法及計畫能簡短地解釋理由及做出說明

3 高階級(Top-superior)

讀完新版實用視聽華語系列教材四冊後再讀完遠東生活華語三

第八單元的學生(約 610學時)

能通過百分之六十七 CEFR B2等級的題目

針對具體及抽象主題的複雜文字能瞭解其重點主題涵蓋個人

專業領域的技術討論能即時地以母語作互動有一定的流暢度

且不會讓任一方感到緊張能針對相當多的主題撰寫出一份完整

詳細的文章並可針對所提各議題重點做出優缺點說明

上述教材當初並非依據 CEFR 能力指標規劃完整系列而是針

對教材內容主題做了對應例如有的教材雖然屬於 B2 教材但

不代表學生學完這本教材即具有 B2 能力因為該本教材可能只具備

部分 B2能力或說學生要具備 B2能力原本就不會只讀一本教材現

階段華語文能力測驗關心的是如何幫助學生有效地從 B1 跨越到 B2

並選擇適當的教材或課程規劃

11

3 第三章 研究工具

本章介紹本研究基礎的三項工具由於此三項工具使得本研究的

方法得以實現本章將介紹中研院斷詞系統Google 網頁搜尋

TOP-Huayu詞彙語法

31 中研院斷詞系統

要進行華語文語句分析必須將語句斷詞後才能處理本研究

利用中央研究院中文資訊處理實驗室詞庫小組所發展的中文斷詞系

統 httpckipsvriissinicaedutw將句子斷成數個詞並重新組成

N-grams

在偵測未知詞的部份是利用基於語料庫的方法找出句法規則再

利用此規則來分辨單音節元素然後找出未知詞或錯誤用法(Chen amp

Bai1998)斷詞後的範例

這(Nep) 是(SHI) 一(Neu) 家(Nf) 擁有(VJ) 五百(Neu) 名(Nf) 員工(Na) 的

(DE) 中型(A) 企業(Na) (PERIODCATEGORY)

利用 Hong Kong Cityu(HK)的 closedtrack 及 open track

Beijing University (PK)的 closedtrack 及 open track共 4 種

評估此斷詞系統結果具有相當高的 F scores(Ma amp Chen2003)

如表 3-1及表 3-2其中英文字母代表依序為test recall (R) test

precision (P)F score(F)the out-of-vocabulary (OOV) rate for

the test corpusthe recall on OOV words(Roov)及 the recall on

in-vocabulary(Riv) words

12

表 3-1 Scores for HK

R P F OOV Roov Riv

Closed 0947 0934 0940 0071 0625 0972

Open 0958 0954 0956 0071 0788 0971

資料來源 Ma amp Chen(2003)

表 3-2 Scores for PK

R P F OOV Roov Riv

Closed 0939 0934 0936 0069 0642 0961

Open 0939 0938 0938 0069 0675 0959

資料來源 Ma amp Chen(2003)

圖 3-1 中研院中文斷詞系統網站

資料來源中文斷詞系統 httpckipsvriissinicaedutw

13

中研院中文斷詞系統已經廣泛的被各種領域的學者所使用例如

陳慶龍(2007)利用此斷詞系統製作中文體育知識問答系統Huang

ChiuChuanSandnes(2010)製作一個可以診斷憂鬱症的語言分析器

其中利用中研院中文斷詞系統來擷取關鍵字

32 Google 網頁搜尋

1995 年 Google 的創辦人美國史丹福大學的研究生 Larry Page

以及 Sergey Brin憑藉其資訊工程的專長開發名為 BackRub的搜尋

引擎後來正式更名為 Google其任務在於組織全世界的資訊讓

全球都能使用並有所禆益可說是目前全球最大的搜尋引撆現代人

幾乎只要提到資料搜索都絕對離不開 Google 搜尋正因為它可以在

短時間內找到相當豐富的資料查詢所得的結果遠多於其他搜尋網站

因此已經成為許多人不可或缺的工具(童國倫潘奕萍 2009)故本

研究以 Google為 N-gram count值的來源分析選項正答力

GOOGLE支援多達一百三十二種語言包括簡體中文和繁體中文

並有「頁庫存檔」功能即使網頁檔案被刪除仍然可以查詢到資料

而且可以搜尋的資料類型至少包括以下幾種格式

Adobe Portable Document Format (pdf)

Adobe PostScript (ps)

Lotus 1-2-3 (wk1 wk2 wk3 wk4 wk5 wki wks wku)

Lotus WordPro (lwp)

MacWrite (mw)

Microsoft Excel (xls)

Microsoft PowerPoint (ppt)

Microsoft Word (doc)

Microsoft Works (wks wps wdb)

Microsoft Write (wri)

Rich Text Format (rtf)

Shockwave Flash (swf)

Text (ans txt)

HyperText Markup Language (html)

14

Google 目前已被廣泛應用在各種自然語言處理研究中例如

FigueroaNeumann與 Atkinson (2009)利用 Google來擷取知識作

出基於 Surface Patterns的定義型問題問答系統CaiCuiMiao

Zhao與 Ren(2004)利用 Google Web APIs作出中文自動問答系統

Kilgarriff(2007)描述了使用 Google 這類官方搜尋引擎時會有

的幾個議題本研究整理列出並解釋和本研究的關係

1 官方搜尋引擎不考慮 Lemmatize(如英文同詞幹不同詞性的字)及

Part-Of-Speech tag但是中文沒有 Lemmatize的問題而本研究

設計的方法不使用 Part-Of-Speech tag

2 官方搜尋引擎的搜尋語法有限例如有無提供「萬用字元」及模糊

算子本研究只使用 Google的雙引號「」Query功能表示嚴格

限定只找包含完整 Query字串的網頁

3 官方搜尋引擎有 Query數限制在固定時間內使用者只能發出有限

的 Query而本研究以延長搜尋間隔時間來解決

4 官方搜尋引擎的搜尋結果數是網頁數而非詞句數由於無法下載

所有 hit pages的內容精準統計語句次數故本研究利用網頁數

做為數據來源此為本研究的限制

5 搜尋結果數中可能有重覆的資料例如不同網址有同樣文件內容

此問題雖然會影響結果但是本研究所設計的方法主要是利用最長

可得結果字串的長度為評分依據而搜尋結果數只影響分數中的小

數部份對本研究只佔了小部份的影響

33 TOP-Huayu 詞彙語法

臺灣華語文能力測驗的前身是 2003 年國立臺灣師範大學國語教

學中心華語文教學研究所與心理教育測驗中心三個團隊所共同研發

的「華語文能力測驗」(Chinese Proficiency Test CPT)2005 年

11 月教育部提升這個測驗為國家級的測驗並改為 TOP-Huayu(張莉

萍 2007)2010 年再改版為 TOCFL到 2010 年 11 月份為止臺灣

15

華語文能力測驗的到考人數已達到 11527 人成功取得證書人數更

有 6080 人(國家華語測驗推動工作委員會2009)如表 3-3表示

此測驗在國際上已具有相當的知名度

表 3-3 臺灣華語文能力測驗 2003年 12月到 2010年 11月份累計各

等級到考及獲證人數分佈(基礎測驗從 2007年 11月開始)

到考人數 獲得證書

人數 通過率()

基礎測驗 1729 1324 7662

初等測驗 3572 1620 4543

中等測驗 4184 1719 4114

高等測驗 2042 1345 6587

資料來源國家華語測驗推動工作委員會(2009)

由於地緣關係本研究使用台灣華語文能力測驗且由於新版的

TOCFL「選詞填空」的形式較 TOP-Huayu 詞彙語法複雜本研究參考

專家的建議後以台灣 TOP-Huayu詞彙語法為製作系統及分析準確度

的標竿並做為未來研究的基礎洪小雯(2009)表示「詞彙語法」

的題型儘管較為傳統但其著重測詴語言知識的考量不宜偏廢畢竟

在外語的學習過程中語言知識是決定語言能力的基礎

TOP-Huayu的詞彙分級方法參考自張莉萍陳鳳儀(2006)所訂

定的規則詞彙來源主要參考自台灣師大華語文能力測驗詞彙分級表

張莉萍(2002)(以下簡稱 CPT詞彙表)漢語水平詞彙等級大綱(國

家對外漢語教學領導小組辦公室漢語水平考詴部1992)(以下簡稱

HSK詞彙表)CPT和 HSK的詞彙交集分佈如表 3-4

在華語文能力測驗與歐洲共同架構 CEFR 的對應關係方面藍珮

君(2007)研究基礎華語文能力測驗與 CEFR 對應程度發現測驗等

級介於 CEFR A1 與 A2 之間屬於初級使用者的程度表示該測驗可

16

適當的測出受詴者的能力

表 3-4 CPT vs HSK等級詞彙的交集

HSK cap CPT CPT詞彙表(10155個)

初(1507) 中(3684) 高(4964)

HSK詞彙表

(8767個)

甲(1027) 683 231 17

乙(2003) 330 805 265

丙(2188) 141 486 474

丁(3569) 54 406 632

資料來源張莉萍陳鳳儀(2006)

17

4 第四章 正答力計算方法

本研究提出一個篩選詞彙語法電腦出題的候選誘答選項的方法

在不斷的測詴與改進基於 Markov Chain及 Katz Backoff的概念

並且使用 Google做為 N-gram count值的來源設計了一個方法來計

算詞彙語法題之候選誘答選項的正答力計算正答力的概念如圖 4-1

先計算正確答案正答力如圖 4-2然後計算每個候選誘答選項正答

力如圖 4-3使能和正確答案的正答力比較

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖

圖 4-2 計算正確答案正答力範例

18

圖 4-3 計算並比較正確答案和誘答選項正答力的範例

在實際應用時若該候選誘答選項的正答力大於正確答案表示

該選項為最佳答案則選項不適用如圖 4-3將其過慮掉本章包

含計算正答力之前及之後需處理的「前後置處理」完成本方法之前

所參考的「其它計算正答力方法」然後是本研究最後呈現的「基於

全球資訊網的正答力計算方法」最後是新舊方法的「方法比較」

41 前後置處理

圖 4-4為本方法前後置處理的流程圖虛線圍起來的部份是本研

究的核心方法本節介紹前後置處理包含計算正答力的前置及後續

處理工作

19

圖 4-4 前後置處理流程圖

如圖 4-4「輸入題幹及選項」輸入一題詞彙語法題的題幹及 4

個選項此部份可視為華語文詞彙語法電腦出題系統產生候選誘答選

項後將選項輸入該系統以計算該選項的正答力如下題幹及選項

(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

「將題幹及選項組成句子」將選項和題幹組成一個完整的句子4

個選項則產生 4個句子如下範例

20

我國天然資源不多礦產種類只有煤和石油

我國天然材料不多礦產種類只有煤和石油

我國天然產品不多礦產種類只有煤和石油

我國天然原料不多礦產種類只有煤和石油

「斷詞」將每個句子經由 Internet送到中研院斷詞系統進行斷詞

方便後續分析正答力如下範例句子斷詞後的結果「」表分隔

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

我國 天然 材料 不 多 礦產 種類 只有 煤 和 石油

我國 天然 產品 不 多 礦產 種類 只有 煤 和 石油

我國 天然 原料 不 多 礦產 種類 只有 煤 和 石油

「計算正答力」此模組負責計算每個選項的正答力為本研究

的核心部份計算方法將在下一節詳細介紹

「呈現正答力」輸出該選項的正答力分數結果供電腦出題系

統判斷候選誘答選項非最佳答案或直接供詴題研發人員參考如下

範例

「資源」選項的正答力=17581062

「材料」選項的正答力=5614006

「產品」選項的正答力=7181650

「原料」選項的正答力=5623282

本系統計算出來的是相對正答力不能比較不同題目的相同誘答選項

正答力

42 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法本研究參考了

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 19: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

10

收到標準且清晰的信息後能瞭解其重點在目標語言地區旅遊

時能應付大部分可能會出現的一般狀況針對熟悉及私人感興

趣之主題能簡單地撰稿能敘述經驗事件夢想希望及志向

對看法及計畫能簡短地解釋理由及做出說明

3 高階級(Top-superior)

讀完新版實用視聽華語系列教材四冊後再讀完遠東生活華語三

第八單元的學生(約 610學時)

能通過百分之六十七 CEFR B2等級的題目

針對具體及抽象主題的複雜文字能瞭解其重點主題涵蓋個人

專業領域的技術討論能即時地以母語作互動有一定的流暢度

且不會讓任一方感到緊張能針對相當多的主題撰寫出一份完整

詳細的文章並可針對所提各議題重點做出優缺點說明

上述教材當初並非依據 CEFR 能力指標規劃完整系列而是針

對教材內容主題做了對應例如有的教材雖然屬於 B2 教材但

不代表學生學完這本教材即具有 B2 能力因為該本教材可能只具備

部分 B2能力或說學生要具備 B2能力原本就不會只讀一本教材現

階段華語文能力測驗關心的是如何幫助學生有效地從 B1 跨越到 B2

並選擇適當的教材或課程規劃

11

3 第三章 研究工具

本章介紹本研究基礎的三項工具由於此三項工具使得本研究的

方法得以實現本章將介紹中研院斷詞系統Google 網頁搜尋

TOP-Huayu詞彙語法

31 中研院斷詞系統

要進行華語文語句分析必須將語句斷詞後才能處理本研究

利用中央研究院中文資訊處理實驗室詞庫小組所發展的中文斷詞系

統 httpckipsvriissinicaedutw將句子斷成數個詞並重新組成

N-grams

在偵測未知詞的部份是利用基於語料庫的方法找出句法規則再

利用此規則來分辨單音節元素然後找出未知詞或錯誤用法(Chen amp

Bai1998)斷詞後的範例

這(Nep) 是(SHI) 一(Neu) 家(Nf) 擁有(VJ) 五百(Neu) 名(Nf) 員工(Na) 的

(DE) 中型(A) 企業(Na) (PERIODCATEGORY)

利用 Hong Kong Cityu(HK)的 closedtrack 及 open track

Beijing University (PK)的 closedtrack 及 open track共 4 種

評估此斷詞系統結果具有相當高的 F scores(Ma amp Chen2003)

如表 3-1及表 3-2其中英文字母代表依序為test recall (R) test

precision (P)F score(F)the out-of-vocabulary (OOV) rate for

the test corpusthe recall on OOV words(Roov)及 the recall on

in-vocabulary(Riv) words

12

表 3-1 Scores for HK

R P F OOV Roov Riv

Closed 0947 0934 0940 0071 0625 0972

Open 0958 0954 0956 0071 0788 0971

資料來源 Ma amp Chen(2003)

表 3-2 Scores for PK

R P F OOV Roov Riv

Closed 0939 0934 0936 0069 0642 0961

Open 0939 0938 0938 0069 0675 0959

資料來源 Ma amp Chen(2003)

圖 3-1 中研院中文斷詞系統網站

資料來源中文斷詞系統 httpckipsvriissinicaedutw

13

中研院中文斷詞系統已經廣泛的被各種領域的學者所使用例如

陳慶龍(2007)利用此斷詞系統製作中文體育知識問答系統Huang

ChiuChuanSandnes(2010)製作一個可以診斷憂鬱症的語言分析器

其中利用中研院中文斷詞系統來擷取關鍵字

32 Google 網頁搜尋

1995 年 Google 的創辦人美國史丹福大學的研究生 Larry Page

以及 Sergey Brin憑藉其資訊工程的專長開發名為 BackRub的搜尋

引擎後來正式更名為 Google其任務在於組織全世界的資訊讓

全球都能使用並有所禆益可說是目前全球最大的搜尋引撆現代人

幾乎只要提到資料搜索都絕對離不開 Google 搜尋正因為它可以在

短時間內找到相當豐富的資料查詢所得的結果遠多於其他搜尋網站

因此已經成為許多人不可或缺的工具(童國倫潘奕萍 2009)故本

研究以 Google為 N-gram count值的來源分析選項正答力

GOOGLE支援多達一百三十二種語言包括簡體中文和繁體中文

並有「頁庫存檔」功能即使網頁檔案被刪除仍然可以查詢到資料

而且可以搜尋的資料類型至少包括以下幾種格式

Adobe Portable Document Format (pdf)

Adobe PostScript (ps)

Lotus 1-2-3 (wk1 wk2 wk3 wk4 wk5 wki wks wku)

Lotus WordPro (lwp)

MacWrite (mw)

Microsoft Excel (xls)

Microsoft PowerPoint (ppt)

Microsoft Word (doc)

Microsoft Works (wks wps wdb)

Microsoft Write (wri)

Rich Text Format (rtf)

Shockwave Flash (swf)

Text (ans txt)

HyperText Markup Language (html)

14

Google 目前已被廣泛應用在各種自然語言處理研究中例如

FigueroaNeumann與 Atkinson (2009)利用 Google來擷取知識作

出基於 Surface Patterns的定義型問題問答系統CaiCuiMiao

Zhao與 Ren(2004)利用 Google Web APIs作出中文自動問答系統

Kilgarriff(2007)描述了使用 Google 這類官方搜尋引擎時會有

的幾個議題本研究整理列出並解釋和本研究的關係

1 官方搜尋引擎不考慮 Lemmatize(如英文同詞幹不同詞性的字)及

Part-Of-Speech tag但是中文沒有 Lemmatize的問題而本研究

設計的方法不使用 Part-Of-Speech tag

2 官方搜尋引擎的搜尋語法有限例如有無提供「萬用字元」及模糊

算子本研究只使用 Google的雙引號「」Query功能表示嚴格

限定只找包含完整 Query字串的網頁

3 官方搜尋引擎有 Query數限制在固定時間內使用者只能發出有限

的 Query而本研究以延長搜尋間隔時間來解決

4 官方搜尋引擎的搜尋結果數是網頁數而非詞句數由於無法下載

所有 hit pages的內容精準統計語句次數故本研究利用網頁數

做為數據來源此為本研究的限制

5 搜尋結果數中可能有重覆的資料例如不同網址有同樣文件內容

此問題雖然會影響結果但是本研究所設計的方法主要是利用最長

可得結果字串的長度為評分依據而搜尋結果數只影響分數中的小

數部份對本研究只佔了小部份的影響

33 TOP-Huayu 詞彙語法

臺灣華語文能力測驗的前身是 2003 年國立臺灣師範大學國語教

學中心華語文教學研究所與心理教育測驗中心三個團隊所共同研發

的「華語文能力測驗」(Chinese Proficiency Test CPT)2005 年

11 月教育部提升這個測驗為國家級的測驗並改為 TOP-Huayu(張莉

萍 2007)2010 年再改版為 TOCFL到 2010 年 11 月份為止臺灣

15

華語文能力測驗的到考人數已達到 11527 人成功取得證書人數更

有 6080 人(國家華語測驗推動工作委員會2009)如表 3-3表示

此測驗在國際上已具有相當的知名度

表 3-3 臺灣華語文能力測驗 2003年 12月到 2010年 11月份累計各

等級到考及獲證人數分佈(基礎測驗從 2007年 11月開始)

到考人數 獲得證書

人數 通過率()

基礎測驗 1729 1324 7662

初等測驗 3572 1620 4543

中等測驗 4184 1719 4114

高等測驗 2042 1345 6587

資料來源國家華語測驗推動工作委員會(2009)

由於地緣關係本研究使用台灣華語文能力測驗且由於新版的

TOCFL「選詞填空」的形式較 TOP-Huayu 詞彙語法複雜本研究參考

專家的建議後以台灣 TOP-Huayu詞彙語法為製作系統及分析準確度

的標竿並做為未來研究的基礎洪小雯(2009)表示「詞彙語法」

的題型儘管較為傳統但其著重測詴語言知識的考量不宜偏廢畢竟

在外語的學習過程中語言知識是決定語言能力的基礎

TOP-Huayu的詞彙分級方法參考自張莉萍陳鳳儀(2006)所訂

定的規則詞彙來源主要參考自台灣師大華語文能力測驗詞彙分級表

張莉萍(2002)(以下簡稱 CPT詞彙表)漢語水平詞彙等級大綱(國

家對外漢語教學領導小組辦公室漢語水平考詴部1992)(以下簡稱

HSK詞彙表)CPT和 HSK的詞彙交集分佈如表 3-4

在華語文能力測驗與歐洲共同架構 CEFR 的對應關係方面藍珮

君(2007)研究基礎華語文能力測驗與 CEFR 對應程度發現測驗等

級介於 CEFR A1 與 A2 之間屬於初級使用者的程度表示該測驗可

16

適當的測出受詴者的能力

表 3-4 CPT vs HSK等級詞彙的交集

HSK cap CPT CPT詞彙表(10155個)

初(1507) 中(3684) 高(4964)

HSK詞彙表

(8767個)

甲(1027) 683 231 17

乙(2003) 330 805 265

丙(2188) 141 486 474

丁(3569) 54 406 632

資料來源張莉萍陳鳳儀(2006)

17

4 第四章 正答力計算方法

本研究提出一個篩選詞彙語法電腦出題的候選誘答選項的方法

在不斷的測詴與改進基於 Markov Chain及 Katz Backoff的概念

並且使用 Google做為 N-gram count值的來源設計了一個方法來計

算詞彙語法題之候選誘答選項的正答力計算正答力的概念如圖 4-1

先計算正確答案正答力如圖 4-2然後計算每個候選誘答選項正答

力如圖 4-3使能和正確答案的正答力比較

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖

圖 4-2 計算正確答案正答力範例

18

圖 4-3 計算並比較正確答案和誘答選項正答力的範例

在實際應用時若該候選誘答選項的正答力大於正確答案表示

該選項為最佳答案則選項不適用如圖 4-3將其過慮掉本章包

含計算正答力之前及之後需處理的「前後置處理」完成本方法之前

所參考的「其它計算正答力方法」然後是本研究最後呈現的「基於

全球資訊網的正答力計算方法」最後是新舊方法的「方法比較」

41 前後置處理

圖 4-4為本方法前後置處理的流程圖虛線圍起來的部份是本研

究的核心方法本節介紹前後置處理包含計算正答力的前置及後續

處理工作

19

圖 4-4 前後置處理流程圖

如圖 4-4「輸入題幹及選項」輸入一題詞彙語法題的題幹及 4

個選項此部份可視為華語文詞彙語法電腦出題系統產生候選誘答選

項後將選項輸入該系統以計算該選項的正答力如下題幹及選項

(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

「將題幹及選項組成句子」將選項和題幹組成一個完整的句子4

個選項則產生 4個句子如下範例

20

我國天然資源不多礦產種類只有煤和石油

我國天然材料不多礦產種類只有煤和石油

我國天然產品不多礦產種類只有煤和石油

我國天然原料不多礦產種類只有煤和石油

「斷詞」將每個句子經由 Internet送到中研院斷詞系統進行斷詞

方便後續分析正答力如下範例句子斷詞後的結果「」表分隔

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

我國 天然 材料 不 多 礦產 種類 只有 煤 和 石油

我國 天然 產品 不 多 礦產 種類 只有 煤 和 石油

我國 天然 原料 不 多 礦產 種類 只有 煤 和 石油

「計算正答力」此模組負責計算每個選項的正答力為本研究

的核心部份計算方法將在下一節詳細介紹

「呈現正答力」輸出該選項的正答力分數結果供電腦出題系

統判斷候選誘答選項非最佳答案或直接供詴題研發人員參考如下

範例

「資源」選項的正答力=17581062

「材料」選項的正答力=5614006

「產品」選項的正答力=7181650

「原料」選項的正答力=5623282

本系統計算出來的是相對正答力不能比較不同題目的相同誘答選項

正答力

42 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法本研究參考了

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 20: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

11

3 第三章 研究工具

本章介紹本研究基礎的三項工具由於此三項工具使得本研究的

方法得以實現本章將介紹中研院斷詞系統Google 網頁搜尋

TOP-Huayu詞彙語法

31 中研院斷詞系統

要進行華語文語句分析必須將語句斷詞後才能處理本研究

利用中央研究院中文資訊處理實驗室詞庫小組所發展的中文斷詞系

統 httpckipsvriissinicaedutw將句子斷成數個詞並重新組成

N-grams

在偵測未知詞的部份是利用基於語料庫的方法找出句法規則再

利用此規則來分辨單音節元素然後找出未知詞或錯誤用法(Chen amp

Bai1998)斷詞後的範例

這(Nep) 是(SHI) 一(Neu) 家(Nf) 擁有(VJ) 五百(Neu) 名(Nf) 員工(Na) 的

(DE) 中型(A) 企業(Na) (PERIODCATEGORY)

利用 Hong Kong Cityu(HK)的 closedtrack 及 open track

Beijing University (PK)的 closedtrack 及 open track共 4 種

評估此斷詞系統結果具有相當高的 F scores(Ma amp Chen2003)

如表 3-1及表 3-2其中英文字母代表依序為test recall (R) test

precision (P)F score(F)the out-of-vocabulary (OOV) rate for

the test corpusthe recall on OOV words(Roov)及 the recall on

in-vocabulary(Riv) words

12

表 3-1 Scores for HK

R P F OOV Roov Riv

Closed 0947 0934 0940 0071 0625 0972

Open 0958 0954 0956 0071 0788 0971

資料來源 Ma amp Chen(2003)

表 3-2 Scores for PK

R P F OOV Roov Riv

Closed 0939 0934 0936 0069 0642 0961

Open 0939 0938 0938 0069 0675 0959

資料來源 Ma amp Chen(2003)

圖 3-1 中研院中文斷詞系統網站

資料來源中文斷詞系統 httpckipsvriissinicaedutw

13

中研院中文斷詞系統已經廣泛的被各種領域的學者所使用例如

陳慶龍(2007)利用此斷詞系統製作中文體育知識問答系統Huang

ChiuChuanSandnes(2010)製作一個可以診斷憂鬱症的語言分析器

其中利用中研院中文斷詞系統來擷取關鍵字

32 Google 網頁搜尋

1995 年 Google 的創辦人美國史丹福大學的研究生 Larry Page

以及 Sergey Brin憑藉其資訊工程的專長開發名為 BackRub的搜尋

引擎後來正式更名為 Google其任務在於組織全世界的資訊讓

全球都能使用並有所禆益可說是目前全球最大的搜尋引撆現代人

幾乎只要提到資料搜索都絕對離不開 Google 搜尋正因為它可以在

短時間內找到相當豐富的資料查詢所得的結果遠多於其他搜尋網站

因此已經成為許多人不可或缺的工具(童國倫潘奕萍 2009)故本

研究以 Google為 N-gram count值的來源分析選項正答力

GOOGLE支援多達一百三十二種語言包括簡體中文和繁體中文

並有「頁庫存檔」功能即使網頁檔案被刪除仍然可以查詢到資料

而且可以搜尋的資料類型至少包括以下幾種格式

Adobe Portable Document Format (pdf)

Adobe PostScript (ps)

Lotus 1-2-3 (wk1 wk2 wk3 wk4 wk5 wki wks wku)

Lotus WordPro (lwp)

MacWrite (mw)

Microsoft Excel (xls)

Microsoft PowerPoint (ppt)

Microsoft Word (doc)

Microsoft Works (wks wps wdb)

Microsoft Write (wri)

Rich Text Format (rtf)

Shockwave Flash (swf)

Text (ans txt)

HyperText Markup Language (html)

14

Google 目前已被廣泛應用在各種自然語言處理研究中例如

FigueroaNeumann與 Atkinson (2009)利用 Google來擷取知識作

出基於 Surface Patterns的定義型問題問答系統CaiCuiMiao

Zhao與 Ren(2004)利用 Google Web APIs作出中文自動問答系統

Kilgarriff(2007)描述了使用 Google 這類官方搜尋引擎時會有

的幾個議題本研究整理列出並解釋和本研究的關係

1 官方搜尋引擎不考慮 Lemmatize(如英文同詞幹不同詞性的字)及

Part-Of-Speech tag但是中文沒有 Lemmatize的問題而本研究

設計的方法不使用 Part-Of-Speech tag

2 官方搜尋引擎的搜尋語法有限例如有無提供「萬用字元」及模糊

算子本研究只使用 Google的雙引號「」Query功能表示嚴格

限定只找包含完整 Query字串的網頁

3 官方搜尋引擎有 Query數限制在固定時間內使用者只能發出有限

的 Query而本研究以延長搜尋間隔時間來解決

4 官方搜尋引擎的搜尋結果數是網頁數而非詞句數由於無法下載

所有 hit pages的內容精準統計語句次數故本研究利用網頁數

做為數據來源此為本研究的限制

5 搜尋結果數中可能有重覆的資料例如不同網址有同樣文件內容

此問題雖然會影響結果但是本研究所設計的方法主要是利用最長

可得結果字串的長度為評分依據而搜尋結果數只影響分數中的小

數部份對本研究只佔了小部份的影響

33 TOP-Huayu 詞彙語法

臺灣華語文能力測驗的前身是 2003 年國立臺灣師範大學國語教

學中心華語文教學研究所與心理教育測驗中心三個團隊所共同研發

的「華語文能力測驗」(Chinese Proficiency Test CPT)2005 年

11 月教育部提升這個測驗為國家級的測驗並改為 TOP-Huayu(張莉

萍 2007)2010 年再改版為 TOCFL到 2010 年 11 月份為止臺灣

15

華語文能力測驗的到考人數已達到 11527 人成功取得證書人數更

有 6080 人(國家華語測驗推動工作委員會2009)如表 3-3表示

此測驗在國際上已具有相當的知名度

表 3-3 臺灣華語文能力測驗 2003年 12月到 2010年 11月份累計各

等級到考及獲證人數分佈(基礎測驗從 2007年 11月開始)

到考人數 獲得證書

人數 通過率()

基礎測驗 1729 1324 7662

初等測驗 3572 1620 4543

中等測驗 4184 1719 4114

高等測驗 2042 1345 6587

資料來源國家華語測驗推動工作委員會(2009)

由於地緣關係本研究使用台灣華語文能力測驗且由於新版的

TOCFL「選詞填空」的形式較 TOP-Huayu 詞彙語法複雜本研究參考

專家的建議後以台灣 TOP-Huayu詞彙語法為製作系統及分析準確度

的標竿並做為未來研究的基礎洪小雯(2009)表示「詞彙語法」

的題型儘管較為傳統但其著重測詴語言知識的考量不宜偏廢畢竟

在外語的學習過程中語言知識是決定語言能力的基礎

TOP-Huayu的詞彙分級方法參考自張莉萍陳鳳儀(2006)所訂

定的規則詞彙來源主要參考自台灣師大華語文能力測驗詞彙分級表

張莉萍(2002)(以下簡稱 CPT詞彙表)漢語水平詞彙等級大綱(國

家對外漢語教學領導小組辦公室漢語水平考詴部1992)(以下簡稱

HSK詞彙表)CPT和 HSK的詞彙交集分佈如表 3-4

在華語文能力測驗與歐洲共同架構 CEFR 的對應關係方面藍珮

君(2007)研究基礎華語文能力測驗與 CEFR 對應程度發現測驗等

級介於 CEFR A1 與 A2 之間屬於初級使用者的程度表示該測驗可

16

適當的測出受詴者的能力

表 3-4 CPT vs HSK等級詞彙的交集

HSK cap CPT CPT詞彙表(10155個)

初(1507) 中(3684) 高(4964)

HSK詞彙表

(8767個)

甲(1027) 683 231 17

乙(2003) 330 805 265

丙(2188) 141 486 474

丁(3569) 54 406 632

資料來源張莉萍陳鳳儀(2006)

17

4 第四章 正答力計算方法

本研究提出一個篩選詞彙語法電腦出題的候選誘答選項的方法

在不斷的測詴與改進基於 Markov Chain及 Katz Backoff的概念

並且使用 Google做為 N-gram count值的來源設計了一個方法來計

算詞彙語法題之候選誘答選項的正答力計算正答力的概念如圖 4-1

先計算正確答案正答力如圖 4-2然後計算每個候選誘答選項正答

力如圖 4-3使能和正確答案的正答力比較

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖

圖 4-2 計算正確答案正答力範例

18

圖 4-3 計算並比較正確答案和誘答選項正答力的範例

在實際應用時若該候選誘答選項的正答力大於正確答案表示

該選項為最佳答案則選項不適用如圖 4-3將其過慮掉本章包

含計算正答力之前及之後需處理的「前後置處理」完成本方法之前

所參考的「其它計算正答力方法」然後是本研究最後呈現的「基於

全球資訊網的正答力計算方法」最後是新舊方法的「方法比較」

41 前後置處理

圖 4-4為本方法前後置處理的流程圖虛線圍起來的部份是本研

究的核心方法本節介紹前後置處理包含計算正答力的前置及後續

處理工作

19

圖 4-4 前後置處理流程圖

如圖 4-4「輸入題幹及選項」輸入一題詞彙語法題的題幹及 4

個選項此部份可視為華語文詞彙語法電腦出題系統產生候選誘答選

項後將選項輸入該系統以計算該選項的正答力如下題幹及選項

(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

「將題幹及選項組成句子」將選項和題幹組成一個完整的句子4

個選項則產生 4個句子如下範例

20

我國天然資源不多礦產種類只有煤和石油

我國天然材料不多礦產種類只有煤和石油

我國天然產品不多礦產種類只有煤和石油

我國天然原料不多礦產種類只有煤和石油

「斷詞」將每個句子經由 Internet送到中研院斷詞系統進行斷詞

方便後續分析正答力如下範例句子斷詞後的結果「」表分隔

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

我國 天然 材料 不 多 礦產 種類 只有 煤 和 石油

我國 天然 產品 不 多 礦產 種類 只有 煤 和 石油

我國 天然 原料 不 多 礦產 種類 只有 煤 和 石油

「計算正答力」此模組負責計算每個選項的正答力為本研究

的核心部份計算方法將在下一節詳細介紹

「呈現正答力」輸出該選項的正答力分數結果供電腦出題系

統判斷候選誘答選項非最佳答案或直接供詴題研發人員參考如下

範例

「資源」選項的正答力=17581062

「材料」選項的正答力=5614006

「產品」選項的正答力=7181650

「原料」選項的正答力=5623282

本系統計算出來的是相對正答力不能比較不同題目的相同誘答選項

正答力

42 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法本研究參考了

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 21: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

12

表 3-1 Scores for HK

R P F OOV Roov Riv

Closed 0947 0934 0940 0071 0625 0972

Open 0958 0954 0956 0071 0788 0971

資料來源 Ma amp Chen(2003)

表 3-2 Scores for PK

R P F OOV Roov Riv

Closed 0939 0934 0936 0069 0642 0961

Open 0939 0938 0938 0069 0675 0959

資料來源 Ma amp Chen(2003)

圖 3-1 中研院中文斷詞系統網站

資料來源中文斷詞系統 httpckipsvriissinicaedutw

13

中研院中文斷詞系統已經廣泛的被各種領域的學者所使用例如

陳慶龍(2007)利用此斷詞系統製作中文體育知識問答系統Huang

ChiuChuanSandnes(2010)製作一個可以診斷憂鬱症的語言分析器

其中利用中研院中文斷詞系統來擷取關鍵字

32 Google 網頁搜尋

1995 年 Google 的創辦人美國史丹福大學的研究生 Larry Page

以及 Sergey Brin憑藉其資訊工程的專長開發名為 BackRub的搜尋

引擎後來正式更名為 Google其任務在於組織全世界的資訊讓

全球都能使用並有所禆益可說是目前全球最大的搜尋引撆現代人

幾乎只要提到資料搜索都絕對離不開 Google 搜尋正因為它可以在

短時間內找到相當豐富的資料查詢所得的結果遠多於其他搜尋網站

因此已經成為許多人不可或缺的工具(童國倫潘奕萍 2009)故本

研究以 Google為 N-gram count值的來源分析選項正答力

GOOGLE支援多達一百三十二種語言包括簡體中文和繁體中文

並有「頁庫存檔」功能即使網頁檔案被刪除仍然可以查詢到資料

而且可以搜尋的資料類型至少包括以下幾種格式

Adobe Portable Document Format (pdf)

Adobe PostScript (ps)

Lotus 1-2-3 (wk1 wk2 wk3 wk4 wk5 wki wks wku)

Lotus WordPro (lwp)

MacWrite (mw)

Microsoft Excel (xls)

Microsoft PowerPoint (ppt)

Microsoft Word (doc)

Microsoft Works (wks wps wdb)

Microsoft Write (wri)

Rich Text Format (rtf)

Shockwave Flash (swf)

Text (ans txt)

HyperText Markup Language (html)

14

Google 目前已被廣泛應用在各種自然語言處理研究中例如

FigueroaNeumann與 Atkinson (2009)利用 Google來擷取知識作

出基於 Surface Patterns的定義型問題問答系統CaiCuiMiao

Zhao與 Ren(2004)利用 Google Web APIs作出中文自動問答系統

Kilgarriff(2007)描述了使用 Google 這類官方搜尋引擎時會有

的幾個議題本研究整理列出並解釋和本研究的關係

1 官方搜尋引擎不考慮 Lemmatize(如英文同詞幹不同詞性的字)及

Part-Of-Speech tag但是中文沒有 Lemmatize的問題而本研究

設計的方法不使用 Part-Of-Speech tag

2 官方搜尋引擎的搜尋語法有限例如有無提供「萬用字元」及模糊

算子本研究只使用 Google的雙引號「」Query功能表示嚴格

限定只找包含完整 Query字串的網頁

3 官方搜尋引擎有 Query數限制在固定時間內使用者只能發出有限

的 Query而本研究以延長搜尋間隔時間來解決

4 官方搜尋引擎的搜尋結果數是網頁數而非詞句數由於無法下載

所有 hit pages的內容精準統計語句次數故本研究利用網頁數

做為數據來源此為本研究的限制

5 搜尋結果數中可能有重覆的資料例如不同網址有同樣文件內容

此問題雖然會影響結果但是本研究所設計的方法主要是利用最長

可得結果字串的長度為評分依據而搜尋結果數只影響分數中的小

數部份對本研究只佔了小部份的影響

33 TOP-Huayu 詞彙語法

臺灣華語文能力測驗的前身是 2003 年國立臺灣師範大學國語教

學中心華語文教學研究所與心理教育測驗中心三個團隊所共同研發

的「華語文能力測驗」(Chinese Proficiency Test CPT)2005 年

11 月教育部提升這個測驗為國家級的測驗並改為 TOP-Huayu(張莉

萍 2007)2010 年再改版為 TOCFL到 2010 年 11 月份為止臺灣

15

華語文能力測驗的到考人數已達到 11527 人成功取得證書人數更

有 6080 人(國家華語測驗推動工作委員會2009)如表 3-3表示

此測驗在國際上已具有相當的知名度

表 3-3 臺灣華語文能力測驗 2003年 12月到 2010年 11月份累計各

等級到考及獲證人數分佈(基礎測驗從 2007年 11月開始)

到考人數 獲得證書

人數 通過率()

基礎測驗 1729 1324 7662

初等測驗 3572 1620 4543

中等測驗 4184 1719 4114

高等測驗 2042 1345 6587

資料來源國家華語測驗推動工作委員會(2009)

由於地緣關係本研究使用台灣華語文能力測驗且由於新版的

TOCFL「選詞填空」的形式較 TOP-Huayu 詞彙語法複雜本研究參考

專家的建議後以台灣 TOP-Huayu詞彙語法為製作系統及分析準確度

的標竿並做為未來研究的基礎洪小雯(2009)表示「詞彙語法」

的題型儘管較為傳統但其著重測詴語言知識的考量不宜偏廢畢竟

在外語的學習過程中語言知識是決定語言能力的基礎

TOP-Huayu的詞彙分級方法參考自張莉萍陳鳳儀(2006)所訂

定的規則詞彙來源主要參考自台灣師大華語文能力測驗詞彙分級表

張莉萍(2002)(以下簡稱 CPT詞彙表)漢語水平詞彙等級大綱(國

家對外漢語教學領導小組辦公室漢語水平考詴部1992)(以下簡稱

HSK詞彙表)CPT和 HSK的詞彙交集分佈如表 3-4

在華語文能力測驗與歐洲共同架構 CEFR 的對應關係方面藍珮

君(2007)研究基礎華語文能力測驗與 CEFR 對應程度發現測驗等

級介於 CEFR A1 與 A2 之間屬於初級使用者的程度表示該測驗可

16

適當的測出受詴者的能力

表 3-4 CPT vs HSK等級詞彙的交集

HSK cap CPT CPT詞彙表(10155個)

初(1507) 中(3684) 高(4964)

HSK詞彙表

(8767個)

甲(1027) 683 231 17

乙(2003) 330 805 265

丙(2188) 141 486 474

丁(3569) 54 406 632

資料來源張莉萍陳鳳儀(2006)

17

4 第四章 正答力計算方法

本研究提出一個篩選詞彙語法電腦出題的候選誘答選項的方法

在不斷的測詴與改進基於 Markov Chain及 Katz Backoff的概念

並且使用 Google做為 N-gram count值的來源設計了一個方法來計

算詞彙語法題之候選誘答選項的正答力計算正答力的概念如圖 4-1

先計算正確答案正答力如圖 4-2然後計算每個候選誘答選項正答

力如圖 4-3使能和正確答案的正答力比較

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖

圖 4-2 計算正確答案正答力範例

18

圖 4-3 計算並比較正確答案和誘答選項正答力的範例

在實際應用時若該候選誘答選項的正答力大於正確答案表示

該選項為最佳答案則選項不適用如圖 4-3將其過慮掉本章包

含計算正答力之前及之後需處理的「前後置處理」完成本方法之前

所參考的「其它計算正答力方法」然後是本研究最後呈現的「基於

全球資訊網的正答力計算方法」最後是新舊方法的「方法比較」

41 前後置處理

圖 4-4為本方法前後置處理的流程圖虛線圍起來的部份是本研

究的核心方法本節介紹前後置處理包含計算正答力的前置及後續

處理工作

19

圖 4-4 前後置處理流程圖

如圖 4-4「輸入題幹及選項」輸入一題詞彙語法題的題幹及 4

個選項此部份可視為華語文詞彙語法電腦出題系統產生候選誘答選

項後將選項輸入該系統以計算該選項的正答力如下題幹及選項

(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

「將題幹及選項組成句子」將選項和題幹組成一個完整的句子4

個選項則產生 4個句子如下範例

20

我國天然資源不多礦產種類只有煤和石油

我國天然材料不多礦產種類只有煤和石油

我國天然產品不多礦產種類只有煤和石油

我國天然原料不多礦產種類只有煤和石油

「斷詞」將每個句子經由 Internet送到中研院斷詞系統進行斷詞

方便後續分析正答力如下範例句子斷詞後的結果「」表分隔

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

我國 天然 材料 不 多 礦產 種類 只有 煤 和 石油

我國 天然 產品 不 多 礦產 種類 只有 煤 和 石油

我國 天然 原料 不 多 礦產 種類 只有 煤 和 石油

「計算正答力」此模組負責計算每個選項的正答力為本研究

的核心部份計算方法將在下一節詳細介紹

「呈現正答力」輸出該選項的正答力分數結果供電腦出題系

統判斷候選誘答選項非最佳答案或直接供詴題研發人員參考如下

範例

「資源」選項的正答力=17581062

「材料」選項的正答力=5614006

「產品」選項的正答力=7181650

「原料」選項的正答力=5623282

本系統計算出來的是相對正答力不能比較不同題目的相同誘答選項

正答力

42 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法本研究參考了

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 22: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

13

中研院中文斷詞系統已經廣泛的被各種領域的學者所使用例如

陳慶龍(2007)利用此斷詞系統製作中文體育知識問答系統Huang

ChiuChuanSandnes(2010)製作一個可以診斷憂鬱症的語言分析器

其中利用中研院中文斷詞系統來擷取關鍵字

32 Google 網頁搜尋

1995 年 Google 的創辦人美國史丹福大學的研究生 Larry Page

以及 Sergey Brin憑藉其資訊工程的專長開發名為 BackRub的搜尋

引擎後來正式更名為 Google其任務在於組織全世界的資訊讓

全球都能使用並有所禆益可說是目前全球最大的搜尋引撆現代人

幾乎只要提到資料搜索都絕對離不開 Google 搜尋正因為它可以在

短時間內找到相當豐富的資料查詢所得的結果遠多於其他搜尋網站

因此已經成為許多人不可或缺的工具(童國倫潘奕萍 2009)故本

研究以 Google為 N-gram count值的來源分析選項正答力

GOOGLE支援多達一百三十二種語言包括簡體中文和繁體中文

並有「頁庫存檔」功能即使網頁檔案被刪除仍然可以查詢到資料

而且可以搜尋的資料類型至少包括以下幾種格式

Adobe Portable Document Format (pdf)

Adobe PostScript (ps)

Lotus 1-2-3 (wk1 wk2 wk3 wk4 wk5 wki wks wku)

Lotus WordPro (lwp)

MacWrite (mw)

Microsoft Excel (xls)

Microsoft PowerPoint (ppt)

Microsoft Word (doc)

Microsoft Works (wks wps wdb)

Microsoft Write (wri)

Rich Text Format (rtf)

Shockwave Flash (swf)

Text (ans txt)

HyperText Markup Language (html)

14

Google 目前已被廣泛應用在各種自然語言處理研究中例如

FigueroaNeumann與 Atkinson (2009)利用 Google來擷取知識作

出基於 Surface Patterns的定義型問題問答系統CaiCuiMiao

Zhao與 Ren(2004)利用 Google Web APIs作出中文自動問答系統

Kilgarriff(2007)描述了使用 Google 這類官方搜尋引擎時會有

的幾個議題本研究整理列出並解釋和本研究的關係

1 官方搜尋引擎不考慮 Lemmatize(如英文同詞幹不同詞性的字)及

Part-Of-Speech tag但是中文沒有 Lemmatize的問題而本研究

設計的方法不使用 Part-Of-Speech tag

2 官方搜尋引擎的搜尋語法有限例如有無提供「萬用字元」及模糊

算子本研究只使用 Google的雙引號「」Query功能表示嚴格

限定只找包含完整 Query字串的網頁

3 官方搜尋引擎有 Query數限制在固定時間內使用者只能發出有限

的 Query而本研究以延長搜尋間隔時間來解決

4 官方搜尋引擎的搜尋結果數是網頁數而非詞句數由於無法下載

所有 hit pages的內容精準統計語句次數故本研究利用網頁數

做為數據來源此為本研究的限制

5 搜尋結果數中可能有重覆的資料例如不同網址有同樣文件內容

此問題雖然會影響結果但是本研究所設計的方法主要是利用最長

可得結果字串的長度為評分依據而搜尋結果數只影響分數中的小

數部份對本研究只佔了小部份的影響

33 TOP-Huayu 詞彙語法

臺灣華語文能力測驗的前身是 2003 年國立臺灣師範大學國語教

學中心華語文教學研究所與心理教育測驗中心三個團隊所共同研發

的「華語文能力測驗」(Chinese Proficiency Test CPT)2005 年

11 月教育部提升這個測驗為國家級的測驗並改為 TOP-Huayu(張莉

萍 2007)2010 年再改版為 TOCFL到 2010 年 11 月份為止臺灣

15

華語文能力測驗的到考人數已達到 11527 人成功取得證書人數更

有 6080 人(國家華語測驗推動工作委員會2009)如表 3-3表示

此測驗在國際上已具有相當的知名度

表 3-3 臺灣華語文能力測驗 2003年 12月到 2010年 11月份累計各

等級到考及獲證人數分佈(基礎測驗從 2007年 11月開始)

到考人數 獲得證書

人數 通過率()

基礎測驗 1729 1324 7662

初等測驗 3572 1620 4543

中等測驗 4184 1719 4114

高等測驗 2042 1345 6587

資料來源國家華語測驗推動工作委員會(2009)

由於地緣關係本研究使用台灣華語文能力測驗且由於新版的

TOCFL「選詞填空」的形式較 TOP-Huayu 詞彙語法複雜本研究參考

專家的建議後以台灣 TOP-Huayu詞彙語法為製作系統及分析準確度

的標竿並做為未來研究的基礎洪小雯(2009)表示「詞彙語法」

的題型儘管較為傳統但其著重測詴語言知識的考量不宜偏廢畢竟

在外語的學習過程中語言知識是決定語言能力的基礎

TOP-Huayu的詞彙分級方法參考自張莉萍陳鳳儀(2006)所訂

定的規則詞彙來源主要參考自台灣師大華語文能力測驗詞彙分級表

張莉萍(2002)(以下簡稱 CPT詞彙表)漢語水平詞彙等級大綱(國

家對外漢語教學領導小組辦公室漢語水平考詴部1992)(以下簡稱

HSK詞彙表)CPT和 HSK的詞彙交集分佈如表 3-4

在華語文能力測驗與歐洲共同架構 CEFR 的對應關係方面藍珮

君(2007)研究基礎華語文能力測驗與 CEFR 對應程度發現測驗等

級介於 CEFR A1 與 A2 之間屬於初級使用者的程度表示該測驗可

16

適當的測出受詴者的能力

表 3-4 CPT vs HSK等級詞彙的交集

HSK cap CPT CPT詞彙表(10155個)

初(1507) 中(3684) 高(4964)

HSK詞彙表

(8767個)

甲(1027) 683 231 17

乙(2003) 330 805 265

丙(2188) 141 486 474

丁(3569) 54 406 632

資料來源張莉萍陳鳳儀(2006)

17

4 第四章 正答力計算方法

本研究提出一個篩選詞彙語法電腦出題的候選誘答選項的方法

在不斷的測詴與改進基於 Markov Chain及 Katz Backoff的概念

並且使用 Google做為 N-gram count值的來源設計了一個方法來計

算詞彙語法題之候選誘答選項的正答力計算正答力的概念如圖 4-1

先計算正確答案正答力如圖 4-2然後計算每個候選誘答選項正答

力如圖 4-3使能和正確答案的正答力比較

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖

圖 4-2 計算正確答案正答力範例

18

圖 4-3 計算並比較正確答案和誘答選項正答力的範例

在實際應用時若該候選誘答選項的正答力大於正確答案表示

該選項為最佳答案則選項不適用如圖 4-3將其過慮掉本章包

含計算正答力之前及之後需處理的「前後置處理」完成本方法之前

所參考的「其它計算正答力方法」然後是本研究最後呈現的「基於

全球資訊網的正答力計算方法」最後是新舊方法的「方法比較」

41 前後置處理

圖 4-4為本方法前後置處理的流程圖虛線圍起來的部份是本研

究的核心方法本節介紹前後置處理包含計算正答力的前置及後續

處理工作

19

圖 4-4 前後置處理流程圖

如圖 4-4「輸入題幹及選項」輸入一題詞彙語法題的題幹及 4

個選項此部份可視為華語文詞彙語法電腦出題系統產生候選誘答選

項後將選項輸入該系統以計算該選項的正答力如下題幹及選項

(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

「將題幹及選項組成句子」將選項和題幹組成一個完整的句子4

個選項則產生 4個句子如下範例

20

我國天然資源不多礦產種類只有煤和石油

我國天然材料不多礦產種類只有煤和石油

我國天然產品不多礦產種類只有煤和石油

我國天然原料不多礦產種類只有煤和石油

「斷詞」將每個句子經由 Internet送到中研院斷詞系統進行斷詞

方便後續分析正答力如下範例句子斷詞後的結果「」表分隔

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

我國 天然 材料 不 多 礦產 種類 只有 煤 和 石油

我國 天然 產品 不 多 礦產 種類 只有 煤 和 石油

我國 天然 原料 不 多 礦產 種類 只有 煤 和 石油

「計算正答力」此模組負責計算每個選項的正答力為本研究

的核心部份計算方法將在下一節詳細介紹

「呈現正答力」輸出該選項的正答力分數結果供電腦出題系

統判斷候選誘答選項非最佳答案或直接供詴題研發人員參考如下

範例

「資源」選項的正答力=17581062

「材料」選項的正答力=5614006

「產品」選項的正答力=7181650

「原料」選項的正答力=5623282

本系統計算出來的是相對正答力不能比較不同題目的相同誘答選項

正答力

42 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法本研究參考了

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 23: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

14

Google 目前已被廣泛應用在各種自然語言處理研究中例如

FigueroaNeumann與 Atkinson (2009)利用 Google來擷取知識作

出基於 Surface Patterns的定義型問題問答系統CaiCuiMiao

Zhao與 Ren(2004)利用 Google Web APIs作出中文自動問答系統

Kilgarriff(2007)描述了使用 Google 這類官方搜尋引擎時會有

的幾個議題本研究整理列出並解釋和本研究的關係

1 官方搜尋引擎不考慮 Lemmatize(如英文同詞幹不同詞性的字)及

Part-Of-Speech tag但是中文沒有 Lemmatize的問題而本研究

設計的方法不使用 Part-Of-Speech tag

2 官方搜尋引擎的搜尋語法有限例如有無提供「萬用字元」及模糊

算子本研究只使用 Google的雙引號「」Query功能表示嚴格

限定只找包含完整 Query字串的網頁

3 官方搜尋引擎有 Query數限制在固定時間內使用者只能發出有限

的 Query而本研究以延長搜尋間隔時間來解決

4 官方搜尋引擎的搜尋結果數是網頁數而非詞句數由於無法下載

所有 hit pages的內容精準統計語句次數故本研究利用網頁數

做為數據來源此為本研究的限制

5 搜尋結果數中可能有重覆的資料例如不同網址有同樣文件內容

此問題雖然會影響結果但是本研究所設計的方法主要是利用最長

可得結果字串的長度為評分依據而搜尋結果數只影響分數中的小

數部份對本研究只佔了小部份的影響

33 TOP-Huayu 詞彙語法

臺灣華語文能力測驗的前身是 2003 年國立臺灣師範大學國語教

學中心華語文教學研究所與心理教育測驗中心三個團隊所共同研發

的「華語文能力測驗」(Chinese Proficiency Test CPT)2005 年

11 月教育部提升這個測驗為國家級的測驗並改為 TOP-Huayu(張莉

萍 2007)2010 年再改版為 TOCFL到 2010 年 11 月份為止臺灣

15

華語文能力測驗的到考人數已達到 11527 人成功取得證書人數更

有 6080 人(國家華語測驗推動工作委員會2009)如表 3-3表示

此測驗在國際上已具有相當的知名度

表 3-3 臺灣華語文能力測驗 2003年 12月到 2010年 11月份累計各

等級到考及獲證人數分佈(基礎測驗從 2007年 11月開始)

到考人數 獲得證書

人數 通過率()

基礎測驗 1729 1324 7662

初等測驗 3572 1620 4543

中等測驗 4184 1719 4114

高等測驗 2042 1345 6587

資料來源國家華語測驗推動工作委員會(2009)

由於地緣關係本研究使用台灣華語文能力測驗且由於新版的

TOCFL「選詞填空」的形式較 TOP-Huayu 詞彙語法複雜本研究參考

專家的建議後以台灣 TOP-Huayu詞彙語法為製作系統及分析準確度

的標竿並做為未來研究的基礎洪小雯(2009)表示「詞彙語法」

的題型儘管較為傳統但其著重測詴語言知識的考量不宜偏廢畢竟

在外語的學習過程中語言知識是決定語言能力的基礎

TOP-Huayu的詞彙分級方法參考自張莉萍陳鳳儀(2006)所訂

定的規則詞彙來源主要參考自台灣師大華語文能力測驗詞彙分級表

張莉萍(2002)(以下簡稱 CPT詞彙表)漢語水平詞彙等級大綱(國

家對外漢語教學領導小組辦公室漢語水平考詴部1992)(以下簡稱

HSK詞彙表)CPT和 HSK的詞彙交集分佈如表 3-4

在華語文能力測驗與歐洲共同架構 CEFR 的對應關係方面藍珮

君(2007)研究基礎華語文能力測驗與 CEFR 對應程度發現測驗等

級介於 CEFR A1 與 A2 之間屬於初級使用者的程度表示該測驗可

16

適當的測出受詴者的能力

表 3-4 CPT vs HSK等級詞彙的交集

HSK cap CPT CPT詞彙表(10155個)

初(1507) 中(3684) 高(4964)

HSK詞彙表

(8767個)

甲(1027) 683 231 17

乙(2003) 330 805 265

丙(2188) 141 486 474

丁(3569) 54 406 632

資料來源張莉萍陳鳳儀(2006)

17

4 第四章 正答力計算方法

本研究提出一個篩選詞彙語法電腦出題的候選誘答選項的方法

在不斷的測詴與改進基於 Markov Chain及 Katz Backoff的概念

並且使用 Google做為 N-gram count值的來源設計了一個方法來計

算詞彙語法題之候選誘答選項的正答力計算正答力的概念如圖 4-1

先計算正確答案正答力如圖 4-2然後計算每個候選誘答選項正答

力如圖 4-3使能和正確答案的正答力比較

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖

圖 4-2 計算正確答案正答力範例

18

圖 4-3 計算並比較正確答案和誘答選項正答力的範例

在實際應用時若該候選誘答選項的正答力大於正確答案表示

該選項為最佳答案則選項不適用如圖 4-3將其過慮掉本章包

含計算正答力之前及之後需處理的「前後置處理」完成本方法之前

所參考的「其它計算正答力方法」然後是本研究最後呈現的「基於

全球資訊網的正答力計算方法」最後是新舊方法的「方法比較」

41 前後置處理

圖 4-4為本方法前後置處理的流程圖虛線圍起來的部份是本研

究的核心方法本節介紹前後置處理包含計算正答力的前置及後續

處理工作

19

圖 4-4 前後置處理流程圖

如圖 4-4「輸入題幹及選項」輸入一題詞彙語法題的題幹及 4

個選項此部份可視為華語文詞彙語法電腦出題系統產生候選誘答選

項後將選項輸入該系統以計算該選項的正答力如下題幹及選項

(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

「將題幹及選項組成句子」將選項和題幹組成一個完整的句子4

個選項則產生 4個句子如下範例

20

我國天然資源不多礦產種類只有煤和石油

我國天然材料不多礦產種類只有煤和石油

我國天然產品不多礦產種類只有煤和石油

我國天然原料不多礦產種類只有煤和石油

「斷詞」將每個句子經由 Internet送到中研院斷詞系統進行斷詞

方便後續分析正答力如下範例句子斷詞後的結果「」表分隔

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

我國 天然 材料 不 多 礦產 種類 只有 煤 和 石油

我國 天然 產品 不 多 礦產 種類 只有 煤 和 石油

我國 天然 原料 不 多 礦產 種類 只有 煤 和 石油

「計算正答力」此模組負責計算每個選項的正答力為本研究

的核心部份計算方法將在下一節詳細介紹

「呈現正答力」輸出該選項的正答力分數結果供電腦出題系

統判斷候選誘答選項非最佳答案或直接供詴題研發人員參考如下

範例

「資源」選項的正答力=17581062

「材料」選項的正答力=5614006

「產品」選項的正答力=7181650

「原料」選項的正答力=5623282

本系統計算出來的是相對正答力不能比較不同題目的相同誘答選項

正答力

42 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法本研究參考了

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 24: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

15

華語文能力測驗的到考人數已達到 11527 人成功取得證書人數更

有 6080 人(國家華語測驗推動工作委員會2009)如表 3-3表示

此測驗在國際上已具有相當的知名度

表 3-3 臺灣華語文能力測驗 2003年 12月到 2010年 11月份累計各

等級到考及獲證人數分佈(基礎測驗從 2007年 11月開始)

到考人數 獲得證書

人數 通過率()

基礎測驗 1729 1324 7662

初等測驗 3572 1620 4543

中等測驗 4184 1719 4114

高等測驗 2042 1345 6587

資料來源國家華語測驗推動工作委員會(2009)

由於地緣關係本研究使用台灣華語文能力測驗且由於新版的

TOCFL「選詞填空」的形式較 TOP-Huayu 詞彙語法複雜本研究參考

專家的建議後以台灣 TOP-Huayu詞彙語法為製作系統及分析準確度

的標竿並做為未來研究的基礎洪小雯(2009)表示「詞彙語法」

的題型儘管較為傳統但其著重測詴語言知識的考量不宜偏廢畢竟

在外語的學習過程中語言知識是決定語言能力的基礎

TOP-Huayu的詞彙分級方法參考自張莉萍陳鳳儀(2006)所訂

定的規則詞彙來源主要參考自台灣師大華語文能力測驗詞彙分級表

張莉萍(2002)(以下簡稱 CPT詞彙表)漢語水平詞彙等級大綱(國

家對外漢語教學領導小組辦公室漢語水平考詴部1992)(以下簡稱

HSK詞彙表)CPT和 HSK的詞彙交集分佈如表 3-4

在華語文能力測驗與歐洲共同架構 CEFR 的對應關係方面藍珮

君(2007)研究基礎華語文能力測驗與 CEFR 對應程度發現測驗等

級介於 CEFR A1 與 A2 之間屬於初級使用者的程度表示該測驗可

16

適當的測出受詴者的能力

表 3-4 CPT vs HSK等級詞彙的交集

HSK cap CPT CPT詞彙表(10155個)

初(1507) 中(3684) 高(4964)

HSK詞彙表

(8767個)

甲(1027) 683 231 17

乙(2003) 330 805 265

丙(2188) 141 486 474

丁(3569) 54 406 632

資料來源張莉萍陳鳳儀(2006)

17

4 第四章 正答力計算方法

本研究提出一個篩選詞彙語法電腦出題的候選誘答選項的方法

在不斷的測詴與改進基於 Markov Chain及 Katz Backoff的概念

並且使用 Google做為 N-gram count值的來源設計了一個方法來計

算詞彙語法題之候選誘答選項的正答力計算正答力的概念如圖 4-1

先計算正確答案正答力如圖 4-2然後計算每個候選誘答選項正答

力如圖 4-3使能和正確答案的正答力比較

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖

圖 4-2 計算正確答案正答力範例

18

圖 4-3 計算並比較正確答案和誘答選項正答力的範例

在實際應用時若該候選誘答選項的正答力大於正確答案表示

該選項為最佳答案則選項不適用如圖 4-3將其過慮掉本章包

含計算正答力之前及之後需處理的「前後置處理」完成本方法之前

所參考的「其它計算正答力方法」然後是本研究最後呈現的「基於

全球資訊網的正答力計算方法」最後是新舊方法的「方法比較」

41 前後置處理

圖 4-4為本方法前後置處理的流程圖虛線圍起來的部份是本研

究的核心方法本節介紹前後置處理包含計算正答力的前置及後續

處理工作

19

圖 4-4 前後置處理流程圖

如圖 4-4「輸入題幹及選項」輸入一題詞彙語法題的題幹及 4

個選項此部份可視為華語文詞彙語法電腦出題系統產生候選誘答選

項後將選項輸入該系統以計算該選項的正答力如下題幹及選項

(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

「將題幹及選項組成句子」將選項和題幹組成一個完整的句子4

個選項則產生 4個句子如下範例

20

我國天然資源不多礦產種類只有煤和石油

我國天然材料不多礦產種類只有煤和石油

我國天然產品不多礦產種類只有煤和石油

我國天然原料不多礦產種類只有煤和石油

「斷詞」將每個句子經由 Internet送到中研院斷詞系統進行斷詞

方便後續分析正答力如下範例句子斷詞後的結果「」表分隔

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

我國 天然 材料 不 多 礦產 種類 只有 煤 和 石油

我國 天然 產品 不 多 礦產 種類 只有 煤 和 石油

我國 天然 原料 不 多 礦產 種類 只有 煤 和 石油

「計算正答力」此模組負責計算每個選項的正答力為本研究

的核心部份計算方法將在下一節詳細介紹

「呈現正答力」輸出該選項的正答力分數結果供電腦出題系

統判斷候選誘答選項非最佳答案或直接供詴題研發人員參考如下

範例

「資源」選項的正答力=17581062

「材料」選項的正答力=5614006

「產品」選項的正答力=7181650

「原料」選項的正答力=5623282

本系統計算出來的是相對正答力不能比較不同題目的相同誘答選項

正答力

42 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法本研究參考了

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 25: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

16

適當的測出受詴者的能力

表 3-4 CPT vs HSK等級詞彙的交集

HSK cap CPT CPT詞彙表(10155個)

初(1507) 中(3684) 高(4964)

HSK詞彙表

(8767個)

甲(1027) 683 231 17

乙(2003) 330 805 265

丙(2188) 141 486 474

丁(3569) 54 406 632

資料來源張莉萍陳鳳儀(2006)

17

4 第四章 正答力計算方法

本研究提出一個篩選詞彙語法電腦出題的候選誘答選項的方法

在不斷的測詴與改進基於 Markov Chain及 Katz Backoff的概念

並且使用 Google做為 N-gram count值的來源設計了一個方法來計

算詞彙語法題之候選誘答選項的正答力計算正答力的概念如圖 4-1

先計算正確答案正答力如圖 4-2然後計算每個候選誘答選項正答

力如圖 4-3使能和正確答案的正答力比較

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖

圖 4-2 計算正確答案正答力範例

18

圖 4-3 計算並比較正確答案和誘答選項正答力的範例

在實際應用時若該候選誘答選項的正答力大於正確答案表示

該選項為最佳答案則選項不適用如圖 4-3將其過慮掉本章包

含計算正答力之前及之後需處理的「前後置處理」完成本方法之前

所參考的「其它計算正答力方法」然後是本研究最後呈現的「基於

全球資訊網的正答力計算方法」最後是新舊方法的「方法比較」

41 前後置處理

圖 4-4為本方法前後置處理的流程圖虛線圍起來的部份是本研

究的核心方法本節介紹前後置處理包含計算正答力的前置及後續

處理工作

19

圖 4-4 前後置處理流程圖

如圖 4-4「輸入題幹及選項」輸入一題詞彙語法題的題幹及 4

個選項此部份可視為華語文詞彙語法電腦出題系統產生候選誘答選

項後將選項輸入該系統以計算該選項的正答力如下題幹及選項

(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

「將題幹及選項組成句子」將選項和題幹組成一個完整的句子4

個選項則產生 4個句子如下範例

20

我國天然資源不多礦產種類只有煤和石油

我國天然材料不多礦產種類只有煤和石油

我國天然產品不多礦產種類只有煤和石油

我國天然原料不多礦產種類只有煤和石油

「斷詞」將每個句子經由 Internet送到中研院斷詞系統進行斷詞

方便後續分析正答力如下範例句子斷詞後的結果「」表分隔

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

我國 天然 材料 不 多 礦產 種類 只有 煤 和 石油

我國 天然 產品 不 多 礦產 種類 只有 煤 和 石油

我國 天然 原料 不 多 礦產 種類 只有 煤 和 石油

「計算正答力」此模組負責計算每個選項的正答力為本研究

的核心部份計算方法將在下一節詳細介紹

「呈現正答力」輸出該選項的正答力分數結果供電腦出題系

統判斷候選誘答選項非最佳答案或直接供詴題研發人員參考如下

範例

「資源」選項的正答力=17581062

「材料」選項的正答力=5614006

「產品」選項的正答力=7181650

「原料」選項的正答力=5623282

本系統計算出來的是相對正答力不能比較不同題目的相同誘答選項

正答力

42 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法本研究參考了

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 26: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

17

4 第四章 正答力計算方法

本研究提出一個篩選詞彙語法電腦出題的候選誘答選項的方法

在不斷的測詴與改進基於 Markov Chain及 Katz Backoff的概念

並且使用 Google做為 N-gram count值的來源設計了一個方法來計

算詞彙語法題之候選誘答選項的正答力計算正答力的概念如圖 4-1

先計算正確答案正答力如圖 4-2然後計算每個候選誘答選項正答

力如圖 4-3使能和正確答案的正答力比較

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖

圖 4-2 計算正確答案正答力範例

18

圖 4-3 計算並比較正確答案和誘答選項正答力的範例

在實際應用時若該候選誘答選項的正答力大於正確答案表示

該選項為最佳答案則選項不適用如圖 4-3將其過慮掉本章包

含計算正答力之前及之後需處理的「前後置處理」完成本方法之前

所參考的「其它計算正答力方法」然後是本研究最後呈現的「基於

全球資訊網的正答力計算方法」最後是新舊方法的「方法比較」

41 前後置處理

圖 4-4為本方法前後置處理的流程圖虛線圍起來的部份是本研

究的核心方法本節介紹前後置處理包含計算正答力的前置及後續

處理工作

19

圖 4-4 前後置處理流程圖

如圖 4-4「輸入題幹及選項」輸入一題詞彙語法題的題幹及 4

個選項此部份可視為華語文詞彙語法電腦出題系統產生候選誘答選

項後將選項輸入該系統以計算該選項的正答力如下題幹及選項

(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

「將題幹及選項組成句子」將選項和題幹組成一個完整的句子4

個選項則產生 4個句子如下範例

20

我國天然資源不多礦產種類只有煤和石油

我國天然材料不多礦產種類只有煤和石油

我國天然產品不多礦產種類只有煤和石油

我國天然原料不多礦產種類只有煤和石油

「斷詞」將每個句子經由 Internet送到中研院斷詞系統進行斷詞

方便後續分析正答力如下範例句子斷詞後的結果「」表分隔

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

我國 天然 材料 不 多 礦產 種類 只有 煤 和 石油

我國 天然 產品 不 多 礦產 種類 只有 煤 和 石油

我國 天然 原料 不 多 礦產 種類 只有 煤 和 石油

「計算正答力」此模組負責計算每個選項的正答力為本研究

的核心部份計算方法將在下一節詳細介紹

「呈現正答力」輸出該選項的正答力分數結果供電腦出題系

統判斷候選誘答選項非最佳答案或直接供詴題研發人員參考如下

範例

「資源」選項的正答力=17581062

「材料」選項的正答力=5614006

「產品」選項的正答力=7181650

「原料」選項的正答力=5623282

本系統計算出來的是相對正答力不能比較不同題目的相同誘答選項

正答力

42 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法本研究參考了

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 27: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

18

圖 4-3 計算並比較正確答案和誘答選項正答力的範例

在實際應用時若該候選誘答選項的正答力大於正確答案表示

該選項為最佳答案則選項不適用如圖 4-3將其過慮掉本章包

含計算正答力之前及之後需處理的「前後置處理」完成本方法之前

所參考的「其它計算正答力方法」然後是本研究最後呈現的「基於

全球資訊網的正答力計算方法」最後是新舊方法的「方法比較」

41 前後置處理

圖 4-4為本方法前後置處理的流程圖虛線圍起來的部份是本研

究的核心方法本節介紹前後置處理包含計算正答力的前置及後續

處理工作

19

圖 4-4 前後置處理流程圖

如圖 4-4「輸入題幹及選項」輸入一題詞彙語法題的題幹及 4

個選項此部份可視為華語文詞彙語法電腦出題系統產生候選誘答選

項後將選項輸入該系統以計算該選項的正答力如下題幹及選項

(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

「將題幹及選項組成句子」將選項和題幹組成一個完整的句子4

個選項則產生 4個句子如下範例

20

我國天然資源不多礦產種類只有煤和石油

我國天然材料不多礦產種類只有煤和石油

我國天然產品不多礦產種類只有煤和石油

我國天然原料不多礦產種類只有煤和石油

「斷詞」將每個句子經由 Internet送到中研院斷詞系統進行斷詞

方便後續分析正答力如下範例句子斷詞後的結果「」表分隔

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

我國 天然 材料 不 多 礦產 種類 只有 煤 和 石油

我國 天然 產品 不 多 礦產 種類 只有 煤 和 石油

我國 天然 原料 不 多 礦產 種類 只有 煤 和 石油

「計算正答力」此模組負責計算每個選項的正答力為本研究

的核心部份計算方法將在下一節詳細介紹

「呈現正答力」輸出該選項的正答力分數結果供電腦出題系

統判斷候選誘答選項非最佳答案或直接供詴題研發人員參考如下

範例

「資源」選項的正答力=17581062

「材料」選項的正答力=5614006

「產品」選項的正答力=7181650

「原料」選項的正答力=5623282

本系統計算出來的是相對正答力不能比較不同題目的相同誘答選項

正答力

42 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法本研究參考了

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 28: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

19

圖 4-4 前後置處理流程圖

如圖 4-4「輸入題幹及選項」輸入一題詞彙語法題的題幹及 4

個選項此部份可視為華語文詞彙語法電腦出題系統產生候選誘答選

項後將選項輸入該系統以計算該選項的正答力如下題幹及選項

(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

「將題幹及選項組成句子」將選項和題幹組成一個完整的句子4

個選項則產生 4個句子如下範例

20

我國天然資源不多礦產種類只有煤和石油

我國天然材料不多礦產種類只有煤和石油

我國天然產品不多礦產種類只有煤和石油

我國天然原料不多礦產種類只有煤和石油

「斷詞」將每個句子經由 Internet送到中研院斷詞系統進行斷詞

方便後續分析正答力如下範例句子斷詞後的結果「」表分隔

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

我國 天然 材料 不 多 礦產 種類 只有 煤 和 石油

我國 天然 產品 不 多 礦產 種類 只有 煤 和 石油

我國 天然 原料 不 多 礦產 種類 只有 煤 和 石油

「計算正答力」此模組負責計算每個選項的正答力為本研究

的核心部份計算方法將在下一節詳細介紹

「呈現正答力」輸出該選項的正答力分數結果供電腦出題系

統判斷候選誘答選項非最佳答案或直接供詴題研發人員參考如下

範例

「資源」選項的正答力=17581062

「材料」選項的正答力=5614006

「產品」選項的正答力=7181650

「原料」選項的正答力=5623282

本系統計算出來的是相對正答力不能比較不同題目的相同誘答選項

正答力

42 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法本研究參考了

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 29: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

20

我國天然資源不多礦產種類只有煤和石油

我國天然材料不多礦產種類只有煤和石油

我國天然產品不多礦產種類只有煤和石油

我國天然原料不多礦產種類只有煤和石油

「斷詞」將每個句子經由 Internet送到中研院斷詞系統進行斷詞

方便後續分析正答力如下範例句子斷詞後的結果「」表分隔

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

我國 天然 材料 不 多 礦產 種類 只有 煤 和 石油

我國 天然 產品 不 多 礦產 種類 只有 煤 和 石油

我國 天然 原料 不 多 礦產 種類 只有 煤 和 石油

「計算正答力」此模組負責計算每個選項的正答力為本研究

的核心部份計算方法將在下一節詳細介紹

「呈現正答力」輸出該選項的正答力分數結果供電腦出題系

統判斷候選誘答選項非最佳答案或直接供詴題研發人員參考如下

範例

「資源」選項的正答力=17581062

「材料」選項的正答力=5614006

「產品」選項的正答力=7181650

「原料」選項的正答力=5623282

本系統計算出來的是相對正答力不能比較不同題目的相同誘答選項

正答力

42 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法本研究參考了

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 30: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

21

三個計算語言學的方法本節將列出此三種方法及分析它們在計算

本研究正答力時有什麼不足的地方然後在下一節描述本研究最終修

改完成的方法

首先定義W119886m及Wx119886 119898 119909 isin ℕW119886

m代表一個詞句Wx代表W119886m中

的一個詞119882119909的長短以中研院的斷詞系統的斷詞結果為準以下範

W118=rdquo弟弟做事很隨便這麼重要的事給他做我真的不能放心rdquo

W1=rdquo弟弟rdquoW2=rdquo做rdquoW3=rdquo事rdquoW4=rdquo很rdquoW5=rdquo隨便rdquoW6=rdquordquo

W7=rdquo這麼rdquo W8=rdquo重要rdquoW9=rdquo的rdquoW10=rdquo事rdquoW11=rdquo給他rdquo

W12=rdquo做rdquoW13=rdquordquoW14=rdquo我rdquoW15=rdquo真的rdquoW16=rdquo不能rdquo

W17=rdquo放心rdquoW18=rdquordquo

其中W17為答案選項

421 Bigram Markov Chain方法

「Bigram Markov Chain 方法」是以 Bigram的 Markov

Chain(Jurafsky amp Martin 2009)如式 4-1可以用來計算句子正

確機率的方法

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | Wk1)

119899

119896lt2

(4-1)

這個方法用在計算誘答選項的正答力時先將題幹及選項組成句

子藉著計算句子的機率來取得選項的正答力然後比較誘答選項

正答力是否比正確選項低藉此檢查誘答選項非最佳答案如式 4-2

及式 4-3的方式計算定義

Wa1答案選項Y誘答選項W1a及W

a2n 題幹119899 gta gt 1

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 31: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

22

答案選項的機率

119875(W1W2hellipWaWa1Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Wa1 | Wa)P(Wa2 | Wa1)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-2)

誘答選項的機率

119875(W1W2hellipWa Y Wa2hellipWn)

= 119875(W1) (prodP(Wk | Wk1)

119899

119896lt2

)P(Y | Wa)P(Wa2 | Y)( prod P(Wk | Wk1)

119899

119896lta3

)

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料

庫 40版一千萬標記目詞N-grams架構表如表 4-1

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

然而這種方法計算出來的正答力準確度不高究其原因可以

從式 4-4的簡化結果發現

式 4 minus 2

式 4 minus 3=119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)=P(Wa1 | Wa)P(Wa2 | Wa1)

P(Y | Wa)P(Wa2 | Y)

(4-4)

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 32: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

23

當我們用「Bigram Markov Chain方法」的計算結果來比較兩個

選項的正答力高低可以簡化成比較兩個選項及前後一個搭配詞例

如句子是

「王老闆我上個星期訂的書來了沒有」

「王老闆我上個星期約的書來了沒有」

則「Bigram Markov Chain方法」只分析如下列的範圍

ldquo星期訂的rdquo

ldquo星期約的rdquo

比較上述4個字的詞句的正答力跟比較完整句子的正答力是一樣的

所以 Bigram的 Markov Chain計算結果真正影響正答力的因素只有

前後二個搭配詞計算出來的結果當然不準確以本研究的評估方法

測詴後只答對 54題其正確率只有 54

422 5-gram Markov Chain方法

「5-gram Markov Chain方法」是為了要擴大影響正答力的上下

文範圍以 5-gram的 Markov Chain方法(最長只處理到 5-gram可

以達到較佳的效能與運算成本比)(Goodman 2001)如式 4-5

119875(W1W2W3W4hellipWn) = 119875(W1)prodP(Wk | W1k1)

4

119896lt2

prodP(Wk | Wk4k1)

119899

119896lt5

(4-5)

以式 4-5計算句子的機率也就是答案或誘答選項放入句子後所計算

出的正答力本方法的 Language Model 也是取自中研院漢語平衡語

料庫 40版一千萬標記目詞N-grams的架構如表 4-2

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 33: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

24

表 4-2 「5-gram Markov Chain方法」的 Language Model N-grams

架構表

N-grams Entry

Unigram 278719

Bigram 3195130

Trigram 3154812

4-gram 3268636

5-gram 2774126

如式 4-6的簡化結果可以發現影響正答力的上下文範圍確實有

變大而每個 Conditional probability是用 Maximum Likelihood

Estimation(MLE)的方法來計算如式 4-7由於不是每個詞句在

5-gram中都找得到另外需搭配式 4-8的 Katz Backoff演算法將

5-gram中找不到的詞句改用 4-gramtrigram或 bigram再找一

119875(W1W2hellipWaWa1Wa2hellipWn)

119875(W1W2hellipWa Y Wa2hellipWn)

=P(Wa1 | Wa3

a )P(Wa2 | Wa2a1)hellipP(Wa5 | Wa1

a4)

P(Y | Wa3a )P(Wa2 | Wa2

a Y)hellipP(Wa5 | Y Wa2a4)

(4-6)

P(Wk | WkN1k1 ) =

C(WkN1k )

C(WkN1k1 )

(4-7)

P119896119886119905119911(Wk | WkN1k1 ) =

P(Wk | WkN1k1 ) if C(WkN1

k ) gt 0

α(WkN1k1 )P119896119886119905119911(Wk | WkN2

k1 ) otherwise

(4-8)

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 34: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

25

但是「5-gram Markov Chain方法」有一個基本的條件就是語

料庫要夠大才能作 5-gram計算否則很多包含正確答案的詞句在

5-gram中找不到結果還是會用到 bigram情況就回到「Bigram

Markov Chain方法」了(Hsu amp Yang 2011)因為包含正確答案的

5-gram詞句是正確的語言必須在語料庫裡出現過「5-gram Markov

Chain方法」才能正確的判斷選項正答力所以這個方法需要夠大的

語料庫計算結果才會準確

423 以全球資訊網為語料來源方法

為了解決語料不足的問題利用 Google及全球資訊網來分析詞

句(Goto et al 2010 Sumita et al 2005)將所有 5-gram4-gram

trigrambigram的字串利用 Google查詢並將搜尋結果數當成 Count

值解決語料不足的問題計算正答力的準確度就能提高

但是這個方法也不適合直接用在本研究這個問題來自 MLE及

Katz Backoff演算法由於從 Google搜尋回來的 count值不同的

字串結果之間差距可能會極大會發生如式 4-7的分母C(WkN1k1 )太

大分子C(WkN1k )太小 (C(W)表 W 的 count 值)使正答力過低

導致結果不佳

以下例題說明這個問題題幹是

「這雙鞋看起來很適合你你可以___」

答案是

「穿穿看」

誘答選項是

「試試看穿」

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 35: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

26

答案和前後文的組合

「你 你 可以 穿穿看」

在 Google中可以搜尋到結果(結果數gt 0)

C(你 你 可以 穿穿看)=4

C(你 你 可以)=385000000

P(穿穿看|你 你 可以)=1079834

誘答選項和前後文的組合

「你 你 可以 試試看穿」

在 Google中可以搜尋到結果(結果數gt 0)但是只有 4-gram比答

案的字串少一個詞依 Backoff的方法必需乘上一α使機率降低 C(你 你 可以 試試看穿)=0

C( 你 可以 試試看穿)=7100

C( 你 可以)=650000000

αP(試試看穿| 你 可以)=α1049616

上述的範例可以發現答案的正答力1079834 ≪ 1049616因

為分母的 count值比分子大太多了針對上述的例題必須設定α

le 10303才能使正確選項的正答力大於誘答選項結果才會正確

但是我們無法知道α必須設定到多小才能使所有結果都正確而且

10303是一個非常小的α值太小的權重α也會嚴重影響到其他選項

的正答力計算結果

為避免上述的問題本研究重新設計一計算「華語文能力測驗之

詞彙語法題」選項正答力的方法此方法基於 Markov Chain及 Katz

Backoff的概念擴大 N-grams的範圍利用 Google的搜尋結果數

作為 N-grams的 count值除去α值設定問題完成本研究的方法

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 36: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

27

43 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」如圖 4-5當前置

作業都完成後句子被輸入到本模組以本方法計算正答力

圖 4-5 基於全球資訊網的正答力計算模組

431 概念

本方法的概念可以如下的方式表示本方法將句子(由題幹和選

項組成)輸入 Google搜尋但並非整句一次輸入輸入方式以回合來

分批輸入前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜

尋的字串實際使用時中間沒有空格空格為供讀者分辨 N-grams長

度)一次輸入一小段片段取得 count 值然後逐漸加長字串如

同 Markov Chain的概念

第 5 個回合情況較前 4 個不同比較複雜一點如表 4-3(b)所

示用到 Katz Backoff的觀念由於字串 我國 天然 資源 不 多 礦

產 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)所

以從第一個詞開始刪除最後剩下 資源 不 多 礦產 字串可以

得到 Google Search Result(GSR)是 5所以 資源 不 多 礦產 為

該回合字串

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 37: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

28

第 6 個回合之後如表 4-3(c)字串 資源 不 多 礦產 後面

再加詞GSR 皆為 0故停止搜尋如此得到計算過程所需的字串及

Count值

表 4-3 計算過程(a)1~4回合(b)5回合(c)6回合

回合 Query 字串

Google

Search

Result

1 我國 天然 資源 7290

2 我國 天然 資源 不 1230

3 我國 天然 資源 不 多 9

4 我國 天然 資源 不 多 9

(a) 1~4回合

回合 Query 字串

Google

Search

Result

5 我國 天然 資源 不 多 礦產 0

5 天然 資源 不 多 礦產 0

5 資源 不 多 礦產 5

(b) 5回合

回合 Query 字串

Google

Search

Result

6 資源 不 多 礦產 種類 0

(c) 6回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 38: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

29

搜尋最長可得結果字串若不同選項的字串分析結果其中有相同的

字串(字及長度都一樣只選項不同) 如表 4-4所示

表 4-4 相同字串比較表

Query字串

Google

Search

Result

ldquo我國天然資源rdquo 7290

ldquo我國天然材料rdquo 10

ldquo我國天然產品rdquo 6

ldquo我國天然原料rdquo 5240

若有相同長度字串則加入一調整值使正答力計算結果如表 4-5所

表 4-5 部份正答力 F計算結果比較表

部份正答力 F 正答力分數

F(ldquo我國天然資源rdquo) 15810617

F(ldquo我國天然材料rdquo) 10007971

F(ldquo我國天然產品rdquo) 10004782

F(ldquo我國天然原料rdquo) 1417663

表 4-5中分數的個位數部份由 N-grams長度決定越長越高分小

數的部份是調整值依 GSR決定為使相同長度的字串正答力能分出

高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 423

節的描述及 32節描述 Kilgarriff(2007)所提缺點)小數部份的計

算方法如下 調整值 = 該字串的 GSR 值 相同字串的 GSR 總和

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 39: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

30

例如ldquo我國 天然 資源rdquo的調整值是

7290 (7290+10+6+5240) = 05810617

所以

F(ldquo我國天然資源rdquo)= 15810617

最後將所有部分正答力 F加起來就可以得到選項正答力相似於

Markov Chain的觀念即可得到正答力如以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

432 計算方法

5 本研究所設計的計算方法如下

6 定義119866119900119900119892119897119890(119882119886

119898)

Google(Wam) =

C(Wam) if (C(Wa

m) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

Google(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-9)

119886 119896119898 isin ℕ

k=「選項」所在位置t=0

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 40: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

31

C(Wam)代表以 Google搜尋詞句Wa

m後傳回的搜尋結果數量

C(Wam)Wa

m之間的標點符號會被 Google省略例如「」或「」

送至 Google搜尋的字串前後加雙引號「rdquo」表示不可分割式 4-9

的 t是一 threshold value實際使用時可以改成 t=1代表從 Google

搜尋到的結果數為 2以上才接受藉此過濾掉只出現 1次的詞句因

為它有可能是不常用或不合法的詞句本研究設定 t=0使評估時可

以取得較多的搜尋結果以下是Google(Wam)範例

W17=rdquo我國 天然 資源 不 多 礦產rdquo

W27=rdquo天然 資源 不 多 礦產rdquo

W37=rdquo資源 不 多 礦產rdquo

C(W17)= C(W2

7)= 0

Google(W17) =Google(W2

7)=Google(W37)= C(W3

7)=5

因為W17字串在 Google中的搜尋結果數 C(W1

7)=0所以重新用W27字

串搜尋但是W27字串的搜尋結果數C(W2

7)=0所以再用W37字串搜尋

得到搜尋結果數C(W37)=5

定義119897119890119899119892119905ℎ(119882119886119898)

length(Wam) =

mminus a + 1 if (C(Wam) gt 119905 and a lt (k minus 1) and m = k)

or (C(Wam) gt 119905 and a lt 119896 119886119899119889 119898 gt 119896)

length(Wa1m ) if (C(Wa

m) = t and a lt (k minus 1) and m = k)

or (C(Wam) = t and a lt 119896 119886119899119889 119898 gt 119896)

0 otherwise

(4-10)

a 119896119898 isin ℕ

k=「選項」所在位置t=0

length(Wam)代表最後從google找到C(Wa

m)時根據它所用的

最長可得結果字串Wam找出字串的 N-grams長度而length(Wa

m)即

代表此長度t是一 threshold value可以改成 t=1代表從 Google

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 41: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

32

搜尋到的結果數C(Wam)為 2以上才接受藉此過濾掉只出現 1次的詞

句因為它有可能是不常用或不合法的詞句本研究設定 t=0使評

估時可以取得較多的搜尋結果

以下是length(Wam)範例

W19=ldquo王 老闆 我 上 個 星期 訂 的rdquo

W29=ldquo老闆 我 上 個 星期 訂 的rdquo

C(W19)=0 C(W2

9)= 3

length (W19) = length (W2

9) =8

因為W19字串在 Google中的搜尋結果數 C(W1

9)=0所以重新用W29字

串搜尋得到搜尋結果數C(W29)=3故 length (W2

9) =9-2+1=8

定義119878119888119900119903119890(119909)

Score(x) = x minus 1 if x gt 1

0 if x le 1 (4-11)

Score(x)是計算分數的函數依 x=length(W1m)來決定該字串的分

數x越大則分數越高藉此分數來計算正答力

定義 TmL

TmL =sumgoogle (Wj1

m)

j

j = x isin選項編號集合|length(Wx1m) = L

(4-12)

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 42: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

33

以下範例題目如下(A)是標準答案

我國天然 ___ 不多礦產種類只有煤和石油

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為

我國 天然 資源 不 多 礦產 種類 只有 煤 和 石油

以下範例當 m=3時以下 4個選項在長度 3的情況都搜尋得到結果

W113=ldquo我國天然資源rdquo google(W11

3)= C(W113)= 7290

W213=ldquo我國天然材料rdquo google(W21

3)= C(W213) =10

W313=ldquo我國天然產品rdquo google(W31

3)= C(W313)= 6

W413=ldquo我國天然原料rdquo google(W41

3)= C(W413)= 5240

則T33=7290+10+6+5240=12546

定義 Adjust(119882119886119898)

Adjust(Wam) = google(Wa

m)Tm length(Wam) (4-13)

Adjust(Wam)是一調整值它使 Google搜尋結果數對正答力產

生些微影響使不同選項同length(Wam)的正答力分出高低以下範

W113的正答力調整值=Adjust(W11

3)=Adjust(ldquo我國天然資源rdquo)

=google(W113)T3 length(W11

3) = google(W113)T3 3=7290 12546

= 05810617

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 43: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

34

W213的正答力調整值=Adjust(W21

3)=Adjust(ldquo我國天然材料rdquo)

=google(W213)T3 length(W21

3) = google(W213)T3 3= 6 12546

= 000047824

W313的正答力調整值=Adjust(W31

3)=Adjust(ldquo我國天然產品rdquo)

=google(W313)T3 length(W31

3)=google(W313)T3 3=6 12546

=00004782

W413的正答力調整值=Adjust(W41

3)=Adjust(ldquo我國天然原料rdquo)

=google(W413)T3 length(W41

3)=google(W413)T3 3=5240 12546

=0417663

如果沒有一樣的length(Wam)則 Adjust(Wa

m)=1

定義部份正答力119865(1198821119898)

F(W1m) = Score(length(W1

m)) minus 1 + Adjust(W1m) (4-14)

首先Score(length(W1m))以字串長度來計分

「minus1 + Adjust(W1m)」是一個調整值此部份是因為當不同選項有相

同結果長度時它們的分數也會一樣此時就需要調整值來調整大小

使「結果數」較大的選項分數能提高以下範例

F(W113) = F(ldquo我國天然資源rdquo)

= Score (length(W113)) minus 1 + Adjust(W11

3)

=2-1+05810617=15810617

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 44: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

35

F(W213) = F(ldquo我國天然材料rdquo)

= Score (length(W213)) minus 1 + Adjust(W21

3)

=2-1+000047824=1 00047824

F(W313) = F(ldquo我國天然產品rdquo)

= Score (length(W313)) minus 1 + Adjust(W31

3)

=2-1+00004782=10004782

F(W413) = F(ldquo我國天然原料rdquo)

= Score (length(W413)) minus 1 + Adjust(W41

3)

=2-1+0417663=1 417663

選項正答力

選項正答力 =sum119865(1198820119894)

119899

119894lt119896

(4-15) k=「選項」所在位置

n=句子最後一個詞的位置

利用本研究方法即可計算出包含該選項的句子的分數也就是

該選項的正答力以下範例

「資源」選項的正答力=F(ldquo我國天然資源rdquo)+F(ldquo我國天然資源不rdquo)

+F(ldquo我國天然資源不多rdquo)+F(ldquo我國天然資源不多rdquo)

+F(ldquo我國天然資源不多礦產rdquo)+F(ldquo我國天然資源不多礦產種類rdquo)

+F(ldquo我國天然資源不多礦產種類只有rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和rdquo)

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 45: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

36

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然資源不多礦產種類只有煤和石油rdquo)

=15810617+3+4+5+4+0+0+0+0+0+0= 17581062

「產品」選項的正答力= F(ldquo我國天然產品rdquo)+F(ldquo我國天然產品不rdquo)

+F(ldquo我國天然產品不多rdquo)+F(ldquo我國天然產品不多rdquo)

+F(ldquo我國天然產品不多礦產rdquo)+F(ldquo我國天然產品不多礦產種類rdquo)

+F(ldquo我國天然產品不多礦產種類只有rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

+F(ldquo我國天然產品不多礦產種類只有煤和石油rdquo)

=10004782+12266667+11932658+21932764+0+0+0+0+0+0+0=718165

44 方法比較

將 43節所設計的新方法和 42節舊有的方法相比本研究作了

以下的修改

1 本研究使用不限長度的 N-grams將整個字串直接輸入 Google

搜尋取得 count值不侷限在 Bigram或 5-gram例如王 老

闆 我 上 個 星期 訂是一個 8-gram 的字串以此方式增加

分析範圍

2 改用Google為N-gram count值的來源解決語料不足的問題

將所有 N-gram的字串利用 Google查詢並將搜尋結果數當成

Count值計算正答力的準確度就能提高

3 省去 backoff 的α參數設定問題改以字串的 N-gram 長度當

作計算正答力分數的依據例如王 老闆 我 上 個 星期 訂

的 N-gram長度是 8訂是答案選項原本可得 7分但是該

字串的搜尋結果數是0所以基於backoff的觀念改成老闆

我 上 個 星期 訂 字串長度是 7該片段的實際分數是 6分

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 46: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

37

也就是 score(length(王老闆我上個星期訂))=6

4 本研究所設計的新方法為符合計算本研究正答力的需求在

經過不斷的測詴與修改後由原本 Bigram Markov Chain方法

的 54準確度提升到本研究所設計之方法的 90但是離 100

準確還有 10的表示離實際可用方法可能還有一段距離需要

努力

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 47: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

38

5 第五章 評估

本章目的是評估本研究所設計之方法首先介紹用來測詴本方法

的 Benchmark接著介紹測詴結果最後分析評估結果

51 Benchmark

為了評估本研究所設計之方法的效果本研究以華測會公佈的

TOP-Huayu初中高級三個測驗的「詞彙語法」題及標準答案共 100

題 來檢驗本方法的準確率如表 5-1以提供客觀具有公信力的

評估結果初級及中級詞彙語法題分為詞彙語法二個題組詞彙題

重語意理解語法題重文法使用詳細評估資料請參考附錄一

表 5-1 詞彙語法題目及答案架構列表

等級 來源 題組 題數

初級 (華語文能力測驗初等模擬試題2003)

(華語文能力測驗初等模擬試題答案2003)

詞彙 20

語法 20

中級 (華語文能力測驗中等模擬試題2003)

(華語文能力測驗中等模擬試題答案2003)

詞彙 10

語法 20

高級 (華語文能力測驗高等模擬試題2003)

(華語文能力測驗高等模擬試題答案2003) 詞彙語法 30

總計

100

TOP-Huayu測驗中有些題目的設計是兩個空格如下範例

83 我希望麻煩__少好

(A)又hellip又hellip

(B)越hellip越hellip

(C)也hellip也hellip

(D)更hellip更hellip

由於本研究所設計的方法一次只能處理一個空格所以此類題目無法

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 48: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

39

直接以本方法處理故本評估將選項和中間文句組合成一個空格如

下範例 83 我希望麻煩____好

(A)又少又

(B)越少越

(C)也少也

(D)更少更

如此完成測詴且不影響評估的公正性若中間文句太長導致無法

取得測詴結果則改成以第一個空格為主如下範例答案是(C)

75____ 成功也好失敗也好我們 ____ 應該接受

(A) 即使 ___ 也

(B) 不但 ___ 還

(C) 不論 ___ 都

(D) 因為 ___ 而

改成如下範例

75____ 成功也好失敗也好我們都應該接受

(A) 即使

(B) 不但

(C) 不論

(D) 因為

52 測詴結果

本研究以 PHP電腦程式語言實作本方法將每一題詞彙語法題輸

入系統分析每題 4個選項的正答力並檢查最高正答力的選項是否

為正確答案進而找出 3個誘答選項藉此方式確認本方法所計算出

來的結果誘答選項的正答力確實會比答案選項低正確答案的正答

力確實會比誘答選項高所以實際應用時電腦出題系統所產生出來

的候選誘答選項如果極有可能是正確選項則該選項的正答力就會

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 49: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

40

比答案選項高就能正確判斷該選項不適合拿來當誘答選項

評估結果以準確率來表示首先統計被正確辨識的題目總數然

後除以總題數 100再換算成百分比就可以得到本系統分析正答

力的準確率準確率的計算公式如式 5-1測詴結果如表 5-2

準確率 = 正確辨識題數 總題數 times 100

(5-1)

表 5-2 測詴結果統計表

等級 題組 題數 答對

初級 詞彙 20 17

語法 20 16

中級 詞彙 10 10

語法 20 19

高級 詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90表示該方法所計算出來的正答力資訊

在篩選候選誘答選項的時候無法 100輔助華語文詞彙語法電腦出

題雖然比 421節「Bigram Markov Chain方法」的 54準確度高

出許多但是仍有 10題的錯誤表示離實際可用的方法可能還有一

段距離需要努力

53 分析評估結果

本節分析評估時答錯的題目錯誤原因分析如何達到更高的準確

率本節分成二個小節包含訊息量不足分析方法侷限本節術語

定義

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 50: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

41

1 「結果數」代表從 Google搜尋後得到的搜尋結果數

2 「字串」指選項和部份題幹組成的可得結果字串該組字串輸入

到 Google搜尋後可以得到 1以上的搜尋結果數例如句子是

王老闆我上個星期訂的書來了沒有

則「字串」包含

老闆我上個星期訂的

上列字串可得到 10個 Google搜尋結果本研究所列字串前文不

能再加長例如下列相似字串Google搜尋結果數是 0

王老闆我上個星期訂的

本節詳細說明每一題答錯的題目正答力分析過程及原因包含題

目正答力搜尋 Google字串片段正答力以下說明資料呈現方

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 51: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

42

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

圖 5-1 答錯題目分析過程資料呈現說明

531 原因一訊息量不足

圖 5-2的初 52題「送」和「接」二個選項的正答力很接近

在「送」選項部份最長字串只有

了我要到機場去送

我要到機場去送他

在「接」選項部份也只有

了我要到機場去接

標準

答案

本方法計算正答力最高的選項不是

標準答案則「答錯 X」

詞彙語法

題目

第二個選項

的正答力計

算過程

最高正答力

片段正答力

利用 Google 搜

尋此字串 搜尋結果數

「初 52」代表華語文能力測驗中等試題第 52 題若「高」

則代表華語文能力測驗高等試題「中」為中等

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 52: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

43

我要到機場去接他

二個字串兩個選項的字串一樣長但是「接」的字串的結果數比較

多所以正答力比較高「送」和「接」都是及物動詞可以說是反

義詞所以這題是考語意理解需參考「回國」此關鍵詞才能推論

是要「送」還是「接」光以字串頻率來計算很難解決語義的問題

而本方法只能分析部份前文故歸類為訊息量不足可考慮加上「送」

「接」等詞頻訊息

初 52 答錯 X

我的日本朋友要回國了我要到機場去 ____ 他

T (A)送 = 19652381

(B)接 = 21347619

(C)見面 = 7144233

(D)再見 = 5855767

了我要到機場去送 2 62857143

我要到機場去送他 2 61666667

我要到機場去送他 2 72

了我要到機場去接 5 67142857

我要到機場去接他 10 68333333

我要到機場去接他 8 78

到機場去見面 8000 29996251

去見面他 92700 15718692

去見面他 93700 25727384

到機場去再見 3 20003749

去再見他 69400 14281308

去再見他 69900 24272616

圖 5-2 初等 TOP-Huayu測驗詞彙語法第 52題答錯過程分析

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 53: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

44

圖 5-3的初 54題「作業」的字串較「工作」及「課本」短且結

果數少故正答力較低本方法只能分析部份前文故歸類為訊息量

不足這題可能要以詞群概念來解釋「老師」給「作業」的關係比

「老師」給「工作」的關係來得緊密

初 54 答錯 X

每次上完課老師都會給我們一些 ____ 帶回家做

(A)課文 = 11181818

(B)課本 = 14318424

(C)工作 = 18351224 (最高正答力)

T (D)作業 = 14148534

給我們一些課文 6 3

課文帶回 4120 1

課文帶回家 5 2

課文帶回家做 1 20909091

課文帶回家做 1 30909091

都會給我們一些課本 1 45

一些課本帶回 34 10002091

一些課本帶回家 5 2000033

課本帶回家做 10 29090909

課本帶回家做 10 39090909

都會給我們一些工作 1 45

一些工作帶回 158000 19715066

一些工作帶回家 147000 29701369

一些工作帶回家做 28800 39442623

一些工作帶回家做 33400 49653179

會給我們一些作業 6 4

一些作業帶回 4600 10282844

一些作業帶回家 4520 20298301

一些作業帶回家做 1700 30557377

一些作業帶回家做 1200 40346821

圖 5-3 初等 TOP-Huayu測驗詞彙語法第 54題答錯過程分析

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 54: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

45

圖 5-4的初 61題「認得」的字串比「記得」及「知道」短且

結果數少而且本題是考詞彙語意本方法只能分析部份前文故歸

類為訊息量不足本題選項的語義差別非常細微電腦也很難判斷

初 61 答錯 X

他比以前胖了很多剛看到他的時候我差一點兒不 ____ 他了

(A)記得 = 11796235

T (B)認得 = 8441154

(C)認出 = 7221165

(D)知道 = 12541446 (最高正答力)

我差一點兒不記得 1 5

不記得他 22300000 16629013

不記得他了 10800000 20666667

不記得他了 10800000 30666667

差一點兒不認得 2 22857143

不認得他 3900000 11159334

不認得他了 3200000 20197531

不認得他了 3200000 30197531

不認出 11200000 1

不認出他 7440000 12211653

認出他了 51600000 2

認出他了 51600000 3

差一點兒不知道 5 27142857

一點兒不知道他 4 3

不知道他了 148000000 29135802

不知道他了 148000000 39135802

圖 5-4 初等 TOP-Huayu測驗詞彙語法第 61題答錯過程分析

圖 5-5的高 79題本題考兩個詞合用的情況使用本評估方法

的組合詞句則 4個選項都找不到字串故改以第一個詞及前半部句子

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 55: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

46

測詴每個選項的字串如下

____ 能 不斷 累積 經驗 的 人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題「凡是」選項的字串較「只要」短且結果

數較其它選項少故歸類為訊息量不足此為句型題如果計算搭配

關係可能效果較好所以字串「只要」「才能」的搭配關係不高

高 79 答錯 X

___ 能不斷累積經驗的人 ___ 開創自己的事業

T (A)凡是 ___ 都能 = 1034816

(B)既然 ___ 就能 = 1140549

(C)除了 ___ 還得 = 1193033

(D)只要 ___ 才能 = 9631602

凡是 能 2380000 0034815682

凡是 能 不斷 3 10000007

既然 能 4860000 0071094207

既然 能 不斷 289000 10694544

除了 能 9220000 01348742

除了 能 不斷 242000 10581591

只要 能 51900000 075921592

只要 能 不斷 3630000 18723858

只要 能 不斷 累積 9 3

只要 能 不斷 累積 經驗 3 4

圖 5-5 高等 TOP-Huayu測驗詞彙語法第 79題答錯過程分析

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 56: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

47

圖 5-6 的高 68 題「吹毛求疵」的字串較「投機取巧」短且

結果數少故正答力較低本方法只能分析部份前文故歸類為訊息

量不足

高 68 答錯 X

他 對 每 件 小 事 都 喜歡 ____ 總是 不停 地 抱怨 挑剔 別

(A)憤世嫉俗 = 5077120

(B)愁眉苦臉 = 5076923

T (C)吹毛求疵 = 7615188

(D)投機取巧 = 51230769

都 喜歡 憤世嫉俗 4 10000985

都 喜歡 憤世嫉俗 4 20000985

喜歡 憤世嫉俗 總是 1 20769231

喜歡 愁眉苦臉 729 1

喜歡 愁眉苦臉 720 2

喜歡 愁眉苦臉 總是 1 20769231

都 喜歡 吹毛求疵 40600 19999015

都 喜歡 吹毛求疵 40600 29999015

喜歡 吹毛求疵 總是 8 26153846

事 都 喜歡 投機取巧 2 3

事 都 喜歡 投機取巧 2 4

喜歡 投機取巧 總是 3 22307692

投機取巧 總是 不停 1 3

投機取巧 總是 不停 地 1 4

投機取巧 總是 不停 地 抱怨 1 5

投機取巧 總是 不停 地 抱怨 1 6

投機取巧 總是 不停 地 抱怨 挑剔 1 7

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 8

投機取巧 總是 不停 地 抱怨 挑剔 別人

1 9

圖 5-6 高等 TOP-Huayu測驗詞彙語法第 68題答錯過程分析

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 57: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

48

圖 5-7的高 74題「儘管」選項的結果數較「不管」少故歸類

為訊息量不足此為句型題如果計算搭配關係可能效果較好所以

字串「不管」「也」的搭配關係不高

高 74 答錯 X

____ 他 有 過失 你 也 犯不著 當眾 給他 難堪 吧

(A)不僅 = 1027001

(B)不管 = 1912474

T (C)儘管 = 1603796

(D)既然 = 1456729

不僅 他 662000 0014723544

不僅 他 有 931000 10122773

不管 他 19800000 044037187

不管 他 有 35800000 14721024

儘管 他 14400000 032027045

儘管 他 有 21500000 12835252

既然 他 10100000 022463414

既然 他 有 17600000 12320951

圖 5-7 高等 TOP-Huayu測驗詞彙語法第 74題答錯過程分析

因為本方法是嚴格分析前後文很容易發生語料不足的問題而

且本研究所用的 Google 已經是相當龐大的語料來源仍然發生此問

題表示需考慮其它計算語言學方法例如利用選項詞頻訊息作為判

斷的附加資訊或加入搭配詞技術詞群概念可能效果較好對語義

型問題來說單單只以字串長度來計算很難解決語義的問題

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 58: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

49

532 原因二分析方法侷限

圖 5-8的初 84題只有(C)和(D)的選項才有字串(D)的字串

是不合法的語句來自某討論區的留言問 TOP-Huayu考題並將錯誤

的選項組成句子放在討論區上故歸類為分析方法侷限應考慮「原

來」「以後」的搭配機率不高才能正確判斷

初 84 答錯 X

我 ____ 想秋天去也許太冷現在決定夏天去

(A)以前想秋天到海邊去玩以後 = 0

(B)從前想秋天到海邊去玩以後 = 0

T (C)本來想秋天到海邊去玩後來 = 78

(D)原來想秋天到海邊去玩以後 = 91 (最高正答力)

本來想rdquo 43200000 2

(省略)

本來想秋天到海邊去玩後來想想秋天去也許太冷現在決定夏天去

2 12

我原來rdquo 23700000 2

(省略)

我原來想秋天到海邊去玩以後想想秋天去也許太冷現在決定夏天去

2 13

圖 5-8 初等 TOP-Huayu測驗詞彙語法第 84題答錯過程分析

圖 5-9 的初 86 題在 Google 中找不到本題的選項字串只找

到 TOP-Huayu 的考卷電子檔尤其是合法句法的正確答案(A)在

Google 上也找不到雖然語序題的不合法句子原本就不容易在

Google 中尋得但正確答案「真貴了一點兒」也沒有只能解釋這

道題出得不好主要是「真」的使用不自然如果「太貴了一點兒」

就好多了本類問題的選項是以語序出題選項較長故歸類為分析

方法侷限

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 59: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

50

初 86 答錯 X

平常一個包子十五塊錢這個包子賣二十塊 ____

T (A)真貴了一點兒 = 1500000

(B)真貴一點兒了 = 1500000

(C)有一點兒真貴 = 1500000

(D)真貴有一點兒 = 1500000

真貴了一點兒 2 025

真貴了一點兒 2 125

真貴一點兒了 2 025

真貴一點兒了 2 125

有一點兒真貴 2 025

有一點兒真貴 2 125

真貴有一點兒 2 025

真貴有一點兒 2 125

圖 5-9 初等 TOP-Huayu測驗詞彙語法第 86題答錯過程分析

圖 5-10的初 88題在 Google中找不到本題的選項字串只找

到 TOP-Huayu的考卷電子檔尤其是合法句法的正確答案(C) 在

Google上也找不到且本類問題的選項是語序問題語序題的性質

不適合用本方法且選項較長故歸類為分析方法侷限

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 60: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

51

初 88 答錯 X

沒有人知道 ____

(A)他回來是不是今天早上的 = 0266667

(B)是不是他回來今天早上的 = 0200000

T (C)他是不是今天早上回來的 = 0266667

(D)是不是今天早上他回來的 = 0266667

他回來是不是今天早上的 4 026666667

是不是他回來今天早上的 3 02

他是不是今天早上回來的 4 026666667

是不是今天早上他回來的 4 026666667

圖 5-10初等 TOP-Huayu測驗詞彙語法第 88題答錯過程分析

圖 5-11的中 71題「試試穿」的字串較「穿穿看」長故正答力

較低本方法只能分析部份前文故歸類為訊息量不足由於 Google

會自動省略標點符號「」及「」使搜尋結果不正確如下說明

「試試穿」的字串來自於 Google的搜尋結果

「中性打扮不適合你你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞不是我們要的合法字串使得

「試試穿」的正答力超過「穿穿看」

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 61: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

52

中 71 答錯 X

這 雙 鞋 看起來 很 適合 你 你 可以 ____

T (A)穿穿看 = 9000000

(B)試試穿 = 11000000

(C)試試看穿 = 7000000

(D)試穿穿看 = 1000000

你 你 可以 穿穿看 4 4

你 你 可以 穿穿看 1 5

適合 你 你 可以 試試穿 1 5

適合 你 你 可以 試試穿 1 6

你 可以 試試看穿 7100 3

你 可以 試試看穿 7100 4

試穿穿看 389000 1

圖 5-11 中等 TOP-Huayu測驗詞彙語法第 71題答錯過程分析

由於 Google 所搜尋到的網頁內容是由全世界人類所貢獻內

容未經審核故很容易發生語料錯誤而且 Google不考慮標點符號

使字串有不如預期的前後文可考慮改用大型新聞語料庫例如

Chinese Gigaword因為新聞語料是經審核的文章故不容易發生語

料錯誤的情況或可以搭配詞技術將搭配率不高的雙詞選項剃除

方能提高準確度

由於有些語序題的合法短句在 Google 上完全沒有而且選項較

長利用 Google 搜尋也較難得到結果故語序題的性質不適合用本

方法

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 62: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

53

6 第六章 結論及未來研究

61 結論

本研究設計一檢查候選誘答選項正答力之方法並利用全球資訊

網及 Google網頁搜尋為 N-gram的 count值來源計算華語文詞彙語

法題誘答選項的正答力藉此判斷候選誘答選項非最佳答案嘗詴解

決華語文詞彙語法電腦出題的篩選候選誘答選項問題測詴結果的準

確度從「Bigram Markov Chain方法」的 54不斷的修改以符合本

研究計算正答力的目的提升到 90但仍無法達到 100表示還

有許多地方需要改進測詴結果也可作為「華語文詞彙語法電腦出題」

的「篩選候選誘答選項」研究的參考基準供相同領域之研究參考與

比較

在計算語言學這門高深的學問中雖然還有數之不盡的方法可以

參考但是在未經完整的測詴評估前我們無法斷定何種方法可以用

來篩選候選誘答選項而且任何方法都需要漢語文法知識才能確保計

算過程及結果正確才有資格稱作是最好的方法本篇研究揭露出前

後文直接影響誘答選項正答力效果本研究的嚴格分析前後文方式具

有相當的價值我們不能忽略直接分析前後文對選項正答力的影響

本研究所設計的方法可應用在電腦產生誘答選項上檢查候選誘

答選項非最佳答案如圖 6-1為一誘答選項產生器(徐立人楊接期

2011)該軟體可產生初步的華語文詞彙語法的誘答選項圖中 No0

為答案正答力的彩色長條是以本方法計算用來比較有哪些詞彙的

正答力超過答案協助判斷哪些詞彙不適合當作誘答選項藉此輔助

華語文詞彙語法出題

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 63: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

54

圖 6-1 誘答選項產生器

資料來源徐立人楊接期(2011)

本評估方法以台灣華語文測驗委員會(以下簡稱「華測會」)所公

佈的 TOP-huayu詞彙語法 100題測詴以此測詴結果推論本方法實際

運用在華語文詞彙語法電腦出題時篩選候選誘答選項的準確率本

評估方法具有客觀性公信力及公開性因本評估所用的 TOP-huayu

是由國家級單位「華測會」以客觀嚴謹的方法製作並審核並公佈

在網路上任何人都可以從華測會的網站上下載測詴並和本研究

的方法比較單純使用這種評估方法本研究可以發現許多問題需要

改進並且已經作了許多修改所以本評估對本研究具有相當的輔助

效果

本研究以計算語言學的技術分析誘答選項的正答力提升電腦輔

助出題的實用性亦可做為詴題研發人員分析誘答選項的工具協助

製作華語文詞彙語法測驗以減少負擔衷心期望對台灣華語文能力測

驗能有所貢獻並將華語文推廣到全世界本研究也期盼能為華語文

測驗電腦出題領域抛磚引玉提供其他研究者一個新的研究方向讓

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 64: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

55

更多研究者一起為華語文電腦出題貢獻

62 未來研究

本研究所使用的測詴題庫由於地緣關係使用臺灣 TOP-Huayu

華語文能力測驗所以測詴結果不能一般化到其它的華語文能力測驗

例如 HSK本研究利用 Google 搜尋全球資訊網的語料取得 N-gram

count值由於全球資訊網的語料未經審核當真正用在分析詞彙語

法電腦出題之誘答選項的正答力時可能容許錯誤的語法Google

網頁搜尋的結果包含兩岸的中文網頁但是目前未看出中國大陸跟台

灣不同用語的影響未來可以使用更多詞彙語法題目測詴本方法才

能看出不同地方用語的影響

本研究的評估會因 Google 網頁搜尋的情況改變利用本方法取

得 Google 網頁搜尋結果時從國內發出 Request 和從國外發出

Request所取得的結果數不同另外Google搜尋結果也會隨著時間

而改變所以將來的測詴結果可能和本研究會有些微不同不能保證

本研究的評估結果 100重現未來研究比較時應考慮此問題由

於本研究使用舊版的 TOP-Huayu 詞彙語法為設計及測詴本方法的標

竿未來應考慮如何修改到新版的 TOCFL選詞填空使符合台灣華語

文能力測驗的實際需求

以電腦分析誘答選項的正答力是一門非常複雜的技術有許多面

向需要深入研究包含語意上及語法上不能只以計算語言學的角度

分析未來必須加入漢語語言學的知識結合詞性語法及句法剖析觀

念並且針對不同的詞彙語法詴題用不同的作法才能準確的分析正

答力提供電腦出題系統或詴題研發人員有用的資訊本方法除了應

用在電腦出題之外也可嘗詴應用在 e-learning 學生自學系統訂

正文章上另外也可嘗詴用在分析詞彙語法誘答選項誘答力上面

(Item Distractor Efficiency)因為以本方法所分析出來的正答力也

代表該選項跟前後文可能的搭配用法顯示出 correlation故可嘗詴

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 65: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

56

用在誘答力上

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 66: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

57

參考文獻

1 中文文獻

柯華葳(2004)華語文能力測驗編製研究與實務台北遠流

國家對外漢語教學領導小組辦公室漢語水平考試部(1992)漢語水平詞彙與漢

字等級大綱北京北京語言學院出版社

張莉萍(2002)華語文能力測驗理論與實務台北師大書苑

郭生玉(2004)教育測驗與評量台北精華

曹逢甫(2004)曹序載於柯華葳(主編)華語文能力測驗編製研究與實務

( 11-12 頁)台北遠流

童國倫潘奕萍(2009)研究資料如何找Google It台北五南

陳慶龍(2006)可提供語意搜尋之部分知識建構(碩士論文國立成功大學

台南)

陳柏熹(2010)電腦化適性測驗的題庫建置載於吳清山(主編)測驗及評量

專論文集題庫建置與測驗編製(205-231 頁)台北國家教育研究院籌備

余民寧(2010)測驗建置流程及新概念載於吳清山(主編)測驗及評量專論

文集題庫建置與測驗編製(79-99 頁)台北國家教育研究院籌備處

Hsu O L JYang J C (2011)「一個基於語言模型之華語文詞彙語法誘答選

項正答力的計算方法」第十五屆全球華人計算機教育應用大會

GCCCE2011 論文集2 冊(1262-1266 頁)中國杭州浙江大學

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 67: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

58

余坤庭陳劭茹林宗璋周中天(2009)「華語文電腦化口語測驗系統設計與

實踐」第六屆全球華文網路教育研討會台北市

洪小雯(2009)「對外漢語測驗克漏字(完形測驗)文本分析初探」2009 年全

美中文教師學會年會(ACTFL)美國聖地牙哥

洪豪哲林孟君劉育隆郭伯臣(2010)「以 CEFR 為基礎之華語閱讀測驗

系統適性化機制之建立」2010 電腦與網路科技在教育上的應用研討會

台北市

徐立人楊接期(2011)「華語文選擇克漏字測驗之誘答選項產生器初探-利用

Google 計算誘答選項的正答力」載於陳俊光(主編)第七屆全球華文

網路教育研討會 ICICE2011 論文集光碟(345-354 頁)台北市中華民國

僑務委員會

張國恩陳學志鄭錦全宋曜廷蔡雅薰周中天(2010)「能力導向之全方

位華語學習--能力導向之全方位華語學習(23)」專題研究計畫 NSC

98-2631-S-003-001-行政院國家科學委員會

張莉萍(2007)「華語文能力測驗(TOP-Huayu)發展現況」2007 年「外語能

力測驗之動向與展望」國際學術研討會台北市

張莉萍陳鳳儀(2006)「華語詞彙分級初探」第六屆漢語辭彙語義學研討會

會後論文集(250-260 頁)新加坡新加坡中文與東方語言信息處理學會

出版

張莉萍陳鳳儀(2008)「能力考試與學習之間的關係」2008ACTFL 年會美

國佛羅里達州

陳懷萱鄧智生(2003)「線上華語文能力測驗之實驗與結果分析」第三屆 ICICE

全球華文網路教育研討會台北市

鹿士義余嘉元(2003)「當前 HSK 中若干值得進一步研究的課題探討」漢

語學習453-58

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 68: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

59

藍珮君(2007)「基礎華語文能力測驗與歐洲共同架構的對應關係」台灣華文

教學學會會刊總第三期(2007 年第二期)39-47

國家華語測驗推動工作委員會(2009)統計資料取自

httpwwwsc-toporgtwchinesereportphp

第一套 HSK 模擬題(2005)HSK 中心2011 年 4 月 22 日取自

httpwwwhskorgcnintro_sampleaspx

華語文能力測驗中等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_intpdf

華語文能力測驗中等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708int_answerpdf

華語文能力測驗初等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_baspdf

華語文能力測驗初等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708bas_answerpdf

華語文能力測驗高等模擬試題(2003)國家華語測驗推動工作委員會2010 年

12 月取自

httpwwwsc-toporgtwdownloadmock0708mock_test_2_advpdf

華語文能力測驗高等模擬試題答案(2003)國家華語測驗推動工作委員會2010

年 12 月取自

httpwwwsc-toporgtwdownloadmock0708adv_answerpdf

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 69: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

60

2 英文文獻

Bensoussan M amp Ramraz R (1984) Testing EFL reading comprehension using a

multiple-choice rational cloze Modern Language Journal 68(3) 230-239

Cai D Cui H Miao X Zhao C amp Ren X (2004) A Web-based Chinese

automatic question answering system Paper presented at the Computer and

Information Technology 2004 CIT 04 The Fourth International Conference

on

Chen CY Liou HC amp Chang J S (2006) FAST an automatic generation system

for grammar tests Proceedings of the COLINGACL on Interactive

presentation sessions Sydney Australia

Chen KJ amp Bai M H (1998)Unknown Word Detection for Chinese by a

Corpus-based Learning Method International Journal of Computational

linguistics and Chinese Language Processing 3 27-44

Council of Europe (2001) A Common European Framework of Reference for

Language Learning Teaching AssessmentCambridge University Press

Figueroa A Neumann G amp Atkinson J (2009) Searching for Definitional

Answers on the Web Using Surface Patterns Computer 42(4)

Goodman J T (2001) A bit of progress in language modeling Computer Speech amp

Language 15(4) 403-434 doi 101006csla20010174

Goto T Kojiri T Watanabe T Iwata T amp Yamada T (2010) Automatic

Generation System of Multiple-Choice Cloze Questions and its Evaluation

Knowledge Management amp E-Learning An International Journal (KMampEL)

2(3) 210

Huang Y P Chiu H W Chuan W P amp Sandnes F E (2010) Discovering fuzzy

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 70: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

61

association rules from patients daily text messages to diagnose melancholia

Paper presented at the Systems Man and Cybernetics (SMC) 2010 IEEE

International Conference on

Jurafsky D amp Martin J H (2009) Speech And Language Processing An

Introduction to Natural Language Processing Computational Linguistics and

Speech Recognition 2E Upper Saddle River NJ Prentice-Hall

Kilgarriff A (2007) Googleology is bad science Computational Linguistics 33(1)

147-151

Liu C L Wang C H amp Gao Z M (2005) Using Lexical Constraints to Enhance

the Quality of Computer-Generated Multiple-Choice Cloze Items

International Journal of Computational Linguistics and Chinese Language

Processing 10(3) 303-328

Ma WY amp Chen KJ (2003) Introduction to CKIP Chinese word segmentation

system for the first international Chinese Word Segmentation Bakeoff

Proceedings of the second SIGHAN workshop on Chinese language

processing - Volume 17 Sapporo Japan

MercoPress (2010) Forty million world-wide learning Chinese at Confucius

Institutes ndash MercoPress Retrieved Jan 20 2011 from the World Wide Web

httpenmercopresscom20100721forty-million-world-wide-learning-chine

se-at-confucius-institutes

Mitkov R amp Ha L A (2003) Computer-aided generation of multiple-choice tests

Proceedings of the HLT-NAACL 03 workshop on Building educational

applications using natural language processing - Volume 2

Silye M F amp Wiwczaroski T B (2002) A Critical Review of Selected Computer

Assisted Language Testing Instruments Retrieved Jan 20 2011 from the

World Wide Web wwwdatehuacta-agraria2002-01ifekete1pdf

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 71: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

62

Sumita E Sugaya F amp Yamamoto S (2005) Measuring non-native speakers

proficiency of English by using a test with automatically-generated

fill-in-the-blank questionsProceedings of the second workshop on Building

Educational Applications Using NLP Ann Arbor Michigan

Taylor W (1953) Cloze procedure a new tool for measuring readability Journalism

quarterly 30 415ndash433

Wang H P Kuo B C amp Chao R C (2010) A Multidimensional Computerized

Adaptive Testing System for Enhancing the Chinese as Second Language

Proficiency Test Paper presented at the The 9th International Conference on

EDUCATION and EDUCATIONAL TECHNOLOGY Iwate Japan

Yang Y C (2006) Web-Based Semantic Processing for Self-Paced Language

Learning and Assessment(Master thesis National Tsing Hua University)

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 72: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

63

附錄 詳細評估資料

本附錄將詳細說明每一題的正答力分析過程包含題目正答力

搜尋 Google字串片段正答力由於資料龐大本研究將全部

TOP-Huayu詞彙語法題共 100題的完整評估資料以電子檔形式存放於

網路供下載查詢下載網址為

httpthesisolifeorga1pdf

本章僅列出部份資料以下說明資料呈現方式

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

本研究計算出來

的選項正答力分

數越高「」越多

標準

答案

正答力最高的選項是標準答案則「答對 V」反之「答錯 X」

(搜尋結果數) (該片段正答力) 利用 Google 搜

尋此字串

詞彙語法

題目

第二個選項

的正答力計

算過程

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 73: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

64

1 初級詞彙語法

51 答對 V

王老闆我上個星期 ____ 的書來了沒有

(A)約 = 13024315

(B)點 = 17299404

T (C)訂 = 37635632

(D)求 = 17040648

我上個星期約 9340 49658738

我上個星期約的 10 50178253

約的書 69000 10406121

約的書來 2 2000004

我上個星期點 6 40006205

我上個星期點的 547 59750446

點的書 1630000 19593879

點的書來 184000 23643507

點的書來了 1 30000006

老闆我上個星期訂 3 6

老闆我上個星期訂的 3 7

我上個星期訂的書 9 7

訂的書來 321000 26356335

訂的書來了 1740000 39999989

訂的書來了沒有 847 5

訂的書來了沒有 6 6

我上個星期求 324 40335057

我上個星期求的 4 50071301

星期求的書 1 3

求的書來 6 20000119

求的書來了 1 30000006

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 74: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

65

2 中級詞彙語法

51 答對 V

我國天然 ____ 不多礦產種類只有煤和石油

T (A)資源 = 17581062

(B)材料 = 5614006

(C)產品 = 7181650

(D)原料 = 5623282

我國天然資源 7290 15810617

我國天然資源不 1230 3

我國天然資源不多 9 4

我國天然資源不多 9 5

資源不多礦產 5 4

我國天然材料 10 10007971

天然材料不 323000 12266667

材料不多 3530000 11932658

材料不多 3530000 21932764

我國天然產品 6 10004782

天然產品不 908000 1637193

產品不多 14100000 17719682

產品不多 14100000 27720105

我國天然原料 5240 1417663

天然原料不 194000 11361404

原料不多 635000 10347659

原料不多 634000 20347131

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519

Page 75: 基於全球資訊網的華語文詞彙語法誘答選 項正答力計算方法 徐立人

66

3 高級詞彙語法

51 答對 V

這件工程要儘快進行要是 ____ 了進度就無法在年底前完成了

(A)延長 = 5438062

(B)延伸 = 4137972

T (C)延誤 = 11040029

(D)延續 = 4383937

要是延長 6670 12867584

要是延長了 4410 21558579

延長了進度 1530 19954457

要是延伸 2750 11182287

要是延伸了 485 20171408

延伸了進度 4 10026025

要是延誤 7750 133319

要是延誤了 20000 27068387

要是延誤了進度 31 4

延誤了進度就 2 3

要是延續 6090 12618229

要是延續了 3400 21201626

延續了進度 3 10019519