14
航測及遙測學刊 第十三卷 第一期 43-56 民國 97 3 Journal of Photogrammetry and Remote Sensing Volume 13, No.1, March 2008, pp. 43-56 43 以 Boosting 法改進監督式分類於水稻田樣本特性之 研究 楊龍士 1 陳慧欣 2 劉致亨 3 周天穎 4 資挖掘(Daa Miig)運用在衛星影像並結合機器學習理論可從大量資中發現知採用歸樹 (CART)法獲得水稻分知是應用範例之一雖然此方法仍需進行樣本選取可降樣本選取因對分 成果的影響如範圍小性不勻等因用機器學習集成方式 Bꝏꝏig可以解樣本重新選 取所造成的性變有於提升分成果準確度用 Bꝏꝏig 組合分準確度較之樣本分析並 獲得分精度較佳的樣本組合避重新取樣的問再合 CART 分法的使用可提昇分準確度 研成果顯示在分精度方面用 Bꝏꝏig 方法比傳統最大概似法及 CART 法分提昇了近5%及3% 關鍵詞:Boosting、資料挖掘、監督式分類、樣本特性 1. 前言 近年來在遙測領域已有多學者應用資挖掘 (Daa Miig)術進行資萃取達到發現知的 目標(坤2002Schaie e al, 2005)分歸 樹(CART, Claificaiꝏ ad Regeiꝏ Tee)不僅 用視覺化樹狀圖現結果外可闡述釋規則 進而達到知發現的目的在進行衛星影像分 選取樣本不僅需要考量是具備符合實地 物的光資外需要考量光中的許多不確定 性(ceai)及模糊不清(age)等因CART 與 監督式分法相同需要選取練樣亦受到上述 的情所影響而 Schaie(1990)所提出的 Bꝏꝏig 演算法則可以解樣本選擇問故本研結合 Bꝏꝏig 演算法與 CART 演算法進行監督式分 樣本的調整合式可學習分器(leaable claifie)透過 Bꝏꝏig 演算法將混淆不清的樣 本進行多次迭代後使其錯誤率降至最產生 一組搭最佳的樣本組合再進行分以提最後 的分成果本研主要目的可分述如下 1.運用 CART 進行分透過樹狀圖獲得符合人 認知之知達到水稻分知發現的目標 從而善傳統最大概似法(Mai Likelihꝏꝏd Claificaiꝏ, MLC)中無法現釋規則的 點達到資集分析-機器學習的目標 2.結合學習集成的 Bꝏꝏig 演算法以善學習過 程中模糊不確定的樣本分進而提昇分成果 的精度 2. 文獻回顧 在以往衛星影像分中傳統的監督式分主 要是用影像的統計性用計算樣徵的平 變異數及相性等加以建立模式進行分 或是增加理徵植生指標等屬性來擴大間 的異進而獲得最佳的分成果如蕭國鑫 (1998)透過 NDVIGIBI 及雷達影像分進行逐 像元式及域式分探何種生長期的影像組合 才 可 得 到 最 佳 分 成 果 政 (2004) 用 1 逢甲大學土地管理系教授,逢甲大學副校長 2 逢甲大學土地管理研究所碩士 3 逢甲大學土木及水利研究所博士班 4 逢甲大學土地管理系教授,GIS 研究中心主任 收到日期:民國 97 年 03 月 18 日 修改日期:民國 97 年 04 月 10 日 接受日期:民國 97 年 05 月 14 日

43-56 97 Volume 13, No.1, March 2008, pp. 43-56 以 ...航測及遙測學刊 第十三卷 第一期 第43-56頁 民國97年3月 Journal of Photogrammetry and Remote Sensing Volume

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

  • 航測及遙測學刊 第十三卷 第一期 第 43-56頁 民國 97年 3月 Journal of Photogrammetry and Remote Sensing

    Volume 13, No.1, March 2008, pp. 43-56

    43

    以 Boosting 法改進監督式分類於水稻田樣本特性之

    研究

    楊龍士 1 陳慧欣 2 劉致亨 3 周天穎 4

    摘 要

    資料挖掘(Data Mining)運用在衛星影像並結合機器學習理論,可從大量資料中發現知識。採用迴歸樹

    (CART)法獲得水稻分類知識是應用範例之一雖然此方法仍需進行樣本選取,但可降低樣本選取因素對分

    類成果的影響,如範圍狹小,特性不均勻等因素。利用機器學習集成方式 Boosting,可以解決樣本重新選

    取所造成的特性改變,有助於提升分類成果準確度。利用 Boosting 組合分類準確度較差之樣本,分析並

    獲得分類精度較佳的樣本組合,避免重新取樣的問題,再配合 CART 分類法的使用,可提昇分類準確度。

    研究成果顯示,在分類精度方面利用 Boosting 方法比傳統最大概似法及 CART 法,分別提昇了近 5%及 3%。

    關鍵詞:Boosting、資料挖掘、監督式分類、樣本特性

    1. 前言

    近年來在遙測領域已有多學者應用資料挖掘

    (Data Mining)技術進行資訊萃取,達到發現知識的

    目標(呂坤哲,2002,Schapire et al, 2005)。分類迴歸

    樹(CART, Classification and Regression Tree)不僅利

    用視覺化樹狀圖呈現結果外,更可闡述判釋規則,

    進而達到知識發現的目的。在進行衛星影像分類

    時,選取樣本時不僅需要考量是否具備符合真實地

    物的光譜資訊外,更需要考量光譜中的許多不確定

    性(uncertainty)及模糊不清(vague)等因素。CART 與

    監督式分類法相同需要選取訓練樣區,亦受到上述

    的情形所影響;而 Schapire(1990)所提出的 Boosting

    演算法則可以解決樣本選擇問題,故本研究結合

    Boosting 演算法與 CART 演算法,進行監督式分類

    樣本的調整,配合弱式可學習分類器(learnable

    classifier),透過 Boosting 演算法將混淆不清的樣

    本,進行多次迭代後,使其錯誤率降至最低,產生

    一組搭配最佳的樣本組合,再進行分類以提高最後

    的分類成果。本研究主要目的可分述如下:

    1.運用 CART 進行分類,透過樹狀圖形獲得符合人

    類認知之知識,達到水稻分類知識發現的目標。

    從而改善傳統最大概似法(Maximum Likelihood

    Classification, MLC)中,無法呈現判釋規則的缺

    點,達到資料集分析-機器學習的目標。

    2.結合學習集成的 Boosting 演算法,以改善學習過

    程中模糊不確定的樣本分配,進而提昇分類成果

    的精度。

    2. 文獻回顧

    在以往衛星影像分類中,傳統的監督式分類主

    要是利用影像的統計特性,利用計算樣區特徵的平

    均值、變異數及相關性等加以建立模式進行分類,

    或是增加紋理特徵,植生指標等屬性來擴大類別間

    的差異,進而獲得最佳的分類成果。如:蕭國鑫

    (1998)透過 NDVI、GI、BI 及雷達影像分別進行逐

    像元式及區域式分類,探討何種生長期的影像組合

    才 可 得 到 最 佳 分 類 成 果 。 吳 政 庭 (2004) 利 用

    1逢甲大學土地管理系教授,逢甲大學副校長

    2逢甲大學土地管理研究所碩士

    3逢甲大學土木及水利研究所博士班

    4逢甲大學土地管理系教授,GIS 研究中心主任

    收到日期:民國 97 年 03月 18 日

    修改日期:民國 97 年 04月 10 日

    接受日期:民國 97 年 05月 14 日

  • 航測及遙測學刊 第十三卷 第一期 民國 97 年 3月

    44

    QuickBird 影像結合半變異元紋理影像,分別計算

    單波段及複合波段的四項紋理指標,再進行監督式

    影像分類。施奕良(2006)結合半變異元及碎形幾何

    紋理與光譜影像,分別透過主成份分析及粗糙集萃

    取出影像中的屬性資訊,再以知識表達方式以知識

    庫進行分類。

    除此之外,傳統的影像分類過程中較無法直接

    了解其判釋規則,故現今有許多學者利用空間資料

    挖掘技術來取代傳統影像分類方式,決策樹是近年

    常見的方法之一。

    呂坤哲(2002)藉由決策樹進行阿拉伯數字及英

    文字母影像識別,傳統影像處理的方法大多偏向處

    理而非分析,透過此方法可快速且有效地進行影像

    挖掘及處理,最後可獲得影像判釋規則樹狀圖。

    Yang et al. (2003)使用決策樹中的 CART 演算法,進

    行高光譜影像精準農業分類,找出自然參數(如穀

    物覆蓋,土壤溼度及沃度等),最後加入 Logistic 迴

    歸演算法進行分類成果比較,發現決策樹得到的成

    果優於 Logistic 迴歸之成果。劉小平等(2004),提出

    基於像元信息分解和決策樹相結合的遙感自動分

    類方法,運用此方法將水體、植被、水泥地、土壤

    四類地物區分出來,並運用倒傳遞類神經分類、形

    狀指數萃取、及光譜特徵萃取等方式結合分類,並

    展開外業調查,最後結合調查數據與最大概似分類

    法進行比較。蔡博文(2005)為建立台灣山地地區土

    地利用時序資料庫,首先需藉由影像分類技術萃取

    山地地區的土地利用圖,故採用決策樹 C5.0 演算

    法進行分類,利用陳有蘭溪 SPOT 的影像、光譜轉

    換資訊 VI 及 NDVI,和空間輔助資料包含高度及坡

    度和道路中心線,最後再以航照為地真檢核資料,

    透過決策樹演算後可分辨旱作、建地、林木地、果

    園、水體、河道、道路及崩塌地,提昇了分類成果

    並將判釋準則知識化,進而獲得各類地物分類規

    則。

    由於分類過程具有相當多不確定性的因素,近

    年來許多學者均投入此領域的探討,不確定性因素

    主要是來自於人類認知與實際數據上的差異。在傳

    統衛星影像分類萃取土地覆蓋資訊的過程中,透過

    建立地物與影像光譜資訊間模式的方式來代表真

    實地物,並據以進行影像分類,但也常常因為遙感

    探測數據不確定性因素存在,造成影像分類中誤

    授、漏授的情形產生。在遙感探測圖像辨識分類的

    基本問題中,假定一個具有 n 個波段的光譜資料分

    佈,在此資料中要找出在每一個波段中 m 個分類

    的決策界限,而這個界限適當與否是利用最大波段

    數及最小錯誤量加以評估(Jensen,2005)。以圖一為

    例,以單一波段中包含兩類別為例,可以看到一般

    在單一波段的光譜資料分佈,類別一與類別二的光

    譜分佈圖形,而其兩者光譜分佈斜線部份即表示為

    有潛在分類錯誤的地方。

    圖一 波段光譜資料分佈(Jensen, 2005)

    為改善傳統監督式分類目前所存在的諸多問

    題,已有多項研究正在進行,其中 Schapire(1990)

    提出 Boosting 驗證強式可學習方法,之後 Freund &

    Schapire(1996) 共 同 改 善 Boosting 演 算 法 提 出 了

    Adaboost (Adaptively adjusts Boosting),以解決不確

    定性的問題。Freund & Schapire(1996)配合三種分類

    器於 Boosting 與 Bagging,實驗後發現 Boosting 的

    成果明顯優於 Bagging。McIver&Friedl (2002)利用

    1995 年美國加州的 Landsat TM 和 AVHRR 影像,結

    合先驗知識以及運用 CART 於遙測影像,高解析力

    影像為低解析力影像之先驗機率,進行樣本優化,

    並配合決策樹分類法,可成功的將農作區之高估部

    份減少,並提昇整體的分類準確度。回顧上述的文

    獻中可得知,應用 Boosting 方法,確實可以提升分

    類之準確度。

    3. 研究範圍與資料特性

    本研究中主要所使用的影像材料是 2002 年 10

  • 陳慧欣、劉致亨、周天穎、楊龍士:以 Boosting 法改進監督式分類於水稻田樣本特性之研究

    45

    月 17 日 QuickBird 所拍攝的衛星全色態(Pan)及多光

    譜(MS)融合後影像,其影像大小 1002*1002 pixels,

    透過融合後其空間解析度從 2.8m 提昇至 0.7m。影

    像融合是將高解析度的全色影像(pan)的空間細節

    資訊與低解析度多光譜影像(MS)的彩色資訊相結

    合以產生高解析度的多光譜影像的技術。尤其是基

    於 GIS 的應用,既需要高的空間解析度也需要高的

    光譜解析度,因此就需要有一種有效的技術能將高

    解析度的全色影像與低解析度的多光譜影像組合

    成一個彩色影像,再以同時期的 2002 年水稻二期

    作的耕地坵塊圖及 2002 年 9 月拍攝的正射彩色航

    空像片為地真檢核輔助資料,其範圍位於台中縣大

    雅鄉內,土地使用包括建物、道路、林地、草地與

    水稻田等。

    本研究所採用的影像融合方式是主成份分析

    法(PCA)。PCA 需要應用原始影像內幅射解析度(色

    彩平衡),即為在輸入多光譜時與輸出多光譜時最

    接近原始影像的方法。此方法先以第一主成份的範

    圍將高解析度的影像拉伸,再取代第一主成份,因

    此在未執行反轉前,其統計直方圖是與多光譜的影

    像保持一致。PCA 融合的問題是空間資訊突出而色

    彩資訊較弱。其原因是被替代的第一主成分通常具

    有最大的方差。這種替代將使 pan 波段在融合影像

    中的效果最大,解決方案有:

    1.對主成分進行拉伸使其具有球形分佈。

    2.替換前將 pan 與 PC1 進行匹配。經由此種方式降

    低了主成份對多光譜資訊的影響,以利本研究的

    後續工作。

    3.1 地理空間範圍

    研究範圍是以行政區劃進行選取,以台中縣大

    雅鄉為主要範圍(圖二),矩形範圍之 TM2 地理座標

    位置左上坐標(214460.00, 2679209.30)及右下坐標

    (215160.70, 2678508.60),實證區內總面積約 50 公

    頃。實證區影像經由全色態及多光譜態影像進行融

    合,獲得空間解析度為 0.7 公尺的融合影像,如圖

    三。

    3.2 影像時間範圍

    研究調查主要對象為水稻田,由文獻研究中可

    獲知台中地區二期水稻分蘗盛期是國曆 9 月中旬

    至 10 月,在此時期的水稻土地覆蓋情形應屬於強

    的植生反應,而研究中所蒐集的衛星影像及航空照

    片的拍攝時間均屬於水稻分蘗盛期,符合 91 年水

    稻二期作生長期情形。研究所使用的地真檢核資料

    是民國 91 年二期作的耕地坵塊圖,與航照進行疊

    合後,發現在影像邊緣對位上有所差異,或是坵塊

    分割不符合現況,因此利用當期航照進行耕地坵塊

    圖定位及修正,如圖四。

    圖二 實證地區範圍圖

    圖三 實證區融合後影像

    圖四 91 年水稻二期作耕地坵塊圖

  • 航測及遙測學刊 第十三卷 第一期 民國 97 年 3月

    46

    4. 研究方法與流程

    影像監督式分類中,先由衛星影像中選取足以

    代表地物光譜特性的樣本點,將這些樣本進行訓

    練,再利用最短距離,最大概似法等進行分類。近

    來許多研究顯示增加分類的樣本特徵,可以解決由

    單純光譜影像中無法解決的問題,如常見的紋理資

    訊。透過地物間灰階值的差異計算,可將呈現均質

    光譜反應的水稻與光譜反應混雜的林地加以分

    離,進而提昇分類成果;除此之外,一些學者也採

    用光譜波段指標的計算,將各類別間的差異擴大,

    使類別與類別間更易分離,如:NDVI 及 Band ratio

    等。

    藉由增加特徵資訊來提高分類成果是一般的

    認知,其前題假設是每一個特徵皆為有效資訊,然

    而實際上並非如此,因為在多重資訊產生及導入過

    程的同時,也引發了很多不確定的因素,甚至引起

    成果降低的結果。除此之外,在傳統的分類下無法

    獲得並分析判釋知識是其重要問題。因此,透過決

    策樹 CART 資料挖掘方法即可達到知識表達的目

    標。加入 Boosting 法可以透過在訓練過程中,可針

    對樣本特性模糊、不確定的地方,透過調整樣本權

    重,改變樣本分配,來降低樣本訓練時的錯誤率。

    故本研究先增加影像的光譜特徵資訊及紋理

    特徵資訊,分別利用傳統的最大概似分類法,

    CART 決策樹分類,以及 CART 結合 Boosting 改善

    樣本學習過程進行分類,以避免在選擇訓練樣本時

    所產生的同質異譜、同譜異質及混合樣元等各項因

    素且解決分類情況中模糊不確定之處,最後再進行

    分類成果的探討,本研究的作業流程圖,如圖五。

    圖五 研究作業流程圖

  • 陳慧欣、劉致亨、周天穎、楊龍士:以 Boosting 法改進監督式分類於水稻田樣本特性之研究

    47

    4.1 光譜指標特徵萃取

    在 原 始 光 譜 影 像 中 , 以 本 研 究 所 採 用 的

    QuickBird 影像為例,其包含 B、G、R、IR 四個光

    譜波段,但是僅以四個光譜特徵進行分類,尚無法

    達到完全分類,在衛星影像應用於水稻田分類研究

    中多採用光譜指標,來增加水稻與非水稻的資訊,

    輔助分類成果達到有效分離的程度。因此本研究採

    用波段比(Band Ratioing, BR)及常態化差異植生指

    標(Normalized difference vegetation index, NDVI)增加

    影像光譜資訊以增加輔助資訊,BR 及 NDVI 的計

    算公式如下所示:

    4.1.1 波段比(BRBRBRBR)

    地表的坡度、坡向陰影或季節轉變而有不同的

    亮度值,而這些因素可能會阻礙影像判識或分類,

    波段比轉換的方式可以降低這些環境條件的影

    響;除了將環境因子的影響最小化之外,波段比也

    可以提供利於辨識土壤或植生的資訊,而非單一波

    段可以達成 (楊龍士及周天穎,2006) 。波段比公

    式,如式 1 所列。

    ( )R

    IRBR = (1)

    4.1.2 NDVI NDVI NDVI NDVI

    綠色植物因有吸收藍光、紅光及強烈反射外光

    之特性,可應用於植物資源之探測,判別植生反射

    量之多寡,經標準化過程,其植介於 1 ~ -1 之間,

    其為相對值,利於將植生於非植生分離開來,愈接

    近 1 的為植生,反之,則為非植生(魏曉萍,2003)。

    NDVI 公式,如式 2 所列。

    ( )RIR

    RIRNDVI

    +−

    = (2)

    4.2 紋理影像特徵萃取

    紋理是描述自然界事物的一種特徵,如:房屋

    的排列方式、樹木的年輪及牆壁的紋路等。從遙測

    影像判識、織布表面顯微影像分析及醫學上的電腦

    斷層掃描等實際應用可以看出,紋理應用非常廣

    泛。在大腦視覺領域中,人類透過肉眼進行影像識

    別,除了形狀、顏色等特性外,會再加入粗糙、排

    列、大小及紋理等主觀因素來加以判釋,因此識別

    的方式是整合各種不同的資訊進行研判分析的綜

    合成果;然而運用電腦進行類別判釋時,只單純利

    用光譜影像進行判釋,相形之下會產生資訊不足的

    現象。所以,紋理資訊及影像主要應用於補足純光

    譜分類之不足,以提升分類準確度。本研究即利用

    此資訊以補足影像分類資訊不足的現象,並輔助遙

    測影像在分類上的應用。

    陳晉徹(1993)運用紋理譜統計法分析相同紋理

    區塊中的像元,再應用區塊成長法進行影像匹配,

    其成果已可成功將航照以紋理區塊化後,再進行影

    像 匹 配 。 黎 瑋 (1998) 首 先 運 用 Gray Level

    Co-Occurrence Matrix(GLCM)進行紋理分析,將紋理

    影像與原始光譜影像結合,最後再運用模糊分類法

    (Fussy Supervised Classification)進行影像分類,其整

    體分類準確度高達 95.66%。沈育佳及林榮章,於

    1998 年及 1999 年分別運用空載多光譜掃描影像及

    衛星影像,運用 GLCM 進行都會區影像紋理之分

    析,期能建立紋理結構資料庫。施奕良(2006)除了

    將 QuickBird 光譜影像視為知識表達的一種方式

    外,再加入半變異元紋理和碎形幾何紋理特徵,以

    粗糙集合理論和主成份分析進行水稻知識的萃

    取。因此可得知,紋理資訊的應用或是紋理資訊與

    其他資訊結合應用均能提升影像分類及分類成果

    的準確度。

    在遙測影像判釋中,由於相異的地物類別會擁

    有不同的紋理資訊,相反的,同樣的地物類別就會

    具有相似的紋理資訊,所以如將紋理資訊加入到影

    像分類程序中,便可減輕類別間的混淆程度,並提

    高同類別的同質性,以減少分類誤判的機率(雷祖

    強等,2002)。現今紋理影像除了使用多元外,再

    加上種類眾多,本研究使用帶有最豐富紋理資訊之

    全色態影像作為計算之對象,利用半變異元函數中

    的方向半變異元法,萃取影像中單一波段的紋理特

    徵值。其原理為計算兩像元間之差值,再以取平方

    的方式以擴大其差異性。半變異元模型依據計算波

  • 航測及遙測學刊 第十三卷 第一期 民國 97 年 3月

    48

    段之不同,可分為「單波段紋理」與「多波段紋理」,

    其中方向半變異元(Direct Semivariogram)與絕對半

    變異元(Madogram)為計算單波段之模型,交叉半變

    異 元 (Cross Semivariogram) 與 虛 擬 半 變 異 元

    (Pseudo-Cross Semivariogram)則可計算兩波段間的

    紋理資訊(Chica-Olmo & Abaraca-Hernandez, 2000),

    其公式與敘述如下:

    (1) 方向半變異元

    一般傳統的半變異元模式可用方向半變異元

    模式來表達,如公式 3:

    ( )1 2( ) ( ) ( ))

    2 ( ) 1

    n h

    h DN x DN x hk k i k in h iγ ∑= − + =

    (3)

    (2) 絕對半變異元

    絕對半變異元與方向半變異元模型十分類

    似,但模型中半變異元值的計算方式則是以絕

    對值取代了平方。如公式 4 中所示:

    ( )1( ) ( ) ( )

    2 ( ) 1

    n h

    h DN x DN x hk k i k in h iγ ∑= − +

    = (4)

    其中 )(xDN k 、 )( hxDN k + 表示影像中兩像元

    的影像灰階值; )(hn 表配對數目;h 表示兩像

    元的相對距離, k 表示所使用的影像波段。

    (3) 交叉半變異元

    交叉半變異元可用來表達兩波段間相似性之

    關係,其定義為兩幅影像(j 與 k 波段)之交

    叉關係,如公式 5 所述:

    ( ) ( ) ( )1( )

    2 ( ) ( ) ( )1

    n h DN x DN x hj j j ihjk n h DN x DN x hi k i k i

    γ − + ×∑=

    − +=

    (4) 虛擬半變異元

    虛擬半變異元模式與交叉半變異元類似,皆是

    探討兩波段間紋理特性。虛擬半變異元模型的

    計算方式,是取 j波段中第 i個像元值,減去

    k 波段中距離第 i個像元 h距離的像元值後

    平方,其如公式 6 所示:

    ( ) 21( ) ( ) ( )

    2 ( ) 1

    n h

    h DN x DN x hjk j i k in h iγ ∑= − + =

    (6)

    4.3 最大概似分類法

    楊 龍 士 及 周 天 穎 (2000) 監 督 式 影 像 分 類 法

    (Supervised Classification),主要是將已知地面位置

    之真實資料的光譜特性為依據,進行影像其他未知

    空 間 資 訊 的 光 譜 型 式 辨 別 (Spectral Pattern

    Recognition),監督式分類法主要包括三個不同的處

    理 階 段 , 分 別 是 訓 練 資 料 取 樣 ( Training Data

    Sampling)、分類(Classification)及輸出。

    首先,在訓練資料取樣上,其目的在為每一種

    地表覆蓋種類定義其數值化光譜形式,此一步驟是

    針對影像上一些具代表性並確定其覆蓋型態類屬

    的位置;再進入分類階段,藉由計算各訓練樣區所

    含群體資訊之各光譜值統計值,依其計算結果對全

    影像各像元進行空間群落分析,每一像元再標上此

    一分類的名稱,稱之為分類;最後,就是將成果轉

    換成主題圖輸出。

    4.4 CARTCARTCARTCART

    由 Breiman et al.(1983)所提出的 CART 法,是基

    於樹狀結構產生分類和迴歸模型的過程,是一種產

    生二元樹的技術。CART 與 C4.5/C5.0 演算法的最

    大相異之處是其在每一個節點上都是採用二分

    法,也就是一次只能夠有兩個子節點,C4.5/5.0 則

    在每一個節點上可以產生不同數量的分枝。

    CART 模型適用於目標變數為連續型和類別

    型的變數,如果目標變數是類別型變數,則可以使

    用分類樹(classification trees),目標變數是連續型

    的,則可以採用迴歸樹(regression trees)。 其是利用

    Gini Index 針對數值型態屬性的變項來做分類。集

    合 T 包含 N 個類別的記錄,那麼其 Gini Index 演算

    法就是:(Dunham, 2002)

    2( ) 11

    ngini T p

    jj∑= −= (7)

    ip 為 j類別出理的頻率;如果集合 T 分成兩部分

    1N and 2N 。則此分割的 Gini 就是:

    1 2( ) ( ) ( )1 2

    N Ngini T TT gini ginisplit N N

    = +

    (5)

    (8)

  • 陳慧欣、劉致亨、周天穎、楊龍士:以 Boosting 法改進監督式分類於水稻田樣本特性之研究

    49

    提供最小 Ginisplit 就被選擇作為分割的標準(對於

    每個屬性都要經過所有可以的分割方法)。

    4.5 BoostingBoostingBoostingBoosting

    Boosting 由於各家學者翻釋不同,中文釋名除

    了普適提外,還有學習力的提升(侯昌成,2001)及

    皮匠法(趙民德,2001),而本研究為避免翻釋上的

    岐意,故採原文 Boosting。其基本概念是要找到許

    多比較粗糙的方法,會比找到單一且具有高預測能

    力之方法簡單且有效。因此 Schapire(1990)提出

    Boosting 驗證強式可學習方法,接著改善 Boosting

    演算法為 Adaboost (Adaptively adjusts Boosting),改

    善了 Boosting 實際演算的困難(Freund & Schapire,

    1996)。另外,在機械學習中 Boosting 是指對於一個

    要被學習的概念,可能已有一些預測規則,如

    h1,h2,...等,將這些預測規則加以組合形成新的預測

    規則 h,且比舊有規則 h1,h2…還好。此「加以組合」

    的方法,就稱為 Boosting。

    侯昌成(1991)提出合成分類器的理想,也就是

    學習集成。如圖六,所表示的三種分類器而言,理

    想狀態是將每種分類器錯誤的區段分離,如此,將

    這些分類器對的區段組合起來,則每次合成分類器

    的輸出選項都不會有錯誤。運用這樣的想法來達到

    降低錯誤率的效果,如果有 T 組學習樣本,經過學

    習可得到 T 個不同的分類器,則 T 組不同的分類

    器當然會有不同的結果,再用合成分類器的方法去

    選出結果。在只有一組學習樣本的時候,則可透過

    Boosting 與 Bagging 兩種方式來重抽樣本。其理想

    則是將以下三種分類器分類正確之結果加以組

    合,以改進分類成果。

    圖六:三種分類器中理想分類正確與分類錯誤的區

    段(侯昌成,1991)

    4.5.1 Boosting 與機器學習

    Boosting 可將學習集成的想法成功結合於機器

    學習中,將已知且成功解決的問題作為範例輸入電

    腦,機器通過學習範例而形成規則。更可分為以下

    幾個階段:

    � 學習器(Learner):機器學習得到的規則或是模

    型。

    � 樣本:所研究課題的實例,在二元分類中包

    含了正樣本(Positive)與負樣本(Negtive)。

    � 訓練樣本:採用某種方法,用已知屬性樣本

    作為輸入,得到相對應規則的過程。

    � 訓練集:由已知屬性的樣本組合而成的集

    合,為訓練過程的輸入資料。

    � 測試集:由未知屬性的樣本組合而成的集

    合,為測試過程的輸入資料。

    � 假設:學習器對樣本做出的判斷,是否符合

    需要判別的事實。

    在學習集成中,最有名的演算法為 AdaBoost,

    為一種統計最佳化樣本之方法,其利用弱學習理

    論,其會把分類正確提出來,將針對分類錯誤再次

    進行計算,以降低訓練樣本之誤差率,以提昇之後

    的分類準確度。如下所示(Schapire, 1999):

    假定 ( ) ( )mm yxyx ,, 11 K 當 { }1,1, +−=∈∈ YyXx ii

    起啟值 ( )m

    iDt1

    =

    對於 Tt ,,1K= :

    � 訓練啟始分配 tD

    � 假說 th : { }1,1 +−→X 有誤差率

    it Pr=ε ~ ( )[ ]1yxhD itt ≠

    � 選擇

    −=

    t

    tt ε

    εα

    1ln

    2

    1

    � 更新:

    ( ) ( )

    ×=−

    +

    t

    t

    e

    et

    tt

    Z

    iDiD

    α

    α

    1

    i f

    i f

    ( )

    ( )

    t i i

    t i i

    h x y

    h x y

    =

    ( ) ( )( )t

    titt

    Z

    xhyiDi

    α−=

    exp

    其中 Zt 是常態分配係數(所以 Dt+1 同樣是常

  • 航測及遙測學刊 第十三卷 第一期 民國 97 年 3月

    50

    態分配)輸出的最終假說:

    ( ) ( ( ) )

    1

    TH x s i g n h xt t

    t

    α= ∑=

    4.5.2 Boosting 演算法

    先設有一組訓練樣本共有m個,而 X 為 mx 的

    樣本屬性空間,Y 為 my 的樣本類別空間,而 my 為

    二元分類,所以其值分別為+1 與-1。再預設 Dt 分

    配中m個樣本初始的權重值為m1 ,另外,再透過

    T 次的迭代來改變樣本權重。

    在迭代的過程中,先在訓練的弱學習器為 Dt

    分配,並建立了弱假設 ht,即為預測目標函數,如

    何評估這個預設規則是否成立,以錯誤率(error

    rate, tε )值加以判斷,在弱學習的假設下,其必須比隨機猜測的正確率要來得高一點,所以 tε 必須小於 0.5,所以當弱假設條件 5.0>tε 時,則控制

    0,5.0 == tt αε 。 Adaboost 最主要的概念即針對先給定的弱學

    習器反覆學習,每次迭代的過程中, ( )D it 權重關

    係可發現其權重大小具有一定的規則(正確分類的

    權重為 tα− 無法正確分類的權重為 tα ),即將先前預測錯誤的樣本加重其權重,而對於先前預測對的

    樣本就減少其權重。如下所示:

    Ex.1

    5.1=tα

    448.0

    223.0

    5.1

    5.1

    ==

    == −−

    ee

    ee

    t

    t

    α

    α

    Ex.2

    0.2=tα

    389.7

    135.0

    0.2

    0.2

    ==

    == −−

    ee

    ee

    t

    t

    α

    α

    最後,透過 ( ) ( ( ))1

    TH x sign h xt t

    t

    α= ∑=

    ,將目標函數

    ( ) 0>xH 的歸為+1; ( ) 0=xH 的歸為+0; ( ) 0

  • 陳慧欣、劉致亨、周天穎、楊龍士:以 Boosting 法改進監督式分類於水稻田樣本特性之研究

    51

    圖七 水稻樣本分佈圖 圖八 非水稻樣本分佈圖 圖九 不確定性水稻樣本分佈圖

    圖十 均質水稻樣本局部放大圖 圖十一 不確定水稻樣本局部放大圖

    勻分佈於影像四周外,更可分為純淨水稻樣本與不

    確定性水稻樣本,在原始的監督式分類中,在樣本

    選擇上需要純淨均質為主要標準故大致分佈於坵

    塊中心,儘量避免不確定性高的樣本,指的是分佈

    於坵塊邊緣,在本研究中針對水稻此一地物分別選

    取了純淨均質的水稻樣本及不確定性高的樣本如

    圖十及圖十一。

    5.1.2 光譜特性分析

    由於一般光譜影像分類之成果,大多受其他植

    生類別影響,故在本研究中先進行光譜分析,除了

    以視覺化方式分別出純淨水稻及不確定性水稻

    外,本研究導入 Transformed Divergence(TD)分離度

    來檢視樣本,再同時考量平均值與變方的差異,計

    算出類別間之分離程度。預期將可判斷出分類之好

    壞程度。探討易混淆的類別分別為林地、草地及水

    稻等植生。TD 計算公式如式 9 所示。以 TD 分離

    度進行檢定,成果如表 1 所示。

    1 11 1 1 1(( )( )) (( )( - )( - ) )

    2 2

    2000(1 exp( ))8

    TD tr C C C C tr C Cij i j i j i j i j i j

    ijDTDij

    µ µ µ µ− − − −

    = − − + −

    −= −

    其中

    i 和 j:兩個類別的比較

    iC :i 類別的協變方矩陣

    iµ :i 類別的平均向量 tr:矩陣的跡(trace)—矩陣對角線總和

    表 1 QuickBird 影像 TD 分離度矩陣

    類別類別類別類別 水稻水稻水稻水稻 非水稻非水稻非水稻非水稻 不確定水稻不確定水稻不確定水稻不確定水稻

    水稻水稻水稻水稻 0 2000 595.641

    非水稻非水稻非水稻非水稻 2000 0 1974.58

    不確定水稻不確定水稻不確定水稻不確定水稻 595.641 1974.58 0

    依照 Jensen (2005)表示在 TD 類別分離度評估

    中,以 2000 為最佳的類別分離度,分離度大於 1900

    以上就具有不錯的類別分離度效果,小於 1700 則

    表示訓練樣區所選取的樣本對於類別分離的效果

    不佳。以成果來看,QuickBird 影像之訓練樣區其

    TD 平均值為 1523.41,在確為水稻或非水稻的樣本

    值為 2000 將可達到完全分類,而不確定水稻值為

    595.641 遠小於平均值,於影像分類上有理由相信

    將導致無法正確分類為水稻之因素。

    (9)

  • 航測及遙測學刊 第十三卷 第一期 民國 97 年 3月

    52

    5.2 分類成果與檢核

    5.2.1 MLC MLC MLC MLC

    透過 MLC 分類後,運用面積檢核方式進行成

    果比較,可以發現在樣本選擇上是採純淨樣本選取

    方式,使得結果誤漏判嚴重,尤其是在草地的地方

    大部份都呈現誤判,而林地及種植時序不一的水稻

    則呈現漏判,其 Overall 為 80.78%。分析其原因係

    由於誤漏判大部份是落在與草地及林地等容易混

    淆的區域,而造成準確度不高。

    圖十二 MLC 成果比較

    5.2.2 CARTCARTCARTCART

    在 CART 中透過模型建立,將判釋規則用樹狀

    圖形顯示,如圖十三及圖十四所示:

    圖十三 CART 模型建立

    透過上述的 CART 決策規則,我們可以獲得以

    下六個規則,分述如下:

    規則一、IF cro_b_ir=0.552 and

    b=0.354 and ndvi>=0.552 and

    b>=58.376, then 為非水稻

    其中 cro 代表了交又半變異元,b 代表了藍色波段,

    ir 代表紅外波段,ndvi 代表植生指標。

    最後,可藉由 B、R、NDVI 及 cro_b_ir(B 和 IR

    波段的交叉紋理半變異元)的四個屬性值,透過

    CART 的決策規則進行分類,其分類規則中透過二

    分法的方式進行分類,可先分出水稻及非水稻,再

    從非水稻中分離出類似水稻及類似非水稻之模

    型,再進行分類,其所獲得的成果 Overall 達

    82.11%,雖比 MLC 為高,主要是因為漏判為非水

    稻的部份減少了,由圖十五中可明顯的看出其分類

    成果。

    圖十五 CART 成果比較

    5.2.3 CART+Boosting CART+Boosting CART+Boosting CART+Boosting

    CART 加入重取樣本的 Boosting 法,可透過樣

    本權重配比,再次改變樣本分配,評估在學習過程

    中的錯誤率,最後再將其進行組合而成為一強學習

    分類器。將成果轉換為圖形資訊,發現在邊緣混合 圖十四 CART 決策規則圖

  • 陳慧欣、劉致亨、周天穎、楊龍士:以 Boosting 法改進監督式分類於水稻田樣本特性之研究

    53

    圖十六 MLC 分類成果 圖十七 CART 分類成果 圖十八 CART+Boosting 分類成果

    表 2 精確度檢核成果

    分類法分類法分類法分類法

    檢核檢核檢核檢核 MLCMLCMLCMLC CARTCARTCARTCART CART+CART+CART+CART+BBBBoostingoostingoostingoosting

    Overall 80.78% 82.11% 84.98%

    Kappa 0.5552 0.6142 0.6916

    User’s Accuracy 0.6945 0.6698 0.7934

    Producer’s Accuracy 0.6968 0.8200 0.8511

    像元及誤漏判的區塊獲得明顯改善。分類成果準確

    度評估較 MLC 及 CART,增加近 5%及 3%,分析

    成果如表 2 所示。圖十八可看出 CART+Boosting 除

    右下漏判處外,均較其他方式佳,主要是因為

    Boosting 運用模糊水稻樣本的改善所致,然而此處

    影像呈現水體反應,推測錯誤發生可能肇因於種植

    時序不一所造成。

    研究成果如表 2 及圖十六至圖十八所示,應用

    Boosting 演算法的輔助,確實能有效提高影像類別

    分類的精準性,除了由分類成果圖上可以明顯看到

    其成果優於另外兩種方法,使用者精度 (User's

    Accuracy)明顯優於 MLC 及 CART 的成果。

    6. 結論與建議

    決策樹分類法的運算係採用一系列比較大小

    所組成,與採用複雜計算公式的最大概似分類法比

    較,其優點是可以用較短的時間獲得分類成果。由

    研究成果顯示透過決策樹的方式不僅可以提升分

    類成果,亦可以藉由 CART 的樹狀圖呈現判釋規

    則,呈現研究範圍內的水稻知識,進而達到知識發

    現的目標。雖然,各個判識規則可能會因地制宜,

    仍可透過屬性質達成水稻分類的目的,並提升水稻

    判釋成果。

    在學習集成方面,研究中利用各種不同的分類

    規則找出較佳組合模型,利用權重配比的方式,改

    變學習過程中的樣本分配,進而改善最後的分類成

    果,其分類的成果分別較 MLC 及 CART 增加了近

    5%及 3%的成果。

    在 Boosting 方面研究成果顯示,由影像數據

    可以確定其為非水稻,然而坵塊圖確實為水稻的情

    形產生,推測是因為耕作時序不同之緣故,造成其

    光譜反應很明顯的呈現非水稻的錯誤分類問題,此

    非不確定性因素,而是實際農耕時序之問題所產生

    的限制,因此 Boosting 改善的成果有限。

    � 本研究之建議如下:

    Boosting 在概念上,主要是搜尋類別間的最大

    分割 Margin,其透過的是學習集成的方式;而相

    較於 SVM 分類器,其主要也是找尋類別間的最大

    分割 Margin,但其是透過由低維轉高維的方式來

    進行演算,故在後續研究上,可朝此方向加以探

    討。

    再者,水稻生長時序是分類過程中很重要的一

  • 航測及遙測學刊 第十三卷 第一期 民國 97 年 3月

    54

    項知識,且無法在實驗或研究中確切獲得每塊坵塊

    之耕作時序以及生長情形,故若以提水稻分類成果

    而言,雖有其自然條件之限制,然而可以再加入多

    時段的衛星影像,以擴大水稻與非水稻的差異,獲

    得更多的分類知識及相對成果。

    參考文獻

    呂坤哲,2002,基於決策樹之影像資料挖掘法及其

    在影像處理上的應用,逢甲大學資訊工程學系

    碩士論文。

    吳政庭,2004,多元尺度影像與半變異元紋理法於

    都市區水稻田分類之研究,逢甲大學土地管理

    學系碩士論文。

    施奕良,2006,知識表達方式於影像判釋之研究-

    以粗糙集合理論與主成份分析為例,逢甲大學

    環境資訊科技研究所碩士論文。

    侯昌成,2001,可順應調節之學習力提昇的經驗研

    究,國立中正大學數理統計研究所碩士論文。

    陳晉徹,1993,數值影像中相同紋理區分塊方法之

    研究,國立成功大學航空測量研究所碩士論

    文。

    楊龍士及周天穎,2000,遙感探測理論與分析實

    務,逢甲大學地理資訊系統研究中心,第5-3

    頁,台中。

    雷祖強、周天穎及吳政庭,2002,遙測組織量化分

    類法之介紹,第五屆GPS衛星科技研討會,台

    北。

    蔡博文,2005,台灣山地地區土地利用時序資料庫

    建立之研究,永續發展科技與政策研討會。

    趙民德,2001,皮匠法(boosting)的美麗與哀愁,中

    國統計學報。

    劉小平、彭曉鵑及艾彬,2004,像元信息分解和決

    策樹相結合的影像分類方法,地理與地理信息

    科學20(6)。

    黎瑋,1998,紋理分析於遙測影像分類之研究,國

    立中央大學土木工程學系碩士論文。

    錢樂祥,2004,遥感数字影像处理与地理特征提

    取,科学出版社,北京。

    魏曉萍,2003,Quickbird衛星影像探討分類方法之

    研究,中華大學土木工程學系碩士論文。

    蕭國鑫,1998,多時遙測光學與雷達資料於水稻田

    辨識之研究,國立交通大學土本工程學系碩士

    論文。

    Breiman, L., Friedman, J. H., Olshen, R. A. and Stone.,

    C. J.,1983, Classification and Regression Trees,

    Wadsworth.

    Chica-Olmo, M. and Abarca-Hernandez, F., 2000,

    Computing Geostatistical Image Texture for

    Remotely Sensed Data Classification, Computers &

    Geosciences, 26:373-383.

    Dunham, M. H., 2002, Data Mining-Introductory and

    advanced Topics, Prentice Hall Inc.

    Freund, Y. and R. E. Schapire, 1996, Experiments with a

    New Boosting Algorithm, Machine Learning:

    Proceeding s of the 13th International Coference.

    Friedman,J., L. Breiman, Charles J. Stone, R.A. Olshen,

    1984, Classification and Regression Trees,

    Chapman and Hall, New York.

    Jensen, J. R., 2005, Introductory Digital Image

    Procession A Remote Sensing Perspective 3rd

    Edition, Prentice Hall, Inc.

    Lillesand, T. M. and R. W. Kiefer, 2000, Remote

    sensing and Image Interpretation (4th Edition),

    John Wiley and Sons, Inc.

    McIver, D.K. and M.A. Friedl, 2002, Using prior

    probabilities in decision-tree classification of

    remotely sensed data, Remote Sensing of

    Environment, vol. 81:253-261.

    Schapire, R. E., 1990, The strength of weak learnability,

  • 陳慧欣、劉致亨、周天穎、楊龍士:以 Boosting 法改進監督式分類於水稻田樣本特性之研究

    55

    Machine Learning vol. 5(2)

    Schapire, R. E., 1999, A brief Introduction to Boosting,

    Proceedings of the 16th International Joint

    Coference on Artificial Intelligence.

    Schapire, R. E., M. Rochery, M. Rahim and Narendra

    Gupta, 2005, Boosting with prior knowledge for

    call classification, IEEE Transactions on Speech

    and Audio Processing, vol. 13(2).

    Yang C. C., S. O. Prasher, P. Enright, C. Madramootoo,

    M. Burgess, P. K. Goel, I. Callum, 2003,

    Application of decision tree technology for image

    classification using remote sensing data,

    Agricultural Systems, vol. 76:1101-1117.

  • Journal of Photogrammetry and Remote Sensing Volume 13, No. 1, March 2008 56

    The Research on Improvement of Supervised

    Classification by the Method of Boosting in the Sample

    Characteristics of the Rice Paddy

    Lung-Shih Yan1 Hui-Hsin Chen

    2 Chih-Heng Liu

    3 Tien-Yin Chou

    4

    ABSTRACT

    Data Mining can be applied to the satellite images and can be combined with machine learning

    theory. This technology is used to discover knowledge from large mounts of data. CART is a kind of

    methods to acquire the knowledge of rice paddy classification. Although this method needs to select

    the samples, it can reduce the effects which are caused by the selection of samples on the results of

    classification, for example, the narrow area and the uneven characteristics. The machine learning

    method, Boosting, can solve the problem of characteristic changes that are caused by the re-selection

    of samples. This method can increase the accuracy of the classification. The samples which have the

    low accuracy of classification are organized by Boosting Method. Boosting Method analyzes the

    samples and acquires the samples that have the higher classification accuracy in order to avoid the

    re-selection of samples. And, Boosting method co-operates with CART classification method to

    improve the accuracy of classification. According to the result of this study, Boosting Method can

    improve the maximum likelihood method and the CART method on the classification accuracy which

    rise 5% and 3% individually.

    Keywords::::Boosting, Data mining, Supervised Classification, Sample Characteristic

    1 Vice-President of Feng Chia University 2 Master, Department of Land management, Feng Chia University 3 Ph. D. candidate, Graduate Institute of Civil and Hydraulic Engineering, Feng Chia University 4 Director, GIS Research Center, Feng Chia University

    Received Date: Mar. 18, 2007

    Revised Date: Apr. 10, 2008

    Accepted Date: May. 14, 2008