View
240
Download
8
Embed Size (px)
Citation preview
1
Chapter 11
從資料中學習
2
Chapter 11 :從資料中學習
OVERVIEW學習概念資料視覺化類神經網路的學習模式關聯規則分類樹知識管理的涵義
3
Chapter 11 :從資料中學習
學習概念學習是一種協助公司溝通與決策品
質的機制。
4
Chapter 11 :從資料中學習
學習概念(續) 學習是以下的過程:
過濾觀念 轉換成有效知識 導引決策模式
Chapter 11 :從資料中學習
5
知識確認知識確認包含兩階段:• 模式確認
• 檢定觀念模式或操作模式具有內部一致的邏輯結構。
• 檢定真實世界中事實具有外部一致性。• 雙方交互同意則是指特殊參考團體
或使用者同意。
6
Chapter 11 :從資料中學習
學習過程的目的找出資料中的新樣態。確認從先前知識形成的假說。預測未來價值、趨勢和行為。
Chapter 11 :從資料中學習
7
建立學習模式的方法 有兩種方式可建立學習模式:由上而下
和由下而上。在由上而下方式中,可從觀察、直覺或先驗知識中產生的假說開始。
由上而下方式:從觀察、直覺或先驗知識中產生的假說開始。
由下而上方式:無須檢定假說。學習技術用來找出資料中關鍵關係的新樣態。
8
Chapter 11 :從資料中學習
資料視覺化
探索資料代表著以視覺化方式了解對於決策有意義且有所幫助的群體與趨勢
9
Chapter 11 :從資料中學習
資料視覺化其包含:關鍵屬性的分布,如預測工作的屬性。指出明顯超出期望範圍外的離群值。設定初始假說和預測值。萃取出感興趣的資料組,以利進一步調
查研究。
10
Chapter 11 :從資料中學習
學習拯救性命: John Snow and the Cholera
11
Chapter 11 :從資料中學習
類神經網路神經網路是一種模仿人類腦類神經網路
的科技,其企圖模擬生物的資訊處理和推理過程,經由巨量處理單元 (process elements) 或稱為神經元所形成的網路。
它不是經由既定指令或規則,而是經由一些範例來學習。
12
Chapter 11 :從資料中學習
神經元神經元評估輸入值 (input) ,決定強度或
權重 (weight) 再「合成」輸入值,然後比較合成值和臨界值 ( 一種轉換函數 ) 。
如果合成值大於臨界值,輸出值為 1 ,反之則此神經元輸出值為 0 。
13
Chapter 11 :從資料中學習
圖 11.1 具有加權輸入值和合成函數的單一神經元
14
Chapter 11 :從資料中學習
監督式學習有些像是加強型學習法需要先經過含有
輸入值和輸出值訓練集的訓練。類神經網路在訓練中不斷修正其權重值,
使得實際輸出值逼近訓練集中的輸出值。當兩者誤差在容忍範圍內時,此類神經
網路即學習到具有特定函數模式。
15
Chapter 11 :從資料中學習
監督式神經網路模式
16
Chapter 11 :從資料中學習
非監督式學習又稱自我監督。無須事先經過訓練集來調整權重。而是直接面對新經驗 ( 資料 ) 來調整權重,這種過程稱為自我組織 (self-organization) 。
17
Chapter 11 :從資料中學習
商業應用使用類神經網路評估商業貸款案件的風險管理 類神經網路被數以千計的案件訓練過,其中
一半是接受案件,另一半是拒絕案件。 類神經網路從訓練案例中學習辨識貸款案件
中的風險,以及申請人償還情況。
18
Chapter 11 :從資料中學習
商業應用(續)預測外匯市場波動:
A 此一類神經網系統是適合用於資料樣態辨別且複雜的非線性系統。
此整合系統使用 1990 年 6個月的資料作為訓練集,每 8週到 11週再重新測試,用來預測美元對瑞士法郎和日元匯率。
此系統帶來的資本報酬大約有 20% 。
19
Chapter 11 :從資料中學習
商業應用(續)不動產鑑價:
使用不動產授信案件中資料。包含不動產所處縣市、地點和附近建築物,然後系統會評估出此授信案件可貸金額及風險。
對每一授信案件而言,所花時間不到人工授信處理時間的一半,而精確性則大為提高。
20
Chapter 11 :從資料中學習
和知識管理相關者類神經網路有許多特性適用於知識管理系統 類神經網路展現高精確性和反應速度。 建立類神經網路通常需要高度前置處理的資
料。 當有新應用時,類神經網路需要重新開始建
立。
21
Chapter 11 :從資料中學習
關聯規則布林規則:此規則判斷物件存在或不存
在。例如,如果客戶買一台 PC 和一個 17吋螢幕,然後他就會買一台印表機。物件 ( 一台 PC 和一個 17吋螢幕 )皆存在,代表印表機才會在客戶採購清單內。
22
Chapter 11 :從資料中學習
關聯規則(續)量化規則。此規則不考慮物件存在
或不存在,而是考慮物件的數量。例如,如果一位客戶年薪 $3萬到 $5萬之間,而且擁有一棟價值 $25萬到$50萬之間的不動產,則他會買一部四門汽車。
23
Chapter 11 :從資料中學習
關聯規則(續)多屬性規則:此規則考慮多個屬性 (維度 ) 。
例如,如果客戶買一台 PC ,然後就會買瀏覽器。此規則是單維的,因為只有一個買的屬性。
例如,如果客戶住在大城市而且年薪超過 $35,000 ,則他會買行動電話。此規則包含住、年薪和買三個屬性,所以是多屬性規則。
24
Chapter 11 :從資料中學習
關聯規則(續)多層關聯規則 (multilevel association rule) 。
交易中所含物件有不同層次的概念化。舉例如下:
如果客戶年薪超過 $5萬,則他會買一部膝上型電腦。
如果客戶年薪超過 $5萬,則他會買一部電腦。這些規則具有不同層次的概念,第一個規則
是在較低層次的概念,因為買膝上型電腦也代表買電腦,而買電腦也代表買膝上型電腦或 PC ,見圖 11.3 。
25
Chapter 11 :從資料中學習
圖 11.3依照不同概念層次的物件分類
26
Chapter 11 :從資料中學習
關聯規則(續)關聯規則如同:當客戶買一部電腦,有 70%
的可能會買印表機,這種情形在所有採購案例中有 14%會發生。這個敘述顯示關聯規則包含以下四個部分: 規則前置條件:當客戶買一部電腦信賴水準:有 70% 的比率 規則結果:他將會買印表機支持度:在所有採購案例中有 14%會發生
27
Chapter 11 :從資料中學習
分類樹 分類樹 (classification tree) 是一在分類和預測問題上一種威力強大且受歡迎的工具。
相對於類神經網路而言,分類樹本身就代表工具。
定義:「樹」的觀念是從圖型而來。樹是由節點互連的分支所形成的無迴圈網路。樹通常含有一個根節點作為起始節點,最末端則是樹葉節點,中間部分是由一些中間節點逐層形成。圖 11.4 顯示一顆兩層的二元樹。
28
Chapter 11 :從資料中學習
數的分類:授信決策 考慮下列規則:如果儲蓄存款而且擁有資產則授信核淮;否則不核准。
銀行先從客戶資料庫中蒐集先前客戶的歷史資料。在歷史資料庫中,銀行需要先前具有償債能力和不具償債能力兩種客戶的資料。
這個簡單例子中,清楚區分兩種類型的客戶。在較複雜的環境中,除了分類外,歸納歷史資料是必要的,這時尚需一些系統的性技術。
29
Chapter 11 :從資料中學習
樹的建構 建構樹時需考慮許多要點。在每一層的節點依
資料性質分組,直到最後一層為止。第一個問題是如何指定節點屬性。如果考慮到根節點,可以指定給該節點任一個屬性。
經由分類樹演算法,將屬性資料指定給節點來將資料分組,便完成第一項工作。
第二項工作是決定何時完成分類樹。第三項工作是指定類別給樹葉節點。最後,將
分類樹轉換成一組規則。
30
Chapter 11 :從資料中學習
圖 11.4 兩層的二元樹