24
Data mining 胡胡胡 胡胡胡胡胡胡胡胡 胡胡胡胡胡 胡胡胡胡

Data mining

Embed Size (px)

DESCRIPTION

Data mining. 胡念祖 國立虎尾科技 大學 資訊管理系 助 理 教授. 個人簡歷. 現任虎尾科 大專任助理教授、交通大學兼任助理教授 台中 港務局、興 農 實業 、 恒耀 工業、靜宜大學、日東電工 BI 訓練 與導入建置 彰化基督教醫院-健保資料庫 分析、慈濟醫院大林分院-病歷分析 朝陽 科大、屏東商業技術學院、台中技術學院協助 SOA 教育訓練 網 格非線性最佳化系統開發 新竹市政府、公路局網頁系統 開發 東元電機配料管理系統 農委會育苗管理系統 榮民製藥廠、金門電力公司人事薪資系統 相關 證照: - PowerPoint PPT Presentation

Citation preview

Page 1: Data mining

Data mining胡念祖

國立虎尾科技大學 資訊管理系 助理教授

Page 2: Data mining

2

個人簡歷 現任虎尾科大專任助理教授、交通大學兼任助理教授

台中港務局、興農實業、恒耀工業、靜宜大學、日東電工 BI訓練與導入建置 彰化基督教醫院-健保資料庫分析、慈濟醫院大林分院-病歷分析 朝陽科大、屏東商業技術學院、台中技術學院協助 SOA教育訓練 網格非線性最佳化系統開發 新竹市政府、公路局網頁系統開發 東元電機配料管理系統 農委會育苗管理系統 榮民製藥廠、金門電力公司人事薪資系統

相關證照:Sun Certified Java ProgrammerIBM Certificated SOA Solution DesignerIBM Cognos AdministratorIBM Cognos AuthorIBM DB2 FundamentalMicrosoft SQL Server 2008 Implementation and MaintenanceMicrosoft SQL Server 2008 Business Intelligence

Page 3: Data mining

BI LabBusiness Intelligence (Microsoft, IBM, Strategy Analyzer)SQL Server, OracleiOS, Android development (native, html5)Citrix XenApp/XenDesktop, VMWare ESXSOA, J2EE.Net Framework development

Lab成員 : 廖乙學、劉宣麟、趙柏翔、楊勝復、郭小瑋

Page 4: Data mining

資料探勘 = 預測 ??

瑞士刀 ??

Page 5: Data mining

資料探勘 vs. 統計分析母體特質機率分配信心水準適用方法解釋手法

平民百性 vs. 專家

Page 6: Data mining

一、資料採礦的功能Classification (分類 )Estimation (推估 )Cluster (群集化 )Affinity Group (同質分組 )Sequential (序列 )Description (描述 )

Page 7: Data mining

Classification (分類 )變數的種類

連續變數、類別變數預測連續數值找出未知但明確的準則相關應用

信用風險違約機率預測交叉銷售顧客流失

Page 8: Data mining

Estimation (推估 )預測連續數值預測未來的走向、趨勢應用

風險管理的違約金融商品的價格趨勢變化進貨、銷售、存貨價量變化趨勢顧客貢獻度、價值

Page 9: Data mining

Cluster (群集化 )沒有分類準則、找出事物相似性的內部結構應用

顧客分群協同式過濾產品推薦晶圓製程瑕疵分佈文件分類

Page 10: Data mining

Affinity Group(同質分組 )從歷史資料找出那些物件 /事件是相伴發生尿布與啤酒、藍乳酪應用

產品交叉銷售、自動化推薦網頁結構分析文件(病歷、專利文件)關鍵字關聯性分析

Page 11: Data mining

Sequential(序列 )找出事物「先後」發生的順序、週期59.1%的消費者會在 27-57 天再購買精油蠟燭應用

產品提升銷售網頁瀏覽序列分析逾期繳款行為模式分析

Page 12: Data mining

Description(描述 )視覺化分析資料中隱藏的規則信用卡的免費保單

Page 13: Data mining

資料採礦的應用直效行銷

電話行銷的忠誠度 (?)、配對交叉銷售

金融業(種類少、獲利高、個別產品回應模型)零售業、財富管理(種類多、獲利低、關聯規則)

信用風險管理違約機率模型、違約曝險額模型、違約損失率模型

流失分析流失率減少 5% ,利潤成長 100 %20 %的好顧客貢獻利潤的 150% ,最差 40%的顧客使利潤縮

減 50%

Page 14: Data mining

二、資料採礦流程 (CRISP-DM)Cross-Industry Process for Data Mining

定義商業問題 (Business Understanding)定義分析資料 (Data Understanding)資料預處理 (Data Preparation)建立模型 (Modeling)模型評估 (Evaluation)應用模型 (Deployment)

Page 15: Data mining

定義商業問題 (Business Understanding)

配合企業現況以解決商業問題同樣的主題在不同的產業,作法會不同同樣的主題在相同的產業之不同產品,作法就不用

Page 16: Data mining

定義分析資料 (Data Understanding)預測的意義來自於比較

過與不及,酸黃瓜排除常識的樣本預區隔

電信業手機租期分析時窗分析

樣本時窗 ( 愈多愈好?)、緩衝期、觀察時窗預測客戶是否真的會流失?

訓練組、鑑效組(規則重現檢測)、測試組過度學習 (Over-Fitting)

稀有事件具影響性、誤差抽樣(多的抽少、漸進式 )

Page 17: Data mining

資料預處理異常值處理

遺漏值(邏輯填補、統計值、新選項、採礦分析)極端值(Z分數、剔除、天花板、函數校正、全距法、 Sigmoid、十進位 )

變數轉換連續 ->類別 ( 等寬、等分、Z分數、反曲點、監督式)類別 ->連續(連續性指派)

變數篩選衍生變數(目前、曾經、累計、平均、比率、成長率)篩選有效變數(非重覆性 x、選項多 x、時點錯誤

x、WOE)變數共線性 (相關係數>0.8, 以 IV值高的為主)

Page 18: Data mining

輪胎剖面圖

Page 19: Data mining

輪胎研發硫化時間與物理性能關係圖

Page 20: Data mining

實驗數據

Page 21: Data mining

類神經網路示意圖

Page 22: Data mining

類神經網路分層圖

Page 23: Data mining

資料探勘 - 可信度 ??資料前處理 ( 異常值、歷史資料、遺漏值等 )資料熟悉度 ??變數選擇、處理抽樣比例模型選擇、參數設定單一模型 vs. 多種模型變數、參數貢獻度一成不變 ??模型可用壽命

Page 24: Data mining

謝謝祝 週末假日愉快