Upload
joel-wood
View
35
Download
0
Embed Size (px)
DESCRIPTION
Data mining. 胡念祖 國立虎尾科技 大學 資訊管理系 助 理 教授. 個人簡歷. 現任虎尾科 大專任助理教授、交通大學兼任助理教授 台中 港務局、興 農 實業 、 恒耀 工業、靜宜大學、日東電工 BI 訓練 與導入建置 彰化基督教醫院-健保資料庫 分析、慈濟醫院大林分院-病歷分析 朝陽 科大、屏東商業技術學院、台中技術學院協助 SOA 教育訓練 網 格非線性最佳化系統開發 新竹市政府、公路局網頁系統 開發 東元電機配料管理系統 農委會育苗管理系統 榮民製藥廠、金門電力公司人事薪資系統 相關 證照: - PowerPoint PPT Presentation
Citation preview
Data mining胡念祖
國立虎尾科技大學 資訊管理系 助理教授
2
個人簡歷 現任虎尾科大專任助理教授、交通大學兼任助理教授
台中港務局、興農實業、恒耀工業、靜宜大學、日東電工 BI訓練與導入建置 彰化基督教醫院-健保資料庫分析、慈濟醫院大林分院-病歷分析 朝陽科大、屏東商業技術學院、台中技術學院協助 SOA教育訓練 網格非線性最佳化系統開發 新竹市政府、公路局網頁系統開發 東元電機配料管理系統 農委會育苗管理系統 榮民製藥廠、金門電力公司人事薪資系統
相關證照:Sun Certified Java ProgrammerIBM Certificated SOA Solution DesignerIBM Cognos AdministratorIBM Cognos AuthorIBM DB2 FundamentalMicrosoft SQL Server 2008 Implementation and MaintenanceMicrosoft SQL Server 2008 Business Intelligence
BI LabBusiness Intelligence (Microsoft, IBM, Strategy Analyzer)SQL Server, OracleiOS, Android development (native, html5)Citrix XenApp/XenDesktop, VMWare ESXSOA, J2EE.Net Framework development
Lab成員 : 廖乙學、劉宣麟、趙柏翔、楊勝復、郭小瑋
資料探勘 = 預測 ??
瑞士刀 ??
資料探勘 vs. 統計分析母體特質機率分配信心水準適用方法解釋手法
平民百性 vs. 專家
一、資料採礦的功能Classification (分類 )Estimation (推估 )Cluster (群集化 )Affinity Group (同質分組 )Sequential (序列 )Description (描述 )
Classification (分類 )變數的種類
連續變數、類別變數預測連續數值找出未知但明確的準則相關應用
信用風險違約機率預測交叉銷售顧客流失
Estimation (推估 )預測連續數值預測未來的走向、趨勢應用
風險管理的違約金融商品的價格趨勢變化進貨、銷售、存貨價量變化趨勢顧客貢獻度、價值
Cluster (群集化 )沒有分類準則、找出事物相似性的內部結構應用
顧客分群協同式過濾產品推薦晶圓製程瑕疵分佈文件分類
Affinity Group(同質分組 )從歷史資料找出那些物件 /事件是相伴發生尿布與啤酒、藍乳酪應用
產品交叉銷售、自動化推薦網頁結構分析文件(病歷、專利文件)關鍵字關聯性分析
Sequential(序列 )找出事物「先後」發生的順序、週期59.1%的消費者會在 27-57 天再購買精油蠟燭應用
產品提升銷售網頁瀏覽序列分析逾期繳款行為模式分析
Description(描述 )視覺化分析資料中隱藏的規則信用卡的免費保單
資料採礦的應用直效行銷
電話行銷的忠誠度 (?)、配對交叉銷售
金融業(種類少、獲利高、個別產品回應模型)零售業、財富管理(種類多、獲利低、關聯規則)
信用風險管理違約機率模型、違約曝險額模型、違約損失率模型
流失分析流失率減少 5% ,利潤成長 100 %20 %的好顧客貢獻利潤的 150% ,最差 40%的顧客使利潤縮
減 50%
二、資料採礦流程 (CRISP-DM)Cross-Industry Process for Data Mining
定義商業問題 (Business Understanding)定義分析資料 (Data Understanding)資料預處理 (Data Preparation)建立模型 (Modeling)模型評估 (Evaluation)應用模型 (Deployment)
定義商業問題 (Business Understanding)
配合企業現況以解決商業問題同樣的主題在不同的產業,作法會不同同樣的主題在相同的產業之不同產品,作法就不用
定義分析資料 (Data Understanding)預測的意義來自於比較
過與不及,酸黃瓜排除常識的樣本預區隔
電信業手機租期分析時窗分析
樣本時窗 ( 愈多愈好?)、緩衝期、觀察時窗預測客戶是否真的會流失?
訓練組、鑑效組(規則重現檢測)、測試組過度學習 (Over-Fitting)
稀有事件具影響性、誤差抽樣(多的抽少、漸進式 )
資料預處理異常值處理
遺漏值(邏輯填補、統計值、新選項、採礦分析)極端值(Z分數、剔除、天花板、函數校正、全距法、 Sigmoid、十進位 )
變數轉換連續 ->類別 ( 等寬、等分、Z分數、反曲點、監督式)類別 ->連續(連續性指派)
變數篩選衍生變數(目前、曾經、累計、平均、比率、成長率)篩選有效變數(非重覆性 x、選項多 x、時點錯誤
x、WOE)變數共線性 (相關係數>0.8, 以 IV值高的為主)
輪胎剖面圖
輪胎研發硫化時間與物理性能關係圖
實驗數據
類神經網路示意圖
類神經網路分層圖
資料探勘 - 可信度 ??資料前處理 ( 異常值、歷史資料、遺漏值等 )資料熟悉度 ??變數選擇、處理抽樣比例模型選擇、參數設定單一模型 vs. 多種模型變數、參數貢獻度一成不變 ??模型可用壽命
謝謝祝 週末假日愉快