Upload
gene-hong
View
397
Download
1
Embed Size (px)
DESCRIPTION
Citation preview
Big Data失敗與成功的真相Gene Hong/2014-04-22
aka
食夢黑貘
洪進吉
考/唸過的系所
理: 數學(, 應數), 化學, 天文, 海洋, 資科, 物理
工: 資工, 電機, 電子
商: 商數
管: 管科, 資管
文: 圖書館, 翻譯, 教育評鑑
法: 社會, 宗教
資料探勘相關工作經驗
魅力站
博客來
聯絡家
網祿
EZPrice
領域
Performance Tuning (效能調校)Behavior Prediction (行為預測)Intelligent Agent (智慧代理者)Database Management (資料庫管理)Webmaster (網站管理者)Semantic Web (語意網路)Search Engine Optimization (搜尋引擎最佳化)Information Retrievals (資訊獲取)
最近作品
網點: 用 Data Mining 來看 SEO網智: 用 語意網路 來做跨站導讀 網誌: 用 Google Analytics 來輔助分析網站
訪來客: 用 Facebook API 來看使用者分群
林克傳說: 用社群網站的連結分享來看訊息傳遞
正在進行中
工作建議: 從交友與閱讀資訊探勘
即時約會: 預測會與自己最接近的朋友
景點人潮: 預測某景點可能的遊客數
商品導讀: 從個人文字趨向來做消費建議
林克傳說應用 之 服貿系列
服貿跑馬燈
服貿東西軍
服貿媒體光譜分佈圖
甚麼是 Big Data
為甚麼 Big Data 被認為失敗
Big Data 有很多人都宣稱在做
不了解的人已被既定印像限制住了
宣稱用 Big Data 的服務都沒甚麼效用
用 Big Data 來募資已經募不到錢
真的在用 Big Data 嗎?
數量級
時間區間
即時性
應用範圍
實用性
演算法
企業組織鍊失去的環節
Business DeveloperProduct ManagerSystem AnalyzerProgrammerUser/Operator
智慧與資料
推論與歸納
Condition Base vs Rule Base量級
Relation (Distance)因子分析
系統分析的謬誤
從上到下的系統分析
目標與須求的鍊結
規格書
Big Data 的 Variety 與 Veracity可行性分析
Big Data 的流程
1. 確立資料源
2. 尋找聚合點
3. 模式與模型識別
4. 資料規劃 (儲存, 計算)5. 使用者須求
6. 開發
Big Data 階段
搜集資料
儲存資料
除錯資料
計算資料
呈現資料
解讀資料
資料認知的謬誤與改變
資料革命: Big Data, Linked Data, Open Data, Data Mining 五講之一 (Data Revolution)
次級資料
1. 我們有時只能從已抓的資料下手, 而不是最實際的資料
2. 這種指數的計算是簡化其複雜度, 一定會失去一些意義
3. 我們可以視其須要及適用度, 去調整演算法或資料搜集
4. 對於資料的可能性與適用性, 我們還須要一段路來學習
Data Pool
Google Search ResultFacebook (SNS) APIWeb MiningOpen Data
訪來客經驗
資料能抓的跟你所想的不一樣
一定有方法可以接近目標
只是這方法可能代價很高
NP-Hard
林克傳說
1. 近朱者赤, 近貘者黑
2.民意透明化
3. 全民政治
成果
1. 最值得你唸的文章
2. 跟你最像的朋友
3. 議題熱度與趨勢
林克傳說經驗
資料延伸的 Scale 是相當可怕的
資料的多樣性真的很巨大
資料跟實用的落差
中間產品就很有用了
Big Data How Big?
資料抓取 10^11資料儲存 10^9資料整理 10^7資料計算 10^5資料呈現 10^3
Full Stack Maker
Hardware and OSDB, ProgrammerSA, UI/UXPM, ManagerMarketing, AdvertismentSocial, Content
Hackathon
Yahoo Open HackdayOpen Data Hackathong0v Hackathon內部 Hackathon
Q^A謝謝大家