24
社群與新聞 資料分析 實作課程 Gene (黑貘)/2015-04-28

社群與新聞 資料分析 實作課程

Embed Size (px)

Citation preview

Page 1: 社群與新聞 資料分析 實作課程

社群與新聞資料分析實作課程

Gene (黑貘)/2015-04-28

Page 2: 社群與新聞 資料分析 實作課程

https://goo.gl/VqPASq

Page 3: 社群與新聞 資料分析 實作課程

其貘

管理科學

化學

數學, 商用數學

資管, 資工

圖書館

Page 4: 社群與新聞 資料分析 實作課程

其夢

2005: MyZilla2006: 部落格觀察2007: Hook: 關鍵字熱度2008: Plurk.tw2009: Google + 排行榜2010: 網點: SEO.datamining.tw2011: 神貘天氣2012: 網事: web.mas.ter.tw2013: 林克傳說2014: 社群排行榜2015: 新文易數

Page 5: 社群與新聞 資料分析 實作課程

我不是好的講師

1. 我從來不講相同的東西, 每次講都是重新準備, 講最新的東西, 不太喜歡講舊觀念, 而一個好的講師往往是因為熟練講

得更好

2. 我不太會深入淺出, 就一開始就講我認為值得講的, 外面書上寫過的或 FAQ 我就很習慣跳過, 所以入門的人來聽就會

很尷尬...3. 我很少提前備課, 我發現在講時前一小時寫完投影片, 講的思考連續性與效果是最好

4. 我很少講別人的範例, 或是用別人的投影片, 所以很少精美的投影片

5. 我強調的是邏輯思維, 而不是純架構而已, 所以很常漏失外面的基本常識

6. 我不太喜歡自我介紹, 真的要講自介只講跟課程/講題有關的

7. 我很受聽眾的影響, 互動得好我就會講得很盡興, 下面在睡的話我反而比聽眾更想睡

8. 我喜歡講自己的作品, 而不是用較宏觀的角度來看

9. 我習慣做內部訓練, 至少知道這群人的程度, 這樣比較好講, 也往往不會受時間限制

10. 相對的一般性的對外演講經驗很少, 一年只有 10~20 次而已, 所以練習的次數經驗無法跟專業的比

11. 我不太講技術以外的事, 所以最好是有實作能力與經驗的人來聽..12. 我不講黑暗兵法...

Page 6: 社群與新聞 資料分析 實作課程

Big Data 的 5V

Volumne

Velocity

Variety

Veracity

Value

Page 7: 社群與新聞 資料分析 實作課程
Page 8: 社群與新聞 資料分析 實作課程
Page 9: 社群與新聞 資料分析 實作課程
Page 10: 社群與新聞 資料分析 實作課程

課程目標

1. 實作新聞探勘系統

2. 整合資料的價值

3. 與臉書資料的串接

Page 11: 社群與新聞 資料分析 實作課程

專家系統 vs 使用者資料

1. 透過所有媒體作家定義資訊標籤

2. 臉書的所有使用者對文章做互動

3. 計算對應出使用者與標籤的數量

4. 與其他資訊的差異與時間性比較

Page 12: 社群與新聞 資料分析 實作課程

tag.analysis.tw (新文易數)

記者的採訪與下 Tag

所有記者的聚焦

使用者社群的熱度

轉計算到 Tag 的熱門話題

=> 知道 PGC (OGC) 與 UGC 的差異

Page 13: 社群與新聞 資料分析 實作課程

新文易數的系統流程 (I)

1. 抓取媒體的文章列表

2. 每篇文章的 Tags3. 計算 Tags 總數

4. 計算分數 (Normalization)5. 從趨勢計算爆發力

6. 計算 Tag 關聯與距離等基本數值

Page 14: 社群與新聞 資料分析 實作課程

新文易數的系統流程 (II)

7. 計算等價標籤

8. 把 Tag 組成事件

9. 計算出主要標籤

10. 做成事件簿與新聞牆

Page 15: 社群與新聞 資料分析 實作課程

新文易數的系統流程 (III)

11. 計算有意義的標籤

12. 套用在沒有 Tag 的新聞網站

13. 計算連結文章的社群數值

14. 回算出每個 Tag 的社群數值

Page 16: 社群與新聞 資料分析 實作課程

新文易數的研究方法

1. 量化: 半衰期控制時間量級

2. 質化: 如何定義等價標籤

3. 正負: 從讚享評的分配定義出正負評

4. 呈現: 透過對數來轉換比較

Page 17: 社群與新聞 資料分析 實作課程

研究目的

大數據的時代, 透過使用者行為能夠獲取相當數量的資料, 但要轉化成有意義的資訊

須要一些過程, 利用專家系統的聚焦然後配合社群行為的大量資料, 就可以提高解讀

資訊的價值.

Page 18: 社群與新聞 資料分析 實作課程

研究方法的挑戰

現代科技如何應用在研究調查統計

大數據資料探勘須要很多先驗資訊才會有效

Page 19: 社群與新聞 資料分析 實作課程

目前研究方法的不足

時間性: 最新的資料是最有效的

廣泛性: 研究者就自己的想法猜測

客觀性: 侵入式的資料有很強的主觀

數量性: 很少抓取全體資訊

Page 20: 社群與新聞 資料分析 實作課程

資料探勘與學術研究的比較

即時 vs 區間

全體 vs 抽樣

個體 vs 分類

自動化 vs 操作

客觀分析 vs 主觀模型

次級資料 vs 直接資料

Page 21: 社群與新聞 資料分析 實作課程
Page 22: 社群與新聞 資料分析 實作課程

次級資料

1. 我們有時只能從已抓的資料下手, 而不是最實際的資料

2. 這種指數的計算是簡化其複雜度, 一定會失去一些意義

3. 我們可以視其須要及適用度, 去調整演算法或資料搜集

4. 對於資料的可能性與適用性, 我們還須要一段路來學習

Page 23: 社群與新聞 資料分析 實作課程

網路民意與抽樣調查最不一樣的地方

1. 網路民意是搜集使用者主動的行為, 而抽樣調查是被動被問問題. 2. 網路民意是可以做到所有的母體/群眾, 而抽樣調查是子集合/子體. 3. 網路民意是每天或隨時都在變化有數字, 而抽樣調查一定是個區間或有時間間

隔. 4. 網路民意是特定一個族群, 而抽樣調查的族群較為廣泛. 5. 網路民意不見得知道其背景資料, 而抽樣調查通常會詢問其背景資料

Page 24: 社群與新聞 資料分析 實作課程

專家系統 vs 使用者資料

1. 透過所有媒體作家定義資訊標籤

2. 臉書的所有使用者對文章做互動

3. 計算對應出使用者與標籤的數量

4. 與其他資訊的差異與時間性比較