1052BDM07 Big Data Mining - Tamkang...

Preview:

Citation preview

BigDataMining巨量資料探勘

1

1052DM07MI4(M2244)(3069)

Thu,8,9 (15:10-17:00)(B130)

Min-Yuh Day戴敏育

Assistant Professor專任助理教授

Dept. of Information Management, Tamkang University淡江大學資訊管理學系

http://mail. tku.edu.tw/myday/2017-03-30

TamkangUniversity

TamkangUniversity

個案分析與實作二 (SAS EM 關連分析):Case Study 2

(Association Analysis using SAS EM)

週次 (Week)日期 (Date)內容 (Subject/Topics)12017/02/16巨量資料探勘課程介紹

(CourseOrientationforBigDataMining)22017/02/23巨量資料基礎:MapReduce典範、Hadoop與Spark生態系統

(FundamentalBigData:MapReduceParadigm,HadoopandSparkEcosystem)

32017/03/02關連分析 (AssociationAnalysis)42017/03/09分類與預測 (ClassificationandPrediction)52017/03/16分群分析 (ClusterAnalysis)62017/03/23個案分析與實作一 (SASEM分群分析):

CaseStudy1(ClusterAnalysis– K-MeansusingSASEM)72017/03/30個案分析與實作二 (SASEM關連分析):

CaseStudy2(AssociationAnalysisusingSASEM)

課程大綱 (Syllabus)

2

週次 (Week)日期 (Date)內容 (Subject/Topics)82017/04/06教學行政觀摩日 (Off-campusstudy)92017/04/13期中報告 (MidtermProjectPresentation)102017/04/20期中考試週 (MidtermExam)112017/04/27個案分析與實作三 (SASEM決策樹、模型評估):

CaseStudy3(DecisionTree,ModelEvaluationusingSASEM)

122017/05/04個案分析與實作四 (SASEM迴歸分析、類神經網路):CaseStudy4(RegressionAnalysis,

ArtificialNeuralNetworkusingSASEM)132017/05/11GoogleTensorFlow深度學習

(DeepLearningwithGoogleTensorFlow)142017/05/18期末報告 (FinalProjectPresentation)152017/05/25畢業班考試 (FinalExam)

課程大綱 (Syllabus)

3

4

個案分析與實作二 (SAS EM 關連分析):Case Study 2 (Association Analysis using SAS EM)

Web Site Usage Associations

5

網站使用行為關聯分析

6

案例情境• ABC音樂廣播電台為了服務更多聽眾,設置了電台網站,讓更多的線上聽眾也可以透過網站服務以隨時掌握電台的各個節目資訊,網站提供了流行音樂趨勢(musicstreams)、音樂下載(podcasts)、新聞訊息(newsstreams)、線上收聽(liveWeb)以及歷史節目收聽(archives)等服務功能頁面。分析人員想要藉由關聯分析以進一步了解線上聽眾的使用行為,做為網站服務功能更新的依據。

• 分析樣本為撈取近兩個月約150萬筆的客戶交易資料。

Source:SASEnterpriseMinerCourseNotes,2014,SAS

7

資料欄位說明• 資料集名稱: webstation.sas7bdat

Source:SASEnterpriseMinerCourseNotes,2014,SAS

ARCHIVE 廣播節⺫回顧EXTREF 好站相連LIVESTREAM 熱⾨節⺫收聽MUSICSTREAM 流⾏⾳樂區NEWS 最新消息PODCAST ⾳樂下載SIMULCAST 同步收聽WEBSITE ⾸⾴

8Source:SASEnterpriseMinerCourseNotes,2014,SAS

分析⺫的

依據使⽤者網站交易資料,利⽤關聯分析演算⽅法產⽣網站使⽤⾏為關聯規則。

演練重點:

• 產⽣關聯分析資料集• 進⾏關聯分析• 關聯分析結果解釋

網站使⽤⾏為關聯分析實機演練

關聯分析衡量的機率統計值—Support&Confidence

9

RuleA Þ DC Þ AA Þ C

B & C Þ D

Support2/52/52/51/5

Confidence2/32/42/31/3

A B C A C D B C D A D E B C E

Source:SASEnterpriseMinerCourseNotes,2014,SAS

Support&Confidence高的關聯規則就一定是有用的規則?

10

Checking Account

No

Yes

No Yes

SavingAccount

4,000

6,000

10,000Support(SVG Þ CK) = 50%=5,000/10,000Confidence(SVG Þ CK) = 83%=5,000/6,000Expected Confidence(SVG Þ CK) = 85%=8,500/10,000

500

1000

3500

5000

Lift (SVG à CK) = Confidence/Expected Confidence = 0.83/0.85 < 1Source:SASEnterpriseMinerCourseNotes,2014,SAS

關聯分析衡量的機率統計值—Lift增益值

• 信心水準最高的就是最好的規則?• 「如果 Savingaccount則 Checkingaccount」這個規則的發生機率比單獨計算Checkingaccount的發生機率還低。

• 增益值(Lift):一條規則在預測結果時能比隨機發生的機會好多少。

• Lift(SVGà CK)=Confidence/ExpectedConfidence=0.83/0.85<1

11Source:SASEnterpriseMinerCourseNotes,2014,SAS

Support(AàB)Confidence(AàB)

ExpectedConfidence(AàB)Lift(AàB)

12

13

Support(Aà B)=P(AÈ B)A與B共同出現次數/總交易次數

Count(A&B)/Count(Total)

Confidence(Aà B) =P(B|A)Conf(Aà B)=Supp(AÈ B)/Supp(A)

A與B共同出現次數/A出現的次數Count(A&B)/Count(A)

ExpectedConfidence(AàB)=Support(B)Count(B)

Lift(Aà B)=Confidence(AàB)/ExpectedConfidence(AàB)

Lift(Aà B)=Supp(AÈ B)/(Supp(A)xSupp(B))Lift(Correlation)

Lift(AàB)=Confidence(AàB)/Support(B)

Lift(AàB)• Lift(AàB)=Confidence(AàB)/ExpectedConfidence(AàB)=Confidence(AàB) /Support(B)=(Supp(A&B)/Supp(A))/Supp(B)=Supp(A&B)/Supp(A)xSupp(B)

• Lift增益值 (提升值)Lift(AàB)=2表示 AàB這條規則的增益值為 2,代表已知在買A的前題下又買B的機率,比直接買B的機率提升 (增益)了2倍。

14

「買芭比娃娃就會買糖果」你的行銷策略如何?

• 把兩項商品擺在一起• 特意把兩項商品擺在相距較遠的地方• 將糖果和芭比娃娃組合起來一起賣• 糖果+芭比娃娃+銷售較差的商品一起組合銷售• 定價策略:提供一個單價,降低另一個商品價格• 廣告策略:芭比娃娃和糖果不需要同時廣告活動• 產品設計:設計芭比娃娃形狀的糖果• 提供芭比娃娃的配件,提升銷售

15Source:SASEnterpriseMinerCourseNotes,2014,SAS

我的資料適合進行購物籃分析嗎?

16

D A A B BA

Source:SASEnterpriseMinerCourseNotes,2014,SAS

SASEnterpriseMiner(SASEM)CaseStudy

• SASEM資料匯入4步驟– Step1.新增專案 (NewProject)– Step2.新增資料館 (New/Library)– Step3.建立資料來源 (CreateDataSource)– Step4.建立流程圖 (CreateDiagram)

• SASEMSEMMA建模流程

17

18

DownloadEM_Data.zip (SASEMDatasets)http://mail.tku.edu.tw/myday/teaching/1052/BDM/Data/EM_Data.zip

http://mail.tku.edu.tw/myday/teaching.htm

UpzipEM_Data.ziptoC:\DATA\EM_Data

19

UpzipEM_Data.ziptoC:\DATA\EM_Data

20

VMwareHorizonViewClientsoftcloud.tku.edu.twSASEnterpriseMiner

21

SASEnterpriseGuide(SASEG)

22

SASEGNewProject

23

SASEGOpenData

24

SASEGOpenwebstation.sas7bdat

25

26

webstation.sas7bdat

27

webstation.sas7bdat

SASEnterpriseMiner13.1(SASEM)

28

SASEM資料匯入4步驟

• Step1.新增專案 (NewProject)• Step2.新增資料館 (New/Library)• Step3.建立資料來源 (CreateDataSource)• Step4.建立流程圖 (CreateDiagram)

29

Step1.新增專案 (NewProject)

30

31

Step1.新增專案 (NewProject)

32

Step1.新增專案 (NewProject)

SASEnterpriseMiner(EM_Project2)

33

Step2.新增資料館 (New/Library)

34

35

Step2.新增資料館 (New/Library)

36

Step2.新增資料館 (New/Library)

37

Step2.新增資料館 (New/Library)

38

Step2.新增資料館 (New/Library)

Step3.建立資料來源 (CreateDataSource)

39

40

Step3.建立資料來源 (CreateDataSource)

41

Step3.建立資料來源 (CreateDataSource)

42

Step3.建立資料來源 (CreateDataSource)

43

Step3.建立資料來源 (CreateDataSource)

44

EM_LIB.WEBSTATION

Step3.建立資料來源 (CreateDataSource)

LibraryName.TableName

DatabaseName.TableName

45

Step3.建立資料來源 (CreateDataSource)

46

Step3.建立資料來源 (CreateDataSource)

47

Step3.建立資料來源 (CreateDataSource)

48

Step3.建立資料來源 (CreateDataSource)

49

Step3.建立資料來源 (CreateDataSource)

50

Step3.建立資料來源 (CreateDataSource)

51

Step3.建立資料來源 (CreateDataSource)

52

Step3.建立資料來源 (CreateDataSource)

Data Source AttributeRole: Transaction

53

Step3.建立資料來源 (CreateDataSource)

54

Step3.建立資料來源 (CreateDataSource)

55

Step4.建立流程圖 (CreateDiagram)

56

Step4.建立流程圖 (CreateDiagram)

57

Step4.建立流程圖 (CreateDiagram)

SASEnterpriseMiner(SASEM)CaseStudy

• SASEM資料匯入4步驟– Step1.新增專案 (NewProject)– Step2.新增資料館 (New/Library)– Step3.建立資料來源 (CreateDataSource)– Step4.建立流程圖 (CreateDiagram)

• SASEMSEMMA建模流程

58

59

案例情境模型流程

樣本資料匯入 (Sample)

60

EM_Lib.Webstation

61

樣本資料匯入 (Sample)EditVariable

62

63

樣本資料匯入 (Sample)EditVariable- Explore…

64

樣本資料匯入 (Sample)EditVariable- Explore…

Explore- Association

65

關聯分析 (AssociationAnalysis)

66

67

關聯分析 (AssociationAnalysis)

68

關聯分析 (AssociationAnalysis)

69

關聯分析 (AssociationAnalysis)

70

關聯分析 (AssociationAnalysis)

71

關聯分析 (AssociationAnalysis)

72

關聯分析 (AssociationAnalysis)

關聯分析 (AssociationAnalysis)Support:1%(MinimumSupport=1%)

73

74

關聯分析 (AssociationAnalysis)

75

關聯分析 (AssociationAnalysis)

76

關聯分析 (AssociationAnalysis)檢視/規則/規則表格 (RulesTable)

77

關聯分析 (AssociationAnalysis)AssociationRules-規則表格 (RulesTable)

78

關聯分析 (AssociationAnalysis)AssociationRules-規則表格 (RulesTable)

79

關聯分析 (AssociationAnalysis)檢視/規則/連結圖形 (LinkGraph)

80

關聯分析 (AssociationAnalysis)連結圖形 (LinkGraph)

81

關聯分析 (AssociationAnalysis)MaximumNumberofItems:3000000

82

關聯分析 (AssociationAnalysis)

83

關聯分析 (AssociationAnalysis)AssociationRules-規則表格 (RulesTable)

84

關聯分析 (AssociationAnalysis)連結圖形 (LinkGraph)

Reference

• 資料採礦運用:以SASEnterpriseMiner為工具,李淑娟,2015,SAS賽仕電腦軟體

• JimGeorges,JeffThompsonandChipWells,AppliedAnalyticsUsingSASEnterpriseMiner,SAS,2010

• SASEnterpriseMinerCourseNotes,2014,SAS• SASEnterpriseMinerTrainingCourse,2014,SAS• SASEnterpriseGuideTrainingCourse,2014,SAS

85

Recommended