15
Sử dụng weka để phân cụm dữ liệu: - Cài đặt weka download từ link: https://filehippo.com/download_weka/ - Chạy weka: Các chức năng chính của weka: + Chức năng explorer - Tiền xử lý dữ liệu - Phân lớp - Phân cụm - Khai phá luật kết hợp - Lựa chọn thuộc tính - Trực quan hóa

Clustering FIMS wekavai.org.vn/wp-content/uploads/2018/12/Clustering_FIMS.pdf · - Tiền xử lý dữ liệu - Phân lớp - Phân cụm - Khai phá luật kết hợp - Lựa chọn

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Sửdụngwekađểphâncụmdữliệu:

-Càiđặtwekadownloadtừlink:https://filehippo.com/download_weka/

-Chạyweka:

Cácchứcnăngchínhcủaweka:

+Chứcnăngexplorer

-Tiềnxửlýdữliệu

-Phânlớp

-Phâncụm

-Khaipháluậtkếthợp

-Lựachọnthuộctính

-Trựcquanhóa

+ChứcnăngExperimenter:

-Thiếtkếcácthínghiệm

-Lựachọnthuậttoánvàtậpdữliệu

-Chạythínghiệm

-Phântíchkếtquả(sosánhcáckếtquả,…)

+ChứcnăngKnowlegeFlow:

-Thiếtkếquátrìnhkhaiphádữliệu1cáchtrựcquan

-Từxửlýdữliệu->chạymôhình->trìnhbàykếtquả

+ChứcnăngWorkbench:

-Tổnghợpcácchứcnăngởtrênvàotrongmộtứngdụng

-Cungcấpchongườisửdụngcôngcụmạnhđểkhaiphádữliệu

+ChứcnăngSimpleCLI:

-ChophépngườidùngtươngtácvớiWEKAbằngcáchgõlệnh

TậptinxửlýchínhcủawekadạngARFF:

-Môtảđốitượngtrongkhônggiann-chiều

-TậptinARFFcóphầnheader

-TậptinARFFcóphầndata

-Cáckiểudữliệu

-LàmộtvănbảntheobảngmãASCII

-Môtảcácđốitượngcócùngchungtậpthuộctính

-Đượcsửdụnglàmđịnhdangchuẩnchodữliệuđượcdùngbớicácmôhìnhcủaweka

Ngườidùngcóthểđọccácloạitậptinđầuvàokhácnhư:csv,xls,…

Cácbướcxửlýbàitoánphâncụm:

Bước1:Chọnchứcnăngexplorer

Bước2:ĐọcdữliệutừPreprocess

-Đọcdữliệutừfile:openfile

-ĐọcdữliệutừđịachỉURL:openURL

-Đọcdữliệutừ1CSDL:openDB

-Đọcdữliệuphátsinh(phátsinhdữliệutừcácbộphátsinhdữliệuDataGenerators):Generators

Chọnđọcdữliệulàopenfile,sauđóchọnđườngdẫnđếnnơichứafile,chọnkiểufilecầnmở.

Bước3:Chỉnhsửadữliệu,chọnEdit

-Edit:biểudiễndữliệudướidạngbảng.

-Nhấnchuộtphảiracácchứcnăngwekahỗtrợtiềnxửlýdữliệu:thayđổitênthuộctính,thayđổigiátrịthuộctính,chọnthuộctínhlàmnhãn,….

Bước4:ChọnCluster

Bước5:Chọnthuậttoánsửdụng:choose

ChọnSimpleKmean

Bước6:thayđổicácthamsốcủathuậttoán(nhấnchuộtvàothuậttoán,chọnsốcụm)

Bước7:Chọnmodeđểtest:

-Usetrainingset:toànbộtậptrainingdùngđểtest.

-Suppliedtestset:chọn1tậptinđểtest.

-Precentagesplit:chọntheotỷlyệcủatậptraining.

-Classestoclustersvisualization:đánhgiátheothuộctínhphânlớp

Bước8:kếtquảđầura

-NếuchọnUsetrainingset(sốcụmlà5)

-Classestoclustersvisualization:đánhgiátheothuộctínhphânlớp(sốcụmlà5=sốnhãncủathuộctínhgánnhãn)

BộdữliệuFIMS1:Dựbáodelay

Môtảdữliệu:gồm16thuộctính,31793bảnghi:

STT Tênthuộctính Diễngiải

1 LEG_NO IDchuyếnbay(Netlines)

2 CAUSE N/A(blank)

3 FIGHT_TYPE Loạichuyếnbay(QT,QN)

4 SDEP Điểmxuấtphát

5 SARR Điếmđếntheolịch

6 AARR Điểmđếnthựctế

7 STD Thờigiankhởihànhtheolịch

8 STA Thờigianđếntheolịch

9 ETD ETD:thờigiankhởihànhdựkiến

10 ETA ETA:thờigianđếndựkiến

11 OUT_TIME Thờiđiểmrútchèn

12 OFF_TIME Thờiđiểmcấtcánh

13 ON_TIME Thờiđiểmhạcánh

14 IN_TIME Thờiđiểmđóngchèn

15 DELAY_TIME Thờigianchậmchuyến

16 DELAY_CODE Mãchậmchuyến

17 DELAY_GROUP Nhómchậmchuyến

ChọnthuộctínhgánnhãnlàDELAY_Group(có11nhómchậmchuyếnkhácnhauvớiđộdelaykhácnhau)

ChọnCluster:SimpleKmeans:việcsửdụngtoànbộdữliệu,vớisốcụmlà11,kếtquảthuđượcnhưsau:

ChọnCluster:SimpleKmeans:vớisốcụmlà11tươngứngvớithuộctínhgánlớp,kếtquảthuđượcnhưsau:

ChọnphâncumvớithuậttoánEM: