Tugas Data Minning

Embed Size (px)

Citation preview

  • 7/24/2019 Tugas Data Minning

    1/35

    MAKALAH DATA MINING

    SIGIT PRABOWO ( 210 511 139)

    FAKULTAS ILMU KOMPUTERUNIVERSITAS PEMBANGUNAN NASIONAL

    VETERAN AKARTATAHUN A ARAN 2013!201"

    1

  • 7/24/2019 Tugas Data Minning

    2/35

    DAFTAR ISI

    DAFTAR ISI..............................................................................................2Pengertian Data Mining..........................................................................3Pengenalan Pola, Data Mining, dan Machine Learning...........................4

    Tahap-Tahap Data mining.......................................................................4 Tahap-tahap data mining ada !......................................................."

    Metode Data mining...............................................................................#A$$ociation r%le$.................................................................................#Deci$ion Tree.......................................................................................&'l%$tering..........................................................................................((

    So)t*are Apli+a$i..................................................................................((De$ain Model Apli+a$i...........................................................................(2

    DFD Data Flo* Diagram .................................................................(2Perancangan Perang+at L%na+.............................................................(3Implementa$i dan Peng% ian /nit.........................................................(3

    2

  • 7/24/2019 Tugas Data Minning

    3/35

    Pengertian Data MiningSecara $ederhana data mining adalah penam0angan ata% penem%anin)orma$i 0ar% dengan mencari pola ata% at%ran tertent% dari $e %mlahdata 1ang $angat 0e$ar Da ie$, 2 4 . Data mining %ga di$e0%t$e0agai $erang+aian pro$e$ %nt%+ menggali nilai tam0ah 0er%papengetah%an 1ang $elama ini tida+ di+etah%i $ecara man%al dari $%at%+%mp%lan data Pram%diono, 2 # . Data mining, $ering %ga di$e0%t$e0agai +no*ledge di$co er1 in data0a$e DD . DD adalah+egiatan 1ang melip%ti peng%mp%lan, pema+aian data, hi$tori$ %nt%+menem%+an +eterat%ran, pola ata% h%0%ngan dalam $et data0er%+%ran 0e$ar Santo$o, 2 # .

    Data mining adalah +egiatan menem%+an pola 1ang menari+ dari datadalam %mlah 0e$ar, data dapat di$impan dalam data0a$e, data*areho%$e, ata% pen1impanan in)orma$i lainn1a. Data mining0er+aitan dengan 0idang ilm% 5 ilm% lain, $eperti data0a$e $1$tem,data *areho%$ing, $tati$ti+, machine learning, in)ormation retrie al,dan +omp%ta$i ting+at tinggi. Selain it%, data mining did%+%ng olehilm% lain $eperti ne%ral net*or+, pengenalan pola, $patial dataanal1$i$, image data0a$e, $ignal proce$$ing 6an, 2 . Datamining dide7ni$i+an $e0agai pro$e$ menem%+an pola-pola dalam data.Pro$e$ ini otomati$ ata% $eringn1a $emiotomati$. Pola 1ang ditem%+anhar%$ pen%h arti dan pola ter$e0%t mem0eri+an +e%nt%ngan,0ia$an1a +e%nt%ngan $ecara e+onomi. Data 1ang di0%t%h+an dalam

    %mlah 0e$ar 8itten, 2 " .

    ara+teri$ti+ data mining $e0agai 0eri+%tData mining 0erh%0%ngan dengan penem%an $e$%at% 1angter$em0%n1i dan pola data tertent% 1ang tida+ di+etah%i $e0el%mn1a.Data mining 0ia$a mengg%na+an data 1ang $angat 0e$ar. 9ia$an1adata 1ang 0e$ar dig%na+an %nt%+ mem0%at ha$il le0ih diperca1a.Data mining 0erg%na %nt%+ mem0%at +ep%t%$an 1ang +riti$, ter%tamadalam $trategi Da ie$, 2 4 .9erda$ar+an 0e0erapa pengertian ter$e0%t dapat ditari+ +e$imp%lan0ah*a data mining adalah $%at% te+ni+ menggali in)orma$i0erharga 1ang terpendam ata% ter$em0%n1i pada $%at% +ole+$i data

    data0a$e 1ang $angat 0e$ar $ehingga ditem%+an $%at% pola 1angmenari+ 1ang $e0el%mn1a tida+ di+etah%i. ata mining $endiri 0erarti%$aha %nt%+ mendapat+an $edi+it 0arang 0erharga dari $e %mlah 0e$armaterial da$ar. arena it% data mining $e0enarn1a memili+i a+ar 1angpan ang dari 0idang ilm% $eperti +ecerda$an 0%atan arti7cialintelligent , machine learning, $tati$ti+ dan data0a$e. 9e0erapametode 1ang $ering di$e0%t-$e0%t dalam literat%r data mining

    3

  • 7/24/2019 Tugas Data Minning

    4/35

    antara lain cl%$tering, la$$i7cation, a$$ociation r%le$ mining, ne%ralnet*or+, genetic algorithm dan lain-lain Pram%diono, 2 # .

    4

  • 7/24/2019 Tugas Data Minning

    5/35

    Pengenalan Pola, Data Mining, dan Machine LearningPengenalan pola adalah $%at% di$iplin ilm% 1ang mempela ari cara-carameng+la$i7+a$i+an o01e+ +e 0e0erapa +ela$ ata% +ategori danmengenali +ecender%ngan data. Tergant%ng pada apli+a$in1a, o01e+-o01e+ ini 0i$a 0er%pa pa$ien, maha$i$*a, pemohon +redit, imageata% $ignal ata% peng%+%ran lain 1ang perl% di+la$i7+a$i+an ata%dicari )%ng$i regre$in1a Santo$o, 2 # .Data mining, $ering %gadi$e0%t +no*ledge di$co er1 in data0a$e DD , adalah +egiatan1ang melip%ti peng%mp%lan, pema+aian data hi$tori$ %nt%+menem%+an +eterat%ran, pola ata% h%0%ngan dalam $et data0er%+%ran 0e$ar. el%aran dari data mining ini 0i$a dipa+ai %nt%+memper0ai+i pengam0ilan +ep%t%$an di ma$a depan. Sehingga i$tilahpattern recognition arang dig%na+an +arena terma$%+ 0agian daridata mining Santo$o, 2 # .Machine Learning adalah $%at% area dalam arti7cial intelligence ata%+ecerda$an 0%atan 1ang 0erh%0%ngan dengan pengem0angan te+ni+-te+ni+ 1ang 0i$a diprogram+an dan 0ela ar dari data ma$a lal%.Pengenalan pola, data mining dan machine learning $ering dipa+ai%nt%+ men1e0%t $e$%at% 1ang $ama. 9idang ini 0er$ingg%ngandengan ilm% pro0a0ilita$ dan $tati$ti+ +adang %ga optima$i. Machinelearning men adi alat anali$i$ dalam data mining. 9agaimana 0idang-0idang ini 0erh%0%ngan 0i$a dilihat dalam gam0ar 2.4 Santo$o, 2 # .

    Tahap-Tahap Data miningSe0agai $%at% rang+aian pro$e$, data mining dapat di0agi men adi0e0erapa tahap 1ang diil%$tra$i+an di :am0ar 2.". Tahap-tahap

    ter$e0%t 0er$i)at intera+ti), pema+ai terli0at lang$%ng ata% denganperantaraan +no*ledge 0a$e

    5

  • 7/24/2019 Tugas Data Minning

    6/35

    T#$#%&'#$#% #'# *+*+, # # - .#*'/ :

    (. Pem0er$ihan data data cleaningPem0er$ihan data mer%pa+an pro$e$ menghilang+an noi$e dan data1ang tida+ +on$i$ten ata% data tida+ rele an. Pada %m%mn1a data1ang diperoleh, 0ai+ dari data0a$e $%at% per%$ahaan ma%p%n ha$ile+$perimen, memili+i i$ian-i$ian 1ang tida+ $emp%rna $eperti data1ang hilang, data 1ang tida+ alid ata% %ga han1a $e+edar $alah +eti+.Selain it%, ada %ga atri0%t-atri0%t data 1ang tida+ rele an denganhipote$a data mining 1ang dimili+i. Data-data 1ang tida+ rele an it%

    %ga le0ih 0ai+ di0%ang. Pem0er$ihan data %ga a+an mempengar%hiper)orma$i dari te+ni+ data mining +arena data 1ang ditangani a+an

    0er+%rang %mlah dan +omple+$ita$n1a.2. Integra$i data data integrationIntegra$i data mer%pa+an pengga0%ngan data dari 0er0agai data0a$e+e dalam $at% data0a$e 0ar%. Tida+ arang data 1ang diperl%+an%nt%+ data mining tida+ han1a 0era$al dari $at% data0a$e tetapi

    %ga 0era$al dari 0e0erapa data0a$e ata% 7le te+$. Integra$i datadila+%+an pada atri0%t-ari0%t 1ang mengidenti7+a$i+an entita$-entita$1ang %ni+ $eperti atri0%t nama, eni$ prod%+, nomor pelanggan dan

    6

  • 7/24/2019 Tugas Data Minning

    7/35

    lainn1a. Integra$i data perl% dila+%+an $ecara cermat +arena +e$alahanpada integra$i data 0i$a mengha$il+an ha$il 1ang men1impang dan0ah+an men1e$at+an pengam0ilan a+$i nantin1a. Se0agai contoh 0ilaintegra$i data 0erda$ar+an eni$ prod%+ tern1ata mengga0%ng+anprod%+ dari +ategori 1ang 0er0eda ma+a a+an didapat+an +orela$i

    antar prod%+ 1ang $e0enarn1a tida+ ada.3. Sele+$i Data Data SelectionData 1ang ada pada data0a$e $ering +ali tida+ $em%an1a dipa+ai, oleh+arena it% han1a data 1ang $e$%ai %nt%+ dianali$i$ 1ang a+an diam0ildari data0a$e. Se0agai contoh, $e0%ah +a$%$ 1ang meneliti )a+tor+ecender%ngan orang mem0eli dalam +a$%$ mar+et 0a$+et anal1$i$,tida+ perl% mengam0il nama pelanggan, c%+%p dengan id pelanggan$a a.4. Tran$)orma$i data Data Tran$)ormationData di%0ah ata% diga0%ng +e dalam )ormat 1ang $e$%ai %nt%+dipro$e$ dalam data mining. 9e0erapa metode data mining

    mem0%t%h+an )ormat data 1ang +h%$%$ $e0el%m 0i$a diapli+a$i+an.Se0agai contoh 0e0erapa metode $tandar $eperti anali$i$ a$o$ia$idan cl%$tering han1a 0i$a menerima inp%t data +ategori+al.

    arenan1a data 0er%pa ang+a n%meri+ 1ang 0erlan %t perl% di0agi-0agimen adi 0e0erapa inter al. Pro$e$ ini $ering di$e0%t tran$)orma$i data.". Pro$e$ mining,Mer%pa+an $%at% pro$e$ %tama $aat metode diterap+an %nt%+menem%+an pengetah%an 0erharga dan ter$em0%n1i dari data.

    . ; al%a$i pola pattern e al%ation ,/nt%+ mengidenti7+a$i pola-pola menari+ +edalam +no*ledge 0a$ed1ang ditem%+an. Dalam tahap ini ha$il dari te+ni+ data mining 0er%pa

    pola-pola 1ang +ha$ ma%p%n model predi+$i die al%a$i %nt%+ menilaiapa+ah hipote$a 1ang ada memang tercapai. 9ila tern1ata ha$il 1angdiperoleh tida+ $e$%ai hipote$a ada 0e0erapa alternati) 1ang dapatdiam0il $eperti men adi+ann1a %mpan 0ali+ %nt%+ memper0ai+ipro$e$ data mining, menco0a metode data mining lain 1ang le0ih$e$%ai, ata% menerima ha$il ini $e0agai $%at% ha$il 1ang di l%ar d%gaan1ang m%ng+in 0erman)aat.#. Pre$enta$i pengetah%an +no*ledge pre$entation ,Mer%pa+an i$%ali$a$i dan pen1a ian pengetah%an mengenai metode1ang dig%na+an %nt%+ memperoleh pengetah%an 1ang diperolehpengg%na. Tahap tera+hir dari pro$e$ data mining adalah 0agaimanamem)orm%la$i+an +ep%t%$an ata% a+$i dari ha$il anali$i$ 1angdidapat. Ada +alan1a hal ini har%$ meli0at+an orang-orang 1ang tida+memahami data mining. arenan1a pre$enta$i ha$il data miningdalam 0ent%+ pengetah%an 1ang 0i$a dipahami $em%a orang adalah$at% tahapan 1ang diperl%+an dalam pro$e$ data mining. Dalampre$enta$i ini, i$%ali$a$i %ga 0i$a mem0ant% meng+om%ni+a$i+anha$il data mining 6an, 2

    7

  • 7/24/2019 Tugas Data Minning

    8/35

    Metode Data miningDengan de7ni$i data mining 1ang l%a$, ada 0an1a+ eni$ metodeanali$i$ 1ang dapat digolong+an dalam data mining.

    Association rulesA$$ociation r%le$ at%ran a$o$ia$i ata% a. Se0agaicontoh dapat 0er%pa 0er%pa $t%di tran$a+$i di $%permar+et, mi$aln1a$e$eorang 1ang mem0eli $%$% 0a1i %ga mem0eli $a0%n mandi. Pada+a$%$ ini 0erarti $%$% 0a1i 0er$ama dengan $a0%n mandi. arenaa*aln1a 0era$al dari $t%di tentang data0a$e tran$a+$i pelanggan%nt%+ menent%+an +e0ia$aan $%at% prod%+ di0eli 0er$ama prod%+ apa,ma+a at%ran a$o$ia$i %ga $ering dinama+an mar+et 0a$+et anal1$i$.At%ran a$o$ia$i ingin mem0eri+an in)orma$i ter$e0%t dalam 0ent%+h%0%ngan =i)-then> ata% = i+a-ma+a>. At%ran ini dihit%ng dari data1ang $i)atn1a pro0a0ili$ti+ Santo$o, 2 # . Anali$i$ a$o$ia$i di+enal

    %ga $e0agai $alah $at% metode data mining 1ang men adi da$ardari 0er0agai metode data mining lainn1a. h%$%$n1a $alah $at%tahap dari anali$i$ a$o$ia$i 1ang di$e0%t anali$i$ pola )re+%en$i tinggi

    )re?%ent pattern mining menari+ perhatian 0an1a+ peneliti %nt%+mengha$il+an algoritma 1ang e7$ien. Penting tida+n1a $%at% at%rana$$o$iati) dapat di+etah%i dengan d%a parameter, $%pport nilaipen%n ang 1ait% pro$enta$e +om0ina$i item ter$e0%t. dalam data0a$edan con7dence nilai +epa$tian 1ait% +%atn1a h%0%ngan antar item

    dalam at%ran a$$o$iati). Anali$i$ a$o$ia$i dide7ni$i+an $%at% pro$e$%nt%+ menem%+an $em%a at%ran a$$o$iati) 1ang memen%hi $1aratminim%m %nt%+ $%pport minim%m $%pport dan $1arat minim%m%nt%+ con7dence minim%m con7dence Pram%diono, 2 # .Ada 0e0erapa algoritma 1ang $%dah di+em0ang+an mengenai at%rana$o$ia$i, nam%n ada $at% algoritma +la$i+ 1ang $ering dipa+ai 1ait%algoritma apriori. Ide da$ar dari algoritma ini adalah denganmengem0ang+an )re?%ent item$et. Dengan mengg%na+an $at% itemdan $ecara re+%r$i) mengem0ang+an )re?%ent item$et dengan d%aitem, tiga item dan $eter%$n1a hingga )re?%ent item$et dengan$em%a %+%ran. /nt%+ mengem0ang+an )re?%ent $et dengan d%a

    item, dapat mengg%na+an )re?%ent $et item. Ala$ann1a adalah 0ila$et $at% item tida+ mele0ihi $%pport minim%m, ma+a $em0arang%+%ran item$et 1ang le0ih 0e$ar tida+ a+an mele0ihi $%pportminim%m ter$e0%t. Secara %m%m, mengem0ang+an $et dengan )c-item mengg%na+an )re?%ent $et dengan + 5 ( item 1angdi+em0ang+an dalam lang+ah $e0el%mn1a. Setiap lang+ahmemerl%+an $e+ali pemeri+$aan +e $el%r%h i$i data0a$e.

    8

  • 7/24/2019 Tugas Data Minning

    9/35

    Dalam a$o$ia$i terdapat i$tilah antecedent dan con$e?%ent,antecedent %nt%+ me*a+ili 0agian = i+a> dan con$e?%ent %nt%+me*a+ili 0agian =ma+a>. Dalam anali$i$ ini, antecedent dancon$e?%ent adalah $e+elompo+ item 1ang tida+ p%n1a h%0%ngan$ecara 0er$ama Santo$o, 2 # . Dari %mlah 0e$ar at%ran 1ang

    m%ng+in di+em0ang+an, perl% memili+i at%ran-at%ran 1ang c%+%p +%atting+at +etergant%ngan antar item dalam antecedent dancon$e?%ent. /nt%+ meng%+%r +e+%atan at%ran a$o$ia$i ini, dig%na+an%+%ran $%pport dan con7dence. S%pport adalah ra$io antara %mlahtran$a+$i 1ang mem%at antecedent dan con$e?%ent dengan %mlahtran$a+$i. 'on7dence adalah ra$io antara %mlah tran$a+$i 1angmelip%ti $em%a item dalam antecedent dan con$e?%entdengan %mlah tran$a+$i 1ang melip%ti $em%a item dalam antecedent.

    Lang+ah pertama algoritma apriori adalah, $%pport dari $etiap itemdihit%ng dengan men-$can data0a$e. Setelah $%pport dari $etiapitem didapat, item 1ang memili+i $%pport le0ih 0e$ar dari minim%m$%pport dipilih $e0agai pola )re+%en$i tinggi dengan pan ang ( ata%$ering di$ing+at (-item$et. Sing+atan +-item$et 0erarti $at% $et 1angterdiri dari + item. Itera$i +ed%a mengha$il+an 2-item$et 1ang tiap

    9

  • 7/24/2019 Tugas Data Minning

    10/35

    $et-n1a memili+i d%a item. Pertama di0%at +andidat 2-item$et dari+om0ina$i $em%a (-item$et. Lal% %nt%+ tiap+andidat 2-item$et ini dihit%ng $%pport-n1a dengan men-$candata0a$e. S%pport artin1a %mlah tran$a+$i dalam data0a$e 1angmengand%ng +ed%a item dalam +andidat 2-item$et. Setelah $%pport

    dari $em%a +andidat 2-item$et didapat+an, +andidat 2-item$et 1angmemen%hi $1arat minim%m $%pport dapat ditetap+an $e0agai 2-item$et 1ang %ga mer%pa+an pola )re+%en$i tinggi dengan pan ang 2.

    Pram%diono, 2 #

    /nt%+ $elan %tn1a itera$i itera$i +e-+ dapat di0agi lagi men adi0e0erapa 0agian !(. Pem0ent%+an +andidat item$et

    andidat +-item$et di0ent%+ dari +om0ina$i +-( -item$et 1ang didapatdari itera$i $e0el%mn1a. Sat% ciri dari algoritma apriori adalah adan1apemang+a$an +andidat +-item$et 1ang $%0$et-n1a 1ang 0eri$i +-( item

    tida+ terma$%+ dalam pola )re+%en$i tinggi dengan pan ang +-(.2. Penghit%ngan $%pport dari tiap +andidat +-item$etS%pport dari tiap +andidat +-item$et didapat dengan men-$candata0a$e %nt%+ menghit%ng %mlah tran$a+$i 1ang mem%at $em%aitem di dalam +andidat +-item$et ter$e0%t. Ini adalah %ga ciri darialgoritma apriori 1ait% diperl%+an penghit%ngan dengan $can $el%r%hdata0a$e $e0an1a+ +-item$et terpan ang.3. Tetap+an pola )re+%en$i tinggiPola )re+%en$i tinggi 1ang mem%at + item ata% +-item$et ditetap+andari +andidat +-item$et 1ang $%pport-n1a le0ih 0e$ar dari minim%m$%pport. em%dian dihit%ng con7dence ma$ing-ma$ing +om0ina$i

    item. Itera$i 0erhenti +eti+a $em%a item telah dihit%ng $ampai tida+ada +om0ina$i item lagi. Pram%diono, 2 #Secara ring+a$ algoritma apriori $e0agai 0eri+%t !

    'reate L( @ $et o) $%pported item$et$ o) cardinalit1 oneSet + to 2*hile L+ ( B@ C 'reate '+ )rom L+ (Pr%ne all the item$et$ in '+ that are not$%pported, to create L+Increa$e + 01 (E

    The $et o) all $%pported item$et$ i$ L( L2 G G G L+

    Selain algoritma apriori, terdapat %ga algoritma lain $eperti FP-:r*oth.Per0edaan algoritma apriori dengan FP-:ro*th pada 0an1a+n1a$can data0a$e. Algoritma apriori mela+%+an $can data0a$e $etiap +ali

    10

  • 7/24/2019 Tugas Data Minning

    11/35

    itera$i $edang+an algoritma FP-:ro*th han1a mela+%+an $e+ali di a*al9ramer, 2 # .

    Decision Tree

    Dalam deci$ion tree tida+ mengg%na+an ector ara+ %nt%+meng+la$i7+a$i+an o01e+. Sering+ali data o0$er a$i memp%n1aiatri0%t-atri0%t 1ang 0ernilai nominal. Seperti 1ang diil%$tra$i+an padagam0ar 2. , mi$al+an o01e+n1a adalah $e+%mp%lan 0%ah-0%ahan1ang 0i$a di0eda+an 0erda$ar+an atri0%t 0ent%+, *arna, %+%ran danra$a. 9ent%+, *arna, %+%ran dan ra$a adalah 0e$aran nominal, 1ait%0er$i)at +ategori$ dan tiap nilai tida+ 0i$a di %mlah+an ata%di+%rang+an. Dalam atri0%t *arna ada 0e0erapa nilai 1ang m%ng+in1ait% hi a%, +%ning, merah. Dalam atri0%t %+%ran ada nilai 0e$ar,$edang dan +ecil. Dengan nilai-nilai atri0%t ini, +em%dian di0%atdeci$ion tree %nt%+ menent%+an $%at% o01e+ terma$%+ eni$ 0%ah apa

    i+a nilai tiap-tiap atri0%t di0eri+an Santo$o, 2 # .

    Ada 0e0erapa macam algoritma deci$ion tree diantaran1a 'ART dan'4.". 9e0erapa i$% %tama dalam deci$ion tree 1ang men adiperhatian 1ait% $e0erapa detail dalam mengem0ang+an deci$ion tree,0agaimana mengata$i atri0%t 1ang 0ernilai contin%e$, memilih %+%ran1ang coco+ %nt%+ penent%an atri0%t, menangani data training 1angmemp%n1ai data 1ang atri0%tn1a tida+ memp%n1ai nilai, memper0ai+ie7$ien$i perhit%ngan Santo$o, 2 # .Deci$ion tree $e$%ai dig%na+an%nt%+ +a$%$-+a$%$ 1ang +el%arann1a 0ernilai di$+rit. 8ala%p%n0an1a+ aria$i model deci$ion tree dengan ting+at +emamp%an dan$1arat 1ang 0er0eda, pada %m%mn1a 0e0erapa ciri 1ang coco+ %nt%+diterap+ann1a deci$ion tree adalah $e0agai 0eri+%t !(. Data din1ata+an dengan pa$angan atri0%t dan nilain1a2. La0elH+el%aran data 0ia$an1a 0ernilai di$+rit

    11

  • 7/24/2019 Tugas Data Minning

    12/35

    3. Data memp%n1ai mi$$ing al%e nilai dari $%at% atri0%t tida+di+etah%i

    Dengan cara ini a+an m%dah mengelompo++an o01e+ +e dalam0e0erapa +elompo+. /nt%+ mem0%at deci$ion tree perl%

    memperhati+an hal-hal 0eri+%t ini !(. Atri0%t mana 1ang a+an dipilih %nt%+ pemi$ahan o01e+2. /r%tan atri0%t mana 1ang a+an dipilih terle0ih dah%l%3. Str%+t%r tree4. riteria pem0erhentian". Pr%ning

    Santo$o, 2 #

    Clustering 'l%$tering terma$%+ metode 1ang $%dah c%+%p di+enal dan 0an1a+dipa+ai dalam data mining. Sampai $e+arang para ilm%*an dalam0idang data miningma$ih mela+%+an 0er0agai %$aha %nt%+ mela+%+anper0ai+an model cl%$tering +arena metode 1ang di+em0ang+an$e+arang ma$ih 0er$i)at he%ri$tic. /$aha-%$aha %nt%+ menghit%ng

    %mlah cl%$ter 1ang optimal dan peng+la$teran 1ang paling 0ai+ma$ih ter%$ dila+%+an. Dengan demi+ian mengg%na+an metode 1ang$e+arang, tida+ 0i$a men amin ha$il peng+la$teran $%dah mer%pa+anha$il 1ang optimal. am%n, ha$il 1ang dicapai 0ia$an1a $%dah c%+%p0ag%$ dari $egi pra+ti$.

    Tujuan utama dari metode clustering adalah pengelompokan sejumlah data o!"ek kealam cluster #group$ sehingga dalam setiap cluster akan !erisi data "ang semiripmungkin seperti diilustrasikan pada gam!ar 2%7% &alam clustering metode ini

    12

  • 7/24/2019 Tugas Data Minning

    13/35

    !erusaha untuk menempatkan o!"ek "ang mirip #jarakn"a dekat$ dalam satu klaster danmem!uat jarak antar klaster sejauh mungkin% 'ni !erarti o!"ek dalam satu cluster sangatmirip satu sama lain dan !er!eda dengan o!"ek dalam cluster(cluster "ang lain% &alammetode ini tidak diketahui se!elumn"a !erapa jumlah cluster dan !agaimana

    pengelompokann"a #)antoso* 2007$%

    Software Apli asi)o+t,are aplikasi terdiri atas program "ang !erdiri sendiri "ang mampu mengatasike!utuhan !isnis tertentu% -plikasi mem+asilitasi operasi !isnis atau pengam!ilankeputusan manajemen maupun teknik se!agai tam!ahan dalam aplikasi pemrosesan datakon.ensional% )o+,are aplikasi digunakan untuk mengatur +ungsi !isnis secara realtime #/ressman* 2005$%

    Desain Model Apli asi&esain model dari aplikasi terdiri dari ph"sical model dan logical model% /h"sicalmodel dapat digam!arkan dengan !agan alir sistem% ogical model dalam sistemin+ormasi le!ih menjelaskan kepada pengguna !agaimana nantin"a +ungsi(+ungsi disistem in+ormasi secara logika akan !ekerja% ogical model dapat digam!arkan dengan& & #&ata lo, &iagram$ dan kamus data #&ata &ictionar"$% -dapun penjelasan darialat !antu dalam desain model adalah se!agai !erikut :

    1% &iagram onteks # onte t &iagram$&iagram konteks adalah se!uah diagram sederhana "ang menggam!arkan hu!unganantara proses dan entitas luarn"a% -dapun sim!ol(sim!ol dalam diagram konteks sepertidijelaskan pada ta!el 2%2%

    13

  • 7/24/2019 Tugas Data Minning

    14/35

    DFD (Data Flow Diagram)& & merupakan suatu model logika "ang menggam!arkan asal data dan tujuan data"ang keluar dari sistem* serta menggam!arkan pen"impanan data dan proses "angmentran+ormasikan data% & & menunjukkan hu!ungan antara data pada sistem dan

    proses pada sistem% e!erapa sim!ol "ang digunakan dalam & & diterangkan pada ta!el2%3

    Perancangan Perang at Luna/roses perancangan sistem mem!agi pers"aratan dalam sistem perangkat keras atau

    perangkat lunak% egiatan ini menentukan arsitektur sistem secara keseluruhan%/erancangan perangkat lunak meli!atkan identi+ikasi dan deskripsi a!straksi sistem

    perangkat lunak "ang mendasar dan hu!ungan(hu!ungann"a #)ommer.ille* 2003$%)e!agaimana pers"aratan* desain didokumentasikan dan menjadi !agian dari kon+igurasiso+t,are #/ressman* 1997$% Tahap desain meliputi perancangan data* perancangan+ungsional* dan perancangan antarmuka%1% /erancangan data/erancangan data mentrans+ormasikan model data "ang dihasilkan oleh proses analisismenjadi struktur data "ang di!utuhkan pada saat pem!uatan program #coding$% )elain itu

    juga akan dilakukan desain terhadap struktur data!ase "ang akan dipakai%2% /erancangan +ungsional/erancangan +ungsional mendeskripsikan ke!utuhan +ungsi(+ungsi utama perangkatlunak%3% /erancangan antarmuka

    14

  • 7/24/2019 Tugas Data Minning

    15/35

    /erancangan antarmuka mende+inisikan !agaimana pengguna #user$ dan perangkat lunak !erkomunikasi dalam menjalankan +ungsionalitas perangkat lunak%

    Implementasi dan Pengu!ian "nit/ada tahap ini* perancangan perangkat lunak direalisasikan se!agai serangkaian programatau unit program% emudian pengujian unit meli!atkan .eri+ikasi !ah,a setiap unit

    program telah memenuhi spesi+ikasin"a #)ommer.ille* 2003$%/rogram se!aikn"a dirilissetelah dikem!angkan* diuji untuk memper!aiki kesalahan "ang ditemukan pada

    pengujian untuk menjamin kualitasn"a #/admini* 2005$% Terdapat dua metode pengujian"aitu :1$ etode ,hite !o "aitu pengujian "ang !er+okus pada logika internal so+t,are#source code program$%2$ etode !lack !o "aitu mengarahkan pengujian untuk menemukan kesalahan(mesalahan dan memastikan !ah,a input "ang di!atasi akan mem!erikan hasil aktual"ang sesuai dengan hasil "ang di!utuhkan% /ada tahap pengujian* penulis melakukan

    metode !lack !o "aitu menguji +ungsionalitas dari perangkat lunak saja tanpa harusmengetahui struktur internal program #source code$%

    15

  • 7/24/2019 Tugas Data Minning

    16/35

    D# '# P/ '# #

    /erpustakaan /usat ni.ersitas /em!angunan asional eteran;

  • 7/24/2019 Tugas Data Minning

    17/35

    17

  • 7/24/2019 Tugas Data Minning

    18/35

    ENDAHULUAN

    Salah satu efek yang dihasilkan dari adanya suatu sistem informasiadalah munculnya banyak data. Data yang ada ini berasal darisistem operasional yang berfungsi untuk menangani transaksi yangterkait dengan proses bisnis yang ditangani oleh sistem informasitersebut. Contoh sistem informasi presensi karya!an memunculkandata "umlah kehadiran kehadiran karya!an setiap hari dengan datayang disimpan tergantung pada apa yang dibutuhkan oleh sisteminformasi tersebut #misalkan nomor induk pega!ai$ "am masuk$pintu masuk$ dsb.%. &ayangkanlah sistem informasi ini dipakai diperusahaan yang "umlah karya!annya sebanyak '((( orang.Apabila data ini dipakai selama seminggu masa ker"a sa"a #) hari%$

    maka data yang masuk dalam basis data ada '((( * ) + )((( baris.Anda tinggal kalikan sa"a apabila ingin menghitung "umlah data yangdisimpan selama seminggu !aktu operasional$ sebulan$ hinggasetahun. ,tu baru satu sistem informasi sa"a. Di korporasi yangbesar sistem informasi yang ada ber"umlah banyak dengan berbagaifungsi dan tu"uannya. Akhirnya masalah berikutnya muncul.

    18

  • 7/24/2019 Tugas Data Minning

    19/35

    Data !arehouse adalah data-data yang beorientasi sub"ek$ terintegrasi$memiliki dimensi !aktu$ serta merupakan koleksi tetap #non-

    olatile%$ yang digunakan dalam mendukung proses pengambilankeputusan. Sedangkan data mining muncul setelah banyak daripemilik data baik perorangan maupun organisasi mengalamipenumpukan data yang telah terkumpul selama beberapa tahun$misalnya data pembelian$ data pen"ualan$ data nasabah$ datatransaksi$ email dan sebagainya. /emudian muncul pertanyaan daripemilik data tersebut$ apa yang harus dilakukan terhadap tumpukandata tersebut.

    Data mining merupakan prinsip dasar dalam mengurutkan data dalam "umlah yang sangat banyak dan mengambil informasi 0 informasiyang berkaitan dengan apa yang diperlukan seperti apa yang biasadilakukan oleh seorang analis. Dengan bertambah banyaknya "umlahdata yang ada dalam model bisnis yang kita lakukan dalamperusahaan ini$ maka peran analis untuk menganalisa data secaramanual perlu digantikan dengan aplikasi yang berbasis komputeryang dapat menganalisa data secara otomatis menggunakan alatyang lebih kompleks dan canggih.

    Data !arehouse adalah database yang berisi data dari beberapa systemoperasional yang terintegrasi dan terstruktur sehingga dapatdigunakan untuk mendukung analisa dan proses pengambilankeputusan dalam bisnis.

    Data !arehouse didesain untuk kita bisa melakukan 1uery secara cepat.,nformasi diturunkan dari data lain$ dilakukan rolling up untukdi"adikan ringkasan$ dilakukan operasi drilling do!n untukmendapatkan informasi lebih detail$ atau melihat pola yang menarikatau melihat trend #kecenderungan%.

    Ada empat tugas yang bisa dilakukan dengan adanya data !arehouse

    '. 2embuatan laporan

    2embuatan laporan merupakan salah satu kegunaan data !arehouseyang paling umum dilakukan. Dengan menggunakan 1uerysederhana didapatkan laporan perhari$ perbulan$ pertahun atau

    "angka !aktu kapanpun yang diinginkan.

    3. 4n-Line Analytical 2rocessing #4LA2%

    4LA2 mendayagunakan konsep data multi dimensi dan memungkinkanpara pemakai menganalisa data sampai mendetail$ tanpamengetikkan satupun perintah S5L. Hal ini dimungkinkan karenapada konsep multi dimensi$ maka data yang berupa fakta yang samabisa dilihat dengan menggunakan fungsi yang berbeda. 6asilitas lainyang ada pada sof!are 4LA2 adalah fasilitas rool-up dan drill-do!n.Drill-do!n adalah kemampuan untuk melihat detail dari suatuinformasi dan roll-up adalah kebalikannya.

    19

  • 7/24/2019 Tugas Data Minning

    20/35

    7. Data mining

    Data mining merupakan proses untuk menggali pengetahuan daninformasi baru dari data yang ber"umlah banyak pada data!arehouse$ dengan menggunakan kecerdasan buatan #Artificial,ntelegence%$ statistik dan matematika. Data mining merupakanteknologi yang diharapkan dapat men"embatani komunikasi antaradata dan pemakainya.

    &eberapa solusi yang diberikan data mining antara lain

    8enebak target pasar

    Data mining dapat mengelompokkan #clustering% model-model pembelidan melakukan klasifikasi terhadap setiap pembeli dan melakukanklasifikasi terhadap setiap pemebeli sesuai dengan karakteristikyang diinginkan.

    8elihat pola beli dari !aktu ke !aktu

    Data mining dapat digunakan untuk melihat pola beli dari !aktu ke!aktu.

    cross-market analysis

    Data mining dapat dimanfaatkan untuk melihat hubungan antara satuproduk dengan produk lainnya.

    2rofil pelanggan

    Data mining bisa membantu pengguna untuk melihat profil pembelisehingga dapat diketahui kelompok pembeli tertentu cenderungkepada suatu produk apa sa"a.

    ,nformasi summary

    Data mining dapat membuat laporan summary yang bersifat multidimensi dan dilengkapi dengan informasi statistik lainnya.

    9. 2roses informasi e*ecuti e

    Data !arehouse dapat membuat ringkasan informasi yang pentingdengan tu"uan membuat keputusan bisnis$ tanpa harus men"ela"ahikeseluruhan data. Dengan menggunakan data !arehouse segalalaporan telah diringkas dan dapat pula mengetahui segala rinciannyasecara lengkap$ sehingga mempermudah proses pengambilankeputusan. ,nformasi dan data pada laporan data !arehousemen"adi target informati e bagi user.

    /arakteristik Data :arehouse

    20

  • 7/24/2019 Tugas Data Minning

    21/35

    '. Sub"ect 4riented #&erorientasi sub"ect%

    Data !arehouse berorientasi sub"ect artinya data !arehouse didesainuntuk menganalisa data berdasarkan sub"ect-sub"ect tertentu dalamorganisasi$bukan pada proses atau fungsi aplikasi tertentu. Data!arehouse diorganisasikan disekitar sub"ek-sub"ek utama dariperusahaan#customers$products dan sales% dan tidakdiorganisasikan pada area-area aplikasi utama#customerin oicing$stock control dan product sales%. Hal ini dikarenakankebutuhan dari data !arehouse untuk menyimpan data-data yangbersifat sebagai penun"ang suatu keputusan$ dari pada aplikasi yangberorientasi terhadap data.

    ;adi dengan kata lain$ data yang disimpan adalah berorientasi kepadasub"ek bukan terhadap proses. Secara garis besar perbedaan antaradata operasional dan data !arehouse yaitu

    3. ,ntegrated #

  • 7/24/2019 Tugas Data Minning

    22/35

    Contoh pada lingkungan operasional terdapat berbagai macam aplikasiyang mungkin pula dibuat oleh de eloper yang berbeda. 4leh karenaitu$ mungkin dalam aplikasi-aplikasi tersebut ada ariable yangmemiliki maksud yang sama tetapi nama dan format nya berbeda.>ariable tersebut harus dikon ersi men"adi nama yang sama danformat yang disepakati bersama. Dengan demikian tidak ada lagikerancuan karena perbedaan nama$ format dan lain sebagainya.&arulah data tersebut bisa dikategorikan sebagai data yangterintegrasi karena kekonsistenannya.

    7. olatile

    /arakteristik keempat dari data !arehouse adalah non-olatile$maksudnya data pada data !arehouse tidak di-update

    secara real time tetapi di refresh dari sistem operasional secarareguler. Data yang baru selalu ditambahkan sebagai suplemen bagidatabase itu sendiri dari pada sebagai sebuah perubahan. Databasetersebut secara kontinyu menyerap data baru ini$ kemudian secaraincremental disatukan dengan data sebelumnya.

    &erbeda dengan database operasional yang dapat melakukanupdate$insert dan delete terhadap data yang mengubah isi daridatabase sedangkan pada data !arehouse hanya ada dua kegiatanmemanipulasi data yaitu loading data #mengambil data% dan aksesdata #mengakses data !arehouse seperti melakukan 1uery ataumenampilan laporan yang dibutuhkan$ tidak ada kegiatan updatingdata%.

    22

  • 7/24/2019 Tugas Data Minning

    23/35

    2eranan 2enting 4LS 4LA2 dalam Data :arehouse

    4L

  • 7/24/2019 Tugas Data Minning

    24/35

    Data !arehouse menyediakan sebuah interface gabungan terhadapdata$ sehingga 1uery-1uery pendukung keputusan mudah ditulis.Data !arehouse "uga dapat menyimpan sumber data yang heterogen#data yang tersebar pada database 4nline

  • 7/24/2019 Tugas Data Minning

    25/35

    Drill-do!n adalah suatu bentuk yang merupakan kebalikan darikonsolidasi$ yang memungkinkan data yang ringkas di"abarkanmen"adi data yang lebih detail. Sebagai contoh$ mula-mula data yangtersa"i didasarkan pada kuartal pertama. ;ika dikehendaki$ datamasing-masing bulan pada kuartal pertama tersebut bisa diperoleh$sehingga akan tersa"i data bulan ;anuari$ 6ebruari$ 8aret$ dan April.

    Slicing and dicing #atau dikenal dengan istilah pi oting%

    Untuk men"abarkan pada kemampuan untuk melihat data dari berbagaisudut pandang. Data dapat diiris-iris atau dipotong-potongberdasarkan kebutuhan. Sebagai contoh$ dapat diperoleh datapen"ualan berdasarkan semua lokasi atau hanya pada lokasi-lokasitertentu.

    Adapun karakterisik aplikasi-aplikasi 4LA2

    permintaan data sangat kompleks$

    "arang ada pemutakhiran$ dan

    transaksi mengakses banyak bagian dalam basis data.

    Contoh perangkat lunak 4LA2

    E*press Ser er #4racle%

    2o!er2lay #Cognos Soft!are%

    8etacube #,nformi*?Stanford

  • 7/24/2019 Tugas Data Minning

    26/35

    Data !arehouse merupakan pendekatan untuk menyimpan data dimanasumber-sumber data yang heterogen#yang biasanya tersebar padabeberapa database #4L

  • 7/24/2019 Tugas Data Minning

    27/35

    /arenanya data !arehouse seharusnya dipahami sebagai suatu proses$yang memiliki tahapan-tahapan tertentu dan "uga ada umpan balikdari setiap tahapan ke tahapan sebelumnya. 2ada umumnya prosesdata mining ber"alan interaktif karena tidak "arang hasil data miningpada a!alnya tidak sesuai dengan harapan analisnya sehingga perludilakukan desain ulang prosesnya.

    8etodologi Data :arehouse

    '. 8etode NC= # Non Conform report %

    7N6 dan model perusahaan #penekanan pada normalisasi dan D&8Sstandar%

    2enekanan pada arsitektur

    Digunakan dalam beberapa sistem yang sangat besar

    3. 8etode SAS

    Data!arehouse cepat

    /eterkaitan selama 7 bulan

    0 2rototyping 3 bulan F ' bulan untuk pengembangan solid

    0 /embali lagi

    &anyak menggunakan prototyping

    &ergantung pada kemampuan analis sistem yang bagus

    7. 8etode 8icrosoft

    8emberikan perhatian pada pengguna secara eksplisit

  • 7/24/2019 Tugas Data Minning

    28/35

    0 /esulitan dan biaya mendisain model data perusahaan

    0 2engertian model E= #dalam 7N6%

    0 6eedback dari penggunaanB

    ). 8etode , es

    /elebihan

  • 7/24/2019 Tugas Data Minning

    29/35

    2erbandingan 9 metode

    Strategi 2encaharian Sumber Data :arehouse

    Sebelum mengembangkan suatu data !arehouse$ sangat penting untukmengembangkan strategi balanced data !arehouse yang sesuaidengan kebutuhan dan populasi user. Siapakah audiencenyaB Aparuang lingkupnyaB irtual Data :arehouse dibuat dengan cara

    menginstal kumpulan akses data$ direktori data dan fasilitas mana"emenproses$

    training user

    memonitor bagaimana data !arehouse digunakan dan kemudian

    berdasarkan pemakaian actual$ membuat suatu physical data !arehouseuntuk mendukung permintaan yang banyak.

    Strategi yang kedua adalah dengan membangun copy dari dataoperasional dari satu system operasional dan memungkinkan data!arehouse dari sekumpulan tool untuk mengakses informasi.Strategi ini mempunyai keuntungan yaitu sederhana dan cepat.Sayangnya$ "ika data yang ada berkualitas "elek dan akses ke datatersebut kurang baik$ maka pendekatan ini akan menimbulkanmasalah yang signifikan.

    2ada akhirnya$ Strategi data !arehouse yang optimal adalah memilihpopulasi user berdasarkan nilai dari perusahaan dan melakukananalisa persoalan$ pertanyaan dan kebutuhan akses data mereka.&erdasarkan kebutuhan ini$ prototype data !arehouse dibangun dandipopulasikan sehingga user dapat bereksperimen dan memodifikasire1uirement mereka. Sekali terbentuk persetu"uan tentangkebutuhan mereka$ kemudian data dapat diambil dari databaseoperasional yang ada dalam perusahaan ataupun dari data sourceyang lain dan diload kedalam data !arehouse. ;ika diperlukan$ tooluntuk mengakses informasi dapat memungkinkan user untukmendapatkan akses untuk mengambil data menggunakan tool

    fa orit mereka atapun untuk memperkenankan pembuatan dariinformasi multi-dimensi yang berperforma tinggi menggunakandata!arehouse sebagai dasarnya.

    29

  • 7/24/2019 Tugas Data Minning

    30/35

    Sebagai analisa akhir$ tidak ada pendekatan untuk membangun suatudata !arehouse yang dapat sesuai dengan kebutuhan setiapperusahaan. /ebutuhan setiap perusahaan berbeda satu sama lainsebagaimana konteks dari perusahaan tersebut. Sebagai tambahan$se"ak teknologi data !arehouse berkembang seprti yang sudah kitapela"ari$ hanya pendekatan praktislah yang berkembang sebenarnya.

    A. Strategi 2encarian Sumber #8asalah%

    &. Strategi 2encarian Sumber #8engembangkan 2ertanyaan%

    &agaimana proses e olusi direncanakanB

    &agaimana keuntungan dan =4, ditentukanB

    &agaimana masalah kepemilikan data dan tanggung "a!ab dipecahkanB

    &agaimana budaya organisasi terkait dengan data !arehousingB

    Skil dan sumber daya apa yang diperlukanB

    Apa standar yang sesuai untuk diterapkanB

    C. System 2enyampaian 2engembangan dan 2enggunaan

    2erlu untuk menyediakan user interface yang mudah digunakan danberkualitas

    8emonitor penggunaan

    2entingnya 8enemukan sponsor bisnis

    Alokasi 8enyediakan !aktu untuk mengembangkan kasus &isnis$Contoh 2emborosan !aktu dalam memperoleh dukungan sponsorbisnis kurang baik

    8engatur harapan #berorientasi positif%

    Harus mempunyai tu"uan yang "elas dan dipahami

    Data !arehousing adalah kegiatan berskala besar$ perlu pendalamandalam mendapatkannya

    &ersiap dengan ketidak setu"uan dari beberapa kelompok di dalamorganisasi

    8emiliki suatu kasus kuat mengembangkan sebuah data !arehousesebagai data infrastructure untuk E,S dan DSS

    8enyeimbangkan antara tu"uan "angka pendek dan tu"uan "angkapan"ang

    30

  • 7/24/2019 Tugas Data Minning

    31/35

    Style pengambilan keputusan dan keefektifan

    =espon yang berkelan"utan

    /ualitas data !arehouse yang digunakan harus tinggi

    >isualisasi data dapat membantu pengertian

    /emampuan 4LA2 sangat penting dalam melakukan pengambilan datayang fleksibel dan pemanipulasian data

    /emampuan Data 8ining dapat membantu menemukan pola baru didalam data

    D. System 2enyampaian 2ertanyaan

    &agaimana keefektifan data !arehouse ditentukan dan diukurB

    &agaimana tehnik data mining yang rumit dapat digunakan secaraefektif oleh para mana"er bisnisB

    Arsitektur Dan 8odel Data 8ining

    Salah satu kunci data !arehouse adalah fleksibilitas. Sangat pentinguntuk diingat adalah semakin sukses strategi suatu data !arehousestrategy maka semakain banyak user yang ingin ditambahkankedalamnya.

    /eterangan

    '. Data cleaning #2embersihan Data% untuk membuang data yang tidakkonsisten dan noise%

    3. Data integration penggabungan data dari beberapa sumber

    7. Data 8ining Engine 8entranformasikan data men"adi bentuk yangsesuai untuk di mining

    9. 2attern e aluation untuk menemukan yang bernilai melaluikno!ledge base

    ). raphical User ,nterface # U,% untuk end user

    8odel Data 8ining

    2rediction methods

    8enggunakan beberapa ariabel untuk memprediksi sesuatu atau suatunilai yang akan datang.

    31

  • 7/24/2019 Tugas Data Minning

    32/35

    Description 8ethods

    8endapatkan pola penafsiran #human-interpretable patterns% untukmen"elaskan data.

  • 7/24/2019 Tugas Data Minning

    33/35

    0 Spreadsheet

    0 2embuat laporan

    0

  • 7/24/2019 Tugas Data Minning

    34/35

    /no!ledge Disco ery ,n Database #/DD%

    /DD berhubungan dengan teknik integrasi dan penemuan ilmiah$interprestasi dan isualisasi dari pola-pola se"umlah kumpulan data. Knowledge discovery in databases #/DD% adalah keseluruhan prosesnon-tri ial untuk mencari dan mengidentifikasi pola #pattern% dalamdata$ dimana pola yang ditemukan bersifat sah$ baru$ dapatbermanfaat dan dapat dimengerti.

  • 7/24/2019 Tugas Data Minning

    35/35

    ). ,nterpretation? E aluation

    2ener"emahan pola-pola yang dihasilkan dari data mining" 2olainformasi yang dihasilkan dari proses data mining perlu ditampilkandalam bentuk yang mudah dimengerti oleh pihak yangberkepentingan.