30
TEHNOLOGII PENTRU EXTRAGEREA CUNOŞTINŢELOR - DATA MINING În căutarea informaţiei ascunse După mai multe decenii în cursul cărora mijloace şi tehnici informatice tot mai evoluate au contribuit la amplificarea capacităţii de memorare şi stocare a datelor, ultimii ani au marcat o reorientare semnificativă în utilizarea volumelor de date stocate, de la un proces de explorare retrospectivă spre unul cu caracter prospectiv. Această schimbare a devenit posibilă ca urmare a maturizării tehnologiilor legate de data mining. Denumirea provine de la analogia cu activitatea minieră; tot aşa cum este necesară dislocarea şi rafinarea a tone de minereu pentru a obţine câteva grame de aur, aici sunt examinate şi analizate sute de mii sau milioane de date pentru a extrage din ele informaţii şi semnificaţii noi, dincolo de scopurile pentru care acestea au fost colectate şi memorate la origine. Data mining are, ca şi alte concepte folosite în informatică, mai multe definiţii. În esenţă, acestea converg spre ideea formulată anterior: un proces de extragere de informaţii noi din colecţiile de date existente. Termenul de dată este utilizat aici cu semnificaţia de descriere a unui eveniment precis, produs în lumea reală şi verificabil prin raportare la aceasta. Informaţia (sau cunoaşterea transmisă) constituie descrierea unei categorii abstracte, ce acoperă mai multe evenimente sau exemple concrete. Principiul de funcţionare în data mining este următorul: se prelucrează datele referitoare la perioadele trecute, examinând o varietate de situaţii care s-au produs şi ale căror rezultate sau consecinţe sunt deci, bine cunoscute, pentru a evidenţia caracteristicile acestora şi a permite elaborarea unui model. Odată construit, modelul poate fi aplicat situaţiilor noi de acelaşi tip. Informaţiile obţinute prin data mining sunt de natură predictivă sau descriptivă. Un exemplu tipic de problemă predictivă este direcţionarea acţiunilor de marketing. Datele rezultate din corespondenţa promoţională trecută se folosesc pentru a identifica

l4 info

Embed Size (px)

DESCRIPTION

cig anul 3 spiru

Citation preview

APITOLUL IV SISTEME PENTRU ASISTAREA ECIZIEI BAZATE PE SINTEZA I ANALIZA ATELOR

TEHNOLOGII PENTRU EXTRAGEREA CUNOTINELOR- DATA MINING

n cutarea informaiei ascunse

Dup mai multe decenii n cursul crora mijloace i tehnici informatice tot mai evoluate au contribuit la amplificarea capacitii de memorare i stocare a datelor, ultimii ani au marcat o reorientare semnificativ n utilizarea volumelor de date stocate, de la un proces de explorare retrospectiv spre unul cu caracter prospectiv. Aceast schimbare a devenit posibil ca urmare a maturizrii tehnologiilor legate de data mining.

Denumirea provine de la analogia cu activitatea minier; tot aa cum este necesar dislocarea i rafinarea a tone de minereu pentru a obine cteva grame de aur, aici sunt examinate i analizate sute de mii sau milioane de date pentru a extrage din ele informaii i semnificaii noi, dincolo de scopurile pentru care acestea au fost colectate i memorate la origine.

Data mining are, ca i alte concepte folosite n informatic, mai multe definiii. n esen, acestea converg spre ideea formulat anterior: un proces de extragere de informaii noi din coleciile de date existente. Termenul de dat este utilizat aici cu semnificaia de descriere a unui eveniment precis, produs n lumea real i verificabil prin raportare la aceasta. Informaia (sau cunoaterea transmis) constituie descrierea unei categorii abstracte, ce acoper mai multe evenimente sau exemple concrete.

Principiul de funcionare n data mining este urmtorul: se prelucreaz datele referitoare la perioadele trecute, examinnd o varietate de situaii care s-au produs i ale cror rezultate sau consecine sunt deci, bine cunoscute, pentru a evidenia caracteristicile acestora i a permite elaborarea unui model. Odat construit, modelul poate fi aplicat situaiilor noi de acelai tip.

Informaiile obinute prin data mining sunt de natur predictiv sau descriptiv.

Un exemplu tipic de problem predictiv este direcionarea aciunilor de marketing. Datele rezultate din corespondena promoional trecut se folosesc pentru a identifica destinatarii pentru care urmtoarea campanie promoional poate aduce un maxim de efect.

Detectarea tranzaciilor frauduloase cu carduri bancare constituie unul dintre exemplele tipice de aplicaii descriptive. Explorarea ansamblului tranzaciilor permite evidenierea unui anumit tipar comportamental, considerat normal. Dendat ce la un bancomat se cere efectuarea unei tranzacii ce iese din acest tipar, solicitarea poate fi refuzat. Este posibil ca operaia cerut s fie sau s nu fie frauduloas; o analiz ulterioar poate stabili acest lucru dar, n acest stadiu, sistemul o respinge pentru a preveni orice consecine nedorite.

Fundamentele explorrii datelor

Expansiunea tehnicilor de data mining se explic, printre altele, prin faptul c firmele au acumulat volume foarte mari de date, stocate pe suporturi informatice, privitoare la tranzacii de diverse tipuri, derulate de-a lungul mai multor ani. Bncile posed, spre exemplu, arhive de milioane de nregistrri, n care sunt consemnate n detaliu operaiile efectuate de clienii lor. n orice firm se gsesc mii i sute de mii de nregistrri privitoare la cumprrile, vnzrile, ncasrile i plile fcute. Societile de telefonie mobil posed date privitoare la fiecare convorbire efectuat de abonaii lor, incluznd data, momentul i locul apelului, numrul de telefon al corespondentului, durata convorbirii. Un magazin de tipul cash and carry posed sute de mii de nregistrri, provenind de la casele de marcaj, n care figureaz nu numai articolele cumprate ci i cumprtorii, identificai prin legitimaiile de acces. Mult vreme acestea s-au acumulat pur i simplu n virtutea nevoii de arhivare. Creterea permanent a concurenei, exigenele din ce n ce mai mari ale pieei au determinat firmele s devin contiente de potenialul pe care aceste arhive de date l reprezint. Toate exemplele enumerate au un element comun: vizeaz, n mod direct sau indirect, clienii. Exploatarea lor din aceast perspectiv ofer oportuniti deosebite. Datele sunt la dispoziia organizaiei respective; datele sunt ct se poate de precise i analitice; datele sunt n volum mare i acoper perioade de timp de ordinul anilor. Dar relaia cu clienii nu este singura direcie de reutilizare a acestor date. n multe alte domenii ale activitii de afaceri, tendinele pe care acestea le ncorporeaz sau le reflect n mod obiectiv, structurile sau tiparele pe care le relev sunt deosebit de valoroase.

Alturi de existena coleciilor de date istorice memorate pe suporturi informatice, nc doi factori explic emergena cunoscut actualmente de data mining: maturizarea algoritmilor i a produselor program dedicate i creterea capacitii de memorare i prelucrare a calculatoarelor, care permite tratarea n corelaie a volumelor foarte mari de date.

Unele dintre tehnicile de data mining dateaz de ceva mai muli ani. Algoritmii folosii au cunoscut ns un proces de evoluie continu, care a permis nlturarea unora dintre limitele sau deficienele iniiale. Produsele program au evoluat i ele spre o utilizare ct mai facil, la un asemenea nivel nct pot fi folosite cu o cunoatere minim a tehnicii pe care o implementeaz. n sfrit, au aprut firme care ofer spre vnzare colecii de date istorice de uz general - cum ar fi, spre exemplu, evoluia indicatorilor bursieri din ultimii 20 de ani - special constituite pentru asemenea utilizri.

Depozitele de date i tehnologiile OLAP vizeaz i ele datele colectate la nivelul organizaiilor. n ciuda unor cerine i prelucrri preliminare asemntoare, exist deosebiri eseniale n privina demersului la care recurg fiecare dintre ele i nu mai puin, a obiectivelor urmrite. Nu este mai puin adevrat c depozitele de date se preteaz foarte bine ca surse pentru data mining iar rezultatele furnizate de acesta pot completa cmpurile nregistrrilor celor dinti i pot fi valorificate apoi prin proieciile multidimensionale specifice OLAP.

O explorare dirijat de oportuniti

Potenialul oferit de tehnicile de data mining trebuie ncorporat n procesele comerciale curente ale organizaiilor pentru a deveni realmente utile. Cutarea de informaii nu este un scop n sine; ea devine util doar n msura n care se transpune n aciune.

Declanarea unui demers bazat pe data mining se face ca urmare a observrii sau constatrii unei necesiti sau oportuniti comerciale. Observarea diminurii numrului de clieni, scderea vnzrilor la un anumit produs, lansarea unui nou produs sau serviciu sunt cteva exemple de situaii de acest tip. O firm poate alege s reacioneze sau nu la asemenea situaii i, n caz afirmativ, poate alege diverse moduri de a o face. Tehnicile de data mining constitute una dintre acestea. Totui, este de reinut c fiecare dintre ele este adecvat unui anumit gen de probleme sau de circumstane i c, de multe ori, aplicarea lor n combinaie poate produce rezultatele cele mai bune. Alegerea trebuie s aib n vedere i compatibilitatea dintre cerinele n materie de date ale tehnicii sau tehnicile alese i cele de care se poate dispune realmente.

Pasul urmtor const n explorarea propriu-zis a datelor. La rndul su, acesta este departe de a fi simplu sau liniar. Multe dintre aceste tehnici solicit, nainte de a putea fi utilizate, un proces de nvare; datele, fiind eterogene, impun o etap de pregtire prealabil; rezultatele sunt rareori aplicabile n forma n care sunt obinute, cernd un efort suplimentar de interpretare i adaptare, la care s participe i decidentul, cu cunotinele i experiena sa n afaceri. Spre exemplu, aplicarea unui algoritm de grupare poate evidenia existena a 20 de clustere diferite; dintre acestea, doar unul se poate dovedi util dar relevana lor nu poate fi apreciat dect de specialistul sau specialitii din firm.

Informaiile obinute anterior au valoarea aciunilor ntreprinse pe baza lor. Tehnicile de data mining permit obinerea de cunotine mai bogate privitoare la mediul n care exist i funcioneaz ntreprinderea. Acestea trebuie ns transformate n aciune iar efectul aciunilor msurat.

Este posibil ca aciunea de data mining s fie un eec i nu o reuit. Este posibil ca msurile ntreprinse s nu fie cele mai adecvate n raport cu informaiile obinute. Att reuita ct i eecul pot fi surs de nvminte pentru viitor, pot fi stimulii unor noi aciuni de data mining, mai bine i mai precis orientate i derulate.

Toate aceste contureaz ideea unui ciclu n utilizarea data mining, n cursul cruia se parcurg cele patru etape menionate:

identificarea oportunitii comerciale i a datelor pe care se poate baza explorarea

extragerea de informaii din coleciile de date existente prin tehnici adecvate de data mining

adoptarea de decizii i ntreprinderea de aciuni pe baza informaiilor obinute msurarea rezultatelor concrete pentru a identifica i alte modaliti de exploatare a datelor disponibile

Verificarea ipotezelor i cutarea cunotinelor

Aplicarea tehnicilor de data mining poate fi fcut din perspectiva unui demers ascendent sau descendent.

n abordarea descendent, efortul este orientat spre confirmarea sau infirmarea unor idei (ipoteze) formulate n prealabil prin alte mijloace. Un demers asemntor se aplic n statistic i n analiza datelor, dar folosind alte tehnici i metode.

Fig. 15 Utilizri ale tehnicilor de data mining

Abordarea ascendent are o cu totul alt finalitate; ea urmrete extragerea de cunotine sau informaii noi din datele disponibile. Cutarea poate fi dirijat sau nedirijat.

Cutarea dirijat ia n considerare un atribut sau un cmp, ale crui valori ncearc s le explice prin celelalte cmpuri. Este cea mai folosit n practic.

Cutarea nedirijat are ca scop identificarea relaiilor sau structurilor existente n ansamblul datelor examinate, fr a acorda prioritate unui cmp sau altul. Dei mai spectaculoas, n practic se recurge mult mai puin la ea dect la cutarea dirijat.

Tehnici i aciuniCeea ce se exploateaz prin data mining sunt coleciile de date de care dispune o organizaie, colecii care au fost ns constituite pentru alte scopuri; n cazurile cele mai frecvente, este vorba de datele privitoare la tranzaciile derulate ntr-o anumit perioad de timp: comenzi, livrri, pli, ncasri etc. La acestea se adaug, deseori, date provenite din alte surse, cum ar fi, spre exemplu, statistici oficiale privitoare la evoluia economiei n ansamblu, date privitoare la concuren, diverse msuri legislative sau normative etc. Aceasta explic utilizarea frecvent a calificativului de informaii ascunse: volumul mare sau foarte mare i faptul c structura i coninutul lor sunt edificate n perspectiva altor finaliti, fac foarte dificil sau imposibil detectarea corelaiilor sau raporturilor de ansamblu pe care le ncorporeaz n mod intrinsec.

Rezultatele sunt cu att mai sigure i relevante, cu ct se bazeaz pe un volum mai mare de date, din motive lesne de neles: o tendin relevat de un numr foarte mare de cazuri practice este mult mai pertinent dect cea dedus din doar cteva situaii.Explorarea datelor n vederea obinerii de informaii recurge la diverse tehnici, printre cele mai folosite aflndu-se:

reelele neuronale

arborii de decizie

algoritmii genetici

analiza grupurilor

raionamentele bazate pe cazuri

analiza legturilor

La acestea se pot asocia i tehnici statistice, cum sunt, spre exemplu, regresiile, analiza factorial etc.

Data mining nu este un panaceu universal, capabil s rezolve orice problem de gestiune. n fapt, aportul su se rezum la un numr limitat de aciuni: clasificarea, estimarea, predicia, gruparea, analiza gruprilor, dar care, folosite n mod adecvat, se pot dovedi extrem de utile pentru numeroase probleme i situaii din domeniul decizional.

Clasificarea urmrete s plaseze obiectele prelucrate ntr-un grup limitat de clase predefinite. Spre exemplu, o cerere de credit va fi ncadrat, prin clasificare, n una dintre urmtoarele categorii de risc: sczut, mediu, ridicat. Obiectele clasificate sunt reprezentate, n general, sub form de nregistrri, compuse din atribute sau cmpuri. Dintre tehnicile de data mining, cele mai adecvate clasificrii sunt arborii de decizie i raionamentul bazat pe cazuri.

Estimarea urmrete s atribuie o valoare unei variabile, pe baza celorlalte date de intrare. Prin intermediul su se poate aprecia, de exemplu, numrul de copii sau venitul total al unei familii. Rezultatele obinute prin estimare sunt valori continue. Reelele neuronale sunt printre cele mai bune tehnici de data mining pentru acest gen de prelucrri.

Predicia urmrete s claseze nregistrrile tratate n funcie de un comportament sau o valoare estimat viitoare. n acest scop, se recurge la o colecie de exemple, bazate pe date din trecut, n care valorile variabilei de previzionat sunt deja cunoscute. Cu ajutorul acestora se construiete un model care s explice comportamentul observat. Aplicnd acest model asupra nregistrrilor de prelucrat, se obine o predicie a comportamentului sau valorilor acestora n viitor. Cu condiia folosirii unui set adecvat de exemple trecute, toate tehnicile de clasificare sau estimare pot fi folosite i pentru predicie.

Gruparea urmrete s determine care sunt obiectele care apar cel mai frecvent mpreun. Exemplul tipic pentru acest gen de aciune este determinarea mrfurilor care se cumpr uzual mpreun, de unde i denumirea de "analiz a coului gospodinei".Analiza grupurilor urmrete s divid o populaie eterogen n grupuri mai omogene, numite "cluster". Spre deosebire de celelalte tipuri de aciune asemntoare, aici nu exist un set predeterminat de clase ca n cazul clasificrii i nici exemple trecute. Segmentarea se face n exclusivitate pe baza similitudinilor sesizate ntre obiecte.Etapele procesului de explorare a datelor

Existena programelor pentru implementarea algoritmilor specifici tehnicilor de data mining este indispensabil dar insuficient. n amonte, programele trebuie alimentate cu date. Cum datele disponibile provin din surse variate i au fost, la origine, organizate i constituite pentru a rspunde altor scopuri, este necesar o faz de pregtire prealabil, de curare i uniformizare. n aval, rezultatele nu pot fi folosite n forma n care sunt furnizate de ctre programele respective; coninutul lor trebuie analizat i interpretat de ctre specialiti pentru a identifica informaiile pertinente pe care le conin. Nu este mai puin important selecia tehnicilor adecvate naturii problemei vizate. Este evident, prin urmare, c tehnicile de data mining se pot utiliza numai n cadrul unor procese specifice, relativ complexe i deseori neliniare. n cadrul acestora, se pot distinge urmtoarele etape:

definirea problemei

identificarea surselor de date

colectarea i selectarea datelor

pregtirea datelor construirea modelului evaluarea modelului integrarea modelului

Definirea problemei

Aa cum s-a precizat anterior, declanarea procesului este determinat de sesizarea unei oportuniti sau necesiti de afaceri. n cadrul acesteia, este nevoie s se delimiteze exact ce urmeaz a fi rezolvat prin data mining, care sunt obiectivele urmrite i rezultatele ateptate.

Problema de rezolvat prin data mining contribuie, ca parte component, la valorificarea oportunitii sesizate de ntreprindere, dar nu se identific cu ea. n plus, trebuie s primeasc o form n care s poat fi tratat prin aceste tehnici. Spre exemplu, iniiativa unei companii de telefonie mobil de a testa pe pia un nou produs, ca oportunitate, este mult prea complex i prea general. Cum este vorba despre o testare, oferta va fi adresat doar ctorva sute dintre zecile de mii de abonai. Care dintre clienii actuali ai companiei ar putea fi cei mai interesai de noul serviciu i a cror apreciere ar fi deci cea mai pertinent ? Abia aceasta este o problem de data mining.

Identificarea surselor de date

Odat problema definit, este necesar stabilirea structurii generale a datelor necesare rezolvrii sale i a regulilor de constituire a acestora. Urmeaz localizarea surselor acestora. n cazurile cele mai frecvente, este vorba de date dispersate in diverse sisteme informatice operaionale, stocate n formate diferite, administrate cu produse software diferite, uneori disponibile numai pe hrtie. nainte de a trece la etapa urmtoare, este recomandabil examinarea coninutului fiecreia dintre surse, pentru o familiarizare cu coninutul su i pentru identificarea, ct mai precoce, a eventualelor incoerente sau probleme de definire, care pot compromite rezultatele analizelor urmtoare.

Colectarea i selecia datelor

Aceast etap urmrete extragerea i plasarea ntr-o baz comun a tuturor datelor ce urmeaz a fi folosite. Este o munc relativ anost, care ocup pn la 80% din timpul global consumat. Existenta depozitelor de date constitute un avantaj major.

Una dintre problemele de rezolvat in aceast faz const in alegerea ntre prelucrarea ntregului fond de date disponibil sau a unui eantion. Limitele echipamentelor i a produselor program utilizate, bugetul alocat proiectului, cerinele i particularitile studiului sunt factorii care intervin n aceast alegere. n cazul opiunii pentru lucrul cu eantioane, vor fi respectate toate regulile i cerinele de constituire a acestora.

Pregtirea datelor

Datele selectate n faza anterioar au fost, n marea majoritate a cazurilor, culese i stocate n cu totul alte scopuri. n consecin, trebuie supuse unui proces preliminar de pregtire nainte de a putea fi supuse extraciei prin data mining. Alturi de cerinele specifice fiecreia dintre tehnici, care vor fi prezentate n paragrafele urmtoare, exist o serie de transformri comune care vizeaz:

valorile extreme sau aberante

valorile lips

valorile de tip text

rezumarea

codificarea incoerent

arhitecturile informatice incompatibileTratarea valorilor extreme sau aberante se poate face prin mai multe tehnici: ncadrarea ntre limitele cuprinse ntre medie i un anumit numr de abateri standard prin excludere sau plafonare, izolarea vrfurilor, etc. Tratarea acestor valori trebuie fcut totui cu mult discernmnt deoarece n unele cazuri ele sunt cele care pot evidenia anumite trsturi relevante.

Valorile lips pot ridica probleme n funcionarea unor algoritmi de data mining. i n acest caz, exist mai multe aciuni posibile: eliminarea nregistrrilor avnd cmpuri cu valori nule, completarea datelor omise cu valori medii, cu valoarea cea mai frecvent sau cu valori calculate dup alte relaii sau gestionarea distinct a acestora prin nlocuirea cu constante predeterminate.

Valorile de tip text ridic numeroase dificulti. Aceleai cuvinte separate de un numr diferit de spaii reprezint, n calculator, valori diferite. Chiar notaii cu structur riguros definit, cum sunt numerele de nmatriculare auto, pot genera asemenea probleme. Din aceast cauz este preferabil excluderea acestui tip de variabile. Dac prelucrarea lor nu poate fi totui evitat, soluia cea mai sigur const n codificarea prin tabele de corespondene, n care s figureze toate irurile valide de caractere.

Rezumarea se poate aplica atunci cnd detaliile coninute n date sunt nesemnificative pentru rezolvarea problemei abordate, atunci cnd numrul de exemple analitice este insuficient sau atunci cnd datele sunt prea numeroase n raport cu capacitile de prelucrare.

Codificarea incoerent apare n cazurile n care obiecte identice sunt reprezentate diferit n unele dintre sursele folosite. Spre exemplu, acelai partener al firmei este referit prin coduri diferite n calitate de furnizor i de client. Dac nu sunt compensate, aceste diferene pot conduce la rezultate i concluzii eronate. Aceeai situaie poate apare n cazul utilizrii abrevierilor curente, n care abateri minime de ortografiere conduc la interpretarea lor drept elemente diferite.

Incompatibilitile arhitecturale informatice vizeaz, n principal, diferenele n modul de reprezentare intern a valorilor, mai ales atunci cnd este vorba despre date create cu sisteme din generaii diferite.

Pentru multe dintre problemele de genul celor amintite, exist programe specializate; de asemenea, numeroase produse program de data mining includ n mod implicit funcii de pregtire a datelor. Din pcate, acestea nu izbutesc s rspund tuturor cerinelor i solicit adesea intervenii punctuale suplimentare.

Construirea modelului

Aceasta este etapa care se apropie cel mai mult de semnificaia termenului de data mining. Avnd n vedere c ntregul proces a fost dirijat de o anumit perspectiv de rezolvare, n care s-au fcut opiuni privitoare la aciunile de ntreprins pentru explorarea datelor, la structura i la coninutul acestora, etapa se rezum, n esen, la crearea modelului informatic care va efectua explorarea propriu-zis.

Demersul aplicat influeneaz considerabil aceast etap, iar uneori i etapele precedente.

n cazul cutrii de informaii, dirijate sau nu, construirea modelului este acompaniat de o faz de instruire, de nvare. Detaliile acesteia depind de tehnica de data mining folosit. Dar pentru toate se parcurg dou momente distincte: al nvrii i al testrii.

nvarea se bazeaz pe un ansamblu de exemple complete, pornind de la care sunt identificate relaiile care leag ntre ele valorile cmpurilor sau atributelor. Procesul de nvare se ncheie atunci cnd rezultatele furnizate de model se apropie suficient de mult de soluiile coninute de datele dup care s-a nvat. Nu exist ns certitudinea c modelul se va comporta la fel de bine i n alte situaii. Din acest motiv, este supus testrii cu date diferite

de cele folosite pentru nvare, dar aparinnd aceleiai populaii. Urmeaz, dac este necesar, o faz de reajustare necesar pentru a-1 face s furnizeze rezultate bune i n raport cu datele de test. Doar dup ncheierea acesteia, modelul poate fi considerat terminat. Aceasta va aduga la etapele anterioare dou sarcini suplimentare: obinerea de date preclasate i distribuirea acestora, dup colectare i pregtire, n trei seturi: de nvare, de testare i de evaluare.

Obinerea de explicaii privitoare la modul n care un atribut variaz n funcie de coninutul altor atribute presupune ca nregistrrile de date s includ valori pentru toate aceste cmpuri luate mpreun i s reflecte toate cazurile cunoscute cu un numr ct mai mare de exemple. Cutnd, spre exemplu, clienii care prezint riscuri n privina capacitii de rambursare a mprumuturilor, va fi nevoie ca datele colectate s marcheze clar acest aspect. In caz contrar, informaiile obinute nu vor putea fi utilizate pentru a face ulterior predicii pe baza lor.

Odat datele preclasate colectate, este necesar divizarea lor n cele trei pri. Acestea se creeaz din acelai fiier dar conin nregistrri diferite. n general, 70-80% din nregistrri sunt alocate nvrii, restul rmnnd pentru testare sau fiind mprit egal ntre aceasta i evaluare.

Datele colectate

Fig.16 Schema procesului de creare a modelelor de cutare a informaiilorDup depirea momentului cruia i este destinat, fiecare dintre acestea devine inutilizabil, deoarece nu mai poate aduce nici o ameliorare modelului.

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului, de a determina corect valorile pentru cazuri noi. Pentru aceasta, va fi aplicat asupra ultimei pri a datelor preclasate disponibile, reinute pentru evaluare. Procentul de eroare nregistrat cu acestea poate fi acceptat ca valoare valabil i pentru datele noi. n general, performanele unui model se apreciaz cu ajutorul unei matrice de confuzie", care compar situaia real cu cea furnizat de acesta. Calitatea global se exprim prin raportul dintre numrul de predicii exacte i numrul total de predicii.

Integrarea modelului

Aceast etap finalizeaz procesul, prin includerea modelului obinut ntr-un SIAD, a crui inim" va deveni, sau prin integrarea sa ntr-un proces decizional mai general din ntreprindere.

Dou observaii finale se impun aici.

Orice model are o durat de via limitat. Cum construcia sa se face pe baza corelaiilor semnalate n datele existente la un moment dat, schimbrile survenite ulterior nu mai pot fi luate n considerare. Dei durata de valabilitate n timp poate fi foarte diferit de la un tip de model la altul, unele putnd fi folosite fr schimbri timp de mai muli ani, observaia anterioar rmne strict valabil: modelele trebuie actualizate permanent, pentru a putea urmri schimbrile survenite n domeniul la care se refer.

Rezolvarea unei probleme se obine prin combinarea mai multor tehnici. n faa diversitii factorilor ce acioneaz n realitatea economico-social actual, aplicarea unei singure tehnici de data mining poate conduce la rezultate nesemnificative sau la o lips complet de rezultate. Combinarea tehnicilor permite obinerea unei viziuni mai largi i mai diversificate, cu implicaii lesne de ntrevzut asupra actului decizional, chiar dac acest lucru este mai costisitor.Raionamentul bazat pe cazuri

Raionamentul bazat pe cazuri caut rspunsurile la problemele noi n experienele acumulate n trecut. n fata unei situaii noi, vor fi cutate cazurile asemntoare cunoscute iar concluziile acestora vor fi aplicate i n noua situaie. Metoda este aplicabil att pentru clasificri ct i pentru predicii i ofer un bun rspuns, pragmatic i evolutiv, pentru o mare diversitate de probleme.

Cazurile pe care se bazeaz raionamentul sunt memorate sub form de nregistrri. nregistrarea este compus din setul de atribute care descriu fiecare caz n parte. Cazul nou este i el reprezentat ca o nregistrare, n care unul dintre cmpuri - cel al crui valoare trebuie determinat - este vid. Pentru aflarea sa, se caut nregistrrile cu care acesta seamn cel mai mult - vecinele - i coninutul acestora este folosit pentru a produce un rspuns. Exist prin urmare, dou funcii de prelucrare fundamentale:

msurarea distanei dintre membrii fiecrui cuplu de nregistrri, pentru a putea afla vecinele cele mai apropiate

combinarea rezultatelor furnizate de vecine n rspunsul propus pentru cazul curent.

Msurarea distanei dintre cmpuri

Distana este expresia modului n care se evalueaz similitudinea.

Proprietile sale eseniale n raport cu acest scop sunt urmtoarele:

poate fi ntotdeauna definit i are forma unui numr real cu valori mai mari sau egale cu zero;

distana de la un element la el nsi este ntotdeauna nul;

sensul msurrii nu are importan: distana de la elementul A la elementul B este egal cu distana de la B la A;

nu poate exista niciodat un punct intermediar C prin a crui parcurgere s se scurteze distana dintre A i B.

Cele mai utilizate moduri de calcul al distanei pentru cmpurile numerice sunt: diferena n valoare absolut A-B

ptratul diferenei (A-B)2 diferena n valoare absolut normalizat A-B/(diferena maxim)Ultima variant are avantajul de a produce rezultate cu valori cuprinse ntotdeauna ntre 0 i 1.

Pentru exemplificare, tabelul urmtor prezint nregistrrile aferente unui numr de 5 clieni ai unei bnci comerciale, crora li se vireaz salariul n conturi de card.VrstStare civilVenit

152celibatar5.400.000

246cstorit4.800.000

348cstorit4.900.000

438divorat3.100.000

524celibatar2.800.000

Tabelul 1. Datele privitoare la cinci clieni ai bncii

Distanele dintre clieni pentru atributele vrst i venit, calculate n valori normalizate, sunt prezentate n urmtoarele dou tabele:5246483824

520,000,210,140,501,00

460,210,000,070,290,79

480,140,070,000,360,86

38 0,50 0,29 0,36 0,00 0,50

241,000,790,860,500,00

Tabelul 2. Matricea distanelor ntre clinti n funcie de vrst

5.400.0004.800.0004.900.0003.100.0002.800.000

5.400.0000,000,230,190,881,00

4.800.0000,230,000,040,650,77

4.900.0000,190,040,000,690,81

3.100.0000,880,650,690,000,12

2.800.0001,000,770,810,120,00

Tabelul 3. Matricea distantelor ntre clieni n funcie de venituriCalcularea distanei pentru datele nenumerice se poate face prin funcii particulare, adaptate problemei de rezolvat. Spre exemplu, pentru un cmp reprezentnd starea civil, se poate recurge la urmtoarea funcie, n care identitatea valorilor cmpului din cele dou nregistrri este notat cu 0 iar deosebirea cu 1:D(celibatar, celibatar) = 0

D(celibatar, cstorit) = 1

D(celibatar, vduv) = 1

D(cstorit, cstorit) = 0

D(cstorit, divorat) = 1celibatarcstoritcstoritdivoratcelibatar

celibatar01110

cstorit10011

divorat11101

celibatar01110

Tabelul 4. Matricea distanelor pentru starea civil

Uneori, valorile cmpurilor implicate conin expresii ascunse ale distanei. Numerele de nmatriculare auto pot indica, spre exemplu, localizarea geografic a domiciliului posesorului su i permit astfel efectuarea de clasificri. Codurile potale i numerele de telefon constituie alte exemple de valori ce pot fi exploatate prin funcii adecvate n scopul ierarhizrii sau gruprii nregistrrilor.

Msurarea distanei dintre nregistrri

Funciile menionate anterior servesc pentru evaluarea distanei pentru un anumit cmp. n cazurile n care este necesar considerarea simultan a mai multor cmpuri ale nregistrrii, se calculeaz distana pentru fiecare cmp n parte iar rezultatul se combin ntr-o valoare unic, care exprim distana nregistrrii respective. Cele mai utilizate procedee de combinare a distanelor cmpurilor sunt:

nsumarea

nsumarea normalizat (suma distanelor / suma maxim)

distana euclidian (rdcina ptrat din suma ptratelor distanelor).

Figura urmtoare prezint distanele dintre nregistrri, calculate conform acestor trei procedee.

nsumare

12345

10,001,451,342,382,00

21,450,000,111,942,55

31,340,110,002,052,66

42,381,942,050,001,62

52,002,552,661,620,00

nsumare normalizat

12345

10,000,540,500,890,75

20,540,000,040,730,96

30,500,040,000,771,00

40,890,730,770,000,61

50,750,961,000,610,00

Distan euclidian

12345

10,001,051,031,431,41

21,050,000,081,231,49

31,030,080,001,271,55

41,431,231,270,001,12

51,411,491,551,120,00

Tabelul 5. Matrici ale distanelor dintre nregistrri

Pentru aceleai nregistrri, aplicarea acestor procedee poate conduce la vecinti diferite. Distana euclidian este cea care evideniaz cel mai pregnant nregistrrile pentru care toate cmpurile sunt vecine; celelalte dou metode pot masca discrepana unor cmpuri compensat prin marea apropiere a altor cmpuri.

n oricare dintre metodele anterioare poate fi introdus un coeficient care s exprime importana "subiectiv" acordat cmpurilor n calcularea distanei.

Obinerea rezultatuluiAflarea celor mai apropiai vecini este doar primul pas: soluia problemei se obine prin combinarea rspunsurilor oferite de acetia. Cum fiecare poate avea variante de rspuns diferite, demersul cel mai firesc este acela de a cere celor mai apropiai vecini s voteze. Rezultatul care obine majoritatea va fi cel atribuit cazului curent. O cerin minimal este ca numrul votanilor s fie impar, pentru a evita situaiile de indeterminare (balotaj).

Pentru ilustrare, s-a considerat cazul unui nou client, ale crui caracteristici sunt:VrstStare civilVenit

34celibatar4.200.000

Distanele corespunztoare celor trei atribute i distana fa de celelalte nregistrri, sunt cuprinse n tabelul urmtor.

Vrsta

5246483824

340,640,430,500,140,36

Venit

5.400.0004.800.0004.900.0003.100.0002.800.000

4.200.0000,460,230,270,420,54

Starea civil

CelibatarCstoritCstoritDivoratCelibatar

Celibatar01110

Tabelul 6. Distanele atributelor aferente noii nregistrri

123456Vecini

6 1,101,661,771,57 0,900,005;1;4;2;3

Tabelul 7. Poziia noii nregistrri fa de cele existente

Vecinele sunt prezentate n ordinea descresctoare a apropierii de aceasta.Banca este interesat n constituirea de depozite la termen pentru clienii ale cror salarii sunt virate n conturi de card. Situaia actual se prezint astfel:VrstStare civilVenitDepozit

152celibatar5.400.000nu

246cstorit4.800.000da

348cstorit4.900.000nu

438divorat3.100.000da

524celibatar2.800.000nu

634celibatar4.200.000

Noul client va deschide sau nu un depozit ? Rspunsul, obinut prin votul celor mai apropiai vecini este urmtorul:Vecinii n ordinea apropieriiDepozite la termen deschiseRezultat

1 votant2 votani3 votanti4 votani

5;1;4;2;3n;n;d;d;nnununu?

Rezultatul final poate fi semnificativ influenat de numrul de votani. Din acest motiv, este recomandabil ncorporarea unui indicator care s exprime procentul celor care au votat pentru rezultatul reinut din totalul votanilor.1 votant2 votani3 votani4 votani

nununu?

100%100%67%50%

n locul votului simplu, se poate apela la un vot ponderat, n care greutatea rspunsului fiecrui vecin este invers proporional cu distana acestuia fa de cazul curent. Votul vecinilor mai apropiai devine astfel mai important dect al celor aflai la o distan ceva mai mare.

Metodele bazate pe vot dau bune rezultate n situatiile n care rspunsurile cutate sunt de tip enumerativ. Dac este necesar ns obinerea de rezultate cu valori continue, acestea trebuie stabilite altfel. O posibil soluie o reprezint interpolarea valorilor nregistrrilor vecine. Interpolarea introduce ns o aplatizare a rezultatelor, care se nscriu inevitabil ntre cel dou limite folosite n calcul. Rezultate mult mai bune se obin prin metode de regresie statistic, aplicate asupra valorilor fumizate de vecinii cei mai apropiai. Ecuaia dreptei sau curbei astfel obinute permite calcularea mult mai precis a valorilor aferente cazului curent.

Avantaje i limite ale raionamentului bazat pe cazuri

Raionamentul bazat pe cazuri este o tehnic de data mining deosebit de puternic. Exist un numr mare de probleme n care aplicarea demersului su specific poate conduce la soluii. O fraud nou va fi, foarte probabil, asemntoare celor deja cunoscute; prin aceast tehnic ea poate fi identificat i marcat, n vederea unei examinri ulterioare mai amnunite. n faa unei aciuni de promovare de produse, un client va avea, foarte probabil, un comportament asemntor celui manifestat fa de campaniile de marketing anterioare; prin aceast metod pot fi identificai cei la care aciunea respectiv poate conduce la cele mai bune rezultate. i enumerarea aceasta poate continua.

Calitatea rezultatelor depinde direct de volumul de date pe care se bazeaz. O modalitate de estimare a calitii acestuia const n aplicarea tehnicii asupra propriilor date de nvare. Dac o anumit situaie, supus votului unui set de testare format din doi, trei i apoi patru vecini, conduce la rezultate discordate sau ambigui, nseamn c numrul nregistrrilor pe care se bazeaz raionamentul este prea mic.

Printre avantajele raionamentului bazat pe cazuri se pot enumera:

Poate fi aplicat pentru o mare diversitate de tipuri de date, inclusiv pentru structurile de date complexe, cum sunt, spre exemplu, imaginile, ale cror tratare este mult mai dificil cu alte tehnici. Cmpurile de tip text sunt, de asemenea, mai uor de tratat dect n alte tehnici.

Pot fi luate n considerare orict de multe cmpuri, spre deosebire de alte tehnici la care numrul acestora este limitat (uneori chiar foarte drastic).

Rezultatele furnizate sunt explicate; sistemul ajunge la o anumit concluzie n virtutea apropierii sau similitudinii cazului tratat cu alte cazuri produse n trecut.

Elementele noi survenite n datele de nvare sunt uor ncorporate i folosite n raionamente, spre deosebire de alte tehnici pentru care asemenea schimbri presupun reluarea ntregului proces de "nvare".Principalele dezavantaje constau n volumul mare de memorie i n timpii importani de prelucrare necesari pentru aplicarea funciilor de distan asupra tuturor nregistrrilor i cmpurilor ce particip la aflarea soluiei.

n concluzie, raionamentul bazat pe cazuri constituie o tehnic puternic, foarte adecvat situaiilor n care sunt necesare clasificri sau predicii fundamentate pe corelaii cu caracter local.Analiza grupurilor (clustering)

Aceast tehnic permite identificarea automat a grupurilor existente n ansamblul datelor analizate, fiind una dintre puinele ce pot fi aplicate n cutarea nedirijat a informaiilor. Grupurile - denumite n englez clusters - rezult automat n urma procesului de prelucrare, fr a avea ca punct de pornire un anumit criteriu sau proprietate. Este o tehnic ce are capacitatea de a releva realmente caracteristici ascunse - sub volumul i diversitatea detaliilor - ntr-un anumit set de nregistrri. Grupurile astfel definite pot fi sau nu semnificative; avnd n vedere c procesul este automat i nedirijat, exist ntotdeauna riscul de a obine rezultate nerelevante. Totui, numeroase aplicaii ale acestei tehnici au permis descoperirea unor elemente noi n variate domenii de activitate, ceea ce explic interesul de care se bucur.

Detecia grupurilor prin divizare

Metoda celor k-medii este una dintre cele mai folosite n practic pentru detecia de grupuri. Ideea pe care se bazeaz este aceea de a cuta, prin mai multe iteraii succesive, acele k puncte care formeaz punctele centrale ale grupurilor formate de nregistrri n funcie de poziia pe care o ocup unele fa de altele. Considernd, pentru exemplificare, c se prelucreaz nregistrri care au numai dou cmpuri, acestea pot fi plasate ntr-un spaiu plan, valorile celor dou atribute fiind coordonatele punctului corespunztor nregistrrii respective. Deoarece nu exist un criteriu predeterminat de grupare, n primul pas se stabilesc aleator k puncte drept centre de grupare. Algoritmul prevede alegerea n acest scop a primelor k nregistrri dac acestea sunt complet neordonate sau a nregistrrilor aflate la distane relativ egale dac exist o relaie de ordonare. Odat aceste puncte alese, se traseaz frontiere echidistante ntre ele i celelalte nregistrri sunt grupate n funcie de poziia pe care o au fa de aceste frontiere. Dup aceast distribuire iniial, se execut mai multe iteraii, n cursul crora centrele grupurilor i componena lor se rafineaz. Prelucrrile efectuate ntr-o asemenea iteraie constau n calcularea coordonatelor centrale ale fiecrui grup delimitat n iteraia anterioar, ca medie a coordonatelor corespunztoare ale tuturor nregistrrilor alocate grupului respectiv. Spre exemplu, lucrnd n dou coordonate x1, x2, se va calcula, pur i simplu, media valorilor x1 ale tuturor nregistrrilor din grup i media valorilor x2, rezultatele constituind coordonatele x1 i x2 ale noului centru. Dup gsirea acestor noi cluster-e, nregistrrile sunt din nou distribuite, fiecare fiind asociat cluster-ului celui mai apropiat. Procesul se ncheie atunci cnd se ajunge la o configuraie n care noile iteraii nu mai conduc la schimbri ale frontierelor. Demersul descris poate fi aplicat nu numai pentru dou dimensiuni, ci pentru orict de multe, folosind un numr corespunztor de coordonate.Mrimea lui k

Fixnd pe k la o anumit valoare, exist anse s se gseasc k clustere. Dar nimic nu atest c ansamblul iniial conine doar attea grupuri; este foarte posibil s existe i altele, perfect individualizabile, care ar fi fost descoperite dac s-ar fi ales o mrime diferit pentru k. Prin urmare, pentru a obine rezultate ct mai bune, este necesar ca, pentru aceleai date, s se aplice n mod repetat algoritmul de grupare, pentru valori diferite ale lui k. Dup fiecare asemenea prelucrare, se poate face o evaluare a consistenei cluster- elor gsite, comparnd distana medie a nregistrrilor aflate n interiorul unui cluster cu distana dintre cluster-e. Avnd n vedere c proprietatea esenial urmrit este aceea de a avea n interiorul unui cluster nregistrri ct mai apropiate, se poate recurge la calcularea varianei - suma ptratelor diferenelor fiecrui element n raport cu media. Varianta cea mai bun este cea care conduce la cluster-e cu variant minimal.

Exist i un criteriu de evaluare subiectiv, bazat pe estimarea utilitii cluster-elor. Este foarte posibil ca algoritmul s identifice un anumit numr de cluster-e, bine delimitate din punct de vedere formal, dar nesemnificative n spaiul problemei sau activitii vizate.De la nregistrri la coordonate

Una dintre dificultile ntlnite n aplicarea acestei tehnici const n gsirea modalitii de exprimare a valorilor luate de atributele nregistrrilor, astfel nct msurarea apropierii pe care se bazeaz repartizarea lor n grupuri s fie relevant. Alturi de problemele ridicate de reprezentarea numeric a datelor, care pot fi de diferite tipuri, inclusiv text, apare i aspectul, mult mai delicat, al stabilirii acestor mrimi astfel nct s adopte un comportament adecvat cerinelor utilizrii lor drept coordonate poziionale. Dincolo de mrimi cum sunt lungimea, volumul sau greutatea, care exprim msuri propriu-zise, altele, chiar numerice fiind, pot ridica dificulti n momentul utilizrii drept coordonate. Spre exemplu, se poate calcula diferena dintre dou temperaturi dar nu se poate afirma c ntr-o zi n care s-au atins 32 C a fost de dou ori mai cald dect ntr-o zi cu 16 C.

O alt dificultate vine din faptul c dimensiunile luate n considerare pot s nu aib aceeai importan pentru problema tratat: o variaie minim a unei variabile poate fi mult mai important dect variaii de zeci de ori mai mari ale altora. Cum importana acestora este, din punct de vedere geometric egal, trebuie gsit modalitatea de a exprima i nivelul de semnificaie al unei variabile, prin poziia sa pe axa care o reprezint n modelul geometric.

n principiu, orice funcie care asociaz la dou puncte o valoare unic prin care se exprim o relaie dintre acestea poate fi folosit pentru msurarea distanei; totui, aceasta este pe deplin corespunztoare dac posed cele patru proprieti menionate la raionamentul bazat pe cazuri.

n cazul n care se lucreaz cu msuri sau cu intervale, se poate considera c fiecare nregistrare este un punct n spaiu, ale crui coordonate sunt exprimate de vectorul format de valorile cmpurilor sale. Pentru a msura apropierea dintre ele se pot folosi diverse metode, dintre care cea mai utilizat se bazeaz pe distana euclidian. Aceasta se determin calculnd ptratele diferenelor dintre fiecare pereche de coordonate ale celor dou puncte comparate i extrgnd apoi rdcina ptrat din suma acestora.

Uneori, comparaiile directe sunt irelevante. Apropierea este exprimat de similitudinea raporturilor sau corelaiilor dintre valorile cmpurilor nregistrrilor i nu de mrimea lor absolut. Una dintre soluiile preferate n asemenea circumstane const n interpretarea valorilor drept vectori i nu drept puncte n spaiu. n aceste condiii, ceea ce se compar sunt unghiurile dintre vectori sau sinusul acestor unghiuri, care are avantajul suplimentar de a produce ntotdeauna rezultate cuprinse ntre 0 i 1. Unghiul vectorilor permite o evaluare a apropierii care nu este influenat de diferenele de talie dintre obiectele comparate. Relund un exemplu din literatura de specialitate, comparaia direct dintre lungimea corpului, a cozii i a ghearelor unui leu i a unei pisici va indica fr ndoial puncte situate la mare distan ntre ele. Dac raporturile dintre lungimea diverselor pri ale corpului i lungimea total sunt similare la leu i la pisic, atunci vectorii vor fi aproape paraleli, indicnd acum asemnarea dintre acetia.

Pentru valorile de tip enumerativ, msura cea mai simpl a distanei se obine prin raportarea numrului de cmpuri similare din cele dou nregistrri comparate la numrul total de cmpuri. n funcie de circumstane, se poate amplifica sau, dimpotriv, diminua rezoluia cu care sunt examinate similitudinile dintre nregistrri.

Detecia supl este o variant a metodei celor k medii, bazat pe utilizarea de distribuii gauss n repartizarea punctelor n cluster-e. n aceast abordare, un punct poate aparine, cu probabiliti diferite, mai multor cluster-e n acelai timp.

Detecia grupurilor prin aglomerare

Acest demers acioneaz n sens contrar celui prezentat anterior: se pornete de la o stare iniial n care fiecare punct este considerat a fi un cluster i se execut aglomerri succesive pn cnd se obine un singur cluster, care reunete toate punctele. Toate variantele generate n cursul acestor iteraii sunt conservate astfel nct, printr-o analiz ulterioar, s se poat reine configuraia cea mai bun, cea mai relevant n raport cu scopul cutrii.

Procesul debuteaz prin construirea unei matrici de similitudine, n care figureaz distanele sau gradele de asociere dintre toate punctele. Din matricea de similitudini, se extrage perechea de puncte cu valoarea cea mai mic - cele mai apropiate - care sunt grupate mpreun ntr-un cluster distinct. Matricea se reconstruiete, nlocuind cele dou puncte prin cluster-ul lor i recalculnd distanele de la cluster la celelalte puncte. Procesul se reia, ntr-o manier similar, pn cnd se ajunge la un singur cluster. ncepnd cu a doua iteraie, devine necesar i msurarea distanei dintre cluster-e. Pentru aceasta exist mai multe variante:

distana dintre dou cluster-e este distana dintre cele mai apropiate puncte ale acestora;

distana dintre dou cluster-e este distana dintre cele mai

ndeprtate puncte ale acestora;

distana dintre dou cluster-e este distana dintre centrele (centroidele) lor.

La fiecare iteraie, se memoreaz cluster-le obinute i distana dintre ele, n vederea analizei ulterioare.

Datele comerciale asupra creia se aplic metoda sunt, ca i n cazul anterior, reprezentate prin nregistrri. Variantele de msurare a asocierii menionate anterior - distana euclidian, unghiul vectorilor, numrul cmpurilor similare raportat la numrul total de nregistrri - pot fi utilizate la fel de bine i n aceleai condiii i aici.

Figura 16 Trei modaliti de msurare a distanei dintre cluster-eGruparea prin aglomerare produce mai multe nivele succesive de grupare, pn la obinerea unui singur cluster. Este necesar s se dea i aici un rspuns ntrebrii: care este cel mai bun numr de cluster-e ? Diferena dintre valoarea distanei n momentul formrii cluster-ului i aceeai valoare la gruparea pe nivelul imediat superior este o bun msur n acest caz. Varianta prezentat anterior, constnd n compararea distanei medii din interiorul cluster-ului cu distana medie dintre cluster-e, poate fi aplicat i aici. Eventual, aceast comparaie se poate face pentru o singur variabil, considerat a fi cea mai semnificativ.

Schimbarea de scal, necesar pentru a face comparabile datele economice exprimate uzual n uniti de msur diferite const n proiecia acestor valori pe un interval comun, cuprins, spre exemplu, ntre 0 i 1 sau - 1 i 1. Aceast proiecie se poate face n urmtoarele moduri:

valoarea curent/valoarea medie

(valoarea curent - valoarea minim)/(valoarea maxima - valoarea minim) (valoarea curent - valoarea medie)/abaterea standard (numit conversie la scala Z).

Avantaje i limite ale analizei grupurilor

Principalul avantaj al acestei tehnici const n capacitatea sa de cutare nedirijat. Acesta este ns i motivul pentru care nu este, aproape niciodat, utilizat singur. Informaiile privitoare la configuraiile structurale existente n masa de date analizat trebuie examinate n continuare prin alte tehnici, pentru a extrage elemente mai detaliate i mai pertinente. Chiar i n cadrul strict al acestei tehnici, este recomandabil ca nregistrrile ce aparin cluster -elor celor mai puternice s fie eliminate din setul de date iniiale i s se declaneze un nou proces de grupare asupra datelor rmase. Exist astfel ansa descoperirii de noi grupri, mascate iniial de decalajul mare dintre distane sau asocieri.

Aplicarea sa este deosebit de adecvat n cazurile n care trebuie examinate structuri de date complexe, cu multe cmpuri.

Alte avantaje constau n uurina de prelucrare a datelor de diverse tipuri, inclusiv a celor de tip text i n cerinele minimale de pregtire prealabil a datelor de lucru.

Principalele dezavantaje constau n dificultatea gsirii matricilor potrivite pentru exprimarea distanelor i a ponderilor. De asemenea, interpretarea rezultatelor poate fi uneori dificil n virtutea faptului c este vorba despre o cutare nedirijat. Proprietile care au stat la baza constituirii grupurilor trebuie gsite printr-o analiz suplimentar a componenei fiecrui grup, tehnica neavnd capacitatea de a furniza cunotine explicite n aceast privin.

Detectarea automat de cluster-e este recomandabil ca tehnic de debut pentru un proiect de data mining. Rezultatele furnizate de aceasta urmeaz a fi explorate n continuare cu alte tehnici pentru a obine informaii mai complete.

Data mining

Fig. 14 Ciclul de utilizare a data mining

Evaluare rezultate

Decizie i aciune

Oportunitate de afaceri

Data minig

verificarea ipotezelor

cutarea de

cunotine

dirijat

nedirijat

Date de nvare

Date de test

Date de evaluare

Model utilizabil