of 23/23
Istraživanje podataka Seminarski zadatak III Asteroidi – Nalaženje familija asteroida student: Ana Vukadinović 1024/2009 Matematički fakultet, Beograd

III Asteroidi – Nalaženje familija asteroidaalas.matf.bg.ac.rs/~mi05106/IP/AnaVukadinovic.pdf · Do sada ih je otkriveno preko 170.000, а u tablice ih je uneto preko 80.000 sa

  • View
    0

  • Download
    0

Embed Size (px)

Text of III Asteroidi – Nalaženje familija asteroidaalas.matf.bg.ac.rs/~mi05106/IP/AnaVukadinovic.pdf ·...

  • Istraživanje podataka Seminarski zadatak

    III Asteroidi – Nalaženje familija asteroida

    student: Ana Vukadinović 1024/2009

    Matematički fakultet, Beograd

  • 2

    Sadržaj

    Uvod

    Asteroidi - prirodni nebeksi objekti ................................................................................................. 3

    Zadatak: Nalaženje familija asteroida

    Identifikacija tipa zadatka i cilj rešavanja ....................................................................................... 4

    Izbor softverskog alata za rešavanje zadatka i opis metoda rada ................................................. 5

    Zadati podaci i priprema podataka ................................................................................................ 6

    Klaster analize i prikazi dobijenih rešenja ..................................................................................... 13

    Zaključak ......................................................................................................................................... 6

  • 3

    Uvod

    Asteroidi- prirodni nebeski objekti Asteroidi su čvrsta, stenovita vrlo specifična nebeska tela koja kruže oko Sunca poput velikih planeta. Zbog malog prečnika zovu se još i male planete ili planetoidi. Nastali su od ostataka protoplanetarne materije koja se nije pripojila planetama za vreme formiranja sistema iz rotoplanetarnog diska ili kasnije dinamičkom evolucijom kometa ili nekih drugih objekata. Najčešće kruže oko matične zvezde vlastitom putanjom ili kao sateliti većih planeta. Neke od njih nalazimo vezane gravitacionim silama uz planete, u grupama koje orbitriraju u putanji planeta. Većina asteroid u Sunčevom sistemu nalazi se u astroidnom pojasu između Marsa i Jupite, kao i u Kajperovom pojasu. Do sada ih je otkriveno preko 170.000, а u tablice ih je uneto preko 80.000 sa svim elementima za praćenje i posmatranje. Svake godine otkrije se na desetine hiljada novih asteroid, koji dobijaju svoj redni broj i ime. Pre nego što asteroid dobije svoje ime, utvrđuju se i njegovi orbitalni elementi, kako se asteroid ne bi izgubio.

    Još uvek ne postoji tačna definicija asteroida, kao ni kako ih na odgovarajući način klasifikovati prema masi, veličini, statusu i položaju u planetarnom sistemu. Predlog je da se asteroidima nazivaju tela veća od 50m u prečniku, a manja od planeta, kamenog ili metalnog sastava. Pri klasifikaciji asteroid se uobičajeno grupišu prema orbitalnim karakteristikama i prema fotometrijskim i spektroskopskim svojstvima koja ukazuju na raličitotsti u strukturi.

    Prema orbitalnim karakteristikama asteroidi su podeljeni u grupe i familije, kojima se daju imena po prvootkrivenom ili najvećem asteroid. Prema položaju u Sunčevom sistemu sve asteroide možemo razvrstati na nekoliko grupa. Najbliži Suncu su Zemljini Presretači, asteroidi koji na putu oko Sunca dolaze u blizinu Zemlje (NEAs, Near-Earth`s Asteroids). Zatim slede Glavni asteroidni pojas, Trojanci i Kentauri.

  • 4

    Glavni pojas Oko 95% svih poznatih asteroida se kreće po orbitama između Marsa i Jupitera, na rastojanju od oko 2,0 do 4 a.j. od Sunca i to je glavni asteroidni pojas. U pojasu se opažaju na određenim distancama od Sunca koncentracije orbita asteroida razvrstanih u porodice asteroida: Hungarias, Floras, Phocaea, Koronis, Eos, Themis, Cybeles i Hildas. Ali postoje i pusta područja bez asteroida (Kirkvudove pukotine). Duž pojasa, sa povećanjem razdaljine od Sunca, menjaja se struktura asteroida pa tako i čitav pojas možemo podeliti na unutrašni i spoljašnji. U unutrašnjem preovlađuju silikatni asteroidi (60%) dok je karbonskih malo (10%). U spoljnjem delu pojasa stvar je obrunuta jer ima znatno više karbonskih (80%) nego silikatnih asteroida (15%). Pojas inače deli ceo Sučev sistem na spoljašnji i unutrašnji. Zadatak: Asteroidi – Nalaženje familija asteroid ( po različitim kriterijumima)

    Identifikacija tipa zadatka i cilj rešavanja Kako je data mining proces automatskog otkrivanja korisnih informacija u velikim bazama podataka, u ovom radu zadatak je primenom izabrane data mining tehnike pretražiti zadati skup podataka sa ciljem pronalaženja šablona u podacima o asteroidima, ako postoji, i utvrđivanja koji atributi i njihove vrednosti utiču na broj različitih familija asteroid.

  • 5

    Prikaz rešenja zadatka

    Izbor softverskog alata za rešavanje zadatka i opis metoda rada

    Za analizu zadatog skupa podataka o asteroidima korišćen je program Weka (Waikato Environment for Knowledge Analysis) , u kome je izabrana data mining tehnika klasterovanja i EM algoritam.

    Klaster analiza ili klasterovanje podrzumeva svrstavanje objekata u grupe ( zvane klasteri ), tako da su objekti iz istog klastera međusobno slični ( ili povezani ), a objekti u različitim grupama međusobno različiti ( ili nepovezani ).

    Kao mera sličnosti najčešće se koriste funkcije: Euklidsko rastojanje, Menhetn rastojanje, Maksimalna norma, Mahalanobisovo rastojanje, Hamingovo rastojanje, kao i ugao između dva vektora koji može biti funkcija rastojanja kod klasterovanja visokodimenzionalnih podataka.

    Postoje dva tipa klasterovanja: partitivano klasterovanje ( podela skupa podataka u nepreklapajuće podskupove ( klastere ) takve da je svaki podatak tačno u jednom podskupu ) i hijerarhijsko klasterovanje ( Skup ugnježdenih klastera organizovan u obliku hijerarhijskog drveta ) .

    EXPECTATION MAXIMIZATION (EM) ALGORITHM

    Za rešavanje ovog zadatka tj. grupisanje asteroida u familije, korišćen je EM algoritam implementiran u Waikato Environment for Knowledge Analysis (Weka). Weka je sistem razvijen na Univerzitetu Waikatkao na Novom Zelandu. Napisan u objektno-orjentisanom programskom jeziku Java i sadrži alate za pre-procesiranje podataka, klasifikaciju, regresiju, klasterovanje, pravila pridruživanja i vizuelizaciju, ali omogućava i razvijanje novih šema u mašinskom učenju.

    EM algoritam je mešavina algoritama koji pokušavaju da maksimizuju verovatnoću ( likelihood ) modela. EM model raspodele je probabilistički, tako da se pripadnost grupi zasniva na određivanju verovatnoće, ali EM zapravo ne izračunava verovatnoću, već izračunava gustine.

    Pretpostavka EM-a je da su atributi nezavisne slučajne promenljive.

  • 6

    EM podržava i numeričke i nominalne attribute.

    Prvi korak u algoritmu EM je očekivanje/expectation, izračunavanje verovatnoće klastera ( koje su “očekivane” vrednosti klasa).

    Drugi korak je izračunavanje parametara raspodele tj. maksimizacija verovatnoće raspodele datih podataka.

    Izlaz iz EM algoritma je broj klastera sa opisom svakog klastera, primarnom predpostavkom svakog klastera i verovatnoćom raspodele za sve atribute u zadatakom skupu podataka . Za nominalne atribute raspodela je predstavljena računom povezanim sa svakom pojedinačnom vredošću ( plus jedan ), a kod numeričkih atributa je normalna raspodela.

    EM daje i broj obučenih instanci iz trening skupa za svaki klaster, kao i verovatnoću treniranja koja je generisana tokom klasterovanja.

    Podrazumevano, EM bira broj klastera automatski, dok maksimizira verovatnoće budućih podataka, procenjujući korišćenje cross-validation. Počevši sa jednim klasterom, EM nastavlja da dodaje klastere sve dok se procenjeni logaritam verovatnoće smanjuje log( likelihood )↓ .

    Osnova za statističko klasterovanje je statistički model finite mixtures. Mixture je skup od k verovatnoća raspodela, predstavljajući k klastera, kojim upravljaju vrednosti atributa za članove tog klastera. Svaka raspodela daje verovatnoću da će određena instance imati određeni skup vrednosti atributa ako je poznato da je član tog klastera. Svaki klaster ima drugačiju raspodelu. Svaka određena instanca pripada tačno jednom klasteru ali nije poznato tačno i kojem. Klasteri nisu podjednako verovatni. Mixture model kobininuje nekoliko normalnih raspodela i njegove funkcije gustine verovatnoće liče na planinski venac sa vrhom za svaku od komponenti.

    Zadati podaci i priprema podataka

    Prvi korak u data mining-u je izabrati i navesti podatke koji će biti analizirani. Podaci mogu biti u jednoj ili više baza podataka, tabela, pogleda ili datoteka. Nakon što se odredi skup podataka koji će se analizirati moguće je na podatke primeniti neke od dostupnih filtera, uradi diskretizacija ili izvršiti reorganizacija kako bi pretraživanje bilo što efikasnije.

  • 7

    Zadati podaci :

    U zadatim podacima postoji 9 394 različitih asteroida zadatih sa svojim jedinstvenim brojem , punim imenom i sa po osam merenja.

    Svako merenje sadrži vrednosti za atribute: Date, Right ascension, Declination, Geocen. dist, Helioc. dist. , Phase, V.

    Ukupno 75 152 instanci.

  • 8

    Dobijeni podaci najpre su izparsirani i uneti u bazu ( korišćen je IBM DB2 ) gde su dalje transformisani .

    Prikaz tabele sa podatacima iz baze:

    Right ascension ( RA ) i Declination definišu tačku na nebeskoj sferi u ekvatorijalnom koordinatnom sistemu, pa se RA može uporediti sa geografskom dužinom, a declination sa geografskom širinom, projektovane na nebesku sferu.

  • 9

    R.A. standardno se zadaje u formatu __h __min __ sec , pa atributi RA_hours i RA_ min sadrže vrednosti časova i minuta za odgovarajuću tačku iz koje je vršeno merenje, dok se druga koordinata tačke, declination, zadaje u formatu __° __min __sec, a atributi Decl_step i Decl_min sadrže vrednosti stepena i minuta. Iz priloženog vidi se da je neophodno preći na istu mernu jedinicu ovih - stepene ovih atributa, odgovarajućim formulama : Right ascension x° = 15° * y h + 15° * z min / 60 h; Declination x° = y ° + z min / 60 h

    Kada smo rešili problem sa mernim jedinicama, došli smo do sledećeg problema u definiciji naših zadatih podataka. Naime, ukoliko ostavimo da dva atributa ( RA i declination ) definišu tačku posmatranja, glavna pretpostavka EM algoritm, da su svi atributi nezavisne promenljive, neće biti zadovoljena, a samim tim ni moguća klaster analiza nad ovim podacima. Transformacija ova dva međusobno zavisna atributa u jedan atribut izvršeno je prelaskom na polarni koordinatni sistem, odgovoarajućim formulama, pa su od sada vrednosti atributa RA i Declination predstavljeni jednom vrednošću – atributom polar_coordinate .

    Formula za transfomraciju u polarni koordinatni sistem:

    ,

    Atribut Date / datum predstavlja datum kada je izvršeno merenje.

    U zadatom skupu podataka postoji 11 različitih vrednosti ovog atributa : 2007-03-31; 2007-10-4; 2007-20-04; 2007-30-04; 2007-10-5; 2007-20-05; 2007-30-05; 2007-9-5; 2007-19-05; 2007-29-05; 2007-09-06.

    Prilikom vizualizacije zadatih podataka uočava se da je za pet različitih vrednosti datuma merenj urađeno za svaki od asteroida u zadatom skupu. U cilju rešavanja zadatka kao i smislenije i efikasnije analize zadatih podataka za dalju analizu izabran je skup asteroid sa merenjima sa vrednošću atributa date= ’2007-04-30’.

  • 10

    Ostali atributi u tabeli sadrže specifične karakteristike za svaki asteroid sa imenom i id-om, za konkretno vremenski određeno merenje iz tačke posmatranja.

    Atribut Geocen predstavlja udaljenost posmatranog asteroida od planete Zemlje, iz tačke posmatranja definisane vrednošću atributa polar_koordinate, u vremenskom trenutku definisanom vrednošću atributa date= ’2007-04-30’.

    Osnovne karakteristike i vizualni prikaz skupa vrednosti atributa Geocen u skupu podataka obrađenog u klaster analizama.

    Atribut Heliocen predstavlja udaljenost posmatranog asteroida od Sunca, iz tačke posmatranja definisane vrednošću atributa polar_koordinate, u vremenskom trenutku definisanom vrednošću atributa date= ’2007-04-30’.

    Osnovne karakteristike i vizualni prikaz skupa vrednosti atributa Heliocen u skupu podataka obrađenog u klaster analizama.

  • 11

    Atributi Phase i V su karakteristike posmatranog asteroid, iz tačke posmatranja definisane vrednošću atrobita polar_koordinate, u vremenskom trenutku definisanom vrednošću atributa date= ’2007-04-30’.

    Osnovne karakteristike i vizualni prikaz skupa vrednosti atributa Phase u skupu podataka obrađenog u klaster analizama.

    Osnovne karakteristike i vizualni prikaz skupa vrednosti atributa V u skupu podataka obrađenog u klaster analizama.

  • 12

    Zadati podaci za potrebe rešavanja ovog zadatka transformisani su u sl. oblik :

  • 13

    i sadrže 9394 različitih asteroida sa informacijama o polarnim koordinatama tačke posmatranja, udaljenosti od Zemlje, udaljenosti od Sunca, vrednostima phase i vrednostima V za merenje 30. aprila 2007.godine.

    Nakon potrebnih transformacija u sistemu db2, podaci su zapamćeni u .csv (comma-separated values) formatu, kako bi mogli da se dalje obrađuju i analiziraju u programu Weka.

    Kako su podaci pre importovanja u Weku vec bili pripremljeni, nije bilo potrebe za predprocesiranjem i primenjivanjem nekih od mogućnosti koje pruža sam program. Pre samog procesa klasterovanja uklonili smo neke od nerelavantnih atributa kao što su id asteroid i datum merenja. Atribut ime asteroida iako spada u grupu nerelavantnih atributa, nominalnog je tipa i ne utiče na broj klastera, ali je ostavljen radi mogućih tumačenja rezultata.

    Klaster analize i prikazi dobijenih rešenja

    U pokušaju da uočimo različite familija asteroida i koji pojedinačni atributi ili grupe atributa utiču na njihov broj izvršili smo sedam različitih klaster analiza, sa EM algoritmom, nad celim skupom predhodno sređenih i prikazanih podataka. Svaka od analiza vršena je nad kombinacijom atributa Polarne_koordinate sa jednim ili više ostalih atributa.

    Rezultati data mining procesa mogu se analizirati u odnosu na predhodno postavljene ciljeve, kroz dobijene informacije o samom procesu klasterovanja i njegovih rezultata, kao i kroz vizuelizaciju koja omogućava da se vide rezultati i identifikuju važne informacije nastale u procesima.

  • 14

    Prva klaster analiza

    Prva klaster analiza pokrenuta je nad polarnim koordinatama i udaljenosti asteroida od Sunca, pri čemu je generisano 5 različitih klastera. Najboljim klasterom se smatra klaster sa najvišom srednjom vrednošću za bilo koji atribut, a najlošiji sa najnižom. Ovde vidimo da je jedan klaser ( 0/plava) lošije definisan sa velikim odskakanjem i visokom devijacijom koji se jasno izdvaja i u vizualnom prikazu, ali u njega ulazi svega 25 istanci sto je 0%. Najbolji klaster (2/zeleni) obuhvata 9% asteroid. Najviše, 59% istanci upada u prosecno definisan klaster (4/rozi), dok u najlošiji klaster (3/ tirkizni) upada 25%. Ovakvom analizom uočavamo da većina asteroida u ovom skupu je na relatino sličnoj udaljenosti od Sunca, i da priprada postojećem asteroidnom pojasu, a svega par ne pripada.

    Vizualizacija klasterova

    X: polaor Y: heliocen

    X: Claster Y: heliocen

  • 15

    Druga klaster analiza

    Druga klaster analiza pokrenuta je nad polarnim koordinatama merenja i udaljenosti asteroida od planete Zemlje, pri čemu je generisano kao i u predhodnoj analizi 5 različitih klastera. Najbolji klaster (4/rozi ) obuhvata 14% istanci, najlošiji (1/plavi) obuhvata svega 9 %, dok najviše istanci, 54% prosečan klaster (0/zeleni). Kao i u predhodnoj analizi pojavljuje nam se jedan loše definisan klaster sa velikim odskakanjem srednje vrednosti i visokom devijacijom od 0% zastupljenosti. Ovom analizom dobija se veoma sličan utisak kao i iz predhodne, da većina asteroida pripada postojećem asteroidnom pojasu i da se mogu formirati 5 različitih familija asteroida po posmatranoj udaljenosti od Zemlje.

    Vizualizacija klasterovanja

    X:polar koor Y: geocen

    X: Claster Y: heliocen

  • 16

    Treća klaster analiza

    Treća klaster analiza pokrenuta je nad tri atributa, polarnim koordinatama merenja, udaljenosti asteroida od planete Zemlje i udaljenosti asteroida od Sunca. Generisano je ukupno 13 različitih klastera. Najbolji klaster (5/ljubičasti ) obuhvata 4% istanci, najlošiji (11/crveni) obuhvata 8 %, dok su ostali klasteri sličnih zastupljenosti i ponovo imamo jedan loše definisan sa velikim odskakanjima, klaster (12/zeleni) od 0% zastupljenosti. Uzimajući u obzir udaljenosti asteroida od Zemlje i od Sunca nasom analizom mogu se izdvojiti 13 različitih familija.

  • 17

    Vizualizacija klasterovanja:

    X: geocen Y: heliocen X: Claster Y: heliocen/geocen

    Četvrta klaster analiza

    Četvrta klaster analiza pokrenuta je nad jednim atributom Phase i polarnim koordinatama merenja, pri čemu je generisano 17klastera. Najbolji klaster ( 6 / narandžasti ) obuhvata 10% istanci, najlošiji (8/zeleni) obuhvata 6 %, dok najviše istanci, 13% ulazi u prosečan klaster (13/tirkizni). Kao i u predhodnoj analizi pojavljuje nam se jedan loše definisan klaster (16) sa velikim odskakanjem srednje vrednosti i visokom devijacijom od 0% zastupljenosti. Uzimajući ovu karakteristiku asteroida našom analizom mogu se izdvojiti 17 različitih familija.

  • 18

    Vizualizacija klasterovanja:

    X: polar Y: phase

    X: Claster Y: phase

  • 19

    Peta klaster analiza

    Peta klaster analiza pokrenuta je nad atributom V i polarnim koordinatama merenja, pri čemu je generisano 8 klastera. U najbolji klaster (5/ljubičasti ) nalazi se i najvise klasterovanih asteroid čak 30 %, u najlošiji (7/crveni) svega 2 %, dok su ostali dobro raspoređeni u ostale klastere . Kao i u predhodnim analizama pojavljuje nam se jedan loše definisan klaster (8) sa velikim odskakanjem srednje vrednosti i visokom devijacijom od 2% zastupljenosti. . Uzimajući ovu karakteristiku asteroida našom analizom mogu se izdvojiti 8 različitih familija.

    Vizualizacija klasterovanja:

    X: polar Y: v

    X: claster Y: v

  • 20

    Šesta klaster analiza

    Šesta klaster analiza pokrenuta je nad atributomima V , Phase i polarnim koordinatama merenja, pri čemu je generisano 7 klastera. U najbolji klaster (5/ljubičasti ) nalazi se i najvise klasterovanih asteroid 27 %, u najlošiji (2/zeleni) 18 %. Uzimajući u obzir oba atributa u odnosu na klasterovanje po svakom, broj mogućih familija nam se smanjio.

    Vizualizacija klasterovanja

    X: v Y: Phase

    X: Claster Y: Phase

  • 21

    Sedma klaster analiza

    Sedma klaster analiza pokrenuta je nad svim atributomima, polarnim koordinatama merenja, udaljenosti asteroida od planete Zemlje, udaljenosti asteroida od Sunca, atributima V i Phase prilikom čega je generisano 5 klastera. U najboljem klasteru (1/plavi ) nalazi se 18 % asteroida, a u najlošijem (3/tirkizni) 29 %. Uočava se i ovde pojavljivanje jednog klastera sa velikim odskakanjem devijacije i sa jako malim brojem instanci od 0%. U ostala četiri klastera asteroidi su ravnomerno raspoređeni.

    Vizualizacija klasterovanja

    X: Phase Y: Polar

    X: Heliocen Y: Polar

    X: V Y: Polar

    X:PolarY:number_instanc

  • 22

    Zaključak

    Iz predhono izvršenih klaster analiza uočavamo da broj mogućih familija zavisi od kombinacije atributa uključenih u klasterizaciju. Kombinacijom atributa Geocen i Heliocen povećava se i broj klastera u odnosu na pojedinačan uticaj, dok kobinacijom atributa Phase i V sa bilo kojim od atributa samnju se njegov pojedinačan uticaj na formiranje familija, a samim tim i broj mogućih familija. Posmatrajući sve klaster analize izdavaja se nekolicina instanci koje iskaču iz većine ostalih vrednosti što se može posmatrati kao neka vrsta šuma i zanemariti ili izdvojiti kao posebna familija. Još na samom početku uočeno je da je većina posmatranih asteroida grupisano na pribižno sličnoj udaljenosti od Sunca ( kao i od Zemlje ) što odgovara postojanju asteroidnog pojasa, između Marsa i Jupitera, pomenutom u uvodu ovog rada.

    Kroz sve klaster analize, kao i još probnih analiza izvršenih u svrhu rešavanja ovog zadatka, uočava se jak uticaj atributa sa vrednostima udaljenosti posmatranog asteroida od Sunca kao i atributa sa vrednostima udaljenosti od Zemlje što odgovara i jednom od glavnih kriterijuma postojeće klasifikacije asteroida u familije.

    Kako bi se otkrili što bolji paterni za klasifikaciju aseroida u familije potrebno je posmatrati mnogo više karakteristika i vršiti analize na većem reprezentativnom uzorku, kao i primeniti više različitih tehnika data mininga radi poređenja rezultate i što boljeg definisanja paterna.

  • 23

    III Asteroidi – Nalaženje familija asteroidaAsteroidi- prirodni nebeski objekti

    Izbor softverskog alata za rešavanje zadatka i opis metoda radaZadati podaci i priprema podatakaPrvi korak u data mining-u je izabrati i navesti podatke koji će biti analizirani. Podaci mogu biti u jednoj ili više baza podataka, tabela, pogleda ili datoteka. Nakon što se odredi skup podataka koji će se analizirati moguće je na podatke primeniti ...Klaster analize i prikazi dobijenih rešenjaPrva klaster analizaDruga klaster analizaTreća klaster analizaČetvrta klaster analizaPeta klaster analizaŠesta klaster analizaSedma klaster analiza