Fenetický přístup shluková analýza ordinační metody diskriminační analýza

Embed Size (px)

DESCRIPTION

Fenetický přístup shluková analýza ordinační metody diskriminační analýza. Stupnice Nominální stupnice ( nominal scale ) z matematických operátorů zde platí jen rovnost (=) nebo nerovnost (  ) Pořadová stupnice ( ordinal scale ) - PowerPoint PPT Presentation

Text of Fenetický přístup shluková analýza ordinační metody diskriminační analýza

  • Fenetick pstup

    shlukov analza ordinan metody diskriminan analza

  • Stupnice

    Nominln stupnice (nominal scale)z matematickch opertor zde plat jen rovnost (=) nebo nerovnost ()

    Poadov stupnice (ordinal scale)krom rovnosti a nerovnosti zde plat tak opertory < a >

    Intervalov stupnice (interval scale)krom vlastnost pedchzejcch dvou stupnic je zde mon tak stn a odetn (znaky mohou nabvat tak hodnoty 0)

    Pomrov stupnice (ratio scale)dovoluje vyjdit pomr mezi objekty (lze pout t opertor dlen

  • Klasifikace znak

    (1) kvalitativn (qualitative):binrn (binary, dvoustavov, dvouhodnotov, alternativn)vcestavov (multistate, vcehodnotov)

    (2) semikvantitativn (semiquantitative)

    (3) kvantitativn (quantitative)nespojit, diskrtn (discontinuous, discrete, meristic)spojit, kontinuln (continuous)

  • stavy kvalitativnho znaku

    uml binrn promnn

    a

    1

    0

    0

    0

    b

    0

    1

    0

    0

    c

    0

    0

    1

    0

    d

    0

    0

    0

    1

    Peveden tystavovho kvalitativnho znaku do soustavy binrnch znak

  • Nkter mnohorozmrn metody nevyaduj normln rozdlen dat, ppadn jsou dostaten robustn ve vztahu k odchylkm od normlnho rozdlen dat (nap. shlukov analzy, PCA ...)

    Jin metody mnohorozmrn normln rozdlen dat vyaduj (nap. diskriminan analza).

    Transformac lze nkdy rozdlen dat piblit k normlnmu rozdlen.Diagram hustoty pravdpodobnosti pro dvourozmrn normln rozdlenTransformace dat

  • Transformace datK transformaci se pouvaj konstanty a funkce nezvisl na analyzovanch datech

    Linern transformace (nap. nsoben znak konstantou) pokud se aplikuj u vech znak vsledky anlzy se tm nemn; pokud se pouij jenom u jednoho nebo nkolika znak, dochz tu k jejich ven

    Nelinern transformace mn strukturu dat

  • Logaritmick transformace (logarithmic transformation): Namen hodnoty se nahrazuj jejich logaritmem xij = logc xij Protoe logaritmus nuly nen definovn, pipotv se vtakovch ppadech ke kad namen hodnot danho znaku konstanta 1 anebo 0,5. Vzorec m potom tvar xij = logc (xij+1)Transformace dat

  • Odmocninov transformace (square root transformation)

    obecn xij = xcij c>1 zdrazuj se vysok seln hodnoty pouv se zdka c

  • Odmocninov transformace (square root transformation)Znaky nesm dosahovat nulovch hodnot, proto se nkdy pouv ve tvaru Transformace dat

  • Arkussinov transformace (Arc sin transformation) xij = arc sin xij Pouv se i v kombinaci s odmocninovou transformac;arkussinov transformace pedpokld, e data jsou men v intervalu 0, 1pokud tomu tak nen, je mon namen hodnoty vydlit konstantami 10, 100, 1000, atd.

    Transformace dat

  • Ke standardizaci se pouvaj statistiky odvozen zanalyzovanho souboru dat (rozpt, smrodatn odchylka, prmr, maximum atd.)Znaky se tmto postupem pevdj na stejn mtko (jinmi slovy pestv zleet na skutenm rozmru pslunho znaku) Centrovn (centring, standardizace na prmr rovn nule) xij = xij xi Centrovn nemn jednotky, ve kterch jsou znaky men, mn se jen poloha nulovho bodu v soustav souadnic.Standardizace rozptm (standardization by range, ranging)

    Doporuuje se pout v ppadech, kdy jsou sice znaky meny ve stejnm mtku, ale mezi jejich hodnotami jsou velmi velk rozdly, hodnoty znak se pevedou do intervalu [0,1]

    Standardizace dat

  • Standardizace smrodatnou odchylkou (standardization by standard deviation) kde je smrodatn odchylka znaku i

    doporuuje se pout v ppadech,kdy jsou znaky men v odlinch klch a jednotkchStandardizace datsi

  • Koeficienty vyjadujc vztahy mezi objekty nebo znaky (resemblance coefficients)

    (1) koeficienty vzdlenosti pro kvantitativn a binrn znaky (metric distances)

    (2) koeficienty podobnosti pro binrn znaky (binary similarity coefficients)

    (3) koeficienty pro smen data (coefficients for mixed data) (4) korelan koeficienty (correlation coefficients)

  • Metriky (vzdlenosti)Pokud koeficienty vzdlenosti spluj nsledujc poadavky, povauj seza metriky (metric):(1) symetrie pro vzdlenost dvou objekt (x, y) plat:d(x,y) = d(y,x) 0(2) trojhelnkov (triangulrn) nerovnost pro vzdlenost tech objekt (x, y, z) plat: d(x,y) d(x,z) + d(y,z)tj. vzdlenost dvou objekt je men, nanejv rovna soutu jejich vzdlenost od objektu tetho;(3) vzdlenost totonch objekt (a vzdlenost objektu od sebe samho) je 0:d(x,y) = 0 v ppad, e x = y (4) vzdlenost objekt, kter nejsou toton, je vt ne 0 (je kladn):d(x,y) > 0 v ppad, e x y.Pokud koeficienty vzdlenosti nespluj kritrium trojhelnkov nerovnosti, povauj se za pseudometriky (pseudometric, semimetric).

  • Euklidovsk vzdlenost (Euclidean distance): EU=c kde xij je hodnota znaku i pro objekt j, xik je hodnota znaku i pro objekt k, n je celkov poet znak Metriky (vzdlenosti)

  • Euklidovsk vzdlenost je zvisl na kle znak

    Vha v librchVka v stopchVka v palcchA60 3,036,0B653,542,0C634,048,0

    = (60 65)2 + (3,0 3,5)2 = 25.25 [(60 65)2 + (36,0 42,0)2 = 61]

    = (60 63)2 + (3,0 4,0)2 = 10.00 [(60 63)2 + (36,0 48,0)2 = 153]

    = (65 63)2 + (3,5 4,0)2 = 4.25 [(65 63)2 + (42,0 48,0)2 = 40]

  • Manhattansk (city block) metrika: CB=a+b Pipomn severoamerick msta s kolmmi ulicemi, kde se mus chodit kolem blokMetriky (vzdlenosti)Minkowskho metrika: kde r1; pro r=1 . CB Pro r=2 EU

  • Ttivov vzdlenost (chord distance) Pro dva znaky je ttivov vzdlenost pmou vzdlenost mezi projekc bod na krunici sjednotkovm polomrem CH=d VzdlenostiTtivov vzdlenost dosahuje stejnch hodnot v ppad, e dva nebo vce objekt vykazuj ve vech znacch proporn tch samch hodnot, aniby konkrtn hodnoty tchto znak musely bt u vech objekt stejn (vzdlenost bod C a D).Nen pravou metrikou.

  • Koeficienty podobnosti pro binrn dataJakkoliv funkce d je nepodobnost pokud odpovd alespo prvnm tem pravidlm o metrikch (pokud j=k, pak djk=0; pokud jk, pak djk>0; djk = dkj); - vtina funkc nepodobnosti m doln hranici = 0, horn hranici = 1: 0djk 1 - vtina funkc nepodobnosti po transformaci (djk )1/2 vyhovuje vem pravidlm o metrikch a pak pedstavuj vzdlenosti obvykle uvaujeme o podobnosti: sjk = 1 - djk pro identick objekty plat sjk = 1

  • Vbr koeficientu podobnostia poet znak, ve kterch maj oba objekty hodnotu + (resp. 1) (pozitivn shoda)b poet znak, ve kterch m objekt i hodnotu (resp. 0) a objekt j hodnotu + (resp. 1)c poet znak, ve kterch m objekt i hodnotu + (resp. 1) a objekt j hodnotu (resp. 0)d poet znak, ve kterch maj oba objekty hodnotu (resp. 0) (negativn shoda)Volba mezi koeficienty zvis pedevm na tom, jestli pro dan znaky m nebo nem smysl negativn shoda, tj. zdali m nebo nem smysl uvaovat, e nulov hodnota znaku m u porovnvanch objekt stejnou pinu Koeficienty podobnosti pro binrn data

    objekt 2objekt 1101ab0cd

  • Koeficienty hodnotc a a d symetricky: Koeficient jednoduch shody (simple matching): koeficient je blzk ED: ED2 = n(1-SM) n=a+b+c+d Koeficient Rogerse a Tanimota: neshody jsou ven dva krt; hodnoty vdy ni ne u SM, s vjimkou b+c=0 Hamannv index: rozpt [-1,1]Koeficienty podobnosti pro binrn data

    object 2object 1101ab0cd

  • Koeficienty hodnotc a a d asymetricky: d se sice bere do vahy, a a d se vak nev stejn

    Baroni-Urbani Buser II: modifikovan SM, d -> geometrick prmr a a d rozpt [0,1] Baroni-Urbani Buser I: modifikovan HAM, d -> geometrick prmr a a d rozpt [0,1] Russellv Rav koeficient: zvenie hodnoty d sniuje hodnotu nepodobnostiKoeficienty podobnosti pro binrn data

    objekt 2objekt 1101ab0cd

  • Koeficienty, kter neberou do vahy negativn shodu: Jaccardv koeficient: rozpt [0,1] konverze m za vsledek Euklidovskou vzdlenost Sorensenv koeficient: pozitivn shoda se v dva krt

    genetick vzdlenosti podle Nei & Li (1979), Link et al. (1995) vyuvan pi NJ, PCoA odpovdaj tak tomuto typu koeficient Nei & Li (1979):Link et al. (1995): Koeficienty podobnosti pro binrn data

    object 2object 1101ab0cd

  • Do tto kategorie pat Gowerv koeficient a vzdlenost pro smen data. Pouvaj se v ppadech, kdy jsou vmatici souasn zastoupeny kvalitativn znaky a znaky kvantitativn nebo binrn (ppadn vechny ti druhy znak). Gowerv koeficient: a) pro binrn znaky: wijk = 1 a sijk = 0 pokud xij xik (hodnoty znaku i pro objekty j a k) wijk = sijk = 1 pokud xij = xik = 1 nebo pokud xij = xik = 0 a negativn shoda se bere do vahy (odpovd koeficientu jednoduch shody) wijk = sijk = 0 pokud xij = xik = 0 a negativn shoda se nebere do vahy (odpovd Jaccardovu koeficientu) j,k objekty charakterizovan znakem k, n celkov poet znak, sijk skre znaku iKoeficienty pro smen data

  • Gowerv koeficient: b) pro nominln znaky: wijk = 1 pokud xij a xik jsou znm; pak sijk = 0 pokud xij xik; sijk = 1 pokud xij = xik (poet stav se nebere do vahy) Koeficienty pro smen dataj,k objekty charakterizovan znakem k, n celkov poet znak, sijk skre znaku i

  • Gowerv koeficient: c) pro kvantitativn znaky: wijk = 1 pokud xij a xik jsou oba znm, a sijk = 1 {|xij - xik| / (rozpt znaku i)} (odpovd Manhattansk metrice s daty stadardizovanmi na rozpt) Koeficienty pro smen dataj,k objekty charakterizovan znakem k, n celkov poet znak, sijk skre znaku i

  • pklad:Koeficienty pro smen data

    Taxon / znak Vtvenlodyhybarva korunnch lstkcharakter listprmrn vka rostliny (cm)Prmrn dlka korunnch lstk (mm)11bl (1)jednoduch (1)302,621erven (2)lichozpeen (2)252,330modr (3)lichozpeen (2)108,540modr (3)dlanitodln (3)808,2

  • Pearsonv korelan koeficient n poet objekt, hodnota znaku 1 pto objekt i linern korelace, predpokld normln rozdlen dat Korelan koeficienty Spearmanv korelan koeficient (rank koeficient, koeficient