04 Analiza Prelim

Embed Size (px)

DESCRIPTION

analiza preliminara a datelor

Citation preview

  • Analiza preliminar a datelor- verificarea condiiilor -

    Marian Popa

    2013

  • Direcii de evaluare

    1. Corectitudinea datelor2. Valorile excesive3. Valorile lips4. Normalitatea distribuiei5. Liniaritatea6. Homoscedasticitatea

    2

  • introducere

    Calitatea analizei i calitatea concluziilor depind de calitatea datelor

    Toate procedurile statistice presupun ntrunirea unor condiii (presupuneri) teoretice

    3

  • De ce este important respectarea condiiilor?

    Pentru corectitudinea concluziilor Exemplu

    nclcarea condiiilor teoretice afecteaz rata erorilor statistice

    de tip I ?...

    de tip II ?...

    4

  • Analiza exploratorie a datelor (EDA)

    J.W. Tukey (1915-2000) nelegerea ct mai exact a datelor

    cercetrii (tendina central, mprtierea, forma distribuiei);

    detectarea eventualelor erori. descoperirea unor structuri ascunse ale

    datelor;

    identificarea variabilelor importante; detectarea valorilor excesive; verificarea respectrii condiiilor impuse

    de diferite proceduri infereniale5

  • 1. Corectitudinea datelor

    Valorile unei variabile sunt corecte atunci cnd nu s-au produs erori la introducerea de la tastatur sau la preluarea lor dintr-o alt surs

    n faza de recoltare acurateea modelului de investigare calitatea instrumentelor de evaluare rigoarea procedurii de aplicare

    n faza de constituire a bazei de date atenie, organizare, motivare... verificarea corectitudinii nainte de prelucrare

    listarea valorilor (Analyze/Report/Case Summaries-Summarize-Case Summaries)

    analiza de frecvene (Statistics-Descriptive Statistics-Frequencies) 6

  • 1. Corectitudinea datelor

    Valorile unei variabile sunt valide atunci cnd exprim ceea ce ne ateptm s exprime

    Codificarea corect a rspunsurilor 1=DA; 2=NU/1=NU. 2=DA 1=dezacord total; 2=dezacord parial; 3=nici acord/nici dezacord;

    4=acord parial; 5=acord total

    Transform/Compute Profilul rspunsurilor

    Angajare neserioas a subiecilor 1-2-1-2-1-2-

    Atenie la scalele de minciun

    7

  • 2. Valorile excesive (marginale i extreme)

    Valorile neobinuite ale unei distribuiei excesive, extreme sau marginale outliers, n englez Valori extreme Valori cu influen (influential cases)

    8

  • Surse ale valorilor extreme

    Erori umane n colectarea i introducerea datelor de exemplu: 422 n loc de 42)

    Valori raportate intenionat greit Atitudinea subiecilor

    Valori care exprim alt realitate Timpi mari de reacie, datorit unor factori distractori

    Erori de eantionare Subieci care fac parte din alt populaie

    Valori care fac parte din variaia normal Salariul efilor

    9

  • Impactul valorilor excesive

    Efectele negative distorsioneaz indicatorii distribuiilor amplificarea variabilitii i, deci, a erorii standard

    diminuarea preciziei estimrii parametrilor reduce puterea testelor statistice

    Efectele pozitive scot n eviden situaii semnificative din perspectiva obiectivului

    cercetrii

    atrag atenia asupra unor aspecte care ies din limitele ipotezei iniiale

    10

  • Detecia valorilor excesive

    a)La nivel univariatb)La nivel bivariatc)La nivel multivariat

    11

  • Detectarea univariat

    Metodele grafice Histogram stem-and-leaf box-plot

    Metode numerice Transformarea n valori z

    N=80: z 2.5 sau mai mare. eantioane mai mari z 3, dar nu mai mult de 4

    Teorema Cebiev (1-1/k2) 75% k=2 89% k=3

    12

  • Leys et al (2013) Utilizarea mediei pentru detecia valorilor excesive este greit:

    Presupune normalitatea distribuiei (incluznd outliers) Outliers modific valoarea mediei Nu funcioneaz corect pe eantioane mici

    Soluie alternativ: abaterea absolut de la median (apud Hampel, apud Gauss)

    Mediana nu este afectat de outliers

    13

  • Procedura SPSS

    MAD=1.48*MedV2=5.1891 Criterii de decizie outliers (Miller, 1991)

    Mediana 3*MAD (foarte conservator) Mediana 2.5*MAD (moderat conservator) Mediana 2*MAD (puin conservator)

    14

    COMPUTE

    ABS(V1-MedV1)

    MedV1=7 MedV2=3.5

  • 114

    101

    H=114-101=13

    Percentila 75 (114)

    Percentila 25 (101)

    Mediana

    (Q2)

    142 valoare extrem

    135 valoare extrem

    114+1.5x13=133.5

    101-1.5x13=81.5

    Limita de sus poate urca pn la 133,5

    Cea mai apropiat valoare este 125

    Limita de jos este 81.5

    Trasm la 86

    15

  • Detectarea univariat

    Testul Grubb Metodele anterioare nu sunt

    aplicabile pe eantioane mici

    valorile transformate n z nu pot fi mai mari dect (N-1)/N

    16

  • Detectarea bivariat

    Outlierbivariat

    17

  • Detectarea multivariat

    Abaterea excesiv prin raportare la un numr mare de variabile O valoare poate fi neobinuit n raport cu unele variabile, dar

    obinuit n raport cu altele

    Diagnosticul de valoare excesiv trebuie pus n raport cu toate dimensiunile simultan

    Scatter-plot trivariat Metode numerice

    Variabile dummy SUM SD

    Se transform n scoruri z valori z mai mari de 3 sau 4 sunt excesive multivariate

    indicele D al lui Cook (Cook's D statistic) indicele D2 al lui Mahalanobis

    18

  • 19

  • Tratarea valorilor excesive multivariate

    Depinde de natura lor Erori? eliminare Valori valide?... eliminare sau transformare Ambele au avantaje i dezavantaje

    Eliminarea valorilor excesive Efectuarea analizelor i raportarea rezultatelor CU i FR

    ele

    Transformarea tuturor valorilor Trunchierea

    20

  • Valori lips

    Imposibilitatea recoltrii lor Refuzul subiecilor Rezultate din calcule cu variabile care au valori

    lips

    Trebuie sa ascund valori cu aceeai semnificaie cu valorile valide

    Decesul subiecilor? Non-rspunsuri legitime?

    21

  • Natura valorilor lips

    Rubin (1976) a fundamentat analiza modern a valorilor lips inferena statistic se bazeaz pe presupunerea distribuiei

    aleatoare, neafectate de erori (bias)

    acest lucru implic faptul c eventualele valori lips au, la rndul lor, un caracter aleatoriu

    nu sunt determinate de un factor care le determin n mod sistematic

    Valori lips nealeatorii Valori lips complet aleatorii Valori lips aleatorii

    22

  • Impactul valorilor lips

    Eliminarea: reducerea eantionului reducerea puterii

    Dac nu sunt aleatorii, afecteaz concluziile cercetrii

    n context multivariat, efectul se multiplic

    23

  • Analiza valorilor lips SPSS

    System missing values User defined missing values

    SPSS Missing Value Analysis Descrie modelul datelor lips: n ce variabile sunt

    localizate; ct de multe sunt; n ce msur anumite perechi de variabile tind s aib valori lips la mai multe cazuri; dac sunt aleatorii.

    Estimeaz mediile, abaterile standard, covarianele i corelaiile pentru diferite metode de tratare a valorilor lips.

    nlocuiete valorile lips cu alte valori, utiliznd metode avansate.

    24

  • Analiza valorilor lips

    Soluii bivariate Se creeaz o variabil dummy

    0, pentru subiecii care nu au rspuns 1 pentru cei care au rspuns

    Se aplic testul t al diferenei dintre medii O valoare semnificativ a testului: valorile lips apar n

    legtur cu variabilele testate

    O valoare nesemnificativ a testului respinge ipoteza unei astfel de legturi

    25

  • Tratarea valorilor lips

    Eliminarea valorii casewise deletion pairwise deletion permite exploatarea la maximum a informaiei disponibile

    Eliminarea ntregii variabile listwise deletion Reducere a numrului de cazuri analizate produce o estimare neafectat de erori a parametrilor

    Cazuri pn la 10%, poate fi tolerat, dar dincolo de acest procent cazul respectiv ar

    trebui eliminat

    Variabile cele care au cel puin 15% din valori lips sunt candidate la eliminarea valorilor cele cu procente mai mari de att (20-30%) ar putea face obiectul remedierii

    valorilor lips 26

  • Tratarea valorilor lips

    Transformarea / nlocuirea Transform/Replace

    27

  • 4. Normalitatea distribuieisimetrie boltire

    28

  • Distribuie relativ normal Distribuie asimetric pozitiv i leptokurtic

    29

  • Ct de important este normalitatea?

    Cu att mai important cu ct volumul eantionului este mai mic

    Mai puin important pentru eantioane care se apropie sau depesc 100 subieci

    Mai important pentru testele de corelaie Mai puin important pentru diferenele dintre

    medii

    Mediile grupurilor se raporteaz la distribuia de eantionare

    Teorema Limitei Centrale30

  • Normalitatea multivariat

    Toate variabilele i toate combinaiile liniare dintre ele sunt normale

    Este parial verificat prin verificarea normalitii univariate Non-normalitatea univariat ncalc cert normalitatea multivariat

    31

  • Explore (Statistics-Descriptives-Explore)

    Statistic Std. Error

    Skewness 1,711 ,333

    Kurtosis 4,519 ,656

    32

  • ExploreTestul Kolmogorov-Smirnov

    Kolmogorov-Smirnov Shapiro-Wilk

    Statistic df Sig. Statistic df Sig.

    Score ,140 51 ,014 ,862 51 ,000

    Tests of normality

    semnificativ pentru p

  • Procedura P-P plot(Graphs-P-P plots)

    Normal P-P Plot of Score

    Observed Cum Prob

    1,0,8,5,30,0

    Exp

    ecte

    d C

    um

    Pro

    b

    1,0

    ,8

    ,5

    ,3

    0,0

    Relaia dintre proporia cumulativ a distribuiei i proporia cumulativ pentru un numr de diferite distribuii teoretice, inclusiv pentru cea normal

    Dac distribuia cercetat se suprapune peste linia dreapt a distribuiei teoretice, sau nu se abate grav de la aceasta, atunci putem

    aprecia c variabila investigat este normal.

    34

  • Normalizarea distribuiei(Employee data.sav)

    Beginning Salary

    80000,0

    75000,0

    70000,0

    65000,0

    60000,0

    55000,0

    50000,0

    45000,0

    40000,0

    35000,0

    30000,0

    25000,0

    20000,0

    15000,0

    10000,0

    300

    200

    100

    0

    35

  • Soluii de transformare

    transformarea situaia recomandat

    x3 ridicarea la puterea a

    treiaasimetrie negativ

    x2

    ridicarea la ptrat asimetrie negativ

    x - simetrie

    radical de ordin 2 asimetrie pozitiv

    radical de ordin trei asimetrie pozitiv

    log(x) logaritmare asimetrie pozitiv

    x

    3 x

    36

  • Transform-Compute (SQRT)

    SQR_SALB

    280,0

    270,0

    260,0

    250,0

    240,0

    230,0

    220,0

    210,0

    200,0

    190,0

    180,0

    170,0

    160,0

    150,0

    140,0

    130,0

    120,0

    110,0

    100,090,0

    140

    120

    100

    80

    60

    40

    20

    0

    37

  • NORMAL of SALBEGIN using BLOM

    3,002,50

    2,001,50

    1,00,50

    0,00-,50

    -1,00

    -1,50

    -2,00

    -2,50

    Histogram

    Fre

    que

    ncy

    60

    50

    40

    30

    20

    10

    0

    Statistic Std. Error

    Skewness ,024 ,112

    Kurtosis -,115 ,224

    38

  • Normalitatea multivariat

    Toate variabilele i toate combinaiile liniare dintre ele sunt normale

    Este parial verificat prin verificarea normalitii univariate

    Non-normalitatea univariat ncalc cert normalitatea multivariat

    39

  • Observaii cu privire la normalizare Poate fi foarte util, dar se face pe seama reducerii mai puternice a distanelor dintre

    valorile de la extremitatea distribuiilor comparativ cu distanele dintre valorile din partea central a distribuiilor (elasticitate)

    Afecteaz semnificaia valorilor Trebuie fcut cu grij i numai cnd este necesar Atenie la valoarea minim!

    skewness

    originalMin=1 Min=2 Min=3 Min=5 Min=10

    Min=10

    0

    Square

    Root1.58 0.93 1.11 1.21 1.31 1.42 1.56

    Log(10) 1.58 0.44 0.72 0.88 1.07 1.27 1.54

    Inverse 1.58 0.12 0.18 0.39 0.67 1.00 1.5040

  • 5. Liniaritatea

    msura n care graficul variaiei valorilor a dou variabile se apropie de o linie dreapt

    variabile individuale (nivelul anxietii, timpul de reacie, etc.) combinaii ale mai multor variabile (un scor compozit rezultat din

    adiionarea mai multor scale ale unui test)

    Dou variabile puternic corelate nu sunt utile n aceeai analiz

    Dect dac este analizat structura variabilelor (analiza factorial, SEM, Path Analysis)

    Variabile cu r=0,70 sau mai mult nu vor fi de regul incluse n aceeai analiz (analiza de regresie, de exemplu)

    Corelaia nsi este afectat de particulariti ale datelor 41

  • Metode de investigare a liniaritii

    analiza rezidual scoruri a cror variaie nu este explicat prin modelul

    liniar

    valorile reziduale standardizate sunt raportate grafic la valorile rezultate din predicie

    Non-linearitatea... plasarea valorilor reziduale pe o curb n jurul liniei orizontale a valorilor de predicie.

    relaie de tip liniar... plasarea valorilor reziduale in jurul liniei de predicie, dup un model aleator

    42

  • Statistics-Regression-Linear

    Scatterplot

    Dependent Variable: Beginning Salary

    Regression Standardized Residual

    86420-2-4-6

    Regre

    ssio

    n S

    tan

    dard

    ized P

    redic

    ted V

    alu

    e

    6

    5

    4

    3

    2

    1

    0

    -1

    -2 43

  • 6.) Omogenitatea varianei(homoscedasticitate)

    variana valorilor VD pentru fiecare din valorile VI este egal Homoscedasticitate

    nclcarea acestei condiii Heteroscedasticitate

    ANOVA rezist la nclcarea acestei condiii dac Grupurile sunt suficient de mari Grupurile sunt egale ca numr (nu difer grav)

    Raportul dintre grupul cel mai mare si cel mai mic nu depete 4/1 Raportul dintre variana cea mai mare i cea mai mic nu depete 10/1 (Fidell &

    Tabachnick, 2003)

    Soluii alternative Testarea diferenelor la un nivel alfa mai mic dect 0,05 (0,02 sau 0,01)

    Heteroscedasticitatea trebuie raportat!44

  • medii diferite

    varian egal

    medii egale

    variane egale

    medii egale

    variane diferite

    medii diferite

    varian diferite

    Homoscedasticitate Heteroscedasticitate45

  • variana n jurul liniei de regresie este aceeai pentru toate valorile variabilei predictor?

    heterodasticitate

    46

  • Concluzii

    Statistica multivariat este mai pretenioas sub aspectul respectrii condiiilor impuse de diverse proceduri

    Analiza preliminar a datelor i pregtirea lor sunt decisive pentru utilizarea corect a procedurilor statistice.

    47