25
1 TEMATICA CURSULUI 1. Statistica descriptivă 2. Tabele de contingență 3. Testarea neparametrică 4. Testarea parametrică 5. Eșantionarea 6. Analiza varianței (ANOVA) 7. Corelarea și regresia 8. Analiza discriminantă TEMA 1: Statistica descriptivă 1. Tipurile de scale 2. Organizarea datelor 3. Tendința centrală 4. Variația (împrăștierea) datelor 5. Asimetria și boltirea distribuției

Statistica Descriptiva

Embed Size (px)

Citation preview

  • 1

    TEMATICA CURSULUI

    1. Statistica descriptiv

    2. Tabele de contingen

    3. Testarea neparametric

    4. Testarea parametric

    5. Eantionarea

    6. Analiza varianei (ANOVA)

    7. Corelarea i regresia

    8. Analiza discriminant

    TEMA 1: Statistica descriptiv

    1. Tipurile de scale2. Organizarea datelor3. Tendina central4. Variaia (mprtierea) datelor5. Asimetria i boltirea

    distribuiei

  • 2

    I. Patru tipuri de scale

    Tip scalCaracteristici

    Clasificri Ordonri Intervale egale

    Intervale proporionale

    Nominal X Ordinal X X Interval X X X Proporional X X X X

    Exemple de ntrebri din chestionar

    Care este ocupaia Dvs.? (nominal) Ce apreciai la un calculator n primul, al doilea i al

    treilea rnd? (ordinal) Avei vrsta de:

    20-29 30- 39 (interval) 40-49

    Care este venitul Dvs. lunar (lei)? (proporional)

  • 3

    II. Organizarea Datelor2.1. Frecvena distribuiei

    n cadrul unei cercetri au fost obinute urmtoarelevalori ale variabilei studiate:

    X = (7, 5, 7, 8, 4, 9, 8, 10, 5, 3, 8, 10, 8, 7, 9, 6, 4, 7, 6, 1, 8, 6, 8, 7, 5, 7, 4, 7, 1, 9, 5, 8, 6, 7, 7).

    n total sunt 35 de date colectate.

    2.1.

    n cazul unei distributii simple a frecventei suntnecesari urmatorii pasi:

    Se cauta valorile extreme din irul de date (valoarea cea maimare i cea mai mica);

    Se scriu toate valorile cuprinse ntre cele doua extreme ntr-o ordine ascendent (cresctoare) pe o coloan;

    Se numr de cte ori apare fiecare valoare n irul de date;

    Se trec apoi n tabel, frecvenele de apariie a fiecrei valori.

  • 4

    2.1. Tabelul de frecvene

    Obinem: (N=35)

    Valoarea, X Frecvena, f1 22 03 14 35 46 47 98 79 3

    10 2

    n cazul datelor nominale n prima coloan sunt incluse valorile calitative ale acestora (cuvinte, nu cifre)

    Exemplu:

    De ordonat pe intervale, rezultatele intervievrii a 48 de subieci.

    X = (17, 12, 8, 5, 10, 12, 23, 21, 22, 11, 14, 20, 18, 17, 15, 14, 21, 7, 10, 14, 18, 23, 25, 18, 17, 16, 29, 14, 19, 6, 27, 15, 17, 19, 14, 16, 10, 24, 17, 19, 15, 16, 12, 4, 22, 31, 19, 18).

    2.2. Gruparea datelor pe intervale

  • 5

    1. Ordonmdatele(nordineascendentsaudescendent)

    X=(4,5, 6, 7, 8,10, 10, 10,11, 12,12,12,14,14,14,14,14,15,15,15, 16,16,16,17,17, 17,17,17,18,18, 18, 18,19,19,19,19,20, 21,21,22,22,23, 23,24,25,27,29,31).

    2. Notam valorile extreme (4si 31)

    3. Calculam diferenta dintre cele doua valori =27

    4. Stabilim marimea intervalului (h) inumruldeintervale(i),

    astfelc hi=27+1.

    Rezolvare:

    Deexemplu,h=2nevaoferi28/2=14intervaleh=3 respectiv28/3=9intervalei1rest(neacoperit)h=4 respectiv28/4=7intervaleh=5 respectiv28/5=5intervalei3rest(neacoperit)

    Dacexistresturi: seadaugunintervalsuplimentar secalculeazextinderea(nafaravalorilorextreme)

    Deexemplu,pentruh=3: restulobinutvafi1,deciadugmuninterval(alzecelea) extindereaeste:31=2

    Deci2punctelerepartizmlaextreme,conformurmtoareloropiuni:[2;31]sau [3;32]sau [4;33]

    Rezolvare:

  • 6

    Rezolvare:

    Opiuni deintervale pentru h=3

    ExtremitiIntervale [2;31] [3;32] [4;33]

    1 24 35 462 57 68 793 810 911 10124 1113 1214 13155 1416 1517 16186 1719 1820 19217 2022 2123 22248 2325 2426 25279 2628 2729 283010 2931 3032 3133

    Trei, cinci i zece constitue marimea cea mai des ntlnit a intervalelor.

    Dac pentru analiz sunt necesare date scale, putem transforma intervalele nlocuind categoriile - cu cifre care reprezint media intervalului.

    Este bine dac primul interval ncepe, cu o valoare multiplu de hales. De exemplu, daca 22 este cel mai mic numr, iar marimeaintervalului este 3, atunci vom ncepe cu valoarea 21 deoarece estemultiplu de trei (n exemplul nostru - opiunea din coloana 2).

    Pentru h= 5 n afar de intervalul {1-5, 6-10, etc.} se mai recomand i {3-7, 8-12, etc.} care asigur mijlocul intervalului multiplu de 5.

    Intervale: concluzii i sugestii finale

  • 7

    Exemplu: soluia coloana 2

    Intervalul (I) Mijlocul clasei Frecventa (f)30-32 31 127-29 28 224-26 25 221-23 22 618-20 19 915-17 16 1112-14 13 89-11 10 46-8 7 33-5 4 2

    III. Indicatori ai tendinei centrale

    Media Mediana Modul

  • 8

    Media

    Mediaeste unindicatorcarecaracterizeaza unesantion (opopulatie)dinpunctul devedere alunei caracteristici studiate.Exista mai multenotri pentru medie:M si X reprezinta mediaunui eantion,iar (miu)este mediaunei colectivitigenerale (populaii).

    Mediaaritmeticaunuisirdedatesecalculeazastfel:

    X = X/N

    Pentrusirul dedate:X=(4,8,6,7,9,11,9,9,12,7)

    MediaX =(4+8+6+7+9+11+9+9+12+7)/10=82/10=8,2.

    n cazul n caresirul dedateeste prezentat ntruntabel defrecvene seaplicformulamediei ponderate:

    fi*XiX=

    fi

    Unde:fi reprezinta frecvenagrupat,iar Xi centrul intervalului (exemplu slideulurmtor).

  • 9

    fi =48 =Xi*fi=789 X=789 /48 =16,4

    exemplu (cazul unui tabel de frecvene)

    Intervalul (i) Centrul(Xi) Frecventa (fi) Xi *fi3032 31 1 312729 28 2 562426 25 2 502123 22 6 1321820 19 9 1711517 16 11 1761214 13 8 104911 10 4 4068 7 3 2135 4 2 8

    =48 =789

    Mediana

    Medianaeste acel parametru careprin pozitia sa,seafla n mijlocul serieidedate.Ea reprezinta punctul centralalseriei,deoarece lastnga si ladreapta ei sesitueaza cte 50%dintotalitatea datelor.Medianacoincidecumedian cazul unei distributii teoretice normale si sendeparteaza multdeaceasta daca distributia este asimetrica.

    Pentruacalcula mediana n cazul distributiei simpleadatelor exista douasituatii:

    1. Cnd neste impar locul medianei sestabileste astfel:

    Locmediana =(n+1)/2

    2. Cnd neste parsunt adunate valorile dincentrul seriei si sempart ladoi.

  • 10

    Mediana- cazul unui ir simplu

    Deexemplu,irulX=(4,8,6,7,9,11,9,9,12,7)

    Mai nti datele suntaranjate n ordine crescatoare saudescrescatoare.

    Astfel,Xdevine: (4,6,7,7,8,9,9,9,11,12).Observam ca neste par(n=10).nacest caz vom lua valorile caresegasesc pe locurile dinmijlocul seriei,este vorbadelocurile 5si 6.Cele doua valori caresegasesc pe aceste locuri sunt 8si 9.Pentruacalcula mediana adunam cele doua valori gasite si mpartim rezultatul ladoi.Astfel,Me =(8+9)/2=8,5

    Daca amfirenuntat launnumar dinsir,sa spunem 12,amfiobtinut unsirdenoua numere (4,6,7,7,8,9,9,9,11).n acest caz,locul medianei este stabilitdupa formula: (n+1)/2,(deci,poziiacinci).Respectiv, mediana

    Me =8.

    Mediana cazul irului de date sub form de tabel de frecvene

    unde:x0 limitainferioaraintervaluluimedian(saumediantrelimita

    inferioaraintervaluluimedianilimitasuperioaraintervaluluiprecedent)

    hmrimeaintervaluluimedianN numarul totalalcazurilornm frecvenaintervaluluimedianncpm frecvenelecumulativepnlaintervalulmedian

    m

    cpm

    n

    nN

    hxMe

    21

    0

  • 11

    exemplu

    Intervalul Centrul i Frecventa (fi) Frecventa cumulata30-32 31 1 4827-29 28 2 4724-26 25 2 4521-23 22 6 4318-20 19 9 3715-17 16 11 2812-14 13 8 179-11 10 4 96-8 7 3 53-5 4 2 2

    6,1611

    172

    148

    35,14

    Me

    etapele procesului de calcul

    Stabilireapunctului maijosimaisusdecaresesitueaza cte 50%dincazuri(N+1)/2.n cazuldat vom avea (48+1)/2=24,5;

    Stabilireaintervalului carecontine mediana.Secauta n coloana frecventelorcumulateintervalul carecorespunde locului medianei (28).Pozitia 24dinsirul dedateeste ocupat deovaloare cuprinsa n intervalul 1517;

    Sestabileste limita inferioara aintervalului carecuprinde mediana (15+14)/2=14,5ct si frecventa datelor sale(11);

    Secalculeaza frecventele cumulate,carepreced clasa carecontine mediana 17;

    Secalculeaza marimea intervalului (h=3) carecuprindevalorile 15,16si 17saualtfel diferenta dintre limita maxima ((16+19)/2=17,5)si cea minimaaintervalului ce contine mediana este 3(17,514,5).

  • 12

    Cuartilele i decilele

    Cuartilelesuntacelevalorialecaracteristicii,careseparserianpatrupriegale:

    cuartilainferioar,notatcuQ1,estemaimaresauegalde25%dintermeniiserieiimaimicsauegalde75%dintreei;

    cuartilaadouaQ2idecilaacinceaD5 coincidecuMe iseparseriandoupriegale;

    cuartilasuperioarQ3 estemaimaresauegalde75%dinnumrultermenilorimaimicsauegalde25%dinnumrullor.

    n cazul n caresecalculeaz decilele,seria sedividen zece pri egale folosind nacest scopnou decile (D1,D2 D9).

    Cuartilele i decilele

    unde:Q1,Q3 cuartila1(25%)i3(75%)x0 estelimitainferioaraintervaluluicuartilei,

    decilei

    hestemrimeaintervaluluicuartilei,decilei

    Neste numarul totalalcazurilor

    nq ind frecvenaintervaluluicuartilei,decilei

    ncpq incpd frecvenelecumulativepnlaintervalulcuartilei,decilei

    q

    cpq

    n

    nN

    hxQ

    41

    01

    q

    cpq

    n

    nN

    hxQ

    4)1(3

    03

    d

    cpd

    n

    nN

    hxD

    10)1(1

    01

  • 13

    exemplu

    Intervalul Centrul i Frecventa (fi) Frecventa cumulata30-32 31 1 4827-29 28 2 4724-26 25 2 4521-23 22 6 4318-20 19 9 3715-17 16 11 2812-14 13 8 179-11 10 4 96-8 7 3 53-5 4 2 2

    4,209

    284

    148335,173

    Q

    Modul

    Modul este parametrul carecorespunde celei mai mari frecvente,adica este valoareacea mai frecvent ntlnita.

    Deexemplu,X=(4,8,6,7,9,11,9,9,12,7).

    Dupa ordonarea datelor obtinem X=(4,6,7,7,8,9,9,9,11,12).Seobserva cavaloarea cea mai ntlnita este 9(apare detrei ori).

    Ca urmare modul pentru acest sireste:Mo=9

  • 14

    Modul - cazul sirului de date sub form de tabel de frecvente

    Pentrudategrupate,secauta intervalul carearecea mai marefrecven.ncazul demaijos,acest intervaleste 1517, n interiorul caruia seafla 11valori.

    Valoarea modala este egala cuvaloarea plasat n centrul acestui interval,adicMo =16.

    Intervalul (i) Frecventa (f) Intervalul (i) Frecventa (f)30-32 (31) 1 15-17 (16) 1127-29 (28) 2 12-14 (13) 824-26 (25) 2 9-11 (10) 421-23 (22) 6 6-8 (9) 318-20 (19) 9 3-5 (4) 2

    IV. Indicatori ai variaiei (dispersiei)

    Principaliiindicatoriaivariaieisunt:1. AmplitudineaA2. Abatereamedieptratic( pentrupopulaieiS pentrueantion)3. Dispersia(2 pentrupopulaieiS 2 pentrueantion)4. CoeficientuldevariaieV.

    1.AMPLITUDINEA:A=(Xmax Xmin) Pentruacalcula amplitudinea sirului dedate: X=(7,5,10,4,8,5,8,9,7)vom avea:A=10 4=6.

  • 15

    Abaterea medie patratic: cazul unui ir simplu

    Unde:Xi sunt valorile individuale;X este mediaesantionului; este mediapopulatieiN,neste numarul desubiecti observati

    (mrimeapopulaieiirespectiv,aeantionului)

    N

    xN

    ii

    1

    2)(

    n

    xxS

    n

    ii

    1

    2)(

    Exemplu

    Decalculat Spentru urmatorul sirdedate:X=(4,6,7,9,8,5,8,3,10,6) X=66/10=6,6

    X X-X (X-X) 2

    4 -2,6 6,766 -0,6 0,367 0,4 0,169 2,4 5,768 1,4 1,965 -1,6 2,568 1,4 1,963 -3,6 12,9610 3,4 11,566 -0,6 0,36

    (XX)2= 44,40

    10,210

    40,44S

  • 16

    Abaterea medie patratic: cazul seriilor cu frecvente

    Unde:Xi sunt valorile individuale;X este mediaesantionului; este mediapopulatiein reprezintfrecveneleobservate

    k

    ii

    ii

    i

    n

    nk

    xxS

    1

    1

    2)(

    k

    ii

    i

    k

    ii

    n

    nx

    1

    1

    2)(

    Exemplu

    Decalculat Spentru urmatoarele date:

    X = 16,4ni = 48ni*(XX)2= 1709,9

    97,548

    9,1709S

    (i) Xi ni (Xi-X) (Xi-X)2 ni * (Xi-X)2

    30-32 31 1 14,6 213,2 213,227-29 28 2 11,6 134,6 269,124-26 25 2 8,6 73,96 147,921-23 22 6 5,6 31,36 188,218-20 19 9 2,6 6,76 60,8415-17 16 11 -0,4 0,16 1,7612-14 13 8 -3,4 11,56 92,489-11 10 4 -6,4 40,96 163,86-8 7 3 -9,4 88,36 265,13-5 4 2 -12,4 153,8 307,5

  • 17

    Esteutilizat n scopul stabilirii gradului deomogenitate aunui esantion

    Unde:Seste abaterea standardaesantionului studiat; X este mediaeantionului.

    Spre exemplu,daca X =11,40,iar S=2,7,vom avea:

    V=(2,7/11,4)*100=23,68%

    PentrucazuldemaisusV=(5,97/16,4)*100=36,4%

    Coeficientul de variaie

    100xSV

    Interpretarea coeficientului de variaie

    daca V este cuprins ntre 0si 15%,atunci mprastierea datelor (variaia) estefoarte mica,iar mediaeste reprezentativ,deoarece eantionul msurat esteomogen;

    daca valoarea lui este ntre 15si 30%,variaia datelor este mijlocie,mediafiindnca suficient dereprezentativa;

    daca V depete 30%,medianueste reprezentativ pentru eantionul n cauz,fiind recomandata utilizarea medianei dincauza lipsei deomogenitate agrupului.

  • 18

    Estimarea normalitii distribuieiConformteorieiSTATISTICIIodistribuieeconsideratnormaldacnjurulmedieiseconcentreazunanumitnumrdecazuriianume:

    Ladistanade:

    oabateremediepatratic() 68,2%

    de 2 95,4%

    de 3 99,7%

    Oricedevieridelaacestenormereprezintsemnedeneomogenitate

    V. Indicatori de asimetrie si boltire

    Exista situatii destul defrecvente cnd medianucorespunde cumediana.Daca elear coincideamvorbi despre odistributie complet simetrica,specifica uneidistributii normale teoretice.

    Indicele deasimetrie (deoblicitate)nearata n ce masura mediasendeparteazademediana,si implicit,n ce masura curba dedistributie normala adatelor sedeparteaza demijloc,deplasndusespre stnga sau spre dreapta.Suntconsideratedistributii relativ normale cazurile n careacesti indicatori nudepasesc1,96 abaterimediipatratice.

    Vorbim despre oasimetrie pozitiva n situatia n caremediaeste mai maredectmediana,caz n careindicele deasimetrie ia valori pozitive si apare odeplasare adatelor spre stnga.

    Vorbim despre oasimetrie negativn situatia n caremediaeste mai mic dectmediana,caz n careindicele deasimetrie ia valori negative si apare odeplasare adatelor spre dreapta.

  • 19

    Reprezentarea grafic

    fi fi fifmax fmax fmax

    xi xi xi

    x =Me=Mo Mo Me x x Me Mo

    serie perfect simetric asimetrie pozitiv asimetrie negativ

    Anormal de muli consum puin

    Anormal de muli consum mult

    Exemple

    n anii 1995-2000 din cauza srciei o mare parte din oameni consumau carne foarte rar (iar unii - deloc). Aceast abatere de la normal const n mrirea frecvenelor pe aripa stng a liniei normale (deplasare spre stnga). Evident c media este bun (n mediu oamenii mncau cte 1 pui pe sptmn, doar c n realitate cineva 3 pui, iar iar ali 2 nici cte unul). Iar mediana e mai mic i modulul tot.

    Iar n ce privete consumul de alcool n aceeai perioad situaia e invers: muli oameni care consumau normal (conform curbei normale) au nceput a consuma mult (pe aripa dreapt a cupolei normale au aprut frecvene mari bare nalte deci deplasare spre dreapta). O astfel de asimetrie este negativ. Media e mai mic dect mediana, pe aripa stng fiind mai puini (50% sau mediana apuc din barele nalte ale graficului)

  • 20

    Asimetrie (skewness)

    Formula de calcul a coeficientului de asimetrie Ca:

    unde este abaterea medie patratic de sondaj

    Dac Ca =0 serie simetric. Dac Ca>0 serie cu asimetrie pozitiv (deplasare spre stnga). Dac Ca

  • 21

    Asimetrie lipsa (cazul a)

    Ca = 0,000

    Asimetrie pozitiva spre stanga(cazul produselor de lux)

    Ca = 2,411

  • 22

    Asimetrie negativa spre dreapta(cazul produselor de larg consum consum zaharul)

    Ca = -2,082

    Boltire (kurtosis)

    Un indice de aplatizare mare arat o repartiie cu cozi mari(sunt prezente categorii deprtate de medie), n timp ce un indice de aplatizare mic arat o repartiie ascuit sau boltitn care sunt prezente mai puine categorii deprtate de medie.

    Formula de calcul este :

    unde este abaterea medie patratic de sondaj. n cazul unei repartiii apropiate de repartiia normal,

    coeficientul de aplatizare este n jurul valorii 0. Cb >0, atunci distribuia are forma ascuit iar dac Cb

  • 23

    Boltire: 2 cazuri

    b c1 11 21 31 31 31 31 35 36 39 39 39 39 39 39 49 5

    Boltire: cazul a 2 segmente distincte

    Cb = - 2,118

  • 24

    Boltire: cazul omogenitatii excesive

    Cb = 3,913

    Exemplu de calcul pentru SPSS

    Vnzri lunare(mii lei)

    Nr. comis voiajori

    41 50 1051 60 3061 70 5071 80 5081 90 70

    91 100 60101 110 30

    Total 300

    O mare companie de cosmetic are o reea dezvoltat de distribuie prin comis voiajori. A fost extras un eantion de 300 de persoane din rndurile acestora. Datele cu privire la vnzrile lunare sunt prezentate n tabel. Caracterizai i msurai asimetria i boltirea distribuiei comis voiajorilor.

    Me = 86,67 mii leix = 80,17 mii lei

    = 16,07

  • 25

    Coeficientul de asimetrie se calculeaz n baza formulei:

    Eroarea standard pentru asimetrie este

    n SPSS n calitate de test de normalitate a asimetrie este considerat raportul

    Adic n cazul nostru:

    asimetrie

    254,007,16300

    315797)(33

    3

    nnxxC iias

    141,0300/6/6 nE a

    2;2/6/ nC as 2;280,1141,0/254,0

    Coeficientul de boltire se calculeaz conform formulei:

    Eroarea standard pentru boltire este

    n SPSS n calitate de test de normalitate a boltirii este considerat raportul

    Adic n cazul nostru:Adic putem vorbi despre un nivel de aplatizare excesiv

    boltire

    283,0300/24/24 nE b

    2;2/24/ nC b 2;289,2283,0/819,0

    819,031806,207,16300

    436200283)( 444

    nnxxC iib