Upload
ianka002
View
252
Download
1
Embed Size (px)
Citation preview
1
TEMATICA CURSULUI
1. Statistica descriptiv
2. Tabele de contingen
3. Testarea neparametric
4. Testarea parametric
5. Eantionarea
6. Analiza varianei (ANOVA)
7. Corelarea i regresia
8. Analiza discriminant
TEMA 1: Statistica descriptiv
1. Tipurile de scale2. Organizarea datelor3. Tendina central4. Variaia (mprtierea) datelor5. Asimetria i boltirea
distribuiei
2
I. Patru tipuri de scale
Tip scalCaracteristici
Clasificri Ordonri Intervale egale
Intervale proporionale
Nominal X Ordinal X X Interval X X X Proporional X X X X
Exemple de ntrebri din chestionar
Care este ocupaia Dvs.? (nominal) Ce apreciai la un calculator n primul, al doilea i al
treilea rnd? (ordinal) Avei vrsta de:
20-29 30- 39 (interval) 40-49
Care este venitul Dvs. lunar (lei)? (proporional)
3
II. Organizarea Datelor2.1. Frecvena distribuiei
n cadrul unei cercetri au fost obinute urmtoarelevalori ale variabilei studiate:
X = (7, 5, 7, 8, 4, 9, 8, 10, 5, 3, 8, 10, 8, 7, 9, 6, 4, 7, 6, 1, 8, 6, 8, 7, 5, 7, 4, 7, 1, 9, 5, 8, 6, 7, 7).
n total sunt 35 de date colectate.
2.1.
n cazul unei distributii simple a frecventei suntnecesari urmatorii pasi:
Se cauta valorile extreme din irul de date (valoarea cea maimare i cea mai mica);
Se scriu toate valorile cuprinse ntre cele doua extreme ntr-o ordine ascendent (cresctoare) pe o coloan;
Se numr de cte ori apare fiecare valoare n irul de date;
Se trec apoi n tabel, frecvenele de apariie a fiecrei valori.
4
2.1. Tabelul de frecvene
Obinem: (N=35)
Valoarea, X Frecvena, f1 22 03 14 35 46 47 98 79 3
10 2
n cazul datelor nominale n prima coloan sunt incluse valorile calitative ale acestora (cuvinte, nu cifre)
Exemplu:
De ordonat pe intervale, rezultatele intervievrii a 48 de subieci.
X = (17, 12, 8, 5, 10, 12, 23, 21, 22, 11, 14, 20, 18, 17, 15, 14, 21, 7, 10, 14, 18, 23, 25, 18, 17, 16, 29, 14, 19, 6, 27, 15, 17, 19, 14, 16, 10, 24, 17, 19, 15, 16, 12, 4, 22, 31, 19, 18).
2.2. Gruparea datelor pe intervale
5
1. Ordonmdatele(nordineascendentsaudescendent)
X=(4,5, 6, 7, 8,10, 10, 10,11, 12,12,12,14,14,14,14,14,15,15,15, 16,16,16,17,17, 17,17,17,18,18, 18, 18,19,19,19,19,20, 21,21,22,22,23, 23,24,25,27,29,31).
2. Notam valorile extreme (4si 31)
3. Calculam diferenta dintre cele doua valori =27
4. Stabilim marimea intervalului (h) inumruldeintervale(i),
astfelc hi=27+1.
Rezolvare:
Deexemplu,h=2nevaoferi28/2=14intervaleh=3 respectiv28/3=9intervalei1rest(neacoperit)h=4 respectiv28/4=7intervaleh=5 respectiv28/5=5intervalei3rest(neacoperit)
Dacexistresturi: seadaugunintervalsuplimentar secalculeazextinderea(nafaravalorilorextreme)
Deexemplu,pentruh=3: restulobinutvafi1,deciadugmuninterval(alzecelea) extindereaeste:31=2
Deci2punctelerepartizmlaextreme,conformurmtoareloropiuni:[2;31]sau [3;32]sau [4;33]
Rezolvare:
6
Rezolvare:
Opiuni deintervale pentru h=3
ExtremitiIntervale [2;31] [3;32] [4;33]
1 24 35 462 57 68 793 810 911 10124 1113 1214 13155 1416 1517 16186 1719 1820 19217 2022 2123 22248 2325 2426 25279 2628 2729 283010 2931 3032 3133
Trei, cinci i zece constitue marimea cea mai des ntlnit a intervalelor.
Dac pentru analiz sunt necesare date scale, putem transforma intervalele nlocuind categoriile - cu cifre care reprezint media intervalului.
Este bine dac primul interval ncepe, cu o valoare multiplu de hales. De exemplu, daca 22 este cel mai mic numr, iar marimeaintervalului este 3, atunci vom ncepe cu valoarea 21 deoarece estemultiplu de trei (n exemplul nostru - opiunea din coloana 2).
Pentru h= 5 n afar de intervalul {1-5, 6-10, etc.} se mai recomand i {3-7, 8-12, etc.} care asigur mijlocul intervalului multiplu de 5.
Intervale: concluzii i sugestii finale
7
Exemplu: soluia coloana 2
Intervalul (I) Mijlocul clasei Frecventa (f)30-32 31 127-29 28 224-26 25 221-23 22 618-20 19 915-17 16 1112-14 13 89-11 10 46-8 7 33-5 4 2
III. Indicatori ai tendinei centrale
Media Mediana Modul
8
Media
Mediaeste unindicatorcarecaracterizeaza unesantion (opopulatie)dinpunctul devedere alunei caracteristici studiate.Exista mai multenotri pentru medie:M si X reprezinta mediaunui eantion,iar (miu)este mediaunei colectivitigenerale (populaii).
Mediaaritmeticaunuisirdedatesecalculeazastfel:
X = X/N
Pentrusirul dedate:X=(4,8,6,7,9,11,9,9,12,7)
MediaX =(4+8+6+7+9+11+9+9+12+7)/10=82/10=8,2.
n cazul n caresirul dedateeste prezentat ntruntabel defrecvene seaplicformulamediei ponderate:
fi*XiX=
fi
Unde:fi reprezinta frecvenagrupat,iar Xi centrul intervalului (exemplu slideulurmtor).
9
fi =48 =Xi*fi=789 X=789 /48 =16,4
exemplu (cazul unui tabel de frecvene)
Intervalul (i) Centrul(Xi) Frecventa (fi) Xi *fi3032 31 1 312729 28 2 562426 25 2 502123 22 6 1321820 19 9 1711517 16 11 1761214 13 8 104911 10 4 4068 7 3 2135 4 2 8
=48 =789
Mediana
Medianaeste acel parametru careprin pozitia sa,seafla n mijlocul serieidedate.Ea reprezinta punctul centralalseriei,deoarece lastnga si ladreapta ei sesitueaza cte 50%dintotalitatea datelor.Medianacoincidecumedian cazul unei distributii teoretice normale si sendeparteaza multdeaceasta daca distributia este asimetrica.
Pentruacalcula mediana n cazul distributiei simpleadatelor exista douasituatii:
1. Cnd neste impar locul medianei sestabileste astfel:
Locmediana =(n+1)/2
2. Cnd neste parsunt adunate valorile dincentrul seriei si sempart ladoi.
10
Mediana- cazul unui ir simplu
Deexemplu,irulX=(4,8,6,7,9,11,9,9,12,7)
Mai nti datele suntaranjate n ordine crescatoare saudescrescatoare.
Astfel,Xdevine: (4,6,7,7,8,9,9,9,11,12).Observam ca neste par(n=10).nacest caz vom lua valorile caresegasesc pe locurile dinmijlocul seriei,este vorbadelocurile 5si 6.Cele doua valori caresegasesc pe aceste locuri sunt 8si 9.Pentruacalcula mediana adunam cele doua valori gasite si mpartim rezultatul ladoi.Astfel,Me =(8+9)/2=8,5
Daca amfirenuntat launnumar dinsir,sa spunem 12,amfiobtinut unsirdenoua numere (4,6,7,7,8,9,9,9,11).n acest caz,locul medianei este stabilitdupa formula: (n+1)/2,(deci,poziiacinci).Respectiv, mediana
Me =8.
Mediana cazul irului de date sub form de tabel de frecvene
unde:x0 limitainferioaraintervaluluimedian(saumediantrelimita
inferioaraintervaluluimedianilimitasuperioaraintervaluluiprecedent)
hmrimeaintervaluluimedianN numarul totalalcazurilornm frecvenaintervaluluimedianncpm frecvenelecumulativepnlaintervalulmedian
m
cpm
n
nN
hxMe
21
0
11
exemplu
Intervalul Centrul i Frecventa (fi) Frecventa cumulata30-32 31 1 4827-29 28 2 4724-26 25 2 4521-23 22 6 4318-20 19 9 3715-17 16 11 2812-14 13 8 179-11 10 4 96-8 7 3 53-5 4 2 2
6,1611
172
148
35,14
Me
etapele procesului de calcul
Stabilireapunctului maijosimaisusdecaresesitueaza cte 50%dincazuri(N+1)/2.n cazuldat vom avea (48+1)/2=24,5;
Stabilireaintervalului carecontine mediana.Secauta n coloana frecventelorcumulateintervalul carecorespunde locului medianei (28).Pozitia 24dinsirul dedateeste ocupat deovaloare cuprinsa n intervalul 1517;
Sestabileste limita inferioara aintervalului carecuprinde mediana (15+14)/2=14,5ct si frecventa datelor sale(11);
Secalculeaza frecventele cumulate,carepreced clasa carecontine mediana 17;
Secalculeaza marimea intervalului (h=3) carecuprindevalorile 15,16si 17saualtfel diferenta dintre limita maxima ((16+19)/2=17,5)si cea minimaaintervalului ce contine mediana este 3(17,514,5).
12
Cuartilele i decilele
Cuartilelesuntacelevalorialecaracteristicii,careseparserianpatrupriegale:
cuartilainferioar,notatcuQ1,estemaimaresauegalde25%dintermeniiserieiimaimicsauegalde75%dintreei;
cuartilaadouaQ2idecilaacinceaD5 coincidecuMe iseparseriandoupriegale;
cuartilasuperioarQ3 estemaimaresauegalde75%dinnumrultermenilorimaimicsauegalde25%dinnumrullor.
n cazul n caresecalculeaz decilele,seria sedividen zece pri egale folosind nacest scopnou decile (D1,D2 D9).
Cuartilele i decilele
unde:Q1,Q3 cuartila1(25%)i3(75%)x0 estelimitainferioaraintervaluluicuartilei,
decilei
hestemrimeaintervaluluicuartilei,decilei
Neste numarul totalalcazurilor
nq ind frecvenaintervaluluicuartilei,decilei
ncpq incpd frecvenelecumulativepnlaintervalulcuartilei,decilei
q
cpq
n
nN
hxQ
41
01
q
cpq
n
nN
hxQ
4)1(3
03
d
cpd
n
nN
hxD
10)1(1
01
13
exemplu
Intervalul Centrul i Frecventa (fi) Frecventa cumulata30-32 31 1 4827-29 28 2 4724-26 25 2 4521-23 22 6 4318-20 19 9 3715-17 16 11 2812-14 13 8 179-11 10 4 96-8 7 3 53-5 4 2 2
4,209
284
148335,173
Q
Modul
Modul este parametrul carecorespunde celei mai mari frecvente,adica este valoareacea mai frecvent ntlnita.
Deexemplu,X=(4,8,6,7,9,11,9,9,12,7).
Dupa ordonarea datelor obtinem X=(4,6,7,7,8,9,9,9,11,12).Seobserva cavaloarea cea mai ntlnita este 9(apare detrei ori).
Ca urmare modul pentru acest sireste:Mo=9
14
Modul - cazul sirului de date sub form de tabel de frecvente
Pentrudategrupate,secauta intervalul carearecea mai marefrecven.ncazul demaijos,acest intervaleste 1517, n interiorul caruia seafla 11valori.
Valoarea modala este egala cuvaloarea plasat n centrul acestui interval,adicMo =16.
Intervalul (i) Frecventa (f) Intervalul (i) Frecventa (f)30-32 (31) 1 15-17 (16) 1127-29 (28) 2 12-14 (13) 824-26 (25) 2 9-11 (10) 421-23 (22) 6 6-8 (9) 318-20 (19) 9 3-5 (4) 2
IV. Indicatori ai variaiei (dispersiei)
Principaliiindicatoriaivariaieisunt:1. AmplitudineaA2. Abatereamedieptratic( pentrupopulaieiS pentrueantion)3. Dispersia(2 pentrupopulaieiS 2 pentrueantion)4. CoeficientuldevariaieV.
1.AMPLITUDINEA:A=(Xmax Xmin) Pentruacalcula amplitudinea sirului dedate: X=(7,5,10,4,8,5,8,9,7)vom avea:A=10 4=6.
15
Abaterea medie patratic: cazul unui ir simplu
Unde:Xi sunt valorile individuale;X este mediaesantionului; este mediapopulatieiN,neste numarul desubiecti observati
(mrimeapopulaieiirespectiv,aeantionului)
N
xN
ii
1
2)(
n
xxS
n
ii
1
2)(
Exemplu
Decalculat Spentru urmatorul sirdedate:X=(4,6,7,9,8,5,8,3,10,6) X=66/10=6,6
X X-X (X-X) 2
4 -2,6 6,766 -0,6 0,367 0,4 0,169 2,4 5,768 1,4 1,965 -1,6 2,568 1,4 1,963 -3,6 12,9610 3,4 11,566 -0,6 0,36
(XX)2= 44,40
10,210
40,44S
16
Abaterea medie patratic: cazul seriilor cu frecvente
Unde:Xi sunt valorile individuale;X este mediaesantionului; este mediapopulatiein reprezintfrecveneleobservate
k
ii
ii
i
n
nk
xxS
1
1
2)(
k
ii
i
k
ii
n
nx
1
1
2)(
Exemplu
Decalculat Spentru urmatoarele date:
X = 16,4ni = 48ni*(XX)2= 1709,9
97,548
9,1709S
(i) Xi ni (Xi-X) (Xi-X)2 ni * (Xi-X)2
30-32 31 1 14,6 213,2 213,227-29 28 2 11,6 134,6 269,124-26 25 2 8,6 73,96 147,921-23 22 6 5,6 31,36 188,218-20 19 9 2,6 6,76 60,8415-17 16 11 -0,4 0,16 1,7612-14 13 8 -3,4 11,56 92,489-11 10 4 -6,4 40,96 163,86-8 7 3 -9,4 88,36 265,13-5 4 2 -12,4 153,8 307,5
17
Esteutilizat n scopul stabilirii gradului deomogenitate aunui esantion
Unde:Seste abaterea standardaesantionului studiat; X este mediaeantionului.
Spre exemplu,daca X =11,40,iar S=2,7,vom avea:
V=(2,7/11,4)*100=23,68%
PentrucazuldemaisusV=(5,97/16,4)*100=36,4%
Coeficientul de variaie
100xSV
Interpretarea coeficientului de variaie
daca V este cuprins ntre 0si 15%,atunci mprastierea datelor (variaia) estefoarte mica,iar mediaeste reprezentativ,deoarece eantionul msurat esteomogen;
daca valoarea lui este ntre 15si 30%,variaia datelor este mijlocie,mediafiindnca suficient dereprezentativa;
daca V depete 30%,medianueste reprezentativ pentru eantionul n cauz,fiind recomandata utilizarea medianei dincauza lipsei deomogenitate agrupului.
18
Estimarea normalitii distribuieiConformteorieiSTATISTICIIodistribuieeconsideratnormaldacnjurulmedieiseconcentreazunanumitnumrdecazuriianume:
Ladistanade:
oabateremediepatratic() 68,2%
de 2 95,4%
de 3 99,7%
Oricedevieridelaacestenormereprezintsemnedeneomogenitate
V. Indicatori de asimetrie si boltire
Exista situatii destul defrecvente cnd medianucorespunde cumediana.Daca elear coincideamvorbi despre odistributie complet simetrica,specifica uneidistributii normale teoretice.
Indicele deasimetrie (deoblicitate)nearata n ce masura mediasendeparteazademediana,si implicit,n ce masura curba dedistributie normala adatelor sedeparteaza demijloc,deplasndusespre stnga sau spre dreapta.Suntconsideratedistributii relativ normale cazurile n careacesti indicatori nudepasesc1,96 abaterimediipatratice.
Vorbim despre oasimetrie pozitiva n situatia n caremediaeste mai maredectmediana,caz n careindicele deasimetrie ia valori pozitive si apare odeplasare adatelor spre stnga.
Vorbim despre oasimetrie negativn situatia n caremediaeste mai mic dectmediana,caz n careindicele deasimetrie ia valori negative si apare odeplasare adatelor spre dreapta.
19
Reprezentarea grafic
fi fi fifmax fmax fmax
xi xi xi
x =Me=Mo Mo Me x x Me Mo
serie perfect simetric asimetrie pozitiv asimetrie negativ
Anormal de muli consum puin
Anormal de muli consum mult
Exemple
n anii 1995-2000 din cauza srciei o mare parte din oameni consumau carne foarte rar (iar unii - deloc). Aceast abatere de la normal const n mrirea frecvenelor pe aripa stng a liniei normale (deplasare spre stnga). Evident c media este bun (n mediu oamenii mncau cte 1 pui pe sptmn, doar c n realitate cineva 3 pui, iar iar ali 2 nici cte unul). Iar mediana e mai mic i modulul tot.
Iar n ce privete consumul de alcool n aceeai perioad situaia e invers: muli oameni care consumau normal (conform curbei normale) au nceput a consuma mult (pe aripa dreapt a cupolei normale au aprut frecvene mari bare nalte deci deplasare spre dreapta). O astfel de asimetrie este negativ. Media e mai mic dect mediana, pe aripa stng fiind mai puini (50% sau mediana apuc din barele nalte ale graficului)
20
Asimetrie (skewness)
Formula de calcul a coeficientului de asimetrie Ca:
unde este abaterea medie patratic de sondaj
Dac Ca =0 serie simetric. Dac Ca>0 serie cu asimetrie pozitiv (deplasare spre stnga). Dac Ca
21
Asimetrie lipsa (cazul a)
Ca = 0,000
Asimetrie pozitiva spre stanga(cazul produselor de lux)
Ca = 2,411
22
Asimetrie negativa spre dreapta(cazul produselor de larg consum consum zaharul)
Ca = -2,082
Boltire (kurtosis)
Un indice de aplatizare mare arat o repartiie cu cozi mari(sunt prezente categorii deprtate de medie), n timp ce un indice de aplatizare mic arat o repartiie ascuit sau boltitn care sunt prezente mai puine categorii deprtate de medie.
Formula de calcul este :
unde este abaterea medie patratic de sondaj. n cazul unei repartiii apropiate de repartiia normal,
coeficientul de aplatizare este n jurul valorii 0. Cb >0, atunci distribuia are forma ascuit iar dac Cb
23
Boltire: 2 cazuri
b c1 11 21 31 31 31 31 35 36 39 39 39 39 39 39 49 5
Boltire: cazul a 2 segmente distincte
Cb = - 2,118
24
Boltire: cazul omogenitatii excesive
Cb = 3,913
Exemplu de calcul pentru SPSS
Vnzri lunare(mii lei)
Nr. comis voiajori
41 50 1051 60 3061 70 5071 80 5081 90 70
91 100 60101 110 30
Total 300
O mare companie de cosmetic are o reea dezvoltat de distribuie prin comis voiajori. A fost extras un eantion de 300 de persoane din rndurile acestora. Datele cu privire la vnzrile lunare sunt prezentate n tabel. Caracterizai i msurai asimetria i boltirea distribuiei comis voiajorilor.
Me = 86,67 mii leix = 80,17 mii lei
= 16,07
25
Coeficientul de asimetrie se calculeaz n baza formulei:
Eroarea standard pentru asimetrie este
n SPSS n calitate de test de normalitate a asimetrie este considerat raportul
Adic n cazul nostru:
asimetrie
254,007,16300
315797)(33
3
nnxxC iias
141,0300/6/6 nE a
2;2/6/ nC as 2;280,1141,0/254,0
Coeficientul de boltire se calculeaz conform formulei:
Eroarea standard pentru boltire este
n SPSS n calitate de test de normalitate a boltirii este considerat raportul
Adic n cazul nostru:Adic putem vorbi despre un nivel de aplatizare excesiv
boltire
283,0300/24/24 nE b
2;2/24/ nC b 2;289,2283,0/819,0
819,031806,207,16300
436200283)( 444
nnxxC iib