Statistica si econometrie cap 1-2

1

Statistică şi Econometrie

– suport de curs –

Radu A. Păun

2

Cuprins Cap. 1 – Introducere în statistică ............................................................................................... 3

Cap. 2 – Descrierea numerică şi grafică a datelor ..................................................................... 9

Indicatori pentru caracterizarea tendinţei centrale a seriilor de distribuţie ...................... 13

Mărimi medii ................................................................................................................... 14

Indicatori medii de poziţie ............................................................................................... 17

Indicatori pentru caracterizarea dispersării unei serii de distribuţie .................................. 20

Indicatori pentru caracterizarea formei distribuţiei ............................................................ 26

Indicatori ai asimetriei ..................................................................................................... 26

Indicatori ai aplatizării ..................................................................................................... 28

Teste grilă ................................................................................................................................ 29

Cap. 3 – Probabilităţi şi distribuţii ........................................................................................... 32

Conceptele de experiment, eveniment şi probabilitate...................................................... 32

Variabile aleatoare .............................................................................................................. 35

Legea normală: N(m, σ2) ...................................................................................................... 37

Elemente suplimentare ....................................................................................................... 41

Cap. 4 – Sondajul statistic ........................................................................................................ 42

Noţiuni generale .................................................................................................................. 42

Tipuri de sondaj ................................................................................................................... 45

Procesul de estimare ........................................................................................................... 51

Determinarea volumului eşantionului ................................................................................ 54

Cap. 5 – Analiza corelaţiei dintre variabile ............................................................................. 59

Testul χ2 (hi pătrat) .............................................................................................................. 60

Metoda tabelului frecvenţelor (a tabelului de corelaţie sau de contingenţă) .................... 65

Metoda grafică .................................................................................................................... 66

Covarianţa ........................................................................................................................... 67

Coeficientul corelaţiei liniare .............................................................................................. 68

Cap. 6 – Analiza de regresie .................................................................................................... 72

Modelul simplu de regresie (cu o singură variabilă independentă) .................................... 75

Principalele două surse pe care este bazat acest suport de curs sunt Statistică, Teorie şi AplicaŃii de Tudorel

Andrei, Stelian Stancu şi Daniel Traian Pele, Editura Economică, ed. 2, 2002 şi Statistică de Alexandru Isaic-

Maniu, Constantin MitruŃ şi Vergil Voineagu, Editura Universitară, 2003. Alte surse pentru acest curs le-au

constituit Statistică, de Eugenia Lilea, Mihaela Vatui, Doina Boldeanu şi Zizi Goschin, Principles of Statistics de

M.G. Bulmer, Dover Publications, 1979 şi A Guide to Econometrics de Peter Kennedy, The MIT Press, ed. 5, 2003

3

Cap. 1 – Introducere în statistică

Obiectul de studiu al statisticii îl reprezintă fenomenele de masă – fenomene

complexe, atipice, rezultate din acţiunea combinată şi reperată a unui număr mare de factori

de influenţă. Statistica studiază fenomenele de masă din punct de vedere cantitativ şi le

interpretează ca fenomene probabile folosind raţionamente de tip inductiv şi utilizând

detaliul individual pentru a propune caracterizări de ansamblu. Prin urmare, generalizările

deduse dintr-o investigaţie statistică sunt adevărate doar în medie, fiind pus în evidenţă doar

comportamentul tipic al tuturor obiectelor luate în studiu, nu comportamentul elementelor

individuale, luate separat.

Noţiuni fundamentale ale statisticii

o Colectivitatea statistică Colectivitatea statistică, denumită în mod frecvent şi populaţia statistică, reprezintă

principala formă sub care se delimitează şi se definesc fenomenele de masă, desemnând

totalitatea elementelor de aceeaşi natură care sunt supuse studiului statistic. Dat fiind

modul de definire al populaţiei statistice, elementele care formează colectivitatea sunt (sau

ar trebui să fie) omogene. Astfel, chiar dacă populaţia statistică prezintă variabilitate iar

unităţile statistice sunt diferite, informaţiile culese de la aceste unităţi trebuie să fie

comparabile. De aceea, una dintre problemele esenţiale ale unei cercetări statistice o

reprezintă delimitarea colectivităţii statistice în timp şi spaţiu.

Exemplu: Dacă scopul unui sondaj îl reprezintă măsurarea preferinţelor electorale la nivelul

unui oraş la un anumit moment, atunci colectivitatea statistică va fi reprezentată doar de

persoanele cu drept de vot din acel oraş (rezidenţi ai oraşului cu vârsta peste 18 ani). Prin

urmare, persoanele minore sau cu domiciliul în afara localităţii respective, care nu au drept

de vot, ar trebui excluse din populaţia statistică.

Exemplu: Dacă dorim să colectăm opinii ale consumatorilor privind calitatea unui anumit tip

de telefon mobil, atunci populaţia statistică va trebui probabil să cuprindă acele persoane

care au folosit sau folosesc acel tip de telefon, nu toţi utilizatorii de telefoane mobile. Dacă

însă se are în vedere lansarea unui nou tip de telefon, un sondaj care să încerce măsurarea

aşteptărilor consumatorilor ar trebui să se adreseze atât celor care posedă un telefon mobil

(indiferent de model, producător etc.), cât şi clienţilor potenţiali.

o Unitatea statistică

Unitatea statistică este entitatea (persoana, obiectul, evenimentul, agentul

economic etc.) purtătoare a informaţiei. Unităţile statistice pot fi simple (de exemplu,

persoana fizică, angajatul, produsul etc.) sau complexe, formate din mai multe unităţi

simple, organizate în funcţie de anumite criterii (de exemplu, gospodăria, grupa de studenţi,

firma, judeţul etc.).

o Caracteristica statistică

Denumită şi variabila statistică, caractestistica statistică desemnează însuşirea,

trăsătura sau proprietatea comună tuturor unităţilor statistice dintr-o populaţie, care capătă

valori diferite de la o unitate la alta şi care este măsurată prin investigaţia statistică.

4

Exemple: Vârsta, greutatea, înălţimea, nivelul studiilor sau nivelul venitului unei perdoane,

cifra de afaceri a unei întreprinderi.

Caracteristicile statistice se mai numesc variabile statistice întrucât au proprietatea

de a-şi modifica valoarea de la o unitate la alta. Variabilele statistice se pot clasifica după

anumite o serie de criterii.

Astfel, după modul de exprimare putem distinge variabile calitative, exprimate prin

cuvinte care desemnează apartenenţa la o categorie, şi variabile cantitative, exprimate

numeri). La rândul lor, variabilele calitative pot fi nominale sau ordinale. Variabilele calitative

nominale nu implică o anumită ordine între valori, în timp ce variabilele calitative ordinale

presupun existenţa unei relaţii de ordine, a unei ierarhii.

Exemplu: Starea civilă este o variabilă calitativă, care poate lua valorile “celibatar”,

“căsătorit”, “văduv”, “divorţat”. Întrucât între aceste valori nu există o ordine anume,

variabila stare civilă este o variabilă calitativă nominală. Un alt exemplu de variabilă

calitativă nominală îl reprezintă culoarea ochilor, sexul, ocupaţia.

Exemplu: Nivelul studiilor poate fi exprimat prin numărul de ani petrecuţi în sistemul de

învăţământ, caz în care avem de-a face cu o variabilă cantitativă, sau prin alegerea unuia din

posibilele răspusuri: „studii primare”, „studii gimnaziale”, „studii liceale”, „studii postliceale”,

„studii universitare”, „studii postuniversitare – masterat” şi „studii postuniversitare –

doctorat”, caz în care avem de-a face cu o variabilă calitativă ordinală.

Atenţie însă, este de dorit să se evite atribuirea unor valori numerice variabilelor

calitative, fie ele şi ordinale. De exemplu, pentru nivelul studiilor unei persoane, dacă

atribuim studiilor liceale valoarea 3 şi celor universitare valoarea 5, putem afirma că

facultatea oferă un nivel de studii cu 67% mai ridicat decât liceul? În aceeaşi ordine de idei,

dacă atribuim studiilor doctorale valoarea 7, înseamnă acest lucru că diferenţa de instruire

dintre aceste studii şi cele universitare (valoare numerică a diferenţei 2) este egală cu

diferenţa de pregătire dintre studiile universitare şi cele liceale (valoarea diferenţei tot 2)?

Evident, nu. Concluzia care se poate trage de aici este aceea că variabilele calitative ordinale

implică existenţa unei ierarhii, dar că pe aceste scale nu are sens definirea distanţei între

valorile variabilei calitative ordinale.

După cardinalul mulţimii observaţiilor, există variabile statistice binare (alternative),

când spaţiul de observaţii e compus din două valori (0/1, masculin/feminin, rural/urban),

variabile statistice cu un număr finit de valori numerice (aici se încadrează variabilele

calitative şi cele cantitative discrete) şi variabile cantitative continue, când mulţimea

specifică a valorilor individuale este un interval de numere reale. Acest ultim tip de variabile

statistice este rar folosit din raţionamente practice şi datorită impreciziei măsurării.

Exemplu: Teoretic vorbind, înălţimea unei persoane este o variabilă cantitativă continuă. În

practică se va aplica însă o aproximare suficient de bună, de exemplu în centimetri, şi se va

folosi ca o variabilă cantitativă discretă (să zicem, între 140cm şi 230cm).

o Variabilele aleatoare

Variabilele aleatoare reprezintă o clasă distinctă de variabile întâlnită în cercetările

statistice, prin intermediul cărora evenimentele pot fi descrise cu ajutorul unor valori

5

numerice reale. În general, prin variabilă aleatoare se înţelege o funcţie reală de evenimente

elementare care, în raport cu rezultatul unui eveniment, poate lua o valoare reală dintr-o

mulţime bine definită. Din cauza factorilor întâmplători care influenţează evenimentul,

valoarea variabilei aleatoare nu poate fi cunoscută înaintea realizării experimentului.

Exemplu: Să presupunem că experimentul este reprezentat de aruncarea unui zar. Cu toate

că avem de-a face cu un experiment relativ simplu, nu putem şti dinainte ce număr apare în

urma aruncării pentru că rezultatul depinde de factori întâmplători. Ce ştim însă este că

mulţimea valorilor posibile pentru această variabilă aleatoare este 1, 2, 3, 4, 5 sau 6. Mai

ştim că (pentru un zar nemăsluit) probabilitatea de apariţie a fiecăreia dintre aceste valori

este 1/6.

Datorită celor de mai sus, reprezentarea unei variabile aleatoare se poate face sub

forma

n

n

p

x

pp

xxX

...

...

21

21, unde pi reprezintă probabilitatea ca variabila X să ia valoarea xi.

pi=1 este probabilitatea evenimentului sigur, pi=0 este probabilitatea evenimentului

imposibil. Pentru exemplul zarului de mai sus, variabila aleatoare este complet determinată

(se numeşte astfel când se cunosc toate valorile şi toate probabilităţile), dar acest lucru nu

este foarte întâlnit în practică.

Culegerea datelor statistice

Orice investigaţie statistică se bazează pe date, iar culegerea acestor date se

realizează prin diverse metode: observări totale, numite şi exhaustive, care cuprind în

cercetarea statistică toate unităţile colectivităţii statistice, sau observări parţiale, care

presupun culegerea de date de la un număr redus de unităţi din populaţie, dar numărul este

stabilit după criterii precise.

Culegerea datelor se poate realiza prin observări directe, când înregistrarea datelor

se face de către operator de la unităţile colectivităţii, sau indirecte, când datele se preiau de

la surse care au consemnat anterior fenomenul studiat.

Principalele metode de culegere a datelor sunt:

- Recensământul: Cea mai veche metodă de observare statistică, prin intermediul căreia se culeg date de la toate unităţile colectivităţii. Date fiind costurile ridicate, recensămintele au un caracter periodic. De exemplu, recensământul populaţiei se realizează din 10 în 10 ani. Documentele istorice arată că primele recensăminte au fost organizate în antichitate (Egipt, 3000 IC, China 2238 IC). În România, primul recensământ modern a avut loc în anul 1838, ultimul recensământ al populaţiei şi locuinţelor a avut loc în martie 2002, iar următorul astfel de recensământ va fi organizat în martie 2011.

- Rapoartele statistice: Observări totale, permanente, prin intermediul cărora se culeg date referitoare la anumite procese şi fenomene economice din domeniile de activitate ale agenţilor economici. Este vorba, de exemplu, de raportările pe care firmele trebuie să le depună cu privire la capitalul fix, forţa de muncă, materii prime şi materiale.

- Sondajul statistic: Metodă de culegere a datelor prin completarea unui chestionar de către un eşantion reprezentativ extras din populaţia de interes. Sondajul statistic este caracterizat de costuri mult reduse faţă de recensământ, dar utilitatea informaţiilor obţinute depinde de gradul de reprezentativitate al eşantionului.

6

- Ancheta statistică: Formă de observare parţială care, spre deosebire de sondaj, nu presupune reprezentativitatea eşantionului. De exemplu, chestionarul este completat în cadrul târgurilor şi expoziţiilor.

- Observarea părţii principale (a masivului principal): Metodă operativă de culegere parţială a datelor doar de la cele mai semnificative unităţi ale colectivităţii (masivul principal). Evident, subiectivitatea criteriilor după care este ales masivul principal, cât şi subiectivitatea unităţilor din acest masiv, pot constitui impedimente majore în alegerea acestei metode. Pe de altă parte, avantajul principal îl constituie operativitatea şi rapiditatea observării.

- Monografia: Metodă de observare aprofundată a fenomenelor şi progreselor care au loc în activitatea unui agent economic sau grup de agenţi economici. Monografia presupune nu doar culegerea, ci şi interpretarea datelor.

Cercetarea statistică

Cercetarea statistică reprezintă un ansamblu complex de activităţi. Paşii ce sunt

urmaţi, în general, în cercetările statistice pot fi rezumaţi după cum urmează:

- Observarea statistică a fenomenului studiat (culegerea datelor). Aceasta este o etapă fundamentală în procesul cercetării statistice, deoarece calitatea cercetării depinde într-o mare măsură de cantitatea şi calitatea informaţiilor culese.

- Prelucrarea şi modelarea statistică a datelor culese, pe baza unei teorii adecvate fenomenului studiat. Astfel, asupra datelor pot fi aplicate metode din categoria statisticii descriptive şi analizei primare a datelor sau a statisticii inferenţiale.

- Analiza şi interpretarea rezultatelor obţinute.

Statistica descriptivă şi analiza primară a datelor: sintetizează masivele de date

printr-un număr restrâns de indicatori, pentru caracterizarea diverselor aspecte ale

populaţiei sau eşantionului. Se realizează astfel clasificarea şi gruparea unităţilor statistice

după diverse criterii, caracterizarea nivelului mediu şi a tendinţei centrale, analiza dispersării

unităţilor statistice, măsurarea dependenţei dintre diverse caracteristici etc. Rolul statisticii

descriptive şi al analizei datelor este de a reduce masivele de date la un număr restrâns de

indicatori, de a pune în evidenţă anumite proprietăţi ale fenomenului analizat, de a formula

anumite ipoteze în aplicarea statisticii inferenţiale.

Statistica inferenţială: asigură caracterizarea populaţiilor totale prin extinderea la

nivelul acestora a rezultatelor obţinute la nivelul subpopulaţiilor/eşantioanelor. Prin urmare,

principalele etape ale statisticii inferenţiale sunt:

- estimarea parametrilor populaţiei pe baza rezultatelor obţinute prin prelucrarea datelor de la nivelul unei subpopulaţii sau a eşantionului prelevat;

- verificarea ipotezelor statistice; - efectuarea de previziuni, luând în considerare dependenţele dintre variabile şi seriile

de date disponibile.

Serii de date

Seriile de date pot fi de mai multe feluri, în funcţie de cercetarea statistică efectuată.

Astfel, statisticianul poate lucra cu:

- Date cronologice, numite şi serii de timp (eng. time series data) – Culese, în general, din aria macroeconomică, acestea reprezintă evoluţia unor caracteristici (variabile) în timp. Forma uzuală a seriilor de timp este:

7

Timp t1 t2 … tj … tm

Variabila x x1 x2 … xj … xm

Variabila y y1 y2 … yj … ym

Frecvenţa datelor depinde de variabila măsurată, datele putând reprezenta serii

zilnice, săptămânale, lunare, trimestriale, anuale etc. De exemplu, cursul de schimb

interbancar se publică zilnic, inflaţia se calculează cu frecvenţă lunară, în timp ce PIB-

ul este un indicator ce se publică anual.

- Date longitudinale (eng. cross-section data) – Culese prin diverse modalităţi, una

dintre acestea fiind sondajul statistic, aceste serii ilustrează situaţia la un moment dat pentru un anumit număr de unităţi statistice (observaţii). Forma uzuală a seriilor longitudinale este:

Variabila x Variabila y

Unitatea 1 x1 y1

Unitatea 2 x2 y2

… … …

Unitatea i xi yi

… … …

Unitatea n xn yn

Exemplu: La un anumit moment dat, un grup de 50 de indivizi este chestionat şi se

culeg date privind înălţimea (variabila x) si greutatea (variabila y) fiecărui

respondent. Organizate sub forma unui tabel ca cel de mai sus, aceste date vor

forma un set de date longitudinale.

- Date de tip panel (eng. panel data) – Sunt structuri complexe de date, care combină

avantajele seriilor cronologice cu cele ale datelor longitudinale, oferind spre analiză o cantitate suplimentară de informaţii. Astfel, valorile variabilelor statistice sunt măsurate pentru fiecare unitate statistică repetat, pentru o anumită perioadă de timp. În Statele Unite, unul din cele mai elaborate proiecte care a condus la realizarea unui panel uriaş îl reprezintă PSID (Panel Study of Income Dynamics) al University of Michigan. Acest studiu a început în 1968, eşantionul fiind reprezentativ atât pentru populaţia SUA (bărbaţi, femei şi copii), cât şi la nivel de gospodărie. Sondajul a fost repetat asupra aceloraşi indivizi, PSID colectând astfel informaţii de la aproximativ 65.000 de indivizi pe parcursul a 36 de ani. Studiul s-a axat asupra aspectelor economice (în principal urmărirea dinamicii veniturilor), dar şi sociale (mobilitatea populaţiei, educaţie, formarea familiei). Tabelul de mai jos ilustrează un set de date de tip panel, cu precizarea că acesta este

un panel echilibrat (fiecarea unitate statistică este observată pe aceeaşi perioadă,

deci lungimea seriei cronologice este egală pentru fiecare unitate).

timp Variabila x Variabila y

Unitatea 1 t1 x11 y11


8





Tabelul de mai jos reprezintă un panel neechilibrat. Un astfel de set de date se obţine atunci

când lungimea seriei de timp este diferită pentru diverse unităţi statistice. Astfel, în tabelul

de mai jos, prima unitate este observată pentru două momente de timp, a doua unitate

statistică este observată pentru trei momente de timp, în vreme ce a treia unitate statistică

este observată doar o dată.

timp Variabila x Variabila y







9

Cap. 2 – Descrierea numerică şi grafică a datelor

Pe parcursul acestui curs voi face referire în mod repetat la un proiect de statistică

ce poate fi găsit în cadrul Bibliotecii Digitale de pe site-ul Academiei de Studii Economice,

secţiunea Finanţe, Asigurări, Bănci şi Burse de Valori. Este vorba de unul dintre ultimele

capitole ale cărţii Statistică, de E. Lilea, M. Vatui, D. Boldeanu şi Z. Goschin1. Cred că ar fi util

să descărcaţi acest proiect pentru că vom acoperi o parte semnificativă a lui.

Procesul prelucrării seriilor de date începe cu analiza prestatistică a datelor, urmată

de sistematizarea datelor statistice.

• Analiza prestatistică a datelor urmăreşte depistarea eventualelor valori aberante şi surprinderea unor caracteristici ale seriei, fapt pentru care în această fază a analizei se utilizează, în principal, reprezentarea grafică a seriei.

• Sistematizarea datelor statistice presupune clasificări şi grupări ale datelor pentru formarea de clase sau grupe cât mai omogene de unităţi statistice.

Clasificarea datelor (gruparea unităţilor elementare ale unei populaţii după anumite

criterii) ocupă un loc important în cadrul statisticii descriptive. În funcţie de modul de

constituire al claselor, avem de-a face cu:

• Clasificări artificiale, atunci când, pentru sistematizarea informaţiilor disponibile, clasele sunt definite pe baza unor criterii pragmatice. De cele mai multe ori, criteriile alese nu sunt esenţiale, putând fi considerate chiar arbitrare. Un exemplu de clasificare artificială este cel al prezentării locuitorilor cu drept de vot dintr-o localitate prin liste zonale (în ideea că această grupare nu are nimic în comun cu intenţiile de vot).

• Clasificări naturale, care permit definirea claselor în funcţie de criterii esenţiale. În acest caz se asigură atât sistematizarea datelor statistice, cât şi surprinderea unor caracteristici esenţiale ale populaţiei statistice. Un exemplu de clasificare naturală îl reprezintă clasificarea firmelor din economie (sau dintr-un eşantion) pe ramuri de activitate sau după dimensiunea acestora, după forma de proprietate etc.

În cazul unei clasificări, grupele trebuie să satisfacă următoarele principii de bază:

• Principiul completitudinii, în virtutea căruia fiecare valoare din cadrul seriei iniţiale de valori se încadrează într-o anumită o grupă.

• Principiul unicităţii, potrivit căruia o unitate din cadrul seriei de valori va fi inclusă doar într-o singură grupă de valori.

• Principiul omogenităţii, care postulează faptul că grupele sunt astfel definite încât unităţile din fiecare grupă să fie omogene (se mai spune că unităţile ce aparţin unei anumite grupe sunt echivalente).

• Principiul organizării ierarhice a grupelor, ce recomandă acea formă de organizare a datelor astfel încât să fie permise agregări succesive de clase adiacente pentru creşterea gradului de generalitate a grupării.

Cea mai comună metodă de grupare este cea pe intervale de variaţie egale, în acest

sens trebuind parcurşi următorii doi paşi:

1

Link: http://www.biblioteca-digitala.ase.ro/biblioteca/model/index2.asp Pe 14.02.2011, această carte era la numărul 33 în listă.

10

1. Definirea grupelor – Se consideră că fiecare grupă este complet definită dacă sunt precizate limita inferioară (xinf) şi limita superioară (xsup). Diferenţa dintre valoarea minimă şi maximă a unei serii de date poartă numele de amplitudine a acelei serii (As), fapt pentru care, în mod similar, în cazul grupelor vorbim de amplitudinea grupei (Ag). Întrucât discutăm acum cazul intervalelor de variaţie egale, amplitudinea tuturor grupelor va fi aceeaşi. În teoria statistică s-au propus mai multe formule de calcul pentru determinarea

amplitudinii grupelor. Menţionăm aici doar câteva din aceste propuneri:

• Propunerea lui D. V. Huntsberger (alte surse atribuie această propunere lui H. A. Sturges), potrivit căreia Ag = As/p, unde p = 1 + 3,3 lg n iar n reprezintă numărul de observaţii al seriei. De exemplu, pentru n = 40, lg 40 = 1,6, fapt pentru care p = 6,28. Cum

numărul de grupe (p) nu poate fi decât un număr întreg, alegem p = 6.

Dacă avem în vedere datele din proiectul de statistică menţionat mai sus,

pentru variabila vechime, Ag = As/6 = 35/6 = 5,83 ≈ 6. Atenţie: dacă este

cazul, rotunjirea trebuie făcută prin adaos. Altfel, riscăm ca cea mai mare

valoare a seriei de date să nu fie inclusă în ultimul interval definit, ceea ce ar

contraveni primului dintre cele patru principii enunţate mai sus.

Exerciţiu: Determinaţi amplitudinea grupelor pentru variabila producţie din acelaşi proiect

de statistică.

• Propunerea lui Brooks şi Carruthers, potrivit căreia Ag = As/p, unde p trebuie să satisfacă relaţia p < 5 * lg n. Pentru n = 40, p < 8. Astfel, dacă alegem p =

7, atunci pentru variabila vechime în muncă din proiectul de statistică vom avea Ag = 35/7 = 5.

• Propunerea lui Croxton şi Cowden, potrivit căreia numărul de intervale, p, se recomandă a fi cuprins între şase şi şaisprezece.

2. Alocarea valorilor individuale grupelor definite anterior şi calcularea frecvenţelor

fiecărei grupe – Ca şi în proiectul de statistică pe care îl folosim în acest curs, în urma acestui pas se obţine un tabel ce conţine frecvenţele absolute ale grupelor. Reprezentarea grafică uzuală a acestui tip de tabel se face prin intermediul histogramelor, dar mai pot fi folosite şi alte reprezentări, cum ar fi poligonul frecvenţelor (vezi modelul de proiect pentru exemple de astfel de reprezentări grafice). În plus, după calcularea frecvenţelor absolute, se pot calcula frecvenţele cumulate crescător sau descrescător, aceste date putând fi apoi reprezentate prin intermediul curbelor cumulative ale frecvenţelor. Care este semnificaţia frecvenţelor cumulate crescător pentru un anumit interval? Dar descrescător?

Am văzut mai sus cum o serie de date poate fi grupată pe intervale egale, existând

mai multe propuneri pentru determinarea numărului de grupe şi, implicit, a amplitudinii

acestora. Pe lângă aceasta metodă uzuală de prezentare a datelor observate, se pot folosi şi

alte criterii pentru formarea grupelor, criterii care nu decurg dintr-o aplicare mecanică a

unor reguli de calcul, ci apar ca urmare a anumitor moduri de organizare din economie.

Exemplu: Dacă seria de observaţii reprezintă mărimea firmelor dintr-un anumit sector de

activitate, exprimată prin numărul de angajaţi, statisticianul poate grupa aceste observaţii în

11

mai multe modalităţi. Aşa cum am văzut, acesta poate folosi diverse propuneri pentru

determinarea numărului de grupe egale, dar mărimea acestor grupe va fi determinată în

mod oarecum artificial. Pe de altă parte, se pot folosi clasificări deja existente şi uzuale în

economie pentru descrierea numerică şi grafică a datelor. Astfel, din punct de vedere al

numărului de angajaţi, EUROSTAT, biroul de statistică al Uniunii Europene, defineşte:

- microîntreprinderile: acele firme cu până la 9 angajaţi (inclusiv); - întreprinderile mici: acele firme care au între 10 şi 99 de angajaţi (inclusiv); - întreprinderile mijlocii: acele firme care au între 100 şi 249 de angajaţi (inclusiv); - întreprinderile mari: firmele cu peste 250 de angajaţi.

Prin urmare, putem folosi aceste grupe (inegale), care însă conduc la o grupare uzuală (chiar

naturală) a datelor. Prezentarea acestei grupări se realizează similar cu cea a grupărilor în

intervale egale: prin intermediul tabelelor de repartiţie sau prin grafice adecvate (diagrama

prin bare sau prin coloane inegale, asemănătoare histogramei).

Mărimi relative de intensitate

Datele obţinute în urma observării (totale sau parţiale) sunt prelucrate pentru a

obţine indicatori folosiţi pentru a caracteriza o anumită proprietate a seriei de date. Cea mai

simplă formă de prelucrare constă în compararea de valori numerice. Cu toate că au o formă

simplă de calcul, mărimile relative asigură o bună valorificare a datelor statistice obţinute în

urma observării statistice.

Mărimile relative se obţin ca raport a două valori numerice. Într-o formă generală, mărimea

relativă va fi calculată dupa relaţia:

K,2,1,0,10 == kMBC

MCMR

k

unde MR este mărimea relativă, MC mărimea comparată, iar MBC defineşte mărimea bază

de comparaţie.

Rezultatul obţinut în urma raportării poate fi un număr întreg sau un număr

fracţionar, care exprimă câte unităţi din indicatorul raportat (mărimea comparată) revin la o

unitate a indicatorului bază de raportare (mărimea bază de comparaţie). Atunci când cei doi

termeni ai raportului sunt de aceeaşi natură (valori ale aceleiaşi măsuri economice),

mărimea relativă obţinută este adimensională, reprezentând în esenţă un coeficient. În

situaţia contrară, când cei doi termeni ai raportului au unităţi de măsură diferite, mărimea

relativă obţinută va avea o unitate de măsură compusă. Astfel, exprimarea densităţii

populaţiei României (locuitori/km2), a productivităţii muncii (cantitatea de produse/oră), a

vitezei de circulaţie a banilor (numărul de rotaţii/an) etc. sunt doar câteva exemple de

mărimi relative.

Exerciţiu: Tabelul de mai jos conţine datele cu privire la producţia (Q) şi numărul de angajaţi

(T) din doi ani diferiţi, de la trei filiale ale unei întreprinderi. Determinaţi mărimile relative

posibile şi interpretaţi rezultatele.

Se pot calcula ponderea Q şi T pentru fiecare filială în totalul întregii firme în cei doi ani

(mărime relativă adimensională), evoluţia Q şi T între anul 1 şi 2 (creştere sau scădere

exprimată în procente) şi productivitatea angajaţilor din fiecare filială (mărime relativă cu

unitate de măsură compusă, unităţi/angajat) în cei doi ani.

12

Filiale

Volum producţie (Q) Număr angajaţi (T)

Anul 1 Anul 2 Anul 1 Anul 2

F1 600 1000 130 150

F2 700 500 200 250

F3 500 500 250 200

Total firmă 1800 2000 580 600

Serii statistice

Seriile statistice reprezintă o modalitate frecventă de prezentare a datelor, care

rezultă din sistematizarea şi/sau gruparea datelor primare. Aceste serii definesc

corespondenţa dintre două şiruri de date statistice, în care primul reprezintă variaţia

caracteristicii urmărite, iar al doilea şir cuprinde frecvenţele de apariţie a variantelor

caracteristicii (frecvenţele putând fi absolute sau relative). Astfel, o serie statistică cu o

singură caracteristică are următoarea formă:

p

p

n

x

nn

xxx

K

K

21

21

unde x1, x2, ..., xp sunt variantele înregistrate pentru caracteristica X, iar n1, n2, …, np sunt

frecvenţele de apariţie ale variantelor caracteristicii X. Aşa cum spuneam mai sus, aceste

frecvenţe pot fi absolute, reprezentând numărul efectiv de observaţii pentru fiecare valoare

xi, sau relative, reprezentând ponderea observaţiilor care au valoarea xi în numărul total de

observaţii.

Seriile statistice sunt clasificate în:

- serii de distribuţie, pentru care caracteristica urmărită este numerică; - serii cronologice, care prezintă evoluţia în timp a unui fenomen; - serii teritoriale, care prezintă variaţia în spaţiu a caracteristicii analizate, valorile

caracteristicii referindu-se la unităţile teritoriale din care fac parte; - serii enumerative, care se prezintă sub forme de liste a unităţilor după o anumită

caracteristică. Cel mai frecvent întâlnite în practică sunt seriile de distribuţie, în particular cele

unidimensionale (când este urmărită o singură caracteristică). Cu toate acestea, vom trece

succint în revistă câteva caracteristici ale seriilor de distribuţie bidimensionale.

În mod uzual, seriile de distribuţie bidimensionale sunt prezentate prin intermediul

tabelelor de contingenţă precum cel de mai jos.

Y

X y1 y2 ... yj ... yp Total

x1 n11 n12 ... n1j ... n1p n1.

x2 n21 n22 ... n2j ... n2p n2.

... ... ... ... ... ... ... ...

xi ni1 ni2 ... nij ... nip ni.

... ... ... ... ... ... ... ...

xk nk1 nk2 ... nkj ... nkp nk.

Total n.1 n.2 ... n.j ... n.p n..

13

În acest tabel, x1, x2, ..., xi, ...,xk reprezintă variantele înregistrate după caracteristica

X, y1, y2, ..., yj, ..., yp reprezintă variantele înregistrate după caracteristica Y, nij reprezintă

frecvenţa absolută a observaţiilor pentru care X = xi şi Y = yj, ni. reprezintă numărul total de

observaţii pentru care X = xi, indiferent de valorile lui Y, în timp ce n.j reprezintă numărul

total de observaţii pentru care Y = yj, indiferent de valorile lui X.

Tabelul de mai sus conţine p + k + 3 distribuţii, după cum urmează:

- o distribuţie bidimensională de frecvenţe absolute; - p + k distribuţii condiţionate, unidimensionale, de frecvenţe absolute. Acestea sunt

reprezentate de cele k linii şi p coloane ale tabelului de mai sus (n1j, n2j, ..., nij, ..., nkj

reprezintă distribuţia valorilor lui X condiţionată de yj, j=1, 2,..., p, iar ni1, ni2, ..., nij, ...,

nip reprezintă distribuţia valorilor lui Y condiţionată de xi, i=1, 2, ..., k); - două distribuţii marginale, unidimensionale, de frecvenţe absolute. Acestea sunt

reprezentate de ultimul rând şi ultima coloană din tabelul de mai sus. n1., n2., ..., ni.,

..., nk. reprezintă distribuţia marginală a valorilor lui X, iar n.1, n.2, ..., n.j, ..., n.p reprezintă distribuţia marginală a valorilor lui Y.

Exerciţiu: Pentru datele din proiectul de statistică, construiţi un tabel care să evidenţieze

distribuţia bidimensională a vechimii în muncă şi a producţiei, folosind gruparea pe 6

intervale egale realizată anterior. Reprezentaţi grafic distribuţia bidimensională astfel

determinată prin graficul norului de puncte şi trageţi eventualele concluzii.

Aşa cum spuneam mai sus, seriile de distribuţie unidimensionale sunt printre cele

mai frecvente în practică, fapt pentru care în continuare ne vom concentra asupra

caracterizării acestora. Astfel, analiza primară (grafică şi numerică) a datelor cuprinde

calcularea mai multor indicatori:

- Indicatori pentru caracterizarea tendinţei centrale a unei serii de distribuţie: o mărimi medii (media aritmetică, pătratică, geometrică, armonică), o indicatori medii de poziţie (mediana, valoarea modală, cuartilele);

- Indicatori pentru caracterizarea gradului de dispersare a unei serii de distribuţie faţă de tendinţa centrală: abaterea medie absolută, dispersia, abaterea medie pătratică, coeficientul de variaţie;

- Indicatori pentru caracterizarea asimetriei şi aplatizării unei serii de distribuţie.

Indicatori pentru caracterizarea tendinţei centrale a seriilor de distribuţie

Indicatorii folosiţi pentru caracterizarea aspectelor esenţiale ale tendinţei centrale a

unei serii statistice univariate (unidimensionale) sunt clasificaţi, în raport cu valorile utilizate

pentru calculare, în două clase:

- Mărimi medii, calculate pe baza valorilor numerice ale seriei de distribuţie;

- Indicatori medii de poziţie, calculaţi pe baza rangurilor sau a statisticilor de ordine

(aceşti indicatori se pot calcula şi pentru caracteristici calitative).

În 1945, statisticianul britanic George Udny Yule a definit şase proprietăţi pe care ar

trebui să le aibă un indicator al tendinţei centrale:

a) Să fie o măsură definită obiectiv, independent de dorinţa utilizatorului şi, în

acelaşi timp, invariabilă în timp şi spaţiu.

b) Să ţină seama de toate valorile înregistrate.

14

c) Să aibă o semnificaţie concretă şi uşor de înţeles chiar şi de nespecialişti.

d) Să aibă o formulă de calcul simplă şi rapidă.

e) Să fie o măsură puţin sensibilă la fluctuaţia eşantionului (să nu prezinte valori

semnificativ diferite dacă se calculează pe baza mai multor eşantioane de acelaşi

volum, extrase prin acelaşi procedeu din aceeaşi colectivitate).

f) Să se preteze la calcule algebrice, care să asigure comparabilitatea mai multor serii

statistice.

Din păcate, în statistica descriptivă nu există o măsură a tendinţei centrale care să

satisfacă simultan toate cele şase proprietăţi. De aceea, orice rezultat va fi interpretat cu

precauţie, luând în considerare caracteristicile valorilor observate.

Mărimi medii

Pentru calcularea indicatorilor medii va trebui să avem în vedere că:

1. Calcularea mărimilor medii este utilă atunci când seria de distribuţie include un număr suficient de mare de valori.

Exemplu: Să presupunem că dispunem de datele privind venitul lunar a două persoane: 500

RON şi 10.000 RON. Indiferent de tipul ales al mediei, acest indicator nu va fi reprezentativ

pentru această serie de date întrucât avem de-a face cu doar două valori, şi acelea puternic

disparate.

2. Dacă în cadrul seriei sunt observate două sau mai multe grupe de valori ce au caracteristici diferite, atunci se recomandă calcularea indicatorilor medii la nivelul fiecărei grupe, aceşti indicatori fiind mai aproape de trăsătura seriei, decât o singură mărime, ce nu caracterizează niciuna dintre grupele de valori. Altfel spus, mediile se calculează numai atunci când există o valoare centrală în jurul căreia gravitează valorile individuale ale seriei. Dacă în urma reprezentării grafice (de exemplu, prin histogramă) se observă mai multe “centre” în jurul cărora se grupează valorile, se recomandă calcularea mediei pentru fiecare subgrupă şi, numai dacă este cazul, se calculează un indicator mediu pentru întreaga serie.

Exemplu: Reţeaua de distribuţie carburanţi a unei companii petroliere conţine staţii

(benzinării) mai bune şi unele mai puţin performante. Staţiile mai bune sunt, în mod evident,

cele localizate în zone cu potenţial economic ridicat, cu trafic intens (atât autoturisme, cât şi

utilitare şi camioane), cu acces facil şi benficiind de o bună vizibilitate din trafic. Alte staţii

însă nu întrunesc toate aceste conditţii, rezultatul observându-se în vânzările de carburanţi.

Presupunând că o companie are o reţea polarizată, în care un grup de staţii sunt

performante, cu vânzări ridicate, în timp ce un grup distinct sunt localizate mai prost sau mai

greu accesibile, care au vânzări reduse, atunci calcularea vânzării medii zilnice pe staţie nu

are o mare semnificaţie. Aceasta pentru că valoarea medie obţinută nu va reprezenta în mod

real performanţa medie a reţelei, niciuna dintre staţiile existente nefiind reprezentată de

media calculată. Calcularea a două medii, una pentru grupul de staţii performante şi una

pentru grupul de staţii cu vânzări reduse ar putea oferi informaţii mai valoroase

managementului companiei, care ar putea adopta decizii adecvate pentru creşterea

vânzărilor reţelei prin impulsionarea vânzărilor unora dintre staţiile mai puţin performante.

15

3. Indicatorii medii sunt sensibili în ceea ce priveşte existenţa valorilor aberante (acele valori care se îndepărtează în mare măsură de ansamblul seriei de date). De aceea, înainte de calcularea acestor indicatori, valorile aberante trebuie eliminate, dar această eliminare trebuie făcută cu mare precauţie şi doar pentru acele valori pentru care există certitudinea că sunt într-adevăr aberante. Continuând exemplul de mai sus, unele condiţii speciale şi/sau temporare pot face ca una sau mai multe staţii să aibă vânzări extraordinare pe o anumită perioadă de timp. O astfel de staţie, cu o valoare foarte mare a vânzărilor, ar trebui probabil lăsată în afara calculului mediei celorlalte staţii. Cu toate acestea, decizia privind excluderea uneia sau mai multor staţii din calculul mediei trebuie să ţină cont de caracteristicile particulare ale acesteia şi de valorile înregistrate efectiv – până la urmă, decizia de excludere este subiectivă şi bazată pe cunoaşterea fenomenului studiat.

4. Nu este obligatoriu ca valoarea calculată a mediei să se regăsească printre valorile seriei de distribuţie (de fapt, acest lucru poate fi considerat chiar întâmplător). Cu toate acestea, în mod ideal, seria de distribuţie ar trebui să conţină valori apropiate mediei, altfel ne-am putea găsi în situaţia descrisă la punctul 2.

Media aritmetică (momentul iniţial de ordinul 1)

Este cel mai des calculată mărime medie, prezentând ceea ce este tipic, comun, în

evoluţia fenomenului cercetat.

Pentru o serie simplă de valori x1, x2, ..., xn, media aritmetică, notată ax , se

calculează prin intermediul relaţiei ∑=

=n

i

ia xn

x1

1.

Pentru o serie de distribuţie, unde x1, x2, ..., xp reprezintă variantele înregistrate

pentru caracteristica X, iar n1, n2, ..., np reprezintă frecvenţele de apariţie ale acestor

variante, pentru calcularea mediei aritmetice se aplică relaţia i

p

i

ia nxn

x ∑=

=1

1. Aceasta mai

poartă numele de medie aritmetică ponderată, ni reprezentând ponderile (sau greutăţile)

valorilor xi.

Exemplu: Se cunosc următoarele date reprezentând notele unei grupe de studenţi la cursul

de statistică. Să se calculeze media artimetică a acestei serii de distribuţie.

Note (xi): 4 5 6 7 8 9 10

Frecvenţe (ni): 6 8 16 17 8 3 0

Observaţie: Dacă seria de valori a caracteristicii X este prezentată pe intervale (serie de

distribuţie pe intervale, nu de frecvenţe), fără a exista posibilitatea analizei datelor primare,

atunci, prin convenţie, pentru calcularea mediei aritmetice va fi folosit mijlocul fiecărui

interval. În acest caz, însă, valoarea calculată va fi doar apropiată de valoarea reală a mediei.

Media aritmetică a caracteristicilor alternative

În general, unităţile unei populaţii statistice pot fi împărţite în două grupe

complementare. Astfel, prezenţa sau absenţa unui anumit fenomen va fi reprezentată prin

intermediul unei variabile binare (numită şi variabilă alternativă, dihotomică sau booleană).

16

Exemplu: Starea civilă curentă a persoanelor dintr-un eşantion poate fi încadrată în categoria

“căsătorit” sau “necăsătorit” (fără a ţine deci cont de diversele categorii în care o persoană

necăsătorită se poate afla: nicioadată căsătorit, văduv, divorţat).

Presupunem că avem următoarele date:

Stare civilă (xi): Căsătorit (x1=1) Necăsătorit (x2=0)

Frecvenţe (ni): n1=50 n2=100

Media aritmetică a acestei caracteristici va fi calculată folosind formula prezentată mai sus,

fapt pentru care media este (1*50+0*100)/150=50/150=0,33.

În cazul general, se consideră o populaţie de mărime N, din care P unităţi posedă o

proprietate, iar Q=N-P unităţi nu posedă acea proprietate. Caracteristica binară va lua

valoarea 1 pentru acele unităţi care posedă proprietatea şi valoarea 0 pentru cele care nu

posedă acea proprietate. Media caracteristicii binare este (1*P+0*Q)/(P+Q)=P/N,

reprezentând ponderea unităţilor care posedă proprietatea în totalul unităţilor populaţiei.

Media pătratică (momentul iniţial de ordinul 2)

Pentru o serie simplă, media pătratică se calculează pe baza relaţiei ∑=

=n

i

ip xn

x1

21

Pentru o serie de distribuţie

p

p

n

x

nn

xxx

K

K

21

21, formula de calcul a mediei

pătratice este ∑=

=p

i

iip nxn

x1

21

Media pătratică se foloseşte atunci când se doreşte acordarea unei importanţe mai

mari valorilor mari absolute din cadrul unei serii. În calcularea mediei pătratice, valorile

pozitive şi cele negative din cadrul seriei nu se compensează (aşa cum se întâmplă în calculul

mediei aritmetice). De fapt, întrucât ridicarea la pătrat a valorilor caracteristicii elimină

semnul acestora, calcularea mediei pătratice are sens doar pentru serii de distribuţie cu

valori pozitive.

Exerciţiu: Calculaţi media pătratică pentru datele din exemplul de pe pagina anterioară

(notele unei grupe de studenţi la cursul de statistică).

Media armonică

Pentru o serie simplă de valori, media armonică se determină astfel:

∑=

=n

i i

h

x

nx

1

1

Pentru o serie de distribuţie, media armonică se calculează astfel:

i

p

i i

h

nx

nx

∑=

=

1

1

Media armonică se aplică pentru cazuri speciale de serii de date, înlocuind media

aritmetică, în special în domeniul indicilor statistici. În plus, media armonică este egală cu

media aritmetică, calculată din valorile inverse ale termenilor seriei de distribuţie.

17

Datorită metodei de calcul, în determinarea mediei armonice valorile pozitive se

compensează cu cele negative.

Exerciţiu: Calculaţi media armonică pentru aceleaşi date folosite mai sus.

Media geometrică

Formula de calcul a mediei geometrice pentru o serie simplă este n

n

i

ig xx ∏=

=1

În cazul unei serii de distribuţie, formula de calcul este n

p

i

n

igixx ∏

=

=1

Această măsură statistică se utilizează mai rar pentru caracterizarea tendinţei

centrale pentru o serie de distribuţie, fiind recomandată doar atunci când seria prezintă

variaţii foarte mari între termeni sau se caracterizează printr-un pronunţat caracter de

asimetrie.

Inegalitatea mediilor

Între mediile prezentate mai sus există următoarea relaţie de ordine: pagh xxxx ≤≤≤ .

Media de ordinul k (momentul iniţial de ordinul k)

Pentru o serie de distribuţie, media de ordinul k se calculează conform formulei:

kp

i

i

k

i

k

nxn

x

1

1

1

= ∑

=

În funcţie de valorile parametrului k se obţin o serie de cazuri particulare:

- pentru k=1 se obţine formula de calcul a mediei aritmetice; - pentru k=2 se obţine formula mediei pătratice; - pentru k=-1 se obţine relaţia de calcul a mediei armonice; - pentru k→0 se obţine formula de calcul a mediei geometrice.

Indicatori medii de poziţie

Avantajul indicatorilor medii de poziţie este oferit de faptul că aceştia ţin seama nu

numai de valorile seriei de date, dar şi de forma de distribuţie a acestora. În plus, indicatorii

medii de poziţie se pot determina şi pentru variabile nenumerice.

Valoarea modală (valoarea dominantă)

Valoarea modală (Mo) a unei serii de distribuţie este acea valoare a caracteristicii cu

cea mai mare frecvenţă de apariţie, fapt pentru care se mai numeşte valoarea dominantă a

seriei.

În cazul în care k variante înregistrate (k>1) au frecvenţă de apariţie egală şi maximă,

atunci seria de distribuţie are k valori modale. Cu toate acestea, determinarea Mo nu are

sens pentru seriile de distribuţie pentru care toate variantele înregistrează aceeaşi frecvenţă

de apariţie.

Pentru seriile de distribuţie pe intervale, Mo se determină în doi paşi:

18

Grupe de note ni

[2, 4) 10

[4, 6) 30

[6, 8) 45

[8, 10] 15

Total 100

- În primul rând, se determină intervalul modal ca fiind cel cu frecvenţa cea mai ridicată. Notăm acest interval prin IMo=[xi

inf, xi

sup).

- Apoi, Mo se calculează folosind diverse formule de interpolare, bazate pe anumite presupuneri. Cele mai uzitate sunt: i) Mo =(xi

inf+xi

sup)/2, dacă se consideră că în cadrul tuturor intervalelor, deci şi al

intervalului modal, frecvenţele sunt distribuite uniform. Prin urmare, în acest caz Mo

coincide cu centrul intervalului modal;

ii) Mo=xiinf

+ li∆1/(∆1+∆2), unde li=xisup

-xiinf reprezintă mărimea intervalului modal,

∆1=ni-ni-1 reprezintă diferenţa dintre frecvenţa intervalului modal şi frecvenţa

intervalului precedent, iar ∆2=ni-ni+1 reprezintă diferenţa dintre frecvenţa intervalului

modal şi cea a intervalului următor. Această formulă de interpolare se aplică atunci

când se presupune că valorile din distribuţia iniţială urmează o repartiţie normală.

Exemplu: Să presupunem că distribuţia notelor la un examen se

prezintă conform datelor din tabelul alăturat.

Pentru determinarea Mo, primul pas constă în determinarea

intervalului modal. Acesta este intervalul [6, 8).

Dacă presupunem că notele sunt distribuite uniform în cadrul

acestui interval, atunci Mo=(6+8)/2=7.

Dacă însă avem indicii potrivit cărora valorile sunt distribuite

normal în cadrul intervalelor, atunci Mo va fi determinată pe baza

formulei prezentate mai sus, respectiv Mo=6+(8-6)*(45-30)/[(45-30)+(45-15)]=6,67.

Observaţie: Dacă nu avem indicii privind distribuţia valorilor în cadrul intervalelor, aplicarea

uneia dintre metodele de interpolare de mai sus poate duce la rezultate eronate. De

exemplu, date fiind datele din tabel, este posibil ca valoarea 5 să apară de 28 de ori în cadrul

seriei iniţiale de date, în timp ce valorile 6 şi 7 să apară de 20, respectiv 25 ori. Calculele

precedente indică Mo ca fiind 7 sau 6,67, nu 5. Această eroare apare datorită faptului că nu

beneficiem de observaţiile originale, ci de datele agregate. Lipsa de informaţie este suplinită

de ipoteze, care pot fi adevărate sau nu.

Valoarea mediană (cuantila de ordinul 2)

Mediana seriei de distribuţie (Me) este acea valoare care împarte seria în două

grupuri egale din punct de vedere al numărului elementelor existente de cele două părţi ale

acestei valori. Altfel spus, numărul valorilor individuale mai mari decât mediana va fi egal cu

numărul valorilor individuale mai mici decât mediana.

Me se determină pentru seriile de distribuţie ale căror valori sunt ordonabile

crescător sau descrescător, fapt pentru care acest indicator mediu de poziţie nu se

calculează pentru caracteristici nominale (ale căror valori nu pot fi ordonate).

Pentru o serie simplă de valori, determinarea Me presupune, în primul rând,

ordonarea crescătoare sau descrescătoare a valorilor individuale ale caracteristicii. După

ordonare, mediana se identifică astfel:

- Dacă seria ordonată are un număr impar de termeni, n, Me corespunde valorii de rang (n+1)/2;

Exemplu: În seria (5, 6, 13, 20, 34, 40, 61), Me=20.

19

Număr de

aparate

cu defecte

într-un lot (xi)

Număr de

loturi de

aparate (ni)

Număr cumulat

crescător de

loturi de

aparate

0 10 10

1 20 30

2 40 70

3 15 85

4 10 95

5 5 100

Total 100

- Dacă seria ordonată crescător este formată dintr-un număr par de termeni atunci, în mod convenţional, Me se determină ca medie aritmetică între valoarea individuală de rang n/2 şi cea de rang n/2+1.

Exemplu: În seria (13, 28, 34, 40, 58, 61), Me=(34+40)/2=37.

Observaţie: În cazul seriei simple cu număr impar de valori, mediana determinată respectă

pe deplin definiţia de mai sus, în timp ce în cazul seriei cu număr par de valori, mediana se

determină în mod convenţional şi nu respectă pe deplin definiţia dată.

În cazul unei serii de distribuţie de frecvenţe, semnificaţia Me este afectată de

metoda de calcul. În această situaţie, Me este considerată a fi acea valoare individuală a

caracteristicii corespunzătoare primei frecvenţe cumulate care depăşeşte (n+1)/2.

Exemplu: Tabelul alăturat cuprinde

informaţii cu privire la numărul de

aparate defecte (xi) dintr-o sută de loturi

de aparate.

Din tabel se observă că prima frecvenţă

cumulată crescător ce depăşeşte

(100+1)/2=50,5 este 70, aceasta

corespunzând numărului median de

aparate defecte 2.

Me astfel determinată nu respectă întru

totul definiţia dată, deoarece observăm

că valoarea 2 nu împarte seria în două

părţi egale: numai 30% din loturi au un număr de defecte mai mic decât 2 şi nu 50%, cum

cere definiţia. Din această cauză, în asemenea situaţii, folosirea medianei ca indicator mediu

de poziţie nu este cea mai bună practică.

În cazul unei serii de distribuţie pe intervale (când datele îşi pierd individualitatea),

Me se determină în mod aproximativ printr-un procedeu de interpolare liniară bazat pe

ipoteza repartizării uniforme a frecvenţelor în intervalul median. Procedeul de determinare a

valorii mediane se desfăşoară în următoarele etape:

- Se identifică intervalul median, cel care corespunde primei frecvenţe cumulate crescător care depăşeşte (n+1)/2. Notăm acest interval prin IMe=[xi

inf, xi

sup).

- Me se determină cu ajutorul relaţiei i

i

j

j

iin

nn

lxMe

∑−

=

−+

+=

1

1inf 2

1

, unde li=xisup

-xiinf

reprezintă mărimea intervalului median, ni este frecvenţa intervalului median, iar

∑−

=

1

1

i

j

jn este suma frecvenţelor precedente intervalului median.

Vom determina valoarea mediană pentru datele din exemplul de la pagina 19 (date privind

notele obţinute la un examen). Pentru aceasta, trebuie mai întâi să calculăm frecvenţele

absolute cumulate crescător.

20

Grupe

de note

ni Frecvenţe

cumulate

[2-4) 10 10

[4-6) 30 40

[6-8) 45 85

[8-10] 15 100

Total 100

Intervalul median este [6, 8), întrucât frecvenţa cumulată

crescător pentru acesta este prima care depăşeşte valoarea

(100+1)/2=50,5. Apoi, folosind relaţia de mai sus, Me=6+(8-

6)*(50,5-40)/45=6+2*10,5/45=6,47.

Cuartilele (cuantilele de ordinul 4)

Cuartilele sunt valori localizate într-o serie ordonată,

care împart această serie în patru părţi egale, astfel încât

fiecare diviziune conţine 25% din valorile individuale

înregistrate pentru acea variabilă numerică. Procedeul de determinare a celor 3 cuartile (Q1,

Q2, Q3) este asemănător cu cel de determinare a valorii mediane.

Observaţie: Q2=Me

Mult mai rar folosite sunt decilele (cuantilele de ordinul 10) şi centilele (cuantilele de

ordinul 100). Cele 9 decile împart seria de distribuţie în 10 grupe, fiecare dintre acestea

cuprinzând 10% din numărul de observaţii, iar cele 99 de centile împart seria în 100 de

grupe, fiecare dintre acestea cuprinzând 1% din numărul de observaţii.

Observaţii privind indicatorii tendinţei centrale

Atunci când caracteristica pe baza căreia s-a definit seria de valori este una

nominală, se poate determina doar Mo.

Pentru o serie de date a unei caracteristici ordinale se recomandă determinarea Me

sau Mo, calcularea mediei nefiind posibilă. Dacă seria este numerică, dintre aceşti doi

indicatori va fi aleasă Me, aceasta fiind o măsură mai stabilă faţă de Mo.

Media aritmetică este cel mai frecvent folosit indicator al tendinţei centrale, dar

această medie este sensibilă la existenţa valorilor aberante şi nu este potrivită pentru o

distribuţie multimodală sau cu o asimetrie pronunţată. Pentru astfel de serii de distribuţie se

recomandă folosirea Me sau Mo, care sunt mai robuste la prezenţa valorilor extreme.

Indicatori pentru caracterizarea dispersării unei serii de distribuţie

Indicatorii tendinţei centrale, în special valoarea calculată a mediei, sunt

reprezentativi numai în măsura în care seria de date este omogenă (seria are, într-adevăr, o

tendinţă centrală). Verificarea omogenităţii valorilor individuale necesită măsurarea şi

analiza împrăştierii/concentrării faţă de valorile tipice calculate.

Exemplu: Să presupunem că, în două populaţii, aceeaşi variabilă înregistrează valorile:

(2,2,2,10,18,18,18) şi (9,9,9,9,10,11,11,11,11).

Cele două serii au aceeaşi medie aritmetică şi aceeaşi valoare mediană, ambele egale cu 10,

dar împrăştierea valorilor individuale este diferită, a doua serie fiind mai omogenă.

Indicatorii împrăştierii utilizaţi în analizele statistice sunt de mai multe feluri. Astfel,

în funcţie de numărul de variante luate în calcul (sau după gradul lor de sinteză) există

indicatori simpli şi indicatori sintetici.

21

Indicatorii simpli ai dispersării sunt măsuri statistice obţinute dintr-un număr redus

de valori individuale, în general prin compararea sub formă de diferenţă cu indicatorul

tendinţei centrale, fapt pentru care se exprimă în unitatea de măsură a variabilei observate.

Un exemplu de indicator simplu al dispersării este amplitudinea seriei, calculată în valoare

absolută (xmax-xmin) sau în procente, relativ la media seriei de distribuţie. Un alt exemplu îl

reprezintă abaterea intercuantilică, calculată ca diferenţă între cuantila superioară şi cea

inferioară, ambele având acelaşi ordin. Întrucât informaţiile despre variabilitate oferite sunt

relativ reduse, indicatorii simpli ai împrăştierii sunt folosiţi destul de rar.

Spre deosebire de indicatorii simpli, indicatorii sintetici ai împrăştierii exprimă printr-

o singură valoare numerică variaţia tuturor valorilor individuale faţă de tendinţa centrală. La

baza determinării indicatorilor sintetici stau abaterile individuale dar, pentru a se evita

compensarea celor cu valori pozitive cu cele cu valori negative, abaterile vor fi luate în

modul sau se va opera cu pătratele acestora. Principalii indicatori sintetici ai împrăştierii faţă

de tendinţa centrală sunt abaterea medie absolută, dispersia, abaterea medie pătratică şi

coeficientul de variaţie.

Abaterea medie absolută (abaterea medie liniară)

Abaterea medie absolută reprezintă media aritmetică (simplă sau ponderată) a

abaterilor absolute ale termenilor seriei de la tendinţa lor centrală, caracterizată cu ajutorul

mediei sau medianei. Dacă notăm prin c valoarea tipică a tendinţei centrale faţă de care se

analizează dispersia seriei (valoarea medie sau mediană), atunci se folosesc următoarele

relaţii:

pentru o serie simplă ∑=

−=n

i

ic cxn

d1

1

pentru o serie de distribuţie pe frecvenţe i

p

i

ic ncxn

d ∑=

−=1

1

În cazul seriilor de distribuţie pe intervale, pentru calculul abaterii medii liniare se

iau în considerare centrele intervalelor. Prin urmare, calculul se face folosind formula

enunţată mai sus, valabilă şi în cazul seriilor de distribuţie pe frecvenţe.

Abaterea medie absolută se exprimă în aceeaşi unitate de măsură cu cea a

caracteristicii, fapt pentru care acest indicator nu se poate utiliza pentru a compara

dispersarea seriilor de date pentru caracteristici diferite (exprimate în unităţi de măsură

diferite).

Exemplu: Se consideră seria simplă (1,2,4,5,7,8,9,10,11,13). Media acestei serii este 7, iar

mediana este 7,5. Tabelul de mai jos conţine abaterile absolute faţă de medie şi mediană,

precum şi sumele corespunzătoare.

xi 1 2 4 5 7 8 9 10 11 13 Total

|xi-7| 6 5 3 2 0 1 2 3 4 6 32

|xi-7,5| 6,5 5,5 3,5 2,5 0,5 0,5 1,5 2,5 3,5 5,5 32

Potrivit formulelor de mai sus, 2,3== Mex dd . Această egalitate nu are loc foarte

frecvent, în general cei doi indicatori având valori distincte. De fapt, xMe dd ≤ .

22

Dispersia (varianţa)

Varianţa unei serii de distribuţie se calculează ca medie aritmetică a pătratelor

abaterilor valorilor individuale de la media aritmetică a acesteia.

Prin urmare, pentru o serie simplă de repartiţie, formula de calcul a dispersiei este

n

xxn

i

i∑=

−

= 1

2

2

)(

σ , iar pentru o serie de distribuţie de frecvenţe n

nxxp

i

ii∑=

−

= 1

2

2

)(

σ .

Date fiind aceste formule, se poate observa că, la fel ca în cazul mediei, dispersia

este sensibilă la prezenţa valorilor aberante.

Varianţa este un indicator intermediar pentru aprecierea gradului de dispersare al

unei serii de distribuţie. Acest indicator sintetic al împrăştierii nu se exprimă într-o unitate

concretă de măsură (se exprimă în pătratul unităţii de măsură a seriei), iar mărimea varianţei

este influenţată direct de ordinul de mărime al valorilor seriei de distribuţie (varianţa nu este

o măsură normalizată). De exemplu, dacă valorile individuale ale unei serii sunt multiplicate

cu 10, valoarea calculată a varianţei va fi de 100 de ori mai mare decât cea obţinută din

datele originale.

Pentru o serie de distribuţie simplă sau de frecvenţe, cu cât valoarea varianţei este

mai apropiată de zero, cu atât dispersarea acestei serii în jurul mediei este mai redusă

(varianţa unei serii de valori constante este egală cu zero).

Temă: Calculaţi valoarea varianţei pentru datele din exemplul de pe pagina precedentă.

Pentru o populaţie împărţită în p grupe, dacă σ2x reprezintă varianţa totală, calculată

pentru ansamblul seriei, σ2

xi, cu i=1, 2, ..., p reprezintă varianţele la nivelul grupelor, ni

reprezintă numărul de valori din cadrul fiecărei grupe i, iar ix media caracteristicilor la

nivelul grupei i, atunci

22

int

1

2

1

2

2

)(

ext

p

i

ii

p

i

ixi

xn

nxx

n

n

σσ

σ

σ +=

−

+=∑∑

==

σ2

int reprezintă media varianţelor grupelor. Aceasta cuantifică dispersia din interiorul

grupelor, deci dispersia datorată acţiunii factorilor locali, ce au impact la nivelul grupelor.

σ2

ext, varianţa mediilor de grupă, este un indicator al dispersării acestor medii în jurul mediei

seriei de date. σ2

ext cuantifică deci dispersarea datorată factorului de grupare, prin

intermediul acestui factor măsurându-se disimilarităţile dintre grupe.

Pe baza egalităţii de mai sus a fost enunţată regula de adunare a dispersiilor, care

spune că dispersia totală este egală cu suma dintre media dispersiilor şi dispersia mediilor.

Următorii indicatori relativi sunt calculaţi şi interpretaţi în practica statistică:

o Coeficientul de determinare, k1=σ2

ext/σ2

x. Acest indicator măsoară influenţa factorului de grupare, în funcţie de care s-a structurat colectivitatea generală, asupra varianţei caracteristicii urmărite.

o Coeficientul de nedeterminare, k2=σ2

int/σ2

x=1-k1. Acest indicator exprimă măsura în care variaţia caracteristicii urmărite (dispersia totală) este influenţată de variaţia factorilor aleatori, care acţionează în interiorul subcolectivităţilor.

23

Exemplu: Considerăm valorile variabilei X (productivitatea muncii) pentru două grupe (două

secţii ale unei întreprinderi), sub forma seriilor următoare:

Grupa A (20, 30, 27, 9, 6, 40, 50, 32, 39, 43, 26, 15, 18), n1=13

Grupa B (10, 20, 31, 37, 39, 40, 20, 6, 8, 25, 31, 10, 10, 22, 21, 30, 5), n2=17

Aplicând formulele de până acum, obţinem următoarele rezultate:

La nivelul grupei A, 31,2713/3551 ==x iar 85,1662

1=xσ .

La nivelul grupei B, 47,2117/3652 ==x iar 39,1322

2=xσ .

La nivelul întregii serii de distribuţie, 2430/720 ==x iar 69,1552 =xσ .

Varianţa la nivelul grupelor este 32,14730

1739,1321385,1662

int =⋅+⋅

=σ .

Varianţa dintre grupe este 37,830

17)2447,21(13)2431,27(22

2 =⋅−+⋅−

=extσ .

Regula de adunare a dispersiilor enunţată mai sus este verificată, întrucât

.69,15537,832,147222

int xext σσσ ==+=+

Nu în ultimul rând, coeficienţii pentru măsurarea influenţei celor două categorii de

factori în cadrul dispersiei totale a seriei de distribuţie sunt k1=8,37/155,69=0,054, iar

k2=147,32/155,69=0,946.

Aceste rezultate arată că cele două grupe nu se deosebesc prea mult în ceea ce

priveşte dispersia valorilor în jurul mediilor din grupă, întrucât dispersia productivităţii la

nivelul întregii întreprinderi este explicată într-o măsură covârşitoare (94,6%) de variaţia

productivităţii ca urmare a factorilor specifici şi aleatori care acţionează în cadrul fiecărei

secţii A şi B. Calculele de mai sus arată că dispersia productivităţii generale este explicată

doar într-o mică măsură (5,4%) de împrăştierea productivităţilor medii ale secţiilor faţă de

productivitatea medie a întreprinderii. Altfel spus, influenţa factorului de grupare asupra

varianţei productivităţii este foarte redusă.

Dispersia caracteristicilor alternative

După cum am văzut deja, prezenţa sau absenţa unui anumit fenomen este

reprezentată prin intermediul unei variabile binare (numită şi variabilă alternativă,

dihotomică sau booleană).

În cazul general, se consideră o populaţie de mărime N, din care P unităţi posedă o

proprietate, iar Q=N-P unităţi nu posedă acea proprietate. Prin convenţie, caracteristica

binară va lua valoarea 1 pentru acele unităţi care posedă proprietatea şi valoarea 0 pentru

cele care nu posedă acea proprietate. De aceea, media caracteristicii binare este

(1*P+0*Q)/(P+Q)=P/N, reprezentând ponderea unităţilor care posedă proprietatea în totalul

unităţilor populaţiei.

Varianţa caracteristicii binare este

N

Q

N

P

QP

PQNPQ

QP

QNPPNQ

QP

QNPPNP⋅=

+

+⋅=

+

⋅+⋅=

+

⋅−+⋅−

)(

)(/

)(

)/()/(

)(

)/0()/1(22222

24

Dacă notăm p=P/N, atunci dispersia variabilei binare poate fi scrisă ca p(1-p), reprezentând

produsul dintre ponderea în totalul unităţilor populaţiei a unităţilor care posedă

proprietatea şi ponderea unităţilor care nu posedă acea proprietate.

Exerciţiu: Considerăm o populaţie caracterizată printr-o variabilă binară 0/1 reprezentând,

de exemplu, mediul urban/rural, sexul masculin/feminin, firme mici/mari etc.

Care este media celei mai eterogene astfel de populaţii? Pentru a răspunde acestei

întrebări, să ne gândim mai întâi care ar putea fi cea mai omogenă populaţie caracterizată de

o variabilă binară. Este acea populaţie în care toate unităţile posedă proprietatea urmărită

sau, din contră, nicio unitate nu posedă acea proprietate. De exemplu, dacă variabila binară

reprezintă mediul de reşedinţă urban/rural, cea mai omogenă populaţie este cea în care toţi

indivizii provin din mediul urban sau toţi provin din mediul rural. Prin comparaţie, o

populaţie în care 99% din indivizi provin din mediul urban, în timp ce 1% provin din mediul

rural este tot o populaţie cu o omogenitate ridicată, dar totuşi uşor inferioară celei în care

absolut toţi indivizii aparţin unui mediu de reşedinţă. Continuând în acest sens, acea

populaţie în care 50% din indivizi provin din mediul urban şi 50% provin din mediul rural este

cea mai eterogenă populaţie caracterizată prin această variabilă binară. Dacă notăm cu 1

apartenenţa la mediul urban şi cu 0 pe cea la mediul rural, media va fi p=P/N=0,5.

Care este dispersia celei mai eterogene astfel de populaţii? Cu alte cuvinte, care este

valoarea maximă a dispersiei pentru o variabilă alternativă? După cum spuneam mai sus,

media celei mai eterogene populaţii este p=P/N=0,5, ceea ce înseamnă că dispersia este p(1-

p)=0,5*0,5=0,25.

Abaterea medie pătratică (abaterea standard)

Abaterea standard se calculează ca rădăcină pătrată din dispersie, .2σσ =

Aceasta este o măsură statistică utilizată frecvent pentru caracterizarea gradului de

dispersare a valorilor seriei în jurul mediei, indicatorul fiind recomandat, în principal,

datorită faptului că se calculează pe baza unei relaţii simple.

Faptul că acest indicator se exprimă într-o unitate concretă de măsură (în unitatea

seriei de date) poate fi văzut drept un avantaj, întrucât interpretarea rezultatelor este

facilitată de această trăsătură, dar şi drept un dezavantaj, întrucât acest indicator nu poate fi

folosit pentru compararea dispersării unor serii de date diferite.

De regulă, abaterea standard este folosită pentru caracterizarea distribuţiilor

teoretice. Întrucât detalii despre aceste aspecte vor fi prezentate ulterior, menţionăm doar

că dacă distribuţia unităţilor din colectivitatea investigată, după caracteristica urmărită, este

sub formă de “clopot” (fie şi uşor asimetric), atunci intervalul ( )σσ +− xx , conţine

aproximativ 68% din observaţii, intervalul ( )σσ 2,2 +− xx conţine puţin peste 95% din

observaţii iar aproape toate observaţiile (99,74% din acestea) sunt situate în intervalul

( )σσ 3,3 +− xx .

Coeficientul de variaţie (de omogenitate)

Întrucât atât media, cât şi abaterea standard sunt indicatori exprimaţi în unitatea de

măsură a caracteristicii analizate, aceşti indicatori nu pot fi folosiţi pentru a compara două

serii de date ce sunt exprimate în unităţi de măsură diferite. De exemplu, nu putem compara

25

Grupe de intrări

în cont (mii lei)

Număr de

intrări (ni)

[3, 4) 26

[4, 5) 33

[5, 6) 64

[6, 7) 7

[7, 8] 10

Total 140

media şi abaterea standard calculate pentru o serie ce se referă la vânzarea unui produs, cu

valori exprimate fizic, cu măsurile similare ale altei serii exprimate în unităţi monetare.

Coeficientul de variaţie înlătură acest inconvenient, întrucât este o mărime

adimensională ce se calculează prin raportarea abaterii standard la nivelul mediu al seriei de

distribuţie: .100/ ⋅= xCV σ

Datorită modului de calcul, o valoare mai mică a coeficientului de variaţie va indica o

omogenitate ridicată a seriei supuse analizei. În practică se consideră că CV<30-35%

reprezintă o colectivitate omogenă, în timp ce CV<17% reprezintă o populaţie foarte

omogenă.

Coeficientul de variaţie este şi un indicator al reprezentativităţii mediei. Astfel, dacă

valoarea acestui coeficient este sub pragul de 30-35% (în mod ideal sub 17%), caz în care

colectivitatea este apreciată drept omogenă (foarte omogenă), acest lucru indică existenţa

unei singure tendinţe în cadrul seriei, ceea ce înseamnă că media calculată are semnificaţia

dorită (este o măsură reprezentativă pentru tendinţa centrală a seriei de distribuţie).

Exerciţiu: Se cunosc datele privind depunerile populaţiei

pe parcursul unei săptămâni în conturile de economii

deschise la o sucursală a unei unităţi bancare. Tabelul

alăturat indică aceste date.

Calculaţi şi interpretaţi indicatorii gradului de dispersare a

acestei serii de distribuţie pe intervale.

Grupe de

intrări în

cont

(mii lei)

Număr

de

intrări

(ni)

xi

xini

Frecvenţe

cumulate

crescător

xxi −

ii nxx −

2

)( xxi −

ii nxx2

)( −

(1) (2) (3) (4) (5) (6) (7) (8) (9)

[3, 4) 26 3,5 91 26 -1,59 41,34 2,528 65,728

[4, 5) 33 4,5 148,5 59 -0,59 19,47 0,349 11,517

[5, 6) 64 5,5 352 123 0,41 26,24 0,168 10,752

[6, 7) 7 6,5 45,5 130 1,41 9,87 1,988 13,916

[7, 8] 10 7,5 75 140 2,41 24,1 5,808 58,08

Total 140 712 121,02 159,993

Abaterea medie absolută i

p

i

ic ncxn

d ∑=

−=1

1, unde d reprezintă media aritmetică sau

mediana seriei de distribuţie, fapt pentru care trebuie să determinăm aceşti indicatori ai

tendinţei centrale.

Din tabelul de mai sus reiese că 09,5140/712 ==x (mii lei).

Apoi, dat fiind că (n+1)/2=141/2=70,5 (intrări), prima frecvenţă cumulată ce depăşeşte acest

prag corespunde intervalului [5, 6), acesta fiind deci intervalul median.

26

Formula pentru determinarea medianei este i

i

j

j

iin

nn

lxMe

∑−

=

−+

+=

1

1inf 2

1

, fapt pentru care

Me=5+(70,5-59)/64=5+11,5/64=5,18 (mii lei).

Abaterea medie absolută faţă de media aritmetică este 121,02/140=0,864 (mii lei).

(Nu am mai calculat abaterea medie absolută faţă de mediană, dar aceasta se poate

determina în mod similar.)

Formula de calcul a dispersiei este 143,1140/993,159)(1

1

22 ==−= ∑=

p

i

ii nxxn

σ .

Abaterea medie pătratică se calculează ca radical din dispersie, deci σ=1,069 (mii lei).

Coeficientul de variaţie se calculează conform formulei ,100/ ⋅= xCV σ fapt pentru care

CV=1,069/5,09*100=21%.

Întrucât coeficientul de variaţie este inferior pragului de 30%, populaţia care a produs seria

de distribuţie de mai sus poate fi considerată drept omogenă. Prin urmare, media aritmetică

determinată anterior (5,09 mii lei) poate fi folosită cu încredere drept o măsură a tendinţei

centrale a seriei de distribuţie.

Indicatori pentru caracterizarea formei distribuţiei

Pentru caracterizarea asimetriei şi aplatizării seriei de distribuţie se poate recurge la

reprezentarea grafică a acestei serii sau la un ansamblu de indicatori. Metoda grafică se

poate utiliza pentru orice fel de variabile (calitative şi cantitative), seria de distribuţie fiind

reprezentată prin intermediul histogramei sau a poligonului frecvenţelor. Indicatorii pe care

îi vom prezenta în continuare, utilizaţi pentru verificarea caracterului normal al distribuţiei

seriei de valori, se pot calcula doar pentru caracteristici numerice.

Indicatori ai asimetriei

O distribuţie este simetrică dacă valorile sale, reprezentate prin frecvenţe (absolute

sau relative), sunt egal dispersate de o parte şi de alta a valorii centrale. Într-o distribuţie

simetrică, cele trei valori cu care se exprimă tendinţa centrală, valoarea modală (Mo),

mediană (Me) şi medie ( x ), sunt egale. Distribuţiile mai pot fi asimetrice spre dreapta, caz în

care MoMex << , sau asimetrice spre stânga, caz în care .xMeMo <<

Asimetrie spre dreapta Asimetrie spre stânga

27

Coeficientul de asimetrie Yulle-Kendall, definit pe baza celor trei cuartile ale seriei

de date. Relaţia de calcul este )()(

)()(

13

13

QMeMeQ

QMeMeQCasYK

−+−

−−−= .

Valoarea CasYK este cuprinsă în intervalul [-1, 1]. Semnul coeficientului indică direcţia

asimetriei. Astfel, CasYK>0 indică asimetrie spre stânga, respectiv etalarea frecvenţelor în

partea dreaptă a distribuţiei (altfel spus “coada” din dreapta a distribuţiei este mai lungă

decât “coada” din stânga), în timp ce CasYK<0 indică asimetrie spre dreapta, respectiv etalarea

frecvenţelor în partea stângă a distribuţiei. CasYK=0 este caracteristică unei serii simetrice

(pentru care cuartilele sunt echidistante).

În afara semnului CasYK, mărimea acestui coeficient indică intensitatea asimetriei.

Astfel, o valoare absolută a acestui coeficient sub 0,1 corespunde unei serii moderat

asimetrice, în timp ce |CasYK|>0,3 indică o serie cu un pronunţat caracter asimetric.

Coeficientul de asimetrie Yulle-Kendall nu poate fi utilizat în compararea asimetriei

mai multor serii de distribuţie de frecvenţe.

Coeficientul lui Pearson pentru asimetrie, recomandat a fi calculat în cazul seriilor

de distribuţie slab asimetrice. Acest indicator este calculat pe baza mediei, a valorii modale şi

a abaterii standard, relaţia de calcul fiind ./)( σMoxCasP −=

Cu cât valorile acestui indicator sunt mai apropiate de zero, cu atât seria este mai

simetrică (simetria există când CasP=0). CasP<0 indică faptul că seria prezintă asimetrie spre

dreapta, iar CasP>0 este caracteristică unei serii asimetrice spre stânga.

Întrucât în cazul unei serii de distribuţie cu asimetrie redusă se verifică relaţia

),(3 xMexMo −≈− pentru caracterizarea asimetriei unei astfel de serii se poate folosi

indicatorul calculat potrivit relaţiei ./)(3 σMexCasP −=

Fiind un indicator adimensional, coeficientul de asimetrie propus de Pearson se

utilizează şi în analiza comparativă a asimetriei pentru mai multe serii de distribuţie.

Coeficientul lui Fisher pentru asimetrie, determinat pe baza relaţiei dintre

momentele centrate de ordinul 2 şi 3.

Pentru o serie de distribuţie de frecvenţe, momentul centrat de ordinul k se

calculează pe baza relaţiei ∑=

−=p

i

i

k

ik nxxn 1

)(1

µ . După cum se poate observa, momentul

centrat de ordinul 1 reprezintă media abaterilor valorilor individuale de la media seriei de

distribuţie, în timp ce momentul centrat de ordinul 2 este dispersia seriei de distribuţie.

Momentul centrat de ordinul 3 (notat μ3) este un indicator al asimetriei, fără ca

acesta să pună însă în evidenţă intensitatea asimetriei. Astfel, dacă μ3<0, atunci distribuţia

prezintă o asimetrie spre dreapta, pentru μ3=0 se apreciază că seria este simetrică, iar

pentru μ3>0, distribuţia este asimetrică spre stânga.

Propunerea lui Fisher a fost de a calcula un indicator pe baza relaţiei CasF=μ3/σ3.

Informaţiile oferite de acest indicator permit atât caracterizarea sensului, cât şi a

intensităţii asimetriei. De remarcat că, întrucât σ>0, semnul CasF este dat de semnul

momentului centrat de ordinul 3, fapt pentru care interpretarea este similară cu a celor de

mai sus: CasF<0 indică asimetrie spre dreapta, CasF>0 indică asimetrie spre stânga, iar CasF=0

28

indică faptul că seria de distribuţie este simetrică. Intensitatea asimetriei seriei de distribuţie

este indicată de mărimea coeficientului CasF.

Indicatori ai aplatizării

O serie de distribuţie este aplatizată dacă la variaţii mari ale valorii caracteristicii

observăm variaţii limitate ale frecvenţelor. Aprecierea gradului de aplatizare (de boltire) a

seriei se face, într-o primă etapă, prin compararea curbei frecvenţelor acesteia cu cea a

repartiţiei normale (Gauss-Laplace) ce are aceeaşi medie şi abatere standard cu a seriei de

date investigate. Acest raţionament este vizualizat în figura de mai jos, unde curba indicată

prin linia roşie continuă este curba normală (denumită şi mezocurtică), cea indicată prin linia

albastră punctată este o curbă leptocurtică, iar cea indicată de linia mov punctată fin este o

curbă platicurtică. Rădăcinile etimologice ale denumirilor utilizate sunt greceşti: kurtos =

cocoşat, platys = larg, lat, leptos = îngust, subţire.

Analitic, pentru caracterizarea aplatizării (boltirii) seriei de distribuţie se calculează

coeficienţii lui Pearson şi lui Fisher pentru aplatizare.

Coeficientul lui Pearson pentru aplatizare, determinat pe baza momentelor

centrate de ordinul 2 şi 4. Relaţia de calcul este CapP=μ4/μ22= μ4/σ

4.

Pentru repartiţia normală, valoarea acestui indicator este egală cu 3. Prin urmare,

pentru a aprecia boltirea unei serii, valoarea indicatorului calculat va fi comparată cu 3

(pentru majoritatea seriilor economice, valoarea indicatorului se situează între 2 şi 6). Astfel,

dacă valoarea calculată a CapP≈3, atunci seria de distribuţie urmează o repartiţie aproximativ

normală (este mezocurtică). Dacă CapP>3, atunci curba frecvenţelor este leptocurtică,

distribuţia fiind mai “ascuţită” decât cea normală. În fine, dacă CapP<3, atunci curba prezintă

o aplatizare pronunţată (este platicurtică).

29

Coeficientul lui Fisher pentru aplatizare, o transformare a coeficientului lui Pearson.

Astfel, CapF= μ4/μ22-3=CapP-3, interpretarea acestui indicator fiind evidentă.

Temă: Caracterizaţi asimetria şi aplatizarea distribuţiei punctelor obţinute de 60 de studenţi

(atenţie, va trebui să calculaţi cuartilele, într-un mod similar calculului Me).

Punctajul 0-20 20-40 40-60 60-80 80-100 100-120 Total

Nr. studenţi (ni) 4 8 11 19 12 6 60

Teste grilă

Graficul alăturat va fi folosit pentru întrebările 1 şi 2.

1. Care este semnificaţia lui I, II şi III în graficul alăturat?

a) I – valoarea modală, II – valoarea mediană, III – media

b) I – valoarea modală, II – media, III – valoarea mediană

c) I – valoarea mediană, II – valoarea modală, III – media

d) I – valoarea mediană, II – media, III – valoarea modală

e) I – media, II – valoarea mediană, III – valoarea modală

2. Graficul alăturat ilustrează o distribuţie… a) simetrică b) leptocurtică c) platicurtică

d) asimetrică spre dreapta e) asimetrică spre stânga

3. Care dintre următorii indicatori împart seria de date în patru subgrupe?

a) cuartilele b) decilele c) deviaţia standard d) valoarea mediană e) centilele

4. Dacă abaterea standard (abaterea medie pătratică) a unei populaţii în funcţie de o

anumită caracteristică este egală cu 9, atunci dispersia (varianţa) populaţiei este:

a) 3 b) 9 c) 21,35 d) 81 e) 4,5

5. Care dintre următorii indicatori nu caracterizează tendinţa centrală a unei serii de

distribuţie? a) centilele b) cuartilele c) abaterea standard d) valoarea modală e) decilele

Se cunosc datele din tabelul alăturat, care vor fi folosite pentru

întrebările 6, 7 şi 8.

6. Valoarea modală a acestor date este…

a) 15 b) 20 c) 35 d) 45 e) 55

7. Media aritmetică a acestor date este...

a) 11,2 b) 32,3 c) 35 d) 56 e) 16

8. Dispersia acestor date este... a) 212,69 b) 208,89 c) 14,4 d) 14,58 e) 0

Grupe de vârstă

Număr de observaţii

[10-20) 16

[20-30) 12

[30-40) 7

[40-50) 13

[50-60] 8

30

9. Valoarea mediană se poate determina pentru variabile calitative nominale? a) Da b) Nu

10. Valoarea modală se poate determina pentru variabile calitative nominale? a) Da b) Nu

11. Valoarea medie se poate determina pentru variabile calitative nominale? a) Da b) Nu

12. Valoarea medie se poate determina pentru variabile calitative ordinale? a) Da b) Nu

13. Dacă o distribuţie este anormal de înaltă şi îngustă, atunci această distribuţie se spune că

este… a) mezocurtică b) platicurtică c) leptocurtică d) pirocurtică e) simetrică

14. Dacă o serie de date este caracterizată de o medie egală cu 14 şi de o abatere standard

egală cu 5, care este valoarea coeficientului de variaţie?

a) 2,8% b) 60,4% c) 48,3% d) 35,7% e)27,8%

15. Care dintre următoarele măsuri nu reprezintă indicatori ai dispersării unei serii de date?

a) abaterea medie absolută b) amplitudinea c) varianţa d) abaterea medie pătratică

e) cuartilele

16. Care este valoarea mediană în seria (40, 61, 13, 20, 6, 5, 34, 18, 2, 19, 10)?

a) 13 b) 18 c) 19 d) 19,5 e) acest indicator nu se poate calcula pentru seria dată

17. Care este valoarea modală în seria (40, 61, 13, 20, 6, 5, 34, 18, 2, 19, 10)?

a) 13 b) 18 c) 19 d) 19,5 e) acest indicator nu se poate calcula pentru seria dată

Se cunosc datele din tabelul alăturat, care vor fi folosite pentru întrebarea

18.

18. Care este abaterea standard a lui X, respectiv a lui Y?

a) 70,24, respectiv 28,16 b) 8,38 respectiv 5,31 c) 23,4 respectiv 39,2

d) 24, respectiv 16 e) aceşti indicatori nu se pot calcula pentru aceste date

19. Care este valoarea maximă a dispersiei unei variabile binare?

a) 0,25 b) 0,025 c) 0,5 d) 0,05 e) 1

20. Abaterea standard este: a) numită şi abatere medie pătratică b) o măsură a împrăştierii

c) un indicator aproximativ al felului în care valorile individuale variază în jurul mediei

d) rădăcină pătrată din dispersie e) toate cele de mai sus

21. Care din următoarele afirmaţii este falsă?

a) Media este afectată mai puternic decât mediana de prezenţa valorilor extreme.

b) Amplitudinea este mai sensibilă decât abaterea standard la prezenţa valorilor extreme.

c) Abaterea standard este un indicator al împrăştierii în jurul mediei.

d) Abaterea standard este un indicator al tendinţei centrale în jurul medianei.

e) Pentru o distribuţie simetrică, media este egală cu valoarea mediană.

X Y

12 31

17 47

24 39

28 42

36 37

31

Datele din tabelul alăturat vor fi folosite pentru întrebările 22 şi

23.

22. Care este frecvenţa relativă pentru cel de-al treilea interval?

a) 0,41 b) 0,59 c) 0,11 d) 1 e) 0,07

23. Dacă aceste date sunt calculate pe baza a 800 de observaţii,

care este frecvenţa absolută pentru cel de-al doilea interval?

a) 34 b) 272 c) 80 d) 88 e) 456

24. Un eşantion de 99 de distanţe are o medie de 24km şi o mediană de 24,5km. Din păcate,

s-a descoperit ulterior măsurătorilor că o observaţie care fusese în mod eronat înregistrată

drept “30km” avea în realitate o valoare de 35km. Dacă se face această corectură asupra

datelor, atunci:

a) media rămâne neschimbată, dar mediana va creşte

b) atât media, cât şi mediana rămân neschimbate

c) mediana rămâne neschimbată, dar media creşte

d) atât media, cât şi mediana vor creşte

e) nu putem aprecia cum vor fi afectate media şi mediana, dar sigur dispersia va creşte

25. Scorurile la un test de statistică pentru o grupă de 17 studenţi au fost: 4, 6, 7, 7, 9, 10, 11,

13, 14, 15, 15, 15, 17, 17, 19, 19, 20. După ce s-au calculat media, mediana şi valoarea

modală, s-a descoperit o eroare: un student despre care se ştia că obţinuse un scor egal cu

15 obţinuse de fapt un scor egal cu 17. Indicatorii tendinţei centrale care vor fi afectaţi de

această modificare sunt: a) doar media b) doar valoarea modală c) doar mediana d)

mediana şi valoarea modală e) toţi trei indicatorii

26. Care din următoarele afirmaţii este falsă?

a) Numerele 3, 3, 3 au o abatere standard egală cu zero

b) Numerele 3, 4, 5 au aceeaşi abatere standard ca şi 1003, 1004, 1005

c) Abaterea standard este o măsură a împrăştierii în jurul mediei datelor

d) Numerele 1, 5, 9 au o dispersie mai mică decât 101, 105, 109

e) Abaterea standard este egală cu rădăcină pătrată din dispersie.

27. În cadrul unui studiu, un om de ştiinţă a cântărit 30 de peşti, obţinând o medie de 30g şi

o abatere standard de 2g. După efectuarea acestor măsurători, cercetătorul şi-a dat seama

că folosise un cântar descentrat, care indica greutăţi mai mici cu 2g faţă de realitate (de

exemplu, pentru un peşte care cântărea în realitate 26g, cântarul a indicat 24g). Date fiind

aceste informaţii, care sunt valorile mediei şi abaterii standard după ce s-a corectat eroarea

de cântărire? a) 28g, 2g b) 30g, 4g c) 32g, 2g d) 32g, 4g e) 28g, 4g

Răspunsuri:

1. a, 2. e, 3. a, 4. d, 5. c, 6. a, 7. b, 8. b, 9. b, 10. a,

11. b, 12. b, 13. c, 14. d, 15. e, 16. b, 17. e, 18. b, 19. a, 20. e,

21. d, 22. e, 23. d, 24. c, 25. a, 26. d, 27. c.

Intervale

Frecvenţe relative

cumulate

[0, 5) 0,23

[5, 10) 0,34

[10, 15) 0,41

[15, 20] 1

Documents

Statistica si econometrie cap 1-2