Transcript
Page 1: Statistica descriptiva...3.realizam un sistem de ecuatii pornind de la presupunerea ca momentele populatiei sunt egale cu cele ale esantionului , siexprimam din aceste ecuatii parametrul

”There are three kinds of lies: lies, damned lies and statistics.”

Mark Twain

12Statistica descriptiva

Recunoasterea formelor

Dezvoltarea tehnologiei a condus la generarea unui volum imens de date.Aceste date de volum urias ascund informatie care trebuie extrasa si utilizatapentru a facilita avansul in domeniile respective. Deep learning, data mining,data science sau big data sunt domenii noi care au aparut si s-au dezvoltatpe masura ce a avansat tehnologia sistemelor de calcul. In aceste circumstante,analiza formelor a devenit in ultimii ani unul dintre cele mai active domeniide cercetare. Intr-o lume in care inteligenta artificiala sau masinile autonomesunt deja o realitate, apare necesitatea recunoasterii obiectelor prin intermediulformelor sale.

Cea mai naturala metoda de modelare matematica a unei forme pare a fi ceain care conturul formei este exprimat prin intermediul unei curbe plane inchise

1

Page 2: Statistica descriptiva...3.realizam un sistem de ecuatii pornind de la presupunerea ca momentele populatiei sunt egale cu cele ale esantionului , siexprimam din aceste ecuatii parametrul

𝑐 : [π‘Ž, 𝑏] β†’ R2, 𝑐(π‘Ž) = 𝑐(𝑏). O forma trebuie sa fie invarianta la translatii:oriunde este mutata forma pe ecran va avea acelasi contur. Trebuie sa avemo invarianta la scalari: daca marim imaginea, conturul va ramane neschimbat.In acelasi timp si o invarianta la rotatii este de dorit: evident rotind un conturacesta nu se deformeaza. Prin urmare, din punct de vedere matematic, o formaeste de fapt reprezentata printr-o multime de curbe

[𝑐] = {𝑣 + π‘Ÿπ΄π‘ : 𝑣 ∈ R2, π‘Ÿ ∈ 𝑅+ si 𝐴 o matrice de rotatie}

unde 𝑣 este vectorul care realizeaza translatia, π‘Ÿ scaleaza si 𝐴 roteste conturul.Am omis invarianta la reparametrizari, care poate fi rezolvata considerand aceaparametrizare a curbei pentru care ‖𝑐′(𝑑)β€– = 1. In cuvinte, definitia de mai susspune ca prin forma intelegem o curba inchisa 𝑐, impreuna cu orice alta curbaobtinuta prin translatarea acesteia, scalarea, rotirea sau reparametrizarea ei.Clasele de resturi, modulo 3 de exemplu, sunt construite dupa acelasi principiu

1 = {1 + 3π‘˜ : π‘˜ ∈ Z}

Stim ca in clasa lui 1 se afla toate numerele intregi care dau restul 1 prin im-partire la 3. Tradus matematic inseamna o multime infinita de numere intregiobtinute translatand, pe axa numerelor reale, numarul 1 cu vectori de lungime3π‘˜ unitati, π‘˜ ∈ Z.

In ilustratia de mai jos siluetele a 10 masini sunt afisate. Aceste siluete suntinregistrate de catre o camera fixa la unghiuri de 0∘, 50∘, 90∘ si respectiv 180∘.Marcile carora le corespund sunt: Avalon, Camry, Jeep93, Jeep99, Maxima,MazdaMPV, Mitsubishi, Sentra, Tacoma, TaurusSE96 si Civic4dr.

Daca putem defini o functie 𝑑 care sa calculeze distante intre contururi,masurand cat de mult difera doua curbe inchise, atunci problema identificariiobiectelor pare usor de solutionat. Nu trebuie decat sa gasim valorile cele mai

2

Page 3: Statistica descriptiva...3.realizam un sistem de ecuatii pornind de la presupunerea ca momentele populatiei sunt egale cu cele ale esantionului , siexprimam din aceste ecuatii parametrul

mici ale expresiei 𝑑 ([𝑐] 𝑑𝑒𝑠𝑑 , [𝑐] π‘π‘Žπ‘§π‘Ž 𝑑𝑒 π‘‘π‘Žπ‘‘π‘’ ). O astfel de functie distanta este,in general, foarte sensibila la variatii ale curbelor si returneaza si multe rezul-tate nesatisfacatoare. Cele mai apropiate contururi pot apartine unor modelediferite, ducand la erori in clasificarea siluetelor noi.

In practica pentru identificarea formelor se recurge deseori la o abordarecare presupune crearea unor modele statistice si probabiliste. Sa presupunemca avem doar doua populatii de siluete, apartinand unor marci notate 𝑀1 si 𝑀2.Acestea au fost obtinute prin observarea si inregistrarea unor siluete apartinandacestor marci. Din punctul de vedere al unei camere de supraveghere, de exem-plu, anumite siluete vor aparea mai des decat altele si ideea este sa construimun model probabilist prin definirea unor densitati de probabilitate 𝑓(π‘₯, πœƒ1) si𝑔(π‘₯, πœƒ2), care sa conduca la probabilitati mari pentru siluetele cele mai frecventesi respectiv probabilitati mici pentru cele mai putin frecvente. Daca revenimla ilustratia cu cele 10 marci de masini, vor fi memorate siluete din diversealte unghiuri. Aceste densitati sunt apoi estimate, de exemplu putem estimaparametrii necunoscuti prin metoda verosimilitatii maxime, si vom obtine esti-matorii πœƒβ‹†1 si πœƒβ‹†2 . Acest proces de estimare a densitatilor se numeste learning.

Apoi, dupa ce am obtinut un model probabilist pentru fiecare populatiede siluete, apare problema clasificarii unei siluete 𝑦, nou aparute, in una din-tre aceste doua clase (populatii). Problema generala presupune evident maimulte clase existente (cladire, silueta umana, masina, etc) dar ne rezumamaici la testarea apartenentei unei siluete 𝑦 la cel doua clase de masini 𝑀1 si𝑀2. Deaorece in practica ambele densitati de probabilitate pot fi considerategaussiene, cu parametrii diferiti πœƒβ‹†1 si πœƒβ‹†2 , aceasta testare se poate face prin tes-tul raportului de verosimilitate. Mai precis, se definesc doua ipoteze

𝐻1 : silueta apartine marcii 𝑀1 cu distributia data de 𝑓(π‘₯, πœƒβ‹†1)

𝐻2 : silueta apartine marcii 𝑀2 cu distributia data de 𝑔(π‘₯, πœƒβ‹†2)

si raportul de verosimilitate

πœ† =𝐿(πœƒβ‹†1 , 𝑦)

𝐿(πœƒβ‹†2 , 𝑦)

unde 𝐿 este functia de verosimilitate corespunzatoare unei selectii. Se respingeipoteza 𝐻1 daca πœ† < 1 si se accepta daca πœ† > 1.

3

Page 4: Statistica descriptiva...3.realizam un sistem de ecuatii pornind de la presupunerea ca momentele populatiei sunt egale cu cele ale esantionului , siexprimam din aceste ecuatii parametrul

Statistica descriptiva

βˆ™ investigarea statistica consta in a studia o caracteristica comuna a uneimultimi de elemente de aceeasi natura, numita populatie

βˆ™ caracteristica comuna a indivizilor populatiei este masurata de o variabilaaleatoare 𝑋

βˆ™ elementele unei populatii se numesc generic, indivizi.βˆ™ scopul investigatiei statistice este de a extrage informatii despre caracter-

istica populatiei, investigand doar un esantion constand din 𝑛 indivizi (volumulesantionului), selectati la intamplare.

Observand sau masurand caracteristica indivizilor dintr-un esantion, seobtine un sir de valori, π‘₯1, π‘₯2 . . .π‘₯𝑛, interpretate ca valori de observatieasupra variabilei aleatoare 𝑋. Se considera ca rezultatul investigarii unuiindivid este independent de cele ale investigarii celorlalti, de aceea valorileinregistrate π‘₯1, π‘₯2 . . .π‘₯𝑛 sunt interpretate ca valori de observatie asupraunui sir de variabile aleatoare, 𝑋1, 𝑋2 . . . 𝑋𝑛 independente si identic dis-tribuite ca variabila aleatoare 𝑋, ce modeleaza caracteristica investigata.

Remarca

βˆ™ in multe din aplicatiile statisticii matematice se presupune ca variabilaaleatoare 𝑋 are o distributie cunoscuta ce depinde de anumiti parametrii ne-cunoscuti πœƒ

=β‡’ vom studia metode de estimare a acestor parametrii in sectiunile

urmatoare ale fisei

βˆ™ daca 𝒫 este o populatie supusa investigarii statistice, din punct de vedere alunei caracteristici, atunci perechea (𝑋, 𝑓(π‘₯, πœƒ)) (sau (𝑋, 𝑝(π‘₯, πœƒ)) in cazul discret)se numeste model statistic

βˆ™ daca (𝑋, 𝑓(π‘₯, πœƒ)) este modelul statistic asociat unei variabile aleatoareatunci vectorul aleator (𝑋1, 𝑋2, . . . , 𝑋𝑛) se numeste selectie aleatoare

βˆ™ o functie reala continua de aceste variabile, π‘Œ = 𝑔(𝑋1, 𝑋2, . . . , 𝑋𝑛) este ovariabila aleatore numita statistica

βˆ™ distributia de probabilitate a variabilei π‘Œ se numeste distributia de selectiea statisticii

Masuri descriptive ale datelor statistice

βˆ™ pentru analiza datelor statistice pot fi utilizate diferite tehnici de reprezentaregrafica insa pentru o analiza detaliata este nevoie de asocierea unor valori nu-merice reprezentative (indicatori statistici) acestor date

βˆ™ in cele ce urmeza datele referitoare la o caracteristica a unei populatii vorfi afisate sub forma

𝑋 : π‘₯1, π‘₯2, . . . , π‘₯𝑛

si o vom numi serie statistica simpla

4

Page 5: Statistica descriptiva...3.realizam un sistem de ecuatii pornind de la presupunerea ca momentele populatiei sunt egale cu cele ale esantionului , siexprimam din aceste ecuatii parametrul

βˆ™ media de selectie οΏ½οΏ½ este

οΏ½οΏ½ =π‘₯1 + π‘₯2 + . . . + π‘₯𝑛

𝑛

βˆ™ dispersia de selectie 𝑠2 este definita prin

𝑠2 =1

π‘›βˆ’ 1

π‘›βˆ‘π‘–=1

(π‘₯𝑖 βˆ’ οΏ½οΏ½)2

βˆ™ deviatia standard 𝑠, este evident

𝑠 =

⎯⎸⎸⎷ 1

π‘›βˆ’ 1

π‘›βˆ‘π‘–=1

(π‘₯𝑖 βˆ’ οΏ½οΏ½)2

βˆ™ coeficientul de variatie 𝑐𝑣

𝑐𝑣 =𝑠

οΏ½οΏ½

βˆ™ abaterea medie absoluta 𝑒𝑋

𝑒𝑋 =1

𝑛

π‘›βˆ‘π‘–=1

|π‘₯𝑖 βˆ’ οΏ½οΏ½|

βˆ™ mediana 𝑀𝑒 impune ca valorile observate sa fie ordonate crescator siatunci

𝑀𝑒 =

⎧βŽͺ⎨βŽͺ⎩π‘₯𝑛+1

2, 𝑛 impar

π‘₯𝑛2+π‘₯𝑛

2+1

2 , 𝑛 par

βˆ™ cuartilele 𝑄1,𝑄2 = 𝑀𝑒 si 𝑄3 impart seria statistica in patru parti cuefective egale (dupa ordonare) iar abaterea cuartilica 𝑄 = 𝑄3 βˆ’π‘„1

=β‡’ daca n este impar atunci 𝑄2 = 𝑀𝑒 si se adauga 𝑀𝑒 la ambele jumatatiformate, apoi 𝑄1 este mediana primei jumatati si 𝑄3 a celei de-a doua

βˆ™ amplitudinea absoluta πœ”π‘‹

πœ”π‘‹ = π‘₯π‘šπ‘Žπ‘₯ βˆ’ π‘₯π‘šπ‘–π‘›

βˆ™ momentele centrate de ordin k πœ‡π‘˜

πœ‡π‘˜ =1

𝑛

π‘›βˆ‘π‘–=1

(π‘₯𝑖 βˆ’ οΏ½οΏ½)π‘˜

βˆ™ coeficientul de asimetrie al lui K. Pearson (skewness) 𝛽1

𝛽1 =πœ‡3

(𝑠2)3=

πœ‡3

πœ‡32

βˆ™ coeficientul de asimetrie a lui R. Fisher 𝛾1

𝛾1 =βˆšπ›½1

βˆ™ coeficientul de aplatizare Pearson (kurtosis)

𝛽2 =πœ‡4

πœ‡22

βˆ™ coeficientul de aplatizare a lui Fisher

𝛾2 = 𝛽2 βˆ’ 3

5

Page 6: Statistica descriptiva...3.realizam un sistem de ecuatii pornind de la presupunerea ca momentele populatiei sunt egale cu cele ale esantionului , siexprimam din aceste ecuatii parametrul

Metode de estimare a parametrilor

βˆ™ distributia lui 𝑋 depinde uneori de un parametru necunoscut, notat πœƒ, incontext general

βˆ™ spre exemplu, o distributie binomiala 𝐡𝑖𝑛(𝑛, 𝑝) depinde de parametrii 𝑛 si𝑝, notam πœƒ = (πœƒ1, πœƒ2) = (𝑛, 𝑝), iar una exponentiala 𝐸π‘₯𝑝(πœ†) de parametrul πœƒ = πœ†

βˆ™ vom incepe sa prezentam metode de estimare a parametrilor repartiti-ilor variabilelor aleatoare: metoda momentelor, metoda verosimilitatii maxime,metoda intervalelor de incredere, metoda celor mai mici patrate

Metoda momentelor

βˆ™ metoda momentelor este o metoda de estimare a parametrilor unei distribu-tii corespunzatoare variabilei 𝑋, care masoara caracteristica comuna populatieistatistice 𝒫

βˆ™ metoda este bazata pe presupunerea ca momentele esantionului sunt esti-matori buni pentru momentele corespunzatoare populatiei.

βˆ™ pentru o populatie 𝒫 momentele π‘€π‘˜ de ordin π‘˜ sunt definite prin expresiile

π‘€π‘˜(𝑋) = 𝑀(π‘‹π‘˜) =

⎧βŽͺβŽͺβŽͺβŽͺβŽͺβŽͺ⎨βŽͺβŽͺβŽͺβŽͺβŽͺβŽͺ⎩

βˆžβˆ«βˆ’βˆž

π‘₯π‘˜ Β· 𝑓(π‘₯)𝑑π‘₯, daca 𝑋 este continua

βˆ‘π‘–βˆˆπΌ

π‘₯π‘˜π‘– Β· 𝑝𝑖, daca 𝑋 este discreta

βˆ™ momentele de ordin π‘˜ ale esantionului, notate π‘šπ‘˜, pentru un esantion devolum 𝑛 sunt

π‘šπ‘˜ =1

𝑛

π‘›βˆ‘π‘–=1

π‘‹π‘˜π‘–

βˆ™ estimarea prin metoda momentelor pur si simplu presupune egale celedoua tipuri de momente π‘€π‘˜ = π‘šπ‘˜ si urmareste apoi aflarea parametrilor lipsa(distributia trebuie sa aiba momente finite)

βˆ™ metoda momentelor presupune urmatorii pasi

1. vrem sa estimam un parametru πœƒ

2. calculam momente de ordin mic π‘€π‘˜ ca functii de πœƒ

3. realizam un sistem de ecuatii pornind de la presupunerea ca momentelepopulatiei π‘€π‘˜ sunt egale cu cele ale esantionului π‘šπ‘˜, si exprimam dinaceste ecuatii parametrul ca functii de momentele esantionului π‘šπ‘˜.

Fie 𝑋1, 𝑋2, . . . 𝑋𝑛 un esantion dintr-o populatie care are o distributie bi-nomiala 𝑋 ∼ 𝐡𝑖(𝑛0, 𝑝) cu parametrii 𝑛0 si 𝑝. Vom estima acesti parametrifolosind metoda momentelor.

Exemplu

6

Page 7: Statistica descriptiva...3.realizam un sistem de ecuatii pornind de la presupunerea ca momentele populatiei sunt egale cu cele ale esantionului , siexprimam din aceste ecuatii parametrul

Deoarece

𝑀(𝑋) = 𝑛0 Β· 𝑝 (vezi fisa variabile aleatoare discrete)

si𝐷2(𝑋) = 𝑛0𝑝(1 βˆ’ 𝑝)

obtinem:

𝑀2(𝑋) = 𝑀(𝑋2) = 𝐷2(𝑋) + 𝑀(𝑋)2 = 𝑛0𝑝(1 βˆ’ 𝑝) + 𝑛20𝑝

2,

putem scrie 𝑛0𝑝(1 βˆ’ 𝑝) = 𝑀2(𝑋) βˆ’π‘€(𝑋)2.Egaland

𝑀(𝑋) = π‘š1

(=

𝑋1 + 𝑋2 + . . . + 𝑋𝑛

𝑛

)si

𝑀2(𝑋) = π‘š2

(=

𝑋21 + 𝑋2

2 + . . . + 𝑋2𝑛

𝑛

)se poate observa ca

1 βˆ’ 𝑝 =π‘š2 βˆ’π‘š2

1

π‘š1

astfel

𝑝⋆ =π‘š1 + π‘š2

1 βˆ’π‘š2

π‘š1

poate fi folosit ca un estimator pentru parametrul 𝑝.In acelasi context

𝑛⋆0 =

π‘š1

𝑝=

π‘š21

π‘š1 + π‘š21 βˆ’π‘š2

.

este un estimator, obtinut prin metoda momentelor, pentru 𝑛0. οΏ½

Metoda verosimilitatii maxime

βˆ™ se supune investigatiei statistice o caracteristica a unei populatii, masuratade o variabila aleatoare 𝑋, a carei densitate de probabilitate 𝑓(π‘₯, πœƒ) depinde deun parametru necunoscut πœƒ

βˆ™ se investigheaza un esantion de volum 𝑛 si se inregistreaza valorile deobservatie π‘₯1, π‘₯2, . . . , π‘₯𝑛, care vor fi considerate ca fiind valori ale unor variabileindependente 𝑋1, 𝑋2, . . . , 𝑋𝑛 cu aceasi distributie ca si 𝑋

βˆ™ se defineste functia de verosimilitate

𝐿(πœƒ) = 𝑓(π‘₯1, πœƒ) Β· 𝑓(π‘₯2, πœƒ) Β· . . . Β· 𝑓(π‘₯𝑛, πœƒ)

iar metoda verosimilitatii maxime presupune ca estimatorul πœƒβ‹† al lui πœƒ (uneori

notat πœƒ) este acea valoare care maximizeaza functia de verosimilitate πΏβˆ™ se foloseste des notatia πœƒβ‹† = arg max

πœƒπΏ(πœƒ)

7

Page 8: Statistica descriptiva...3.realizam un sistem de ecuatii pornind de la presupunerea ca momentele populatiei sunt egale cu cele ale esantionului , siexprimam din aceste ecuatii parametrul

βˆ™ daca 𝑋 este discreta atunci datorita independentei variabilelor 𝑋1, 𝑋2, . . . 𝑋𝑛

functia de verosimilitate este

𝐿(πœƒ) = 𝑃 (𝑋1 = π‘₯1) Β· 𝑃 (𝑋2 = π‘₯2) Β· . . . Β· 𝑃 (𝑋𝑛 = π‘₯𝑛)

asadar πœƒβ‹† este acea valoare care maximizeaza probabilitatea de aparitie a valo-rilor observate π‘₯1, π‘₯2, . . . , π‘₯𝑛

βˆ™ in formula de mai sus fiecare probabilitate va depinde de parametrul πœƒchiar daca nu este specificat acest lucru

βˆ™ daca 𝑋 este continua si 𝐿 este derivabila atunci putem gasi usor valorileπœƒβ‹†, care maximizeaza 𝐿, cautand printre punctele critice ale lui 𝐿

πœ•πΏ

πœ•πœƒ= 0 (ecuatia de verosimilitate)

βˆ™ de obicei se aplica urmatorul truc: punctele care maximizeaza 𝐿(πœƒ) seafla printre cele care maximizeaza ln𝐿(πœƒ), care insa are o expresie mai usor demanevrat

πœ•πΏ

πœ•πœƒ= 0 =β‡’ πœ• ln𝐿

πœ•πœƒ= 0 ⇐⇒

π‘›βˆ‘π‘–=1

πœ• ln 𝑓(π‘₯𝑖, πœƒ)

πœ•πœƒ= 0

βˆ™ daca πœƒ = (πœƒ1, πœƒ2) atunci ecuatia anterioara devine

π‘›βˆ‘π‘–=1

βˆ‡πœƒ ln 𝑓(π‘₯𝑖, πœƒ) = 0 unde βˆ‡πœƒ =

βŽ›βŽ πœ•πœ•πœƒ1

πœ•πœ•πœƒ2

⎞⎠ este gradientul

Consideram o populatie formata dintr-un tip de circuite. Presupunem castim deja ca o caracterista a populatiei (de exemplu durata de viata a cir-cuitelor) este modelata printr-o variabila aleatoare 𝑋 care are o distributieexponentiala de parametru πœ†, insa nu cunoastem acest parametru. Putemsa-l aproximam folosind metoda verosimilitatii maxime. Facem o selectieπ‘₯1, π‘₯2, . . . , π‘₯𝑛 din acea populatie (masurand durata de viata) si reamintimca o distributie exponentiala are densitatea de probabilitate

𝑓(π‘₯, πœ†) =

{πœ†π‘’βˆ’πœ†π‘₯, π‘₯ β‰₯ 0

0, in rest

Folosim notatiile de mai sus si notam cu πœƒ = πœ† parametrul care trebuieestimat. Construim functia de verosimilitate

𝐿(πœƒ) = 𝑓(π‘₯1, πœƒ) Β· 𝑓(π‘₯2, πœƒ) Β· . . . Β· 𝑓(π‘₯𝑛, πœƒ) = πœƒπ‘’βˆ’πœƒπ‘₯1 Β· πœƒπ‘’βˆ’πœƒπ‘₯2 Β· . . . Β· πœƒπ‘’βˆ’πœƒπ‘₯𝑛

iar dupa logaritmare ecuatia de verosimilitate devine

π‘›βˆ‘π‘–=1

πœ• ln 𝑓(π‘₯𝑖, πœƒ)

πœ•πœƒ=

𝑛

πœƒβˆ’

π‘›βˆ‘π‘–=1

π‘₯𝑖 = 0

Exemplu

8

Page 9: Statistica descriptiva...3.realizam un sistem de ecuatii pornind de la presupunerea ca momentele populatiei sunt egale cu cele ale esantionului , siexprimam din aceste ecuatii parametrul

asadar πœƒβ‹† =𝑛

π‘›βˆ‘π‘–=1

π‘₯𝑖

si prin urmare inversa mediei selectiei este un estimator

de verosimilitate maxima pentru πœ†. οΏ½

Probleme rezolvate

Problema 1. Calculati cuartilele 𝑄1, 𝑄2, 𝑄3 pentru urmatoarea seriestatistica simpla

𝑋 : 1, 2, 5, 7, 11, 21, 22, 23, 29

si abaterea cuartilica.

Solutie: Facem mai Δ±ntai observatia ca mediana 𝑀𝑒 coincide cu cuartila 𝑄2.Valorile seriei sunt deja ordonate crescator, deci nu mai trebuie sa le ordonam,inainte de a identifica mediana.

Deoarece seria statistica data are un numar impar de termeni (9 mai exact),vom folosi formula corespunzatoare pentru a determina cuartila 𝑄2 si avem

π‘₯ 9+12

= π‘₯5 = 11 β‡’ 𝑀𝑒 = 𝑄2 = 11.

Mai departe pentru a determina prima cuartila tinem cont de seria statisticasimpla

1, 2, 5, 7, 11

care are tot un numar impar de termeni si obtinem

π‘₯ 5+12

= π‘₯3 = 5 β‡’ 𝑄1 = 5.

Analog procedam pentru a treia cuartila tinand cont de seria statistica simpla

11, 21, 22, 23, 29

care are tot un numar impar de termeni si rezulta

π‘₯ 5+12

= π‘₯3 = 22 β‡’ 𝑄3 = 22.

Atunci rezulta ca abaterea cuartilica este

𝑄 = 𝑄3 βˆ’π‘„1 = 22 βˆ’ 5 = 17.

Problema 2. Fie seria statistica

𝑋 : 1, 5, 4, 20, 3, 16.

Determinati:a) Amplitudinea absoluta πœ”π‘‹ .b) Abaterea medie absoluta 𝑒𝑋 .c) Dispersia de selectie 𝑠2.d) Deviatia standard 𝑠.e) Coeficientul de variatie 𝑐𝑣.

9

Page 10: Statistica descriptiva...3.realizam un sistem de ecuatii pornind de la presupunerea ca momentele populatiei sunt egale cu cele ale esantionului , siexprimam din aceste ecuatii parametrul

Solutie: a) Amplitudinea absoluta πœ”π‘‹ este

πœ”π‘‹ = π‘₯max βˆ’ π‘₯min = 20 βˆ’ 1 = 19.

b) Abaterea medie absoluta 𝑒𝑋 se obtine astfel

𝑒𝑋 =|1 βˆ’ π‘₯| + |5 βˆ’ π‘₯| + |4 βˆ’ π‘₯| + |20 βˆ’ π‘₯| + |3 βˆ’ π‘₯| + |16 βˆ’ π‘₯|

6,

unde media π‘₯ este

π‘₯ =1 + 5 + 4 + 20 + 3 + 16

6= 8, 16.

Atunci rezulta𝑒𝑋 ≃ 6, 55.

c) Dispersia de selectie este

𝑠2 =1

6

6βˆ‘π‘–=1

(π‘₯𝑖 βˆ’ π‘₯)2

=1

6

(7, 162 + 3, 162 + 4, 162 + 11, 842 + 5, 162 + 7, 842

)= 51, 138 ≃ 51.

d) Deviatia standard rezulta imediat de mai sus

𝑠 =βˆšπ‘ 2 =

√51 = 7, 14 ≃ 7.

e) Din cele de mai sus, rezulta coeficientul de variatie

𝑐𝑣 =𝑠

π‘₯= 0, 8578.

Problema 3. Fie 𝑋1, 𝑋2, ..., 𝑋𝑛 variabile aleatoare normal distribuite cumedia π‘š si dispersia 𝜎2. Care sunt estimarile date de metoda momentelorpentru media π‘š si dispersia 𝜎2?

Solutie: Momentele de ordin 1 si 2, corespunzatoare lui 𝑋, sunt date prin𝑀1(𝑋) = 𝑀(𝑋) = π‘š si 𝑀2(𝑋) = 𝑀(𝑋2) = π‘š2 + 𝜎2, intrucat prin definitie𝜎2 = 𝑀(𝑋2) βˆ’π‘€(𝑋)2. Ramane sa afisam momentele esantionului, si anume

π‘š1 =1

𝑛

π‘›βˆ‘π‘–=1

𝑋𝑖 si π‘š2 =1

𝑛

π‘›βˆ‘π‘–=1

𝑋2𝑖

apoi metoda momentelor presupune sa le consideram egale

𝑀1 = π‘š1 si 𝑀2 = π‘š2

Pentru a obtine estimatorii pentru π‘š si 𝜎2 prin metoda momentelor, va trebuisa exprimam acesti parametrii ca functii de π‘š1 si π‘š2. Se obtine imediat

π‘šβ‹† =1

𝑛

π‘›βˆ‘π‘–=1

𝑋𝑖

10

Page 11: Statistica descriptiva...3.realizam un sistem de ecuatii pornind de la presupunerea ca momentele populatiei sunt egale cu cele ale esantionului , siexprimam din aceste ecuatii parametrul

si

πœŽβ‹†2 =1

𝑛

π‘›βˆ‘π‘–=1

𝑋2𝑖 βˆ’

(1

𝑛

π‘›βˆ‘π‘–=1

𝑋𝑖

)2

=

π‘›βˆ‘π‘–=1

(𝑋𝑖 βˆ’ οΏ½οΏ½)2

𝑛

Se poate constata ca estimatorul obtinut prin metoda momentelor pentru 𝜎2 nueste nedeplasat (vezi curs), caci 𝑀(πœŽβ‹†2) = 𝜎2. Un estimator elementar pentru𝜎2, care sa fie nedeplasat, se construieste usor prin

πœŽβ‹†2 =

π‘›βˆ‘π‘–=1

(𝑋𝑖 βˆ’ οΏ½οΏ½)2

π‘›βˆ’ 1

si formula trimite la dispersia de selectie 𝑠2.

Probleme propuse

Problema 1. 𝑋1, 𝑋2, . . . 𝑋𝑛 reprezinta o selectie dintr-o populatie 𝒫, a careicaracteristica comuna este masurata de 𝑋 cu o distributie Poisson, adica cufunctia de probabilitate

𝑝(π‘˜, πœ†) = 𝑃 (𝑋 = π‘˜) =

{πœ†π‘˜

π‘˜! π‘’βˆ’πœ†, daca π‘˜ = 0, 1, . . .

0, altfel

Estimati parametrul πœ† folosind metoda momentelor.

Problema 2. Fie (𝑋1, 𝑋2, . . . 𝑋𝑛) o selectie aleatoare a unei variabile aleatoare𝑋 cu densitatea de probabilitate

𝑓(π‘₯, πœƒ) =

{(2πœƒ + 1)π‘₯2πœƒ, 0 ≀ π‘₯ ≀ 1

0, in rest

Aflati un estimator de verosimilitate maxima a lui πœƒ.

Problema 3. Pentru seria statistica

𝑋 : 1, 1, 2, 2, 2, 1, 3, 1, 2, 4

aflati dispersia de selectie, coeficientii Pearson de asimetrie si aplatizare, cuar-tilele si coeficientul de variatie.

Problema 4. Folositi metoda verosimilitatii maxime pentru a estima media π‘šsi dispersia 𝜎2 unei selectii aleatoare 𝑋1, 𝑋2, . . . , 𝑋𝑛 normal si identic distribuitecu 𝑋.

11

Page 12: Statistica descriptiva...3.realizam un sistem de ecuatii pornind de la presupunerea ca momentele populatiei sunt egale cu cele ale esantionului , siexprimam din aceste ecuatii parametrul

12

Page 13: Statistica descriptiva...3.realizam un sistem de ecuatii pornind de la presupunerea ca momentele populatiei sunt egale cu cele ale esantionului , siexprimam din aceste ecuatii parametrul

Bibliografie

[1] R. Negrea. Note de curs MS, 2020.

[2] E. Petrisor. Note de curs Probabilitati si statistica, 2016.

[3] A. Srivastava si E. Klassen Functional and Shape Data Analysis, Springer-Verlag, New York, 2016.