13
”There are three kinds of lies: lies, damned lies and statistics.” Mark Twain 12 Statistica descriptiva Recunoasterea formelor Dezvoltarea tehnologiei a condus la generarea unui volum imens de date. Aceste date de volum urias ascund informatie care trebuie extrasa si utilizata pentru a facilita avansul in domeniile respective. Deep learning, data mining, data science sau big data sunt domenii noi care au aparut si s-au dezvoltat pe masura ce a avansat tehnologia sistemelor de calcul. In aceste circumstante, analiza formelor a devenit in ultimii ani unul dintre cele mai active domenii de cercetare. Intr-o lume in care inteligenta artificiala sau masinile autonome sunt deja o realitate, apare necesitatea recunoasterii obiectelor prin intermediul formelor sale. Cea mai naturala metoda de modelare matematica a unei forme pare a fi cea in care conturul formei este exprimat prin intermediul unei curbe plane inchise 1

Statistica descriptiva...3.realizam un sistem de ecuatii pornind de la presupunerea ca momentele populatiei sunt egale cu cele ale esantionului , siexprimam din aceste ecuatii parametrul

  • Upload
    others

  • View
    16

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Statistica descriptiva...3.realizam un sistem de ecuatii pornind de la presupunerea ca momentele populatiei sunt egale cu cele ale esantionului , siexprimam din aceste ecuatii parametrul

”There are three kinds of lies: lies, damned lies and statistics.”

Mark Twain

12Statistica descriptiva

Recunoasterea formelor

Dezvoltarea tehnologiei a condus la generarea unui volum imens de date.Aceste date de volum urias ascund informatie care trebuie extrasa si utilizatapentru a facilita avansul in domeniile respective. Deep learning, data mining,data science sau big data sunt domenii noi care au aparut si s-au dezvoltatpe masura ce a avansat tehnologia sistemelor de calcul. In aceste circumstante,analiza formelor a devenit in ultimii ani unul dintre cele mai active domeniide cercetare. Intr-o lume in care inteligenta artificiala sau masinile autonomesunt deja o realitate, apare necesitatea recunoasterii obiectelor prin intermediulformelor sale.

Cea mai naturala metoda de modelare matematica a unei forme pare a fi ceain care conturul formei este exprimat prin intermediul unei curbe plane inchise

1

Page 2: Statistica descriptiva...3.realizam un sistem de ecuatii pornind de la presupunerea ca momentele populatiei sunt egale cu cele ale esantionului , siexprimam din aceste ecuatii parametrul

𝑐 : [𝑎, 𝑏] → R2, 𝑐(𝑎) = 𝑐(𝑏). O forma trebuie sa fie invarianta la translatii:oriunde este mutata forma pe ecran va avea acelasi contur. Trebuie sa avemo invarianta la scalari: daca marim imaginea, conturul va ramane neschimbat.In acelasi timp si o invarianta la rotatii este de dorit: evident rotind un conturacesta nu se deformeaza. Prin urmare, din punct de vedere matematic, o formaeste de fapt reprezentata printr-o multime de curbe

[𝑐] = {𝑣 + 𝑟𝐴𝑐 : 𝑣 ∈ R2, 𝑟 ∈ 𝑅+ si 𝐴 o matrice de rotatie}

unde 𝑣 este vectorul care realizeaza translatia, 𝑟 scaleaza si 𝐴 roteste conturul.Am omis invarianta la reparametrizari, care poate fi rezolvata considerand aceaparametrizare a curbei pentru care ‖𝑐′(𝑡)‖ = 1. In cuvinte, definitia de mai susspune ca prin forma intelegem o curba inchisa 𝑐, impreuna cu orice alta curbaobtinuta prin translatarea acesteia, scalarea, rotirea sau reparametrizarea ei.Clasele de resturi, modulo 3 de exemplu, sunt construite dupa acelasi principiu

1 = {1 + 3𝑘 : 𝑘 ∈ Z}

Stim ca in clasa lui 1 se afla toate numerele intregi care dau restul 1 prin im-partire la 3. Tradus matematic inseamna o multime infinita de numere intregiobtinute translatand, pe axa numerelor reale, numarul 1 cu vectori de lungime3𝑘 unitati, 𝑘 ∈ Z.

In ilustratia de mai jos siluetele a 10 masini sunt afisate. Aceste siluete suntinregistrate de catre o camera fixa la unghiuri de 0∘, 50∘, 90∘ si respectiv 180∘.Marcile carora le corespund sunt: Avalon, Camry, Jeep93, Jeep99, Maxima,MazdaMPV, Mitsubishi, Sentra, Tacoma, TaurusSE96 si Civic4dr.

Daca putem defini o functie 𝑑 care sa calculeze distante intre contururi,masurand cat de mult difera doua curbe inchise, atunci problema identificariiobiectelor pare usor de solutionat. Nu trebuie decat sa gasim valorile cele mai

2

Page 3: Statistica descriptiva...3.realizam un sistem de ecuatii pornind de la presupunerea ca momentele populatiei sunt egale cu cele ale esantionului , siexprimam din aceste ecuatii parametrul

mici ale expresiei 𝑑 ([𝑐] 𝑡𝑒𝑠𝑡 , [𝑐] 𝑏𝑎𝑧𝑎 𝑑𝑒 𝑑𝑎𝑡𝑒 ). O astfel de functie distanta este,in general, foarte sensibila la variatii ale curbelor si returneaza si multe rezul-tate nesatisfacatoare. Cele mai apropiate contururi pot apartine unor modelediferite, ducand la erori in clasificarea siluetelor noi.

In practica pentru identificarea formelor se recurge deseori la o abordarecare presupune crearea unor modele statistice si probabiliste. Sa presupunemca avem doar doua populatii de siluete, apartinand unor marci notate 𝑀1 si 𝑀2.Acestea au fost obtinute prin observarea si inregistrarea unor siluete apartinandacestor marci. Din punctul de vedere al unei camere de supraveghere, de exem-plu, anumite siluete vor aparea mai des decat altele si ideea este sa construimun model probabilist prin definirea unor densitati de probabilitate 𝑓(𝑥, 𝜃1) si𝑔(𝑥, 𝜃2), care sa conduca la probabilitati mari pentru siluetele cele mai frecventesi respectiv probabilitati mici pentru cele mai putin frecvente. Daca revenimla ilustratia cu cele 10 marci de masini, vor fi memorate siluete din diversealte unghiuri. Aceste densitati sunt apoi estimate, de exemplu putem estimaparametrii necunoscuti prin metoda verosimilitatii maxime, si vom obtine esti-matorii 𝜃⋆1 si 𝜃⋆2 . Acest proces de estimare a densitatilor se numeste learning.

Apoi, dupa ce am obtinut un model probabilist pentru fiecare populatiede siluete, apare problema clasificarii unei siluete 𝑦, nou aparute, in una din-tre aceste doua clase (populatii). Problema generala presupune evident maimulte clase existente (cladire, silueta umana, masina, etc) dar ne rezumamaici la testarea apartenentei unei siluete 𝑦 la cel doua clase de masini 𝑀1 si𝑀2. Deaorece in practica ambele densitati de probabilitate pot fi considerategaussiene, cu parametrii diferiti 𝜃⋆1 si 𝜃⋆2 , aceasta testare se poate face prin tes-tul raportului de verosimilitate. Mai precis, se definesc doua ipoteze

𝐻1 : silueta apartine marcii 𝑀1 cu distributia data de 𝑓(𝑥, 𝜃⋆1)

𝐻2 : silueta apartine marcii 𝑀2 cu distributia data de 𝑔(𝑥, 𝜃⋆2)

si raportul de verosimilitate

𝜆 =𝐿(𝜃⋆1 , 𝑦)

𝐿(𝜃⋆2 , 𝑦)

unde 𝐿 este functia de verosimilitate corespunzatoare unei selectii. Se respingeipoteza 𝐻1 daca 𝜆 < 1 si se accepta daca 𝜆 > 1.

3

Page 4: Statistica descriptiva...3.realizam un sistem de ecuatii pornind de la presupunerea ca momentele populatiei sunt egale cu cele ale esantionului , siexprimam din aceste ecuatii parametrul

Statistica descriptiva

∙ investigarea statistica consta in a studia o caracteristica comuna a uneimultimi de elemente de aceeasi natura, numita populatie

∙ caracteristica comuna a indivizilor populatiei este masurata de o variabilaaleatoare 𝑋

∙ elementele unei populatii se numesc generic, indivizi.∙ scopul investigatiei statistice este de a extrage informatii despre caracter-

istica populatiei, investigand doar un esantion constand din 𝑛 indivizi (volumulesantionului), selectati la intamplare.

Observand sau masurand caracteristica indivizilor dintr-un esantion, seobtine un sir de valori, 𝑥1, 𝑥2 . . .𝑥𝑛, interpretate ca valori de observatieasupra variabilei aleatoare 𝑋. Se considera ca rezultatul investigarii unuiindivid este independent de cele ale investigarii celorlalti, de aceea valorileinregistrate 𝑥1, 𝑥2 . . .𝑥𝑛 sunt interpretate ca valori de observatie asupraunui sir de variabile aleatoare, 𝑋1, 𝑋2 . . . 𝑋𝑛 independente si identic dis-tribuite ca variabila aleatoare 𝑋, ce modeleaza caracteristica investigata.

Remarca

∙ in multe din aplicatiile statisticii matematice se presupune ca variabilaaleatoare 𝑋 are o distributie cunoscuta ce depinde de anumiti parametrii ne-cunoscuti 𝜃

=⇒ vom studia metode de estimare a acestor parametrii in sectiunile

urmatoare ale fisei

∙ daca 𝒫 este o populatie supusa investigarii statistice, din punct de vedere alunei caracteristici, atunci perechea (𝑋, 𝑓(𝑥, 𝜃)) (sau (𝑋, 𝑝(𝑥, 𝜃)) in cazul discret)se numeste model statistic

∙ daca (𝑋, 𝑓(𝑥, 𝜃)) este modelul statistic asociat unei variabile aleatoareatunci vectorul aleator (𝑋1, 𝑋2, . . . , 𝑋𝑛) se numeste selectie aleatoare

∙ o functie reala continua de aceste variabile, 𝑌 = 𝑔(𝑋1, 𝑋2, . . . , 𝑋𝑛) este ovariabila aleatore numita statistica

∙ distributia de probabilitate a variabilei 𝑌 se numeste distributia de selectiea statisticii

Masuri descriptive ale datelor statistice

∙ pentru analiza datelor statistice pot fi utilizate diferite tehnici de reprezentaregrafica insa pentru o analiza detaliata este nevoie de asocierea unor valori nu-merice reprezentative (indicatori statistici) acestor date

∙ in cele ce urmeza datele referitoare la o caracteristica a unei populatii vorfi afisate sub forma

𝑋 : 𝑥1, 𝑥2, . . . , 𝑥𝑛

si o vom numi serie statistica simpla

4

Page 5: Statistica descriptiva...3.realizam un sistem de ecuatii pornind de la presupunerea ca momentele populatiei sunt egale cu cele ale esantionului , siexprimam din aceste ecuatii parametrul

∙ media de selectie �� este

�� =𝑥1 + 𝑥2 + . . . + 𝑥𝑛

𝑛

∙ dispersia de selectie 𝑠2 este definita prin

𝑠2 =1

𝑛− 1

𝑛∑𝑖=1

(𝑥𝑖 − ��)2

∙ deviatia standard 𝑠, este evident

𝑠 =

⎯⎸⎸⎷ 1

𝑛− 1

𝑛∑𝑖=1

(𝑥𝑖 − ��)2

∙ coeficientul de variatie 𝑐𝑣

𝑐𝑣 =𝑠

��

∙ abaterea medie absoluta 𝑒𝑋

𝑒𝑋 =1

𝑛

𝑛∑𝑖=1

|𝑥𝑖 − ��|

∙ mediana 𝑀𝑒 impune ca valorile observate sa fie ordonate crescator siatunci

𝑀𝑒 =

⎧⎪⎨⎪⎩𝑥𝑛+1

2, 𝑛 impar

𝑥𝑛2+𝑥𝑛

2+1

2 , 𝑛 par

∙ cuartilele 𝑄1,𝑄2 = 𝑀𝑒 si 𝑄3 impart seria statistica in patru parti cuefective egale (dupa ordonare) iar abaterea cuartilica 𝑄 = 𝑄3 −𝑄1

=⇒ daca n este impar atunci 𝑄2 = 𝑀𝑒 si se adauga 𝑀𝑒 la ambele jumatatiformate, apoi 𝑄1 este mediana primei jumatati si 𝑄3 a celei de-a doua

∙ amplitudinea absoluta 𝜔𝑋

𝜔𝑋 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛

∙ momentele centrate de ordin k 𝜇𝑘

𝜇𝑘 =1

𝑛

𝑛∑𝑖=1

(𝑥𝑖 − ��)𝑘

∙ coeficientul de asimetrie al lui K. Pearson (skewness) 𝛽1

𝛽1 =𝜇3

(𝑠2)3=

𝜇3

𝜇32

∙ coeficientul de asimetrie a lui R. Fisher 𝛾1

𝛾1 =√𝛽1

∙ coeficientul de aplatizare Pearson (kurtosis)

𝛽2 =𝜇4

𝜇22

∙ coeficientul de aplatizare a lui Fisher

𝛾2 = 𝛽2 − 3

5

Page 6: Statistica descriptiva...3.realizam un sistem de ecuatii pornind de la presupunerea ca momentele populatiei sunt egale cu cele ale esantionului , siexprimam din aceste ecuatii parametrul

Metode de estimare a parametrilor

∙ distributia lui 𝑋 depinde uneori de un parametru necunoscut, notat 𝜃, incontext general

∙ spre exemplu, o distributie binomiala 𝐵𝑖𝑛(𝑛, 𝑝) depinde de parametrii 𝑛 si𝑝, notam 𝜃 = (𝜃1, 𝜃2) = (𝑛, 𝑝), iar una exponentiala 𝐸𝑥𝑝(𝜆) de parametrul 𝜃 = 𝜆

∙ vom incepe sa prezentam metode de estimare a parametrilor repartiti-ilor variabilelor aleatoare: metoda momentelor, metoda verosimilitatii maxime,metoda intervalelor de incredere, metoda celor mai mici patrate

Metoda momentelor

∙ metoda momentelor este o metoda de estimare a parametrilor unei distribu-tii corespunzatoare variabilei 𝑋, care masoara caracteristica comuna populatieistatistice 𝒫

∙ metoda este bazata pe presupunerea ca momentele esantionului sunt esti-matori buni pentru momentele corespunzatoare populatiei.

∙ pentru o populatie 𝒫 momentele 𝑀𝑘 de ordin 𝑘 sunt definite prin expresiile

𝑀𝑘(𝑋) = 𝑀(𝑋𝑘) =

⎧⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎩

∞∫−∞

𝑥𝑘 · 𝑓(𝑥)𝑑𝑥, daca 𝑋 este continua

∑𝑖∈𝐼

𝑥𝑘𝑖 · 𝑝𝑖, daca 𝑋 este discreta

∙ momentele de ordin 𝑘 ale esantionului, notate 𝑚𝑘, pentru un esantion devolum 𝑛 sunt

𝑚𝑘 =1

𝑛

𝑛∑𝑖=1

𝑋𝑘𝑖

∙ estimarea prin metoda momentelor pur si simplu presupune egale celedoua tipuri de momente 𝑀𝑘 = 𝑚𝑘 si urmareste apoi aflarea parametrilor lipsa(distributia trebuie sa aiba momente finite)

∙ metoda momentelor presupune urmatorii pasi

1. vrem sa estimam un parametru 𝜃

2. calculam momente de ordin mic 𝑀𝑘 ca functii de 𝜃

3. realizam un sistem de ecuatii pornind de la presupunerea ca momentelepopulatiei 𝑀𝑘 sunt egale cu cele ale esantionului 𝑚𝑘, si exprimam dinaceste ecuatii parametrul ca functii de momentele esantionului 𝑚𝑘.

Fie 𝑋1, 𝑋2, . . . 𝑋𝑛 un esantion dintr-o populatie care are o distributie bi-nomiala 𝑋 ∼ 𝐵𝑖(𝑛0, 𝑝) cu parametrii 𝑛0 si 𝑝. Vom estima acesti parametrifolosind metoda momentelor.

Exemplu

6

Page 7: Statistica descriptiva...3.realizam un sistem de ecuatii pornind de la presupunerea ca momentele populatiei sunt egale cu cele ale esantionului , siexprimam din aceste ecuatii parametrul

Deoarece

𝑀(𝑋) = 𝑛0 · 𝑝 (vezi fisa variabile aleatoare discrete)

si𝐷2(𝑋) = 𝑛0𝑝(1 − 𝑝)

obtinem:

𝑀2(𝑋) = 𝑀(𝑋2) = 𝐷2(𝑋) + 𝑀(𝑋)2 = 𝑛0𝑝(1 − 𝑝) + 𝑛20𝑝

2,

putem scrie 𝑛0𝑝(1 − 𝑝) = 𝑀2(𝑋) −𝑀(𝑋)2.Egaland

𝑀(𝑋) = 𝑚1

(=

𝑋1 + 𝑋2 + . . . + 𝑋𝑛

𝑛

)si

𝑀2(𝑋) = 𝑚2

(=

𝑋21 + 𝑋2

2 + . . . + 𝑋2𝑛

𝑛

)se poate observa ca

1 − 𝑝 =𝑚2 −𝑚2

1

𝑚1

astfel

𝑝⋆ =𝑚1 + 𝑚2

1 −𝑚2

𝑚1

poate fi folosit ca un estimator pentru parametrul 𝑝.In acelasi context

𝑛⋆0 =

𝑚1

𝑝=

𝑚21

𝑚1 + 𝑚21 −𝑚2

.

este un estimator, obtinut prin metoda momentelor, pentru 𝑛0. �

Metoda verosimilitatii maxime

∙ se supune investigatiei statistice o caracteristica a unei populatii, masuratade o variabila aleatoare 𝑋, a carei densitate de probabilitate 𝑓(𝑥, 𝜃) depinde deun parametru necunoscut 𝜃

∙ se investigheaza un esantion de volum 𝑛 si se inregistreaza valorile deobservatie 𝑥1, 𝑥2, . . . , 𝑥𝑛, care vor fi considerate ca fiind valori ale unor variabileindependente 𝑋1, 𝑋2, . . . , 𝑋𝑛 cu aceasi distributie ca si 𝑋

∙ se defineste functia de verosimilitate

𝐿(𝜃) = 𝑓(𝑥1, 𝜃) · 𝑓(𝑥2, 𝜃) · . . . · 𝑓(𝑥𝑛, 𝜃)

iar metoda verosimilitatii maxime presupune ca estimatorul 𝜃⋆ al lui 𝜃 (uneori

notat 𝜃) este acea valoare care maximizeaza functia de verosimilitate 𝐿∙ se foloseste des notatia 𝜃⋆ = arg max

𝜃𝐿(𝜃)

7

Page 8: Statistica descriptiva...3.realizam un sistem de ecuatii pornind de la presupunerea ca momentele populatiei sunt egale cu cele ale esantionului , siexprimam din aceste ecuatii parametrul

∙ daca 𝑋 este discreta atunci datorita independentei variabilelor 𝑋1, 𝑋2, . . . 𝑋𝑛

functia de verosimilitate este

𝐿(𝜃) = 𝑃 (𝑋1 = 𝑥1) · 𝑃 (𝑋2 = 𝑥2) · . . . · 𝑃 (𝑋𝑛 = 𝑥𝑛)

asadar 𝜃⋆ este acea valoare care maximizeaza probabilitatea de aparitie a valo-rilor observate 𝑥1, 𝑥2, . . . , 𝑥𝑛

∙ in formula de mai sus fiecare probabilitate va depinde de parametrul 𝜃chiar daca nu este specificat acest lucru

∙ daca 𝑋 este continua si 𝐿 este derivabila atunci putem gasi usor valorile𝜃⋆, care maximizeaza 𝐿, cautand printre punctele critice ale lui 𝐿

𝜕𝐿

𝜕𝜃= 0 (ecuatia de verosimilitate)

∙ de obicei se aplica urmatorul truc: punctele care maximizeaza 𝐿(𝜃) seafla printre cele care maximizeaza ln𝐿(𝜃), care insa are o expresie mai usor demanevrat

𝜕𝐿

𝜕𝜃= 0 =⇒ 𝜕 ln𝐿

𝜕𝜃= 0 ⇐⇒

𝑛∑𝑖=1

𝜕 ln 𝑓(𝑥𝑖, 𝜃)

𝜕𝜃= 0

∙ daca 𝜃 = (𝜃1, 𝜃2) atunci ecuatia anterioara devine

𝑛∑𝑖=1

∇𝜃 ln 𝑓(𝑥𝑖, 𝜃) = 0 unde ∇𝜃 =

⎛⎝ 𝜕𝜕𝜃1

𝜕𝜕𝜃2

⎞⎠ este gradientul

Consideram o populatie formata dintr-un tip de circuite. Presupunem castim deja ca o caracterista a populatiei (de exemplu durata de viata a cir-cuitelor) este modelata printr-o variabila aleatoare 𝑋 care are o distributieexponentiala de parametru 𝜆, insa nu cunoastem acest parametru. Putemsa-l aproximam folosind metoda verosimilitatii maxime. Facem o selectie𝑥1, 𝑥2, . . . , 𝑥𝑛 din acea populatie (masurand durata de viata) si reamintimca o distributie exponentiala are densitatea de probabilitate

𝑓(𝑥, 𝜆) =

{𝜆𝑒−𝜆𝑥, 𝑥 ≥ 0

0, in rest

Folosim notatiile de mai sus si notam cu 𝜃 = 𝜆 parametrul care trebuieestimat. Construim functia de verosimilitate

𝐿(𝜃) = 𝑓(𝑥1, 𝜃) · 𝑓(𝑥2, 𝜃) · . . . · 𝑓(𝑥𝑛, 𝜃) = 𝜃𝑒−𝜃𝑥1 · 𝜃𝑒−𝜃𝑥2 · . . . · 𝜃𝑒−𝜃𝑥𝑛

iar dupa logaritmare ecuatia de verosimilitate devine

𝑛∑𝑖=1

𝜕 ln 𝑓(𝑥𝑖, 𝜃)

𝜕𝜃=

𝑛

𝜃−

𝑛∑𝑖=1

𝑥𝑖 = 0

Exemplu

8

Page 9: Statistica descriptiva...3.realizam un sistem de ecuatii pornind de la presupunerea ca momentele populatiei sunt egale cu cele ale esantionului , siexprimam din aceste ecuatii parametrul

asadar 𝜃⋆ =𝑛

𝑛∑𝑖=1

𝑥𝑖

si prin urmare inversa mediei selectiei este un estimator

de verosimilitate maxima pentru 𝜆. �

Probleme rezolvate

Problema 1. Calculati cuartilele 𝑄1, 𝑄2, 𝑄3 pentru urmatoarea seriestatistica simpla

𝑋 : 1, 2, 5, 7, 11, 21, 22, 23, 29

si abaterea cuartilica.

Solutie: Facem mai ıntai observatia ca mediana 𝑀𝑒 coincide cu cuartila 𝑄2.Valorile seriei sunt deja ordonate crescator, deci nu mai trebuie sa le ordonam,inainte de a identifica mediana.

Deoarece seria statistica data are un numar impar de termeni (9 mai exact),vom folosi formula corespunzatoare pentru a determina cuartila 𝑄2 si avem

𝑥 9+12

= 𝑥5 = 11 ⇒ 𝑀𝑒 = 𝑄2 = 11.

Mai departe pentru a determina prima cuartila tinem cont de seria statisticasimpla

1, 2, 5, 7, 11

care are tot un numar impar de termeni si obtinem

𝑥 5+12

= 𝑥3 = 5 ⇒ 𝑄1 = 5.

Analog procedam pentru a treia cuartila tinand cont de seria statistica simpla

11, 21, 22, 23, 29

care are tot un numar impar de termeni si rezulta

𝑥 5+12

= 𝑥3 = 22 ⇒ 𝑄3 = 22.

Atunci rezulta ca abaterea cuartilica este

𝑄 = 𝑄3 −𝑄1 = 22 − 5 = 17.

Problema 2. Fie seria statistica

𝑋 : 1, 5, 4, 20, 3, 16.

Determinati:a) Amplitudinea absoluta 𝜔𝑋 .b) Abaterea medie absoluta 𝑒𝑋 .c) Dispersia de selectie 𝑠2.d) Deviatia standard 𝑠.e) Coeficientul de variatie 𝑐𝑣.

9

Page 10: Statistica descriptiva...3.realizam un sistem de ecuatii pornind de la presupunerea ca momentele populatiei sunt egale cu cele ale esantionului , siexprimam din aceste ecuatii parametrul

Solutie: a) Amplitudinea absoluta 𝜔𝑋 este

𝜔𝑋 = 𝑥max − 𝑥min = 20 − 1 = 19.

b) Abaterea medie absoluta 𝑒𝑋 se obtine astfel

𝑒𝑋 =|1 − 𝑥| + |5 − 𝑥| + |4 − 𝑥| + |20 − 𝑥| + |3 − 𝑥| + |16 − 𝑥|

6,

unde media 𝑥 este

𝑥 =1 + 5 + 4 + 20 + 3 + 16

6= 8, 16.

Atunci rezulta𝑒𝑋 ≃ 6, 55.

c) Dispersia de selectie este

𝑠2 =1

6

6∑𝑖=1

(𝑥𝑖 − 𝑥)2

=1

6

(7, 162 + 3, 162 + 4, 162 + 11, 842 + 5, 162 + 7, 842

)= 51, 138 ≃ 51.

d) Deviatia standard rezulta imediat de mai sus

𝑠 =√𝑠2 =

√51 = 7, 14 ≃ 7.

e) Din cele de mai sus, rezulta coeficientul de variatie

𝑐𝑣 =𝑠

𝑥= 0, 8578.

Problema 3. Fie 𝑋1, 𝑋2, ..., 𝑋𝑛 variabile aleatoare normal distribuite cumedia 𝑚 si dispersia 𝜎2. Care sunt estimarile date de metoda momentelorpentru media 𝑚 si dispersia 𝜎2?

Solutie: Momentele de ordin 1 si 2, corespunzatoare lui 𝑋, sunt date prin𝑀1(𝑋) = 𝑀(𝑋) = 𝑚 si 𝑀2(𝑋) = 𝑀(𝑋2) = 𝑚2 + 𝜎2, intrucat prin definitie𝜎2 = 𝑀(𝑋2) −𝑀(𝑋)2. Ramane sa afisam momentele esantionului, si anume

𝑚1 =1

𝑛

𝑛∑𝑖=1

𝑋𝑖 si 𝑚2 =1

𝑛

𝑛∑𝑖=1

𝑋2𝑖

apoi metoda momentelor presupune sa le consideram egale

𝑀1 = 𝑚1 si 𝑀2 = 𝑚2

Pentru a obtine estimatorii pentru 𝑚 si 𝜎2 prin metoda momentelor, va trebuisa exprimam acesti parametrii ca functii de 𝑚1 si 𝑚2. Se obtine imediat

𝑚⋆ =1

𝑛

𝑛∑𝑖=1

𝑋𝑖

10

Page 11: Statistica descriptiva...3.realizam un sistem de ecuatii pornind de la presupunerea ca momentele populatiei sunt egale cu cele ale esantionului , siexprimam din aceste ecuatii parametrul

si

𝜎⋆2 =1

𝑛

𝑛∑𝑖=1

𝑋2𝑖 −

(1

𝑛

𝑛∑𝑖=1

𝑋𝑖

)2

=

𝑛∑𝑖=1

(𝑋𝑖 − ��)2

𝑛

Se poate constata ca estimatorul obtinut prin metoda momentelor pentru 𝜎2 nueste nedeplasat (vezi curs), caci 𝑀(𝜎⋆2) = 𝜎2. Un estimator elementar pentru𝜎2, care sa fie nedeplasat, se construieste usor prin

𝜎⋆2 =

𝑛∑𝑖=1

(𝑋𝑖 − ��)2

𝑛− 1

si formula trimite la dispersia de selectie 𝑠2.

Probleme propuse

Problema 1. 𝑋1, 𝑋2, . . . 𝑋𝑛 reprezinta o selectie dintr-o populatie 𝒫, a careicaracteristica comuna este masurata de 𝑋 cu o distributie Poisson, adica cufunctia de probabilitate

𝑝(𝑘, 𝜆) = 𝑃 (𝑋 = 𝑘) =

{𝜆𝑘

𝑘! 𝑒−𝜆, daca 𝑘 = 0, 1, . . .

0, altfel

Estimati parametrul 𝜆 folosind metoda momentelor.

Problema 2. Fie (𝑋1, 𝑋2, . . . 𝑋𝑛) o selectie aleatoare a unei variabile aleatoare𝑋 cu densitatea de probabilitate

𝑓(𝑥, 𝜃) =

{(2𝜃 + 1)𝑥2𝜃, 0 ≤ 𝑥 ≤ 1

0, in rest

Aflati un estimator de verosimilitate maxima a lui 𝜃.

Problema 3. Pentru seria statistica

𝑋 : 1, 1, 2, 2, 2, 1, 3, 1, 2, 4

aflati dispersia de selectie, coeficientii Pearson de asimetrie si aplatizare, cuar-tilele si coeficientul de variatie.

Problema 4. Folositi metoda verosimilitatii maxime pentru a estima media 𝑚si dispersia 𝜎2 unei selectii aleatoare 𝑋1, 𝑋2, . . . , 𝑋𝑛 normal si identic distribuitecu 𝑋.

11

Page 12: Statistica descriptiva...3.realizam un sistem de ecuatii pornind de la presupunerea ca momentele populatiei sunt egale cu cele ale esantionului , siexprimam din aceste ecuatii parametrul

12

Page 13: Statistica descriptiva...3.realizam un sistem de ecuatii pornind de la presupunerea ca momentele populatiei sunt egale cu cele ale esantionului , siexprimam din aceste ecuatii parametrul

Bibliografie

[1] R. Negrea. Note de curs MS, 2020.

[2] E. Petrisor. Note de curs Probabilitati si statistica, 2016.

[3] A. Srivastava si E. Klassen Functional and Shape Data Analysis, Springer-Verlag, New York, 2016.