βThere are three kinds of lies: lies, damned lies and statistics.β
Mark Twain
12Statistica descriptiva
Recunoasterea formelor
Dezvoltarea tehnologiei a condus la generarea unui volum imens de date.Aceste date de volum urias ascund informatie care trebuie extrasa si utilizatapentru a facilita avansul in domeniile respective. Deep learning, data mining,data science sau big data sunt domenii noi care au aparut si s-au dezvoltatpe masura ce a avansat tehnologia sistemelor de calcul. In aceste circumstante,analiza formelor a devenit in ultimii ani unul dintre cele mai active domeniide cercetare. Intr-o lume in care inteligenta artificiala sau masinile autonomesunt deja o realitate, apare necesitatea recunoasterii obiectelor prin intermediulformelor sale.
Cea mai naturala metoda de modelare matematica a unei forme pare a fi ceain care conturul formei este exprimat prin intermediul unei curbe plane inchise
1
π : [π, π] β R2, π(π) = π(π). O forma trebuie sa fie invarianta la translatii:oriunde este mutata forma pe ecran va avea acelasi contur. Trebuie sa avemo invarianta la scalari: daca marim imaginea, conturul va ramane neschimbat.In acelasi timp si o invarianta la rotatii este de dorit: evident rotind un conturacesta nu se deformeaza. Prin urmare, din punct de vedere matematic, o formaeste de fapt reprezentata printr-o multime de curbe
[π] = {π£ + ππ΄π : π£ β R2, π β π + si π΄ o matrice de rotatie}
unde π£ este vectorul care realizeaza translatia, π scaleaza si π΄ roteste conturul.Am omis invarianta la reparametrizari, care poate fi rezolvata considerand aceaparametrizare a curbei pentru care βπβ²(π‘)β = 1. In cuvinte, definitia de mai susspune ca prin forma intelegem o curba inchisa π, impreuna cu orice alta curbaobtinuta prin translatarea acesteia, scalarea, rotirea sau reparametrizarea ei.Clasele de resturi, modulo 3 de exemplu, sunt construite dupa acelasi principiu
1 = {1 + 3π : π β Z}
Stim ca in clasa lui 1 se afla toate numerele intregi care dau restul 1 prin im-partire la 3. Tradus matematic inseamna o multime infinita de numere intregiobtinute translatand, pe axa numerelor reale, numarul 1 cu vectori de lungime3π unitati, π β Z.
In ilustratia de mai jos siluetele a 10 masini sunt afisate. Aceste siluete suntinregistrate de catre o camera fixa la unghiuri de 0β, 50β, 90β si respectiv 180β.Marcile carora le corespund sunt: Avalon, Camry, Jeep93, Jeep99, Maxima,MazdaMPV, Mitsubishi, Sentra, Tacoma, TaurusSE96 si Civic4dr.
Daca putem defini o functie π care sa calculeze distante intre contururi,masurand cat de mult difera doua curbe inchise, atunci problema identificariiobiectelor pare usor de solutionat. Nu trebuie decat sa gasim valorile cele mai
2
mici ale expresiei π ([π] π‘ππ π‘ , [π] πππ§π ππ πππ‘π ). O astfel de functie distanta este,in general, foarte sensibila la variatii ale curbelor si returneaza si multe rezul-tate nesatisfacatoare. Cele mai apropiate contururi pot apartine unor modelediferite, ducand la erori in clasificarea siluetelor noi.
In practica pentru identificarea formelor se recurge deseori la o abordarecare presupune crearea unor modele statistice si probabiliste. Sa presupunemca avem doar doua populatii de siluete, apartinand unor marci notate π1 si π2.Acestea au fost obtinute prin observarea si inregistrarea unor siluete apartinandacestor marci. Din punctul de vedere al unei camere de supraveghere, de exem-plu, anumite siluete vor aparea mai des decat altele si ideea este sa construimun model probabilist prin definirea unor densitati de probabilitate π(π₯, π1) siπ(π₯, π2), care sa conduca la probabilitati mari pentru siluetele cele mai frecventesi respectiv probabilitati mici pentru cele mai putin frecvente. Daca revenimla ilustratia cu cele 10 marci de masini, vor fi memorate siluete din diversealte unghiuri. Aceste densitati sunt apoi estimate, de exemplu putem estimaparametrii necunoscuti prin metoda verosimilitatii maxime, si vom obtine esti-matorii πβ1 si πβ2 . Acest proces de estimare a densitatilor se numeste learning.
Apoi, dupa ce am obtinut un model probabilist pentru fiecare populatiede siluete, apare problema clasificarii unei siluete π¦, nou aparute, in una din-tre aceste doua clase (populatii). Problema generala presupune evident maimulte clase existente (cladire, silueta umana, masina, etc) dar ne rezumamaici la testarea apartenentei unei siluete π¦ la cel doua clase de masini π1 siπ2. Deaorece in practica ambele densitati de probabilitate pot fi considerategaussiene, cu parametrii diferiti πβ1 si πβ2 , aceasta testare se poate face prin tes-tul raportului de verosimilitate. Mai precis, se definesc doua ipoteze
π»1 : silueta apartine marcii π1 cu distributia data de π(π₯, πβ1)
π»2 : silueta apartine marcii π2 cu distributia data de π(π₯, πβ2)
si raportul de verosimilitate
π =πΏ(πβ1 , π¦)
πΏ(πβ2 , π¦)
unde πΏ este functia de verosimilitate corespunzatoare unei selectii. Se respingeipoteza π»1 daca π < 1 si se accepta daca π > 1.
3
Statistica descriptiva
β investigarea statistica consta in a studia o caracteristica comuna a uneimultimi de elemente de aceeasi natura, numita populatie
β caracteristica comuna a indivizilor populatiei este masurata de o variabilaaleatoare π
β elementele unei populatii se numesc generic, indivizi.β scopul investigatiei statistice este de a extrage informatii despre caracter-
istica populatiei, investigand doar un esantion constand din π indivizi (volumulesantionului), selectati la intamplare.
Observand sau masurand caracteristica indivizilor dintr-un esantion, seobtine un sir de valori, π₯1, π₯2 . . .π₯π, interpretate ca valori de observatieasupra variabilei aleatoare π. Se considera ca rezultatul investigarii unuiindivid este independent de cele ale investigarii celorlalti, de aceea valorileinregistrate π₯1, π₯2 . . .π₯π sunt interpretate ca valori de observatie asupraunui sir de variabile aleatoare, π1, π2 . . . ππ independente si identic dis-tribuite ca variabila aleatoare π, ce modeleaza caracteristica investigata.
Remarca
β in multe din aplicatiile statisticii matematice se presupune ca variabilaaleatoare π are o distributie cunoscuta ce depinde de anumiti parametrii ne-cunoscuti π
=β vom studia metode de estimare a acestor parametrii in sectiunile
urmatoare ale fisei
β daca π« este o populatie supusa investigarii statistice, din punct de vedere alunei caracteristici, atunci perechea (π, π(π₯, π)) (sau (π, π(π₯, π)) in cazul discret)se numeste model statistic
β daca (π, π(π₯, π)) este modelul statistic asociat unei variabile aleatoareatunci vectorul aleator (π1, π2, . . . , ππ) se numeste selectie aleatoare
β o functie reala continua de aceste variabile, π = π(π1, π2, . . . , ππ) este ovariabila aleatore numita statistica
β distributia de probabilitate a variabilei π se numeste distributia de selectiea statisticii
Masuri descriptive ale datelor statistice
β pentru analiza datelor statistice pot fi utilizate diferite tehnici de reprezentaregrafica insa pentru o analiza detaliata este nevoie de asocierea unor valori nu-merice reprezentative (indicatori statistici) acestor date
β in cele ce urmeza datele referitoare la o caracteristica a unei populatii vorfi afisate sub forma
π : π₯1, π₯2, . . . , π₯π
si o vom numi serie statistica simpla
4
β media de selectie οΏ½οΏ½ este
οΏ½οΏ½ =π₯1 + π₯2 + . . . + π₯π
π
β dispersia de selectie π 2 este definita prin
π 2 =1
πβ 1
πβπ=1
(π₯π β οΏ½οΏ½)2
β deviatia standard π , este evident
π =
β―βΈβΈβ· 1
πβ 1
πβπ=1
(π₯π β οΏ½οΏ½)2
β coeficientul de variatie ππ£
ππ£ =π
οΏ½οΏ½
β abaterea medie absoluta ππ
ππ =1
π
πβπ=1
|π₯π β οΏ½οΏ½|
β mediana ππ impune ca valorile observate sa fie ordonate crescator siatunci
ππ =
β§βͺβ¨βͺβ©π₯π+1
2, π impar
π₯π2+π₯π
2+1
2 , π par
β cuartilele π1,π2 = ππ si π3 impart seria statistica in patru parti cuefective egale (dupa ordonare) iar abaterea cuartilica π = π3 βπ1
=β daca n este impar atunci π2 = ππ si se adauga ππ la ambele jumatatiformate, apoi π1 este mediana primei jumatati si π3 a celei de-a doua
β amplitudinea absoluta ππ
ππ = π₯πππ₯ β π₯πππ
β momentele centrate de ordin k ππ
ππ =1
π
πβπ=1
(π₯π β οΏ½οΏ½)π
β coeficientul de asimetrie al lui K. Pearson (skewness) π½1
π½1 =π3
(π 2)3=
π3
π32
β coeficientul de asimetrie a lui R. Fisher πΎ1
πΎ1 =βπ½1
β coeficientul de aplatizare Pearson (kurtosis)
π½2 =π4
π22
β coeficientul de aplatizare a lui Fisher
πΎ2 = π½2 β 3
5
Metode de estimare a parametrilor
β distributia lui π depinde uneori de un parametru necunoscut, notat π, incontext general
β spre exemplu, o distributie binomiala π΅ππ(π, π) depinde de parametrii π siπ, notam π = (π1, π2) = (π, π), iar una exponentiala πΈπ₯π(π) de parametrul π = π
β vom incepe sa prezentam metode de estimare a parametrilor repartiti-ilor variabilelor aleatoare: metoda momentelor, metoda verosimilitatii maxime,metoda intervalelor de incredere, metoda celor mai mici patrate
Metoda momentelor
β metoda momentelor este o metoda de estimare a parametrilor unei distribu-tii corespunzatoare variabilei π, care masoara caracteristica comuna populatieistatistice π«
β metoda este bazata pe presupunerea ca momentele esantionului sunt esti-matori buni pentru momentele corespunzatoare populatiei.
β pentru o populatie π« momentele ππ de ordin π sunt definite prin expresiile
ππ(π) = π(ππ) =
β§βͺβͺβͺβͺβͺβͺβ¨βͺβͺβͺβͺβͺβͺβ©
ββ«ββ
π₯π Β· π(π₯)ππ₯, daca π este continua
βπβπΌ
π₯ππ Β· ππ, daca π este discreta
β momentele de ordin π ale esantionului, notate ππ, pentru un esantion devolum π sunt
ππ =1
π
πβπ=1
πππ
β estimarea prin metoda momentelor pur si simplu presupune egale celedoua tipuri de momente ππ = ππ si urmareste apoi aflarea parametrilor lipsa(distributia trebuie sa aiba momente finite)
β metoda momentelor presupune urmatorii pasi
1. vrem sa estimam un parametru π
2. calculam momente de ordin mic ππ ca functii de π
3. realizam un sistem de ecuatii pornind de la presupunerea ca momentelepopulatiei ππ sunt egale cu cele ale esantionului ππ, si exprimam dinaceste ecuatii parametrul ca functii de momentele esantionului ππ.
Fie π1, π2, . . . ππ un esantion dintr-o populatie care are o distributie bi-nomiala π βΌ π΅π(π0, π) cu parametrii π0 si π. Vom estima acesti parametrifolosind metoda momentelor.
Exemplu
6
Deoarece
π(π) = π0 Β· π (vezi fisa variabile aleatoare discrete)
siπ·2(π) = π0π(1 β π)
obtinem:
π2(π) = π(π2) = π·2(π) + π(π)2 = π0π(1 β π) + π20π
2,
putem scrie π0π(1 β π) = π2(π) βπ(π)2.Egaland
π(π) = π1
(=
π1 + π2 + . . . + ππ
π
)si
π2(π) = π2
(=
π21 + π2
2 + . . . + π2π
π
)se poate observa ca
1 β π =π2 βπ2
1
π1
astfel
πβ =π1 + π2
1 βπ2
π1
poate fi folosit ca un estimator pentru parametrul π.In acelasi context
πβ0 =
π1
π=
π21
π1 + π21 βπ2
.
este un estimator, obtinut prin metoda momentelor, pentru π0. οΏ½
Metoda verosimilitatii maxime
β se supune investigatiei statistice o caracteristica a unei populatii, masuratade o variabila aleatoare π, a carei densitate de probabilitate π(π₯, π) depinde deun parametru necunoscut π
β se investigheaza un esantion de volum π si se inregistreaza valorile deobservatie π₯1, π₯2, . . . , π₯π, care vor fi considerate ca fiind valori ale unor variabileindependente π1, π2, . . . , ππ cu aceasi distributie ca si π
β se defineste functia de verosimilitate
πΏ(π) = π(π₯1, π) Β· π(π₯2, π) Β· . . . Β· π(π₯π, π)
iar metoda verosimilitatii maxime presupune ca estimatorul πβ al lui π (uneori
notat π) este acea valoare care maximizeaza functia de verosimilitate πΏβ se foloseste des notatia πβ = arg max
ππΏ(π)
7
β daca π este discreta atunci datorita independentei variabilelor π1, π2, . . . ππ
functia de verosimilitate este
πΏ(π) = π (π1 = π₯1) Β· π (π2 = π₯2) Β· . . . Β· π (ππ = π₯π)
asadar πβ este acea valoare care maximizeaza probabilitatea de aparitie a valo-rilor observate π₯1, π₯2, . . . , π₯π
β in formula de mai sus fiecare probabilitate va depinde de parametrul πchiar daca nu este specificat acest lucru
β daca π este continua si πΏ este derivabila atunci putem gasi usor valorileπβ, care maximizeaza πΏ, cautand printre punctele critice ale lui πΏ
ππΏ
ππ= 0 (ecuatia de verosimilitate)
β de obicei se aplica urmatorul truc: punctele care maximizeaza πΏ(π) seafla printre cele care maximizeaza lnπΏ(π), care insa are o expresie mai usor demanevrat
ππΏ
ππ= 0 =β π lnπΏ
ππ= 0 ββ
πβπ=1
π ln π(π₯π, π)
ππ= 0
β daca π = (π1, π2) atunci ecuatia anterioara devine
πβπ=1
βπ ln π(π₯π, π) = 0 unde βπ =
ββ πππ1
πππ2
ββ este gradientul
Consideram o populatie formata dintr-un tip de circuite. Presupunem castim deja ca o caracterista a populatiei (de exemplu durata de viata a cir-cuitelor) este modelata printr-o variabila aleatoare π care are o distributieexponentiala de parametru π, insa nu cunoastem acest parametru. Putemsa-l aproximam folosind metoda verosimilitatii maxime. Facem o selectieπ₯1, π₯2, . . . , π₯π din acea populatie (masurand durata de viata) si reamintimca o distributie exponentiala are densitatea de probabilitate
π(π₯, π) =
{ππβππ₯, π₯ β₯ 0
0, in rest
Folosim notatiile de mai sus si notam cu π = π parametrul care trebuieestimat. Construim functia de verosimilitate
πΏ(π) = π(π₯1, π) Β· π(π₯2, π) Β· . . . Β· π(π₯π, π) = ππβππ₯1 Β· ππβππ₯2 Β· . . . Β· ππβππ₯π
iar dupa logaritmare ecuatia de verosimilitate devine
πβπ=1
π ln π(π₯π, π)
ππ=
π
πβ
πβπ=1
π₯π = 0
Exemplu
8
asadar πβ =π
πβπ=1
π₯π
si prin urmare inversa mediei selectiei este un estimator
de verosimilitate maxima pentru π. οΏ½
Probleme rezolvate
Problema 1. Calculati cuartilele π1, π2, π3 pentru urmatoarea seriestatistica simpla
π : 1, 2, 5, 7, 11, 21, 22, 23, 29
si abaterea cuartilica.
Solutie: Facem mai Δ±ntai observatia ca mediana ππ coincide cu cuartila π2.Valorile seriei sunt deja ordonate crescator, deci nu mai trebuie sa le ordonam,inainte de a identifica mediana.
Deoarece seria statistica data are un numar impar de termeni (9 mai exact),vom folosi formula corespunzatoare pentru a determina cuartila π2 si avem
π₯ 9+12
= π₯5 = 11 β ππ = π2 = 11.
Mai departe pentru a determina prima cuartila tinem cont de seria statisticasimpla
1, 2, 5, 7, 11
care are tot un numar impar de termeni si obtinem
π₯ 5+12
= π₯3 = 5 β π1 = 5.
Analog procedam pentru a treia cuartila tinand cont de seria statistica simpla
11, 21, 22, 23, 29
care are tot un numar impar de termeni si rezulta
π₯ 5+12
= π₯3 = 22 β π3 = 22.
Atunci rezulta ca abaterea cuartilica este
π = π3 βπ1 = 22 β 5 = 17.
Problema 2. Fie seria statistica
π : 1, 5, 4, 20, 3, 16.
Determinati:a) Amplitudinea absoluta ππ .b) Abaterea medie absoluta ππ .c) Dispersia de selectie π 2.d) Deviatia standard π .e) Coeficientul de variatie ππ£.
9
Solutie: a) Amplitudinea absoluta ππ este
ππ = π₯max β π₯min = 20 β 1 = 19.
b) Abaterea medie absoluta ππ se obtine astfel
ππ =|1 β π₯| + |5 β π₯| + |4 β π₯| + |20 β π₯| + |3 β π₯| + |16 β π₯|
6,
unde media π₯ este
π₯ =1 + 5 + 4 + 20 + 3 + 16
6= 8, 16.
Atunci rezultaππ β 6, 55.
c) Dispersia de selectie este
π 2 =1
6
6βπ=1
(π₯π β π₯)2
=1
6
(7, 162 + 3, 162 + 4, 162 + 11, 842 + 5, 162 + 7, 842
)= 51, 138 β 51.
d) Deviatia standard rezulta imediat de mai sus
π =βπ 2 =
β51 = 7, 14 β 7.
e) Din cele de mai sus, rezulta coeficientul de variatie
ππ£ =π
π₯= 0, 8578.
Problema 3. Fie π1, π2, ..., ππ variabile aleatoare normal distribuite cumedia π si dispersia π2. Care sunt estimarile date de metoda momentelorpentru media π si dispersia π2?
Solutie: Momentele de ordin 1 si 2, corespunzatoare lui π, sunt date prinπ1(π) = π(π) = π si π2(π) = π(π2) = π2 + π2, intrucat prin definitieπ2 = π(π2) βπ(π)2. Ramane sa afisam momentele esantionului, si anume
π1 =1
π
πβπ=1
ππ si π2 =1
π
πβπ=1
π2π
apoi metoda momentelor presupune sa le consideram egale
π1 = π1 si π2 = π2
Pentru a obtine estimatorii pentru π si π2 prin metoda momentelor, va trebuisa exprimam acesti parametrii ca functii de π1 si π2. Se obtine imediat
πβ =1
π
πβπ=1
ππ
10
si
πβ2 =1
π
πβπ=1
π2π β
(1
π
πβπ=1
ππ
)2
=
πβπ=1
(ππ β οΏ½οΏ½)2
π
Se poate constata ca estimatorul obtinut prin metoda momentelor pentru π2 nueste nedeplasat (vezi curs), caci π(πβ2) = π2. Un estimator elementar pentruπ2, care sa fie nedeplasat, se construieste usor prin
πβ2 =
πβπ=1
(ππ β οΏ½οΏ½)2
πβ 1
si formula trimite la dispersia de selectie π 2.
Probleme propuse
Problema 1. π1, π2, . . . ππ reprezinta o selectie dintr-o populatie π«, a careicaracteristica comuna este masurata de π cu o distributie Poisson, adica cufunctia de probabilitate
π(π, π) = π (π = π) =
{ππ
π! πβπ, daca π = 0, 1, . . .
0, altfel
Estimati parametrul π folosind metoda momentelor.
Problema 2. Fie (π1, π2, . . . ππ) o selectie aleatoare a unei variabile aleatoareπ cu densitatea de probabilitate
π(π₯, π) =
{(2π + 1)π₯2π, 0 β€ π₯ β€ 1
0, in rest
Aflati un estimator de verosimilitate maxima a lui π.
Problema 3. Pentru seria statistica
π : 1, 1, 2, 2, 2, 1, 3, 1, 2, 4
aflati dispersia de selectie, coeficientii Pearson de asimetrie si aplatizare, cuar-tilele si coeficientul de variatie.
Problema 4. Folositi metoda verosimilitatii maxime pentru a estima media πsi dispersia π2 unei selectii aleatoare π1, π2, . . . , ππ normal si identic distribuitecu π.
11
12
Bibliografie
[1] R. Negrea. Note de curs MS, 2020.
[2] E. Petrisor. Note de curs Probabilitati si statistica, 2016.
[3] A. Srivastava si E. Klassen Functional and Shape Data Analysis, Springer-Verlag, New York, 2016.