Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

Iulian STOLERIU

Statistic Aplicat

1 Statistic Aplicat (Laborator 1)

Organizarea ³i reprezentarea datelor statistice

Scurt istoric

Statistica este o ramur a ³tiinµelor ce se preocup de procesul de colectare de date ³i informaµii,de organizarea ³i interpretarea lor, în vederea explic rii unor fenomene reale. În general, prin date(sau date statistice) înµelegem o mulµime de numere ce au o anumit însemn tate. Aceste numerepot � legate între ele sau nu. Suntem interesaµi de studiul acestor date, cu scopul de a înµelegeanumite relaµii între diverse tr s turi ce m soar datele culese. De regul , oamenii au anumiteintuiµii despre realitatea ce ne înconjoar , pe care le doresc a � con�rmate într-un mod cât maiexact. De exemplu, dac într-o anumit zon a µ rii rata somajului este ridicat , este de a³teptatca în acea zon calitatea vieµii persoanelor de acolo s nu �e la standarde ridicate. Totu³i, ne-amdori s �m cât mai preci³i în evaluarea leg turii dintre rata somajului ³i calitatea vieµii, de aceeane-am dori s construim un model matematic ce s ne con�rme intuiµia. Un alt gen de problem :ardem de ner bdare s a� m cine va � noul pre³edinte, imediat ce secµiile de votare au închis porµile(exit-pole). Chestionarea tuturor persoanelor ce au votat, colectarea ³i uni�carea tuturor datelorîntr-un timp record nu este o m sur deloc practic . În ambele probleme menµionate, observaµiile³i culegerea de date au devenit prima treapt spre înµelegerea fenomenului studiat. De cele maimulte ori, realitatea nu poate � complet descris de un astfel de model, dar scopul este de a oferio aproximare cât mai �del ³i cu costuri limitate. În ambele situaµii menµionate apar erori înaproximare, erori care µin de întâmplare. De aceea, ne-am dori s putem descrie aceste fenomenecu ajutorul variabilelor aleatoare. Plecând de la colecµiile de date obµinute dintr-o colectivitate,Statistica introduce metode de predicµie ³i prognoz pentru descrierea ³i analiza propriet µilorîntregii colectivit µi. Aria de aplicabilitate a Statisticii este foarte mare: ³tiinµe exacte sau sociale,umanistic sau afaceri etc. O disciplin strâns legat de Statistic este Econometria. Aceastaramur a Economiei se preocup de aplicaµii ale teoriilor economice, ale Matematicii ³i Statisticiiîn estimarea ³i testarea unor parametri economici, sau în prezicerea unor fenomene economice.

Statistica a ap rut în secolul al XVIII - lea, din nevoile guvernelor de a colecta date desprepopulaµiile pe care le reprezentau sau de a studia mersul economiei locale, în vederea unei maibune administr ri. Datorit originii sale, Statistica este considerat de unii ca �ind o ³tiinµ de sinest t toare, ce utilizeaz aparatul matematic, ³i nu este privit ca o subramur a Matematicii. Darnu numai originile sale au fost motivele pentru care Statistica tinde s devin o ³tiinµ separat de Probabilit µi. Datorit revoluµiei computerelor, Statistica a evoluat foarte mult în direcµiacomputaµional , pe când Teoria Probabilit µilor foarte puµin. A³a cum David Williams scria în[18], "Teoria Probabilit µilor ³i Statistica au fost odat c s torite; apoi s-au separat; în cele dinurm au divorµat. Acum abia c se mai întâlnesc".Din punct de vedere etimologic, cuvântului statistic î³i are originile în expresia latin statisticumcollegium (însemnând consiliul statului) ³i cuvântul italian statista, însemnând om de stat saupolitician. În 1749, germanul Gottfried Achenwall a introdus termenul de Statistik, desemnatpentru a analiza datele referitoare la stat. Mai târziu, în secolul al XIX-lea, Sir John Sinclair aextrapolat termenul la colecµii ³i clasi�c ri de date.

1

Metodele statistice sunt ast zi aplicate într-o gam larg de discipline. Amintim aici doar câtevaexemple:

• în Agricultur , de exemplu, pentru a studia care culturi sunt mai potrivite pentru a � folositepe un anumit teren arabil;

• în Economie, pentru studiul rentabilit µii unor noi produse introduse pe piaµ , pentru core-larea cererii cu ofert , sau pentru a analiza cum se schimb standardele de viaµ ;

• în Biologie, pentru clasi�carea din punct de vedere ³tiinµi�c a unor specii de plante saupentru selectarea unor noi specii;

• în �tiinµele educaµiei, pentru a g si cel mai e�cient mod de lucru pentru elevi sau pentru astudia impactul unor teste naµionale asupra diverselor caregorii de persoane ce lucreaz înînv µ mânt;

• în Meteorologie, pentru a prognoza vremea într-un anumit µinut pentru o perioad de timp,sau pentru a studia efectele înc lzirii globale;

• în Medicin , pentru testarea unor noi medicamente sau vaccinuri;

• în Psihologie, în vederea stabilirii gradului de corelaµie între timiditate ³i singur tate;

• în Politologie, pentru a veri�ca dac un anumit partid politic mai are sprijinul populaµiei;

• în �tiinµele sociale, pentru a studia impactul crizei economice asupra unor anumite clasesociale;

• etc.

Pentru a analiza diverse probleme folosind metode statistice, este nevoie de a identi�ca mai întâicare este colectivitatea asupra c reia se dore³te studiul. Aceast colectivitate (sau populaµie)poate � populaµia unei µ ri, sau numai elevii dintr-o ³coal , sau totalitatea produselor agricolecultivate într-un anumit µinut, sau toate bunurile produse într-o uzin . Dac se dore³te studiulunei tr s turi comune a tuturor membrilor colectivit µii, este de multe ori aproape imposibil dea observa aceast tr s tur la �ecare membru în parte, de aceea este mult mai practic de astrânge date doar despre o submulµime a întregii populaµii ³i de a c uta metode e�ciente de aextrapola aceste observaµii la toat colectivitatea. Exist o ramur a statisticii ce se ocup cudescrierea acestei colecµii de date, numit Statistic descriptiv . Aceast descriere a tr s turilorunei colectivit µi poate � f cut atât numeric (media, dispersia, mediana, cuantile, tendinµe etc),cât ³i gra�c (prin puncte, bare, histograme etc). De asemenea, datele culese pot � procesate într-un anumit fel, încât s putem trage concluzii foarte precise despre anumite tr s turi ale întregiicolectivit µi. Aceast ramur a Statisticii, care trage concluzii despre caracteristici ale întregiicolectivit µi, studiind doar o parte din ea, se nume³te Statistic inferenµial . În contul Statisticiiinferenµiale putem trece ³i urm toarele: luarea de decizii asupra unor ipoteze statistice, descriereagradului de corelare între diverse tipuri de date, estimarea caracteristicilor numerice ale unortr s turi comune întregii colectivit µi, descrierea leg turii între diverse caracteristici etc.

Statistica Matematic este o subramur a Matematicii ce se preocup de baza teoretic abstract a Statisticii. Din datele culese pe cale experimental , Statistica Matematic va c uta s extrag

2

informaµii ³i s le interpreteze. Un cercet tor într-un domeniul teoretic al Statisticii, cum este ³iStatistica Matematic , va c uta s îmbun t µeasc metodele teoretice existente sau s introduc altele noi. Aceasta va utiliza noµiuni din Teoria probabilit µilor, dar ³i noµiuni din alte ramuri aleMatematicii, cum ar �: Algebra liniar , Analiza matematic , Teoria optimiz rii. De asemenea,partea computaµional este deosebit de util în studiul Statisticii moderne, f r de care cercetareaar � îngreunat sau, uneori, chiar imposibil de realizat. În aceast lucrare vom utiliza pachetele deprograme Matlab pentru efectuarea calculelor, în versiunea Matlab 7.1. Acest software esteintrodus ³i dezvoltat de compania The MathWorks (vezi [9]).

Modelare Statistic

De obicei, punctul de plecare este o problem din viaµa real , e.g., care partid are o susµineremai bun din partea populaµiei unei µ ri, dac un anumit medicament este relevant pentru boal pentru care a fost creat, dac este vreo corelaµie între num rul de ore de lumina pe zi ³i depresie.Apoi, trebuie s decidem de ce tipuri date avem nevoie s colect m, pentru a putea da un r spunsla întrebarea ridicat ³i cum le putem colecta. Modurile de colectare a datele pot � diverse: putemface un sondaj de opinie, sau prin experiment, sau prin simpla observare a caracteristicilor. Estenevoie de o metod bine stabilit de colectare a datelor ³i s construim un model statistic potrivitpentru analiza acestora. În general, date culese de noi pot � potrivite într-un model statistic princare

Data observat = f(x, θ) + eroare de aproximare, (1.1)

unde f este o funcµie ce veri�c anumite propriet µi ³i este caracteristic modelului, x este vectorulce conµine variabilele m surate ³i θ e un parametru (sau un vector de parametri), care poate �determinat sau nedeterminat. Termenul de eroare apare deseori în pratic , deoarece unele dateculese au caracter stochastic (nu sunt deterministe). Modelul astfel creat este testat, ³i eventualrevizuit, astfel încât s se potriveasc într-o m sur cât mai precis datelor culese.

De�nim o populaµie (colectivitate) statistic ca �ind o mulµime de elemente ce posed o trasatur comun . Aceasta poate � �nit sau in�nit , real sau imaginar . Elementele ce constituie o colec-tivitate statistic se vor numi unit µi statistice sau indivizi. Volumul unei colectivit µi statisticeeste dat de num rul indivizilor ce o constituie. Caracteristica (variabila) unei populaµii statisticeeste o anumit proprietate urm rit la indivizii ei în procesul prelucr rii statistice. Caracteristi-cile pot �: cantitative (m surabile sau variabile) (e.g., 2, 3, 5, 7, 11, . . . ) ³i calitative (nem surabilesau atribute) (e.g., ro³u, verde, albastru etc). La rândul lor, variabilele cantitative pot � discrete(num rul de sosiri ale unui tramvai în staµie) sau continue (timpul de a³teptare între dou sosiriale tramvaiului în staµie). Caracteristicile pot depinde de unul sau mai multi parametri, parametrii�ind astfel caracteristici numerice ale colectivit µii.Suntem interesaµi în a m sura una sau mai multe variabile relative la o populaµie, îns aceasta s-arputea dovedi o munc extrem de costisitoare, atât din punctul de vedere al timpului necesar, cât³i din punctul de vedere al depozit rii datelor culese, în cazul în care volumul colectivit µii estemare sau foarte mare (e.g., colectivitatea este populaµia cu drept de vot a unei µ ri ³i caracteristicaurm rit este candidatul votat la alegerile prezidenµiale). De aceea, este foarte întemeiat alegereaunei selecµii de date din întreaga populaµie ³i s urm rim ca pe baza datelor selectate s putemtrage o concluzie în ceea ce prive³te variabila colectivit µii.

O selecµie (sau e³antion) este o colectivitate parµial de elemente extrase (la întâmplare sau nu) din

3

colectivitatea general , în scopul cercet rii lor din punctul de vedere al unei caracteristici. Dac extragerea se face la întâmplare, atunci spunem c am facut o selecµie întâmpl toare. Num rulindivizilor din selecµia aleas se va numi volumul selecµiei. Dac se face o enumerare sau o listarea �ec rui element component al unei a populaµii statistice, atunci spunem c am facut un recen-s mânt. Selecµia ar trebui s �e reprezentativ pentru populaµia din care face parte. Numit oselecµie repetat (sau cu repetiµie) o selecµie în urma c reia individul ales a fost reintrodus din nouîn colectivitate. Altfel, avem o selecµie nerepetat . Selecµia nerepetat nu prezint interes dac volumul colectivit µii este �nit, deoarece în acest caz probabilitatea ca un alt individ s �e alesîntr-o extragere nu este aceea³i pentru toµi indivizii colectivit µii. Pe de alt parte, dac volu-mul întregii populaµii statistice este mult mai mare decât cel al e³antionului extras, atunci putempresupune c selecµia efectuat este repetat , chiar dac în mod practic ea este nerepetat . Spreexemplu, dac dorim s facem o prognoz a cine va � noul pre³edinte la alegerile din toamn ,e³antionul ales (de altfel, unul foarte mic comparativ cu volumul populaµiei cu drept de vot) seface, în general, f r repetiµie, dar îl putem considera a � o selecµie repetat , în vederea aplic riitestelor statistice.Selecµiile aleatoare se pot realiza prin diverse metode, în funcµie de urm torii factori: disponibil-itatea informaµiilor necesare, costul operaµiunii, nivelul de precizie al informaµiilor etc. Mai josprezent m câteva metode de selecµie.

• selecµie simpl de un volum dat, prin care toµi indivizii ce compun populaµia au aceea³i³ans de a � ale³i. Aceast metod mininimizeaz riscul de a � p rtinitor sau favorabilunuia dintre indivizi. Totu³i, aceast metod are neajunsul c , în anumite cazuri, nu re�ect componenµa întregii populaµii. Se aplic doar pentru colectivit µi omogene din punctul devedere al tr s turii studiate.

• selecµie sistematic , ce presupune aranjarea populaµiei studiate dup o anumit schem or-donat ³i selectând apoi elementele la intervale regulate. (e.g., alegerea a �ec rui al 10-leanum r dintr-o carte de telefon, primul num r �ind ales la întâmplare (simplu) dintre primele10 din list ).

• selecµie strati�cat , în care populaµia este separat în categorii, iar alegerea se face la întâm-plare din �ecare categorie. Acest tip de selecµie face ca �ecare grup ce compune populaµia s poata � reprezentat în selecµie. Alegerea poate � facut ³i în funcµie de m rimea �ec rui grupce compune colectivitatea total (e.g., aleg din �ecare judeµ un anumit num r de persoane,proporµional cu num rul de persoane din �ecare judeµ).

• selecµie ciorchine, care este un e³antion strati�cat construit prin selectarea de selecµii dinanumite straturi (nu din toate).

• selecµia de tip experienµ , care µine cont de elementul temporal în selecµie. (e.g., diver³i timpide pe o encefalogram ).

• selecµie de convenienµ : de exemplu, alegem dintre persoanele care trec prin faµa universit µii.

• selecµie de judecat : cine face selecµia decide cine ramâne sau nu în selecµie.

• selecµie de cot : selecµia ar trebui s �e o copie a întregii populaµii, dar la o scar mult maimic . A³adar, putem selecta proporµional cu num rul persoanelor din �ecare ras , de �ecare

4

gen, origine etnic etc) (e.g., persoanele din Parlament ar trebui s �e o copie reprezentativ a persoanelor întregii µ ri, într-o scar mult mai mic ).

Organizarea ³i descrierea datelor

Presupunem c avem o colectivitate statistic , c reia i se urm re³te o anumit caracteristic .(e.g., colectivitatea este mulµimea tuturor studenµilor dintr-o universitate înrolaµi într-un anumitan de studii, iar caracteristica este num rul de credite obµinute de studenµi în decursul acelui an).Vom numi date informaµiile obµinute în urma observaµiei valorilor acestei caracteristici. Datelepot � calitative sau cantitative, dup cum caracteristica (sau variabila) observat este calitativ sau, respectiv, cantitativ . Aceste date pot � date discrete, dac sunt obµinute în urma observ riiunei caracteristici discrete (o variabila aleatoare discret ), sau date continue, dac aceast carac-teristic este continu (o variabil aleatoare de tip continuu). În cazul din exemplu, datele vor �cantitative ³i discrete.Primul pas în analiza datelor proasp t culese este de a le ordona ³i reprezenta gra�c, dar ³i de acalcula anumite caracteristici numerice pentru acestea. Datele înainte de prelucrare, adic exacta³a cum au fost culese, se numesc date negrupate. De exemplu, num rul de apeluri la 112 în lunaIulie, speci�cat zilnic, este:

871 822 729 794 523 972 768 758 583 893 598 743 761 858 948

598 912 893 697 867 877 649 738 744 798 812 793 688 589 615 731

De cele mai multe ori, enumerarea tuturor datelor culese este di�cil de realizat, de aceea se ur-m re³te a se grupa datele, pentru o mai u³oar gestionare. Imaginaµi-v c enumer m toatevoturile unei selecµii întâmpl toare de 15000 de votanµi, abia ie³iµi de la vot. Mai degrab , esteutil s grup m datele dup numele candidaµilor, precizând num rul de voturi ce l-a primit �ecare.

Gruparea datelor

Datele prezentate sub form de distribuµie (tabel) de frecvenµe se numesc date grupate. Datelede selecµie obµinute pot � date discrete sau date continue, dup cum caracteristicile studiate suntvariabile aleatoare discrete sau, respectiv, continue.

(1) Dac datele de selecµie sunt discrete (e.g., {x1, x2, . . . , xn}) ³i au valorile distinctex′1, x

′2, . . . , x

′r, r ≤ n, atunci ele pot � grupate într-un a³a-numit tabel de frecvenµe (vezi exemplul

din Figura 1.1) sau într-un tablou de frecvenµe, dup cum urmeaz :

data :

(x′1 x′2 . . . x′rf1 f2 . . . fr

)unde fi este frecvenµa apariµiei valorii x′i, (i = 1, 2, . . . , r), ³i se va numi distribuµia empiric deselecµie a lui X. Aceste frecvenµe pot � absolute sau de relative. Un tabel de frecvenµe (sau odistribuµie de frecvenµe) conµine toate categoriile ce sunt observate din datele colectate ³i num rulde elemente ce aparµine �ec rei categorii în parte, adic frecvenµa absolut . O frecvenµ relativ se obµine prin împ rµirea frecvenµei absolute a unei categorii la suma tuturor frecvenµelor din tabel.

5

nota frecvenµa frecvenµa relativ 2 2 2.22%3 4 4.44%4 8 8.89%5 15 16.67%6 18 20.00%7 17 18.89%8 15 16.67%9 7 7.78%10 4 4.44%

Total 90 100%

Tabela 1.1: Tabel cu frecvenµe pentru date discrete.

Astfel, suma tuturor frecvenµelor relative este egal cu 1. Elementele unui tabel sunt, de regul :valori pentru variabile, frecvenµe sau frecvenµe relative.

În Tabelul 1.1, sunt prezentate notele studenµilor din anul al III-lea la examenul de Statistic .Acesta este exemplu de tabel ce reprezent o caracteristic discret .

Observaµia 1.1 (o glum povestit de G. Pólya,1 despre cum NU ar trebui interpretat frecvenµarelativ )Un individ suferind merge la medic. Medicul îl examineaz îndelung ³i, balansând dezam gitcapul, îi spune pacientului:"O�f... drag domnule pacient, am dou ve³ti: una foarte proast ³i una bun . Mai întâi v aducla cuno³tinµ vestea proast : suferiµi de o boal groaznic . Statistic vorbind, din zece pacienµi cecontracteaz aceast boal , doar unul scap ."Pacientul, deja în culmea disper rii, este totu³i consolat de doctor cu vestea cea bun :"Dar, �µi pe pace! Dumneavoastr aµi venit la mine, ³i asta v face tare norocos", continu optimist doctorul."Am avut deja nou pacienµi ce au avut aceea³i boal ³i toµi au murit, a³a c ... veµi supravieµui!"

(2) Dac X este de tip continuu, atunci se obi³nuieste s se fac o grupare a datelor de selecµie înclase. De exemplu, ni se dau datele din Tabelul 1.2, reprezentând timpi (în min.sec) de a³teptarepentru primii 100 de clienµi care au a³teptat la un ghi³eu pân au fost serviµi.

Putem grupa datele de tip continuu într-un tablou de distribuµie de forma:

data :

([a0, a1) [a1, a2) . . . [ar−1, ar)f1 f2 . . . fr

),

sau sub forma unui tabel de distribuµie (vezi Tabelul 1.3). A³adar, putem grupa datele de tipcontinuu de mai sus în tablou de distribuµie:(

[0, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6)14 17 21 18 16 14

). (1.2)

1György Pólya (18871985), matematician ungur

6

1.02 2.01 2.08 3.78 2.03 0.92 4.08 2.35 1.30 4.50 4.06 3.55 2.63 1.76

0.13 5.32 3.97 3.36 4.31 3.58 5.64 1.95 0.91 1.26 0.74 3.64 4.77 2.14

2.98 4.33 5.08 4.67 0.79 3.14 0.99 0.78 2.34 4.51 3.53 4.55 1.89 3.28

0.94 3.44 1.35 3.64 2.92 2.67 2.86 2.41 3.19 5.41 5.14 2.75 1.67 3.89

1.12 4.75 2.88 4.30 4.55 5.87 0.70 5.04 5.33 2.40 1.50 0.83 3.74 4.85

3.79 1.48 2.65 1.55 3.95 5.88 1.58 5.49 0.48 2.77 3.20 2.51 5.80 4.12

3.12 0.71 2.76 1.95 0.10 4.22 5.69 5.41 1.68 2.46 1.40 2.16 4.98 0.88

5.36 1.32

Tabela 1.2: Date statistice negrupate

clasa frecvenµa valoare medie[a0, a1) f1 x′1[a1, a2) f2 x′2

......

...[ar−1, ar) fr x′r

Tabela 1.3: Tabel cu frecvenµe pentru date continue.

Uneori, tabelul de distribuµie pentru o caracteristic de tip continuu mai poate � scris ³i sub forma:

data :

(x′1 x′2 . . . x′rf1 f2 . . . fr

)unde

• x′i =ai−1 + ai

2este elementul de mijloc al clasei [ai−1, ai);

• fi este frecvenµa apariµiei valorilor din [ai−1, ai), (i = 1, 2, . . . , r),r∑i=1

fi = n.

A³adar, dac ne este dat o în³iruire de date ale unei caracteristici discrete sau continue, atuncile putem grupa imediat în tabele sau tablouri de frecvenµe. Invers (avem tabelul sau tabloul derepartiµie ³i vrem s enumer m datele) nu este posibil, decât doar în cazul unei caracteristici detip discret. De exemplu, dac ni se d Tabelul 1.4, ce reprezint rata somajului într-o anumit regiune a µ rii pe categorii de vârste, nu am putea ³ti cu exactitate vârsta exact a persoanelorcare au fost selecµionate pentru studiu.

Observ m c acest tabel are 5 clase: [18, 25), [25, 35), [35, 45), [45, 55), [55, 65). Vom numivaloare de mijloc pentru o clas , valoarea obµinut prin media valorilor extreme ale clasei. Încazul Tabelului 1.4, valorile de mijloc sunt scrise în coloana cu vârsta medie. Frecvenµa cumulat a unei clase este suma frecvenµelor tuturor claselor cu valori mai mici.

Vom numi o serie de timp (sau serie dinamic ori cronologic ) un tablou de forma

data :

(x1 x2 . . . xnt1 t2 . . . tn

),

7

vârsta frecvenµa frecvenµa relativ frecvenµa cumulat vârsta medie[18, 25) 34 8.83% 8.83% 21.5[25, 35) 76 19.74% 28.57% 30[35, 45) 124 32.21% 60.78% 40[45, 55) 87 22.60% 83.38% 50[55, 65) 64 16.62% 100.00% 60Total 385 100% - -

Tabela 1.4: Tabel cu frecvenµe pentru rata somajului.

unde xi sunt variabile de r spuns, iar ti momente de timp (e.g., r spunsurile citite de un electro-cardiograf).

Motive serioase pentru care merit s devii statistician

(top 10)

(10) Pentru statisticienii, deviaµiile sunt considerate a � normale.

(9) Statisticienii lucreaz discret ³i continuu.

(8) Putem concluziona orice dorim, la un nivel de semni�caµie potrivit.

(7) Nu trebuie s spunem niciodat ca suntem siguri; e su�cient doar 95%.

(6) Normalitatea nu este o condiµie sine qua non.

(5) Suntem semni�cativ diferiµi.

(4) Putem testa, f r probleme ³i folosind o lege bine stabilit , distribuµia posterioar a cuiva.

(3) Statistica este arta de a nu � nevoit s spui vreodat c ai gre³it.

(2) Un statistician poate sta cu capul într-un cuptor incandescent ³i cu picioarele în�pte îngheaµ ³i s spun c , în medie, se simte bine.

(1) Aproape nimeni nu dore³te jobul nostru important, deci nu vei avea emoµii c vei r mâne³omer.

Reprezent ri gra�ce

Un tabel de frecvenµe sau o distribuµie de frecvenµe (absolute sau relative) sunt de cele mai multeori baza unor reprezent ri gra�ce, pentru o mai bun vizualizare a datelor. Aceste reprezent ripot � f cute în diferite moduri, dintre care amintim pe cele mai uzuale.

Reprezentare prin puncte

8

5 6 7 8 9 100

0.2

0.4

0.6

Figura 1.1: Reprezentarea cu puncte.

Reprezentarea prin puncte (en., dot plot) este folosit pentru selecµii de dimensiuni mici. Suntreprezentate puncte a³ezate unul peste celalalt, reprezentând num rul de apariµii ale unei valoripentru caracteristica dat . Un astfel de gra�c este reprezentat în Figura 1.1. Aceste reprezent risunt utile atunci când se dore³te scoaterea în evidenµ a anumitor pâlcuri de date (en., clusters) sauchiar lipsa unor date (goluri). Au avantajul de a conserva valoarea numeric a datelor reprezentate.

O funcµie Matlab util pentru reprezentarea datelor discrete este funcµia stem. Aceast funcµiereprezint datele sub forma unor linii verticale terminate cu un un cerculeµ gol (în mod implicit)la extremitatea opus axei. Are formatul general:

stem(X, Y, 'fill', 'type') % deseneaza pe Y vs. X

Opµiunea 'fill' poate lipsi; dac ea apare, atunci coloreaz cercurile din gra�c. Opµiunea 'type'se refer la tipul de linie folosit; poate � linie continu (în mod implicit), punctat (:) sau de tiplinie-punct (−.). Spre exemplu, linia de cod

x = -pi:pi/10:pi; stem(x, sin(x), 'fill', '--')

produce Figura 1.2.

Reprezentarea stem-and-leaf

S presupunem c urm toarele date sunt punctajele (din 100 de puncte) obµinute de cei 20 deelevi ai unei grupe la o testare semestrial :

50 34 55 41 59 61 62 64 68 18 68 73 75 77 44 77 62 77 53 79 81 48 85 96 88 92 39 96

Tabelul 1.5 reprezint aceste date sub forma stem-and-leaf (ramur -frunz ). Se observ c acesttabel arat atât cum sunt repartizate datele, cât ³i forma repartiµiei lor (a se privi gra�cul c având pe OY drept axa absciselor ³i OX pe cea a ordonatelor). A³adar, 7|5 semni�c un punctaj

9

Figura 1.2: Reprezentarea datelor discrete.

de 75. Pentru un volum prea mare de date, aceast reprezentare nu este cea mai bun metod devizualizare a datelor. În secµiunile urm toare vom prezenta ³i alte metode utile.

stem leaf109 2 68 1 5 6 87 3 5 7 7 7 96 1 2 2 4 8 85 0 3 5 94 1 4 83 4 921 80

Tabela 1.5: Tabel stem-and-leaf reprezentând punctajele studenµilor.

Reprezentarea cu bare

Este util pentru reprezentarea variabilelor discrete cu un num r mic de valori diferite. Barele suntdreptunghiuri ce reprezint frecvenµele ³i nu sunt unite între ele. Fiecare dreptunghi reprezint o singur valoare. Într-o reprezentare cu bare, categoriile sunt plasate, de regul , pe orizontal iar frecvenµele pe vertical . În Figura 1.31 sunt reprezentate datele din tabelul cu note. Se poateschimba orientarea categoriilor ³i a claselor; în acest caz barele vor ap rea pe orizontal (veziFigura 1.32). Pentru reprezent ri gra�ce vom folosi aplicaµia Matlab. În capitolul urm tor vomprezenta o scurt introducere în Matlab. Pentru mai multe detalii, se poate consulta ghidulonline de utilizare [9].Comenzile Matlab uzuale pentru reprezentarea cu bare sunt:

10

Figura 1.3: Reprezent rile cu bare.

bar(X, Y, 'style'); % deseneaza vectorul Y vs. vectorul X

barh(X, Y); % deseneaza pe orizontala vectorul Y vs. vectorul Xbar(X, w); % deseneaza vectorul X vs. 1:N (N este lungimea lui X);bar3(Y, w, 'style') % deseneaza vectorul Y prin bare 3D

% w este latimea barelor, 'style' este modul reprezentarii

Mai sus, 'style' poate � una dintre urm toarele: 'detached' (bare separate), 'grouped' (bare grupateal turat), sau 'stacked' (bare suprapuse).

Exemplu 1.2 (1) Comanda care produce primul gra�c din Figura 1.3 este:

bar([2:10], [2 4 8 15 18 17 15 7 4], 0.5)

Aici, vectorul X este vectorul linie [2 3 4 5 6 7 8 9 10], scris prescurtat prin [2:10], iar vectorul Yeste [2 4 8 15 18 17 15 7 4]. L µimea barelor este 0.5.

(2) Comanda Matlab urm toare realizeaz al doilea gra�c din Figura 1.3, corespunz tor datelor dinTabelul 1.5:

barh(5:9, [3 5 6 4 2], 0.5)

(3) În Figura 1.4, am reprezentat prin bare 3D trei vectori: X (numerele naturale de la 1 la 7), Y(permutare aleatoare a elementelor lui X) ³i Z (numere naturale pare, de la 14 la 2). Cei trei vectoriformeaz coloanele matricei M . Comanda subplot(m,n,p) divizeaz fereastra gra�c în m × n zonedreptunghiulare ³i se poziµioneaz pe zona de rang p, unde va executa comanda ce urmeaz . Figura 1.4este generat de codul urm tor:

X = 1:7; Y = randperm(7); Z = 14:-2:2; M = [X'; Y'; Z'];

subplot(1,3,1); bar3(M, 0.75, 'detached')

11

subplot(1,3,2); bar3(M, 0.75, 'grouped')

subplot(1,3,3); bar3(M, 0.75, 'stacked')

Figura 1.4: Reprezentare 3D prin bare.

Histograme

Cuvântul "histogram " a fost introdus pentru prima oar de Karl Pearson2 în 1895. Acesta deriv dincuvintele grece³ti histos (gr., ridicat în sus) ³i gramma (gr., desen, înregistrare). O histogram este oform pictorial a unui tabel de frecvenµe, foarte util pentru selecµii mari de date de tip continuu. Seaseam n cu reprezentarea prin bare, cu urm toarele dou diferenµe: nu exist spaµii între bare (de³i, potap rea bare de înalµime zero ce arat a � spaµiu liber) ³i ariile barelor sunt proporµionale cu frecvenµelecorespunz toare. Num rul de dreptunghiuri este egal cu num rul de clase, l µimea dreptunghiului esteintervalul clasei, iar în lµimea este a³a încât aria �ec rui dreptunghi reprezint frecvenµa. Aria total atuturor dreptunghiurilor este egal cu num rul total de observaµii. Dac barele unei histograme au toateaceea³i l µime, atunci în lµimile lor sunt proporµionale cu frecvenµele. În lµimile barelor unei histogrameise mai numesc ³i densit µi de frecvenµ .În cazul în care l µimile barelor nu sunt toate egale, atunci în lµimile lor satisfac:

în lµimea = k · frecvenµal µimea clasei

, k = factor de proporµionalitate.

Comenzile Matlab uzuale pentru crearea histogramelor sunt:

hist(X, n); % unde X este un vector, n este numarul de bare

hist(X, Y); % deseneaza distributia vectorului X, cu numarul de bare egal cu

% lungimea vectorului Y, centrate in elementele lui Y

N = histc(X,E); % returneaza numarul N de valori ale vectorului X, care se afla

2Karl Pearson (1857− 1936), statistician, avocat ³i eugenist britanic

12

În lµimea (în cm) frecvenµa[0, 5) 5[5, 10) 13[10, 15) 23[15, 20) 17[20, 25) 10[25, 30) 2

Tabela 1.6: Tabel cu în lµimile plantelor.

Tabela 1.7: Histograme pentru datele din Tabelul 1.6.

% intre elementele vectorului E

bar(E,N,'histc') % reprezinta grafic pe N determinat anterior

hist3(Y) % realizeaza o histogram 3D, unde Y este vector bidimensional

Datele din Tabelul 1.6 reprezint în lµimile unui e³antion de plante culese de un cercet tor dintr-o anu-mit regiune a µ rii. Reprezentarea cu histograme asociat acestor date este cea din Figura 1.7. CodulMatlab care produce acest gra�c este:

X = [5*rand(5,1); 5*rand(13,1)+5; 5*rand(23,1)+10; 5*rand(17,1)+15; ...

5*rand(10,1)+20; 5*rand(2,1)+25]; % genereaza un vector X ca in Tabelul 1.6C = [2.5 7.5 12.5 17.5 22.5 27.5]; % mijloacele latimilor barelor

hist(X,C); % deseneaza 6 histograme

axis([-1 31 0 30]) % fixeaza axele

S presupunem c altcineva ar � grupat datele din Tabelul 1.6 într-o alt manier , în care clasele nusunt echidistante (vezi Tabelul 1.8). În Tabelul 1.8, datele din ultimele dou clase au fost cumulateîntr-o singur clas , de l µime mai mare decât celelalte, deoarece ultima clas din Tabelul 1.6 nu aveasu�ciente date. Histograma ce reprezint datele din Tabelul 1.8 este cea din Figura 1.9. Conform curegula proporµionalit µii ariilor cu frecvenµele, se poate observa c primele patru bare au în lµimi egalecu frecvenµele corespunz toare, pe când în lµimea ultimei bare este jum tate din valoarea frecvenµeicorespunz toare, deoarece l µimea acesteia este dublul l µimii celorlalte.În general, pentru a construi o histogram , vom avea în vedere urm toarele:− datele vor � împ rµite (unde este posibil) în clase de lungime egal . Uneori aceste diviz ri sunt naturale,alteori va trebui s le fabric m.− num rul de clase este, în general, între 5 ³i 20.− înregistraµi num rul de date ce cad în �ecare clas (numite frecvenµe).− �gura ce conµine histograma va avea clasele pe orizontal ³i frecvenµele pe vertical .

Liniile de cod urm toare simuleaz histograma reprezentat în Figura 1.5:

x = randn(1000, 2); % numere repartizate normal

hist3(x)

13

Figura 1.5: Histogram 3D.

Observaµia 1.3 (1) Dac lungimea unei clase este in�nit (e.g., ultima clas din Tabelul 1.8 este[20, ∞)), atunci se obi³nuie³te ca l µimea ultimului interval s �e luat drept dublul l µimii intervalu-lui precedent.(2) În multe situaµii, capetele intervalelor claselor sunt ni³te aproxim ri, iar în locul acestora vom puteautiliza alte valori. Spre exemplu, s consider m clasa [15, 20). Aceast clas reprezint clasa acelor plantece au în lµimea cuprins între 15cm ³i 20cm. Deoarece valorile în lµimilor sunt valori reale, valorile 15³i 20 sunt, de fapt, aproxim rile acestor valori la cel mai apropiat întreg. A³adar, este posibil ca aceast clas s conµin acele plante ce au în lµimile situate între 14.5cm (inclusiv) ³i 20.5cm (exclusiv). Amputea face referire la aceste valori ca �ind valorile reale ale clasei, numite frontierele clasei. În cazul încare am determinat frontierele clasei, l µimea unei clase se de�ne³te ca �ind diferenµa între frontierele ce-icorespund. În concluzie, în cazul clasei [15, 20), aceasta are frontierele 14.5 - 20.5, l µimea 6 ³i densitateade frecvenµ 17

6 . Pentru exempli�care, în Tabelul 1.10 am prezentat frontierele claselor, l µimile lor ³idensit µile de frecvenµ pentru datele din Tabelul 1.4.

Reprezentare prin sectoare de disc

Se poate desena distribuµia unei caracteristici folosind sectoare de disc (diagrame circulare) (en., pie

charts), �ecare sector de disc reprezentând câte o frecvenµ relativ . Aceast variant este util în specialla reprezentarea datelor calitative. Comanda Matlab pentru un pie chart pentru un vector X estepie(X). De exemplu, comanda care produce Figura 1.6 este:

T = [10 11.11 15.56 25.55 22.22 15.56];

pie(T,{'Nota 5','Nota 6', 'Nota 7', 'Nota 8', 'Nota 9','Nota 10'})

14

În lµimea (în cm) frecvenµa[0, 5) 5[5, 10) 13[10, 15) 23[15, 20) 17[20, 30) 12

Tabela 1.8: Tabel cu în lµimile plantelor.

Tabela 1.9: Histograme pentru datele din Tabelul 1.8.

în lµimea (în cm) frontierele l µimea frecvenµa densitatea de frecvenµ [18, 25) 17.5− 25.5 8 34 4.25[25, 35) 24.5− 35.5 11 76 6.91[35, 45) 34.5− 45.5 11 124 11.27[45, 55) 44.5− 55.5 11 87 7.91[55, 65) 54.5− 65.5 11 64 5.82

Tabela 1.10: Tabel cu frontierele claselor.

10%

11%

16%

26%

22%

16%

Nota 5Nota 6Nota 7Nota 8Nota 9Nota 10

Figura 1.6: Reprezentarea pe disc a frecvenµelor relative ale notelor din tabelul cu note

.

15

2 Statistic Aplicat (Laborator 2)

Experienµe aleatoare în Matlab

Generarea de numere (pseudo-)aleatoare

Numerele generate de Matlab sunt rezultatul compil rii unui program deja existent în Matlab, a³adarel vor � pseudo-aleatoare. Putem face abstracµie de modul programat de generare ale acestor numere ³is consider m c acestea sunt numere aleatoare.

Generarea de numere uniform repartizate într-un interval, U(a, b)

Funcµia rand

• Funcµia rand genereaz un num r aleator repartizat uniform în [0, 1].De exemplu, comanda

X = (rand < 0.5)

simuleaz aruncarea unei monede ideale. Mai putem spune ca num rul X astfel generat este unnum r aleator repartizat B(1, 0.5).

• De asemenea, num rul

Y = sum(rand(10,1) < 0.5)

urmeaz repartiµia B(10, 0.5) (simularea a 10 arunc ri ale unei monede ideale).

• rand(m, n) genereaz o matrice aleatoare cu m× n componente repartizate U(0, 1).

• Comanda a+ (b− a) ∗ rand genereaz un num r pseudo-aleator repartizat uniform în [a, b].

• Folosind comanda s = rand('state'), i se atribuie variabilei s un vector de 35 de elemente,reprezentând starea actual a generatorului de numere aleatoare uniform (distribuite). Pentrua schimba starea curent a generatorului sau iniµializarea lui, putem folosi comanda

rand(method, s)

unde method este metoda prin care numerele aleatoare sunt generate (aceasta poate � 'state','seed' sau 'twister'), iar s este un num r natural între 0 ³i 232 − 1, reprezentând starea iniµial-izatorului. De exemplu,

rand('state', 125)

�xeaz generatorul la starea 125.

16

Observaµia 2.1 Printr-o generare de numere aleatoare uniform distribuite în intervalul (a, b) înµelegemnumere aleatoare care au aceea³i ³ans de a � oriunde în (a, b), ³i nu numere la intervale egale.

Figura 2.1 reprezint cu histograme date uniform distribuite în intervalul [−2, 3], produse de comandaMatlab:

hist(5*rand(1e4,1)-2,100)

Figura 2.1: Reprezentarea cu histograme a datelor uniforme.

Generarea de numere repartizate normal, N (µ, σ)

Funcµia randn

• Funcµia randn genereaz un num r aleator repartizat normal N (0, 1).

• randn(m, n) genereaz o matrice aleatoare cu m× n componente repartizate N (0, 1).

• Pentru a schimba metoda prin care sunt generate numerele aleatoare normale sau starea genera-torului, folosim comanda:

randn(method, s)

unde unde method este metoda prin care numerele aleatoare sunt generate (aceasta poate � 'state'

sau 'seed'), iar s este un num r natural între 0 ³i 232 − 1, reprezentând starea iniµializatorului.

• Comanda m+σ∗randn genereaz un num r aleator repartizat normal N (m, σ). De exemplu, codulurm tor produce Figura 2.2:

x = 0:0.05:10;

y = 5 + 1.1*randn(1e5,1); % date distribuite N (5, 1.1)hist(y,x)

17

0 2 4 6 8 100

50

100

150

200

250

Figura 2.2: Reprezentarea cu histograme a datelor normale.

Generarea de numere aleatoare de o repartiµie dat

Comenzile Matlab

legernd(<param>, m, n)

³i

random('lege', <param>, m, n).

Oricare dintre cele dou comenzi genereaz o matrice aleatoare, cu m linii ³i n coloane, având componentenumere aleatoare ce urmeaz repartiµia lege. În loc de lege putem scrie oricare dintre expresiile din tabeluldin Figura ??. De exemplu,

normrnd (5, 0.2, 100, 10);

genereaz o matrice aleatoare cu 100× 10 componente repartizate N (5, 0.2).

random ('poiss',0.01, 200, 50);

genereaz o matrice aleatoare cu 200× 50 componente repartizate P(0.01).

Utilizând comanda

randtool

putem reprezenta interactiv selecµii aleatoare pentru diverse repartiµii. Comanda deschide o interfaµ gra�c ce reprezint prin histograme selecµiile dorite, pentru parametrii doriµi (vezi Figura 2.3). Datelegenerate deMatlab pot � exportate în �³ierul Workspace cu numele dorit. De exemplu, folosind dateledin Figura 2.3, am generat o selecµie aleatoare de 10000 de numere ce urmeaz repartiµia lognormal deparametri µ = 2 ³i σ = 0.5 ³i am salvat-o (folosind butonul Export) într-un vector L.

18

Figura 2.3: Interfaµ pentru generarea de numere aleatoare de o repartiµie dat .

Simularea arunc rii unei monede

• Comanda

X = (rand < 0.5);

simuleaz aruncarea unei monede ideale. Vom mai spunem c num rul X astfel generat este unnum r aleator repartizat B(1, 0.5) (similar cu schema bilei revenite, în cazul în care o urn are bilealbe ³i negre în num r egal ³i extragem o bil la întâmplare)

• Num rul

Y = sum (rand(30,1)<0.5)

urmeaz repartiµia B(30, 0.5) (simularea a 30 arunc ri ale unei monede ideale).

• Acela³i experiment poate � modelat ³i prin comanda

round(rand(30,1))

Pentru a num ra câte feµe de un anumit tip au ap rut, folosim

sum(round(rand(30,1)))

Exemplu 2.2 Dorim s scriem o funcµie MATLAB care s simuleze aruncarea repetat a unei monedem sluite, pentru care probabilitatea teoretic de a obµine o anumit faµ este p ∈ (0, 1). S se determine

19

probabilitatea ca la aruncarea monedei s obµinem faµa cu stema ³i s deseneze o �gur care s justi�cegra�c convergenµa ³irului frecvenµelor relative la aceast probabilitate.

function moneda(N,p); % functia moneda.m

x = rand(1, N); % aruncam moneda

V = (x < p); % valoarea de adevar a lui (x<p)

Sn = cumsum(V); % suma cumulata

A = 1:N; % vectorul nr de aruncari

Fn = Sn./A; % frecventa relativa a stemei

semilogx(1:N, Fn, 'b-', [1,N],[p, p], 'm:'); % reprezinta grafic Fn

axis([0 N 0 1]); % axele

title('moneda') % numele figurii

xlabel('aruncari');ylabel('probabilitatea') % numele axelor

101

102

103

104

105

0

1/4

0.5

3/4

1

aruncari

prob

abili

tate

a

moneda

101

102

103

104

105

0

1/6

0.5

5/6

1

aruncari

prob

abili

tate

a

zar

Figura 2.4: Simularea arunc rii unei monede corecte (a) ³i a unui zar corect (b)

O rulare a funcµiei, e.g., moneda(1e5,0.5), produce gra�cul din Figura 2.4(a). De asemenea, se poatesimula ³i aruncarea unei monede m sluite, dac alegem ca parametrul p al funcµiei s �e diferit de 0.5.

Simularea arunc rii unui zar

Pentru început, s consider m o variabil aleatoare ce poate avea doar 3 rezultate posibile, A, B ³i C,cu probabilit µile de realizare 0.5, 0.2 ³i, respectiv, 0.3. Pentru a modela aceast variabil aleatoare înMatlab, proced m astfel: alegem uniform la întâmplare un num r x din intervalul [0, 1]. Dac x ≤ 0.5,atunci convenim c rezultatul A s-a realizat, dac 5 < x ≤ 0.7, atunci rezultatul B s-a realizat. Altfel,rezultatul v.a. X este C. Dac acest experiment se repet de multe ori, atunci rezultatele pot � folositeîn estimarea probabilit µilor de realizare a variabilei aleatoare. Cum cât vom face mai multe experimente,cu atât vom aproxima mai bine valorile teoretice ale probabilit µilor, deci putem spune c am aproximatvariabila aleatoare X.

20

La aruncarea unui zar ideal, avem 6 rezultate posibile, ³i anume, apariµia unei feµe cu 1, 2, 3, 4, 5 sau 6puncte. Pentru a simula acest experiment, modi�c m în mod convenabil problema. Vom considera c punctele din intervalul [0, 1] formeaz mulµimea tuturor cazurilor posibile ³i împ rµim intervalul [0, 1] în6 subintervale de lungimi egale:{

(0,1

6), (

1

6,

2

6), (

2

6,

3

6), (

3

6,

4

6), (

4

6,

5

6), (

5

6, 1)

}.

corespunz toare, respectiv, celor ³ase feµe, s zicem în ordinea cresc toare a punctelor de pe ele. Vomvedea mai târziu (vezi metoda Monte Carlo) ca alegerea acestor intervale cu capete închise, deschisesau mixte nu are efect practic asupra calculului probabilit µii dorite. Acum, dac dorim s simul m înMatlab apariµia feµei cu 3 puncte la aruncarea unui zar ideal, vom alege (comanda rand) un num r "laîntâmplare" din intervalul [0, 1] ³i veri�c m dac acesta se a� în intervalul (2

6 ,36). A³adar, comanda

Matlab

u = rand; (u < 3/6 & u > 2/6)

simuleaz aruncarea unui zar ideal. Ca o observaµie, deoarece cele 6 feµe sunt identice, putem simpli�caaceast comanda ³i scrie

(rand < 1/6).

Exemplu 2.3 Dorim s simuleze înMatlab aruncarea repetat a unui zar corect. S se determine prob-abilitatea ca la aruncarea zarului s obµinem faµa cu trei puncte ³i s deseneze o �gura care s justi�cegra�c convergenµa ³irului frecvenµelor relative la aceast probabilitate (vezi Figura 2.4(b)).

function dice(N); % functia dice.m

u = rand(1, n); % probabilitatea aparitiei fetei ∴Z1 = (u < 3/6 & u > 2/6); % aparitia fetei ∴freq = cumsum(Z1)./(1:n); % frecventa relativa

subplot(1,2,2); % activeaza fereastra din stanga

semilogx(1:n, freq, 'b-', [1, n], [1/6,1/6], 'm:');

axis([0 n 0 1]); % axele

title('zar') % numele figurii

xlabel('aruncari');ylabel('probabilitatea')

Fi³ierul dice.m simuleaz aruncarea unui zar corect de un num r N de ori. O rulare a funcµiei, e.g.,dice(1e5) produce gra�cul din Figura 2.4(b).

21

3 Anexa 1

Scurt introducere în Matlab

Matlab este un pachet comercial de programe de înalt performanµ produs de The MathWorks, Inc.,dedicat calculului numeric ³i reprezent rilor gra�ce în domeniul ³tiinµelor ³i ingineriei. Elementul de baz cu care opereaz Matlab-ul este matricea (Matlab este acronim de laMATrix LABoratory). Matlabeste un software standard în mediile universitare, precum ³i în domeniul cercet rii ³i rezolv rii practice aproblemelor legate de procesarea semnalelor, identi�carea sistemelor, calculul statistic, prelucrarea datelorexperimentale, matematici �nanciare, matematici aplicate în diverse domenii etc. Cea mai important caracteristic a Matlab-ului este u³urinµa cu care poate � extins. La programele deja existente înMatlab, utilizatorul poate ad uga propriile sale coduri, dezvoltând aplicaµii speci�ce domeniului în carelucreaz . Matlab-ul include aplicaµii speci�ce, numite Toolbox-uri. Acestea sunt colecµii extinse defuncµii Matlab (�³iere M) care dezvolt mediul de programare de la o versiune la alta, pentru a rezolvaprobleme din domenii variate. Structural, Matlab-ul este realizat sub forma unui nucleu de baz , cuinterpretor propriu, în jurul c ruia sunt construite toolbox-urile.

Prezent m mai jos o scurt introducere în Matlab a principalelor funcµii ³i comenzi folosite în aceast lucrare. Pentru o tratare mai detaliat , puteµi consulta un manual de utilizare sau [9]. Mai menµion maici ³i lucrarea [1], unde puteµi g si diverse modalit µi de implementare în Matlab ale unor noµiuni deTeoria Probabilit µilor ³i Statistic matematic .Folosind comanda demo din Matlab, puteµi urm ri o demonstraµie a principalelor facilit µi din Matlab,cât ³i a pachetelor de funcµii (toolbox) de care aµi putea � interesaµi. Dintre acestea, amintim Statistics

Toolbox, care este o colecµie de funcµii folosite pentru analiza, modelarea ³i simularea datelor. Conµine:analiza gra�celor (GUI), diverse repartiµii probabilistice (beta, binomial , Poisson, χ2), generarea nu-merelor aleatoare, analiza regresional , descrieri statistice.

• ComenzileMatlab pot � scrise în �³iere cu extensia .m, ce urmeaz apoi a � compilate. Un �³ier-mconst dintr-o succesiune de instrucµiuni, cu posibilitatea apel rii altor �³iere-M precum ³i a apel riirecursive. De asemenea, Matlab poate � folosit ca pe un mediu computaµional interactiv, caz încare �ecare linie este prelucrat imediat. Odat introduse expresiile, acestea pot � vizualizate sauevaluate imediat. De exemplu, introducând la linia de comand

>> a = sqrt((sqrt(5)+1)/2)

Matlab de�ne³te o variabil de memorie a, c reia îi atribuie valoareaa =

1.2720

• Variabilele sunt de�nite cu ajutorul operatorului de atribuire, =, ³i pot � utilizate f r a declarade ce tip sunt. Valoarea unei variabile poate �: o constant , un ³ir de caractere, poate reie³i dincalculul unei expresii sau al unei funcµii.

• Pentru a g si informaµii imediate despre vreo funcµie prede�nit , comanda help va vine în ajutor.De exemplu,

22

>> help length

a�³eaz urm toarele:

LENGTH Length of vector.

LENGTH(X) returns the length of vector X. It is equivalent

to MAX(SIZE(X)) for non-empty arrays and 0 for empty ones.

See also numel.

• Comanda help poate � utilizat doar dac se cunoa³te exact numele funcµiei. Altfel, folosireacomenzii lookfor este recomandat . De exemplu, comanda

>> lookfor length

produce:

NAMELENGTHMAX Maximum length of MATLAB function or variable name.

VARARGIN Variable length input argument list.

VARARGOUT Variable length output argument list.

LENGTH Length of vector.

• Matlab este un mediu computaµional orientat pe lucru cu vectori ³i matrice. O linie de cod deforma

>> v = [1,3,5,7,9] % sau v = [1 3 5 7 9]

de�ne³te un vector linie ce are componentele 1, 3, 5, 7, 9. Aceasta poate � realizat ³i folosindcomanda v = 1:2:9 adic a�³eaz numerele de la 1 la 9, cu pasul 2. Pentru un vector coloan ,folosim punct-virgul între elemente, adic

>> v = [1;3;5;7;9] % vector coloana

O alt variant de a de�ni un vector este

>> v = linspace(x1,x2,n)

adic v este un vector linie cu n componente, la intervale egale între x1 ³i x2.

• De�nirea matricelor se poate face prin introducerea explicit a elementelor sale sau prin instrucµi-uni ³i funcµii. La de�nirea explicit , trebuie µinut cont de urm toarele: elementele matricei suntcuprinse între paranteze drepte ([ ]), elementele unei linii trebuie separate prin spaµii libere sauvirgule, liniile se separ prin semnul punct-virgul . De exemplu, comanda

>> A = [1 2 3; 4, 5, 6]

23

de�ne³te matriceaA =

1 2 3

4 5 6

• Apelul elementelor unei matrice se poate face prin comenzile A(i,j) sau A(:,j) (elementele decoloan j) sau A(i,:) (elementele de linia i);

• Funcµia Matlab ones(m,n) de�ne³te o matrice m × n, având toate componentele egale cu 1.Funcµia zeros(m,n) de�ne³te o matrice zero m× n. Funcµia eye(n) de�ne³te matricea unitate deordin n.

• Dup cum vom vedea mai jos,Matlab permite de�nirea unor funcµii foarte complicate prin scriereaunui cod. Dac funcµia ce o avem de de�nit este una simpl , atunci avem varianta utiliz rii comenziiinline. Spre exemplu, de�nim funcµia f(x, y) = e5x sin 3y:

>> f = inline('exp(5*x).*sin(3*y)')

f =

Inline function:

f(x,y) = exp(5*x).*sin(3*y)

Putem apoi calcula f(7, π) prin

>> f(7,pi)

0.5827

• Un program Matlab poate � scris sub forma �³ierelor script sau a �³ierelor de tip funcµie. Am-bele tipuri de �³iere sunt scrise în format ASCII. Aceste tipuri de �³iere permit crearea unor noifuncµii, care le pot completa pe cele deja existente. Un �³ier script este un �³ier extern care conµineo secvenµ de comenzi Matlab. Prin apelarea numelui �³ierului, se execut secvenµa Matlabconµinut în acesta. Dup execuµia complet a unui �³ier script, variabilele cu care acesta a operatr mân în zona de memorie a aplicaµiei. Fi³ierele script sunt folosite pentru rezolvarea unor prob-leme care cer comenzi succesive atât de lungi, încât ar putea deveni greoaie pentru lucrul în modinteractiv, adic în modul linie de comand .

Pentru a introduce date în Matlab, putem copia datele direct într-un �³ier Matlab, prin de�nirea unuivector sau a unei matrice de date. De exemplu, urm toarele date au fost introduse prin "copy-paste" înmatricea data:

>> data = [ % atribuirea valorilor matricei data

21.3 24.1 19.9 21.0 % prima linie a datelor copiate

18.4 20.5 17.5 23.2

22.1 16.6 23.5 19.7 % ultima linie a datelor copiate

]; % inchidem paranteza ce defineste matricea de date

Datele din Matlab pot � salvate astfel:

24

>> cd('c:\fisierul_de_lucru'); % alegem fisierul unde salvam datele

>> save Timpi_de_reactie data; % salveaza in fisierul Timpi_de_reactie.mat

Datele pot � reînc rcate folosind comanda

load Timpi_de_reactie % incarca datele din fisier

Timpi_de_reactie % afiseaza datele incarcate

Fi³ierele funcµie

Matlab creaz cadrul propice extinderii funcµiilor sale, prin posibilitatea cre rii de noi �³iere. Astfel,dac prima linie a �³ierului .m conµine cuvântul function, atunci �³ierul respectiv este declarat ca �ind�³ier funcµie. Variabilele de�nite ³i manipulate în interiorul �³ierului funcµie sunt localizate la nivelulacesteia. Prin urmare, la terminarea execuµiei unei funcµii, în memoria calculatorului nu r mân decâtvariabilele de ie³ire ale acesteia. Forma general a primei linii a unui �³ier este:

function[param_iesire] = nume_functie(param_intrare)

unde:

• function este este cuvântul care declar �³ierul ca �³ier funcµie;

• nume_functie este numele funcµiei, care este totuna cu numele sub care se salveaz �³ierul;

• param_iesire sunt parametrii de ie³ire;

• param_intrare sunt parametrii de intrare.

Comenzile ³i funcµiile care sunt utilizate de nou funcµie sunt ï¿½nregistrate într-un �³ier cu extensia .m.

Exemplu 3.1 Fisierul medie.m calculeaz media aritmetic a sumei p tratelor componentelor unui vec-tor X (alternativ, aceast lucru poate � realizat prin comanda mean(X.^2)):

function m2 = medie(X)

n = length(X); m2 = sum(X.^2)/n;

Matlab-ul include aplicaµii speci�ce, numite Toolbox-uri. Acestea sunt colecµii extinse de funcµiiMatlab(�³iere-m) care dezvolt mediul de programare de la o versiune la alta, pentru a rezolva probleme dindomenii variate. Statistics Toolbox reprezint o colecµie de funcµii folosite pentru analiza, modelarea ³isimularea datelor ³i conµine: generarea de numere aleatoare; distribuµii, analiza gra�c interactiv (GUI),analiza regresional , descrieri statistice, teste statistice.

În Tabelul 3.1 am adunat câteva comenzi utile în Matlab.

25

% % permite adaugarea de comentarii in codhelp rand % help speci�c pentru funcµia randlookfor normal % cauta intrarile în Matlab pentru normalX=[2 4 6 5 2 7 10] % vector linie cu 7 elementeX=[3; 1; 6.5 ;0 ;77] % vector coloan cu 5 elementeX = -10:2:10 % vector cu numerele intregi de la −10 la 10, din 2 în 2length(X) % lungimea vectorului Xt=0:0.01:3*pi % de�ne³te o diviziune a [0, 3π] cu diviziunea 0.01X.^2 % ridic toate componentele vectorului X la puterea a douaX.*Y % produsul a doi vectoricumsum(X) % suma cumulat a elementelor vectorului Xcumprod(X) % produsul cumulativ al elementelor vectorului Xmin(X) % realizeaz minimum dintre componentele lui Xmax(X) % realizeaz maximum dintre componentele lu Xsort(X) % ordoneaz componentele lui X în ordine crescatoaresort(X, 'descend') % ordoneaz componentele lui X în ordine descrescatoareerf(X) % funcµia eroareexp(x) % calculeaz exponenµial ex

log(x) % calculeaz logaritmul natural ln(x)sqrt(x) % calculeaz radicalul ordinului doi dintr-un num rnum2str(x) % furnizeaz valoarea numeric a lui xfactorial(n) % n!A = ones(m,n) % A e matrice m× n, cu toate elementele 1B = zeros(m,n) % matrice m× n zeroI = eye(n) % matrice unitate, n× nA = [3/2 1 3 7; 6 5 8 8; 3 6 9 12] % matrice 3× 3size(A) % dimensiunea matricei Adet(A) % determinantul matricei Ainv(A) % inversa matricei AA' % transpusa matricei AA(:,7) % coloana a 7-a a matricei AA(1:20,1) % scoate primele 20 de linii ale lui Anchoosek(n,k) % combin ri de n luate câte k1e5 % numarul 105

exp(1) % numarul ebar(X) sau barh(X) % reprezentarea prin barehist(X) % reprezentarea prin histogramehist3(x,y,z) % reprezentarea prin histograme 3-Dplot(X(1:5),'*m') % deseneaz primele 5 componente ale lui X, cu * magenta

plot(t,X,'-') % deseneaz gra�cul lui X versus t, cu linie continuaplot3(X,Y,Z) % deseneaz un gra�c în 3-Dstairs(X) % deseneaz o funcµie scarasubplot(m,n,z) % împarte gra�cul în m× n zone & deseneaz în zona zsemilogx ³i semilogy % logaritmeaz valorile de pe absci , resp., ordonatahold on % reµine gra�cul pentru a realiza o nou �guraclf % ³terge �guraclear all % ³terge toate variabilele de�nitetitle('Graficul functiei') % adaug titlu �guriifind % g se³te indicii elementelor nenule ale unui vectorlegend % ata³eaz o legend la un gra�c

Tabela 3.1: Funcµii Matlab utile26

4 Anexa 2

Exemple de repartiµii discrete

În dreptul �ec rei repartiµii, în parantez , apare numele cu care aceasta care poate � apelat în Matlab.

(1) Repartiµia uniform discret , U(n) (unid)

Scriem c X ∼ U(n), dac valorile lui X sunt {1, 2, . . . , n}, cu probabilit µile

P (X = k) =1

n, k = 1, 2, . . . , n.

Media ³i dispersia sunt: E(X) = n+12 , D2(X) = n2−1

12 .Exemplu: num rul de puncte care apar la aruncarea unui zar ideal este o valoare aleatoare repartizat U(6).

(2) Repartiµia Bernoulli3, B(1, p) (bino)

Scriem X ∼ B(1, p). V.a. de tip Bernoulli poate lua doar dou valori, X = 1 (succes) sau X = 0(insucces), cu probabilit µile P (X = 1) = p; P (X = 0) = 1− p.Media ³i dispersia sunt: E(X) = p; D2(X) = p(1− p).Exemplu: aruncarea o singur dat a unei monede ideale poate � modelat ca �ind o v.a. B(1, 0.5).

(3) Repartiµia binomial , B(n, p): (bino)

Scriem X ∼ B(n, p) (schema bilei revenite sau schema extragerilor cu repetiµie) (n > 0, p ∈ (0, 1)),dac valorile lui X sunt {0, 1, . . . , n}, cu probabilit µile

P (X = k) = Cknpk(1− p)n−k, k = 0, 1, . . . , n.

Media ³i dispersia sunt: E(X) = np; D2(X) = np(1− p).

Dac (Xk)k=1,n ∼ B(1, p) ³i (Xk)k independente stochastic, atunci X =

n∑k=1

Xk ∼ B(n, p).

Exemplu: aruncarea de 15 ori a unei monede ideale poate � modelat ca �ind o v.a. binomial B(15, 0.5).

(4) Repartiµia hipergeometric , H(n, a, b) (hyge)

X ∼ H(n, a, b) (schema bilei nerevenite sau schema extragerilor f r repetiµie) (n, a, b > 0) dac

P (X = k) =CkaC

n−kb

Cna+b

, pentru orice k ce satisface max(0, n− b) ≤ k ≤ min(a, n).

3Jacob Bernoulli (1654− 1705), matematician elveµian

27

Media ³i dispersia sunt: EX =n∑i=0

E(Xi) = np; D2(X) = np(1− p)a+ b− na+ b− 1

.

Observaµia 4.1 (i) Dac (Xk)k=0,n ∼ B(1, n), cu p = aa+b (v.a. dependente stochastic), atunci

X =

n∑i=1

Xi ∼ H(n, a, b).

În cazul schemei bilei nerevenite, nu mai putem scrie egalitate între D2(X) ³in∑i=0

D2(Xi), deoarece (Xi)i

nu sunt independente stochastic.(ii) Pentru N = a+ b� n, putem face aproximarea a+b−n

a+b−1 ≈a+b−na+b = 1− n

N , de unde

D2(X) ≈ np(1− p)(

1− n

N

). (4.1)

Observ m c repartiµiile binomial ³i hipergeometric au aceea³i medie, îns dispersiile difer prin ter-menul N−nN−1 . În cazul în care num rul de bile este mult mai mare decât num rul de extrageri (N � n),atunci acest termen devine aproximativ

(1− n

N

). În plus, dac N este foarte mare, atunci trecând N →∞

în (4.1), g sim c ³i dispersiile celor dou repartiµii coincid. Cu alte cuvinte, când num rul de bile dinurn este foarte mare, nu mai conteaz dac extragerea bilelor se face cu repetiµie sau nu. Acest fapt îlvom utiliza în Teoria selecµiei, când extragerile se fac dintr-o colectivitate de volum foarte mare.

(5) Repartiµia Poisson4, P(λ) (poiss)

Valorile sale reprezint num rul evenimentelor spontane (cu intensitatea λ) realizate într-un anumit inter-val de timp. Pentru un λ > 0, spunem c X ∼ P(λ) (legea evenimentelor rare) dac X ia valori naturale,cu probabilit µile

P (X = k) = e−λλk

k!, ∀k ∈ N.

E(X) = λ; D2(x) = λ.

(6) Repartiµia geometric , Geo(p) (geo)

Valorile sale reprezint num rul de insuccese avute pân la obµinerea primului succes,stiind probabilitatea de obµinere a unui succes, p.

Spunem c X ∼ Geo(p), (p ∈ (0, 1)) dac X ia valori în N, cu probabilit µile

P (X = k) = p(1− p)k, pentru orice k ∈ N, unde p ≥ 0.

E(X) =1− pp

; D2(X) =1− pp2

.

Observaµia 4.2 Dac X ∼ Geo(p), atunci variabila aleatoare Y = X + 1 reprezint a³teptarea pân la

primul succes.

4Siméon-Denis Poisson (1781− 1840), matematician ³i �zician francez, student al lui Laplace

28

(7) Repartiµia binomial cu exponent negativ, BN (m, p) (nbin)

Valorile sale reprezint num rul de insuccese obµinute înainte de a se realiza succesul de rang m.În cazul particular m = 1, obµinem repartiµia geometric .

Pentru m ≥ 1, p ∈ (0, 1), spunem c X ∼ BN (m, p) dac X ia valorile {m, m + 1, m + 2, . . . }, cuprobabilit µile

P (X = k) = Cm−1m+k−1p

m(1− p)k, ∀k ≥ m, p ≥ 0.

Media ³i dispersia sunt: E(X) =m(1− p)

p; D2(X) =

m(1− p)p2

.

Exemple de repartiµii continue

(1) Repartiµia uniform , U(a, b) (unif)

V.a. X ∼ U(a, b) (a < b) dac funcµia sa de densitate este

f(x; a, b) =

{1b−a , dac x ∈ (a, b)

0 , altfel.

E(X) =a+ b

2, D2(X) =

(b− a)2

12.

Exemplu: Alegerea la întâmplare a unei valori din intervalul (0, 1), în cazul în care orice valoare areaceea³i ³ans de a � aleas , urmeaz o repartiµie U(0, 1). Comanda rand din Matlab realizeaz acestexperiment (vezi capitolul urm tor).

(2) Repartiµia normal , N (µ, σ) (norm)

Spunem c X ∼ N (µ, σ), dac X are densitatea:

f(x; µ, σ) =1

σ√

2πe−

(x−µ)2

2σ2 , x ∈ R.

E(X) = µ ³i D2(X) = σ2.Se mai nume³te ³i repartiµia gaussian . În cazul µ = 0, σ2 = 1 densitatea de repartiµie devine:

f(x) =1√2πe−

x2

2 , x ∈ R. (4.2)

În acest caz spunem c X urmeaz repartiµia normal standard, N (0, 1).Gra�cul densit µii de repartiµie pentru repartiµia normal este clopotul lui Gauss (vezi Figura 4.1). Dingra�c (pentru σ = 1), se observ c majoritatea valorilor nenule ale repartiµiei normale standard se a� în intervalul (µ− 3σ, µ+ 3σ) = (−3, 3). Aceast a�rmaµie se poate demonstra cu ajutorul relaµiei (??).

Dac Z ∼ N (0, 1), atunci X = σZ + µ ∼ N (µ, σ). În mod similar, dac X ∼ N (µ, σ), atunci Z =X−µσ ∼ N (0, 1). Pentru o v.a. N (0, 1) funcµia de repartiµie este tabelat (valorile ei se g sesc în tabele)

³i are o notaµie special , Θ(x). Ea e de�nit prin:

Θ(x) =1√2π

∫ x

−∞e−

y2

2 dy. (4.3)

29

Figura 4.1: Clopotul lui Gauss pentru X ∼ N (0, σ), (σ = 1, 2, 3)

Funcµia de repartiµie a lui X ∼ N (µ, σ) este dat prin

F (x) = Θ(x− µσ

), x ∈ R. (4.4)

(3) Repartiµia log-normal , logN (µ, σ) (logn)

Repartiµia log-normal este foarte util în Matematicile Financiare, reprezentând o repartiµie de preµuriviitoare pentru un activ �nanciar. Dac X ∼ N (µ, σ), atunci Y = eX este o v.a. nenegativ , avânddensitatea de repartiµie

f(x; µ, σ) =

{1

xσ√

2πe−

(ln x−µ)2

2σ2 , dac x > 0

0 , dac x ≤ 0

A³adar, Y ∼ logN (µ, σ) dac lnY ∼ N (µ, σ).Media ³i dispersia sunt date de E(X) = eµ+σ2/2, D2(X) = e2µ+σ2

(eσ2 − 1).

(4) Repartiµia exponenµial , exp(λ) (exp)

Valorile sale sunt timpi realizaµi între dou valori spontane repartizate P(λ).

Spunem c X ∼ exp(λ) (λ > 0) dac are densitatea de repartiµie

f(x; λ) =

{λe−λx , dac x > 00 , dac x ≤ 0

Media ³i dispersia sunt: E(X) =1

λ³i D2(X) =

1

λ2.

Observaµia 4.3 Repartiµia exponenµial satisface proprietatea a³a-numitei lips de memorie, i.e.,

P ({X > x+ y}|{X > y}) = P ({X > x}), ∀x, y ≥ 0.

30

Este unica distribuµie continu cu aceast proprietate. Distribuµia geometric satisface o variant discret a acestei propriet µi. [Veri�caµi!]

(5) Repartiµia Gamma, Γ(a, λ) (gam)

O v.a. X ∼ Γ(a, λ), a, λ > 0, dac densitatea sa de repartiµie este:

f(x; a, λ) =

{λa

Γ(a)xa−1e−λx , dac x > 0,

0 , dac x ≤ 0.

unde Γ este funcµia lui Euler,

Γ : (0, ∞)→ (0, ∞), Γ(a) =

∫ ∞0

xa−1e−xdx.

Media ³i dispersia sunt: E(X) =a

λ, D2(X) =

a

λ2.

Observaµia 4.4 (i) Γ(1, λ) ≡ exp(λ).

(ii) Dac v.a. {Xk}k=1,n ∼ exp(λ) sunt independente stochastic, atunci suma lorn∑k=1

Xk ∼ Γ(n, λ).

(6) Repartiµia Weibull5, Wbl(k, λ) (wbl)

Aceast repartiµie este asem n toare cu repartiµia exponenµial (aceast obµinându-se în cazul particulark = 1) ³i poate modela repartiµia m rimii particulelor. Când k = 3.4, distribuµia Weibull este asem n -toare cu cea normal . Când k →∞, aceast repartiµie se apropie de funcµia lui Dirac.Vom spune c X ∼Wbl(k, λ) (k > 0, λ > 0) dac are densitatea de repartiµie

f(x; k, λ) =

{kλ

(xλ

)k−1e−( xλ)

k

, dac x ≥ 00 , dac x < 0.

Media pentru repartiµia X ∼Wbl(k, λ) este E(X) = λΓ

(1 +

1

k

).

(7) Repartiµia χ2, χ2(n) (chi2)

O v.a. X ∼ χ2(n) (se cite³te repartiµia hi-p trat cu n grade de libertate) dac densitatea sa de repartiµieeste:

f(x; n) =

1

Γ(n2

)2n2xn2−1e−

x2 , dac x > 0,

0 , dac x ≤ 0.

unde Γ este funcµia lui Euler. Gra�cul acestei repartiµii (pentru diverse valori ale lui n) este reprezentatîn Figura 4.2.Media ³i dispersia sunt: E(χ2) = n, D2(χ2) = 2n.

5Ernst Hjalmar Waloddi Weibull (1887− 1979), matematician ³i inginer suedez

31

Observaµia 4.5 (a) Repartiµia χ2(n) este, de fapt, repartiµia Γ(n2 ,12).

(b) Dac v.a. independente Xk ∼ N (0, 1) pentru k = 1, 2, . . . , n, atunci

X21 +X2

2 + · · ·+X2n ∼ χ2(n).

În particular, dac X ∼ N (0, 1), atunci X2 ∼ χ2(1).

Figura 4.2: Repartiµia χ2(n) pentru patru valori ale lui n.

(8) Repartiµia Student (W. S. Gosset6), t(n) (t)

Spunem c X ∼ t(n) (cu n grade de libertate) dac densitatea de repartiµie este:

f(x; n) =Γ(n+1

2

)√nπ Γ

(n2

) (1 +x2

n

)−n+12

, x ∈ R.

E(X) = 0, D2(X) =n

n− 2.

(9) Repartiµia Fisher7, F(m, n) (f)

Spunem c X ∼ F(m, n) (cu m, n grade de libertate) dac densitatea de repartiµie este:

f(x) =

(mn )m2 Γ(m+n

2 )Γ(m2 )Γ(n2 )

xm2−1(1 + m

n x)−m+n

2 , x > 0;

0 , x ≤ 0.

E(X) =n

n− 2, D2(X) =

2n2(n+m− 2)

m(n− 2)2(n− 4).

6William Sealy Gosset (1876− 1937), statistician britanic, care a publicat sub pseudonimul Student7Sir Ronald Aylmer Fisher (1890− 1962), statistician, eugenist, biolog ³i genetician britanic

32

(10) Repartiµia Cauchy8, C(λ, µ) (f r corespondent în Matlab)

Spunem c X ∼ C(λ, µ) dac densitatea de repartiµie este:

f(x; λ, µ) =λ

π[(x− µ)2 + λ2], x ∈ R.

NU admite medie, dispersie sau momente!!!

8Augustin Louis Cauchy (1789− 1857), matematician francez

33

5 Anexa 3

Aproximarea lui π prin metoda acului lui Bu�on

Exemplu 5.1 (aproximarea lui π folosind problema acului lui Bu�on9)Consider m un parchet format din lame paralele, având l µimea a. S se a�e probabilitatea ca un acde lungime l (l < a), aruncat la întâmplare pe parchet, s ating una dintre liniile desp rµitoare aleparchetului. Simulaµi în Matlab aruncarea de 100 de ori a acului.

Soluµie: Putem reformula problema astfel:Pe un plan sunt trasate drepte paralele, astfel încât distanµa dintre oricare dou drepte al turate s �e a.Pe acest plan, se arunc la întâmplare un ac de lungime l < a. Se cere probabilitatea ca acul sa întretaie

una dintre drepte.

Poziµia acului faµ de dreptele reµelei este dat de distanµa d a mijlocului s u la o dreapt ³i unghiul θpe care îl face direcµia acului cu cea a dreptelor. Va trebui s avem d ∈ [0, a] ³i θ ∈ [0, π]. Din punct devedere teoretic, acul poate � reprezentat ca un punct în planul (θ 0 d).Mulµimea cazurilor egal posibile este:

D = {(d, θ) | 0 ≤ d ≤ a, 0 ≤ θ ≤ π}.

Mulµimea cazurilor favorabile este:

D′ = {(d, θ) ∈ D | 0 ≤ d ≤ l sin θ}.

Probabilitatea ca acul s întretaie una dintre drepte este:

P (A) =aria(D′)

aria(D)=

2l

aπ.

Din rezultatul de mai sus, se întrevede obµinerea pe cale experimental de aproxim ri ale lui π. Deexemplu, dac lu m a = 2l, atunci P (A) = 1

π . Arunc m acul de N ori ³i observ m c în m cazuri a t iatuna dintre linii. Pentru N su�cient de mare,

P (A) =1

π≈ m

N.

Bu�on a efectuat experimentul de 2000 de ori, în urma c ruia l-a aproximat pe π prin π ≈ 3.1430. ÎnMatlab, putem aproxima pe π prin problema acului lui Bu�on astfel:

function Pi = buffon(N)

clf; l = 1; a = 2;

d = a*rand(N,1); theta = pi*rand(N,1);

T = sum(d<1*sin(theta)); % contabilizeaza numarul de taieturi

Prob = T/N; % frecventa relativa

9Georges-Louis Leclerc, Comte de Bu�on (1707− 1788), naturalist ³i matematician francez

34

approxpi = 2*l/(a*Prob); % aproximarea lui pi

disp('Aproximarea lui pi este '); disp(approxpi);

Rulând codul, buffon(1e6), obµinem:

Aproximarea lui pi este 3.1421

Observaµia 5.2 (1) Secvenµa T = sum(d<1*sin(theta)); calculeaz num rul cazurilor favorabile ast-fel:(d<1*sin(theta)) furnizeaz un vector cu N componente. Componenta i a acestui vector este valoareade adev r a Propoziµiei di < l*sin(thetai). Vom obµine valoarea 1 dac propoziµia este adev rat ³i0 dac nu este. Funcµia sum calculeaz suma componentelor vectorului, adic exact num rul cazurilorfavorabile.

Figura 5.1: Problema acului lui Bu�on (N = 100).

(2) Pentru a ilustra aceste arunc ri într-un gra�c, nu vom mai putea utiliza scrierea vectorial a coordo-natelor. Pentru a obµine o �gura de genul Figura 5.1, vom modi�ca programul anterior astfel:

function Pi = buff(N)

clf; l = 1; a = 2;

L = 5 % lungimea retelei de drepte

T = 0; % initializare numar de taieturi;

for i=1:N

x = L*rand % abscisa centrului acului

d = a*rand; % ordonata centrului acului

theta = pi*rand; % unghiul theta

% ~~~~~~~~~~~~~ deseneaza acul ~~~~~~~~~~~~~~~~~~~~~~~~~~~~

plot([x-l*cos(theta)/2,x+l*cos(theta)/2],[d-l*sin(theta)/2,d+l*sin(theta)/2],'b-')

hold on;

if (d<1*sin(theta)/2 | a-d < l*sin(theta)/2) % acul taie o linie

T = T+1; % contabilizeaza nr. de taieturi

35

end

end

plot([-0.5 L+0.5] , [0,0], 'g-'); % deseneaza y = 0

plot([-0.5 L+0.5] , [a,a], 'g-'); % deseneaza y = 1

axis ([-0.5 L+0.5 -0.5 a+0.5]); % deseneaza axele

approxpi = 2*l*N/(a*T); % aproximarea lui pi

title (['Problema acului lui Buffon (n = ', num2str(N), ')']); √

(3) Dac not m cu X num rul de intersecµii ale acului cu liniile reµelei în N arunc ri (X este o variabil aleatoare), atunci aceast problem ne poate furniza un estimator statistic pentru π, acesta �ind

π̂ =2 l N

aE(X).

În Figura 5.1 am reprezentat o simulare a 100 de arunc ri ale acului pe o reµea de linii paralele.

36

Bibliogra�e

[1] Petru Blaga, Statistic . . . prin Matlab, Presa universitar clujean , Cluj-Napoca, 2002.

[2] David Brink, Statistics compendium, David Brink & Ventus Publishing ApS, 2008.

[3] David Brink, Statistics exercises, David Brink & Ventus Publishing ApS, 2008.

[4] Gheorghe Ciucu, Virgil Craiu, Teoria estimaµiei ³i veri�carea ipotezelor statistice, Editura Didactic ³i Pedagogic , Bucure³ti, 1968.

[5] Steve Dobbs, Jane Miller, Statistics 1, Cambridge University Press, Cambridge 2000.

[6] Jay L. DeVore, Kenneth N. Berk, Modern Mathematical Statistics with Applications (with CD-ROM),

Duxbury Press, 2006.

[7] Robert V. Hogg, Allen Craig, Joseph W. McKean, Introduction to Mathematical Statistics, PrenticeHall, 6th edition, 2004.

[8] Marius Iosifescu, Costache Moineagu, Vladimir Trebici, Emiliana Ursianu, Mic enciclopedie de

statistic , Editura ³tiinµi�c ³i enciclopedic , Bucure³ti, 1985.

[9] http://www.mathworks.com

[10] Gheorghe Mihoc, N. Micu, Teoria probabilit µilor ³i statistica matematic , Bucuresti, 1980.

[11] Elena Nenciu, Lecµii de statistic matematic , Universitatea A. I. Cuza, Ia³i, 1976.

[12] Octavian Petru³, Probabilit µi ³i Statistica matematic - Computer Applications, Ia³i, 2000.

[13] Sanford Weisberg, Applied Linear Regression, Wiley series in Probability and Statistics, 3rd ed.,2005.

[14] Larry J. Stephens, Theory and problems of Beginning Statistics, Schaum's Outline Series, 2nd ed.,The McGraw-Hill Companies, Inc., 1998.

[15] Dominick Salvatore, Derrick Reagle, Theory and problems of Statistics and Econometrics, Schaum'sOutline Series, 2nd ed., The McGraw-Hill Companies, Inc., 2002.

[16] Iulian Stoleriu, Statistic prin Matlab. MatrixRom, Bucure³ti, 2010.

[17] Gábor Székely, Paradoxes in Probability Theory and Mathematical Statistics, (Mathematics and itsApplications), Springer Verlag, 1987.

[18] David Williams, Weighing the Odds: A Course in Probability and Statistics, Cambridge UniversityPress, 2001.

37

http://www.mathworks.com

Documents

Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra