Teorija informacija i komunikacija – zbirka zadataka
1. LINEARNE REGRESIJE
Ako je poznat zakon raspodele slučajnih veličina (X,Y), određujemo uslovne verovatnoće u diskretnom i naprekidnom slučaju:
Ako je zavisnost među slučajnim veličinama delimična, radi se o uslovnom matematičkom očekivanju:
koje u diskretnom slučaju ima oblik:
a u neprekidnom:
Slučaj linearne regresije – aproksimativna kriva je . Linearnu regresiju možemo odrediti metodom najmanjih kvadrata. Parametre i određujemo iz uslova da funkcija
ima minimum. Dobijamo sistem jednačina:
čijim rešavanjem dolazimo do izraza za linearnu regresiju Y na X.
Ako je na raspolaganju n tačaka , traži se da funkcija:
ima najmanju vrednost.
Odatle je:
čijom se zamenom u dobija linearna regresija Y na X.
1
Teorija informacija i komunikacija – zbirka zadataka
Zadaci1.1. Odrediti srednje kvadratnu regresionu pravu Y na X na osnovu zadate tabele podataka:
x 1 3 4 6 8 9 11 14
y 1 2 4 4 5 7 8 9
Rešenje:
x y xi2 xiyi
1 1 1 13 2 9 64 4 16 166 4 36 248 5 64 409 7 81 6311 8 121 8814 9 196 126
Σ 56 40 524 364
1.2. Za podatke u tabeli odrediti regresiju Y na X.xi yi xiyi
1 1.25 1 1.251.5 1.4 2.25 2.13 1.5 9 4.5
4.5 1.75 20.25 7.8755 2.25 25 11.25
Rešenje:
Zadaci rađeni u excelu, Prilog 1.
2
Teorija informacija i komunikacija – zbirka zadataka
2. INTERVALNE OCENE PARAMETARA
Ocena nepoznatog parametra u raspodeli obeležja populacije se može vršiti i tako što se na osnovu slučajnog uzorka određuje interval u kome se nalazi taj parametar:
,
gde je 1 – koeficijent pouzdanosti.
Interval poverenja za nepoznato matematičko očekivanje m (X:N(m,)):
je širina intervala, a je uzoračka sredina.
Za dati nivo poverenja 1 – , t se određuje iz tablice:
1 – 0.8 0.9 0.95 0.96 0.98 0.99
t 1.28 1.645 1.96 2.05 2.33 2.58
Interval poverenja za nepoznato m i
Da bi se dobila ocena za nepoznato m koristi se veličina (gde je uzoračka
standardna devijacija), koja ima Studentovu raspodelu sa n – 1 stepenom slobode. Na osnovu tablica ove raspodele (za dati nivo poverenja i dati broj stepena slobode) interval poverenja je:
Za određivanje intervalne ocene za nepoznatu varijansu 2 populacije, koriste se tablice 2 (hi-kvadrat) raspodele, sa n – 1 stepenom slobode i dati nivo poverenja 1 – , određuju se i
tako da je:
; , ,
Zadaci
2.1. Iz normalno raspoređenog obeležja populacije, izvučen je uzorak obima 17 za koji je izračunato i . Za 1 – = 0.95, n – 1 = 16 stepeni slobode odrediti interval poverenja za nepoznato matematičko očekivanje.
Rešenje:
3
Teorija informacija i komunikacija – zbirka zadataka
NAPOMENA: to je tablična vrednost, koristi se tablica III, Studentova t raspodela za vrednosti α, n-1
2.2. Na osnovu uzorka od 15 elemenata sa uzoračkom aritmetičkom sredinom od 20 i standardnim odstupanjem od 0.5, naći 98% interval poverenja za matematičko očekivanje.
Rešenje:
2.3. Merenja prečnika slučajnog uzorka od 20 kuglica, koje izrađuje izvesna mašina, imaju aritmetičku sredinu 0,824dm i standardno odstupanje 0,042dm. Naći 95% interval poverenja za srednju vrednost prečnika svih kuglica.
Rešenje:
2.4 Na slučajan način je odabrano 5 automobila, koji su putovali određenog dana između Trgova Slavije i Terazija u Beogradu i uočena su njihova vremena putovanja u minutima: 4; 3.35; 3.18; 2.89; 3.6. Konstruisati interval poverenja za srednje vreme putovanja, koristeći koeficijent pouzdanosti 0,98.
Rešenje:
4
Teorija informacija i komunikacija – zbirka zadataka
2.5. Prilikom 7 kvarova jedne mašine izmereni časovi neprekidnog rada mašine su: 53, 48, 50, 54, 51, 50, 51. Pretpostavljajući da broj časova rada do kvara ima normalnu raspodelu, naći 99% interval poverenja za srednji broj časova neprekidnog rada mašine.
Rešenje:
2.6. Izvedeno je 4 nezavisna merenja dubine okeana na određenom reonu i dobijeni su sledeći rezultati (u km): 4.33, 4.58, 4.47, 4.5. Odrediti interval pouzdanosti s koeficijentom pouzdanosti 0.99 za srednju dubinu okeana u tom reonu.Rešenje:
2.7. U jednom eksperimentu lekara ispitivana je dužina sna pacijenata, koji su lečeni od određene bolesti. Na slučajan način je izabrano 4 pacijenta i izmereno vreme (u minutama) spavanja ovih
5
Teorija informacija i komunikacija – zbirka zadataka
pacijenata: 435, 458, 450, 480. Ako se prihvati da vreme spavanja ima normalnu raspodelu, oceniti srednje vreme spavanja pacijenata 99% intervalom pouzdanosti.Rešenje:
2.8. Visine 13 stabala kukuruza u centimetrima iznose: 180, 115, 220, 180, 250, 190, 185, 210, 160, 210, 200, 180, 190. Naći 95% interval poverenja za srednju vrednost generalne populacije.Rešenje:
2.9. Istraživanjem mesečnih primanja studenata (u desetinama dinara) dobijeno je: p 15-25 25-35 35-45 45-55 55-65 65-75 75-85 85-95 95-105
f 3 5 11 15 9 7 9 3 2Uz pretpostavku da je visina primanja X: N(m,20), odrediti 98% interval poverenja za srednju vrednost primanja studenata.Rešenje:
Klase fi xi fixi (xn-xi)2 fi(xn-xi)2
15-24 3 19.5 58.5 1336.63 4009.9025-34 5 29.5 147.5 705.43 3527.1735-44 11 39.5 434.5 274.23 3016.57
6
Teorija informacija i komunikacija – zbirka zadataka
45-54 15 49.5 742.5 43.03 645.5055-64 9 59.5 535.5 11.83 106.5065-74 7 69.5 486.5 180.63 1264.4475-84 9 79.5 715.5 549.43 4944.9085-94 3 89.5 268.5 1118.23 3354.7095-104 2 99.5 199 1887.03 3774.07
64 3588 24643.8
Zadaci rađeni u excelu, Prilog 2.
7
Teorija informacija i komunikacija – zbirka zadataka
3. TESTIRANJE STATISTIČKIH HIPOTEZA
Statistička hipoteza (H: A) je bilo koja pretpostavka o tome da obeležje X ima raspodelu koja pripada nekom podskupu A skupa dopustivih raspodela (F(x, )). Nasuprot njoj je tzv. alternativna hipoteza H: AC.
Hipoteza se pored oblika raspodele obeležja može odnositi i na:
vrednost nekog parametra kod raspodele jednakosti parametara dve ili više raspodela nezavisnost uzoraka jednakosti raspodela dva različita obeležja
Hipoteza može biti prosta, ako je A jednočlan skup, ili složena, ako se sastoji od više prostih hipoteza.
Za verifikaciju hipoteza koristi se statistički test:
za određenu hipotezu H uoči se skup CRn – kritična oblast za H (kritična oblast testa) ako realizovani uzorak (X1,X2,...,Xn) pripada oblasti C, hipoteza H se odbacuje ako (X1,X2,...,Xn) ne pripada oblasti C, hipoteza se ne odbacuje, već se tumači: "rezultati
testiranja ne protivureče hipotezi H".
U postupku verifikacije hipoteze mogu se javiti dve osnovne vrste grešaka:
greška prve vrste – opovrgnuta tačna hipoteza
greška druge vrste – prihvaćena netačna hipoteza
Verovatnoća pojave greške prve vrste se označava sa i zove nivo značajnosti, najčešće 0.05 ili 0.01.
Parametarski testoviZa proveru hipoteza koje se odnose na vrednosti parametara u raspodeli koriste se parametarski testovi, npr:
Testiranje hipoteze H0(m=m0) protiv hipoteze H1(mm0) kada je disperzija poznata (obeležje populacije X:N(m, ))
Ako je * hipoteza H se odbacuje, u suprotnom uzorak ne protivureči hipotezi.
Testiranje hipoteze H0(m=m0) protiv hipoteze H1(mm0) kada disperzija nije poznata
Računa se odgovarajuća vrednost iz uzorka:
Koja se poredim sa iz tablica Studentove raspodele. Ako je: hipoteza H se odbacuje, u protivnom konstatuje se da rezultat iz uzorka ne protivureči toj hipotezi.
8
Teorija informacija i komunikacija – zbirka zadataka
Neparametarski testoviStatistički testovi vezani za oblik funkcije raspodele obeležja populacije se zovu neparametarski testovi. Najpoznatiji među njima je Pirsonov 2 test. Potrebno je:
skup svih mogućih vrednosti obeležja X (realna osa u opštem slučaju) podeliti na r disjunktnih podskupova (intervala), S1, S2, ... , Sr (r2)
odrediti verovatnoće pk i verovatnoće da vrednosti obeležja X budu u intervalu Sk, k=1,2,...,r
sa mk se označi broj xj iz uzorka koji su u Sk, pa je obim uzorka
Za dati nivo značajnosti kritična oblast je skup tačaka za koje je
Hipoteza se odbacuje ako je . Da bi se primenio ovaj test, obim uzorka mora da je bar n50, zatim skupove Sk odrediti tako da je r što veće, ali i da je mk 5, k=1,2,...,r.
Zadaci
3.1. Aritmetička sredina veka trajanja 100 sijalica uzetih iz produkcije je 1570 časova, sa standardnim odstupanjem od 120 časova. Ako je m srednja, očekivana dužina trajanja sijalica iz te fabrike testirati hipotezu H: m=1600 časova, uz nivo značajnosti =0.01.
Rešenje:
Hipoteza H se prihvata!(Uzorak ne protivureči hipotezi!)
3.2. Iz produkcije je izvučen uzorak od 90 proizvoda i izmeren je dijametar svakog od njih. Nakon izračunavanja je dobijeno . Može li se na osnovu toga zaključiti da proizvodnja daje proizvode nominalnog dijametra od 12mm uz pretpostavku da se radi o normalnoj raspodeli sa standardnom devijacijom i ako je zadat nivo značajnosti od 5%?
Rešenje:
9
Teorija informacija i komunikacija – zbirka zadataka
Hipoteza se odbacuje!
3.3. Na osnovu uzorka obima 100 dobijeno je da je srednje vreme rada jedne vrste tranyistora jednaka sa standarsnim odstupanjem . Sa rizikom , testirati hipotezu H:(m=2000).
Rešenje:
Hipoteza H se prihvata!(Uzorak ne protivureči hipotezi!)
3.4. Iz normalno raspoređenog obeležja populacije je uzet uzorak obima n = 20 za koji je dobijeno i . Uz nivo značajnosti 5% proveriti hipotezu H : m = 15.
Rešenje:
Hipoteza H se prihvata!(Uzorak ne protivureči hipotezi!)
NAPOMENA: Vrednost t'19,0.05 pronaći u dodatku C u tablici III!
10
Teorija informacija i komunikacija – zbirka zadataka
3.5. Iz normalno raspoređenog obeležja populacije je uzet uzorak obima n = 10 za koji je dobijeno i . Uz nivo značajnosti 1% proveriti hipotezu H : m = 0.
Rešenje:
Hipoteza se odbacuje!
3.6. Mašina je podešena da proizvodi ploče debljine 0.5cm. Radi provere uzeto je 10 ploča i dobijena je aritmetička sredina uzorka 0.53cm i standardno odstupanje 0.03cm. Testirati hipotezu da mašina proizvodi ploče propisane debljine s rizikom značajnosti 0.05.
Rešenje:
Hipoteza se odbacuje!
3.7. Proizvođač tvrdi da njegova užad u proseku mogu izdržati opterećenje od 8000kg. Na slučajan način je izabrano 6 užadi za koje je aritmetička sredina opterećenja 7750kg sa standardnim odstupanjem 145kg. Može li se verifikovati tvrđenje proizvođača sa nivoom značajnosti od 5%.
Rešenje:
11
Teorija informacija i komunikacija – zbirka zadataka
Hipoteza se odbacuje!
Zadaci rađeni u excelu, Prilog 3.
12
Teorija informacija i komunikacija – zbirka zadataka
4. NEJEDNAKOST ČEBIŠEVA
Ako slučajna promeljiva ima konačnu disperziju, onda je:
, ODNOSNO
gde je proizvoljan pozitivan broj.
Zadaci:4.1. Diskretna slučajna promenljiva ima raspodelu verovatnoća: . Oceniti
pomoću nejednakosti Čebiševa.
Rešenje:
4.2. Slučajna promenljiva ima raspodelu verovatnoća: . Oceniti
pomoću nejednakosti Čebiševa.
Rešenje:
4.3. Iz i D(X)=0.09 odrediti .
Rešenje:
4.4. Slučajna promenljiva X ima E(X)=1 i standardno odstupanje 0.2.Pomoću nejednakosti Čebiševa oceniti 0.5<X<1.5.
Rešenje:
13
Teorija informacija i komunikacija – zbirka zadataka
4.5. Slučajna promenljiva X ima E(X)=2 i standardno odstupanje 1. Pomoću nejednakosti Čebiševa oceniti p(-3<X<7).
Rešenje:
4.6. Matematičko očekivanje E(X) brzine vetra na datoj visini je 25 km/h, dok je standardno odstupanje σ = 4,5 km/h. Kolike se brzine vetra mogu očekivati na toj visini sa verovatnoćom ne manjom od 0,9?
Rešenje:
Zadaci rađeni u excelu, Prilog 4.
14
Teorija informacija i komunikacija – zbirka zadataka
5. STATISTIKA POMOĆU MICROSOFT EXCEL-A
Različita, često veoma dugotrajna izračunavanja, kao i predstavljanja podataka i rezultata u statistici, mogu se u značajnoj meri olakšati korišćenjem mogućnosti programa Microsoft Excel-a. Naime, među 320 ugrađenih funkcija svrstanih u 11 grupa, u ovom programu je i 77 funkcija namenjenih statističkoj obradi podataka. Ove su funkcije sistematizovane prema zadatku koji obavljaju u sledeće grupe:
- za sortiranje podataka (13 funkcija). Tako recimo:COUNT - određuje koliko se brojeva nalazi na listi argumenata, SMALL - izračunava k-tu najmanju vrednost u skupu podataka, MIN - utvrđuje najmanju vrednost u listi argumenata, itd.
- za sredine i odstupanja (16 funkcija). FunkcijaAVERAGE služi za određivanje aritmetičke sredine za zadate argumente, GEOMEAN služi za izračunavanje geometrijske sredine,MODE – utvrđuje vrednost koja se najčešće javlja u seriji podataka, STDEVP utvrđuje standardnu devijaciju zadate populacije,itd.
- za distribucije i ocene (37 funkcija). Među njima, recimo:CONFIDENCE daje interval poverenja u slučaju da je poznata sredina obeležja, TDIST izračunava Studentovu t- raspodelu, POISSON daje raspodelu Poisson-a,CHIDIST daje jednostranu verovatnoću kod χ2 raspodele, itd.
- za trendove i korelacije (11 funkcija). Pomoću funkcije:CORREL izračunava se koeficijent korelacije za dve serije podataka;FORECAST izračunava vrednosti duž linearnog trenda,LINEST utvrđuje parametre linearnog trenda, itd.
U meniju Help Excel-a mogu se naći ove funkcije, kao i detaljna uputstva o značenju, nameni i načinu njihovog korišćenja. Čitaoci se, takođe, upućuju na izvore iz literature |13| i |14| .
15
Teorija informacija i komunikacija – zbirka zadataka
P R I L O Z I
16
Teorija informacija i komunikacija – zbirka zadataka
Prilog 1.Određivanje regresione prave u Excelu
Za izračunavanje parametara regresione prave (odsečka i nagiba) koriste se dve funkcije u Excelu, SLOPE i INTERCEPT . Sintaksa ovih funkcija je:
SLOPE(known_y’s, known_x’s) pri čemu se izračunava nagib linearne regresije ( ) po formuli koja koristi metodu najmanjih kvadrata za utvrđivanje aproksimacije:
INTERCEPT(known_y’s, known_x’s) pri čemu se izračunava odsečak linearne regresione linije ( ) po formuli koja koristi metodu najmanjih kvadrata za utvrđivanje aproksimacije:
U obe funkcije je:
known_y’s skup empirijskih podataka za y, a
known_x’s je proizvoljan skup podataka za x.
Regresiona prava ima oblik:
Zadaci:1. Izračunati regresionu pravu za podatke date u tabeli 1.2. Izračunati regresionu pravu za podatke date u tabeli 2.
Tabela 1
x 1 3 4 6 8 9 11 12
y 1 2 4 4 5 7 8 9
Tabela 2x 1 3 4 6 8 9 11 14y 1 2 3 4 5 7 8 9
Urađen zadatak u Excelu
17
Teorija informacija i komunikacija – zbirka zadataka
Prilog 2.Određivanje intervala poverenja u Excelu
Za izračunavanje intervala poverenja u Excelu koristi se funkcija CONFIDENCE.
Sintaksa ove funkcije je:
CONFIDENCE(alpha, standard_dev,size), pri čemu su:
= nivo značajnosti korišten za izračunavanje intervala poverenja. Nivo poverenja je 100 % što znači da ako je =0,05 nivo poverenja je 95%.
Standard_dev je standardno odstupanje serije podataka od njene sredine i izračunava se pomoću formule:
Size je veličina uzorka (n).
Interval poverenja se računa kao:
[aritmetička sredina – dobijena vrednost funkcije;
aritmetička sredina + dobijena vrednost funkcije].
Zadaci:1. Poznato je da vek trajanja sijalica jedne serije ima normalnu raspodelu. Iz te serije sijalica
na slučajan način je izabrano 25 sijalica i vek trajanja ovih sijalica (u satima) bio je: 2630, 2820, 2900, 2810, 2770, 2840, 2700, 2950, 2690, 2720, 2800, 2970, 2680, 2660, 2820, 2580, 2840, 3020, 2780, 2920, 3060, 2840, 2550, 2790, 2850. Koristeći koeficijent pouzdanosti 0.98 naći interval pouzdanosti za srednji vek sijalica ove serije.
2. Visine 13 stabala kukuruza u centimetrima iznose: 180, 115, 221, 180, 256, 190, 185, 210, 160, 210, 206, 180, 192. Naći 95% interval poverenja za srednju vrednost generalne populacije.
18
Teorija informacija i komunikacija – zbirka zadataka
Prilog 3.
Testiranje hipoteza o značajnosti razlika srednjih vrednosti testa
Na osnovu rezultata testiranja preciznosti i brzine dveju grupa studenata proveriti hipotezu: Da li se primenom savremenih metoda nastave poboljšavaju obrazovni efekti nastave. U vezi sa ovim izvršeno je testiranje hipoteze o značajnosti razlika prosečnih vrednosti ovih rezultata. Prema uslovima u posmatranom problemu (mali uzorak, između aritmetičkih sredina ne postoji korelacija) potrebno je odrediti t vrednost:
gde su:
– aritmetičke sredine broja bodova postignutih na testu preciznosti za prvu i drugu grupu studenata redom,
– broj ispitanika.
U ovom slučaju je:
Broj stepeni slobode iznosi, u ovom slučaju, ukupan broj ispitanika smanjen za broj grupa, tj. stepeni slobode i rizik od 1% t vrednost 2.76, što je manje od dobijene vrednosti,
potvrđena je hipoteza o značajnosti razlike u srednjim vrednostima. Ovo znači, da su rezultati testa preciznosti druge grupe studenata, koja je koristila sistem UND za praćenje gradiva, značajno bolji u odnosu na prvu grupu studenata koja je nastavu pratila na tradicionalan način.
Što se tiče testova brzine, rezultati testiranja hipoteza su sledeći:
Broj stepeni slobode iznosi, u ovom slučaju, ukupan broj ispitanika smanjen za broj grupa, tj. stepeni slobode i rizik od 1% t vrednost 2.76, što je manje od dobijene vrednosti,
potvrđena je hipoteza o značajnosti razlike u srednjim vrednostima. Ovo znači, da su rezultati testa brzine druge grupe studenata, koja je koristila sistem UND za praćenje gradiva, bolji u odnosu na prvu grupu studenata koja je nastavu pratila na tradicionalan način.
Prva 2 pitanja deskriptivnog skalera odnose se na prvi test koji proverava preciznost studenata pri rešavanju zadataka, treće pitanje se odnosi na test brzine, dok poslednja dva daju informacije o načinu realizacije praktičnog dela usvajanja znanja, tj. vežbanja. I ovde postoji potreba da se utvrdi značajnost razlike za ukupne rezultate. Dobijene su sledeće vrednosti:
19
Teorija informacija i komunikacija – zbirka zadataka
Broj stepeni slobode iznosi, u ovom slučaju, ukupan broj ispitanika smanjen za broj grupa, tj. stepeni slobode i rizik od 1% t vrednost 2.76, što je veće od dobijene vrednosti,
što znači da hipoteza nije potvrđena o značajnosti razlike u srednjim vrednostima za faktor rizika od 1%. Za faktor rizika od 5% t vrednost je 2.05 što je manje od dobijene vrednosti, što znači da je glavna hipoteza istraživanja potvrđena, što se može tvrditi sa sigurnošću od 95% i rizikom od 5%.
Napomena:
Izračunati aritmetičku sredinu i standardnu devijaciju na osnovu podataka u tabeli.
20