27
3/12/2014 1 Статистика Ђорђе М. Кадијевић Лични сајт: www. mi.sanu.ac.rs/~djkadij Контакт: [email protected] На врху поруке обавезно навести - име и презиме, - број индекса, - о ком се предмету ради, као и - место студирања (нпр. Пожаревац) Основне информације Литературу за курс ће чинити 80100 слајдова. Ти слајдови ће, како курс буде одмицао, бити доступни на адреси: www.mi.sanu.ac.rs/~djkadij/Statistika.pdf Први колоквијум (без коришћења рачунара) биће одржан 28. априла, а други колоквијум (са коришћењем рачунара) 9 јуна. Студент може положити испит и без коришћења рачунара, али је тада највећа оцена 8. Оцене 9 и 10 намењене су студентима који за статистичке анализе и друге примене статистике солидно користе рачунар (нпр. додатак за програм Microsoft Excel под називом EZAnalyze). Корисна књига за подршку раду у мају и јуну (рад на личном рачунару): Кадијевић, Ђ. М. (2012). Емпиријска истраживања: методолошке и статистичке основе. Београд: Завод за уџбенике.

Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први колоквијум (без коришћења рачунара) биће одржан 28

  • Upload
    trinhtu

  • View
    229

  • Download
    3

Embed Size (px)

Citation preview

Page 1: Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први колоквијум (без коришћења рачунара) биће одржан 28

3/12/2014

1

Статистика

Ђорђе М. КадијевићЛични сајт: www. mi.sanu.ac.rs/~djkadij

Контакт: [email protected]

На врху поруке обавезно навести- име и презиме,- број индекса,- о ком се предмету ради, као и- место студирања (нпр. Пожаревац)

Основне информацијеЛитературу за курс ће чинити 80–100 слајдова. Ти слајдови ће, како курс буде одмицао, бити доступни на адреси:

www.mi.sanu.ac.rs/~djkadij/Statistika.pdf

Први колоквијум (без коришћења рачунара) биће одржан 28. априла,а други колоквијум (са коришћењем рачунара) 9 јуна.

Студент може положити испит и без коришћења рачунара, али је тада највећа оцена 8. Оцене 9 и 10 намењене су студентима који за статистичке анализе и друге примене статистике солидно користе рачунар (нпр. додатак за програм Microsoft Excel под називом EZAnalyze).

Корисна књига за подршку раду у мају и јуну(рад на личном рачунару):Кадијевић, Ђ. М. (2012). Емпиријска истраживања:

методолошке и статистичке основе. Београд:Завод за уџбенике.

Page 2: Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први колоквијум (без коришћења рачунара) биће одржан 28

3/12/2014

2

Садржај курса

Увод у курс, статистика у медијима

Приказивање података, основне статистике

Вероватноћа, условна вероватноћа

Нормална и друге расподеле

Логика истраживања и статистичког закључивања

Упоређивање фреквенци

Први колоквијум (без коришћења рачунара)

Упоређивање средњих вредности

Корелација

Моделирање са симулацијом

Истраживање података

Други колоквијум (са коришћењем рачунара)

Основни типови задатакаПредстављање података

1. Приказати податке из дате табелена прикладан графички начин.

2. У протеклих 5 година улагање у један посао доносило је следећу зараду: 10% (пре 5 година), 8%, 4%, 16% и 12% (претходне године). Колику би зараду, у просеку, требало очекивати од тог посла и уз колики ризик?

Вероватноћа

1. Од 12 чланова студентског парламента, 5 су женског пола. Колика је вероватноћа да се изабере председник, заменик и секретар парламента тако да само заменик буде мушког пола?

2. Од 7 представника студената, 3 су женског пола. Колика је вероватноћа да трочлану делегацију чине студенти истог пола.

Условна вероватноћа Уређај се прави у два погона, при чему се 60% уређаја прави у првом. Ако су вероватноће дефектног производа у овим погонима редом 10% и 5%, одредити: (а) вероватноћу да је случајно изабрани производ дефектан, б) вероватноћу да је дефектан производ направљен у другом погону.

Нормална расподела Од 10 000 € инвеститор улаже у банку 60% а 40% у ризичну пољопривредну производњу. Нека је зарада од улагања у банку 5%, а зарада од улагања у ту производњу 50% при ризику од 20%. При нормалној расподели зараде од ризичне производње, колика се зарада може очекивати са вероватноћом од приближно 95%?

Page 3: Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први колоквијум (без коришћења рачунара) биће одржан 28

3/12/2014

3

... наставак

Логика истраживања и статистичког закључивања Изабраном питању придружити хипотезе. Ако је тестирање нулте хипотезе довело до вероватноће 0.08, какав би одговор требало дати на полазно питање? Питање се односе на упоређивање фреквенци, упоређивање просечних вредности или неку повезаност.

Упоређивање фреквенци У 100 компанија (случајан и репрезентативан узорак) посматрано је да ли се користе савремене стратегије менаџмента. Доња табела приказује резултат тог посматрања.

Шта би требало закључити из ових података? Одговор образложити имајући у виду полазно питање, њему придружене хипотезе, као и резултате тестирања нулте хипотезе. Ако је у задатку дато да 20% од 50 испитаника женског пола жели савременије руковођење, док 30% од 60 испитаника мушког пола тражи то исто, табела попут горње би садржала следеће апсолутне фреквенце: 10 (да), 40 (не) код жена; 18 (да), 42 (не) код мушкараца. Дакле, задатак сводимо на табелу контингенције 2 х 2 и користимо Хи-квадрат тест.

... наставакУпоређивање просечних вредности, корелација За податке из следеће табеле (коришћен је случајан и репрезентативан узорак):

дати образложене одговоре на следећа питања:- Да ли је, у просеку, принос генетски модификованог усева већи од приноса немодификованог усева?- Да ли је принос линеарно повезан са количином влаге у земљишту?У образложењу одговора навести хипотезе H0 i H1 које одговарају разматраном питању, резултате статистичке анализе којом је тестирана нулта хипотеза, као и одлуку коју би хипотезу (H0 или H1) требало прихватити на основу тих резултата. (Користити додатак програму Microsoft Excel под називом EZAnalyze.)

Симулација Ако су трошкови производње кукуруза 500 €/ха, колика је вероватноћа да зарада буде барем 1 000 €/ха ако је уочено да принос кукуруза има нормалну расподелу (М = 8 000 кг/ха, SD = 1 000 кг/ха) а откупна цена троугаону расподелу (a = 0.20, b = 0.25, мод = 0.22). Вероватноћу одредити на бази 100 симулација. (Користити додатак програму Microsoft Excel под називом SimTools.)

Истраживање података (Анализа потрошачке корпе – условна вероватноћа) Анализирано је 10 000 трансакција и при томе је утврђено да је куповина производа А евидентирана у 2 000 трансакција, куповина производа Б у 3 000 трансакција, а куповина производа А и Б у 1 500 трансакција. Колики је ниво поверења правила „Ако је купљен производ Б, онда је купљен и производ А”? (Може се користити и додатак програму Microsoft Excel под називом XLMiner.) Нека предикција на бази временске серије (анализа тренда, покретни просеци или експоненцијално изравнавање у програму Microsoft Excel)

Page 4: Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први колоквијум (без коришћења рачунара) биће одржан 28

3/12/2014

4

Статистика у медијимаИз дневног листа Политика (од 11.01.2014.)

Резултати Студије „Милион жена”, коју води Универзитет Оксфорд, а која истражује појаву рака код жена и друге здравствене проблеме, показала је да су припаднице нежнијег пола из јужне Азије имале 18 одсто мање шансе да добију рак дојке од дама беле пути, док су црнкиње имале 15 одсто мањи ризик од појаве ове болести....У истраживању, које је објављено у Британском журналу за проучавање рака, учествовало је више од милион белкиња, од 50 до 64 године, заједно са око 6.000 жена јужне Азије и око 5.000 црнкиња. Научници сматрају да рађање већег броја деце и дојење помажу женама у заштити од добијања рака дојке, а испитивање је показало да су белкиње у просеку имале 2,1 деце, оне из јужне Азије 2,7, а црнкиње 2,9. С друге стране, више од 83 одсто дама тамније пути је дојило своје бебе у поређењу са белкињама које су то чиниле у 69 одсто случајева....Када је реч о конзумирању алкохола као фактору ризика који је изменљив, истраживање је показало да 75 одсто жена јужне Азије не пије, у поређењу са 38 одсто црнкиња и само 23 одсто белих жена....Професор др Радан Џодић, директор Института за онкологију и радиологију Србије, сматра да је све у објављеној студији тачно и одлично урађено, јер су чињенице да су људи беле расе већег социоекономског статуса, да су алкохол, гојазност, рађање после 30. године или нерађање и изостанак дојења познати фактори ризика за настанак рака дојке.

http://www.politika.rs/rubrike/Drustvo/Alkohol-i-neradjanje-uticu-na-pojavu-raka-dojke.sr.html

Негативне стране прилога? Какоби прилог требало да изгледа?

Приказивање података

http://infolific.com/technology/internet/seo-lie-factor/

27.00%

29.00%

31.00%

33.00%

35.00%

Google Yahoo MSN

% of traffic

0.00%

10.00%

20.00%

30.00%

40.00%

50.00%

Google Yahoo MSN

% of traffic

Који од горњих дијаграма даје коректан приказ налаза?

Не 3-D графикони!

Page 5: Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први колоквијум (без коришћења рачунара) биће одржан 28

3/12/2014

5

Задаци

1. Преузети из дневних или недељних новина прилог који се односи на статистику и указати на мањкавости тог прилога (обично постоје неки недостаци).

2. Користећи погодну литературу, указати на то како се подаци најчешће сумарно приказују табелама, графиконима и нумерички.

Koriscenje savremenih strategija menadzmenta

01020304050

Drzavne firme Privatne firme

da

ne

Да ли су подаци из табелеадекватно представљенина графикону?

Примери табела и графикона

Prinos (u t/ha)

02468

10

Hibrid ZP45 Hibrid RA11

Prinos (u t/ha)Hibrid ZP45 8.45Hibrid RA11 9.2

Profit 2013Beograd 570,000.00 €Novi Sad 450,000.00 €Kragujevac 370,000.00 €

Profit 2013

41%

32%

27%BeogradNovi SadKragujevac

Cena Broj kupaca2.50 € 10,0003.00 € 8,0003.50 € 7,0004.00 € 5,0004.50 € 4,0005.00 € 3,000

Broj kupaca

02,0004,0006,0008,000

10,00012,000

2.50 € 3.00 € 3.50 € 4.00 € 4.50 € 5.00 €

Broj obolelih (u %)

14.00%

15.00%

16.00%

17.00%

18.00%

2011 2012 2013

Broj obolelih (u %)2011 15.00%2012 16.00%2013 18.00%

Trebalo bi krenuti od 0%!

Page 6: Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први колоквијум (без коришћења рачунара) биће одржан 28

3/12/2014

6

... наставак

Drzavne firme Privatne firmeda 30 35ne 40 15

Drzavne firme Privatne firmeda 43% 70%ne 57% 30%

Koriscenje savremenih strategija menadzmenta

01020304050

Drzavne firme Privatne firme

dane

Koriscenje savremenih strategija menadzmenta

0%

20%

40%

60%

80%

Drzavne firme Privatne firme

Трагедија Челинџера 1986. год.

The official recommendation from the rocket manufacturer to NASA stated that the temperature data were not conclusive in predicting O-ring damage. ... The Rogers Commission also noted that a mistake had been made in the analysis of the historical data.

Извор:www.stat.nthu.edu.tw/~swcheng/Teaching/stat5230/lab/02.01_BinomialData_inference.htm,Wikipedia, текст Challenger Space Shuttle Activity

Које податке анализирати? Температура при лансирању је била 31ºF.

Page 7: Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први колоквијум (без коришћења рачунара) биће одржан 28

3/12/2014

7

Адекватан или неадекватан приказ података?

The standard required an increase in mileage from 18 to 27.5, an increase of 53%. The magnitude of increase shown in the graph is 783%, which results in a lie factor of 14.8!

Видети на: http://www.infovis-wiki.net/index.php?title=Lie_Factor

Основни типови графикона

• Стубичасти графикон

• Линијски графикон – полигон разматраних вредности

• Кружни или секторски графикон

• X-Y графикон (дијаграм распршења)

• Берзански графикони

Page 8: Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први колоквијум (без коришћења рачунара) биће одржан 28

3/12/2014

8

• Хистограм (уочавање типа расподеле вредности варијабле)

0

5

10

15

20

25

3 6 9 12 15 18 More

Uce

stal

ost

Prosecna dnevna temperatura

Raspodela prosecnih dnevnih temperatura u prolece 2012. god.

0

5

10

15

20

25

-0.1 2.6 5.3 8 10.7 13.4 16.1 18.8 21.5 More

Uce

stal

ost

Prosecna dnevna teperatura

Raspodela prosecnih dnevnih temperatura u prolece 2012. god.

Који најадекватније приказује разматрану расподелу? Обично је то тешко рећи, па се зато користи график густине расподеле добијен применом помоћу методе функције језгра. Marković, Đ., Plavšić, J., Stanić. M., Sekulić, G. (2011). Neparametarske funkcije raspodele u hidrologiji. Vodoprivreda, 43, 1–3, str. 13–22. Internet: http://scindeks-clanci.ceon.rs/data/pdf/0350-0519/2011/0350-05191103013M.pdf

0 10 20 30

0.00

0.02

0.04

0.06

0.08

Од програма Excel, преко програма SPSS

до програма R.

• Бокс дијаграм (box diagram)

Линије на графикону представљају минимум, доњи квартил, медијану, горњи квартил и максимум. (За податке 1, 2, 2, 5, 10, 20, 20, 25, 26 ове карактеристике су 1, 2, 10, 20 и 26, док су за податке 3, 3, 5, 7, 12, 18, 24, 33 те карактеристике 3, 4, 9.5, 21 и 33. Дакле, 25% података је до доњег квартила, 50% података до медијане, док је 75% до горњег квартила.) Такође се, ако их има, приказују и подаци који одударају од осталих података (тзв. outliers).

Page 9: Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први колоквијум (без коришћења рачунара) биће одржан 28

3/12/2014

9

Просечна вредност, варијанса,стандардно одступање

Ако је узорак обима n, узорачка средина и поправљена узорачка варијанса израчунавају се, редом, по формулама:

при чему су x1, x2, …, xn измерене вредности разматране варијабле. Стандардно одступање (девијација) једнака је вредности квадратног корена из варијансе. (Овим формулама одговарају Excel функције AVERAGE, VARP, STDEVP.)

Задатак. У протеклих 5 година улагање у један посао доносило је следећу зараду: 10% (пре 5 година), 8%, 4%, 16% и 12% (претходне године). Колику би зараду, у просеку, требало очекивати од тог посла и уз колики ризик? Одговор: 10% уз ризик од 4%.

Медијана

Нека су вредности разматраног обележја (варијабле) уређене у неопадајући низ x1 ≤ x2 ≤ … ≤xn. Узорачка медијана једнака је

вредности која се налази у средини тог низа. На пример, за вредности 3, 6, 7, 8 и 11 медијана је 7, док је за вредности 3, 7, 10 и 20 медијана 8.5 (тј. просечна вредност средишњих података 7 и 10). Одговарајућа Excel функција је MEDIAN.

Пример. Ако су плате у неком предузећу (у €):200, 300, 300, 300, 400, 300, 200, 300, 200, 300, 200, 200, 1 000 и1 300, просечна вредност је скоро 400 EUR, па би се могло закључити да радници имају задовољавајуће плате. То ипак није тачно јер је медијана платâ у овом предузећу само 300 EUR.

Просечна вредност vs. медијана. Користити статистику која даје адекватнију меру централне тенденције података!

Page 10: Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први колоквијум (без коришћења рачунара) биће одржан 28

3/12/2014

10

Решени задаци

1. Одредити средишњу вредност и дисперзију за следеће вредности варијабле старост: 23, 29, 44, 20, 45, 54, 25, 64.Oдговор: М=38, s2=227, SD ≈ 15; Меd=36.5, Min=20, Max=64.

2. Од 10 000 € инвеститор улаже у банку 60% а 40% у ризичну пољопривредну производњу. Нека је зарада од улагања у банку 5%, а зарада од улагања у ту производњу 50% при ризику од 20%. При нормалној расподели зараде од ризичне производње, колика се зарада може очекивати са вероватноћом од приближно 95%? Одговор: (а) очекивана зарада је 0.6 · 5% + 0.4 · 50% = 23%, при ризику од 0.6 · 0% + 0.4 · 20% = 8%; вероватноћа од око 95% значи да се зарада креће од 7% (23% – 2 · 8%) до 39% (23% + 2 · 8%) тј. да ће бити између 700 € и 3 900 €; (б) зарада од улагања у банку износи 300 € (5% од 6 000 €); зарада од улагања у ризичан бизнис иде од 400 € (10% од 4 000 €) до 3 600 € (90% од 4 000 €); очекивана зарада је између 700 € и 3 900 €.

3. Од 12 чланова студентског парламента, 5 су женског пола. Колика је вероватноћа да се изабере председник, заменик и секретар парламента тако да само заменик буде мушког пола?Oдговор: број повољних избора је 5 · 7 · 4; број свих избора је 12 · 11 · 10; тражена вероватноћа = 7 /66.

4. Од 7 представника студената, 3 су женског пола. Колика је вероватноћа да трочлану делегацију чине студенти истог пола? Oдговор: женских делегација има 3 · 2 · 1 / 3 · 2 · 1 = 1, мушких делегација има 4 (од 4 · 3 · 2 / 3 · 2 · 1 = 4), свих делегација има 7 · 6 · 5 / 3 · 2 · 1 = 35, тражена вероватноћа је 5/35 = 1/7.

5. Од 8 представника студената, 3 представника су женског пола. Колика је вероватноћа да се изабере трочлана делегација са следећим број чланова мушког пола: (а) 0, (б) 1, (в) 2, (г) 3?

... наставак

561

5611

38

05

33

5615

5653

38

15

23

5630

56103

38

25

13

5610

56101

38

35

03

а) б) в) д)

Page 11: Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први колоквијум (без коришћења рачунара) биће одржан 28

3/12/2014

11

... наставак

6. Колика је вероватноћа да при истовременом бацању три коцкице за игру број четворки које падну буде: (а) 0, (б) 1, (в) 2, (г) 3, (д) бар једна? Одговор: вероватноћа да падне 4 је 1/6, а вероватноћа да падне неки други број 5/6. Стога су резултати следећи:(а) 5/6 · 5/6 · 5/6 = 125/216; (б) она може пасти на првој, другој или трећој коцкици, па је вероватноћа 1/6 · 5/6 · 5/6 + 5/6 · 1/6 · 5/6 + 5/6 · 5/6 · 1/6 = 25/72; (в) она може пасти на првој и другој, другој и трећој или првој и трећој коцкици, па је вероватноћа 1/6 · 1/6 · 5/6 + 5/6 · 1/6 · 1/6 + 1/6 · 5/6 · 1/6 = 5/72; (г) 1/216; (д) 1 –125/216 = 91/216 или сабирањем резултата под (б), (в), (г).

7. Колика је вероватноћа да при истовременом бацању три коцкице за игру број парних бројева који падну буде: (а) 0,(б), 1, (в) 2, (г) 3, (д) бар један? Одговор: вероватноћа да падне паран број је 1/2, а вероватноћа да падне неки други број тј. непаран број је такође 1/2. Стога су резултати следећи: (а) 1/8, (б) 3/8, (в) 3/8, (г) 1/8, (д) 7/8.

Подсетник: формуле из комбинаторике

Варијације са понављањем Vp(k, n) = n · n · ... · n = nk

Колико има петоцифрених бројева записаних цифрама 1, 5 и 7?Одговор: 3 · 3 · 3 · 3 · 3 = 35 = 243.

Баријације без понављања V(k, n) = n · (n – 1) · ... · (n – к + 1)

На колико начина се од 10 студената може изабрати руководство које чини председник, секретар и благајник? Одговор: 10 · 9 · 8 = 720.

Факторијел варијације без понављања n-те класе од n елемената

V(n, n) = n! = n · (n – 1) · ... · 3 · 2 · 1На колико начина се 5 ученика може поређати у врсту (или 5 књига на полици)?

Одговор: 5! = 5 · 4 · 3 · 2 · 1 = 120.

Комбинације C(k, n) = V(k, n) / V(к, к)

C(k, n) = n · (n – 1) · ... · (n – к + 1) / к! , C(0, n) = C(n, n) = 1На колико начина се 5 студената може изабрати делегација од 3 студента?

Одговор: C(3, 5) = = 5 · 4 · 3 / 3 · 2 · 1 = 10.

к пута

к чинилаца

Page 12: Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први колоквијум (без коришћења рачунара) биће одржан 28

3/12/2014

12

Подсетник: вероватноћа

Недетерминистички опит / случајни догађај

- један могући резултат тј. исход опита

- скуп свих могућих резултата тј. исхода опитаПри бацању коцкице за игру и регистровања броја који падне = 1, 2, 3, 4, 5, 6.

Случајни догађај А је подскуп скупа .За “пао је паран број”, А = 2, 4, 6.

Вероватноћа случајног догађаја А, у ознаци P(A), је број око кога се групише релативна учестаност тог догађаја када се број опита N неограничено увећава тј. N(A) / N (нпр. бацање

коцкице за игру). Ако је број исхода коначан (и сви су једнако вероватни), P(A) једнака броју повољних исхода у односу на број свих исхода (нпр. вероватноћа извлачења четвороцифреног броја чији

је збир цифара 3).

Подсетник: особине вероватноће

• P(A) ≥ 0

• P() = 1, – сигуран догађај

• P(A + B) = P(A) + P(B) за дисјунктне догађаје тј. догађаје који се не могу истовремено реализовати, тј. P(AB) = 0

Из прве три особине, могу се извести наредних пет:

• P() = 0, – немогућ догађај

• P(Ā) = 1 – P(A), вероватноћа супротног догађаја

• Ако А B тј. догађај А имплицира догађај Б, тада P(A) P(B)

• P(A) 1

• P(A B) = P(A) + P(B) – P(AB)

P(AB) = P(A)P(B)за независне догађаје

Page 13: Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први колоквијум (без коришћења рачунара) биће одржан 28

3/12/2014

13

Подсетник: условна вероватноћаПретпоставимо реализацију догађаја А. Вероватноћа догађаја Bпод том претпоставком дефинише се на следећи начин

P(B A) = P(AB) / P(A), P(A) > 0.

Слично, P(А B) = P(BA) / P(B) = P(AB) / P(B), P(B) > 0.Анализирано је 10 000 трансакција и при томе је утврђено да је куповина производаА евидентирана у 2 000 трансакција, куповина производа Б у 3 000 трансакција, а куповина производа А и Б у 1 500 трансакција. Колики је ниво поверења правила „Ако је купљен производ Б, онда је купљен и производ А”? Одговор: 0.75 или 75%.

* * *

Ако дисјунктни догађаји А1, ..., Аn чине једно разбијање сигурног догађаја , тада формула потпуне вероватноће гласи

P(B) = P(B A1) P(A1) + ... + P(B An) P(An)Уређај се прави у два погона, при чему се 60% уређаја прави у првом. Ако су вероватноће дефектног производа у овим погонима редом 10% и 5%. Одредити вероватноћу да је случајно изабрани производ дефектан. Одговор: 8% (од 0.1 · 0.6 + 0.05 · 0.4).

Подсетник: Бајесова формула

Ако дисјунктни догађаји А1, ..., Аn чине једно разбијање сигурног догађаја , тада формула потпуне вероватноће гласи

P(Ai B) = P(B Ai) P(Ai) / P(B).

Уређај се прави у два погона, при чему се 60% уређаја прави у првом. Ако су вероватноће дефектног производа у овим погонима редом 10% и 5%, одредити вероватноћу да је нађени дефектан производ направљен у другом погону.Одговор: 0.25 тј. 25%.

Поступак решавања: P(Pog1) = 0.6, P(Pog2) = 0.4, P(D Pog1) = 0.1, P(D Pog2) = 0.05;

P(D) = 0.08 (видети претходни слајд)

P(Pog2 D) = P(D Pog2) P(Pog2) = 0.4 / P(D) = 0.05 · 0.4 / 0.08 = 0.25

Page 14: Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први колоквијум (без коришћења рачунара) биће одржан 28

3/12/2014

14

Случајна променљива,карактеристике, нормална расподела, примена

0)()(издобијено

21 )( 2

2

.constk,kxxfxfe

πxf

x

... наставак

Нормална расподела као гранични случај бинарне расподелеизвор: www.stat.tamu.edu/~west/applets/

1

2100

2

211

550 dxe

π~SP

x

Page 15: Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први колоквијум (без коришћења рачунара) биће одржан 28

3/12/2014

15

... наставак

... наставак

Текст преузет из књиге: Кадијевић, Ђ. М. (2013). Основи информатике, математике и статистике. Београд: Мегатренд универзитет.

Page 16: Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први колоквијум (без коришћења рачунара) биће одржан 28

3/12/2014

16

Друге расподеле

Хи-квадрат расподела, Студентова расподела, Фишерова расподела (статистичко закључивање); униформна расподела, троугаона расподела (симулације) легенда: колоквијум 1, колоквијум 2

Атлас више од сто расподела може се наћи на адреси http://poincare.matf.bg.ac.rs/~v_jevremovic/atlas.pdf

)10()10()10( 22223 ,N,N,Nχ )10(22

1 ,Nχ

221

21)(

x

exπ

xg

0

1

21

2

2

)(Γ

)2(Γ2

1)(

dxext

exk

xg

xt

xk

k

k = 3

... наставакЗа апроксимацију расподеле (која апроксимација најадекватније апроксимира разматрану расподелу) може се користити додатак за програм MS Excel под називом EasyFit (www.mathwave.com).

Извор: Kadijevich, Dj. (2010). Improving research in statistics education. In C. Reading (Ed.), Proceedingsof the Eighth International Conference on Teaching Statistics. International Association for Statistics Education.

Page 17: Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први колоквијум (без коришћења рачунара) биће одржан 28

3/12/2014

17

Задаци1. У првој кутији се налазе три беле и две црне куглице, а у другој две беле и четири црне. Најпре се случајно бира једна кутија, а затим се у њој случајно бира једна куглица. Одредити вероватноћу да је (а) изабрана црна куглица, (б) изабрана црна куглица извађена из друге кутије. Одговор: а) 8/15, б) 5/8.

2. Од свих студената једног факултета, 60% су жене, а 40% мушкарци. Просечна успешност жена на испиту је 60% а мушкараца 50%. Колика је вероватноћа (а) да испит буде положен, (б) да ако је испит положен, њега је полагао мушкарац?Одговор: а) 0.56, б) 5/14.

3. Половину од 100 000 € инвеститор улаже у ризичан бизнис који доноси 10% зараде уз ризик 6%, а другу половину у банку уз гарантовану зараду од 5%. Претпостављајући нормалност расподеле, колика се зарада може очекивати са вероватноћом од приближно (а) 2/3, (б) 95%? Одговор: а) између 4 500 и 10 500 €.

... наставак4. Колика је вероватноћа да у десет бацања новчића писмо падне тачно 4 пута? Одговор:

5. Колика је вероватноћа да при бацању 4 коцкице за игру тројка падне тачно три пута. Одговор:

6. На испиту од десет могућих задатака,студент решава пет и за оцену 6 потребноје тачно урадити три задатка. Студент јенаучио решавање 6 задатака. Колика јевероватноћа да положи испит? Одговор:

7. Два студента су заједно учила и од 10 испитних цедуља добро спремили 8. Вероватноћа да први положи испит је 8/10 тј. 4/5. Колика је вероватноћа да испит положи други студент који полаже после првог (цедуља коју је извукао први студент не користи се више на испиту)? Одговор: 7/9 · 8/10 + 8/9 · 2/10.

510

36

24

46

14

56

04

64 50504

10..

13

65

61

34

Page 18: Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први колоквијум (без коришћења рачунара) биће одржан 28

3/12/2014

18

... наставак8. У свакој од две кутије налазе се по 5 белих и 3 црне куглице. Из прве кутије се на случајан начин бира једна куглица и ставља у другу кутију, а затим се из друге кутије случајно бира једна куглица. Колика је вероватноћа да је друга изабрана куглица беле боје? Одговор: 45/72.

9. Три стрелца погађају циљ са вероватноћама 0.8 (први), 0.9 (други) и 0.7 (трећи). Случајно се бира један стрелац. Ако је циљ погођен, колика је вероватноћа да је гађао трећи стрелац?Одговор: 7/24.

10. Колика је вероватноћа да при бацању три коцкице за игру у збиру пао а) паран број, б) број мањи од 5? Одговор: а) ½, б) 4/216.

11. Улагање у неки бизнис доноси 20% зараде уз ризик од 10%. Претпостављајући нормалност расподеле профита, колика је вероватноћа да зарада од улагања 3 000 € донесе зараду од барем а) 900 €, б) 1 200 €? Одговор: приближно a) 1/6, b) 2.5%.

Колоквијум (шематски)

1. Основне статистике / графикони 1 бод

2. Вероватноћа 1 бод

3. Условна вероватноћа 1 бод

4. Нормална расподела 1 бод

5. Логика закључивања и упоређивање фреквенци 2 бода

6 бодоваОцена: 5 (0–2 бода) Бар 1–2 бода за поновно полагање колоквијума!

6 (3 бода), 7 (4 бода), 8 (5 или 6 бодова).Пробни колоквијум ће се одржати 31.03. са почетком у 16:30.

Први колоквијум ће се одржати 2.04. са почетком у 16:30.

Први колоквијум ће се поновити 28.04. са почетком у 16:30 и 18:00,као и 26.05. са почетком у 18:00.

Излазак на колоквијум је потребно лично пријавити (за време наставе).Молим студенте да на колоквијум излазе спремни (видети претходно).

Page 19: Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први колоквијум (без коришћења рачунара) биће одржан 28

Logika statističkog zaključivanja

A. Statističke analize, koje obrađuju podatke prikupljene na uzorcima, koriste se za dobijanje odgovara na istraživačka pitanja od interesa, koja se odnose na populacije koje ti uzorci predstavljaju. Pitanja se odnose na neke pojmove operacionalizovane varijablama koje merimo u istraživanju. (Te varijable su obično neke slučajne veličine, čija se vrenost menja od subjekta do subjekta). Neka od tih pitanja koja se tiču frekvenci (učestalosti) su: „Da li je broj pušača prema broju nepušača 60% prema 40%?“; „Da li je zastupljenost pripadnika mlade, srednje i starije generacije, redom, 20%, 40% i 40%?“ „Da li su pušenje i infarkt povezani?“ tj. „Da li se učestalost infarkta kod pušača i nepušača razlikuje?“; „Da li su pol i uspeh na ispitu povezani?“ tj. „Da li se % prolaznosti na ispitu kod muškaraca i žena razlikuje?“; „Da li su sorta jabuke i zaštita stabla povezani?“ tj. „Da li se % zaštićenih stabala razlikuje od sorte do sorte jabuke?“.

Svakom istraživačkom pitanju pridružuje se nulta hipoteza, u oznaci H0, kao i njena alternativa, u oznaci H1, koja je obično negacija H0.

Kada se razmatra zastupljenost kategorija jedne varijable, nulte hipoteze tvrde da su nađena i očekivana zastupljenost jednake. Dakle, za pitanje „Da li je zastupljenost pripadnika mlade, srednje i starije generacije, redom, 20%, 40% i 40%? hipoteze su:

H0 – „Zastupljenost pripadnika mlade, srednje i starije generacije je, redom, 20%, 40% i 40%.“ H1 – „Zastupljenost pripadnika mlade, srednje i starije generacije nije, redom, 20%, 40% i 40%.“ Kada se razmatra povezanost dve varijable, nulte hipoteze tvrde da povezanosti nema. Dakle, za pitanje „Da li su pol i

uspeh na ispitu povezani?“ hipoteze su: H0 – „Pol i uspeh na ispiti nisu povezani.“ H1 – „Pol i uspeh na ispiti su povezani.“

B. Testiranje H0 u cilju uopštavanja (generalizovanja) nalaza sa uzorka na populaciju zahteva: (1) izračunavanje vrednosti određene test-statistike; (2) poznavanje raspodele kojoj, prema teoriji, pripadaju moguće vrednosti te test-statistike, kao i (3) nalaženje verovatnoće dobijanja broja koji je veći ili jednak vrednosti pod (1) korišćenjem te raspodele pod (2).

Neka je vrednost dobijena pod (1), recimo, jednaka 4 (formulu test-statistike izostavljamo). Neka se pod (2) radi Hi-kvadrat raspodeli sa jednim stepenom slobode (df = 1). Tražena verovatnoća jednaka je vrednosti integrala

222

1

21 dxex

π

x

, koji predstavlja površinu naznačenu na donjoj slici.

Izvor: www.stat.tamu.edu/~west/applets/

Vrednost 0.0455 određuje se numeričkim postupkom (npr. Excel funkcijom CHIDIST ili kalkulatorom dostupnim na internetu). U novije vreme testiranje H0 se prepušta računarskim programima, pa njihov korisnik samo vodi računa o tome da odabere korektnu statističku analizu i da na bazi dobijenih rezultata te analize izvede adekvatan zaključak.

C. Da bismo, u skladu sa dobijenom verovatnoćom, znali kada treba prihvatiti H0, a kada je odbaciti i prihvatiti H1, koristimo pravilo zaključivanja koje se naziva statistički modus tollens. Njega primenjujemo na sledeći način: ako dobijenoj vrednosti test-statistike odgovara verovatnoća manja ili jednaka 0.05, odbacuje se H0 i prihvata H1. U suprot-

Page 20: Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први колоквијум (без коришћења рачунара) биће одржан 28

nom, ako je ta verovatnoća veća od 0.05, prihvata se H0. (Prag značajnosti može biti drugi, recimo 0.1 ili 0.01.) Pomenimo, na kraju, da su prilikom ovakvog zaključivanja, moguće su dve greške: odbacivanje H0 kada je ona tačna, ili prihvatanje H0 kada je ona pogrešna. To su, redom, tzv. greške zaključivanja prvog i drugog tipa (označavaju se sa i ).

Tekst preuzet iz knjige: Kadijević, Đ. M. (2013). Osnovi informatike, matematike i statistike. Beograd: Megatrend univerzitet.

Упоређивање апсолутних фреквенци

Хи-квадрат расподела

За тестирање нултих хипотеза о апсолутним фреквенцама користимо тзв. Хи-квадрат расподелу. Случајна величина (променљива) која има ту расподелу дефинисана је са 22

221 nX...XX , при чему су Xi независне

случајнe величине које имају стандардизовану нормалну расподелу N (0, 1). Притом, ова случајна променљива, у ознаци 2

n , има n степена слободе (то је број података који се могу слободно мењати када се

задају услови који важе за све податке; енгл. df од degree of freedom). Графици функције густине ове расподеле за три вредности df приказани су на следећој слици.

Извор: www.stat.tamu.edu/~west/applets/chisqdemo.html

Упоређивање нађених и очекиваних апсолутних фреквенци неке категоризације

Хипотезе су следеће: H0 ‒ „нађене апсолутне фреквенце по категоријама једнаке су очекиваним апсолутним фреквенцама по тим категоријама”, H1 ‒ „нађене апсолутне фреквенце по категоријама су различите од очекиваних апсолутних фреквенци по тим категоријама”.

За тестирање нулте хипотезе користи се следећа тест-статистика:

k

iki

ii

fff

1

22

1очекивана

очекивананађена )( , при

чему је k број категорија, док су ifнађена и i

fочекивана , редом, нађена апсолутна фреквенца и очекивана

апсолутна фреквенца за категорију i. Вредности ове тест-статистике имају Хи-квадрат расподелу са k – 1 степена слободе уколико је узорак

случајан и услов ifочекивана 5 испуњен за сваку категорију. (Тај услов се не односи на нађене фреквенце.)

Ако израчунатој вредности 21k одговара вероватноћа већа од 0.05, прихватамо H0. У противном,

одбацујемо H0 и прихватамо H1.

Анализа повезаности (зависности) две категоријске варијабле

Хипотезе: H0 ‒ „разматране категоријске варијабле нису повезанe (нису зависне)”, H1 ‒ „разматране категоријске варијабле су повезане (зависне)”.

За тестирање H0 користи се тест-статистика

k

i

m

jmkji

jiji

f

ff1 1

22

11очекивана

очекивананађена)()(

)( ,

Page 21: Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први колоквијум (без коришћења рачунара) биће одржан 28

при чему је k број врста у табели контингенције, m број колона у тој табели, док

суji

fнађена иji

f очекивана , редом, нађена фреквенца и очекивана фреквенца за ћелију која се налази у

врсти i и колони j. Вредности ове тест-статистике имају Хи-квадрат расподелу са ( k ‒ 1)(m ‒ 1) степена слободе уколико је

узорак случајан и услов ji

f очекивана 5 испуњен за сваку ћелију табеле контингенције.

Ако израчунатој вредности 211 )()( mk одговара вероватноћа већа од 0.05, прихватамо H0. У противном,

одбацујемо H0 и прихватамо H1. Задаци

1. Претпоставимо је боја очију браон код 85% популације, плава код 10%, а зелена код 5%. На случајно изабраном узорку од 100 испитаника регистроване су следеће фреквенце бојâ: 80 (браон), 13 (плава) и 7 (зелена). На које питање би ови подаци могли да пруже одговор? Од којих хипотеза би требало поћи? Шта би требало закључити на основу резултата тестирања постављене нулте хипотезе?

Помоћ: 99415

)57(10

)1013(85

)8580( 2222

2 .χ

; пошто је df =2 (број категорија – 1), за ниво значајности од 0.05,

потребна је вредност тест-статистике не мања од 5.9915. Нађене апсолутне фреквенце три боје очију једнаке су очекиваним (2 = 1.994, df =2, p > 0.05).

2. Истраживач жели да испита да ли је једна плућна болест повезана с полом. Како би његове хипотезе требало да гласе? Коришћењем случајног узорка прикупљени су следећи подаци:

Пол \ Плућна болест Регистрована Није регистрована Збир

Женски 50 250 300

Мушки 100 100 200

Збир 150 350 500

Шта би требало закључити на основу резултата тестирања постављене нулте хипотезе? Помоћ: Нађеним фреквенцама 50, 250, 100 и 100 одговарају редом следеће очекиване фреквенце: 90 (300·150/500), 210 (300·350/500), 60 (200·150/500) и 140 (200·350/500). Вредност тест-статистике је

49263140

)140100(60

)60100(210

)210250(90

)9050( 22222

2 .χ

; пошто је df =1 (број врста – 1 пута број колона – 1), за ниво

значајности од 0.05, потребна је вредност тест-статистике не мања од 3.8415. Пол и плућна болест су повезани (2 = 63.492, df =1 p < 0.05); болест је учесталија код мушкараца (100/200=50%) него код жена (50/300=1/6≈17%).

Корисна шема расуђивања:

Текст преузет из књиге: Кадијевић, Ђ. М. (2012). Емпиријска истраживања: методолошке и статистичке основе. Београд: Завод за уџбенике.

Page 22: Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први колоквијум (без коришћења рачунара) биће одржан 28

Задаци

1. За питање „Да ли болест напада 20% стабала у воћњаку?“ тестирање нулте хипотезе је довело до вероватноће 0.067.

Какав би налаз требало прихватити? Због чега? Одговор: „да болест напада 20% стабала у воћњаку“ јер би требало прихватити нулту

хипотезу („та фреквенца је једнака 20%“).

2. Израчуната вредност тест-статистике износила је 6.36. Ако је расподела вредности те тест-статистике била Хи-

квадрат расподела са два степена слободе, да ли би требало прихватити нулту хипотезу или њену алтернативу? Одговор: требало би прихватити алтернативу (нпр. варијабле су повезане) јер је 6.36 > 5.992 (граница за значајност на нивоу 0.05). Стога је

p < 0.05, а то иде у прилог одбацивању нулте хипотезе (у овом примеру да варијабле нису повезане).

3. На једном институту се тврди да је релативна фреквенца оболелих од грипа једнака 0.15, односно 15%. Истраживач

жели да провери ту фреквенцу. У случајном и репрезентативном узорку од 800 становника он налази да је 150 оболело

од грипа. Какав би налаз требало прихватити? Због чега? Одговор: питању „Да ли је обољевање на новоу од 15%?“ придружујемо

нулту хипотезу „једнако је 15%“ и алтернативу „различито је је од 15%“, а пошто је 8248680

)680650(120

)120150( 222

1 .χ

(p < 0.05), требало би

одбацити нулту хипотезу. То значи да је фреквенца обољевања од грипа различита од 15%; прецизније обољевање је веће од 15% (18.75% > 15%,

статистички).

4. Да ли је пушење повезано са инфарктом ако се имају у виду подаци из доње табеле који се односе на један случајан

и репрезентативан узорак? Због чега? Одговор: том питању придружујемо нулту хипотезу „повезано је“ и алтернативу „није повезано“, а

пошто је 22222225

)225250(75

)7550(225

)225200(75

)75100( 22222

1 .χ

(p < 0.05), требало би одбацити нулту хипотезу. То значи да су пушење и

инфаркт повезани; конкретније, код пушача је инфаркт чешћи (код сваког трећег), док је код непушача то тек код сваког шестог (1/3 > 1/6,

статистички).

Пушење \ Инфаркт Наступио Није наступио

Пушач 100 200

Непушач 50 250

5. Истраживач жели да испита да ли је коришћење савремених стратегија менаџмента подједнако заступљено у

фармацеутској и аутомобилској индустрији. У том циљу он узима случајан и репрезентативан узорак од 50 компанија

из сваке индустрије широм света и налази да је у фармацеутској индустрији број таквих компанија 29, док је у

аутомобилској индустрији тај број 25. Какав би налаз требало прихватити? Због чега? Одговор: ове стратегије се подједнако

често користе у разматраним индустријама јер је 644021 .χ , p > 0.05 (58% = 50%, статистички).

6.* Да ли је редовна штедња повезана са старосном категоријом испитаника ако се имају у виду подаци из доње

табеле? Због чега? Одговор: та штедња је повезана са старосном категоријом јер је 11122621 .χ , p < 0.05. Док већина припадника средње

генерације редовно штеди, мањи део млађе и старије популације то чини.

Редовна штедња

Старосна категорија Да Не

20–34 (година) 100 200

35–54 300 100

55–70 100 300

Корисна шема расуђивања:

Page 23: Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први колоквијум (без коришћења рачунара) биће одржан 28

Колоквијум I 1. Зарада од улагања у један бизнис у протекла четири месеца износила je 23%, 18%, 24%, 20%. А) Приказати ове податке прикладним графиконом. Б) Одредити просечну зарада и ризик при таквом улагању. Решење: А) Користити линијски графикон. Б) 21.25% уз ризик 2.38%. 2. Одредити следеће вероватноће: А) Да у пет бацања новчића писмо падне највише два пута. Б) Да се од 4 мушкарца и 3 жене изабере трочлана делегација у којој су тачно два мушкарца. Одговорe образложити. Решење: А) 1/2. Б) 18/35. 3. Хипотетички подаци. Од сваких 10 купљених телевизора, 4 је пореклом из Европе а 6 из Азије. Међу телевизорима из Европе 5% је дефектних, док је међу телевизорима из Азије тај број 10%? А) Одредити вероватноћу да је купљени телевизор дефектан. Б) Ако је купљени производ дефектан, колика је вероватноћа да је он пореклом из Европе? Одговорe образложити. Решење:А) 8%. Б) 25%. 4. Улагање 5 000 ЕУР у један бизнис доноси 20% зараде уз ризик од 10%. Уз претпоставку о нормалној расподели зараде, одредити следеће: А) Вероватноћу да се послује без зараде. Б) Зараду коју би требало очекивати са вероватноћом око 2/3 ако се поред улагања ових 5 000 ЕУР у тај ризичан бизнис улаже и 10 000 ЕУР у банку при каматној стопи од 5%. Одговорe образложити. Решење:А) 2.5%. Б) Од 1 000 до 2 000 ЕУР. 5. А) Тестирање нулте хипотезе које одговара питању „Да ли је број бирача који подржавају корените реформе на нивоу од 70%? довело је до вероватноће од 0.045. Какав закључак би из тога требало извести? Б) Да ли су варијабле пушач и рекреација повезани имајући у виду податке из доње табеле. Одговоре образложити имајући у виду кораке: питање-хипотезе-резултати-одговор.

Пушач \ Рекреација Упражњава Неупражњава Да 50 200 Не 100 150

Решење: А) „Број таквих бирача различит је од 70%.“ Б) Пушење је повезано са рекреацијом (12 = 23.8, p < 0.05); док код

пушача рекреацију упражњава сваки пети (20%), код непушача то чини 40%. Другим речима, 40% > 20% статистички.

Page 24: Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први колоквијум (без коришћења рачунара) биће одржан 28

Tekst preuzet iz knjige: Kadijević, Đ. M. (2013). Osnovi informatike, matematike i statistike. Beograd: Megatrend.

16. Upoređivanje prosečnih vrednosti

A. Kada je u pitanju upoređivanje prosečnih vrednosti, obično se upoređuju: (a) prosečna vrednost dobijena na jednom uzorku sa nekom pretpostavljenom vrednošću; (b) dve prosečne vrednosti dobijene na dva nezavisna uzorka, i (c) dve prosečne vrednosti dobijene na istom uzorku (pre i posle nekog događaja).

Naredni blok daje primere istraživačkih pitanja koja odgovaraju tim upoređivanjima, kao i hipoteze koje odgovaraju tim pitanjima. Upoređivanje pod (a). Pitanju: „Da li je prosečan prinos kukuruza veći od 8 t/ha?“ odgovaraju hipoteze:

H0 – „Prosečan prinos kukuruza jednak je 8 t/ha.“ H1 – „Taj prinos je različit od 8 t/ha.“

Upoređivanje pod (b). Pitanju: „Da li se, u proseku, razlikuju prinosi obične i genetski modifikovane soje?“, odgovaraju hipoteze:

H0 – „Prosečan prinos obične soje jednak je prosečnom prinosu genetski modifikovane soje.“ H1 – „Ovi prinosu su različiti.“

Upoređivanje pod (c). Pitanju: „Da li se, u proseku, razlikuju količine teškog metala u zemljištu pre setve suncokreta i posle njegove žetve?“, odgovaraju hipoteze:

H0 – „Prosečna količina teškog metala u zemljištu pre setve suncokreta jednaka je prosečnoj količini tog metala u zemljištu posle žetve suncokreta.“ H1 – „Ove prosečne količine teškog metala su različite.“

Za takva upoređivanja prosečnih vrednosti možemo koristiti dodatak programu Excel pod nazivom EZAnalyze. Aktiviranje tih upoređivanja (a)–(c) postižemo, redom, izborom opcije One Sample, Inde-pendent Samples, odnosno Paired Samples (videti donju sliku).

B. Koristeći pitanje: „Da li se, u proseku, razlikuju prinosi obične i genetski modifikovane soje?“ i hipoteze:

H0 – „Prosečan prinos obične soje jednak je prosečnom prinosu genetski modifikovane soje.“ H1 – „Ovi prinosu su različiti“,

uporedimo prinos obične i genetski modifikovane soje za podatke u donjoj tabeli. (Broj njiva ne mora uvek biti jednak, ali obimi poduzoraka ne bi trebalo da se bitno razlikuju kao u slučaju 10 vs. 25.)

Prinos genetski modifikovane soje(u t/ha) za 10 slučajno izabranih njiva 2.9, 3.1, 2.9, 2.7, 3.0, 2.5, 2.6, 2.0, 3.0 и 2.7

Prinos obične soje (u t/ha) za 10 slučajno izabranih njiva 2.5, 2.2, 2.8, 2.2, 2.0, 2.7, 2.9, 1.8, 2.5 и 2.4

Te podatke treba prvo uneti u Excel tabelu kao što pokazuje donja slika (levo) koristeći, recimo, varijable tip i prinos, a zatim, koristeći EZAnalyze opciju Advanced/T-Tests/Two Independent Samples, treba selektovati zavisnu i nezavisnu varijablu kao što prikazuje donja slika (u sredini). Dobijeni rezultati dati na donjoj slici desno i odgovor na polazno pitanje obično se sumiraju na sledeći način:

Rezultati: Mmodif = 2,74, Mobična = 2,40, t = 2,224, df = 18, p = 0,038.

Materijal za drugi kolokvijum uz korišćenje ličnog računara!

Page 25: Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први колоквијум (без коришћења рачунара) биће одржан 28

Odgovor na pitanje: Pošto je 0,038 < 0,05, odbacujemo H0 i prihvatamo H1, što znači da su upoređivani prinosi različiti, sa u proseku većim kod genetski modifikovane soje.

(Važan podatak za df, engl. degree of freedom, tj. broj stepena slobode podataka, koji je kod ove statističke analize uvek za dva manji od ukupnog broja podataka, EZAnalyze ne prikazuje!)

Korišćenje druge dve statističke analize za upoređivanje prosečnih vrednosti prepuštamo čitaocu, uz napomenu da su,

za sve tri statističke analize, analizirani podaci i dobijeni rezultati dati u Excel fajlu Statistika.xls (listovi Primer1, Primer2 i Primer3; www.mi.sanu.ac.rs/~djkadij/Statistika.xls). Test-statistike koje odgovaraju ovim upoređivanjima (tj. njihove formule), raspodela koja se koristi za izračunavanje verovatnoće (to je uvek Studentova t raspodela), kao i uslovi koje analizirani podaci treba da ispunjavaju, mogu se, recimo, naći u: Kadijević, 2012, Empirijska istraživanja: metodološke i statističke osnove, Zavod za udžbenike, Beograd.

17. Linearna povezanost – korelacija

Koristeći pitanje: „Da li su vlažnost zemljišta i prinos kukuruza linerano povezani?“ i hipoteze: H0 – „Vlažnost zemljišta i prinos kukuruza nisu linearno povezani, tj. korelacija je jednaka nuli.“ H1 – „Ova obeležja (varijable) su linearno povezane, tj. korelacija je različita od nule“,

odredimo vrednost linearne korelacije za podatke navedene u Excel fajlu Statistika.xls (list Primer4) i testirajmo njenu značajnost (da li je ona različita od nule statistički). U tom cilju koristimo EZAnalyze opciju Advanced/ Correlation. Po izboru varijable (donja slika levo), biće generisan jednostavan izveštaj (donja slika desno).

Dobijeni rezultati i odgovor na polazno pitanje obično se sumiraju na sledeći način: Rezultati: r = 0,712, t = 3,039, df = 9, p = 0,014. Odgovor na pitanje: Pošto je 0,014 < 0,05, odbacujemo H0 i prihvatamo H1, što znači da su vlažnost zemljišta i prinos kukuruza linearno povezani, pri čemu jedna varijabla može da objasni 51% (= 0,7122 · 100%, tzv. koeficijent determinacije R2) variranja druge varijable.

(Važan podatak za df, koji je kod ove statističke analize uvek za dva manji od veličine uzorka, EZAnalyze ne prikazuje! Takođe, ne prikazuje ni vrednost test-statistike koja se računa po veoma jednostavnoj formuli:

dfr

rt21

.)

Raspodela koja se koristi za izračunavanje verovatnoće je Studentova t raspodela, a uslovi koji analizirani podaci treba da ispunjavaju, kao i detalji o Pirsonovoj i Spirmanovoj korelaciji mogu se, recimo, naći u: Kadijević, 2012. Istaknimo da

Page 26: Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први колоквијум (без коришћења рачунара) биће одржан 28

Pirsonova korelacija (r –1, 1) može biti statistički različita od nule i kada varijable nisu linearno povezane. U razmatranom primeru povezanost je zaista linearna, na šta ukazuje dati dijagram raspršenja koji izdaje alat EZAnalyze.

Zadaci

1. Za podatke iz sledeće tabele (korišćen je slučajan i reprezentativan uzorak):

Genetski modifikovan usev (n1 = 10) Nemodifikovan usev (n2 = 10) Vlaga (u %) .22 .21 .20 .24 .21 .20 .24 .23 .22 .20 .24 .23 .22 .20 .22 .23 .20 .24 .21 .23

Prinos (u t/ha) 5.0 4.7 4.5 5.0 4.5 4.7 4.9 4.5 4.9 4.2 4.7 4.5 4.1 4.0 4.2 4.5 4.2 4.3 4.0 4.6

dati obrazložene odgovore na sledeća pitanja: - Da li je, u proseku, prinos genetski modifikovanog useva veći od prinosa nemodifikovanog useva? - Da li je prinos linearno povezan sa količinom vlage u zemljištu? U obrazloženju odgovora navesti hipoteze H0 i H1 koje odgovaraju razmatranom pitanju, rezultate statističke analize kojom je testirana nulta hipoteza, kao i odluku koju bi hipotezu (H0 ili H1) trebalo prihvatiti na osnovu tih rezultata.

2. Koristeći Excel fajl Statistika.xls (list Zadatak), koji sadrži podatke o prinosu dve sorte suncokreta, kao i podatke o količini teškog metala u zemljištu pre setve suncokreta i posle njegove žetve, uvežbati četiri razmatrane statističke analize. Za svaku od njih, formulišite prikladno istraživačko pitanje, navedite hipoteze H0 i H1 koje odgovaraju tom pitanju, prikažite rezultate statističke analize kojom je testirana nulta hipoteza, objasnite koju bi hipotezu (H0 ili H1) trebalo prihvatiti na osnovu tih rezultata i na kraju navedite odgovor na postavljeno pitanje. Prilog 1 – Računarski alati za statističko modeliranje

Za to modeliranje koristimo program Microsoft Excel. Od mogućnosti tog programa koristimo neke statističke funkcije poput RND za simulacije, kao i opciju Add Trendline

za regresionu analizu. Od dodataka (engl. add-ins) za taj program, koristimo dva:

- SimTools (za sumulacije i iterativna izračunavanja), kao i - EZAnalyze (za osnovne statističke analize).

Ta dva dodatka, koja su besplatno dostupna in internetu, potrebno je posebno instalirati. To se realizuje kada se xla fajlovi tih dodataka obično dodaju u postojeći folder Library, koji se nalazi, recimo, na adresi

C:\Program Files\Microsoft Office\Office 12\Library

(njegov mogući sadržaj prikazuje donja slika levo). Da bismo dodatke SimTools i EZAnalyze aktivirali, potrebno je da koristimo Excel opciju Add-Ins (dostupnu preko

podmenija Tools ili preko opcije Office Button/Excel Options), pri čemu je dodavanje uspešno izvršeno tek kada su čekirani željeni dodaci i to potvrđeno pritiskom na dugme OK (videti donju sliku desno).

Page 27: Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први колоквијум (без коришћења рачунара) биће одржан 28

Prilog 5 – Simulacija na računaru Pretpostavka da će otkupna (prodajna) cena kukuruza biti, recimo, 0,23 €/kg može biti realna, ali je prihvatljivije ovu

cenu izraziti na sledeći način: između 0,20 i 0,26 €/kg. Precizirajmo sada značenje reči između. Imajući u vidu da su osnovne raspodele neprekidnih slučajnih promenljivih ravnomerna, trougaona i normalna, značenje reči između može biti sledeće: Bilo koja cena između 0,20 i 0,26 (sa korakom 0,01) i to tako da je verovatnoća pojavljivanja svake od tih cena

jednaka. U cilju generisanja takve cene, koristimo statističku Excel funkciju RANDBETWEEN(20, 26)/100, koja se odnosi na jednu ravnomernu (ali diskretnu) raspodelu.

Bilo koja cena između 0,20 i 0,26 i to tako da se cene oko 0,23 najčešće javljaju, dok se cene nešto veće od 0,20 i nešto manje od 0,26 najređe javljaju. U cilju generisanja ovakve cene, koristimo formulu =TRIANINV(RAND(), 0.20, 0.23,

0.26) koja koristi Excel funkciju RAND i SimTools funkciju TRIANINV. Te se funkcije, redom, odnose na ravnomernu raspodelu (između 0 i 1) i trougaonu raspodelu.

Bilo koja cena između 0,20 i 0,26 i to tako da je M = 0,23, a SD = 0,01 (što znači da će u 99,7% slučajeva cena biti između 0,20 i 0,26 – M ± 3SD). U cilju generisanja ovakve cene, koristimo formulu =NORMINV(RAND(), 0.23, 0.01) koja, pored Excel funkcije RAND, koristi i njegovu funkciju NORMINV koja se odnosu na normalnu raspodelu.

Razmotrimo sadržaj Excel fajla Profitabilnost1.xls (www.mi.sanu.ac.rs/~djkadij/Profitabilnost1.xls). U ćeliji B16 je umesto konkretne cene, navedeno sledeće

=NORMINV(RAND(),0.23,0.01). Zbog funkcije RAND, svako pozivanje te NORMINV funkcije (svaki pritisak na tastera ENTER ili F9) generisaće jedan broj iz normalne raspodele M = 0,23, SD = 0,01, što će dovesti do drugog prihoda, pa samim tim i do druge zarade.

Koristeći Excel dodatak SimTools možemo jednostavno odgovoriti na pitanja poput: „Kolika je šansa (verovatnoća) da zarada bude bar 750 €/ha?“

U tom cilju u ćeliji, recimo, E1 navodimo

=B18, a zatim biramo matricu ćelija od D1 do E20 (ili do E100 ako želimo 100 simulacija). Postupak zahteva da se u prvom redu izabere jedna ili više ćelija sa željenim rezultatima, ali se uvek pomeramo za jednu ćeliju ulevo i formiramo i jednu inicijalno praznu kolonu. Zatim aktiviramo opciju SimTools/ Simulation Table. Na kraju za odgovor na postavljeno pitanje koristimo dobijene rezultate simulacije i Excel funkciju COUNTIF, kao što je prikazano na donjoj slici desno. Verovatnoća da zarada bude bar 750 €/ha iznosi svega 0,25 tj. 25%.