15
Statistika Semestrální projekt 18.5.2013 Tomáš Jędrzejek, JED0008

Statistika - vsb.czhomel.vsb.cz/~kov74/files/Projekty/jed.pdfDotazník byl vytvořen přesně na míru pro tento projekt, takže využiji všechny dostupné proměnné. Celkem se dotazníku

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Statistika - vsb.czhomel.vsb.cz/~kov74/files/Projekty/jed.pdfDotazník byl vytvořen přesně na míru pro tento projekt, takže využiji všechny dostupné proměnné. Celkem se dotazníku

Statistika

Semestrální projekt

18.5.2013

Tomáš Jędrzejek, JED0008

Page 2: Statistika - vsb.czhomel.vsb.cz/~kov74/files/Projekty/jed.pdfDotazník byl vytvořen přesně na míru pro tento projekt, takže využiji všechny dostupné proměnné. Celkem se dotazníku

Obsah

Úvod 3

Analyzovaná data 4

Analýza dat 6

Statistická indukce 12

Závěr 15

Page 3: Statistika - vsb.czhomel.vsb.cz/~kov74/files/Projekty/jed.pdfDotazník byl vytvořen přesně na míru pro tento projekt, takže využiji všechny dostupné proměnné. Celkem se dotazníku

1. Úvod

Cílem této semestrální práce je aplikovat získané teoretické poznatky pomocí dostupného

programového vybavení, jmenovitě statistický software Statgraphics Centurion 16.1.18 a

LibreOffice 4.0.22 jako textový procesor. Jako téma práce jsem zvolil sledování

softwarového vybavení uživatelů na internetu. Neboť jsem nenašel vhodný zdroj dat,

vytvořil jsem za pomocí služeb Google Docs internetový dotazník. Ten byl volně dostupný

atak se ho mohlo zúčastnit kdokoli, kdo má přístup k internetu. Protože byl dotazník

zhotoven v českém jazyce, je velmi pravděpodobné, že naprostá většina respondentů

pocházela právě z České Republiky. Nezachycuje tedy jen malou oblast, kde se dotazovaní

nacházeli. Z tohoto důvodu je míra objektivity u prováděných statistik větší, než v případě,

kdy by se jednalo např. o studenty VŠB-TUO. Jako populaci či základní soubor lze tedy

pokládat lidi používající počítač, kteří jsou připojení k internetu v květnu 2013. Statistiky

založené na základě získaných dat nám mohou říci třeba to, jak jsou oblíbené webové

prohlížeče napříč celým spektrem respondentů, jak ovlivňuje znalost počítačů to, jaký

operační systém používají, jaká věková kategorie má na internetu největší zastoupení, apod.

Dotazník byl vytvořen přesně na míru pro tento projekt, takže využiji všechny dostupné

proměnné.

Celkem se dotazníku účastnilo 50 respondentů. Na všechny otázky bylo nutné odpovědět, to

znamená, že nedošlo k prázdné odpovědi a všechny záznamy mohly být použity.

Výběrovým souborem jsou v tomto případě lidé používající počítač, kteří jsou připojeni k

internetu a účastnili se dotazníku v květnu 2013. Data byly získány umístěním odkazu na

dotazník na několika webových stránkách, tak abych dosáhl co nejvyšší vypovídací hodnotu

v globálním měřítku. Na základě získaných dat byla provedena exploratorní analýza, která

byla doplněna intervalovým odhadem a testem nezávislosti v kontingenční tabulce.

T. K.
Podtržení
Page 4: Statistika - vsb.czhomel.vsb.cz/~kov74/files/Projekty/jed.pdfDotazník byl vytvořen přesně na míru pro tento projekt, takže využiji všechny dostupné proměnné. Celkem se dotazníku

2. Analyzovaná data

Dotazník se skládal z několika otázek. Obsaženy byly takové, které se týkají samotné osoby,

tedy respondenta – např. pohlaví či věk a také ty, které přiblížily jaké softwarové vybavení

využívá nejvíce. Níže jsou uvedeny otázky a možné odpovědi:

● Vaše pohlaví?

• Žena

• Muž

● Váš věk?

• Číslo

● Do jaké skupiny se řadíte ve znalosti PC?

• Začátečník

• Pokročilý

• Odborník

● Jaký typ počítače používáte nejčastěji?

• Stolní

• Notebook

• Netbook

• Tablet

● Jaký webový prohlížeč nejčastěji?

• Chrome

• Mozilla Firefox

• Internet Explorer

• Jiný

Page 5: Statistika - vsb.czhomel.vsb.cz/~kov74/files/Projekty/jed.pdfDotazník byl vytvořen přesně na míru pro tento projekt, takže využiji všechny dostupné proměnné. Celkem se dotazníku

● Jaký operační systém používáte nejčastěji?

• Windows

• Linux

• OS X

• Jiný

Page 6: Statistika - vsb.czhomel.vsb.cz/~kov74/files/Projekty/jed.pdfDotazník byl vytvořen přesně na míru pro tento projekt, takže využiji všechny dostupné proměnné. Celkem se dotazníku

3. Analýza dat

3.1. Zastoupení webových prohlížečů

Tento dotazník je zaměřen na zjištění zastoupení používaného programového vybavení.

Proto jsem nejdříve provedl exploratorní analýzu proměnné webové prohlížeče, tedy otázka

zněla – „Jaký webový prohlížeč využíváte nejčastěji?“.

Obr. 1 – koláčový graf „Jaký webový prohlížeč využíváte nejčastěji?“

Z grafu na obrázku 1 lze jasně vidět zastoupení webových prohlížečů na zkoumaném trhu.

Výsledky statistiky jsou velmi podobné těm, které lze nalézt na různých statistických

serverech jako je např. http://statcounter.com. Na sledované populaci lze zjistit, že dbá na

svou bezpečnost a preferuje prohlížeč Mozilla Firefox či Google Chrome, které se snaží být

velmi inovativní v oblasti webových technologií.

Page 7: Statistika - vsb.czhomel.vsb.cz/~kov74/files/Projekty/jed.pdfDotazník byl vytvořen přesně na míru pro tento projekt, takže využiji všechny dostupné proměnné. Celkem se dotazníku

3.2. Zastoupení operačních systémů

Další zkoumanou proměnnou byly Operační systémy. Respondentů jsem se ptal „Jaký

operační systém používáte nejčastěji?“. V posledních letech je to velmi zajímavá oblast,

která se s rozšiřujícím se přístupem k internetu začíná pomalu měnit.

Většina lidí vůbec nezná něco jiného, než systém Microsoft Windows, avšak roste

povědomí i o jiných platformách, kdy lidé hledají alternativní řešení z mnoha důvodů.

Fakt, že ostatní operační systémy nejsou (převážně v ČR) brány příliš na vědomí je

způsoben několika faktory jako je tuzemský vzdělávací systém.

Ku příkladu systémy s jádrem Linux začínají být celosvětově velmi populární, hlavně z

důvodu nulové ceny, mnohem lepší bezpečnosti a modularitě oproti Windows. Jaký je

současný stav ve zkoumané populaci na počítačích? To lze sledovat na následujícím

koláčovém grafu

Obr. 2 - koláčový graf „Jaký operační systém používáte nejčastěji?“

Page 8: Statistika - vsb.czhomel.vsb.cz/~kov74/files/Projekty/jed.pdfDotazník byl vytvořen přesně na míru pro tento projekt, takže využiji všechny dostupné proměnné. Celkem se dotazníku

Z grafu na obrázku 2 jde vidět zastoupení jednotlivých OS. Statistika je opět velmi podobná

s těmi, které lze shlédnout na zmiňovaných portálech. Avšak z důvodu nízkého počtu

respondentů je pro Apple OS X a systémy na bázi Linux zřetelné, že přesnost není příliš

dobrá, neboť platí – čím více statistických jednotek, tím je analýza přesnější.

3.3. Zastoupení typu počítačů

Kromě analýzy programového vybavení mě zajímalo to, jaký typ počítače respondent

nejčastěji využívá. Pro výrobce hardware je velmi důležité vědět, jakým směrem se trh ubírá

a co se využívají zákazníci nejčastěji. Na základě této informace může lépe rozhodnout do

jakého segmentu investuje, aby se mu výroba dostatečně oplatila.

Obr. 3 - koláčový graf „Jaký operační systém používáte nejčastěji?“

V grafu na obrázku 3 lze vypozorovat, že stolní počítače na zkoumané populaci stále

převládají. I když to podle grafu nevypadá, prodeje stolních počítačů a notebooků klesají ve

prospěch menších zařízení, které jsou více mobilní. Stále naprostá většina využívá převážně

zmiňované dva typy.

Page 9: Statistika - vsb.czhomel.vsb.cz/~kov74/files/Projekty/jed.pdfDotazník byl vytvořen přesně na míru pro tento projekt, takže využiji všechny dostupné proměnné. Celkem se dotazníku

3.4. Zastoupení znalosti PC

V dotazníku se nacházela také otázka „Do jaké skupiny se řadíte ve znalosti PC?“. Zjišťoval

jsem tedy, na jaké úrovni lidé ovládají své počítače. Sami se podle svého názoru zařadili do

jedné ze tří kategorií, znamená to, že tato analýza je založena spíše na subjektivním dojmu

respondenta.

Obr. 4 - koláčový graf „Do jaké skupiny se řadíte ve znalosti PC?“

Z výše uvedeného grafu jsem se dozvěděl jaké je zastoupení znalosti PC ve zkoumané

populaci. Polovina dotazovaných o sobě myslí, že je v oblasti počítačů začátečník. Nejméně

je však odborníků, což jistě odpovídá realitě. Dalo by se říci, že přibližně každý šestý člověk

s připojením k internetu myslí, že je počítačový odborník.

Page 10: Statistika - vsb.czhomel.vsb.cz/~kov74/files/Projekty/jed.pdfDotazník byl vytvořen přesně na míru pro tento projekt, takže využiji všechny dostupné proměnné. Celkem se dotazníku

3.5. Zastoupení pohlaví

Pro lepší představu a upřesnění analýzy jsem zahrnul také pohlaví respondentů.

Obr. 5 - koláčový graf pro proměnnou Pohlaví

Graf na obrázku 5 ukazuje na fakt, že muži na počítači s připojením k internetu prosedí více.

Výsledek může ovlivňovat i to, že mohou mít větší zájem o vyplňování dotazníku.

Page 11: Statistika - vsb.czhomel.vsb.cz/~kov74/files/Projekty/jed.pdfDotazník byl vytvořen přesně na míru pro tento projekt, takže využiji všechny dostupné proměnné. Celkem se dotazníku

3.6. Věk respondentů

V poslední otázce jsem se ptal na věk respondentů. Mohu tak sledovat jaká věková

kategorie je na internetu nejčastěji nebo např. závislost věkové kategorie na dalších

proměnných a vyvodit tak užitečnější závěr pro danou statistiku.

Obr. 6 - histogram pro proměnnou Věk

Na obrázku 6 lze vidět histogram, který ukazuje četnosti. Lze z něj vyčíst, že věková

kategorie kolem 20 let je na internetu nejaktivnější.

Statistika proměnné Věk

Počet respondentů / pozorování 50

Průměrný věk 33,42

Směrodatná odchylka 15,1753

Minimální věk 13

Maximální věk 72

Interkvartilové rozpětí 59

Šikmost 3,17267

Špičatost 0,404117

T. K.
Poznámka
Hodnoty statistik nejsou vhodně zaokrouhleny
Page 12: Statistika - vsb.czhomel.vsb.cz/~kov74/files/Projekty/jed.pdfDotazník byl vytvořen přesně na míru pro tento projekt, takže využiji všechny dostupné proměnné. Celkem se dotazníku

4. Statistická indukce

4.1. Závislost typu počítače na pohlaví respondenta

Předmětem zkoumání bylo mimo jiné zjistit, zda je typ počítače závislý na pohlaví

respondentů.

Pomocí statistické indukce, resp. analýzou kontingenční tabulky tak zjistíme na základě

zkoumané populace, zda existuje závislost mezi pohlavím a typem počítače, tento poznatek

pak přenést s určitou mírou rizika na celou populaci. Následující tabulka shrnuje parametry

datového souboru v kontingenční tabulce.

Tabulka četností

Notebook Stolní Celkem za řádek

Muž 12 19 31

24% 38% 62%

13,02 17,98

0,08 0,06

Žena 9 10 19

18% 20% 38%

7,98 11,02

0,13 0,09

Celkem za sloupec 21 29 50

42% 58% 100%

Obsah buněk:

Počet výskytů

Procentuální zastoupení

Očekávaná četnost (nesmí být nižší než 5)

Příspěvek do chi-square

První řádek tabulky popisuje počet výskytů hodnot, které byly zaznamenány v dotazníku pro

proměnnou Typ počítače, které využívají muži. Druhý řádek představuje procentuální

zastoupení daného počtu výskytů v celé populaci. Třetí pak popisuje očekávanou četnost,

resp. Expected frequency. Tato hodnota je velmi důležitá, neboť na základě ní je možné určit

Page 13: Statistika - vsb.czhomel.vsb.cz/~kov74/files/Projekty/jed.pdfDotazník byl vytvořen přesně na míru pro tento projekt, takže využiji všechny dostupné proměnné. Celkem se dotazníku

zda lze provést test závislosti. A to tak, že hodnoty v celé tabulce nesmí klesnout pod

hodnotu 5. Nejnižší hodnota je 7,98, takže test je možné provést.

Čtvrtý řádek popisuje příspěvek do chi-square.

Následný mozaikový graf pomůže si lépe danou závislost představit.

Obr. 7 – mozaikový graf „Závislost pohlaví respondenta na typu počítače“

Z grafu na obrázku 7. je vidět, že poměr mezi stolním počítačem a ženou je pro obě pohlaví

přibližně stejný. Abychom určili, jestli tomu tak je opravdu nebo existuje závislost mezi

zmíněnými kategoriálními proměnnými je nutné definovat hypotézu.

Definuji nulovou hypotézu H0 jako:

Muži i ženy používají daný typ počítače ve stejné míře.

Definuji alternativní hypotézu HA:

Muži nepoužívají daný typ počítače ve stejné míře jako ženy.

Předpoklady k provedení testu byly splněny, tudíž jsem přistoupil k testu nezávislosti:

Test Statistika Df P-Value

Chi-Square 0,363 1 0,5471

Protože je P-value větší než 0,05, tedy v tomto případě 0,5471, nelze zamítnout nulovou

T. K.
Poznámka
Kritérium pro použitelnost testu, je poněkud méně přísné - 80% četností větších než 5 a žádná četnost nesmí být menší než 2.
Page 14: Statistika - vsb.czhomel.vsb.cz/~kov74/files/Projekty/jed.pdfDotazník byl vytvořen přesně na míru pro tento projekt, takže využiji všechny dostupné proměnné. Celkem se dotazníku

hypotézu, která říká že řádky a sloupce jsou s 95% pravděpodobností (5% hladině

významnosti) nezávislé. Z toho vyplývá, že jsme nenašli spojení, mezi pohlavím

respondentů a typem počítače.

4.2. Intervalový odhad pro proměnnou Věk respondenta

Abych určil parametry celé populace je nutné provést vyčerpávající analýzu, to je z mnoha

důvodů velmi obtížné až nemožné. Proto jsem využil odhad, ve kterém použiji příslušné

charakteristiky výběrového souboru. Zajímalo mě kolik procent lidí je starších 35 let, neboť

to je přibližně průměrné stáří respondentů.

Z vyplněných dotazníků byly zjištěny následující údaje o stáří respondentů:

23, 22, 21, 26, 26, 23, 49, 65, 71, 40, 45, 18, 22, 23, 72, 34, 20, 23, 55, 28, 30, 47, 22, 26,

28, 29, 43, 23, 20, 13, 31, 34, 25, 37, 54, 44, 55, 20, 17, 67, 24, 23, 27, 36, 19, 25, 26, 50,

48, 22

Z výše uvedených dat jsem vypočítal průměr - 33,42 let

a směrodatnou odchylku - 15,1753 let.

Zjistil jsem intervaly spolehlivosti pro míru 95%:

95% IS pro střední hodnotu - [29,1072; 37,7328].

95% IS pro směrodatnou odchylku - [13,324; 17,6288].

Počítám pomocí normálního rozdělení:

N(29,1072; 13,3242) P(X > 35) = 32,9% (minimum)

N(29,1072; 17,62882) P(X > 35) = 36,9%

N(37,7328; 13,3242) P(X > 35) = 58,1% (maximum)

N(37,7328; 17,62882) P(X > 35) = 56,2%

Z výše uvedeného výpočtu intervalových odhadů jsem zjistil, že s 95% spolehlivostí má

daná populace věk vyšší než 35 let s pravděpodobností mezi 32,9% až 58,1%.

T. K.
Poznámka
S využitím které výběrové charakteristiky, s jakým rozdělením pravděp. jste odhady získal? Chybí ověření normality výběru.
Page 15: Statistika - vsb.czhomel.vsb.cz/~kov74/files/Projekty/jed.pdfDotazník byl vytvořen přesně na míru pro tento projekt, takže využiji všechny dostupné proměnné. Celkem se dotazníku

5. Závěr

V úvodu jsem představil čemu se bude analýza dat věnovat. Dále jsem zkoumal v

exploratorní analýze všechny dostupné proměnné – jak kategoriální tak numerické.

V části zabývající se statistickou indukcí jsem zkoumal závislost typu počítače na pohlaví

respondentů a zjistil, že zde pravděpodobně žádná vazba není. Zjistil jsem také procentuální

interval, který odhaduje rozmezí, že je daná populace starší než 35 let.

Nakonec bych chtěl poznamenat, že z důvodu menšího množství respondentů byla

prováděná analýza s méně přesnými výsledky. Avšak pro orientační pohled na problematiku

zastoupení programového vybavení je více než dostatečná.

T. K.
Poznámka
Hodnocení. Smysluplné, čitelné, vhodně zvolené metody stat. indukce. Závažnou chybou je neověření normality num. proměnné věk, která je předpokladem pro správné zjištění intervalových odhadů a také nezaokrouhlení statistik v EDA. Teze (Správná volba metod) 2 ze 2 Projekt Forma + smysl + gramatika 2 ze 2 EDA 1 ze 2 I skupina matod 1 ze 2 (interv. odhady, testy par hypotéz) II skupina metod 4 ze 4 (Kont Tabulky, ANOVA, Regres) Celkem 10 ze 12b
T. K.
Text napsaný psacím strojem
Hodnocení 10b