Upload
others
View
9
Download
0
Embed Size (px)
Citation preview
Statistika
Semestrální projekt
18.5.2013
Tomáš Jędrzejek, JED0008
Obsah
Úvod 3
Analyzovaná data 4
Analýza dat 6
Statistická indukce 12
Závěr 15
1. Úvod
Cílem této semestrální práce je aplikovat získané teoretické poznatky pomocí dostupného
programového vybavení, jmenovitě statistický software Statgraphics Centurion 16.1.18 a
LibreOffice 4.0.22 jako textový procesor. Jako téma práce jsem zvolil sledování
softwarového vybavení uživatelů na internetu. Neboť jsem nenašel vhodný zdroj dat,
vytvořil jsem za pomocí služeb Google Docs internetový dotazník. Ten byl volně dostupný
atak se ho mohlo zúčastnit kdokoli, kdo má přístup k internetu. Protože byl dotazník
zhotoven v českém jazyce, je velmi pravděpodobné, že naprostá většina respondentů
pocházela právě z České Republiky. Nezachycuje tedy jen malou oblast, kde se dotazovaní
nacházeli. Z tohoto důvodu je míra objektivity u prováděných statistik větší, než v případě,
kdy by se jednalo např. o studenty VŠB-TUO. Jako populaci či základní soubor lze tedy
pokládat lidi používající počítač, kteří jsou připojení k internetu v květnu 2013. Statistiky
založené na základě získaných dat nám mohou říci třeba to, jak jsou oblíbené webové
prohlížeče napříč celým spektrem respondentů, jak ovlivňuje znalost počítačů to, jaký
operační systém používají, jaká věková kategorie má na internetu největší zastoupení, apod.
Dotazník byl vytvořen přesně na míru pro tento projekt, takže využiji všechny dostupné
proměnné.
Celkem se dotazníku účastnilo 50 respondentů. Na všechny otázky bylo nutné odpovědět, to
znamená, že nedošlo k prázdné odpovědi a všechny záznamy mohly být použity.
Výběrovým souborem jsou v tomto případě lidé používající počítač, kteří jsou připojeni k
internetu a účastnili se dotazníku v květnu 2013. Data byly získány umístěním odkazu na
dotazník na několika webových stránkách, tak abych dosáhl co nejvyšší vypovídací hodnotu
v globálním měřítku. Na základě získaných dat byla provedena exploratorní analýza, která
byla doplněna intervalovým odhadem a testem nezávislosti v kontingenční tabulce.
2. Analyzovaná data
Dotazník se skládal z několika otázek. Obsaženy byly takové, které se týkají samotné osoby,
tedy respondenta – např. pohlaví či věk a také ty, které přiblížily jaké softwarové vybavení
využívá nejvíce. Níže jsou uvedeny otázky a možné odpovědi:
● Vaše pohlaví?
• Žena
• Muž
● Váš věk?
• Číslo
● Do jaké skupiny se řadíte ve znalosti PC?
• Začátečník
• Pokročilý
• Odborník
● Jaký typ počítače používáte nejčastěji?
• Stolní
• Notebook
• Netbook
• Tablet
● Jaký webový prohlížeč nejčastěji?
• Chrome
• Mozilla Firefox
• Internet Explorer
• Jiný
● Jaký operační systém používáte nejčastěji?
• Windows
• Linux
• OS X
• Jiný
3. Analýza dat
3.1. Zastoupení webových prohlížečů
Tento dotazník je zaměřen na zjištění zastoupení používaného programového vybavení.
Proto jsem nejdříve provedl exploratorní analýzu proměnné webové prohlížeče, tedy otázka
zněla – „Jaký webový prohlížeč využíváte nejčastěji?“.
Obr. 1 – koláčový graf „Jaký webový prohlížeč využíváte nejčastěji?“
Z grafu na obrázku 1 lze jasně vidět zastoupení webových prohlížečů na zkoumaném trhu.
Výsledky statistiky jsou velmi podobné těm, které lze nalézt na různých statistických
serverech jako je např. http://statcounter.com. Na sledované populaci lze zjistit, že dbá na
svou bezpečnost a preferuje prohlížeč Mozilla Firefox či Google Chrome, které se snaží být
velmi inovativní v oblasti webových technologií.
3.2. Zastoupení operačních systémů
Další zkoumanou proměnnou byly Operační systémy. Respondentů jsem se ptal „Jaký
operační systém používáte nejčastěji?“. V posledních letech je to velmi zajímavá oblast,
která se s rozšiřujícím se přístupem k internetu začíná pomalu měnit.
Většina lidí vůbec nezná něco jiného, než systém Microsoft Windows, avšak roste
povědomí i o jiných platformách, kdy lidé hledají alternativní řešení z mnoha důvodů.
Fakt, že ostatní operační systémy nejsou (převážně v ČR) brány příliš na vědomí je
způsoben několika faktory jako je tuzemský vzdělávací systém.
Ku příkladu systémy s jádrem Linux začínají být celosvětově velmi populární, hlavně z
důvodu nulové ceny, mnohem lepší bezpečnosti a modularitě oproti Windows. Jaký je
současný stav ve zkoumané populaci na počítačích? To lze sledovat na následujícím
koláčovém grafu
Obr. 2 - koláčový graf „Jaký operační systém používáte nejčastěji?“
Z grafu na obrázku 2 jde vidět zastoupení jednotlivých OS. Statistika je opět velmi podobná
s těmi, které lze shlédnout na zmiňovaných portálech. Avšak z důvodu nízkého počtu
respondentů je pro Apple OS X a systémy na bázi Linux zřetelné, že přesnost není příliš
dobrá, neboť platí – čím více statistických jednotek, tím je analýza přesnější.
3.3. Zastoupení typu počítačů
Kromě analýzy programového vybavení mě zajímalo to, jaký typ počítače respondent
nejčastěji využívá. Pro výrobce hardware je velmi důležité vědět, jakým směrem se trh ubírá
a co se využívají zákazníci nejčastěji. Na základě této informace může lépe rozhodnout do
jakého segmentu investuje, aby se mu výroba dostatečně oplatila.
Obr. 3 - koláčový graf „Jaký operační systém používáte nejčastěji?“
V grafu na obrázku 3 lze vypozorovat, že stolní počítače na zkoumané populaci stále
převládají. I když to podle grafu nevypadá, prodeje stolních počítačů a notebooků klesají ve
prospěch menších zařízení, které jsou více mobilní. Stále naprostá většina využívá převážně
zmiňované dva typy.
3.4. Zastoupení znalosti PC
V dotazníku se nacházela také otázka „Do jaké skupiny se řadíte ve znalosti PC?“. Zjišťoval
jsem tedy, na jaké úrovni lidé ovládají své počítače. Sami se podle svého názoru zařadili do
jedné ze tří kategorií, znamená to, že tato analýza je založena spíše na subjektivním dojmu
respondenta.
Obr. 4 - koláčový graf „Do jaké skupiny se řadíte ve znalosti PC?“
Z výše uvedeného grafu jsem se dozvěděl jaké je zastoupení znalosti PC ve zkoumané
populaci. Polovina dotazovaných o sobě myslí, že je v oblasti počítačů začátečník. Nejméně
je však odborníků, což jistě odpovídá realitě. Dalo by se říci, že přibližně každý šestý člověk
s připojením k internetu myslí, že je počítačový odborník.
3.5. Zastoupení pohlaví
Pro lepší představu a upřesnění analýzy jsem zahrnul také pohlaví respondentů.
Obr. 5 - koláčový graf pro proměnnou Pohlaví
Graf na obrázku 5 ukazuje na fakt, že muži na počítači s připojením k internetu prosedí více.
Výsledek může ovlivňovat i to, že mohou mít větší zájem o vyplňování dotazníku.
3.6. Věk respondentů
V poslední otázce jsem se ptal na věk respondentů. Mohu tak sledovat jaká věková
kategorie je na internetu nejčastěji nebo např. závislost věkové kategorie na dalších
proměnných a vyvodit tak užitečnější závěr pro danou statistiku.
Obr. 6 - histogram pro proměnnou Věk
Na obrázku 6 lze vidět histogram, který ukazuje četnosti. Lze z něj vyčíst, že věková
kategorie kolem 20 let je na internetu nejaktivnější.
Statistika proměnné Věk
Počet respondentů / pozorování 50
Průměrný věk 33,42
Směrodatná odchylka 15,1753
Minimální věk 13
Maximální věk 72
Interkvartilové rozpětí 59
Šikmost 3,17267
Špičatost 0,404117
4. Statistická indukce
4.1. Závislost typu počítače na pohlaví respondenta
Předmětem zkoumání bylo mimo jiné zjistit, zda je typ počítače závislý na pohlaví
respondentů.
Pomocí statistické indukce, resp. analýzou kontingenční tabulky tak zjistíme na základě
zkoumané populace, zda existuje závislost mezi pohlavím a typem počítače, tento poznatek
pak přenést s určitou mírou rizika na celou populaci. Následující tabulka shrnuje parametry
datového souboru v kontingenční tabulce.
Tabulka četností
Notebook Stolní Celkem za řádek
Muž 12 19 31
24% 38% 62%
13,02 17,98
0,08 0,06
Žena 9 10 19
18% 20% 38%
7,98 11,02
0,13 0,09
Celkem za sloupec 21 29 50
42% 58% 100%
Obsah buněk:
Počet výskytů
Procentuální zastoupení
Očekávaná četnost (nesmí být nižší než 5)
Příspěvek do chi-square
První řádek tabulky popisuje počet výskytů hodnot, které byly zaznamenány v dotazníku pro
proměnnou Typ počítače, které využívají muži. Druhý řádek představuje procentuální
zastoupení daného počtu výskytů v celé populaci. Třetí pak popisuje očekávanou četnost,
resp. Expected frequency. Tato hodnota je velmi důležitá, neboť na základě ní je možné určit
zda lze provést test závislosti. A to tak, že hodnoty v celé tabulce nesmí klesnout pod
hodnotu 5. Nejnižší hodnota je 7,98, takže test je možné provést.
Čtvrtý řádek popisuje příspěvek do chi-square.
Následný mozaikový graf pomůže si lépe danou závislost představit.
Obr. 7 – mozaikový graf „Závislost pohlaví respondenta na typu počítače“
Z grafu na obrázku 7. je vidět, že poměr mezi stolním počítačem a ženou je pro obě pohlaví
přibližně stejný. Abychom určili, jestli tomu tak je opravdu nebo existuje závislost mezi
zmíněnými kategoriálními proměnnými je nutné definovat hypotézu.
Definuji nulovou hypotézu H0 jako:
Muži i ženy používají daný typ počítače ve stejné míře.
Definuji alternativní hypotézu HA:
Muži nepoužívají daný typ počítače ve stejné míře jako ženy.
Předpoklady k provedení testu byly splněny, tudíž jsem přistoupil k testu nezávislosti:
Test Statistika Df P-Value
Chi-Square 0,363 1 0,5471
Protože je P-value větší než 0,05, tedy v tomto případě 0,5471, nelze zamítnout nulovou
hypotézu, která říká že řádky a sloupce jsou s 95% pravděpodobností (5% hladině
významnosti) nezávislé. Z toho vyplývá, že jsme nenašli spojení, mezi pohlavím
respondentů a typem počítače.
4.2. Intervalový odhad pro proměnnou Věk respondenta
Abych určil parametry celé populace je nutné provést vyčerpávající analýzu, to je z mnoha
důvodů velmi obtížné až nemožné. Proto jsem využil odhad, ve kterém použiji příslušné
charakteristiky výběrového souboru. Zajímalo mě kolik procent lidí je starších 35 let, neboť
to je přibližně průměrné stáří respondentů.
Z vyplněných dotazníků byly zjištěny následující údaje o stáří respondentů:
23, 22, 21, 26, 26, 23, 49, 65, 71, 40, 45, 18, 22, 23, 72, 34, 20, 23, 55, 28, 30, 47, 22, 26,
28, 29, 43, 23, 20, 13, 31, 34, 25, 37, 54, 44, 55, 20, 17, 67, 24, 23, 27, 36, 19, 25, 26, 50,
48, 22
Z výše uvedených dat jsem vypočítal průměr - 33,42 let
a směrodatnou odchylku - 15,1753 let.
Zjistil jsem intervaly spolehlivosti pro míru 95%:
95% IS pro střední hodnotu - [29,1072; 37,7328].
95% IS pro směrodatnou odchylku - [13,324; 17,6288].
Počítám pomocí normálního rozdělení:
N(29,1072; 13,3242) P(X > 35) = 32,9% (minimum)
N(29,1072; 17,62882) P(X > 35) = 36,9%
N(37,7328; 13,3242) P(X > 35) = 58,1% (maximum)
N(37,7328; 17,62882) P(X > 35) = 56,2%
Z výše uvedeného výpočtu intervalových odhadů jsem zjistil, že s 95% spolehlivostí má
daná populace věk vyšší než 35 let s pravděpodobností mezi 32,9% až 58,1%.
5. Závěr
V úvodu jsem představil čemu se bude analýza dat věnovat. Dále jsem zkoumal v
exploratorní analýze všechny dostupné proměnné – jak kategoriální tak numerické.
V části zabývající se statistickou indukcí jsem zkoumal závislost typu počítače na pohlaví
respondentů a zjistil, že zde pravděpodobně žádná vazba není. Zjistil jsem také procentuální
interval, který odhaduje rozmezí, že je daná populace starší než 35 let.
Nakonec bych chtěl poznamenat, že z důvodu menšího množství respondentů byla
prováděná analýza s méně přesnými výsledky. Avšak pro orientační pohled na problematiku
zastoupení programového vybavení je více než dostatečná.