DEĞİŞKENLİK ÖLÇÜLERİkisi.deu.edu.tr/s.ucdogruk/ist1değişkenlik_ölçüleri...10 2) Varyans...

Preview:

Citation preview

DEĞİŞKENLİK ÖLÇÜLERİ

2

Değişkenlik (Yayılım) Ölçüleri

• İki farklı anakütleyi birbirinden ayırmak için her

zaman yalnızca yer ölçüleri yeterli olmayabilir.

• Dağılımları birbirinden ayırt etmede kullanılan ve

genellikle aritmetik ortalama etrafındaki değişimi

dikkate alarak hesaplanan istatistiklere

değişkenlik(yayılım) ölçüleri adı verilir.

3

X

123,33

109,33

95,33

81,33

67,33

Fre

ka

ns 400

300

200

100

0

X

123,33

109,33

95,33

81,33

67,33

Fre

ka

ns 1200

1000

800

600

400

200

0

Aşağıdaki iki grafik n = 1500 hacimlik alınan iki farklı örnek

doğrultusunda oluşturulan histogramlardır. Her iki örnek

ortalaması yaklaşık olarak 100 olduğuna göre iki örneğin aynı

anakütleden alındığı söylenebilir mi?

4

• İki örneğin aynı anakütleden geldiği söylenemez.

• Bunun nedeni alınan örnek sonucunda oluşturulan histogramda dağılımların ortalama etrafında farklı olmasından kaynaklanmaktadır.

• Dağılımları birbirinden ayırt etmede kullanılan yayılım ölçüleri aritmetik ortalama etrafındaki değişimleri dikkate alan tanımlayıcı istatistiklerdir.

• Bir veri setinde aritmetik ortalamalardan her bir gözlemin farkı alınıp bu değerlerin tümü toplandığında sonucun 0 olduğu görülür.

5

• Örnek: 4,8,9,13,16 şeklinde verilen bir basit seri için;

105

16139841

n

xx

n

ii

010161013

1091081041

n

ii

xx

• Bu örnekten görüleceği üzere gözlemlerin aritmetik ortalamadan uzaklığı alıp toplandığında 0 elde edildiğinden dolayı bu problem mutlaka değer kullanarak veya karesel uzaklık alınarak ortadan kaldırılır.

6

1) Ortalama Mutlak Sapma(OMS)

• Veri setindeki her bir gözlem değerinin aritmetik ortalamadan farklarının mutlak değerlerinin toplamının örnek hacmine bölünmesiyle elde edilir.

• Gözlem değerlerinin aritmetik ortalamadan faklarının toplamı 0 olacağından bu problemi ortadan kaldırmak için mutlak değer ifadesi kullanılır.

•OMS küçük ise dağılımın çok sıkışık ya da tek düzen olduğu anlaşılır.

7

1) Ortalama Mutlak Sapma(OMS)

n

xx

OMS

n

i

i

1Basit seriler İçin:

k

i

i

k

i

ii

f

xxf

OMS

1

1

k

i

i

k

i

ii

f

xmf

OMS

1

1

Gruplanmış seriler İçin:

Sınıflanmış Seriler İçin :

8

Örnek: İstatistik I dersini alan 10 öğrencinin vize

notları aşağıdaki gibi sıralanmıştır. Buna göre vize

notları için ortalama mutlak sapma değerini

hesaplayınız.

5,1410

145

10

6998...694169301

n

xxOMS

n

ii

30,41,53,61,68,79,82,88,90,98

6910

98....41301

n

xx

n

ii

9

Örnek: Aşağıdaki tabloda 30 günlük süre içinde bir

restoranın kullandığı et miktarının dağılımı verilmiştir. Günlük

kullanılan et miktarının ortalama mutlak sapmasını

hesaplayınız.

Sınıflar fi mi Ifi( mi x

)I

30-36’dan az 2 33 I2(33-46,6)I 36-42’den az 6 39 I6(39-46,6)I

42-48’den az 10 45 I10(45-46,6)I 48-54’dan az 7 51 I7(51-46,6)I 54-60’den az 4 57 I4(57-46,6)I 60-66’den az 1 63 I1(63-46,6)I

Toplam 30 163,2

.6,46

1

1 kgf

fmx k

ii

k

iii

.44,530

2,163

1

1 kg

f

xmf

OMSk

i

i

k

i

ii

10

2) Varyans

• Ortalama mutlak sapmada kullanılan mutlak değerli

ifadeler ile işlem yapmanın zor hatta bazı durumlarda

imkansız olması sebebiyle yeni değişkenlik ölçüsüne

ihtiyaç bulunmaktadır.

• Mutlak değer ifadesindeki zorluk aritmetik ortalamadan

farkların karelerinin alınmasıyla ortadan kalkmaktadır.

• Veri setindeki her bir gözlem değerinin aritmetik

ortalamadan farklarının karelerinin toplamının örnek

hacminin bir eksiğine bölünmesinden elde edilen

değişkenlik ölçüsüne örnek varyansı adı verilir.

11

Basit seriler İçin:

Populasyon Varyansı:

m : Populasyon Ortalaması N : Populasyon Hacmi

Örnek Varyansı :

Gruplanmış Seriler İçin:

Sınıflanmış Seriler İçin :

N

xi

2

2

m

1

1

2

2

n

xxs

n

ii

1

)(

1

1

2

2

k

i

i

k

i

ii

f

xmf

s

1

)(

1

1

2

2

k

i

i

k

i

ii

f

xxf

s

12

n

ii

xx1

2

ifadesi istatistikte bir çok formülde kullanılır ve

kareler toplamı olarak adlandırılır.

• Matematiksel olarak hesaplama kolaylığı sağlaması

açısından formüllerde kareler toplamının açılımı olan

aşağıdaki eşitlik kullanılabilir.

n

xxxx

n

iin

ii

n

ii

2

1

1

2

1

2

13

1

2

1

1

2

2

n

n

xx

s

n

in

ii

11

1

2

2

2

k

ii

k

ii

k

iiik

iii

f

f

xfxf

s

11

1

2

2

2

k

i

i

k

i

i

k

i

iik

i

ii

f

f

mf

mf

s

Gruplanmış Seriler İçin:

Sınıflanmış Seriler İçin :

Basit Seriler İçin:

14

15

16

3) Standart Sapma

• Varyans hesaplanırken kullanılan verilerin kareleri

alındığından verilerin ölçü biriminin karesi

varyansında ölçü birimi mevcut ölçü birimini karesi

olur.

• Örnek: kg2, cm2 gibi.

• Bu nitelendirme veriler açısından bir anlam

taşımayacağından varyans yerine ortalama

etrafındaki değişimin bir ölçüsü olarak onun pozitif

karekökü olan standart sapma kullanılır.

17

Basit seriler İçin:

Populasyon Standart Sapması:

m : Populasyon Standart Sapması N : Populasyon Hacmi

Örnek Standart Sapması :

Gruplanmış Seriler İçin:

Sınıflanmış Seriler İçin :

N

xi

2

m

1

1

2

n

xxs

n

ii

1

)(

1

1

2

k

i

i

k

i

ii

f

xmf

s

1

)(

1

1

2

k

i

i

k

i

ii

f

xxf

s

18

Örnek: İstatistik I dersini alan 10 öğrencinin vize

notları aşağıdaki gibi sıralanmıştır. Buna göre vize

notları için varyans ve standart sapmayı

hesaplayınız.

22,5049

4538

9

6998...69416930

1

222

1

2

2

n

xxs

n

ii

6910

98....41301

n

xx

n

ii

22,5042

s

30,41,53,61,68,79,82,88,90,98

45,2222,5042

ss→

İstatistik I vizesinden alınan notların ortalama etrafında

yaklaşık olarak 22 puan değiştiği görülmektedir.

19

Aynı soru kareler ortalamasının açılımı kullanılarak

çözüldüğünde aynı sonuçları verecektir.

6901

n

ii

x

22,5042

s

45,2222,5042

ss

30,41,53,61,68,79,82,88,90,98

521481

2

n

i i

x

x x2

30 900

41 1681

53 2809

61 3721

68 4624

79 6241

82 6724

88 7744

90 8100

9

10

69052148

1

2

2

1

1

2

2

n

n

xx

s

n

in

ii

20

Grup Frekans xifi xi2 fi

51 1 51 2601

66 3 198 13068

72 4 288 20736

82 5 410 33620

94 7 658 61852

∑fi =20 1605 131607

Örnek: Yandaki tabloda bir Samsung bayisindeki LCD

televizyonların ekran boyutlarına göre satış miktarları verilmiştir.

Frekans dağılımının varyans ve standart sapmasını hesaplayınız.

67,14719

20

1605131607

1

2

1

1

2

2

2

k

ii

k

ii

k

iiik

iii

f

f

xfxf

s

15,1267,1472

ss

21

Örnek: Aşağıdaki tabloda 30 günlük süre içinde bir

restoranın kullandığı et miktarının dağılımı verilmiştir. Günlük

kullanılan et miktarının varyansını ve standart sapmasını

hesaplayınız.

Sınıflar fi mi fi( mi x

)2

30-36’dan az 2 33 2(33-46,6)2

36-42’den az 6 39 6(39-46,6)2

42-48’den az 10 45 10(45-46,6)2

48-54’dan az 7 51 7(51-46,6)2

54-60’den az 4 57 4(57-46,6)2

60-66’den az 1 63 1(63-46,6)2

Toplam 30 1579,2

.6,46

1

1 kgf

fmx k

ii

k

iii

46,54130

2,1579

1

)(

1

1

2

2

k

ii

k

iii

f

xmfs

.38,746,542

kgss

22

23

24

25

26

%68.27

%95.45

%99.73

-3 -2 - m 2 3- OMS OMS

%57.5

x gözlemlerin %68.27’sini

x OMS gözlemlerin %57.5’ini kapsar

27

28

29

4) Range (Değişim Aralığı) • Veri setindeki yayılımı ifade etmede kullanılan en basit

istatistik değişim aralığıdır. Genel olarak basit seriler

için kullanılır.

• En büyük gözlem değeri ile en küçük gözlem değeri

arasındaki fark değişim aralığını verir.

• Veri setindeki tek bir gözlemin aşırı derecede küçük

veya büyük olmasından etkilendiği için bir başak

ifadeyle örnekte yer alan sadece iki veri kullanılarak

hesaplanmasından dolayı tüm veri setinin değişkenliğini

açıklamak için yetersiz kalmaktadır.

30

Örnek: Bir fabrikada çalışan 5 endüstri

mühendisinin bildiği yabancı dil sayıları aşağıda

verilmiştir. Buna göre bu mühendislerin bildiği

yabancı dil sayısı için değişim aralığını

hesaplayınız.

2,0,1,2,0

Xİ = 0,0,1,2,2. n = 5 i: 1,2,3,4,5.

• R = Xmax – Xmin X: SÜREKLİ ŞANS DEĞİŞKENİ

• R = Xmax – Xmin +1 = 2 – 0 + 1 = 3

• R = Xmax – Xmin +1 X: KESİKLİ ŞANS DEĞİŞKENİ

31

5) Değişkenlik(Varyasyon) Katsayısı • İki veya daha fazla populasyon üzerinde aynı şans değişkenleri için yapılan araştırmalarda değişkenliklerin karşılaştırılması için kullanılan bir ölçüdür.

• Standart sapmayı ortalamanın bir yüzdesi olarak ifade eden ve iki veya daha fazla populasyondaki varyasyonu (değişkenliği) karşılaştırmada kullanılan ölçüye varyasyon(değişkenlik) katsayısı denir.

Varyasyon

Katsayısı:

100*X

sC

V

•%’ler azaldıkça araştırmanın hassasiyeti artar.

•Örnek: İstanbul’da ve Ankara’da yaşayan ailelerin aylık gelirlerinin değişkenliklerinin karşılaştırılması

32

s

Leblebi 30 kg. 5 kg.

Fıstık 40 kg. 4 kg.

Badem 10 kg. 3 kg.

x

Örnek: Kuruyemiş satan bir dükkanda bir haftalık sürede

satılan leblebi, fıstık ve bademlerin ortalamaları ve standart

sapmaları aşağıda verilmiştir. Buna göre kuruyemişleri

değişkenlikleri açısından karşılaştırınız ve kuruyemişin

değişkenliğinin daha fazla olduğunu belirtiniz.

10%10100*40

4100*

X

sC

fııstıV

67,16%67,16100*30

5100*

X

sC

leblebiV

30%30100*10

3100*

X

sC

BADEMV

Üç kuruyemişin değişkenlikleri karşılaştırıldığında en küçük

standart sapma değeri bademde olmasına rağmen en büyük

varyasyon katsayısına sahip olduğundan en fazla değişkenliğin

bademde olduğu görülür. Aritmetik ortalamalar içerisinde standart

sapma yüzdelerine bakıldığında en büyük yüzde bademdedir.

33

34

35

36

37

38

Çarpıklık (Asimetri) Ölçüleri • Populasyonları birbirinden ayırmak için her zaman yalnızca

yer ve yayılım ölçüleri yeterli olmayabilir. Aşağıda iki farklı

populasyondan alınmış örnekler için oluşturulan

histogramlar verilmiştir.

A

B

mA

m0

0

39

• Şekilden görüleceği üzere A ve B örneklerinin aynı ortalamaya ve yaklaşık olarak aynı değişkenliğe sahip olmalarına rağmen bu iki örneğin açıkça aynı populasyondan gelmediği söylenir.

• Asimetri (çarpıklık) ifadesi simetrik olmayan anlamını taşımaktadır.

•Şekillere bakıldığında frekansların A’da daha çok sol tarafta (küçük xi değerlerinde), B’de ise daha çok sağ tarafta (büyük xi değerlerinde), toplandığı görülmektedir.

40

Asimetri Ölçüleri PEARSON ÇARPIKLIK ÖLÇÜSÜ

s

xSk p

mod SkP < 0 →Negatif çarpık(Sola)

SkP > 0 → Pozitif Çarpık(Sağa)

SkP = 0 ise dağılış simetrik

s

medXSk p

)(3

veya

BOWLEY ÇARPIKLIK ÖLÇÜSÜ

13

1223 )()(

QQ

QQQQSkb

Skb < 0 → Negatif çarpık(Sola)

Skb > 0 → Pozitif Çarpık(Sağa)

Skb = 0 ise dağılış simetrik

41

Simetrik Dağılım

A.O = Med = Mod

Sağa çarpık dağılım

A.O > Med > Mod

Sola çarpık dağılım

A.O < Med < Mod

İki modlu simetrik dağılım Modu olmayan dağılım Tekdüzen dağılım

42

Örnek: Aşağıdaki tabloda 30 günlük süre içinde bir restoranın

kullandığı et miktarının dağılımından elde edilen bazı tanımlayıcı

istatistikler verilmiştir. Buna göre pearson ve bowley asimetri

ölçülerini hesaplayıp yorumlayınız.

Ar i t m e t i k O r t .

Mod

Medyan

Q1

Q2

s2

46,6 45,4 46,2 41,5 51,9 54,46

016,046,54

4,456,46mod

s

xSk p

016,046,54

)2,466,46(3)(3

s

medXSk p

010,04,10

1

5,419,51

)5,412,46()2,469,51()()(

13

1223

QQ

QQQQSkb

Sağa Çarpık ,

Pozitif Asimetri

Sağa Çarpık ,

Pozitif Asimetri

Sağa Çarpık,

Pozitif Asimetri

43

Basıklık Ölçüsü

Herhangi bir olasılık fonksiyonunun şekli ile ilgili

parametrelerden bir tanesi de basıklık ölçüsüdür. Basıklık

Ölçüsü ortalamaya göre dördüncü momentten gidilerek

hesaplanır ve 4 olarak gösterilir.

44

MOMENTLER:

Xi rassal değişkeninin, µ ile gösterilen aritmetik ortalama

dolayındaki r. momenti, (X - µ)r’nin beklenen değeridir.

rr

iir

X XX μm

n n

Bir rassal değişkenin dağılım biçimini, yani o değişkenin

olasılık dağılımının yada olasılık yoğunluğunun çizimindeki

biçimi betimlediklerinden dolayı momentler istatistikte

önemlidir.

45

MOMENTLER:

1

i1

X μm 0

n

2

i 22

X μm σ

n

Üçüncü ve dördüncü momentler ise aşağıdaki

formüllerden hesaplanabilmektedir:

33

ii3

X XX μm

n n

44

ii4

X XX μm

n n

Aritmetik ortalama µ ( ) etrafındaki birinci momenti

sıfır ve ikinci momenti ise varyansı ( ) dır. 2σ

X

46

Herhangi bir olasılık fonksiyonunun şekli ile ilgili

parametrelerden bir tanesi de basıklık ölçüsüdür.

Basıklık Ölçüsü ortalamaya göre dördüncü momentten

gidilerek hesaplanır ve 4 olarak gösterilir.

4

4 4

m

s

4 = 3 ise Seri Normal

4 < 3 ise Seri Basık

4 < 3 ise Seri Sivri Ya da Yüksek

4

1

4

n

i

i

x x

mn

Basit Seri İçin

47

48

49

KUTU DİYAGRAMLARI • Box-Whisker (Kutu) gösterimlerinde en uç iki veri ile

birlikte üç kartili de gösterebiliriz.

• Bu gösterimlerde kutu yatay veya dikey olarak gösterilebilir ve sol çizgi 25 oranında alt kartili ve sağ çizgi 75 oranındaki üst kartil içerir

• Whisker’in her iki ucundaki değerler en uç noktalardır.

• Örnek hacminin en az 50 veya 100 olduğu büyük veri setlerinde, whiskerler en uç değerler yerine yüzde 10 veya 90 veya 5 veya 95 oranlarına ulaşır.

• Box and whisker gösterimi ile minimum, ilk kartil, üçüncü kartil, medyan, maximum değerler ve çarpıklık yada simetri görülebilir.

50

51

52

53

54

40,0

60,0

80,0

100,0

C1 C2 C3

Box Plot

Variables

Am

ount

ÖRNEK:

Recommended