65
İstatistiğe Giriş İstatistik ve Biyoistatistiğin Tanımları Araştırmalarda Biyoistatistiğin Önemi Temel İstatistik Tanımları Veri Tipleri ve Özellikleri

İstatistik Nedir?

  • Upload
    virgil

  • View
    127

  • Download
    2

Embed Size (px)

DESCRIPTION

İstatistiğe Giriş  İstatistik ve Biyoistatistiğin Tanımları  Araştırmalarda Biyoistatistiğin Önemi  Temel İstatistik Tanımları  Veri Tipleri ve Özellikleri. İstatistik Nedir?. - PowerPoint PPT Presentation

Citation preview

İstatistiğe Giriş

İstatistik ve Biyoistatistiğin Tanımları Araştırmalarda Biyoistatistiğin Önemi Temel İstatistik Tanımları Veri Tipleri ve Özellikleri

İstatistik Nedir?

Herhangi bir konuyu incelemek amacıyla çalışmanın planlanmasını,

verilerin toplanmasını, değerlendirilmesini ve

bir karara varılmasını sağlayan bilimdir.

İstatistik

Tanımlayıcı istatistik: Elde edilen verilerin sınıflandırılması, ortalama ve yaygınlık ölçülerinin hesaplanması, tablo ve grafiklerle sunulmasını içerir.

Çıkarımsal istatistik: Örneklemden elde edilen bulgular yardımıyla evren hakkında kestirimde bulunma, hipotezleri test etme ve karara varma gibi konuları içerir.

İstatistik konu olarak tanımlayıcı istatistik ve çıkarımsal istatistik

olmak üzere iki ana gruba ayrılır.

Biyoloji, tıp ve diğer sağlık bilimlerinde araştırma düzeninin oluşturulması, verilerin elde edilmesi ve değerlendirilmesi ile uğraşan

bilim dalıdır.

Biyoistatistik

Araştırma Nedir?

Bilinmeyen bir olayı ortaya çıkarmak, bilinenleri geliştirmek, herhangi bir

konuyu aydınlatmak, sorunları ortaya çıkarmak ya da

sorunlara çözüm yolları aramak için yapılan planlı ve bilimsel bir

çalışmadır.

Araştırma

Araştırmacı öncelikle araştırma konusu hakkında bilgi sahibi olmalıdır.

Araştırma konusu sınırlı olmalı, araştırmacı yeterli mali olanaklara ve zamana sahip olmalıdır.

Araştırma konusu araştırılan sorunlara çözüm

yolları önerecek düzeyde olmalı, yenilik getirmelidir.

Araştırmanın çeşitli aşamaları vardır.

1. Araştırma Konusunun Saptanması:

2. Araştırmanın Planlanması

Bu aşama araştırmanın en önemli aşamasıdır. İncelenecek konu ayrıntılı olarak tanıtılmalıdır. Konuyla ilgili kaynak taraması yapılmalıdır. Amaç belirlenmelidir. Araştırmanın önemi (kuramsal ve pratik yararların ne olacağı) belirlenmelidir. Araştırma ile ilgili test edilmek istenen hipotezler belirlenmelidir. Kısıtlayıcı durumlar belirlenmelidir.

Araştırmanın uygulanması için araştırma kapsamına giren birimler belirlenmelidir. Araştırma birimi, araştırma konusuna göre değişir. Örneğin bir bölgede hane halkı ile ilgili bir araştırma düzenlendiğinde, araştırma birimi hanelerdir.

3. Araştırmanın Uygulanması ve Değerlendirilmesi

Araştırma konusunu içeren sorular, araştırma birimlerine uygulanır.

Araştırma sonunda toplanan veriler istatistiksel yöntemler kullanılarak

değerlendirilir.

Araştırmaların Temel Amaç ve Yöntemlerine Göre Sınıflandırılması

I. Gözlemsel Araştırmalar

1. Tanımlayıcı Araştırmalar 2. Analitik Araştırmalar

1- Vaka-Kontrol Araştırmaları2-Kohort Araştırmaları3-Kesitsel Araştırmalar

II. Deneysel AraştırmalarDeneysel araştırmalar genellikle klinikte

ve laboratuvarlarda yapılır.

III. Metodolojik Araştırmalar

Araştırma kapsamına giren aynı özellikleri taşıyan birimlerin tümüne denir.Kitlenin büyüklüğü araştırmanın özelliğine göre değişir.

Bir kitleden, örnekleme yöntemlerinden yararlanarak seçilen aynı özellikleri taşıyan bir grup birimin oluşturduğu topluluğa denir.

Örneklem

Kitle (Evren)

Örnekleme

Evrenden örnek seçmek amacıyla geliştirilen çeşitli yöntemler vardır. Uygun yöntemlerle evrenden örneklem seçme işlemine “örnekleme” denir.

Parametre

Evreni tanımlamak için kullanılan ölçülere parametre denir.

İstatistik

Örneklemi tanımlamak için kullanılan ölçülere istatistik denir.

Evren ve Örneklem için Tanımlayıcı İstatistiklerin Gösterimi

NnGözlem Sayısı

SxStandart Hata

22S2Varyans

SStandart Sapma

PpOran

µOrtalama

Evren

(Parametre)

Örneklem

(İstatistik)Tanımlayıcı Ölçüler

x

Değişik değerler alan herhangi bir özelliğe değişken denir. Örneğin, boy

uzunluğu, yaş, öğrenim düzeyi vb. kişiden kişiye değişen değerler olduğu

için değişken olarak adlandırılır.

Değişken

İncelenen konuya açıklık getirmek amacıyla toplanan bilgiler, belgeler, ölçümler, ... vb.

Veri

1. Nitelik verilerBireylerin sahip olduğu belli özelliklerin sınıflara ayrılarak belirtildiği verilerdir. Örneğin, cinsiyet,

medeni durum, başarılı-başarısız gibi. Nitelik verilerde belli bir sıralama söz konusu ise (kötü-orta-iyi-

mükemmel gibi) bu tür verilere sıralanabilir (ordinal) nitelik veriler denir.

Böyle bir sıralama yoksa bu tür verilere sınıflanabilir (nominal) nitelik veriler denir.

Veri TipleriVeriler genel olarak nitelik veriler ve sayısal veriler

şeklinde iki gruba ayrılarak incelenirler.

2. Sayısal Veriler

Sayısal veriler kesikli ve sürekli sayısal veriler olarak iki alt gruba ayrılır.

Kesikli sayısal veriler, belirli bir aralıktaki tam sayıları alan veri türüdür.

Örnek: Sınıftaki öğrenci sayısı,

Sürekli sayısal veriler, ölçümle belirtilirler ve bir aralıktaki bütün değerleri alırlar.

Örnek: Boy uzunluğu, yaş, günlük kalsiyum tüketim miktarı(mg) gibi.

Nitelik Veriler ve Sayısal Veriler Arasındaki İlişkiHem kesikli sayısal veriler hem de sürekli sayısal veriler bazen nitelik veri olarak ifade edilebilirler.

Örneğin sürekli sayısal bir veri olan vücut kitle indeks verisini

Biçiminde sınıflandırarak nitelik veriye dönüştürebiliriz

10,0 - 19,9

20,0 - 27,5

27,6 - 30,0

30,1 - 40,0

40,1 ve üzeri

Düşük kilolu

Normal kilolu

Hafif kilolu

Orta kilolu

Aşırı kilolu

Tanımlayıcı İstatistikler

Yer Gösteren Ölçülerin Tanımlanması ve Hesaplanması Yaygınlık Ölçülerinin Tanımlanması ve Hesaplanması

En çok kullanılan merkez ölçüsü aritmetik ortalama, ortanca ve tepe değeridir. Bunlara

göre daha az kullanılan diğer ortalama ölçütleri geometrik ortalama ve harmonik

ortalamadır.

Ortalama ÖlçüleriBir dağılımı tanımlayabilmek için çeşitli

ölçümler vardır. Bu ölçüler merkez ölçüleri olarak da bilinirler.

Bunlar yardımıyla dağılımdaki tüm değerleri temsil eden tek bir değer elde edilir.

Aritmetik ortalama çoğunlukla simetrik yapıya sahip sürekli sayısal verilerde kullanılan bir ortalama ölçüsüdür.

Ancak büyüklük belirtmesi açısından kesikli sayısal verilerde de kullanılabilir. Günlük yaşantıda ortalama sözcüğü çok kullanılır.

Ortalama ağırlık, ortalama yaş gibi. Aritmetik ortalama sınıflandırılmış ve

sınıflandırılmamış veriler için ayrı formüllerle hesaplanır.

Aritmetik Ortalama

Sınıflandırılmamış Verilerde Aritmetik OrtalamaHer bir gözleme ilişkin değerlerin toplamının denek

sayısına bölünmesi ile elde edilir.

nin

n

i ix

x ,,2,1 1

Burada:

n

iix

1

değeri

1. denekten n. deneğe kadar her bir gözlemin aldığı değerlerin toplamıdır.

n: Denek(gözlem) sayısı

Örnek: 9 kişinin yaşları 12, 13, 11, 12, 14, 29, 12, 13, 11 olsun. Buna göre yaş ortalaması

11,14 9

11131312 1

n

xx

n

ii

Aritmetik ortalama dağılımdaki tüm değerleri dikkate alır. Ancak dağılımdaki aşırı değerlerden etkilenir. Bu dağılımda 29 yaş aşırı bir değerdir ve ortalamayı etkiler ve aritmetik ortalamanın yüksek çıkmasına neden olur.

Örnek: New Castle hastalığına yakalanan tavuklarda TSH hormonunun miktarındaki değişimi incelemek için 10 hasta 10

sağlam tavuk incelenmiş olsun,

ortalama

• Hasta : 8 7 7 7 8 8 8 26 8 8 9,5• Sağlam : 8 9 7 8 7 7 9 8 7 7 7,7

İlk bakışta hasta tavuklarda TSH hormonunun yüksek olduğu görülmekle birlikte 26 değeri atıldıktan sonra hasta grubun ortalaması 7,7 değerine düşmekte ve sağlam grupla arasındaki fark önem göstermemektedir. 26 yerine 9 değeri yazılırsa, hasta grubun ortalaması 7,8 olur ve yine sağlam grupla olan farklılık önem göstermemektedir.

Geometrik OrtalamaGeometrik ortalama, geometrik

artış gösteren verilerde kullanılır. (2, 4, 8, 16, 32, 64,...) gibi.

nnxxxxGO ........ 321

Harmonik OrtalamaVeri setindeki değerler bir zaman serisi ise, eşit

şartlarda yapılmamış k sayıda deneyin sonuçlarının bir araya getirilmesi ile elde edilmiş bir veri seti ise

ve birbirini izleyen sayılar bir dalgalanma gösteriyorsa (aylık, mevsimsel, yıllık dalgalanmalar)

verinin yer gösteren ölçüsü harmonik ortalama ile hesaplanır.

n

iix

HO

1

1

n

Sınıflandırılmamış Verilerde Ortanca

Deneklerin verileri küçükten büyüğe doğru sıralanır. Denek sayısı tek ise en ortadaki değer,

Ortanca=(n+1)/2’inci değerdir.denek sayısı çift ise

(n/2) ve ( n+2)/2’nci denek değerlerinin ortalaması

dağılımın ortancasını verir.

Ortanca (Medyan)

• Ortanca dağılımın orta noktasındaki değer olarak adlandırılır. Ortanca, dağılımdaki aşırı değerlerden etkilenmez. Dağılımdaki değerler küçükten büyüğe veya büyükten küçüğe doğru sıralanarak tam ortadaki değer bulunur.

• Hasta : 8 7 7 7 8 8 8 26 8 8

• Ortanca: 7 7 7 8 8 8 8 8 8 26

• Sağlam : 8 9 7 8 7 7 9 8 7 7

• Ortanca: 7 7 7 7 7 8 8 8 9 9

Örnek: 9 kişinin yaşları küçükten büyüğe doğru sıralandığında

11, 11, 12, 12, 12, 13, 13, 14, 29Gözlem sayısı tektir. Buna göre

Ortanca =(9+1)/2=55. gözlem değeri ortancadır. Bu değer 12’dir. Buna göre verilerin % 50’si 12’nin altında %

50’si 12’nin üzerindedir.Denek sayısı 10 olsaydı n/2=5. ve (n+2)/2=6. (Bir sonraki değer) değerlerin ortalaması

ortanca değerini verir.

Ortanca dağılımın orta noktası hakkında bilgi verir. ve aşırı değerlerden etkilenmez.

Bu nedenle dağılımda aşırı gözlemlerin bulunduğu ve de özellikle dağılımın çarpık olduğu durumlarda, ortalama ölçüsü olarak

ortancanın kullanılması gerekir.

Ortanca aritmetik ortalamaya göre daha zayıf bir ortalama ölçütüdür.

Çünkü ortalama tüm gözlemler dikkate alınarak hesaplanırken ortanca en çok iki gözlem

tarafından elde edilir.

Tepe Değeri Tepe değeri dağılımda en fazla tekrar

edilen değerdir. Tepe değerini hesaplamak için kullanılan bir formül yoktur.

Örnek: 9 kişinin yaşları verildiğinde en fazla tekrarlanan değer 12’dir.

11, 11, 12, 12, 12, 13, 13, 14,

Buna göre dağılımın tepe değeri 12’dir.

Nitelik veriler aritmetik ortalama, ortanca, tepe değeri gibi ortalama

ölçüleri ile özetlenmez.

Nitelik veriler çoğunlukla yüzde ile özetlenirler.

Kişilerin Vücut Ağırlıklarına Göre Dağılımı

Vücut Ağırlığı Çetele Sayı %Zayıf /////////////// 15 30

Normal //////////////////// 20 40

Hafif Şişman ////////// 10 20

Şişman ///// 5 10

Toplam 50 100

Yüzde Kullanmanın Önemi

Yüzde kullanma verinin daha kolay anlaşılmasını sağlar.

İki yada daha fazla sayıda grubun özellikleri karşılaştırılırken ham sayılar tek başına bir anlam ifade etmez. Gruplar özelliklerine göre yüzdelerle ifade edilmelidirler.

A Okulunda Öğrencilerin Ağırlıklarının Dağılımı

Zayıf

Normal

Hafif Şişman

Şişman

Toplam

Kız

Sayı

45

190

52

28

315

Erkek

Sayı

80

225

147

53

505

%

15,8

44,6

29,1

10,5

100,0

%

14,3

60,3

16,5

8,9

100,0

Yaygınlık Ölçüleri

Bir dağılımdaki değerlerin ortalamaya olan uzaklıkları farklılıklar gösterir.

Bu farklılıkların derecesi dağılımın yaygınlığı kavramını oluşturur. İki dağılım aynı ortalama, ortanca ya da tepe değerine

sahipken yaygınlıkları farklı olabilir.

Dağılım I Dağılım II

6

1

6

15

6

2

3

7

6

5

6

9

X6D. Tepe

6Ortanca

6X

Dağılım I’deki değerlerin aritmetik ortalamaya olan uzaklığı dağılım II’ye göre daha fazladır.

Dağılım I dağılım II’ye göre daha yaygındır.

6D. Tepe

6Ortanca

6X

Dağılımların yaygınlığı hakkında bilgi veren ve en çok kullanılan ölçüler

* Dağılım Aralığı * Standart Sapma * Varyans* Çeyreklikler Arası Genişlik* Çeyrek Sapma

Dağılım Aralığı

Dağılım aralığı en basit yaygınlık ölçüsüdür.

Dağılımdaki en büyük değerden en küçük değerin çıkartılması ile bulunur.

R ile gösterilirR= En Büyük Değer-En Küçük Değer

Dağılım aralığı dağılımdaki diğer değerlerden oldukça farklı değerler alan aşırı değer(ler)den

etkilenir.

Dağılımda yalnızca 2 gözleme ilişkin değer dikkate

alındığı için kaba bir yaygınlık ölçüsüdür.

Gözlemlerin çoğunun en büyük yada en küçük değere yakın olduğu durumlarda da gerçek

değişkenlik hakkında bilgi vermez.

Standart SapmaBir dağılımın yaygınlığını gösteren en önemli

yaygınlık ölçülerinden biridir. Dağılımdaki tüm değerlerin aritmetik ortalamaya

olan uzaklıklarının ortalamasıdır.Standart sapma büyüdükçe dağılımın yaygınlığı artar. Dağılımdaki değerler aynı ise yaygınlık

yoktur ve standart sapma sıfırdır. Standart sapma hesaplanırken dağılımdaki tüm değerler dikkate

alınır. Standart sapmanın, ortalama ölçüsü olarak aritmetik ortalama kullanıldığında bir yaygınlık

ölçüsü olarak kullanılması önerilmektedir. Çarpık dağılımlarda kullanılması önerilmez.

Standart sapma s ile gösterilir. Sınıflandırılmış ve sınıflandırılmamış verilerde farklı formüllerle

hesaplanır. Sınıflandırılmamış verilerde standart sapma

11

2

1

2

n

xx

s

n

i

n

iii

Örnek:Yukarıda ortalama, ortanca ve tepe değerleri aynı olan dağılımların standart

sapmasını hesaplayalım.

Dağılım I için Standart Sapma

94,4166

)36(338

1296362615616

3382615616

2

2226

1

2

1

1

6

1

22222222

s

xx

xx

ii

n

ii

n

i iii

Bu dağılımdaki değerler aritmetik ortalama etrafında ortalama ±4,94 birimlik

değişkenliğe sahiptir.

Dağılım II için Standart Sapma

216

6)36(

236

129636965673

236965673

2

2226

1

2

1

1

6

1

22222222

s

xx

xx

ii

n

ii

n

i iii

Bu dağılımdaki değerler aritmetik ortalama etrafında ortalama ± 2 birimlik değişkenliğe

sahiptir. Buna göre ikinci dağılımın yaygınlığı birinciye göre oldukça düşüktür.

VaryansStandart sapmanın karesine

varyans denir (s2). Varyansın birimi karesel olduğu için

yaygınlık ölçüsü olarak veriyi tanımlamakta pek kullanılmaz.

Değişim Katsayısı (DK)

Standart sapma bir dağılımın yaygınlığını gösteren ölçülerden birisidir. Ancak standart sapmanın büyüklüğüne bakarak bir dağılımın yaygınlığı konusunda yargıya varmak güçtür. İki ya da daha fazla dağılımın yaygınlığını

karşılaştırmak istediğimizde standart sapmayı doğrudan kullanamayız.

Dağılımın yaygın olup olmadığına karar verebilmek için değişim katsayısını

hesaplamalıyız. Değişim katsayısı dağılımdaki değerlerin ortalamaya göre yüzde kaçlık bir değişim

gösterdiğini belirtir.

100x

sDK

DK’nın sıfıra yaklaşması dağılımın yaygınlığının azaldığını gösterirken DK’nın %25’in üzerinde olması incelenen dağılımın oldukça yaygın olduğunu gösterir.

Dağılım I Dağılım II

3,821006

94,4DK 3.33100

6

2DK

Dağılım I’deki değerler ortalamaya göre %82,3’lük bir değişim gösterirken,

dağılım II’deki değerler %33,3’lük bir değişim göstermektedir.

0

2

4

6

8

10

12

14

16

40-44 45-49 50-54 55-59 60-64 65-69 70-74

Beslenme Bilgi Puanı

Frek

ans

Simetrik bir dağılımda

Aritmetik ortalama=ortanca=tepe değeri’dir.

0

5

10

15

20

25

30

35

40

40-44 45-49 51-54 55-59 60-64 65-69 70-74

Beslenme Bilgi Puanı

Fre

ka

ns

Pozitif Çarpık Dağılımda

Tepe değeri < Ortanca < Aritmetik ortalama

0

5

10

15

20

25

30

35

40

40-44 45-49 51-54 55-59 60-64 65-69 70-74Beslenme Bilgi Puanı

Fre

kan

s

Negatif Çarpık Dağılımda

Aritmetik ortalama <Ortanca < Tepe değeri

Çarpıklık (Skewness)

• Normal dağılımda Çarpıklık katsayısı 0’dır. Uygulamalarda ± 1 oldukça, ± 2 kabul edilebilir değerdir.

Basıklık (Kurtosis)

• Normal dağılımda Çarpıklık katsayısı 0’dır. Uygulamalarda ± 1 oldukça, ± 2 kabul edilebilir değerdir. Pozitif yüksek değer dikliği, negatif düşük değer basıklığı gösterir.

Önemlilik Testleri

Elde edilen değerlerin ya da sonuçların istatistiksel olarak önemliğini ya da anlamlılığını test etmek için başvurulan yöntemlerdir. Önemlik testlerinden elde edilen sonuçlara göre kararlara varıldığı için önemlilik testlerinin doğru ve uygun olarak seçilmesi gerekir.

Önemlilik Testleri

• Parametrik önemlilik testleri

• Parameterik olmayan önemlilik testleri

Varsayımlar

Varsayımlar bir testin hangi koşullar altında geçerli olduğunu belirler. Parametrik testlerin uygulanabilmesi için bazı varsayımların yerine getirilmesi gerekmektedir.

Verilerin normal dağılımlı olmalıdır.

Varyanslar homojen olmalıdır.

Denekler birbirinden bağımsız olarak seçilmelidir

SPSS’de Normallik testi

Ho: Veri seti Normal dağılım özelliği gösterir

Ha: Normal dağılım özelliği göstermez

Analyze Non-parametric tests 1-Sample K-S Test variable test

Eğer Asymp. Sig. >0,05 ise dağılım

normal dağılım özelliği gösterir.

One-Sample Kolmogorov-Smirnov Test

25

34,6333

5,74474

,155

,109

-,155

,774

,588

N

Mean

Std. Deviation

Normal Parametersa,b

Absolute

Positive

Negative

Most ExtremeDifferences

Kolmogorov-Smirnov Z

Asymp. Sig. (2-tailed)

g

Test distribution is Normal.a.

Calculated from data.b.