60
BİLİMSEL ARAŞTIRMALARDA VERİ DEĞERLENDİRME VE İSTATİSTİKSEL ANALİZ YÖNTEMLERİ PROF.DR.MEHMET MENDEŞ

BİLİMSEL ARAŞTIRMALARDA VERİ DEĞERLENDİRME VE ...maycalistaylari.comu.edu.tr/maycalistaylari/phocadownload/userupload/... · Kalitatif değişkenler sayısal olarak ifade edilemeyen

  • Upload
    others

  • View
    10

  • Download
    0

Embed Size (px)

Citation preview

BİLİMSEL

ARAŞTIRMALARDA VERİ

DEĞERLENDİRME VE

İSTATİSTİKSEL ANALİZ

YÖNTEMLERİ

PROF.DR.MEHMET MENDEŞ

BİLİMSEL ÇALIŞMALAR İÇİN AKIŞ DİYAGRAMI

AMAÇ (Merak Edilen Konu)

HANGİ FAKTÖR YA DA FAKTÖRLERİN ETKİSİ ARAŞTIRILACAK

HEDEF POPULASYON

KAÇ DENEY ÜNİTESİ ÜZERİNDE ÇALIŞILMALI n=?

DENEY ÜNİTELERİ NASIL SEÇİLMELİ

HANGİ ÖZELLİKLER ÜZERİNDE DURULACAK

DENEY ÜNİTELERİNDEN GÖZLEM YA DA VERİLER NASIL ELDE EDİLECEK

KULLANILACAK İSTATİSTİK YÖNTEMİ NASIL BELİRLENECEK

VERİLER NASIL ANALİZ EDİLİP, YORUMLANIP VE RAPOR EDİLECEK

AMAÇ: Farklı Sınav Yöntemlerinin İstatistik Dersi Başarı Puanlarına Etkisi

DİKKATE ALINACAK FAKTÖRLER:

Sınav Yöntemleri: Yazılı, Test, Sözlü

HEDEF POPULASYON:

Üniversite II.sınıf öğrencileri Kaç öğrenci var? 2 milyon!

KAÇ ÖĞRENCİ ÜZERİNDEN ÇALIŞILMALI?

n=10, 20, 30, 50, 100,300,500,1000,……..42000, …..?

BU ÖĞRENCİLER NASIL SEÇİLECEK? ÖRNEKLEME NASIL YAPILACAK?

Bütün öğrenciler üzerinden çalışılması mümkün mü?

Keyfi (Mesela hep ODTÜ’de okuyan öğrencileri ya da ÇOMU Su Ürünleri

Fakültesi öğrencilerini alırsak ne olur?

Rastgele

Tabakalı….

DİKKATE ALINACAK ÖZELLİK:

İstatistik dersi başarı puanları

Özellik ya da Değişkenler esas olarak: Kantitatif (sayısal ya da nicel) ve Kalitatif (kategorik ya da nitel) değişkenler olmak üzere iki kısma ayrılır.

Kantitatif değişkenler rakamlarla ifade edilirler ve söz konusu rakamlar

arasındaki farkların matematiksel olarak bir anlamı vardır.

Sürekli değişkenler ve Kesikli değişkenler olmak üzere ikiye ayrılır.

Bu tür değişkenler daha ziyade ölçüm, tartım ve analiz sonucunda

elde edilirler.

Mesela:

Canlı ağırlık, günlük sıcaklık değerleri, m2’ye düşen yağış miktarı, bitki

boyu, insanların hemoglobin düzeyleri, sütteki % yağ miktarı, topraktaki

organik madde düzeyi sürekli değişkenler için örnek olarak verilebilir.

Kesikli değişkenler ise sayılarak elde edilen ve tanım

aralıklarındaki her değeri alamayan değişkenlerdir

Bu tür değişkenler tanım aralıklarında sadece tam sayı değerlerini

alabilirler.

Mesela:

Kardeş sayısı, ağızdaki çürük diş sayısı, bir çiftlikte gebe olan

ineklerin sayısı, bir kümesteki günlük yumurta sayısı, bitkideki

yaprak sayısı, bir sınıftaki kız öğrencilerin sayısı vb ise kesikli

değişkenler için örnek olarak verilebilir.

Ancak her tamsayı değerini alan değişkenlerin kesikli

değişken olmasının gerekmeyeceği unutulmamalıdır.

Kalitatif değişkenler sayısal olarak ifade edilemeyen ve

kategorik ya da sınıflandırılmış olarak ifade edilen değişkenlerdir

Bu tür değişkenlerin her bir kategorisine verilecek rakamlar arasındaki farkların matematiksel olarak bir anlamı yoktur.

Sadece her bir rakam ayrı bir kategoriyi göstermek için verilir. Mesela:

Göz rengi, cinsiyet, eğitim durumu, başarı durumu, medeni hal, desteklediği siyasi parti, yaşadığı bölge, hastalık aşaması vb kalitatif değişkenler için birer örnektir.

sıralanmış (ordinal) ve

isimsel (nominal)

YUKARIDAKİ ÇALIŞMA İÇİN

GÖZLEMLER NASIL ELDE EDİLECEK

Ölçüm ile elde edilecek (0-100, 0-5, 0-10 vb bir ölçüm skalası),

DENEY ÜNİTELERİNDEN GÖZLEM YA DA VERİLER NASIL ELDE EDİLECEK

Üzerinde durulan özellik bakımından bir gözlem ya da deney

sonucunda deney ünitelerinden elde edilen her bir rakam ise veri

ya da gözlem değeri (varyant) olarak adlandırılır.

Mesela:

Öğrencilerin notları: Özelliktir

Veri ya da gözlem değeri: 50, 42, 88, 17

KULLANILACAK İSTATİSTİK YÖNTEMİ NASIL BELİRLENECEK

Verilerin elde ediliş şekillerine

Çalışmanın amacına

Dikkate alınan faktör sayısına

Tespit edilen özelliklerin ayrı ayrı ya da birlikte dikkate alınıp alınmayacağına göre

Gözlem sayısına

Materyalin yapısına

İlişkinin mi araştırılacağı yoksa farkların mı karşılaştırılacağına

Gözlemlerin aynı bireylerden mi yoksa farklı bireylerden mi alındığına bağlı olarak değişir.

Burada faktör olarak sadece Sınav Yöntemi var. Dolayısıyla

t-testi

VERİLER NASIL ANALİZ EDİLİP, YORUMLANIP VE RAPOR EDİLECEK

Uygun İstatistiksel model

Minitab, SPSS, SAS, NCSS, Statistica vb. İstatistik Paket

Programları kullanılarak

HİPOTEZ KONTROLÜ:

ÖNEMLİLİK DÜZEYİ: P>0.05 ya da P≤0.05 ?

Hangi alanda olursa olsun merak edilen konu ile ilgili güvenilir bilgiler elde etmek için

araştırma ve deneye ihtiyaç vardır. Çünkü:

Araştırma ve deney yapmadan uygulanacak bilgi yoktur.

Üzerinde durulan özellik bakımından deney ünitelerinden veriler toplandıktan sonra

söz konusu verilerin aynı olmadıkları, aralarında bir takım farklılıkların (varyasyon)

bulunduğu görülür.

Dolayısıyla araştırma ve denemelerde temel kavram; farklılık

ya da değişimdir (varyasyon).

Araştırıcılar hep bu kavram üzerine odaklanır ve farklılığa neden olan unsurları

belirlemeye çalışırlar.

Diğer yandan eğer bütün gözlem değerleri aynı olsaydı, her hangi

bir farklılıktan söz edilemeyeceği için araştırma ve denemelere de

gerek kalmazdı.

Ancak bu gibi durumlara uygulamada hemen hemen hiç rastlanılmaz.

Neden İstatistiğe İhtiyaç Duyulur?

Etrafımızda birçok biyolojik, sosyal ve ekonomik olay cereyan etmektedir. Bu olaylarla

ilgili değişik sorular aklımıza gelebilir ya da değişik konuları merak edebiliriz.

Mesela:

Yeni geliştirilen bir ilacın kanseri önlemede etkili olup olmadığının belirlenmesi

Farklı firmalar tarafından üretilen meyve sularındaki C-vitamini miktarı arasında

fark olup olmadığının belirlenmesi

Domuz gribinden korunmak için farklı ilaç firmaları tarafından geliştirilen aşı

çeşitlerinin etkileri arasında fark olup olmadığının belirlenmesi

Beslenme tarzındaki değişikliklerin insan sağlığına etkilerinin nasıl olduğunun

araştırılması

Acaba sınav yöntemlerindeki farklılıklar öğrencilerin başarı notlarını

nasıl etkiler?

Acaba akciğer kanserine yakalanma oranı bakımından bölgeler arasında fark var

mıdır?

İşsizlik oranları bakımından Avrupa Birliği ülkeleri ile Ortadoğu ülkeleri arasında fark

var mıdır? Acaba Genetik yapısı değiştirilmiş (GDO) ürünler insan sağlığını nasıl

etkiliyor? gibi aklımıza pek çok soru gelebilir.

Yeni geliştirilen bir kaplama materyalinin, mevcut kaplama materyallerine göre

raf ömrünü uzatıp uzatmadığının araştırılması

Farklı buğday çeşitlerinin gluten içeriklerinin farklı olmasının nedenleri nelerdir?

Acaba bu sorulara nasıl cevap verebiliriz? Ya da söz konusu karşılaştırmaları nasıl

yapabiliriz?

İşte İstatistik Bilimi bu soruların bilimsel olarak cevaplandırılmasına imkân

sağlar.

İstatistiğin Tarihçesi

Yaşamın başlangıcından beri insanların kendilerine ait:

Doğum,

Ölüm,

Evlenme,

Mal varlığı gibi bazı olayları inceleme ve kaydetme ihtiyacı duymuş olmaları

dikkate alındığında, insanların toplu yaşamaya başladıkları günden beri

dolaylı olarak istatistik ile ilgilenmiş oldukları kabul edilebilir.

İstatistiğin Tarihçesi

İstatistik sözcüğünün kullanılması Aristotle zamanlarına kadar gitmektedir.

Bu tarihlerde devletler toplam askeri ve mali güçlerini saptayabilmek için

bazı sayımlar yapmışlardır.

Mesela:

Mısırlılar, Yunanlılar, Çinliler, Romalılar ve Türklerin mali ve askeri

güçlerini diğer toplumlarla karşılaştırmak ve buna göre de kimin güçlü kimin

güçsüz olduğunu belirleyerek, savaş stratejilerini yön verme amacıyla

istatistik yaptıklarını göstermektedir.

Günümüzdeki anlamı ile modern istatistiğin gelişmesindeki en büyük

etmenlerden birisi; 16. ve 17. YY'larda olasılık teorisinin ilgi çekmesi ve

bazı bilim adamlarının bu konu üzerinde çalışmasıdır.

İstatistik alanındaki ilk çalışmalara şans oyunlarındaki kazanma

ihtimallerinin hesaplanmaya çalışılması ile başlanmıştır.

Acaba kazanma ihtimalimi nasıl arttırabilirim?

Ancak, 17 YY kadar önemli bir gelişme sağlanamamıştır.

Toplanan verilerin istatistik analizlerine doğru ilk adım 17. YY'da

İngiltere'de John Graunt tarafından atılmıştır.

Daha sonraları ünlü matematikçilerden:

Pascal,

Fermat,

James

Daniel Bernoulli,

de Moivre, Laplace,

Gauss,

Simpson,

Lagrange,

Hermite ve Legendre birçok önemli olasılık kuralını ve teoremlerini geliştirerek istatistiğin

gelişmesine önemli katkılarda bulunmuşlardır.

19. YY'ın sonlarına doğru bir bireyde birden fazla özelliğe ilişkin veri elde

edildiği durumlarda nasıl bir yol izlenebileceği üzerinde durulmuş.

Sir Francis Galton

Daha sonra Galton'un bu fikirleri Karl Pearson ve C. Sperman

tarafından genişletilerek psikoloji ve sosyal bilimlere uygulanmıştır.

Korelasyon

Regresyon

Yeni Bir Dönem 1908 yılında Biometrika dergisinde yayınladığı bir makale ile William S. Gosset

istatistikte yeni bir dönemin başlamasına yol açmıştır.

Bir bira fabrikasında arpa ıslahı projelerinde çalışan Gosset, ekonomik

nedenlerle küçük örneklerle uğraşmak zorunluluğunda kalmıştır.

Bu gibi durumlar için uygun istatistik yöntemlere gereksinim duymuştur.

Böyle bir gereksinimden hareketle, küçük örneklerin dağılışını deneysel olarak

inceleyen Gosset günümüzde çok yaygın olarak kullanılan bazı yöntemleri

geliştirmiş, pek çoğuna da ışık tutmuştur.

STUDENT T-TESTİ

Yazılarını "Student" takma adıyla yayınlayan Gosset'ten sonra Ronald A. Fisher

küçük örnek teorisini geliştirerek günlük araştırmalarda uygulanmasını sağlamıştır.

20. YY'ın en büyük istatistikçisi olarak tanımlayabileceğimiz Sir Ronald

A. Fisher günümüzde kullanılan istatistik yöntemlerin hemen hemen

hepsinin ilk fikirlerini ortaya atan ve en yaygın olarak kullanılan pek

çok yöntemi de geliştiren kişidir.

VARYANS ANALİZİ

Peki tahminler %100 doğrumudur?

Günümüzde! Özellikle son yıllarda bilim ve teknolojinin gelişmesine paralel olarak istatistik metotları

daha fazla ihtiyaç duyulur bir hale gelmiştir.

Çünkü istatistik, amaca bağlı olarak araştırma ve denemelerin nasıl planlanıp

yürütülmesinden başlar, deney ünitelerinden elde edilen gözlem değerlerinin bilimsel

olarak nasıl değerlendirileceği ya da analiz edileceği, elde edilen sonuçların nasıl

yorumlanıp rapor edileceğine kadarki bütün aşamaları kapsamaktadır.

Dolayısıyla istatistik, bilimsel çalışmalardan elde edilen verilerin değerlendirilmesinde ve

elde edilen sonuçların yorumlanarak genelleştirilebilmesinde yararlanılan en önemli

araçlardan birisidir.

Artık günümüz dünyasında sonuçları istatistiksel olarak ta

desteklenmeyen bilimsel araştırma sonuçlarına hep kuşku ile

bakılmaktadır.

İstatistik Nedir

Deneme desenlerinin planlanması veya tasarım,

Verilerin toplanması,

Verilerin özetlenmesi ve analizi,

Sonuçların yorumlanması ve genelleştirilmesi

İstatistiğin Uygulama Alanları Özellikle son yıllarda bütün dünyada önemi gittikçe daha fazla

anlaşılmaya başlanan istatistik metotlarının günümüzde

uygulanmadığı alan hemen hemen yok gibidir.

İstatistik

Teorik (Matematiksel)

Uygulamalı

Son yıllarda, istatistik yöntemlerin kullanılması o kadar gelişmiş ve

genişlemiştir ki, uygulamalı istatistiğin birçok çeşitli alan için özelleşmiş alt

disiplinleri ortaya çıkmıştır. Örneğin:

Biyometri veya Biyoistatistik:

Environmetri

Ekonometri

Jeoistatistik

Psikometri vb

Bunlardan Biyometri (Biyoistatistik) istatistik yöntemlerinin biyoloji

alanına uygulamasıdır.

Bu alan ziraat, tıp, eczacılık, diş hekimliği, veteriner hekimliği, su

ürünleri, ormancılık, zooloji, ekoloji ve botanik gibi birçok disiplini

kapsayan çok geniş bir uygulama alanıdır.

Metot Bilimi Olarak İstatistik

Araştırma ve Denemelerin Planlanması,

Verilerin toplanması,

Verilerin özetlenmesi (tablo ve grafik),

Tespit edilen özellikler arasındaki ilişkilerin araştırılması,

Dikkate alınan faktörlere göre analiz edilmesi,

Sonuçların yorumlanması ve genelleştirilmesi

İstatistik metotlarına genel olarak, üzerinde durulan özellik

bakımından örneğimizin tanıtılması ve

örnekten elde edilen değerlerden yararlanılarak populasyona ilişkin

bazı sonuçlara ulaşmak amacıyla başvurulur

Dolayısıyla istatistik metotları esas olarak;

Tanıtıcı İstatistikler (Descriptive)

Tanıtıcı istatistikler örneğimizi tanıtmaya yarayan istatistiklerdir.

Çıkarımsal ya da Sonuç çıkartıcı (inferential) istatistikler olmak

üzere iki kısma ayrılır.

Tahmin yapma ve hipotez kontrolü

Veri:

Veri Türleri:

Verilerin elde edilişleri, verilerin değerlendirilmesinde kullanılacak

istatistik analiz tekniğini etkiler mi?

Bir araştırma veya deneme yürütüldüğünde bir çok veri ya da gözlem değeri

elde edilir. Eğer bu veriler bilimsel olarak değerlendirilmediğinde ne olur?

X1 X2 X3 X4 X5

115 129 105 122 62

113 86 71 90 76

113 83 97 94 118

87 99 100 93 98

106 76 93 70 86

115 107 108 78 95

98 161 84 169 61

123 90 91 95 100

111 106 121 126 89

96 117 114 113 118

120 89 110 119 110

94 64 97 91 98

100 97 100 123 108

128 119 80 110 116

116 123 95 101 133

Söz konusu veriler birer rakam ya da simge

olmaktan başka hiçbir şey ifade etmezler.

Verileri nasıl tanıtıp, özetleyebiliriz?

ORTALAMA STANDART HATA VARYANS MEDYAN EN KÜÇÜK EN BÜYÜK

108,9959 3,012221 136,1021 113,1205 87,02 127,89

103,1357 6,265684 588,8819 99,16618 64,46 161,47

97,64207 3,415573 174,9921 97,18834 71,26 121,31

106,2732 6,260185 587,8488 101,1385 69,53 169,1

97,83517 5,339958 427,7272 98,26915 60,73 132,73

X5X4X3X2X1

175

150

125

100

75

50

Data

30 öğrencinin kardeş sayıları

1,3,9,5,1,1,2,3,2,3,4,3,5,2,2,1,1,3,5,4,4,3,1,

3,1,2,3,3,2,2

Acaba bu veri grubunu tanıtmak ve özetlemek için aynı istatistikleri

hesaplayıp, aynı grafikleri çizebilirmiyiz?

HAYIR

Kardeş sayılarına ilişkin frekans dağılım tablosu

Bir Araştırma ya da denemeden elde edilen

gözlem değerleri aynı olsaydı herhangi bir

istatistik analize ihtiyaç duyulur muydu?

10 öğrencinin Bilgisayara Giriş, İstatistik ve ADY derslerinden aldıkları notlar aşağıdaki gibi olsun.

Acaba İstatistik ve ADY derslerindeki farklılığı nasıl özetleyebiliriz?

Yazılı, Sözlü ve Test sınavlarına tabii tutulan öğrencilerin İstatistik dersinden aldıkları notlar aşağıdaki gibi bulunmuş olsun:

Yazılı Sözlü Test

65 70 75

58 55 70

70 40 65

40 50 85

49 30 90

63 60 60

25 40 45

66 70 30

72 55 60

85 40 70

Sınav yöntemleri arasında gözlenen farkın sebepleri neler olabilir?

Sınav yöntemi

Tesadüf ya da sebebini bilemediğimiz,

kontrol altına alamadığımız faktörler

DENEME HATASI!!!!

NASIL BELİRLEYEBİLİRİZ? HİPOTEZ KONTROLÜ,

P>0.05? P≤0.05?

P=0.174 >0.05

P=0.174 değeri, 0.05 ten büyük olduğu için hipotezi kabul edilir. Dolayısıyla “bu üç sınav yönteminin ortalamaları arasında gözlenen farkların tamamen tesadüften ileri geldiği ve istatistiksel olarak önemli olmadığı” sonucuna varılır. Diğer bir ifade ile “sınav yöntemlerinin başarı puanlarına etkilerinin benzer olduğu sonucuna varılır.”

Peki varılan bu sonuç % 100 doğrumudur?

HAYIR

O ZAMAN DOĞRULUK DERECESİ ?

Bilimsel çalışma sonuçları rapor edilirken ilk aşama verilerin tanıtılmasıdır. Yani tanıtıcı istatistiklerin hesaplanmasıdır

Söz konusu denemeyi 2.yıl tekrarlayan bir araştırıcının elde ettiği veriler aşağıdaki gibi olsun.

MINITAB İstatistik Paket Programını Kullanarak Analiz Edelim

SONUÇ

Sadece Test ve Sözlü sınav yöntemleri

arasında istatistiksel olarak önemli bir fark

bulunmaktadır.

Öneri: Öğrencilerin Test ya da Yazılı

Sınavlarından birisine tabii tutulmaları.

Hangisinin uygulanması daha kolay ise

Rastgele belirlenen 9 bireyin Ağırlıkları ve Sistolik (S) kan basınçları (mm / Hg) aşağıdaki gibi ölçülmüştür. Buna göre bireylerin ağırlıkları ile sistolik kan basınçları arasında önemli bir ilişki varmıdır?

Ne kadar bir doğrusal ilişki var?

r=0.834=%83.4

Peki bu ilişki istatistiksel olarak önemli ya da anlamlımıdır?

P=0.026!!!

0.026 <0.05 olduğu için

Bireylerin ağırlıkları ile SKB arasında istatistiksel olarak önemli bir doğrusal ilişki bulunmaktadır.

Ağırlık arttıkça, SKB değerleri de artmaktadır. Bunun derecesi ise %83.4’tür.

Acaba ağırlıktaki 1 kg lık artışa karşılık, Sistolik

Kan basıncı kaç mmHg değişir?

b=0.934

Bu değişme önemli ya da anlamlımıdır?

P=0.026<0.05 olduğundan evet

Ağırlığı 78 kg olan Kamil amcanın sistolik

kan basıncını nasıl tahmin edebilirim?