REGRESI DANPREDIKSI

Embed Size (px)

Citation preview

REGRESI DANPREDIKSI

8.1 Korelasi versus prediksiSkor Seorang siswa sekolah tinggipadates bakatakademis, sepertiSAT, yangterkait denganIPKyangsiswadi perguruan tinggi.Sebagaiaturan umum, kemudian, siswayangmendapatskor baikpadaSATlebih baik bertaruhuntuk melakukannya dengan baikdi perguruan tinggidibandingkan dengansiswa yangmendapatskorburuk padaSAT.Sebagaipetugaspenerimaanuniversitas, apayang akan Andaprediksiuntukmahasiswayang memperoleh IPK, katakanlah, skor650padaskalaSATmembaca kritis(SAT-CR)?Dan apabatas kesalahanyang harus Andalampirkanpadaprediksiitu?Karenahubungan antaraSAT-CR dan IPKperguruan masih jauh dari sempurna, setiapprediksidarinilaitertentuhanyataruhan bukan hal yang pasti. SebagaihumorisWillRogerspernah berkata, selaluberisiko untukmembuat prediksi, terutamatentang masa depan. "Skenario inimenggambarkanmasalahdalam prediksi: memperkirakankinerja masa depan(misalnya, perguruan tinggiIPK) dari pengetahuanberdirisaat ini padabeberapa ukuran(misalnya,SkorSAT-CR). Andamungkin bertanya-tanyabagaimana hal iniberkaitan dengansubjekbab, yang terakhirkorelasi. Korelasi danprediksimemangterkait erat: Tanpakorelasi antaradua variabel, tidak adaprediksiyang berarti darisatu ke yang lain. Namun,meskipunukuranrmerupakan indikasi daripotensi prediksi, koefisiendengan sendirinya tidakmemberitahu Anda bagaimana untukmembuatprediksi.Bagaimana, kemudian, orang dapatmemprediksi? Mari kita mengambilcontohprediksinilaiperguruan tinggi dariskorbakatakademis. Lihatlahscatterplotpada Gambar8.1. VariabelXadalah skorSAT-CR daritahun seniorsekolahtinggi, dan variabelYadalahtahun pertamaIPKdiUniversitas Fumone. Perhatikan bahwagaris lurustelah dilengkapidengandata dandigunakan untuk memperolehIPK2,78untukprediksiskorSAT-CR 650. Baris inidapat digunakan dalamcara yang samauntuk mendapatkanIPKdiperkirakan untuksetiapSkorSAT-CR lainnya. Ketikakecenderunganbivariatcukuplinear, garispaling cocok"dengan mudah dapat ditemukan dandigunakan untuk tujuanmemprediksinilaiYdariX.Garistersebutdisebutgaris regresi. Seperti ditunjukkan dalam Gambar8.1, prediksi yang dibuatdengan mencatatnilaiY(misalnya, 2.78) untuktitikpada garisyang sesuai dengannilai tertentudariX(misalnya, 650).

Untuksetiap kasusakan jatuhtepat padagaris regresi, dan prediksiakantanpa error. Tapi ketikakorelasitidak sempurna, karenapada saat iniMisalnya, adatentuakanmenjadikesalahan prediksi.Sebagai contoh,IPK KatydanJanesebenarnyajatuhjauh di atasdan di bawah2,78yangakan telahdiprediksi dariSkormereka SAT-CR 650. Semakin rendahkorelasi, semakin besarkesalahanprediksi.

8.2MenentukanLine of Best FitItu semuasangat baikuntuk berbicara tentangmenemukangaris lurusyang paling cocok, tapi bagaimana Andatahu kapan"paling cocok" telah dicapai? Memang, "paling cocok" dapat didefinisikandalam beberapa cara. Di sini, kamimenampilkanpendekatanumum ketikaPearsonrdigunakansebagai ukuranasosiasidan ketikatujuanseseorang adalahprediksi.Pertama, mari kita tinjausimbolyang relevan. Duayang akrab bagi Anda, dan satuyang baru. Seperti yang Andalihat di atas, Xmerupakan nilaiskorvariabelyang melakukanprediksitersebut. Lebihsecara formal, variabelini disebutvariabel independen, dankonvensimengharuskan Andamenempatkannyapada sumbuhorisontal.Kami menggunakanYuntuk mewakilinilaiSkor sebenarnyadarivariabelyang akan diprediksi, variabel dependen, danditempatkanpada sumbu vertikal. (Pikirkan variabel dependensebagai "tergantung pada" variabel independen:. UniversitasIPK"tergantung pada" bakatakademis, antara lain) Akhirnya, nilaiSkorprediksiYdiwakili olehsimbolY("Y utama").Kriteria Least-Squares Kesalahan prediksiadalah perbedaanantara nilaiaktual danprediksiY:

Hal ini ditunjukkanpada Gambar8.2untukKatydanJane. Keduasiswa diprediksi memilikiIPK sama karena mereka memilikiskorSAT-CR sama (X =650), tetapiIPKmereka sebenarnya(Y) adalah3,40dan2,40, masing-masing.Dengan demikian, kesalahanprediksimereka:

Perhatikankesalahan yangpositifuntuk kasusdi atas garisdannegatif untukkasusyang jatuh di bawah. Garis regresiditempatkansedemikian rupauntuk meminimalkankesalahanprediksi-nilai untuk scatterplotsecara keseluruhan.Dengangaris yang paling cocok, jumlahkesalahanprediksikuadratuntuk semuakasus adalahsekecil mungkin. Artinya,adalah minimal.

Anda mungkin mengenali sebagai jumlah kuadrat, mirip dengan lebih akrab ekspresi dan . Dalam kasus ini, itu adalah jumlah kesalahan kuadrat. Jadi, ketika garis regresi dipasang dengan benar, jumlah kesalahan kuadrat lebih kecil dari yang akan diperoleh dengan garis lurus lainnya. Hal ini dikenal sebagai kriteria kuadrat-terkecil (paling sedikit jumlah kesalahan kuadrat).

GarisRegresisebagai"Running Mean" Jikalinearitasregresimemegang, garis regresidapatdianggap sebagai"Running Mean."Dalam arti tertentusetiapadalah perkiraanrata-ratadarinilaiYyang sesuai dengannilaitertentuX.

Hal inidiilustrasikan pada Gambar8.3. TheYsebesar 2.57adalahIPKrata-rata untukseluruh sampeldari12kasus, yangXskor berkisar350-750. Sebaliknya, Ydari2.78perkiraanrata-ratadariYhanya untukkasus-kasusdi manaX=650. Tapi, Anda mungkinmenunjukkan, hanya dua kasusdalam sampel kamimemiliki skorSAT-CR 650(Katy danJane), dan skorYmereka(3.40 dan2.40)tidakrata-ratakeluarmenjadi 2.78. Benar, Ydari2.78hanya merupakanrata-rataperkiraan. Ini adalahapa yang diharapkanrata-ratadariYuntuk menjadiuntukdistribusibanyak, banyak kasusyang semuamemilikiskor SAT-CR 650daripadahanya duadalam sampelkami. Demikian pula,Y2.31merupakanrata-rataperkiraannilaiYdimanaXsama dengan425.Meskipun sampel tertentu kami tidak mengandung kasus sama sekali skor SAT-CR dengan 425, garis regresi memberikan perkiraan IPK rata-rata yang akan diharapkan jika ada siswa dengan skor SAT-CR. Dengan ukuran sampel yang lebih realistis, tentu saja, ada representasi yang lebih besar dari nilai X, dan karena itu Anda memiliki keyakinan yang lebih besar dalam perkiraan Y yang sesuai.

MemprediksiXdariYAda garisluruskeduayang paling cocokuntukdataGambar 8.1. Misalkan AndainginmemprediksiskorSAT-CR daritahun pertamaIPKdaripadasebaliknya. Kriteriakuadrat-kemudian akan diterapkanuntuk meminimalkan kesalahanprediksidiSAT-CR daripada diIPK mereka. (Untuk memvisualisasikan ini, cukupmenggantisumbuGambar 8.1.) KecualiSX=SY, duagaris regresiakan berbeda. Dalam prakteknya, tujuanbiasanyaadalahdalam memprediksidalam satu arah, tidak dalamkeduanya.Misalnya,masuk akaluntuk memprediksinilai SAT-CR daritahun pertamaIPKsejauhSAT-CR mendahuluiIPKpadawaktunya. Sebaliknya, prediksilogis adalahdari variabel sebelumnyakevariabel nanti".

8.3 PersamaanRegresidalamBentukskorbakuSetiapgarislurusmemilikipersamaan.Tempatgarisregresidalamsebaranditentukanolehpersamaanregresi.Kamumungkiningatpadasaatmasihsekolah, garislurusdidefinisikandalamduabentuk: kemiringandanperpotongan. Kemiringandisimbolkandengan b, menggambarkansudut (datar, dangkalataucuram) danarah (positifataunegatif) darigarisregresi.Perpotongan, disimbolkandengan a yang memprediksikannilai Y ketika X = 0.Prediksiuntuknilai Y dapatdiperolehdarinilai X denganmenggunakanformula (8.1) (8.1)Dimanakemiringan (8.2)Dan perpotongan (8.3)Membentukkembali formula (8.1) dari formula (8.2) dan (8.3), kitadapatkanperluasanpersamaanregresisebagaiberikut:PersamaanRegresisebagaiperluasan formula skorbakukemiringanperpotongan

(8.4)Kita lihatbagaimana formula (8.4) bekerja. Kita akanmenggunakanpersamaanregresiuntukmemprediksikan IPK untukskorsiswa 650 dalam SAT-CR, prediksi di gambarkanpadagambar 8.1.Tahap 1:Mulaidenganketepatanpadarangkuman statistic dalamtabel 8.1. yangkamumasukandalam formula (8.2) dan (8.3) sebagaiberikut

Tahap 2:Padaformula (8.1), memasukannilaikemiringandanperpotonganpadasumbu y daritahap 1 untukmendapatkanpersamaanregresidari data ini:

Tahap 3:SAT-CR padaskor 650 sekarang di substitusikanke X dalampersamaanditahap 2 untukmenemukanprediksi GPA untukskorini:

Jikakamumenginginkanuntukmembuatprediksi yang lain, kamuhanyamensubstitusikannilai X dalampersamaanregresi. Mari kitaverivikasiprediksi yang melibatkan X = 425 seperti yang ditunjukandalamgambar 8.3

Untukmenemukanpresiksinilai Y, biasanyamenggunakanpersamaanregresiseperti yang telahkitalakukandisini.Memprediksinilai Y jugadapatdiperolehdarigrafik.Merencakangarisregresidengantangancukupmudah( danmelakukandengankomputerakanlebihmudah)Tahap 1:Temukan Y untukduanilai X (memilihnilaiterendahdantertinggi X). Sekarangkamumemilikiduatitik : X1, Y1dan X2, Y2Tahap 2:Plot duatitikpadakertasgrafik, menggunakansumbu X dansumbu Y darisebaranawal.Tahap 3:Menggambarkangarislurusmelaluiduatitik. Sebagaipemeriksaan ,garisregresijugaharusmelaluititikperpotongandan .Jikakamutidakinginmenurunkannilai Y darigrafik, kamubolehmenempatkangarisregresipadasebaranuntuktujuanilustrasi.

Gambar 8.4 menunjukangarisregresiuntukhubunganantarapenalaranspasialdankemampuanmatematikauntukbab 7 (lihatgambar 7.1). untuk plot garisini, kitamulaidenganmengikuti statistic

Untuk data ini, kemiringanadalah

Dan perpotongannyaadalah

Persamaanregresiselanjutnyaadalah Y = 34.2 + .94X, yang kitagunakanuntukmemplotnilai Y untuk X1 = 55 (Y1 = 85.9) dan X2 = 85 (Y2 = 114.1) dalamgambar 8.4. Duanilai Y selanjutnyadihubungkandengangarislurus.Garisinimelaluititikpotongantara Xdan Y. (Pertanyaan: Bagaimanamenurutmudampakterhadapgarisdari data luar di kananbawah?)

8.4 MenginterpretasiKemiringanpadaSkor Baku Kembalike formula (8.2). Dari persamaaninikamudapatmelihatbahwa r sebagai b. Jika r positifmaka b akanpositif; jika r negatifmaka b juganegatif. Kamujugaakanmelihatbahwajika r = 0, b harus 0. Kesamaan di samping, padakenyataannya r dan b akanmemilikinilai yang berbeda. Terkecuali, kamumendapatkanbentukdari formula (8.2) dimanaSx = Sy(yang tidakmungkindenganskorbaku).Kemiringanselaluditafsirkandalampandangan unit X dan Y: untuksetiap unit meningkatterhadap X, Y mengubah unit b)

Dalamkasusgambar 8.4, untuksetiapsatutitikmeningkatterhadaptespenalaranspaisal, adaperubahanyang sesuai+.94poinpadateskemampuanmatematika.Skorbakupadakemiringandapatmenjadilebihbesardari 100. Selanjutnyahalitudipengaruhiolehskalaterhadapduavariabel.Jjkadalamcontohinikitamelipatgandakanskor Y, kemudianSy = (2)(14.83) = 29.66 (Sxdan r tetapsama).Kemiringanbaruakanmenjadi

Artinya, untuksetiappeningkatansatupoinpadatespenalaranspasial, saatinipeningkatan 1.87 poinpadadua kali teskemampuanmatematikadengannilaiasli b. Nilai b dapatterlihatkecilbahkanketikaterdapatsuatutingkatasosiasiantara X dan Y. SebuahcontohdariUnversitasFumone , kamumelihatbahwa b=.0021 Nilai b dapatterlihatkecilbahkanketikaadasuatutingkatasosiasiantara X dan Y. DalamcontohFumone University, Andamelihatbahwa b =.0021. Hal inimungkinsebagaitemuanawalnilaisangatkeciluntukkemiringan, tapiingatkemiringan yang dinyatakandalamskalamendasari X dan Y. Artinya, untuksetiappeningkatanpoin SAT-CR (misalnya, 500-501) adaperubahan + 0,0021 poin grade (2,47-2,4721). SetelahAndamengakuibahwaskor SAT-CR dalamsampeliniberkisar 350-750 dan IPK 1,6-3,4, nilaiinidarikemiringantampaknyatidakcukupkecil. Sebagaicontoh, sebuahpeningkatan 10 poindalamskor SAT-CR (misalnya, 500-510) akansesuaidengan (10) (.0021) = 021 kelas-point kenaikan (2,47-2,49), danpeningkatan 100 poin di SAT- skor CR (misalnya, 500-600) akansesuaidengan (100)(.0021)= 21 kelas-point kenaikan (2,47-2,68, ataudari C ke B). Tingkat kovarianinilebihsesuaidenganapa yang kamuharapkanantaraduavariabeldimana r=50.

8.5 PersamaanRegresidalambentuk Z skorPersamaanregresidapatdalambentuk Z skor, ketikahalinidilakukanmakaakanmenghasilkanpersamaan yang sangatsederhanadan informative. Jikakamumengubahnilaiawal X dan Y menjadi Z skor, persamaanregresimenjadisederhanasepertiberikut:PersamaanRegresibentuk Z skor

Dimana: = nilai prediksi terhadap Y diungkapkan sebagai skor= korelasi antara X dan Y= skor z dari X

Perhatikan formula (8.5): ituakanmemberikanprediksinilaiZyaalahZxdanproporsi yang samauntuk r. Data dalamTabel 8.2 menghasilkanZxuntuksiswadengan SAT-CR = 650.

Kemudian, skor SAT-CR terdapatpada .85 standardeviasi di atas rata-rata SAT-CR . Dengan r = +.50 kamu dapat memprediksi IPK menjadi .42 standar deviasi di atas rata-rata :

Sangatmudahuntukmenunjukanbahwa formula inimemberikanhasil yang samadenganfomula (8.4). hanyadenganmenghitungZymakadapatdikonversiuntukmemprediksi IPK 2.78, jawaban yang diperolehsebelumnya

8.5 Persamaan Regresi dalam Istilah -skorPersamaan Regresi dapat dinyatakan dalam bentuk skor, dan jika ini dilakukan akan menghasilkan pernyataan yang sangat simpel dan informatif. Jika anda merubah nilai asli dari X dan Y menjadi skor, persamaan regresi disederhanakan menjadi:Persamaan regresi:Bentuk skor. Y = rX(8.5)dimana : Y adalah nilai yang Y diprediksikan sebagai sebuah skor. r adalah korelasi antara X dan Y X adalah skor dari X

Perhatikan persamaan (8.5): dikatakan bahwa nilai yang diprediksikan dari Y merupakan perbandingan dari X dan perbandingan tersebut menghasilkan r.

8.6 Beberapa Wawasan Mengenai Korelasi dan PrediksiKorelasi Pearson (r) adalah sama dengan kemiringan garis regresi bila dinyatakan dalam bentuk z-score. Ketika data diubah ke z-score, standar deviasi yang dihasilkan keduanya sama dengan 1. Semakin besar korelasi, garis akan lebih curam miring ke atas (atau ke bawah jika r negatif).Untuk setiap kenaikan standar deviasi di X, Y berubah sesuai dengan standar deviasi r.

Ketika r = 1.00Ketika r = 1.00, diprediksi nilai z pada Y identik dengan nilai z pada X dimana prediksi itu dibuat. Untuk setiap kenaikan standar deviasi di X, Y juga meningkat sebesar satu standar deviasi.

Ketika r 1.00Ketika r adalah selain +1.00 sempurna, klaster skor Y diprediksi lebih dekat sekitar rata-rata Y. Ketika r = +.50, nilai prediksi Y adalah setengah nilai zx. Ketika r = +.25, nilai prediksi Y adalah seperempat nilai zx.

Ketika r = 0Dengan tidak adanya hubungan antara dua variabel, nilai prediksi Y akan selalu menjadi rata-rata Y. Ketika X dan Y tidak berkorelasi, kita tidak dapat memprediksi rata-rata Y dari nilai X. zy = (r)(zx)= (0)(zx)= 0

8.7 Regresi dan Jumlah KuadratKonsep jumlah kuadrat adalah pusat dari kuadrat terkecil dari kriteria untuk menentukan garis regresi. Ada tiga jumlah kuadrat terlibat dalam analisis regresi:1. Total variation, (Y Y)21. Explained variation, (Y Y)21. Unexplained variation, (Y Y)2

Jumlah variasi dalam Y, kemudian dapat mencerminkan Explained variation dan Unexplained variation. Dinyatakan secara matematis:

Dari persamaan tersebut diketahui perbandingan explain variation terhadap total variation sama dengan r2:

sehingga akar kuadrat dari persamaan tersebut adalah sama dengan r:

Sebagaimana dinyatakan di awal bab ini, korelasi dan prediksi memang terkait erat.

8.8 Mengukur Margin of Prediction Error: Kesalahan Standar PerkiraanVarian adalah penjumlahan kuadrat dibagi dengan n dan akar kuadrat dari varian merupakan standar deviasi. Pengetahuan ini dapat diaplikasikan pada eror sum of Square. Khususnya varian dari prediksi eror (kesalahan prediksi) dinyatakan dalam . Akar kuadrat dari persamaan ini disebut standar deviasi prediksi eror, atau yang disebut Prediksi Standar Eror dan disimbolkan dengan .

Meskipun persamaan (8.7) memberikan pemahaman yang penting dalam menentukan nilai prediksi standar eror, namun persamaan tersebut kaku untuk diterapkan. Kita akan menemukan persamaan yang setara untuk menentukan nilai tersebut, yaitu:

Kita dapat melihat di persamaan (8.8) bahwa ada hubungan yang lebih tinggi antara X dan Y, Prediksi standar eror yang lebih kecil.

Mengatur Margin ErorDalam prediksi praktis, selalu diinginkan untuk menyertakan informasi tentang prediksi margin eror. Kekurangan informasi ini, orang cenderung sering berpikir bahwa kinerja adalah "petunjuk" nilai prediksi, pandangan ini salah. Dengan menggunakan kurva normal, Kita dapat menentukan batas-batas yang sesuai dengan derajat kepercayaan selain 95%. Untuk 68%, dan untuk 99%, .

Hubungan antara r dan Prediksi ErorPrediksi eror berada pada keadaan maksimum ketika r = 0, dalam beberapa kasus kita mendapatkan , yaitu ketika X sama sekali tidak terkait dengan Y, ada banyak variabilitas dalam prediksi eror () karena ada di antara nila Y itu sendiri (). Sebaliknya, prediksi eror minimum terjadi ketika r = 1.00, dalam kasus . Dalam situasi ini tidak ada prediksi eror (kesalahan prediksi) karena seluruh titik data jatuh pada garis regresi.Apa yang terjadi pada prediksi eror (kesalahan prediksi) ketika r = 0.50? Prediksi standar eror adalah . Anda mungkin menduga bahwa koefisien 0.50 akan berarti bahwa prediksi eror (kesalahan prediksi) akan dikurangi setengahnya, namun ternyata . Jika 87% dari prediksi eror (kesalahan prediksi) tetap, maka pengurangan hanya 13% yang terjadi pada r = 0 sampai r = 0.50. Tabel 8.2. menyajikan beberapa nilai r, bersama-sama dengan konsekuensi masing-masing untuk mengurangi kesalahan prediksi. tabel ini menawarkan cara lain, selain yang menggambarkan dalam bagian 7.8 mengevaluasi koefisien korelasi berbagai ukuran. Jika tujuan Anda adalah prediksi, ingatlah bahwa tidak ada pengurangan substansial dalam kesalahan prediksi akan tercapai kecuali r cukup tinggi. Tabel 8.2 juga menunjukkan bahwa peningkatan hubungan dengan jumlah yang diberikan memiliki efek yang lebih besar untuk nilai yang lebih tinggi dari r daripada yang lebih rendah.

Tabel 8.2. Pengurangan Prediksi Eror (Kesalahan Prediksi) untuk berbagai nilai r

AsumsiBeberapa kondisi yang harus dipenuhi untuk interpretasi prediksi agar dapat menjelaskan hal di atas dengan baik adalah:1. Hubungan antara variabel bebas, X, dan variabel terikat,Y, harus linear. Ada yang memprediksi dari garis lurus yang paling cocok dan prediksi tersebut akan mati jika hubungan keduanya berbentuk lengkung (curvelinear).1. Menentukan margin eror mensyaratkan bahwa penyebaran nilai-nilai yang diperoleh dari Y tentang Y 'serupa untuk semua nilai Y'. Persyaratan ini dikenal sebagai asumsi homoscedasticity. Karena adalah nilai tunggal, ditentukan dari data secara keseluruhan, tidak memungkinkan untuk kemungkinan bahwa variasi mungkin berbeda di berbagai titik dalam distribusi. Gambar 8.8. menunjukkan dua distribusi bivariat: satu ditandai dengan homoscedasticity, dan yang lainnya tidak. (Tidak mengejutkan, yang istilah heteroscedasticity digunakan dalam referensi untuk kondisi terakhir).1. Batas kesalahan yang digambarkan di atas (68%, 95%, 99%) didasarkan pada asumsi bahwa nilai-nilai Y terdistribusi secara normal tentang Y'.

Gambar 8.8. Variabilitas di Y sebagai fungsi dari nilai X: Subskrip L, M, dan H masing-masing merupakan Low, Medium, dan High.

8.9 Korelasi dan Kausalitas (Ditinjau Kembali)Sebutan korelasi tidak berarti hubungan sebab-akibat, dimana telah kita bahas pada bab terakhir (bagian 7.6), sama relevan dengan topik regresi dan prediksi. Referensi kausal: tergantung pada "variabel, yang merupakan prediksi" dari variabel lain, yang menjelaskan " diluar variasi. Jangan pernah lupa bahwa di balik setiap persamaan regresi adalah ukuran asosiasi (r).

Meskipun Y dapat mengikuti X dalam waktu (seperti dalam contoh IPK perguruan tinggi kita dan SAT-CR skor), itu adalah kesalahan logis untuk menyimpulkan bahwa Y itu disebabkan oleh X ketika ditemukan hubungan antara kedua. Ahli logika sering mengutip ungkapan Latin dari kesalahan ini: post hoc, ergo propter hoc, atau, setelah ini, oleh karena itu karena ini. "Pertimbangkan korelasi negatif antara berapa banyak orang tua membantu pekerjaan rumah anak-anak mereka (X) dan prestasi belajar siswa (Y), yang kita disajikan sebagai latihan masalah pada akhir Bab 7. Anda akan melakukan kekeliruan post hoc, karena lebih mudah diketahui, jika Anda telah beralasan sebagai berikut:

1. Orang tua memberikan beberapa bantuan pekerjaan rumah untuk anak-anak mereka1. Anak-anak ini kemudian mengambil tes prestasi1. Bantuan pekerjaan rumah dan prestasi skor berkorelasi negatif.1. Oleh karena itu, bantuan pekerjaan rumah harus merugikan prestasiSama konsisten dengan korelasi negatif ini adalah kesimpulan bahwa orang tua memberikan bantuan pekerjaan rumah hanya ketika anak-anak melakukan tugasnya dengan buruk di sekolah. Meskipun tes prestasi diberikan setelah orang tua memberikan (atau tidak memberikan) bantuan pekerjaan rumah, anak-anak yang berkelakuan buruk dalam tes mungkin berkelakuan buruk di sekolah selama ini. Dan ketika anak-anak berkelakuan buruk, orang tua lebih mungkin untuk membantu pekerjaan rumah. Kita tidak tahu apakah penafsiran korelasi negatif kita ini benar, pikiran Anda, hanya untuk mengendalikan eksperimen dapat mengurai sebab dan akibat. Namun, berhati-hatilah saat menarik kesimpulan dari data korelasi, dan bersikap kritis terhadap kesimpulan yang ditarik oleh orang lain.

8.10 RingkasanPersamaan garis lurus yang paling cocok, Y= a+bX, digunakan untuk memprediksi Y dari pengetahuan X ketika dapat diasumsikan bahwa hubungan adalah salah satu yang linear. Kriteria paling cocok adalah bahwa jumlah kuadrat dari kesalahan prediksi, (Y-Y)2, diminimalkan. Diantara hal lainnya, kuadrat-kriteria" ini berarti garis regresi yang dihasilkan dapat dianggap sebagai mean berjalan garis yang memperkirakan rata-rata Y untuk nilai-nilai tertentu dari X.Rumus z-score untuk persamaan regresi mengungkapkan beberapa karakteristik regresi, termasuk fenomena regresi terhadap mean. Di kerja prediksi praktis, formula score baku adalah yang lebih mudah digunakan.Nilai prediksi Y, Y, hanyalah diperkirakan nilai rata-rata dan karena itu tergantung pada kesalahan. Pada asumsi regresi linearitas dan homoscedasticity, standard error dari estimasi SY.X standar deviasi dari prediksi kesalahan-menyediakan ukuran yang baik dari kesalahan prediksi. Ketika itu juga mungkin untuk mengasumsikan bahwa nilai sebenarnya yang terdistribusi secara normal tentang Y, adalah mungkin dikenal untuk membangun batas kesalahan prediksi tentang garis regresi. Metode yang dijelaskan dalam bab ini akan cukup akurat untuk sampel besar (n 100).Anda pelajari dalam Bab 7 yang kekuatan asosiasi tidak biasanya ditafsirkan dalam proporsi langsung dengan besarnya koefisien korelasi. Ini berlaku untuk hubungan antara ukuran koefisien (r) dan besarnya kesalahan prediksi (Sy.x). Sebagai r naik dari nol menuju satu, standard error dari estimasi menurun sangat lambat sampai r jauh di atas .50. Akhirnya, regresi dan prediksi tidak mengizinkan kesimpulan tentang sebab dan akibat. Hanya karena Y dapat diprediksi dari X tidak berarti bahwa Y adalah disebabkan oleh X.7.6 Korelasi dan PenyebabKorelasi tidak termasuk dalam penyebab.Ketika seorang medis melakukan eksperimen mengenai variasi dosis obat dalam kelompok pasien dan kemudian menemukan variasi yang sesuai terhadap respon fisiologis, diperoleh kesimpulan bahwa perbedaan dosis menyebabkan perbedaan respon.Dalam hal ini, menghubungkan sebuah hubungan kausal menjadi masuk akal.Tetapi dengan tidak adanya eksperimen terkontrol, di mana peserta secara acak ditugaskan untuk kelompok perlakuan yang berbeda, atribusi kausal jauh dari sederhana.Hal in terutama berlaku dalam kasus penelitian korelasional.

Gambar diatas menunjukkan adanya tiga penjelasan yang mungkin mengapa ada korelasi antara X dan Y.1. X menyebabkan Y1. Y menyebabkan X1. Faktor ketiga (Z) atau faktor kompleks (a, b, c, d) menyebabkan kedunya, X dan Y.Contoh kasus: antusiasme guru (X) diketahui berkorelasi dengan prestasi belajar siswa ( Y ) dalam penyelidikan yang tak terhitung jumlahnya: Tingkat antusiasme guru yang rendah berhubungan dengan prestasi siswa yang yang rendah, dan tingkat antusiasme guru yang tinggi berhubngan dengan prestasi belajar siswa yang tinggi pula. Apakah korelasi ini disebabkan karena kesukaan guru pada materi pelajaran (X Y) atau lebih tepatnya, apakah korelasi ini menunjukkan bahwa antusias guru adalah cara yang membuat siswa ingin sekali mendapatkan prestasi tinggi (Y X)? Atau mungkin antusiasme guru dan prestasi siswa keduanya disebabkan oleh faktor ketiga , Z , seperti tingkat dukungan masyarakat untuk pendidikan . Untuk sepenuhnya memahami bahwa korelasi tidak dapat digunakan untuk menyimpulkan penyebab, salah satu cara yang dibutuhkan adalah dengan mempertimbangkan banyak contoh asosiasi kausal yang aneh. Salah satu contohnya adalah korelasi positif yang kuat antara jumlah gereja dalam masyarakat dan timbulnya kejahatan kekerasan.Hasil dari kasus tersebuut dapat disebabkan karena adanya variabel ketiga yang berperan di dalamnya.Sebuah korelasi yang diperoleh antara X dan Y, tidak berarti bahwa hubungan sebab akibat ada antara dua variabel.Jika seseorang berbicara tentang sebab akibat, harus dengan alasan yang logis dan bebas dari demonstrasi statistik asosiasi.Beberapa prosedur korelasional berusaha untuk mengatasi keterbatasan koefisien korelasi bivariat dengan memfaktorkan variabel tambahan dan latihan kendali statistik.Korelasi parsial, regresi berganda, dan pemodelan persamaan struktural adalah contoh dari prosedur tersebut.Tapi tidak peduli seberapa canggih analisis statistik, argumen logis dari sebab dan akibat selalu sangat penting.Tidak ada pengganti untuk alasan dalam analisis statistik.

7.7 Faktor-faktor yang mempengaruhi Pearson rTerdapat beberapa faktor utama yang mempengaruhi besarnya r, terlepas dari hubungan yang mendasari antara dua variabel. Faktor-faktor tersebut yaitu:1. LinearitasSalah satu yang tidak boleh dilupakan bahwa r mencerminkan besar dan arah hubungan linier antara dua variabel.Meskipun sejumlah besar variabel cenderung menunjukkan hubungan linear, hubungan nonlinier dapat terjadi. Misalnya, ukuran kemampuan mental dan keterampilan psikomotor dapat berhubungan curvilinearlyusia jika rentang usia dari, katakanlah, 5 sampai 80 tahun. Untuk tingkat distribusi bivariat yang berangkat dari linearitas, r akan menaksir terlalu rendah hubungan tersebut.

Gambar 7.6a dan 7.6b menggambarkan hubungan sama kuat ".Satu-satunya perbedaan adalah bahwa Gambar 7.6a merupakan hubungan linear dan gambar 7.6b merupakan hubungan lengkung sebagian. Tapi perhatikan nilai yang berbeda dari r (0,85 dan 0,54, masing-masing). Semakin rendah r menunjukkan bahwa tidak ada hubungan yang lebih lemah pada Gambar 7.6b, melainkan bahwa ada hubungan linear lebih lemah di sini. Gambar 7.6c menggambarkan hubungan lengkung sempurna antara X dan Y - hubungan yang sangat kuat! Dalam kasus ini, r=0:tidak ada sama sekali hubungan linier antara variabel-variabel tersebut.Singkatnya, jangan salah menafsirkan adanya hubungan linear karena tidak adanya asosiasi.Dalam kasus apapun, jangan menggunakan Pearson r ketika hubungan antara X dan Y adalah lengkung sempurna.1. OutliersOutlier merupakan titik data yang berbeda.Outliers dapat mempengaruhi besarnya Pearson r. Sifat pengaruhnya tergantung pada di mana outlier berada.Merujuk pada gambar 7.1, Siswa 26, yang outlier di sudut kanan bawah.Meskipun titik data tunggal, siswa 26 jelas-jelas mengurangi kecenderungan linier secara keseluruhan dalam data ini.r akan lebih besar tanpa orang ini. Dengan dihapusnya siswa 26, r =+0.79 dibandingkan dengan r asli r = 0.63. Tanpa siswa 26, kolektif hug" dari data di sekitar garis lurus imajiner sedikit padat.Kenaikan r juga harus masuk akal secara matematis jika mempertimbangkan efek dari tidak adanya outlier pada kovarians tersebut.Pembilang dari kovarians menjadi lebih besar dengan penghapusan crossproduct negatif besar dan kuat untuk siswa 26 (384, Tabel 7.2), yang menghasilkan kovarians yang lebih besar dan, pada gilirannya, r lebih besar.Menghapus outlier juga dapat mengurangi korelasi, tergantung di mana titik data terletak yang di sebar.Meningkatkan sebuah koefisien korelasi bukanlah alasan yang cukup untuk menghapus (atau mempertahankan) outlier.1. Pembatasan rentangAnalisis statistik dapat disabotase oleh variabel yang tidak cukup bervariasi. Korelasi menyediakan kasus di titik: Variabilitas untuk mengkorelasikan oksigen dengan api. Hal lain yang dianggap sama, terbatas variasi baik X atau Y yang akan menghasilkan Pearson r lebih rendah dari yang diperoleh adalah variabilitas yang lebih besar.

Contoh kasus: salah satu cara yang ideal bagi komite masuk universitas untuk menentukan kegunaan nilai tes standar yang dapat memprediksi seberapa baik prestasi siswa di universitas itu adalah dengan catatan nilai ujian dari semua pelamar, menerima mereka semua, dan pada akhir tahun pertama, menentukan korelasi antara nilai tes dan IPK. Dalam prakteknya, penelitian korelasional tentang tes penerimaan dan IPK perguruan tinggi biasanya didasarkan pada sekelsi kelompok mahasiswa yang lulus dari proses penyaringan, diterima oleh institusi, dan menyelesaikan setidaknya satu masa studi. Dalam kaitan dengan nilai tes, kemudian, para siswa ini mewakili kelompok yang umumnya kurang bervariasi pada kolom pelamar (banyak di antaranya yang ditolak masuk).

Gambar 7.7a, merupakan sebaran semua pelamar ke universitas dibuat tanpa memperhatikan nilai tes.Hal tersebut menggambarkan tingkat moderat hubungan antara nilai tes dan IPK.Sekarang anggaplah bahwa hanya pelamar dengan nilai tes di atas 60 yang diterima.Kelompok di sebelah kanan garis vertikal pada Gambar 7.7a.Gambar 7.7b menunjukkan sebaran yang diperoleh hanya didasarkan pada kelompok yang diterima. Dalam Gambar 7.7b, bukti hubungan antara nilai tes dan IPK berikutnya jauh lebih lemah, karena itu, r Pearson untuk data ini akan jauh lebih rendah. Jika anggota panitia penerimaan hanya menggunakan kelompok terbatas dalam mempelajari efektivitas tes ini, mereka akan menaksir nilai terlalu rendah sebagai alat skrining yang digunakan untuk semua pelamar.Dengan demikian, besarnya r tergantung pada tingkat variabilitas di X dan Y serta pada hubungan mendasar antara dua variabel.Ini adalah Prinsip penting yang perlu diingat mengenai konsep masalah penelitian.Misalnya, Jika Anda melakukan penelitian tentang siswa berbakat, Anda mungkin harus berpikir dua kali sebelum menghitung korelasi yang melibatkan ukuran prestasi akademik umum. Jika Anda adalah petugas penerimaan di universitas yang sangat selektif, jangan terkejut menemukan bahwa nilai siswa Anda ' tidak berkaitan dengan nilai SAT atau ACT mereka .1. KonteksPearson r juga dipengaruhi oleh instrumen khusus yang digunakan.Sebagai contoh, korelasi antara pendapatan dan kecerdasan" akan berbeda tergantung pada bagaimana peneliti mendefinisikan dan mengukur konstruk terakhir. Karakteristik demografi dari peserta juga mempengaruhi Pearson r. Mengingat variabel yang sama diukur dengan instrumen yang sama , r dapat bervariasi menurut umur, jenis kelamin, SES, dan karakteristik demografis lainnya dari peserta penelitian. Karena banyak faktor yang mempengaruhi r, tidak ada hal seperti korelasi antara dua variabel. Sebaliknya, r yang diperoleh harus ditafsirkan dalam tampilan penuh dari faktor-faktor yang mempengaruhi dan kondisi tertentu di mana ia diperoleh. Itulah sebabnya laporan penelitian yang baik mencakup deskripsi yang cermat dari langkah-langkah yang digunakan, para peserta penelitian, dan keadaan di mana korelasi diperoleh.

7.8 Menilai Kekuatan Asosiasi: r2Telah disebutkan dua cara untuk menilai kekuatan asosiasi yaitu dalam hal pola yang ditunjukkan oleh sebaran dan dalam hal jangkauan teoritis r dari 0 sampai 1.00.Alasan pada penelitian sebelumnya menunjukkan 3 cara untuk menilai kekuatan asosiasi. Anda tidak bisa menilai korelasi dalam isolasi. Misalnya, cara yang umum untuk mengevaluasi keandalan" dari beberapa tes standar adalah untuk memberikan tes kepada sekelompok siswa pada dua kesempatan dan kemudian menghubungkan dua set nilai. Dalam konteks ini, r Pearson dari + .20 sangat kecil. Tapi nilai yang sama tidak diragukan lagi akan dianggap besar jika didasarkan misalnya pada kemampuan membaca dan forearm hair density. Selalu menilai besarnya r dalam pandangan yang diharapkan untuk ditemukan, berdasarkan alasan dan penelitian sebelumnya.Cara keempat mengevaluasi besarnya r sedikit abstrak tapi sangat penting. Misalkan Anda mendapatkan r = +.50 antara SES dan pemahaman membaca untuk sampel acak dari siswa kelas lima di negara Anda. r ini menunjukkan beberapa perbedaan atau variasi, variasi SES di kalangan mahasiswa terkait dengan, skor pemahaman membaca mereka . Artinya, nilai covary ini: Ketika Anda bergerak melalui berbagai SES dari rendah ke tinggi, nilai pemahaman membaca cenderung meningkat juga. Namun covariation ini masih jauh dari sempurna. Sebaran untuk r akan mengungkapkan banyak pengecualian individu untuk kecenderungan umum: Beberapa siswa dengan SES rendah akan memiliki nilai pemahaman membaca relatif tinggi, seperti beberapa siswa dengan SES tinggi akan relatif rendah dalam pemahaman membaca. Pengecualian ini menunjukkan bahwa variasi dalam SES tidak bisa dengan sendirinya untuk nilai" semua variasi dalam nilai pemahaman membaca.Beberapa variasi dalam pemahaman membaca mencerminkan faktor-faktor lain (misalnya, motivasi, jenis kelamin, kebiasaan belajar).Berapa banyak variasi dalam pemahaman membaca dikaitkan dengan variasi dalam SES dan berapa banyak dikaitkan dengan faktor-faktor lain? Dengan kata lain, berapa proporsi dari varians dalam SES dan pemahaman bacaan adalah varians umum dimiliki oleh dua variabel? Pertanyaan ini dijawab dengan mengkuadratkan koefisien korelasi, yang menyediakan koefisien determinasi.Koefisien determinasi , r2 , adalah proporsi varians umum dimiliki oleh dua variabel .

Dalam contoh ini, r2 = .502 = .25, menunjukkan bahwa 25 % dari varians dalam pemahaman membaca dicatat dengan variasi SES (dan sebaliknya). Artinya, 25 % dari varians dalam dua variabel tersebut adalah varians umum. Dengan menghitung selisih 1 - r2, kita melihat bahwa 75 % dari varians dalam variabel baik dikaitkan dengan faktor-faktor yang sama sekali tidak berhubungan dengan variabel lain. Perbedaan ini, cukup layak, disebut koefisien nondetermination.

Jika varians dalam setiap variabel diwakili oleh lingkaran, jumlah tumpang tindih antara dua lingkaran sesuai dengan proporsi varians umum. Karena r2=0 untuk dua variabel pada Gambar 7.8a, tidak ada tumpang tindih. Di sini, tidak ada perbedaan umum antara X dan Y - variasi dalam satu variabel tidak ada hubungannya dengan variasi yang lain. Pada Gambar 7.8b, r2= .25 dan oleh karena itu dua variabel menunjukkan 25 % tumpang tindih. Jika X danY berkorelasi dengan sempurna, seperti pada Gambar 7.8c, maka r2=1.00 dan ada tumpang tindih yang sempurna. Koefisien determinasi membuat keterangan tambahan arti dari Pearson r. Korelasi bukan persentase.Sebagai contoh, korelasi .50 tidak mewakili asosiasi 50%" atau berhubungan 50 % ".Memang , r=.50 jauh lebih kecil dari setengah " kekuatan hubungan yang ditunjukkan oleh r =1.00 ketika kedua korelasi dievaluasi sebagai koefisien determinasi (.25 vs 1.00). Korelasi .71 akan diperlukan untuk setengah varians dalam satu variabel yang akan dicatat dengan variasi yang lain (contoh .712=.50).

r2 sebagai Effect Size "Anda telah pelajari sebelumnya bahwa pengukuran efek ukuran" dapat dihitung untuk mengevaluasi besarnya perbedaan dengan dua cara (misalnya, lihat Bagian 6.9). Sebenarnya, ukuran efek adalah istilah umum yang berlaku untuk berbagai situasi penelitian, kasus a berarti perbedaan menjadi hanya satu (meskipun secara historis paling menonjol).Koefisien determinasi juga dianggap sebagai pengukuran dari ukuran efek.Dengan mengkuadratkan r, kita dapat berkomunikasi lebih baik besarnya hubungan antara dua variabel - sebagai jumlah varians bersama antara mereka.Untuk alasan ini, hal itu baik untuk menggabungkan r2 ke dalam presentasi temuan korelasional.

7.9 Koefisien Korelasi LainnyaPearson r, seperti yang kita sebutkan sebelumnya, adalah koefisien korelasi yang paling sering digunakan dalam ilmu perilaku. Tapi kadang-kadang timbul situasi tertentu dalam pengukuran lain misalnya asosiasi, ketika curvilinearity hadir atau ketika satu atau kedua variabel dikotomis berkelanjutan.

7.10 RangkumanMenentukan sejauh mana variasi dalam satu variabel berhubungan dengan variasi lain penting dalam berbagai bidang penyelidikan dalam ilmu perilaku. Pearson r tepat ketika dua variabel kuantitatif linear terkait. Besarnya ditentukan oleh sejauh mana titik data membentuk garis lurus imajiner, dan bervariasi dari r=0 (tidak ada hubungan linear) untuk r = 1.00 (semua titik yang terletak pada garis lurus). Kekuatan asosiasi tergantung pada besarnya r, dan tanda aljabar yang menunjukkan apakah kedua variabel positif (langsung) atau negatif (terbalik).Pearson r memperhitungkan dua standar deviasi, hal itu tidak terpengaruh oleh transformasi linear skor. Jadi, apakah r sama nilai baku, nilai standar, atau persentase yang digunakan, atau apakah pengukuran dalam sistem metrik atau sistem Inggris .Banyak faktor yang mempengaruhi besarnya r. Nonlinearitas dan jangkauan terbatas masing-masing cenderung mengurangi r. Kasus discrepant atau outlier, juga dapat mempengaruhi r dan arah efek r -apakah melemah atau menguat- ditentukan oleh lokasi outlier disebar.Hal ini penting untuk memeriksa scatterplots untuk bukti non-linear dan outlier, dan untuk menguji sarana dan standar deviasi untuk memastikan variabilitas yang memadai. Kondisi lain, seperti langkah-langkah khusus yang digunakan dan karakteristik peserta, juga mempengaruhi r. Oleh karena itu, penjelasan yang baik dari semua faktor ini merupakan bagian penting dari sebuah laporan penelitian .Salah satu interpretasi yang banyak digunakan dari Pearson r adalah dalam hal r2 (ukuran efek ukuran), yang memberikan proporsi varians dalam satu variabel yang dicatat dengan variasi yang lain. Sebagai contoh, jika korelasi antara dua variabel adalah .40, maka ada 16 % varians umum: 16 % dari varians dalam X dicatat oleh variasi Y (dan sebaliknya).

Membaca Penelitian : Pembatasan Rentang

Seperti di banyak negara, calon guru di Massachusetts harus lulus ujian standar sertifikasi untuk mengajar. Jika gagal, kandidat dapat mengikuti tes lagi.Sebaran pada Gambar 7.9 menunjukkan hubungan antara skor tes awal (April) dan nilai tes berikutnya (Juli) di Massachusetts Guru Test (MTT) untuk sampel calon yang mengambil tes dua kali (setelah gagal pada bulan April).Dalam sebuah studi independen dari tes ini, Haney et al. (1999) melaporkan korelasi tes-tes ulang sangat rendah. Sebagai contoh, korelasi pada Gambar 7.9 r=.37. Hal ini disebabkan oleh sebagian pembatasan jangkauan:Hal ini dikarenakan orang yang menetak nilai 70 atau diatas lulus tes dan tidak harus mengulang agar bersertifikat untuk sementara waktu.[O]data uji tes ulang MTT adalah untuk orang-orang yang mencetak dibawah 70 pada tes April. Hal ini menjadi satu penjelasan yang mungkin untuk korelasi tes-tes ulang sangat rendah, yaitu lemahnya koefien korelasi yang diamati akibat pembatasan jangkauan.Dalam sebuah sebaran, tanda tell-tale dari berbagai pembatasan adalah ketika bagian dari elips terlihat seperti telah dipotong. Hal ini terlihat pada kasus di Gambar 7.9, di mana ujung kanan atas elips jelas didefinisikan lurus tepi - sesuai dengan skor lewat dari 70 pada sumbu horisontal .

Studi Kasus : Money MattersData dari 253 distrik sekolah umum diperoleh dari Kantor Inspektur Instruksi Publik di negara bagian Washington.Data terdiri dari berbagai demografis mahasiswa dan informasi kinerja, semua dilaporkan di tingkat kabupaten sekolah.Distrik sekolah merupakan unit analisis ".Kami ingin menguji hubungan antara status sosial ekonomi dan prestasi akademik di kelas empat. Status sosial ekonomi (SES) didefinisikan sebagai persentase siswa di kabupaten yang memenuhi syarat untuk gratis atau pengurangan harga makan siang, variabel akan kita sebut SIANG. Prestasi akademik didefinisikan sebagai persentase dari siswa kelas empat di kabupaten yang dilakukan pada siswa di atas tingkat mahir" dalam matematika (MATEMATIKA), membaca (READ), menulis (MENULIS), dan mendengarkan (LISTEN) pada ujian kelas empat yang dikelola oleh negara. Fokus awal kami adalah pada hubungan antara makan siang dan MATEMATIKA.

Gambar 7.10 menunjukkan hubungan negatif antara makan siang dan matematika.Artinya, kabupaten yang memiliki sedikit siswa berpenghasilan rendah lebih cenderung memiliki lebih banyak siswa mencetak mahir di kelas empat matematika.Sebaliknya, Kabupaten yang memiliki siswa berpenghasilan rendah cenderung memiliki siswa mahir yang sedikit.Pemeriksaan sebar menegaskan bahwa hubungan yang linear, dengan tidak ada bukti outlier atau pembatasan jangkauan.

Tabel 7.6 menunjukkan korelasi antara ukuran prestasi. Korelasi ini semua positif dan cukup kuat: Sebuah kabupaten yang memiliki persentase yang tinggi dari siswa mahir dalam satu mata pelajaran (misalnya matematika) cenderung memiliki persentase yang tinggi dari siswa mahir dalam mata pelajaran lain (misalnya, membaca).Seperti yang kita diamati pada Bagian 7.7, penting untuk menafsirkan korelasi dalam konteks di mana mereka telah diperoleh.Di sini, misalnya, distrik sekolah adalah unit analisis.Sebuah unit yang berbeda dari analisis mungkin sangat baik mempengaruhi besarnya korelasi ini. Sebagai contoh, korelasi tingkat siswa mungkin akan lebih rendah dari yang diperoleh di atas. Korelasi ini bisa berubah jika SES atau prestasi akademik didefinisikan berbeda.

Chapter 7: Korelasi7.1 Konsep Asosiasi/Hubungan1. Setelah statistik univariat yang berfokus pada distribusi frekuensi, ukuran pemusatan, dan varibilitas, ada statistik yang disebut bivariat yang menganalisis dua variabel secara simultan. 1. Analisis bivariat yang paling umum adalah koefisien korelasi yang mengukus derajar hubungan linear dari dua variabel kuantitatif. 1. Koefisen korelasi yang paling umum digunakan adalah koefisien korelasi product-moment Pearson.7.2 Distribusi Bivariat dan Scatterplot1. Korelasi selalu berkaitan dengan skor yang berpasangan1. Akan sulit melihat hubungan antara dua variabel hanya dari tabel distribusi univariat1. Scatterplot dapat mengilustrasikan distribusi bivariat, dalam bentuk titik. Titik akan menunjukkan dua skor secara bersamaan.1. Hal hal yang bisa dimunculkan dari scatterplot:1. Hubungan: Semakin menyebar titik-titik maka semakin kecil hubungan dari kedua variabel. Makin kuat hubungan kedua variabel maka titik akan menyebar di sekitar sebuah garis lurus1. Arah: Habungan positif (langsung) ditandai dengan arah sebar dari sudut kiri bawah ke kanan atas. Hubungan negatif (kebalikan) ditandai dari arah kiri atas ke kanan bawah.1. Outliers: yakni nilai terpencil, yakni skor yang nilainya jauh dari nilai rata-rata.1. Ketidaklinearitas: tidak selamanya titik titik di scatterplot akan cenderung membentuk garis lurus, tapi juga bisa membentuk hubungan yang tidak linear dengan titik titik yang menyebar menunjukkan rendahnya korelasi.7.3 Kovarians (Covariance)1. Sebagian besar hubungan yang ada di ilmu sains adalah hubungan yang linear dan berkaitan dengan korelasi Pearson1. Kovarians adalah pendahuluan untuk melakukan korelasi Pearson1. Rumus kovarians:

atau Crossproduct dibagi dengan banyak data.1. Ketika ada hubungan positif dari dua variabel, nilai di atas rata-rata X bergantung dari hubungan skor di atas rata-rata Y, dan skor di bawah rata-rata X bergantung skor dibawah rata-rata Y. Ketika ada hubungan negatif dari dua variabel, skor di atas rata-rata X akan bergantung pada skor di atas rata-rata Y, dan skor di bawah rata-rata X akn bergantung pada skor di atas rata rata Y.1. Nilai magnitude dari kovarians bergantung dari skala, satuan, dari variabel yang terikat.

7.4. Korelasi Pearson rRumus:

1. Nilai magnitude r dari 0 hingga 1.00, bergantunng dari skala dua variabel1. Ketika tidak ada hubungan r = 0, jika hubungan mutlak maka r = 1 atau r = -1.7.5. Komputasi r : Perhitungan RumusNilai r juga dapat dihitung dengan rumus:

7.6 Korelasi dan PenyebabKorelasi tidak termasuk dalam penyebab.Ketika seorang medis melakukan eksperimen mengenai variasi dosis obat dalam kelompok pasien dan kemudian menemukan variasi yang sesuai terhadap respon fisiologis, diperoleh kesimpulan bahwa perbedaan dosis menyebabkan perbedaan respon.Dalam hal ini, menghubungkan sebuah hubungan kausal menjadi masuk akal.Tetapi dengan tidak adanya eksperimen terkontrol, di mana peserta secara acak ditugaskan untuk kelompok perlakuan yang berbeda, atribusi kausal jauh dari sederhana.Hal in terutama berlaku dalam kasus penelitian korelasional.

Gambar diatas menunjukkan adanya tiga penjelasan yang mungkin mengapa ada korelasi antara X dan Y.1. X menyebabkan Y1. Y menyebabkan X1. Faktor ketiga (Z) atau faktor kompleks (a, b, c, d) menyebabkan kedunya, X dan Y.Contoh kasus: antusiasme guru (X) diketahui berkorelasi dengan prestasi belajar siswa ( Y ) dalam penyelidikan yang tak terhitung jumlahnya: Tingkat antusiasme guru yang rendah berhubungan dengan prestasi siswa yang yang rendah, dan tingkat antusiasme guru yang tinggi berhubngan dengan prestasi belajar siswa yang tinggi pula. Apakah korelasi ini disebabkan karena kesukaan guru pada materi pelajaran (X Y) atau lebih tepatnya, apakah korelasi ini menunjukkan bahwa antusias guru adalah cara yang membuat siswa ingin sekali mendapatkan prestasi tinggi (Y X)? Atau mungkin antusiasme guru dan prestasi siswa keduanya disebabkan oleh faktor ketiga , Z , seperti tingkat dukungan masyarakat untuk pendidikan . Untuk sepenuhnya memahami bahwa korelasi tidak dapat digunakan untuk menyimpulkan penyebab, salah satu cara yang dibutuhkan adalah dengan mempertimbangkan banyak contoh asosiasi kausal yang aneh. Salah satu contohnya adalah korelasi positif yang kuat antara jumlah gereja dalam masyarakat dan timbulnya kejahatan kekerasan.Hasil dari kasus tersebuut dapat disebabkan karena adanya variabel ketiga yang berperan di dalamnya.Sebuah korelasi yang diperoleh antara X dan Y, tidak berarti bahwa hubungan sebab akibat ada antara dua variabel.Jika seseorang berbicara tentang sebab akibat, harus dengan alasan yang logis dan bebas dari demonstrasi statistik asosiasi.Beberapa prosedur korelasional berusaha untuk mengatasi keterbatasan koefisien korelasi bivariat dengan memfaktorkan variabel tambahan dan latihan kendali statistik.Korelasi parsial, regresi berganda, dan pemodelan persamaan struktural adalah contoh dari prosedur tersebut.Tapi tidak peduli seberapa canggih analisis statistik, argumen logis dari sebab dan akibat selalu sangat penting.Tidak ada pengganti untuk alasan dalam analisis statistik.

7.7 Faktor-faktor yang mempengaruhi Pearson rTerdapat beberapa faktor utama yang mempengaruhi besarnya r, terlepas dari hubungan yang mendasari antara dua variabel. Faktor-faktor tersebut yaitu:1. LinearitasSalah satu yang tidak boleh dilupakan bahwa r mencerminkan besar dan arah hubungan linier antara dua variabel.Meskipun sejumlah besar variabel cenderung menunjukkan hubungan linear, hubungan nonlinier dapat terjadi. Misalnya, ukuran kemampuan mental dan keterampilan psikomotor dapat berhubungan curvilinearlyusia jika rentang usia dari, katakanlah, 5 sampai 80 tahun. Untuk tingkat distribusi bivariat yang berangkat dari linearitas, r akan menaksir terlalu rendah hubungan tersebut.

Gambar 7.6a dan 7.6b menggambarkan hubungan sama kuat ".Satu-satunya perbedaan adalah bahwa Gambar 7.6a merupakan hubungan linear dan gambar 7.6b merupakan hubungan lengkung sebagian. Tapi perhatikan nilai yang berbeda dari r (0,85 dan 0,54, masing-masing). Semakin rendah r menunjukkan bahwa tidak ada hubungan yang lebih lemah pada Gambar 7.6b, melainkan bahwa ada hubungan linear lebih lemah di sini. Gambar 7.6c menggambarkan hubungan lengkung sempurna antara X dan Y - hubungan yang sangat kuat! Dalam kasus ini, r=0:tidak ada sama sekali hubungan linier antara variabel-variabel tersebut.Singkatnya, jangan salah menafsirkan adanya hubungan linear karena tidak adanya asosiasi.Dalam kasus apapun, jangan menggunakan Pearson r ketika hubungan antara X dan Y adalah lengkung sempurna.1. OutliersOutlier merupakan titik data yang berbeda.Outliers dapat mempengaruhi besarnya Pearson r. Sifat pengaruhnya tergantung pada di mana outlier berada.Merujuk pada gambar 7.1, Siswa 26, yang outlier di sudut kanan bawah.Meskipun titik data tunggal, siswa 26 jelas-jelas mengurangi kecenderungan linier secara keseluruhan dalam data ini.r akan lebih besar tanpa orang ini. Dengan dihapusnya siswa 26, r =+0.79 dibandingkan dengan r asli r = 0.63. Tanpa siswa 26, kolektif hug" dari data di sekitar garis lurus imajiner sedikit padat.Kenaikan r juga harus masuk akal secara matematis jika mempertimbangkan efek dari tidak adanya outlier pada kovarians tersebut.Pembilang dari kovarians menjadi lebih besar dengan penghapusan crossproduct negatif besar dan kuat untuk siswa 26 (384, Tabel 7.2), yang menghasilkan kovarians yang lebih besar dan, pada gilirannya, r lebih besar.Menghapus outlier juga dapat mengurangi korelasi, tergantung di mana titik data terletak yang di sebar.Meningkatkan sebuah koefisien korelasi bukanlah alasan yang cukup untuk menghapus (atau mempertahankan) outlier.1. Pembatasan rentangAnalisis statistik dapat disabotase oleh variabel yang tidak cukup bervariasi. Korelasi menyediakan kasus di titik: Variabilitas untuk mengkorelasikan oksigen dengan api. Hal lain yang dianggap sama, terbatas variasi baik X atau Y yang akan menghasilkan Pearson r lebih rendah dari yang diperoleh adalah variabilitas yang lebih besar.

Contoh kasus: salah satu cara yang ideal bagi komite masuk universitas untuk menentukan kegunaan nilai tes standar yang dapat memprediksi seberapa baik prestasi siswa di universitas itu adalah dengan catatan nilai ujian dari semua pelamar, menerima mereka semua, dan pada akhir tahun pertama, menentukan korelasi antara nilai tes dan IPK. Dalam prakteknya, penelitian korelasional tentang tes penerimaan dan IPK perguruan tinggi biasanya didasarkan pada sekelsi kelompok mahasiswa yang lulus dari proses penyaringan, diterima oleh institusi, dan menyelesaikan setidaknya satu masa studi. Dalam kaitan dengan nilai tes, kemudian, para siswa ini mewakili kelompok yang umumnya kurang bervariasi pada kolom pelamar (banyak di antaranya yang ditolak masuk).

Gambar 7.7a, merupakan sebaran semua pelamar ke universitas dibuat tanpa memperhatikan nilai tes.Hal tersebut menggambarkan tingkat moderat hubungan antara nilai tes dan IPK.Sekarang anggaplah bahwa hanya pelamar dengan nilai tes di atas 60 yang diterima.Kelompok di sebelah kanan garis vertikal pada Gambar 7.7a.Gambar 7.7b menunjukkan sebaran yang diperoleh hanya didasarkan pada kelompok yang diterima. Dalam Gambar 7.7b, bukti hubungan antara nilai tes dan IPK berikutnya jauh lebih lemah, karena itu, r Pearson untuk data ini akan jauh lebih rendah. Jika anggota panitia penerimaan hanya menggunakan kelompok terbatas dalam mempelajari efektivitas tes ini, mereka akan menaksir nilai terlalu rendah sebagai alat skrining yang digunakan untuk semua pelamar.Dengan demikian, besarnya r tergantung pada tingkat variabilitas di X dan Y serta pada hubungan mendasar antara dua variabel.Ini adalah Prinsip penting yang perlu diingat mengenai konsep masalah penelitian.Misalnya, Jika Anda melakukan penelitian tentang siswa berbakat, Anda mungkin harus berpikir dua kali sebelum menghitung korelasi yang melibatkan ukuran prestasi akademik umum. Jika Anda adalah petugas penerimaan di universitas yang sangat selektif, jangan terkejut menemukan bahwa nilai siswa Anda ' tidak berkaitan dengan nilai SAT atau ACT mereka .1. KonteksPearson r juga dipengaruhi oleh instrumen khusus yang digunakan.Sebagai contoh, korelasi antara pendapatan dan kecerdasan" akan berbeda tergantung pada bagaimana peneliti mendefinisikan dan mengukur konstruk terakhir. Karakteristik demografi dari peserta juga mempengaruhi Pearson r. Mengingat variabel yang sama diukur dengan instrumen yang sama , r dapat bervariasi menurut umur, jenis kelamin, SES, dan karakteristik demografis lainnya dari peserta penelitian. Karena banyak faktor yang mempengaruhi r, tidak ada hal seperti korelasi antara dua variabel. Sebaliknya, r yang diperoleh harus ditafsirkan dalam tampilan penuh dari faktor-faktor yang mempengaruhi dan kondisi tertentu di mana ia diperoleh. Itulah sebabnya laporan penelitian yang baik mencakup deskripsi yang cermat dari langkah-langkah yang digunakan, para peserta penelitian, dan keadaan di mana korelasi diperoleh.

7.8 Menilai Kekuatan Asosiasi: r2Telah disebutkan dua cara untuk menilai kekuatan asosiasi yaitu dalam hal pola yang ditunjukkan oleh sebaran dan dalam hal jangkauan teoritis r dari 0 sampai 1.00.Alasan pada penelitian sebelumnya menunjukkan 3 cara untuk menilai kekuatan asosiasi. Anda tidak bisa menilai korelasi dalam isolasi. Misalnya, cara yang umum untuk mengevaluasi keandalan" dari beberapa tes standar adalah untuk memberikan tes kepada sekelompok siswa pada dua kesempatan dan kemudian menghubungkan dua set nilai. Dalam konteks ini, r Pearson dari + .20 sangat kecil. Tapi nilai yang sama tidak diragukan lagi akan dianggap besar jika didasarkan misalnya pada kemampuan membaca dan forearm hair density. Selalu menilai besarnya r dalam pandangan yang diharapkan untuk ditemukan, berdasarkan alasan dan penelitian sebelumnya.Cara keempat mengevaluasi besarnya r sedikit abstrak tapi sangat penting. Misalkan Anda mendapatkan r = +.50 antara SES dan pemahaman membaca untuk sampel acak dari siswa kelas lima di negara Anda. r ini menunjukkan beberapa perbedaan atau variasi, variasi SES di kalangan mahasiswa terkait dengan, skor pemahaman membaca mereka . Artinya, nilai covary ini: Ketika Anda bergerak melalui berbagai SES dari rendah ke tinggi, nilai pemahaman membaca cenderung meningkat juga. Namun covariation ini masih jauh dari sempurna. Sebaran untuk r akan mengungkapkan banyak pengecualian individu untuk kecenderungan umum: Beberapa siswa dengan SES rendah akan memiliki nilai pemahaman membaca relatif tinggi, seperti beberapa siswa dengan SES tinggi akan relatif rendah dalam pemahaman membaca. Pengecualian ini menunjukkan bahwa variasi dalam SES tidak bisa dengan sendirinya untuk nilai" semua variasi dalam nilai pemahaman membaca.Beberapa variasi dalam pemahaman membaca mencerminkan faktor-faktor lain (misalnya, motivasi, jenis kelamin, kebiasaan belajar).Berapa banyak variasi dalam pemahaman membaca dikaitkan dengan variasi dalam SES dan berapa banyak dikaitkan dengan faktor-faktor lain? Dengan kata lain, berapa proporsi dari varians dalam SES dan pemahaman bacaan adalah varians umum dimiliki oleh dua variabel? Pertanyaan ini dijawab dengan mengkuadratkan koefisien korelasi, yang menyediakan koefisien determinasi.Koefisien determinasi , r2 , adalah proporsi varians umum dimiliki oleh dua variabel .

Dalam contoh ini, r2 = .502 = .25, menunjukkan bahwa 25 % dari varians dalam pemahaman membaca dicatat dengan variasi SES (dan sebaliknya). Artinya, 25 % dari varians dalam dua variabel tersebut adalah varians umum. Dengan menghitung selisih 1 - r2, kita melihat bahwa 75 % dari varians dalam variabel baik dikaitkan dengan faktor-faktor yang sama sekali tidak berhubungan dengan variabel lain. Perbedaan ini, cukup layak, disebut koefisien nondetermination.

Jika varians dalam setiap variabel diwakili oleh lingkaran, jumlah tumpang tindih antara dua lingkaran sesuai dengan proporsi varians umum. Karena r2=0 untuk dua variabel pada Gambar 7.8a, tidak ada tumpang tindih. Di sini, tidak ada perbedaan umum antara X dan Y - variasi dalam satu variabel tidak ada hubungannya dengan variasi yang lain. Pada Gambar 7.8b, r2= .25 dan oleh karena itu dua variabel menunjukkan 25 % tumpang tindih. Jika X danY berkorelasi dengan sempurna, seperti pada Gambar 7.8c, maka r2=1.00 dan ada tumpang tindih yang sempurna. Koefisien determinasi membuat keterangan tambahan arti dari Pearson r. Korelasi bukan persentase.Sebagai contoh, korelasi .50 tidak mewakili asosiasi 50%" atau berhubungan 50 % ".Memang , r=.50 jauh lebih kecil dari setengah " kekuatan hubungan yang ditunjukkan oleh r =1.00 ketika kedua korelasi dievaluasi sebagai koefisien determinasi (.25 vs 1.00). Korelasi .71 akan diperlukan untuk setengah varians dalam satu variabel yang akan dicatat dengan variasi yang lain (contoh .712=.50).

r2 sebagai Effect Size "Anda telah pelajari sebelumnya bahwa pengukuran efek ukuran" dapat dihitung untuk mengevaluasi besarnya perbedaan dengan dua cara (misalnya, lihat Bagian 6.9). Sebenarnya, ukuran efek adalah istilah umum yang berlaku untuk berbagai situasi penelitian, kasus a berarti perbedaan menjadi hanya satu (meskipun secara historis paling menonjol).Koefisien determinasi juga dianggap sebagai pengukuran dari ukuran efek.Dengan mengkuadratkan r, kita dapat berkomunikasi lebih baik besarnya hubungan antara dua variabel - sebagai jumlah varians bersama antara mereka.Untuk alasan ini, hal itu baik untuk menggabungkan r2 ke dalam presentasi temuan korelasional.

7.9 Koefisien Korelasi LainnyaPearson r, seperti yang kita sebutkan sebelumnya, adalah koefisien korelasi yang paling sering digunakan dalam ilmu perilaku. Tapi kadang-kadang timbul situasi tertentu dalam pengukuran lain misalnya asosiasi, ketika curvilinearity hadir atau ketika satu atau kedua variabel dikotomis berkelanjutan. 7.10 RangkumanMenentukan sejauh mana variasi dalam satu variabel berhubungan dengan variasi lain penting dalam berbagai bidang penyelidikan dalam ilmu perilaku. Pearson r tepat ketika dua variabel kuantitatif linear terkait. Besarnya ditentukan oleh sejauh mana titik data membentuk garis lurus imajiner, dan bervariasi dari r=0 (tidak ada hubungan linear) untuk r = 1.00 (semua titik yang terletak pada garis lurus). Kekuatan asosiasi tergantung pada besarnya r, dan tanda aljabar yang menunjukkan apakah kedua variabel positif (langsung) atau negatif (terbalik).Pearson r memperhitungkan dua standar deviasi, hal itu tidak terpengaruh oleh transformasi linear skor. Jadi, apakah r sama nilai baku, nilai standar, atau persentase yang digunakan, atau apakah pengukuran dalam sistem metrik atau sistem Inggris .Banyak faktor yang mempengaruhi besarnya r. Nonlinearitas dan jangkauan terbatas masing-masing cenderung mengurangi r. Kasus discrepant atau outlier, juga dapat mempengaruhi r dan arah efek r -apakah melemah atau menguat- ditentukan oleh lokasi outlier disebar.Hal ini penting untuk memeriksa scatterplots untuk bukti non-linear dan outlier, dan untuk menguji sarana dan standar deviasi untuk memastikan variabilitas yang memadai. Kondisi lain, seperti langkah-langkah khusus yang digunakan dan karakteristik peserta, juga mempengaruhi r. Oleh karena itu, penjelasan yang baik dari semua faktor ini merupakan bagian penting dari sebuah laporan penelitian .Salah satu interpretasi yang banyak digunakan dari Pearson r adalah dalam hal r2 (ukuran efek ukuran), yang memberikan proporsi varians dalam satu variabel yang dicatat dengan variasi yang lain. Sebagai contoh, jika korelasi antara dua variabel adalah .40, maka ada 16 % varians umum: 16 % dari varians dalam X dicatat oleh variasi Y (dan sebaliknya).

Membaca Penelitian : Pembatasan Rentang

Seperti di banyak negara, calon guru di Massachusetts harus lulus ujian standar sertifikasi untuk mengajar. Jika gagal, kandidat dapat mengikuti tes lagi.Sebaran pada Gambar 7.9 menunjukkan hubungan antara skor tes awal (April) dan nilai tes berikutnya (Juli) di Massachusetts Guru Test (MTT) untuk sampel calon yang mengambil tes dua kali (setelah gagal pada bulan April).Dalam sebuah studi independen dari tes ini, Haney et al. (1999) melaporkan korelasi tes-tes ulang sangat rendah. Sebagai contoh, korelasi pada Gambar 7.9 r=.37. Hal ini disebabkan oleh sebagian pembatasan jangkauan:Hal ini dikarenakan orang yang menetak nilai 70 atau diatas lulus tes dan tidak harus mengulang agar bersertifikat untuk sementara waktu.[O]data uji tes ulang MTT adalah untuk orang-orang yang mencetak dibawah 70 pada tes April. Hal ini menjadi satu penjelasan yang mungkin untuk korelasi tes-tes ulang sangat rendah, yaitu lemahnya koefien korelasi yang diamati akibat pembatasan jangkauan.Dalam sebuah sebaran, tanda tell-tale dari berbagai pembatasan adalah ketika bagian dari elips terlihat seperti telah dipotong. Hal ini terlihat pada kasus di Gambar 7.9, di mana ujung kanan atas elips jelas didefinisikan lurus tepi - sesuai dengan skor lewat dari 70 pada sumbu horisontal .

Studi Kasus : Money MattersData dari 253 distrik sekolah umum diperoleh dari Kantor Inspektur Instruksi Publik di negara bagian Washington.Data terdiri dari berbagai demografis mahasiswa dan informasi kinerja, semua dilaporkan di tingkat kabupaten sekolah.Distrik sekolah merupakan unit analisis ".Kami ingin menguji hubungan antara status sosial ekonomi dan prestasi akademik di kelas empat. Status sosial ekonomi (SES) didefinisikan sebagai persentase siswa di kabupaten yang memenuhi syarat untuk gratis atau pengurangan harga makan siang, variabel akan kita sebut SIANG. Prestasi akademik didefinisikan sebagai persentase dari siswa kelas empat di kabupaten yang dilakukan pada siswa di atas tingkat mahir" dalam matematika (MATEMATIKA), membaca (READ), menulis (MENULIS), dan mendengarkan (LISTEN) pada ujian kelas empat yang dikelola oleh negara. Fokus awal kami adalah pada hubungan antara makan siang dan MATEMATIKA.

Gambar 7.10 menunjukkan hubungan negatif antara makan siang dan matematika.Artinya, kabupaten yang memiliki sedikit siswa berpenghasilan rendah lebih cenderung memiliki lebih banyak siswa mencetak mahir di kelas empat matematika.Sebaliknya, Kabupaten yang memiliki siswa berpenghasilan rendah cenderung memiliki siswa mahir yang sedikit.Pemeriksaan sebar menegaskan bahwa hubungan yang linear, dengan tidak ada bukti outlier atau pembatasan jangkauan.

Tabel 7.6 menunjukkan korelasi antara ukuran prestasi. Korelasi ini semua positif dan cukup kuat: Sebuah kabupaten yang memiliki persentase yang tinggi dari siswa mahir dalam satu mata pelajaran (misalnya matematika) cenderung memiliki persentase yang tinggi dari siswa mahir dalam mata pelajaran lain (misalnya, membaca).Seperti yang kita diamati pada Bagian 7.7, penting untuk menafsirkan korelasi dalam konteks di mana mereka telah diperoleh.Di sini, misalnya, distrik sekolah adalah unit analisis.Sebuah unit yang berbeda dari analisis mungkin sangat baik mempengaruhi besarnya korelasi ini. Sebagai contoh, korelasi tingkat siswa mungkin akan lebih rendah dari yang diperoleh di atas. Korelasi ini bisa berubah jika SES atau prestasi akademik didefinisikan berbeda.

Chapter 8: Regresi8.1 Persamaan Regresi dalam Istilah -skorPersamaan Regresi dapat dinyatakan dalam bentuk skor, dan jika ini dilakukan akan menghasilkan pernyataan yang sangat simpel dan informatif. Jika anda merubah nilai asli dari X dan Y menjadi skor, persamaan regresi disederhanakan menjadi:Persamaan regresi:Bentuk skor. Y = rX(8.5)dimana : Y adalah nilai yang Y diprediksikan sebagai sebuah skor. r adalah korelasi antara X dan Y X adalah skor dari X

Perhatikan persamaan (8.5): dikatakan bahwa nilai yang diprediksikan dari Y merupakan perbandingan dari X dan perbandingan tersebut menghasilkan r.

8.2 Beberapa Wawasan Mengenai Korelasi dan PrediksiKorelasi Pearson (r) adalah sama dengan kemiringan garis regresi bila dinyatakan dalam bentuk z-score. Ketika data diubah ke z-score, standar deviasi yang dihasilkan keduanya sama dengan 1. Semakin besar korelasi, garis akan lebih curam miring ke atas (atau ke bawah jika r negatif).Untuk setiap kenaikan standar deviasi di X, Y berubah sesuai dengan standar deviasi r.

Ketika r = 1.00Ketika r = 1.00, diprediksi nilai z pada Y identik dengan nilai z pada X dimana prediksi itu dibuat. Untuk setiap kenaikan standar deviasi di X, Y juga meningkat sebesar satu standar deviasi.

Ketika r 1.00Ketika r adalah selain +1.00 sempurna, klaster skor Y diprediksi lebih dekat sekitar rata-rata Y. Ketika r = +.50, nilai prediksi Y adalah setengah nilai zx. Ketika r = +.25, nilai prediksi Y adalah seperempat nilai zx.

Ketika r = 0Dengan tidak adanya hubungan antara dua variabel, nilai prediksi Y akan selalu menjadi rata-rata Y. Ketika X dan Y tidak berkorelasi, kita tidak dapat memprediksi rata-rata Y dari nilai X. zy = (r)(zx)= (0)(zx)= 0

8.7 Regresi dan Jumlah KuadratKonsep jumlah kuadrat adalah pusat dari kuadrat terkecil dari kriteria untuk menentukan garis regresi. Ada tiga jumlah kuadrat terlibat dalam analisis regresi:1. Total variation, (Y Y)21. Explained variation, (Y Y)21. Unexplained variation, (Y Y)2

Jumlah variasi dalam Y, kemudian dapat mencerminkan Explained variation dan Unexplained variation. Dinyatakan secara matematis:

Dari persamaan tersebut diketahui perbandingan explain variation terhadap total variation sama dengan r2:

sehingga akar kuadrat dari persamaan tersebut adalah sama dengan r:

Sebagaimana dinyatakan di awal bab ini, korelasi dan prediksi memang terkait erat.

8.8 Mengukur Margin of Prediction Error: Kesalahan Standar PerkiraanVarian adalah penjumlahan kuadrat dibagi dengan n dan akar kuadrat dari varian merupakan standar deviasi. Pengetahuan ini dapat diaplikasikan pada eror sum of Square. Khususnya varian dari prediksi eror (kesalahan prediksi) dinyatakan dalam . Akar kuadrat dari persamaan ini disebut standar deviasi prediksi eror, atau yang disebut Prediksi Standar Eror dan disimbolkan dengan .

Meskipun persamaan (8.7) memberikan pemahaman yang penting dalam menentukan nilai prediksi standar eror, namun persamaan tersebut kaku untuk diterapkan. Kita akan menemukan persamaan yang setara untuk menentukan nilai tersebut, yaitu:

Kita dapat melihat di persamaan (8.8) bahwa ada hubungan yang lebih tinggi antara X dan Y, Prediksi standar eror yang lebih kecil.

Mengatur Margin ErorDalam prediksi praktis, selalu diinginkan untuk menyertakan informasi tentang prediksi margin eror. Kekurangan informasi ini, orang cenderung sering berpikir bahwa kinerja adalah "petunjuk" nilai prediksi, pandangan ini salah. Dengan menggunakan kurva normal, Kita dapat menentukan batas-batas yang sesuai dengan derajat kepercayaan selain 95%. Untuk 68%, dan untuk 99%, .

Hubungan antara r dan Prediksi ErorPrediksi eror berada pada keadaan maksimum ketika r = 0, dalam beberapa kasus kita mendapatkan , yaitu ketika X sama sekali tidak terkait dengan Y, ada banyak variabilitas dalam prediksi eror () karena ada di antara nila Y itu sendiri (). Sebaliknya, prediksi eror minimum terjadi ketika r = 1.00, dalam kasus . Dalam situasi ini tidak ada prediksi eror (kesalahan prediksi) karena seluruh titik data jatuh pada garis regresi.Apa yang terjadi pada prediksi eror (kesalahan prediksi) ketika r = 0.50? Prediksi standar eror adalah . Anda mungkin menduga bahwa koefisien 0.50 akan berarti bahwa prediksi eror (kesalahan prediksi) akan dikurangi setengahnya, namun ternyata . Jika 87% dari prediksi eror (kesalahan prediksi) tetap, maka pengurangan hanya 13% yang terjadi pada r = 0 sampai r = 0.50. Tabel 8.2. menyajikan beberapa nilai r, bersama-sama dengan konsekuensi masing-masing untuk mengurangi kesalahan prediksi. tabel ini menawarkan cara lain, selain yang menggambarkan dalam bagian 7.8 mengevaluasi koefisien korelasi berbagai ukuran. Jika tujuan Anda adalah prediksi, ingatlah bahwa tidak ada pengurangan substansial dalam kesalahan prediksi akan tercapai kecuali r cukup tinggi. Tabel 8.2 juga menunjukkan bahwa peningkatan hubungan dengan jumlah yang diberikan memiliki efek yang lebih besar untuk nilai yang lebih tinggi dari r daripada yang lebih rendah.

Tabel 8.2. Pengurangan Prediksi Eror (Kesalahan Prediksi) untuk berbagai nilai r

AsumsiBeberapa kondisi yang harus dipenuhi untuk interpretasi prediksi agar dapat menjelaskan hal di atas dengan baik adalah:1. Hubungan antara variabel bebas, X, dan variabel terikat,Y, harus linear. Ada yang memprediksi dari garis lurus yang paling cocok dan prediksi tersebut akan mati jika hubungan keduanya berbentuk lengkung (curvelinear).1. Menentukan margin eror mensyaratkan bahwa penyebaran nilai-nilai yang diperoleh dari Y tentang Y 'serupa untuk semua nilai Y'. Persyaratan ini dikenal sebagai asumsi homoscedasticity. Karena adalah nilai tunggal, ditentukan dari data secara keseluruhan, tidak memungkinkan untuk kemungkinan bahwa variasi mungkin berbeda di berbagai titik dalam distribusi. Gambar 8.8. menunjukkan dua distribusi bivariat: satu ditandai dengan homoscedasticity, dan yang lainnya tidak. (Tidak mengejutkan, yang istilah heteroscedasticity digunakan dalam referensi untuk kondisi terakhir).1. Batas kesalahan yang digambarkan di atas (68%, 95%, 99%) didasarkan pada asumsi bahwa nilai-nilai Y terdistribusi secara normal tentang Y'.

Gambar 8.8. Variabilitas di Y sebagai fungsi dari nilai X: Subskrip L, M, dan H masing-masing merupakan Low, Medium, dan High.

8.9 Korelasi dan Kausalitas (Ditinjau Kembali)Sebutan korelasi tidak berarti hubungan sebab-akibat, dimana telah kita bahas pada bab terakhir (bagian 7.6), sama relevan dengan topik regresi dan prediksi. Referensi kausal: tergantung pada "variabel, yang merupakan prediksi" dari variabel lain, yang menjelaskan " diluar variasi. Jangan pernah lupa bahwa di balik setiap persamaan regresi adalah ukuran asosiasi (r).

Meskipun Y dapat mengikuti X dalam waktu (seperti dalam contoh IPK perguruan tinggi kita dan SAT-CR skor), itu adalah kesalahan logis untuk menyimpulkan bahwa Y itu disebabkan oleh X ketika ditemukan hubungan antara kedua. Ahli logika sering mengutip ungkapan Latin dari kesalahan ini: post hoc, ergo propter hoc, atau, setelah ini, oleh karena itu karena ini. "Pertimbangkan korelasi negatif antara berapa banyak orang tua membantu pekerjaan rumah anak-anak mereka (X) dan prestasi belajar siswa (Y), yang kita disajikan sebagai latihan masalah pada akhir Bab 7. Anda akan melakukan kekeliruan post hoc, karena lebih mudah diketahui, jika Anda telah beralasan sebagai berikut:

1. Orang tua memberikan beberapa bantuan pekerjaan rumah untuk anak-anak mereka1. Anak-anak ini kemudian mengambil tes prestasi1. Bantuan pekerjaan rumah dan prestasi skor berkorelasi negatif.1. Oleh karena itu, bantuan pekerjaan rumah harus merugikan prestasiSama konsisten dengan korelasi negatif ini adalah kesimpulan bahwa orang tua memberikan bantuan pekerjaan rumah hanya ketika anak-anak melakukan tugasnya dengan buruk di sekolah. Meskipun tes prestasi diberikan setelah orang tua memberikan (atau tidak memberikan) bantuan pekerjaan rumah, anak-anak yang berkelakuan buruk dalam tes mungkin berkelakuan buruk di sekolah selama ini. Dan ketika anak-anak berkelakuan buruk, orang tua lebih mungkin untuk membantu pekerjaan rumah. Kita tidak tahu apakah penafsiran korelasi negatif kita ini benar, pikiran Anda, hanya untuk mengendalikan eksperimen dapat mengurai sebab dan akibat. Namun, berhati-hatilah saat menarik kesimpulan dari data korelasi, dan bersikap kritis terhadap kesimpulan yang ditarik oleh orang lain.

8.10 RingkasanPersamaan garis lurus yang paling cocok, Y= a+bX, digunakan untuk memprediksi Y dari pengetahuan X ketika dapat diasumsikan bahwa hubungan adalah salah satu yang linear. Kriteria paling cocok adalah bahwa jumlah kuadrat dari kesalahan prediksi, (Y-Y)2, diminimalkan. Diantara hal lainnya, kuadrat-kriteria" ini berarti garis regresi yang dihasilkan dapat dianggap sebagai mean berjalan garis yang memperkirakan rata-rata Y untuk nilai-nilai tertentu dari X.Rumus z-score untuk persamaan regresi mengungkapkan beberapa karakteristik regresi, termasuk fenomena regresi terhadap mean. Di kerja prediksi praktis, formula score baku adalah yang lebih mudah digunakan.Nilai prediksi Y, Y, hanyalah diperkirakan nilai rata-rata dan karena itu tergantung pada kesalahan. Pada asumsi regresi linearitas dan homoscedasticity, standard error dari estimasi SY.X standar deviasi dari prediksi kesalahan-menyediakan ukuran yang baik dari kesalahan prediksi. Ketika itu juga mungkin untuk mengasumsikan bahwa nilai sebenarnya yang terdistribusi secara normal tentang Y, adalah mungkin dikenal untuk membangun batas kesalahan prediksi tentang garis regresi. Metode yang dijelaskan dalam bab ini akan cukup akurat untuk sampel besar (n 100).Anda pelajari dalam Bab 7 yang kekuatan asosiasi tidak biasanya ditafsirkan dalam proporsi langsung dengan besarnya koefisien korelasi. Ini berlaku untuk hubungan antara ukuran koefisien (r) dan besarnya kesalahan prediksi (Sy.x). Sebagai r naik dari nol menuju satu, standard error dari estimasi menurun sangat lambat sampai r jauh di atas .50. Akhirnya, regresi dan prediksi tidak mengizinkan kesimpulan tentang sebab dan akibat. Hanya karena Y dapat diprediksi dari X tidak berarti bahwa Y adalah disebabkan oleh X.