Upload
pandu6utomo
View
27
Download
2
Embed Size (px)
DESCRIPTION
STATISTIKA BAB 11
Citation preview
Bab 11 : REGRESI DAN KORELASI
A. REGRESI (regression / estimating line) : studi yg ber tujuan unt mengevaluasi/memprediksi nilai rata-rata variabel yg belum diketahui yg didasarakan pd nilai variabel yg telah diketahui → menduga persa maan regresi.
Analisis Regresi : menentukan persamaan garis berda sarkan suatu rumus matematika yg menjelaskan hubungan antara satu/lebih variabel yg diketahui (independent variable → variabel yg mempenga -ruhi) dng satu variabel yg tdk / belum diketahui (dependent variable → variabel yg dipengaruhi).
Macam hubungan antara dua variabel / lebih1) Hubungan linier (berpangkat satu) Y Y
b < 0 a
Hubungan (-) X Y’ = a + bX Y
b > 0 b
X Hubungan (+) X Y Keterangan :
a : konstanta pd X = 0 b = 0 b : koefisien (slope) ∂ Y b = ---- → arah dari grs X ∂ X Tdk ada hubungan a & b : parameter estimasi
2) Hubungan non linier (berpangkat n) Y Bisa berupa parabol Y’ = a + b1X + b2X2
Bisa berupa hiperbol 1 Y’ = ------- a + bX
X
69
Dlm analisis regresi tujuannya adalah unt menduga garis regresi (menduga nilai a dan b) yg tdk diketahui berdasar pengamatan pasangan nilai variabel-variabel yg terlibat.
Krn ttk-ttk pasangan (X, Y) tdk semuanya jatuh pd garis regresi maka hubungan yg pasti spt ditunjukkan di atas hrs dimodifikasi dng memasukkan unsur kesalahan (u, e, random disturbance term, error term, stochastic term) hingga persm menjadi Y’i = a + b Xi + ui
→ dimana u unt populasi dan e (residual) unt sampel yg merpk penduga thd u
Error term timbul melalui bbrp kekuatan yg saling mempe ngaruhi :a. Kesalahan muncul krn model merpk penyederhanaan dari
realitas. Misal: promosi merpk faktor tunggal dlm mempe -ngaruhi penjualan, padahal masih ada faktor lain yg dpt mempengarhui tapi dihilangkan shg akan ditangkap dlm error term (u atau e).
b. Kesalahan krn pengumpulan dan pengukuran data, data ekonomi sering sulit unt diukur.
c. Kesalahan bentuk fungsi yg digunakan Secara matematis rumus regresi sederhana populasi : ε(Y|Xi) = a + bXi → dibaca fungsi linier thd Xi
Ŷi = a + bXi
Padahal bentuk stokastiknya Yi = a + bXi + ei
= Ŷi + ei
ei = Yi – Ŷi → unt sampel
Kriteria pemilihan garis regresi sample yg paling dekat dng garis regresi populasi adalah pilih garis regresi sample yg memiliki jml kuadrat kesalahan paling kecil /metode Ordinary Least Squares : dng memini -mumkan Σei
2 atau Σ(Yi – Ŷi)2 atau Σ(Yi – a – bXi)2 shg dpt diperoleh rumus : nΣXY – ΣX ΣY ΣY – bΣX b = ---------------- dan a = ----------- nΣX2 – (ΣX)2 n dimana n = banyaknya observasi = banyaknya obyek
Contoh :Dari sampel random sebanyak 10 persh berkeinginan unt melihat hubungan antara nilai penjualan yg diper -
70
oleh (Y) dng pengeluaran biaya promosi (X) di bawah ini dlm satuan $US. Buatlah persamaan regresinya ?Jawab :
Penjualan (Y)
Promosi (X)
XY X2
70659095
110115120140155150
80100120140160180200220240260
5.600 6.500
10.80013.30017.60020.70024.00030.80037.20039.000
6.40010.00014.40019.60025.60032.40040.00048.40057.60067.600
ΣY = 1.110 ΣX = 1.700 ΣXY = 205.500 ΣX2 = 322.000Penghitungan : nΣXY – ΣX ΣY 10(205.500) – (1.700)(1.110) b = ------------------ = ------------------------------------ nΣX2 – (ΣX)2 10(322.000) – (1.700)2
= 0,5091
ΣY – bΣX (1.110) – (0,5091)(1.700)a = ------------- = -------------------------------- = 24,454 n 10
shg persm regresinya : Ŷ = 24,454 + 0,5091 X →artinya bahwa jika X naik satu satuan, maka Ŷ akan bertambah sebesar 0,5091 satu satuan.
Inferensi (penduga) Populasi Koefisien RegresiAda dua teori pendugaan : (1) Pendugaan Titik unt sampel, spt yg sdh dipelajari di atas dng menggunakan Metode Least Squares dan (2) Pendugaan Interval Populasi baik unt α maupun β spt di bawah ini :
Karena asumsi normalitas unt error term ui, penduga Least Squares a dan b (unt sampel) memiliki distribusi b - βnormal rata-rata dan varians ttt. Variabel ------ adalah Sb
suatu variabel normal yg distandardisasi. Unt menghi
tung Sb dibutuhkan Se yg merpk penduga unt πu.
b - βKrn itu variabel ------ akan mengikuti distribusi t dng
71
Sb
derajat bebas n – 2 → krn ada dua parameter (α dan Se
β) yg akan diduga dng Sb = ----------------- dimana √∑X2 – (∑X)2/nbesarnya Se = √(∑Y2-a∑Y-b∑XY):(n-2) → shg penyu -sunan interval keyakinan β menggunakan distribusi t yg dirumuskan sbb :
Prob[b–t (α/2, n-2).Sb ≤ β ≤ b+t (α/2, n-2).Sb] = 1 – α
Kembali ke contoh kasus di atas: didpt b = 0,5091 dng Sb = 0,0357 dng derajat kebebasan 10-2 = 8. Bila menggunakan α = 5% = 0,05 maka pd tabel t ditunjukkan bahwa t(0,025 ; 8) = 2,306 shg unt interval keyakinan β adalah sebesar 0,4268 ≤ β ≤ 0,5914 yg artinya bahwa dng tingkat interval keyakinan 95%, dlm jangka panjang (jika sampel diulang-ulang) 95 dari 100 kasus antara interval 0,4268 sampai 0,5914 akan berisi β yg benar.
Dng cara yg sama akan didpt pula unt penduga interval unt α dng tingkat keyakinan 95% adalah :Prob[a–t (α/2, n-2).Sa ≤ α ≤ a+t (α/2, n-2).Sa] = 1 – α dng besarnya ∑X2.Se Sa = √ ------------- n∑X2–(∑X)2
B. KORELASIBertujuan unt mengukur kekuatan hubungan (asosia si) linier antara dua variabel/lebih dan tdk membeda -kan antara variabel bebas dng variabel terikatnya. Analisis Korelasi : menunjukkan angka seberapa besar
tingkat hubungan antara dua variabel atau lebih namun tdk menunjukkan hubungan fungsional.
→ meliputi dua aspek :1. Koefisien determinasi linier sederhana (r2) :
mengukur kesesuaian garis regresi terhadap data sampel.
Residu [∑e = ∑(Y-Ŷ)] merpk ukuran unt mengetahui apakah garis regresi sampel sesuai dng data. Residu yg besar berarti garis regresi kurang sesuai, jika residu kecil berarti garis regresi sangat sesuai dng data sedang jika
72
semua data observasi terletak pd garis regresi maka akan diperoleh garis regresi yg sesuai sempurna namun hal ini jarang terjadi.
Total variasi (TSS = total sum of squares) dpt dibedakan menjadi dua, yaitu (1) variasi yg dpt diterangkan oleh persm regresi (ESS = explained sum of squares) dan (2) variasi yg tdk dpt diterangkan oleh regresi atau variasi residu (RSS = residual sum of squares) → shg dpt dirumuskan TSS = ESS + RSS.TSS = ∑(yi-ŷ)2 ESS RSSESS = ∑(y-yi)2 1 = ----- + ------RSS = ∑(y-ŷ)2 = ∑e2 TSS TSS
Definisi koefisien determinasi :
ESS RSS [n∑XY–(∑X)(∑Y)]2
r2 = 1 – ---- = ---- = ------------------------------ TSS TSS [n∑X2–(∑X)2][n∑Y2–(∑Y)2]
Catatan : r2 tdk pernah negatif dan besarnya berkisar antara 0 dan 1. Jika semua titik terletak tepat pd garis regresi sampel maka r2 = 1 (sesuai sempurna). Setiap penambahan variabel bebas thd persm. regresi yg telah ada tdk akan menurunkan r2 tetapi r2 akan makin mendekati 1. Kelemahannya : krn r2 menyinggung variasi regresi dan residual ttp tdk memperhitungkan derajat bebasnya, shg penafsiran thd r2 menja di sulit jika intercept persm. regresi = 0.
Contoh kasus di atas :Telah dihitung bhw ∑X = 1.700 ∑X2 = 322.000
∑Y = 1.110 ∑Y2 = 132.100∑XY = 205.500
[10(205.500) – (1.700)(1.110)]2
r2 = ----------------------------------------------------------------- [10(322.000) – (1.700)2] [10(132.000) – (1.110)2]
(2.055.000 – 1.887.000)2 = --------------------------------- = 0,973 (mendekati sem- (330.000)(87.900) purna)
2. Koefisien korelasi linier sederhana (r): mengu kur keeratan hubungan antarvariabel, yg merpk akar dari koefisien determinasi linier sederhana (r2). Rumusnya sbb :
n∑XY–(∑X)(∑Y)
73
r = √r2 = √ ------------------------------- [n∑X2–(∑X)2][n∑Y2–(∑Y)2]
r = √ 0,973 = 0,986 (terdpt hubungan kuat dan positif / searah)
Catatan : krn nilai r2 berkisar antara 0 dan 1 maka nilai r akan terletak -1 dan +1 → (r = √1 = ±1).
Bila Y cenderung naik seiring dng kenaikan X, maka garis regresi memiliki kemiringan positif (b > 0) dan r akan bernilai positif shg dpt dikatakan bahwa terdpt korelasi positif / langsung.
Bila Y cenderung turun seiring dng kenaikan X maka garis regresi memiliki kemiringan negatif (b < 0) dan r akan bernilai negatif, shg dpt dikatakan bahwa terdpt korelasi negatif / terbalik.
Jika semua titik-titik observasi tepat di atas garis regresi maka r akan bernilai +1 atau -1, dlm hal ini dpt dikatakan terdpt korelasi sempurna.
Jika garis regresi horizontal (b = 0) maka r2 = 0 dan r = 0 maka dpt dikatakan tidak ada korelasi antara variabel Y dengan X.
Nilai r juga dpt dilihat tingkat signifikansinya, dng cara membandingkan nilai r dalam tabel (lihat dlm tabel r Product Moment). Dari tabel r terlihat bahwa unt n = 10 dng taraf signifikan (α) 5% nilai r tabelnya 0,632 dan dng taraf signifikan (α) 1% nilai r tabelnya 0,765. Shg hasil analisis r di atas dpt dikatakan bahwa bila rhitung > rtabel maka r dpt dikatakan signifikan.
Kesimpulan : - unt α = 5% → r dikatakan sangat signifikan- unt α = 1% → r dikatakan sangat signifikan
Selamat Belajar dan Semoga Sukses !!!
Ringkasan Lanjutan
74
Korelasi : merpk hubungan/relasi antara satu variabel dng variabel lainnya, baik secara :
1. Korelasional : hub tsb tdk menunjukkan sifat sebab akibat, artinya sifat hub variabel satu dng varia bel lainnya tdk jelas mana yg merpk variabel se bab dan mana yg merpk variabel akibat.
2. Kausalitas : menunjukan sifat hub sebab akibat, arti nya jika variabel yg satu merpk sebab maka va -riabel yg lainnya merpk akibat.
Regresi : unt memprediksi kondisi di waktu yg akan da -tang dng suatu dasar keadaan sekarang/wak -tu yg lalu dari hub variabel yg bersifat kausali tas (secara tegas hrs sdh mengetahui terlebih dahulu mana variabel yg merpk sebab/bebas dan mana variabel yg merpk akibat/terikat).
Korelasi Pearson Product Moment (rumus pertama), sebagai berikut :
n∑XY–(∑X)(∑Y)r = √r2 = √ ---------------------------------
[n∑X2–(∑X)2][n∑Y2–(∑Y)2]
Korelasi Pearson Product Moment (rumus ke dua), sebagai berikut :
{(X – X)(Y – Y)} r = √r2 = √ --------------------------
[∑(X – X)2][∑Y – Y)2]
Rumus pertama dan ke dua Korelasi Product Moment hanya dapat diterapkan untuk data yg berskala interval atau ratio krn mendasarkan pd hubungan linier saja.
Contoh kasus : Suatu penelitian ingin melihat apakah ada hubungan antara banyaknya kredit mata kuliah (SKS) yg diambil dgn indeks prestasi kumulatif (IPkum) yg dicapai mhs dlm suatu semester. Setelah dilakukan pengumpulan data dari 10 mahasiswa ternyata penyebaran kredit mata kuliah (SKS) yg diambil dan indeks prestasi kumulatif (IPkum) yg di capai terlihat seperti dlm tabel di bawah ini :
Gunakan rumus ke dua dari Korelasi Pearson Product Moment
Jml SKS (X) IPkum (Y) (X – X) (X – X)2 (Y – Y) (Y – Y)2 (X–X)(Y–Y)20 3,1 4,5 20,25 -0,42 0,1764 -1,89
75
181520101216141812
4,02,84,03,03,64,03,23,54,0
2,5-0,54,5-5,5-3,50,5-1,52,5-3,5
6,25 0,25
20,2530,2512,25
0,25 2,25 6,25
12,25
0,48-0.720,48-0,520,080,48-0,32-0,020,48
0,23040,51840,23040,27040,00640,23040,10240,00040,2304
1,20,362,162,86-0,280,240,48-0,05-1,68
X = 155 Y = 35,2 = 0 = 110,5 = 0 = 1,996 = 3,4X = 15,5 Y = 3,52
Korelasi Pearson Product Moment (rumus ke dua), sebagai berikut :
{(X – X)(Y – Y)} r = √ -------------------------- [∑(X – X)2][∑Y – Y)2]
3,4 3,4 r = √ ---------------- = ---------------- = 0,23 110,5 1,996 0,2289378023
Kesimpulan : Hal ini bahwa naik/turunnya IPkum hanya sedikit kaitannya dng naik/turunnya SKS yg diambil.
Korelasi Spearmen (Spearmen Correlation), korelasi yg tdk memperhatikan sifat hubungan linier antara ke dua variabel yg akan dicari korelasinya shg kelom pok data berskala berbeda dpt dicari dng mengguna kan rumus di bawah ini:
6 D2
rs (rho) = 1 - ---------- n(n2 – 1)
dimana D merpk selisih antara X dng Y atau (X – Y)
Contoh : Suatu penelitian thd hubungan antara ranking tes masuk mhs baru dng ranking di kelas setelah ikut kuliah. Dari 10 mhs yg terambil sbg sampel ternyata penyebaran datanya sbb :
Mahasiswa : 1 2 3 4 5 6 7 8 9 10Ranking tes masuk : 1 2 3 4 5 6 7 8 9 10Ranking klas : 10 7 8 6 5 3 4 2 9 1
Pertanyaan : Berapakah tingkat hubungan antara ranking tes masuk dengan ranking klas sesudah kuliah ?
X Y D D2 Penghitungan 1 2 3
10 7 8
9 5 5
81 25 25
6 D2 6 (270)
rs = 1- ---------- = ------------- n(n2 – 1) 10(100 – 1)
76
4 5 6 7 8 910
6 5 3 4 2 9 1
2 0 3 3 6 0 9
4 0 9 9 36 0 81
= - 0,636363636 = - 0,64 Tingkat hubungan antara keduanya relatif kuat tapi berkebalikan (berla -wanan arah).
Jumlah 42 270
Bila kedua kelompok data yg ada tdk mempunyai skala sama, disatu pihak berskala ordinal dan di lain pihak berskala interval / ratio maka korelasi Rank Spearman dpt digunakan dng terlebih dahulu membuat data berskala interval/ratio menjadi berskala ordinal (rank).
Pengujian Signifikansi Korelasi
Dng membuat hipotesis nol dan hipotesisi alternatif, baru kemu -dian hasil kita hitung t unt sampel kecil atau Z unt sampel besar.
Sampel kecil Sampel besarPearson Spearman Pearson Spearman
n - 2t = r ------- 1 – r2
n - 2t = rs -------- 1 – rs
2Z = r n – 1 Z = rs n – 1
Apabila menggunakan tabel r, maka hipotesisi nol (H0) yg mengatakan tdk ada korelasi (r = 0) ditolak jika hasil perhitungan r ternyata lebih besar (>) drpd r tabel; dmk pula sebaliknya apabila r hitung ternyata lebih kecil (<) drpd r tabel maka kita menerima H0 yg menyatakan bahwa dua variabel yg dicari hubungannya nyata-nyata tdk berkorelasi.
Dari contoh di atas (Product Moment) :r hasil perhitungan = 0,23 dng n = 10, maka nilai t hitung adalah
thitung = 0,23 8 : (1 – 0,0529) = 0,6684592097 = 0,67
ttabel dng dk = n – 2 = 8 dan alpha () = 0,05 daerah penerimaan hipotesis nol adalah di antara -2,306 dan +2,306.
Dng dmk. maka kita dapat menerima hipotesis nol yg berarti antara variabel SKS yg diambil dng iPkum.
Contoh yg Rank Spearman :
r hasil perhitungan = - 0,64 dng n = 10, maka nilai t hitung adalah
77
thitung = -0,64 8 : (1 – 0,4096) = - 2,355872556 = - 2,36
ttabel dng dk = n – 2 = 8 dan alpha () = 0,05 maka tabel r Spearman diperoleh nilai 0,649 (pakai one tailed test).
Dng dmk. oleh krn r hitung masih < drpd r tabel maka korelasi tsb tdk signifikan. Catatan : perbedaan r hitung dng r tabel yg sangat kecil dhg penerimaan hipotesis nol sebenarnya kurang mantap, apabila kita memperbesar tingkat alpha, maka kemungkinan besar keputusan akan berlawanan
Kalau pakai two tailed test maka daerah penerimaan hipotesis nol diantara -2,306 dan +2,306. Dng dmk, menolak hipotesisi nol artinya bhw korelasi antara ranking tes masuk dan ranking hasil belajar mempunyai hubungan yg signifikan.
78