14
Bab 11 : REGRESI DAN KORELASI A. REGRESI (regression / estimating line) : studi yg ber tujuan unt mengevaluasi/memprediksi nilai rata-rata variabel yg belum diketahui yg didasarakan pd nilai variabel yg telah diketahui → menduga persa maan regresi . Analisis Regresi : menentukan persamaan garis berda sarkan suatu rumus matematika yg menjelaskan hubungan antara satu/lebih variabel yg diketahui (independent variable variabel yg mempenga -ruhi) dng satu variabel yg tdk / belum diketahui (dependent variable → variabel yg dipengaruhi). Macam hubungan antara dua variabel / lebih 1) Hubungan linier (berpangkat satu) Y Y b < 0 a Hubungan (-) X Y’ = a + bX Y b > 0 b X Hubungan (+) X Y Keterangan : a : konstanta pd X = 0 b = 0 b : koefisien (slope) Y 69

Ringkasan Bab 11 STATISTIKA

Embed Size (px)

DESCRIPTION

STATISTIKA BAB 11

Citation preview

Page 1: Ringkasan Bab 11 STATISTIKA

Bab 11 : REGRESI DAN KORELASI

A. REGRESI (regression / estimating line) : studi yg ber tujuan unt mengevaluasi/memprediksi nilai rata-rata variabel yg belum diketahui yg didasarakan pd nilai variabel yg telah diketahui → menduga persa maan regresi.

Analisis Regresi : menentukan persamaan garis berda sarkan suatu rumus matematika yg menjelaskan hubungan antara satu/lebih variabel yg diketahui (independent variable → variabel yg mempenga -ruhi) dng satu variabel yg tdk / belum diketahui (dependent variable → variabel yg dipengaruhi).

Macam hubungan antara dua variabel / lebih1) Hubungan linier (berpangkat satu) Y Y

b < 0 a

Hubungan (-) X Y’ = a + bX Y

b > 0 b

X Hubungan (+) X Y Keterangan :

a : konstanta pd X = 0 b = 0 b : koefisien (slope) ∂ Y b = ---- → arah dari grs X ∂ X Tdk ada hubungan a & b : parameter estimasi

2) Hubungan non linier (berpangkat n) Y Bisa berupa parabol Y’ = a + b1X + b2X2

Bisa berupa hiperbol 1 Y’ = ------- a + bX

X

69

Page 2: Ringkasan Bab 11 STATISTIKA

Dlm analisis regresi tujuannya adalah unt menduga garis regresi (menduga nilai a dan b) yg tdk diketahui berdasar pengamatan pasangan nilai variabel-variabel yg terlibat.

Krn ttk-ttk pasangan (X, Y) tdk semuanya jatuh pd garis regresi maka hubungan yg pasti spt ditunjukkan di atas hrs dimodifikasi dng memasukkan unsur kesalahan (u, e, random disturbance term, error term, stochastic term) hingga persm menjadi Y’i = a + b Xi + ui

→ dimana u unt populasi dan e (residual) unt sampel yg merpk penduga thd u

Error term timbul melalui bbrp kekuatan yg saling mempe ngaruhi :a. Kesalahan muncul krn model merpk penyederhanaan dari

realitas. Misal: promosi merpk faktor tunggal dlm mempe -ngaruhi penjualan, padahal masih ada faktor lain yg dpt mempengarhui tapi dihilangkan shg akan ditangkap dlm error term (u atau e).

b. Kesalahan krn pengumpulan dan pengukuran data, data ekonomi sering sulit unt diukur.

c. Kesalahan bentuk fungsi yg digunakan Secara matematis rumus regresi sederhana populasi : ε(Y|Xi) = a + bXi → dibaca fungsi linier thd Xi

Ŷi = a + bXi

Padahal bentuk stokastiknya Yi = a + bXi + ei

= Ŷi + ei

ei = Yi – Ŷi → unt sampel

Kriteria pemilihan garis regresi sample yg paling dekat dng garis regresi populasi adalah pilih garis regresi sample yg memiliki jml kuadrat kesalahan paling kecil /metode Ordinary Least Squares : dng memini -mumkan Σei

2 atau Σ(Yi – Ŷi)2 atau Σ(Yi – a – bXi)2 shg dpt diperoleh rumus : nΣXY – ΣX ΣY ΣY – bΣX b = ---------------- dan a = ----------- nΣX2 – (ΣX)2 n dimana n = banyaknya observasi = banyaknya obyek

Contoh :Dari sampel random sebanyak 10 persh berkeinginan unt melihat hubungan antara nilai penjualan yg diper -

70

Page 3: Ringkasan Bab 11 STATISTIKA

oleh (Y) dng pengeluaran biaya promosi (X) di bawah ini dlm satuan $US. Buatlah persamaan regresinya ?Jawab :

Penjualan (Y)

Promosi (X)

XY X2

70659095

110115120140155150

80100120140160180200220240260

5.600 6.500

10.80013.30017.60020.70024.00030.80037.20039.000

6.40010.00014.40019.60025.60032.40040.00048.40057.60067.600

ΣY = 1.110 ΣX = 1.700 ΣXY = 205.500 ΣX2 = 322.000Penghitungan : nΣXY – ΣX ΣY 10(205.500) – (1.700)(1.110) b = ------------------ = ------------------------------------ nΣX2 – (ΣX)2 10(322.000) – (1.700)2

= 0,5091

ΣY – bΣX (1.110) – (0,5091)(1.700)a = ------------- = -------------------------------- = 24,454 n 10

shg persm regresinya : Ŷ = 24,454 + 0,5091 X →artinya bahwa jika X naik satu satuan, maka Ŷ akan bertambah sebesar 0,5091 satu satuan.

Inferensi (penduga) Populasi Koefisien RegresiAda dua teori pendugaan : (1) Pendugaan Titik unt sampel, spt yg sdh dipelajari di atas dng menggunakan Metode Least Squares dan (2) Pendugaan Interval Populasi baik unt α maupun β spt di bawah ini :

Karena asumsi normalitas unt error term ui, penduga Least Squares a dan b (unt sampel) memiliki distribusi b - βnormal rata-rata dan varians ttt. Variabel ------ adalah Sb

suatu variabel normal yg distandardisasi. Unt menghi

tung Sb dibutuhkan Se yg merpk penduga unt πu.

b - βKrn itu variabel ------ akan mengikuti distribusi t dng

71

Page 4: Ringkasan Bab 11 STATISTIKA

Sb

derajat bebas n – 2 → krn ada dua parameter (α dan Se

β) yg akan diduga dng Sb = ----------------- dimana √∑X2 – (∑X)2/nbesarnya Se = √(∑Y2-a∑Y-b∑XY):(n-2) → shg penyu -sunan interval keyakinan β menggunakan distribusi t yg dirumuskan sbb :

Prob[b–t (α/2, n-2).Sb ≤ β ≤ b+t (α/2, n-2).Sb] = 1 – α

Kembali ke contoh kasus di atas: didpt b = 0,5091 dng Sb = 0,0357 dng derajat kebebasan 10-2 = 8. Bila menggunakan α = 5% = 0,05 maka pd tabel t ditunjukkan bahwa t(0,025 ; 8) = 2,306 shg unt interval keyakinan β adalah sebesar 0,4268 ≤ β ≤ 0,5914 yg artinya bahwa dng tingkat interval keyakinan 95%, dlm jangka panjang (jika sampel diulang-ulang) 95 dari 100 kasus antara interval 0,4268 sampai 0,5914 akan berisi β yg benar.

Dng cara yg sama akan didpt pula unt penduga interval unt α dng tingkat keyakinan 95% adalah :Prob[a–t (α/2, n-2).Sa ≤ α ≤ a+t (α/2, n-2).Sa] = 1 – α dng besarnya ∑X2.Se Sa = √ ------------- n∑X2–(∑X)2

B. KORELASIBertujuan unt mengukur kekuatan hubungan (asosia si) linier antara dua variabel/lebih dan tdk membeda -kan antara variabel bebas dng variabel terikatnya. Analisis Korelasi : menunjukkan angka seberapa besar

tingkat hubungan antara dua variabel atau lebih namun tdk menunjukkan hubungan fungsional.

→ meliputi dua aspek :1. Koefisien determinasi linier sederhana (r2) :

mengukur kesesuaian garis regresi terhadap data sampel.

Residu [∑e = ∑(Y-Ŷ)] merpk ukuran unt mengetahui apakah garis regresi sampel sesuai dng data. Residu yg besar berarti garis regresi kurang sesuai, jika residu kecil berarti garis regresi sangat sesuai dng data sedang jika

72

Page 5: Ringkasan Bab 11 STATISTIKA

semua data observasi terletak pd garis regresi maka akan diperoleh garis regresi yg sesuai sempurna namun hal ini jarang terjadi.

Total variasi (TSS = total sum of squares) dpt dibedakan menjadi dua, yaitu (1) variasi yg dpt diterangkan oleh persm regresi (ESS = explained sum of squares) dan (2) variasi yg tdk dpt diterangkan oleh regresi atau variasi residu (RSS = residual sum of squares) → shg dpt dirumuskan TSS = ESS + RSS.TSS = ∑(yi-ŷ)2 ESS RSSESS = ∑(y-yi)2 1 = ----- + ------RSS = ∑(y-ŷ)2 = ∑e2 TSS TSS

Definisi koefisien determinasi :

ESS RSS [n∑XY–(∑X)(∑Y)]2

r2 = 1 – ---- = ---- = ------------------------------ TSS TSS [n∑X2–(∑X)2][n∑Y2–(∑Y)2]

Catatan : r2 tdk pernah negatif dan besarnya berkisar antara 0 dan 1. Jika semua titik terletak tepat pd garis regresi sampel maka r2 = 1 (sesuai sempurna). Setiap penambahan variabel bebas thd persm. regresi yg telah ada tdk akan menurunkan r2 tetapi r2 akan makin mendekati 1. Kelemahannya : krn r2 menyinggung variasi regresi dan residual ttp tdk memperhitungkan derajat bebasnya, shg penafsiran thd r2 menja di sulit jika intercept persm. regresi = 0.

Contoh kasus di atas :Telah dihitung bhw ∑X = 1.700 ∑X2 = 322.000

∑Y = 1.110 ∑Y2 = 132.100∑XY = 205.500

[10(205.500) – (1.700)(1.110)]2

r2 = ----------------------------------------------------------------- [10(322.000) – (1.700)2] [10(132.000) – (1.110)2]

(2.055.000 – 1.887.000)2 = --------------------------------- = 0,973 (mendekati sem- (330.000)(87.900) purna)

2. Koefisien korelasi linier sederhana (r): mengu kur keeratan hubungan antarvariabel, yg merpk akar dari koefisien determinasi linier sederhana (r2). Rumusnya sbb :

n∑XY–(∑X)(∑Y)

73

Page 6: Ringkasan Bab 11 STATISTIKA

r = √r2 = √ ------------------------------- [n∑X2–(∑X)2][n∑Y2–(∑Y)2]

r = √ 0,973 = 0,986 (terdpt hubungan kuat dan positif / searah)

Catatan : krn nilai r2 berkisar antara 0 dan 1 maka nilai r akan terletak -1 dan +1 → (r = √1 = ±1).

Bila Y cenderung naik seiring dng kenaikan X, maka garis regresi memiliki kemiringan positif (b > 0) dan r akan bernilai positif shg dpt dikatakan bahwa terdpt korelasi positif / langsung.

Bila Y cenderung turun seiring dng kenaikan X maka garis regresi memiliki kemiringan negatif (b < 0) dan r akan bernilai negatif, shg dpt dikatakan bahwa terdpt korelasi negatif / terbalik.

Jika semua titik-titik observasi tepat di atas garis regresi maka r akan bernilai +1 atau -1, dlm hal ini dpt dikatakan terdpt korelasi sempurna.

Jika garis regresi horizontal (b = 0) maka r2 = 0 dan r = 0 maka dpt dikatakan tidak ada korelasi antara variabel Y dengan X.

Nilai r juga dpt dilihat tingkat signifikansinya, dng cara membandingkan nilai r dalam tabel (lihat dlm tabel r Product Moment). Dari tabel r terlihat bahwa unt n = 10 dng taraf signifikan (α) 5% nilai r tabelnya 0,632 dan dng taraf signifikan (α) 1% nilai r tabelnya 0,765. Shg hasil analisis r di atas dpt dikatakan bahwa bila rhitung > rtabel maka r dpt dikatakan signifikan.

Kesimpulan : - unt α = 5% → r dikatakan sangat signifikan- unt α = 1% → r dikatakan sangat signifikan

Selamat Belajar dan Semoga Sukses !!!

Ringkasan Lanjutan

74

Page 7: Ringkasan Bab 11 STATISTIKA

Korelasi : merpk hubungan/relasi antara satu variabel dng variabel lainnya, baik secara :

1. Korelasional : hub tsb tdk menunjukkan sifat sebab akibat, artinya sifat hub variabel satu dng varia bel lainnya tdk jelas mana yg merpk variabel se bab dan mana yg merpk variabel akibat.

2. Kausalitas : menunjukan sifat hub sebab akibat, arti nya jika variabel yg satu merpk sebab maka va -riabel yg lainnya merpk akibat.

Regresi : unt memprediksi kondisi di waktu yg akan da -tang dng suatu dasar keadaan sekarang/wak -tu yg lalu dari hub variabel yg bersifat kausali tas (secara tegas hrs sdh mengetahui terlebih dahulu mana variabel yg merpk sebab/bebas dan mana variabel yg merpk akibat/terikat).

Korelasi Pearson Product Moment (rumus pertama), sebagai berikut :

n∑XY–(∑X)(∑Y)r = √r2 = √ ---------------------------------

[n∑X2–(∑X)2][n∑Y2–(∑Y)2]

Korelasi Pearson Product Moment (rumus ke dua), sebagai berikut :

{(X – X)(Y – Y)} r = √r2 = √ --------------------------

[∑(X – X)2][∑Y – Y)2]

Rumus pertama dan ke dua Korelasi Product Moment hanya dapat diterapkan untuk data yg berskala interval atau ratio krn mendasarkan pd hubungan linier saja.

Contoh kasus : Suatu penelitian ingin melihat apakah ada hubungan antara banyaknya kredit mata kuliah (SKS) yg diambil dgn indeks prestasi kumulatif (IPkum) yg dicapai mhs dlm suatu semester. Setelah dilakukan pengumpulan data dari 10 mahasiswa ternyata penyebaran kredit mata kuliah (SKS) yg diambil dan indeks prestasi kumulatif (IPkum) yg di capai terlihat seperti dlm tabel di bawah ini :

Gunakan rumus ke dua dari Korelasi Pearson Product Moment

Jml SKS (X) IPkum (Y) (X – X) (X – X)2 (Y – Y) (Y – Y)2 (X–X)(Y–Y)20 3,1 4,5 20,25 -0,42 0,1764 -1,89

75

Page 8: Ringkasan Bab 11 STATISTIKA

181520101216141812

4,02,84,03,03,64,03,23,54,0

2,5-0,54,5-5,5-3,50,5-1,52,5-3,5

6,25 0,25

20,2530,2512,25

0,25 2,25 6,25

12,25

0,48-0.720,48-0,520,080,48-0,32-0,020,48

0,23040,51840,23040,27040,00640,23040,10240,00040,2304

1,20,362,162,86-0,280,240,48-0,05-1,68

X = 155 Y = 35,2 = 0 = 110,5 = 0 = 1,996 = 3,4X = 15,5 Y = 3,52

Korelasi Pearson Product Moment (rumus ke dua), sebagai berikut :

{(X – X)(Y – Y)} r = √ -------------------------- [∑(X – X)2][∑Y – Y)2]

3,4 3,4 r = √ ---------------- = ---------------- = 0,23 110,5 1,996 0,2289378023

Kesimpulan : Hal ini bahwa naik/turunnya IPkum hanya sedikit kaitannya dng naik/turunnya SKS yg diambil.

Korelasi Spearmen (Spearmen Correlation), korelasi yg tdk memperhatikan sifat hubungan linier antara ke dua variabel yg akan dicari korelasinya shg kelom pok data berskala berbeda dpt dicari dng mengguna kan rumus di bawah ini:

6 D2

rs (rho) = 1 - ---------- n(n2 – 1)

dimana D merpk selisih antara X dng Y atau (X – Y)

Contoh : Suatu penelitian thd hubungan antara ranking tes masuk mhs baru dng ranking di kelas setelah ikut kuliah. Dari 10 mhs yg terambil sbg sampel ternyata penyebaran datanya sbb :

Mahasiswa : 1 2 3 4 5 6 7 8 9 10Ranking tes masuk : 1 2 3 4 5 6 7 8 9 10Ranking klas : 10 7 8 6 5 3 4 2 9 1

Pertanyaan : Berapakah tingkat hubungan antara ranking tes masuk dengan ranking klas sesudah kuliah ?

X Y D D2 Penghitungan 1 2 3

10 7 8

9 5 5

81 25 25

6 D2 6 (270)

rs = 1- ---------- = ------------- n(n2 – 1) 10(100 – 1)

76

Page 9: Ringkasan Bab 11 STATISTIKA

4 5 6 7 8 910

6 5 3 4 2 9 1

2 0 3 3 6 0 9

4 0 9 9 36 0 81

= - 0,636363636 = - 0,64 Tingkat hubungan antara keduanya relatif kuat tapi berkebalikan (berla -wanan arah).

Jumlah 42 270

Bila kedua kelompok data yg ada tdk mempunyai skala sama, disatu pihak berskala ordinal dan di lain pihak berskala interval / ratio maka korelasi Rank Spearman dpt digunakan dng terlebih dahulu membuat data berskala interval/ratio menjadi berskala ordinal (rank).

Pengujian Signifikansi Korelasi

Dng membuat hipotesis nol dan hipotesisi alternatif, baru kemu -dian hasil kita hitung t unt sampel kecil atau Z unt sampel besar.

Sampel kecil Sampel besarPearson Spearman Pearson Spearman

n - 2t = r ------- 1 – r2

n - 2t = rs -------- 1 – rs

2Z = r n – 1 Z = rs n – 1

Apabila menggunakan tabel r, maka hipotesisi nol (H0) yg mengatakan tdk ada korelasi (r = 0) ditolak jika hasil perhitungan r ternyata lebih besar (>) drpd r tabel; dmk pula sebaliknya apabila r hitung ternyata lebih kecil (<) drpd r tabel maka kita menerima H0 yg menyatakan bahwa dua variabel yg dicari hubungannya nyata-nyata tdk berkorelasi.

Dari contoh di atas (Product Moment) :r hasil perhitungan = 0,23 dng n = 10, maka nilai t hitung adalah

thitung = 0,23 8 : (1 – 0,0529) = 0,6684592097 = 0,67

ttabel dng dk = n – 2 = 8 dan alpha () = 0,05 daerah penerimaan hipotesis nol adalah di antara -2,306 dan +2,306.

Dng dmk. maka kita dapat menerima hipotesis nol yg berarti antara variabel SKS yg diambil dng iPkum.

Contoh yg Rank Spearman :

r hasil perhitungan = - 0,64 dng n = 10, maka nilai t hitung adalah

77

Page 10: Ringkasan Bab 11 STATISTIKA

thitung = -0,64 8 : (1 – 0,4096) = - 2,355872556 = - 2,36

ttabel dng dk = n – 2 = 8 dan alpha () = 0,05 maka tabel r Spearman diperoleh nilai 0,649 (pakai one tailed test).

Dng dmk. oleh krn r hitung masih < drpd r tabel maka korelasi tsb tdk signifikan. Catatan : perbedaan r hitung dng r tabel yg sangat kecil dhg penerimaan hipotesis nol sebenarnya kurang mantap, apabila kita memperbesar tingkat alpha, maka kemungkinan besar keputusan akan berlawanan

Kalau pakai two tailed test maka daerah penerimaan hipotesis nol diantara -2,306 dan +2,306. Dng dmk, menolak hipotesisi nol artinya bhw korelasi antara ranking tes masuk dan ranking hasil belajar mempunyai hubungan yg signifikan.

78