ANALISIS KORELASI DAN REGRESI - Pusdiklat BPS · Korelasi Berganda Kalau variabel Y berkorelasi dengan X2 dan X3, maka koefisien korelasi antara Y dan X2 (X3 konstan), antara Y dan

ANALISIS KORELASI DAN REGRESI

Budi SubandrioDaud Eliezar

DIKLAT FUNGSIONAL STATISTISI TINGKAT AHLI ANGKATAN XXI TAHUN 2020

PUSDIKLAT BADAN PUSAT STATISTIK

BIODATA

• Nama : Daud Eliezar

• Riwayat Pekerjaan : - BPS Propinsi Kalimantan Tengah

(1996 – 2001)

- Pusdiklat BPS (2001 – sekarang)

• Riwayat Pendidikan : - Akademi Ilmu Statistik (1996)

- Sekolah Tinggi Ilmu Statistik (2000)

- Institut Teknologi Sepuluh November

(2010)

• Nomor HP : 081213748545

• Alamat e-mail : [email protected]

2

3

Setelah mempelajari materi ini, peserta dapat :

Setelah

mengikuti

pembelajaran

ini, Peserta

mampu mampu

menerapkan

regresi dan

korelasi secara

benar dalam

kasus-kasus riil

HASIL BELAJAR

INDIKATOR HASIL BELAJAR

1. Menghitung korelasi;

2. Menghitung regresi.

TUJUAN PEMBELAJARAN

http://www.google.com/imgres?imgurl=http://4.bp.blogspot.com/-zEKR_UwzArg/TzP82yZ7xpI/AAAAAAAAAkk/wlX7rIFBKyY/s1600/Belajar+Membaca.jpg&imgrefurl=http://sd3megawon.blogspot.com/2012/02/pengertian-kegiatan-pembelajaran.html&usg=__I_EErQZ0ggdg44JMgjxC16jl0to=&h=480&w=480&sz=40&hl=en&start=6&zoom=1&tbnid=6wCx_edjW8znUM:&tbnh=129&tbnw=129&ei=tOScUbCMKMzPrQfMo4GoCg&prev=/search?q=tujuan+pembelajaran&um=1&sa=N&hl=en&gbv=2&ie=UTF-8&tbm=isch&um=1&itbs=1&sa=X&ved=0CDYQrQMwBQ

http://www.google.com/imgres?imgurl=http://4.bp.blogspot.com/-zEKR_UwzArg/TzP82yZ7xpI/AAAAAAAAAkk/wlX7rIFBKyY/s1600/Belajar+Membaca.jpg&imgrefurl=http://sd3megawon.blogspot.com/2012/02/pengertian-kegiatan-pembelajaran.html&usg=__I_EErQZ0ggdg44JMgjxC16jl0to=&h=480&w=480&sz=40&hl=en&start=6&zoom=1&tbnid=6wCx_edjW8znUM:&tbnh=129&tbnw=129&ei=tOScUbCMKMzPrQfMo4GoCg&prev=/search?q=tujuan+pembelajaran&um=1&sa=N&hl=en&gbv=2&ie=UTF-8&tbm=isch&um=1&itbs=1&sa=X&ved=0CDYQrQMwBQ

MATERI

Teknik menghitung korelasi dan regresi1

Analisis data dengan korelasi dan regresi2

KorelasiBerganda

Kalau variabel Y berkorelasi dengan X2 dan X3, makakoefisien korelasi antara Y dan X2 (X3 konstan),

antara Y dan X3 (X2 konstan) dan antara X2 dan X3 (Y Konstan) disebut Koefisien Korelasi Parsial (KKP)

dengan rumus sbb:

KoefisienKorelasiParsial

2 3 23

2 .32 2

3 231 1

y y

y

y

r r rr

r r

Koefisien korelasi parsialX2 dengan Y, X3 konstan

3 2 23

3 .22 2

2 231 1

y y

y

y

r r rr

r r

Koefisien korelasi parsialX3 dengan Y, X2 konstan

23 2 3

23.2 2

2 31 1

y y

y

y y

r r rr

r r

Koefisien korelasi parsialX2 dengan X3,

Y konstan

5

RegresiLinear Berganda

Kesalahan baku dalam regresi berganda adalah suatuukuran untuk melihat ketepatan antara nilai

taksiran/dugaan (Ŷ)dengan nilai sebenarnya (Y)

KesalahanBaku/

StandarError

Perbedaan/Selisih antara nilai dugaan dengan nilaisebenarnya disebut dengan residual/ error

2ˆ

1 1

Y Y SSESE

n k n k

1 2

2

0 1 1 2 2

...

...

( 1)k

k k

YX X X

Y b Y b X Y b X Y b X YS

n k

Ŷ = Nilai dugaan Y dimana X1 dan X2 diketahuiY = Nilai pengamatan dari Yn = Jumlah sampel atau datak = jumlah variabel bebas

6


Digunakan untuk melihat seberapa jauh nilai pendugab1, b2, …, bk terhadap nilai sebenarnya

KesalahanBaku

Penduga/ StandarError of Estimate

Rumus Kesalahan Baku untuk 2 parameter b1 dan b2

1 2

. 1. 2

2 2 21

Y X Xk

k k x x

SSb

X nX r

Sbk = Kesalahan Baku Penduga bk, k=1,2rx1x2 = Koefisien korelasi sederhana X1 dan X2

7


Interval/selang kepercayaan memudahkan kita dalammenduga nilai dari karakteristik populasi.

Dengan tingkat kepercayaan sebesar (1-α) kita percayabahwa karakteristik yang diduga berada pada kisaran

atau selang nilai tersebut.

Interval/ Selang

Kepercayaan

1 2 ... 1 2

2 2

ˆ ˆ ...kYX X X kY t S Y Y t SYX X X

Y = Taksiran/Penduga Y untuk suatu nilai X tertentu

1 2 ... kYX X XS = Nilai kesalahan baku

t adalah nilai t-tabel untuk taraf nyata (α) tertentudengan derajat bebas (df)=n-(k+1)

Interval Kepercayaan (1-α) untuk taksiran Y

8

RegresiLinear Berganda Penentuan selang/kisaran nilai dugaan masing-

masing parameter Bk secara parsial dapat dicaridengan rumus :

Interval/ Selang

Kepercayaan

2 2k k k k kb t Sb B b t Sb

bk = Koefisien regresi utk masing-masing parameter

Sbk= Nilai kesalahan baku penduga

t adalah nilai t-tabel untuk taraf nyata (α) tertentudengan derajat bebas (df)=n-(k+1)

Interval Kepercayaan (1-α) untuk masing-masingparameter Bk

9


PengujianModel

RegresiBerganda

Menguji apakah suatu variabel bebas berpengaruh/ tidaksecara nyata (signifikan) terhadap variabel tidak bebas.

0 1 1 2 2ˆ ..._ k kY b b X b X b X

Langkah-Langkah Pengujian :

1. Menentukan dugaan sementara (Hipotesis)

H0 : ßk = 0H1 : ßk ≠ 0

Suatu variabel bebas, “berpengaruh tidak nyata”apabila nilai koefisiennya sama dengan nol.

2. Menentukan daerah kritis (wilayah ditolaknya H0)

Ditentukan oleh nilai tabel-t dengan derajat bebas(n-k), taraf nyata α, dimana n=jumlah sampel dank=banyaknya variabel

Dengan uji 2 arah, maka nilai t hitung dapat dicaridengan menggunakan taraf nyata α/2

10


PengujianModel

RegresiBerganda


3. Menentukan nilai t-hitung

k khitung

k

bt

Sb

k =banyaknya variabel bebas

1 2

1 2

...

2 2 2

...1

k

k

YX X X

k

k k X X X

SSb

X nX r

1 2

2 0 1 1 2 2

...

...

1k

k k

YX X X

Y b Y b X Y b X Y b X YS

n k

= Kesalahan Baku Penduga bkkSb

1 2 ... kYX X XS = Standar Error variabel Y berdasarkanvariabel X yang diketahui

1 2 ... kX X Xr = Koefisien korelasi sederhana antar X1 danX2 atau Xk

11

db;α/2 db;α/2


PengujianModel

RegresiBerganda


4. Menentukan daerah keputusan

Daerah keputusan untuk menerima atau menolakH0 dengan derajat bebas dan taraf nyata α untuk ujidua arah sebagai berikut

5. Menentukan keputusan

Nilai t-hitung > t tabel TOLAK H0

Nilai t-hitung < t tabel TIDAK TOLAK H0

12


UjiSignifikansi

SecaraSimultan

Pengujian signifikansi terhadap model secara simultan(bersama-sama) dimaksudkan untuk melihat

kemampuan seluruh variabel bebas mampu menjelaskankeragaman (memperkirakan) variabel tidak bebas Y



H0 : ß1 = ß2 = …. = ßk =0H1 : ß1 ≠ ß2 ≠ … ≠ ßk ≠ 0

Hipotesis yang akan diuji adalah kemampuanvariabel bebas menjelaskan tingkah laku variabeltidak bebas.

Minimal ada 1 variabel X yang mempengaruhivariabel Y

13


UjiSignifikansi

SecaraSimultan


2. Menentukan daerah kritis (penolakan H0)

Untuk uji ini digunakan Tabel F.Daerah kritis ditentukan oleh nilai Tabel F :-derajat bebas pembilang pada kolom = (k-1)-derajat bebas penyebut pada baris = (n-k)-taraf nyata tingkat kesalahan (α)-n merupakan jumlah sampel-k merupakan banyaknya variabel

3. Menentukan nilai F hitung

2

2

( 1)

(1 )( )

Rk

FR

n k

R2 adalah koefisien determinasi

14


UjiSignifikansi

SecaraSimultan



a. Menentukan wilayah H0 dan H1b. Membandingkan nilai F hitung dengan F tabel

;( 1);( )hit k n kF F

15


UjiSignifikansi

SecaraSimultan


4. Menentukan Keputusan

Jika nilai F Hitung > F Tabel maka TOLAK H0

Kesimpulan apabila keputusan Tolak H0 adalah“variabel bebas secara simultan dapatmenjelaskan variabel tidak bebas, Model dapatdigunakan”.

16




H0 : ρ = 0 (tidak ada korelasi linear)H1 : ρ ≠ 0 (ada korelasi linear)

Tentukan pengujian hipotesis tentang ρ yang dapatdituliskan sbb:

Uji KoefisienKorelasiRegresiLinear

Berganda

( )

a. Uji 2 arah

H0 : ρ = 0H1 : ρ > 0 (ada korelasi positif)

b. Uji 1 arah

H0 : ρ = 0H1 : ρ < 0 (ada korelasi negatif)

c. Uji 1 arah

17



Berganda


2. Menentukan daerah kritis

Daerah kritis ditentukan oleh nilai pada tabel t;-derajat bebas (db) = n-k-1-Tingkat signifikansi/ taraf nyata α (uji 1 arah) atautaraf nyata α/2 (uji 2 arah)

( )

3. Menentukan nilai statistik pengujian

2

1

1

R n kt

R

|R|= harga mutlak koef korelasi link = banyaknya variabel bebas


α;(n-k-1)

Uji 1 Araht>tα;(n-k-1)

H0 ditolak

18



Berganda


( )


Uji 1 Araht>tα/2;(n-k-1)

α/2;(n-k-1)α/2;(n-k-1)

5. Menentukan keputusan

Jika nilai t hitung > t tabelTOLAK H0

Kesimpulan apabila keputusan Tolak H0 adalahAda korelasi linear yang nyata antara variabelindependent dengan variabel dependen.

19


Asumsi danPelanggaran

AsumsiRegresi

Berganda

Asumsi-asumsi yang harus dipenuhi agar diperolehhasil yang tidak bias.

Asumsi Regresi Berganda

Variabel tidak bebas dan variabel bebas memilikihubungan yang linear (bila tidak linear maka datanya

harus dtransformasikan dulu).

Parabola maka diturunkan , bergelombang (oscillatory) maka dibuat inverse trigonometric, exponential maka

ditarik logaritma

Variabel tidak bebas harus bersifat kontinu atau berskalainterval

Nilai keragaman atau residu (Y-Ŷ) harus sama untuk setiapnilai Y

Antar variabel bebas harus tidak berkorelasi

20


PelanggaranAsumsiRegresi

Berganda1

Multikolinearitas

Terdapat hubungan linear yang sempurna antaravariabel bebas

Salah satu akibat adanya hubungan linear tersebutmaka koefisien regresi dari variabel bebas tidak

dapat ditentukan (standar errornya tidak terhingga)

21


Beberapa Cara Untuk MengenaliMultikolinearitas

Variabel bebas secara simultan berpengaruh nyata(uji F) namun secara parsial berpengaruh tidaknyata (uji t)

Nilai koefisien determinasi R2 sangat besar, variabelbebas berpengaruh tidak nyata (uji t)

Nilai koefisien korelasi parsial yaitu rYX1X2, rYX2X1dan rX1X2Y ada yang lebih besar dari koefisiendeterminasinya


Berganda1

22


Beberapa Cara MenanganiMultikolinearitas

Membuang variabel bebas yang diperkirakansebagai penyebab multikolinier. Hal ini terlihat darinilai korelasi parsial antar variabel bebas yang tinggi.

Menambah observasi atau data lagi


Berganda1

23



Berganda2

Heteroskedastisitas

Nilai varians dari error tidak konstan/ tidakidentik

Akibat dari terjadinya heterokedastisitas akanmembuat nilai varians membesar yang akanberdampak pada :1. Pengujian parameter regresi dengan uji t

menjadi tidak valid2. Selang kepercayaan cenderung melebar

24


Beberapa Cara MendeteksiHeterokedastisitas

Metode grafik, menghubungkan Y dan e2=(Y-Ŷ)2, apabila hubungannya makin membesar ataumengecil seiring bertambahnya Y, maka tidakterjadi heterokedastisitas

Uji Korelasi Rank Spearman, dengan menggunakanuji statistik t (bandingkan dengan Tabel t db=8)


Berganda2

2

21 6

( 1)

i

s

dr

n n

2

2, 2

1

s

s

r nt db n

r

25


Cara Mengatasi Heterokedastisitas


Berganda2

Heterokedastisitas tidak bersifat merusakkebiasaan dan konsistensi nilai penduga.

Untuk mengatasinya dapat dilakukan denganmetode kuadrat terkecil tertimbang , dengan

nilai tertimbang dapat dilakukan berdasarkanapriori atau observasi

26



Berganda3

Autokorelasi

Komponen error berkorelasi berdasarkan urutan waktuatau berkorelasi pada dirinya sendiri

Beberapa penyebab :1. Kelembaman, biasanya terjadi dalam fenomena

ekonomi dimana sesuatu akan mempengaruhi sesuatuyg lain mengikuti siklus bisnis atau saling terkait.

2. Terjadi bias dalam spesifikasi akibat adanya beberapavariabel penting tidak tercakup dalam model

3. Bentuk fungsi yang digunakan tidak tepat. Misalseharusnya bentuk non linear digunakan linear dansebaliknya.

4. Manipulasi data, misal data time series dicatat dalamtriwulanan kemudian data dibuat menjadi bulanandengan cara interpolasi atau ekstrapolasi.

27


Cara Mendeteksi Autokorelasi

Metode grafik yang menghubungkan antara error (e) atau residu dengan waktu, apabila terdapathubungan yang sistematis baik meningkat ataumenurun menunjukkan adanya autokorelasi

Melakukan Uji Durbin Watson, rasio dari jumlahkuadrat perbedaan dalam residual yang berturut-turut terhadap jumlah kuadrat regresi.


Berganda3

2

1

2

2

1

n

t t

t

n

t

t

e e

d

e

28


Uji Durbin Watson


Berganda3

Prosedur Pengujian :

SusunPersamaanRegresi dandapatkan ei

Hitungnilai d

Tentukannilai kritis

dari d

untukbatas

bawahdL

untukbatas

atas dU

TentukanHipotesis

H0: Tidakada

auto-korelasi

H1:

Adaauto-

korelasi

Daerah keputusan;

Tolak H0 jika d<dL

dan d>4-dL

29


Ukuran yang sering dipakai untuk memilih calonindependen variabel dalam pembentukan persamaan

regresi yang terbaik yaitu Adjusted R2 yang merupakan perbaikan dari R2

Cara MemilihIndependen

Variabel

Enter

• Memasukansemua calonvar inpendenkemudiankeluarkansatu persatusecarabergantian. LakukanhinggamendapatknilaiAdjusted R2

tertinggi.

BacwardElimination

• Memasukkansemua varindependenkemudiankeluarkanyang memilikikorelasiparsialterendahdengan vardependen. LakukanhinggamendapatnilaiAdjusted R2

tertinggi

Forward Elimination

• Memasukanvarindependensatu persatudimulai dariyang memilikikorelasiparsialtertinggidengan vardependen. LakukanhinggamendapatnilaiAdjusted R2

tertinggi

Stepwise Elimination

• GabunganantarametodeBackward dan Forward Elimination.

30

REGRESI LOGISTIK

Jika variabel respon yang dimiliki bersifat kategorik, lebih khusus

lagi bersifat dikotomi (memiliki dua buah nilai) maka dikenal sebagai

regresi logistik biner (binary logistic regression)

Regresi logistik (logistic regression) variabel tidak bebasnya

merupakan variabel dummy (0 dan 1).

Contoh: pengaruh beberapa rasio keuangan terhadap keterlambatan

penyampaian laporan keuangan.

Maka variabel tidak bebasnya adalah 0 jika terlambat

dan 1 jika tidak terlambat (tepat).

Regresi logistik tidak memerlukan asumsi normalitas, meskipun

screening data outliers tetap dapat dilakukan

REGRESI LOGISTIK

Modelnya menggunakan transformasi logit. Pada

model ini, yang diregresikan adalah peluang variabel

respon = 1.

Model umum regresi logistik biner adalah :

Uji Hipotesis dalam REGRESI LOGISTIKUntuk memeriksa peranan variabel-variabel bebas (x) dalam model,

dilakukan penguiian terhadap parameter model (β). Penguiian secara

simultan -> uii G, sedangkan secara parsial -> uji Wald.

Statistik uji G

adalah uji rasio kemungkinan (likelihood ratio test) yang digunakan

untuk menguji peranan variabel bebas di dalam model secara

bersama-sama. Rumus umum uii G untuk menguii hipotesis :

Statistik G ~ sebaran χ2 dengan derajat bebas k.

Kriteria keputusan yang diambil yaitu menolak H0 bila Ghitung > χ2 α(k)

Uji Hipotesis dalam REGRESI LOGISTIK

Statistik uji Wald

uji WaId digunakan untuk menguji parameter βi secara parsial.

Hipotesis yang diuji adalah :

H0 : βi = 0

H1 : βi ≠ 0

Formula untuk statistik Wald adalah :

Secara teori statistik W ini mengikuti sebaran normal baku jika H0 benar.

Kriteria keputusan adalah H0 ditolak jika |W| > Zα/2.

Uji Hipotesis dalam REGRESI LOGISTIK

Goodness of Fit

adalah suatu alat statistik yang digunakan untuk pengujian kebaikan

atau kecocokan model yang dipostulatkan dibandingkan dengan data

yang diamati.

Dikatakan baik, jika ada kesesuaian antara model dengan data yang

diamati.

Metode yang digunakan untuk goodness of fit pada data kategorik

adalah metode Pearson, Deviance dan Hosmer-Lemeshow, dengan

hipotesis uji:

H0 : Model yang dipostulatkan layak

H1 : Model yang dipostulatkan tidak layak

Interpretasi dalam REGRESI LOGISTIK

Interpretasi regresi logistik menggunakan odds ratio (ψ) atau

kemungkinan, yang menjelaskan berapa lipat kenaikan atau penurunan

peluang Y = 1, jika nilai variabel bebas (X) berubah sebesar nilai

tertentu.

Nilai odds ratio selalu positif. Hubungan antara odds ratio (ψ) dan

parameter model (β) adalah :

jika ψab adalah odds ratio antara objek dengan nilai X=b terhadap objek

dengan nilai X=a.

Jika β > 0 maka odds-ratio akan ψ > 1

Jika β = 0 maka odds-ratio akan ψ = 1

Jika β < 0 maka odds-ratio akan ψ < 1


Contoh:

Diperoleh β bentuk pendapatan per bulan (satuan juta rupiah) sebesar 0,2,

maka odds ratio antara orang yang berpenghasilan 2 juta terhadap orang

yang berpenghasilan 1 juta adalah :

Artinya, orang yang berpenghasilan 2 juta rupiah memiliki kecenderungan

1,35 kali lipat lebih berhasil daripada yang berpenghasilan 1 juta.


Output Case Processing Summary menghilangkan variabel yang tidak

diperhitungkan dalam model.

https://ariyoso.files.wordpress.com/2009/11/logit_8.jpg


Output classification table diatas menjelaskan bahwa persentase variabel

yang diprediksi sebesar 88,9 persen adalah baik, dan dari perbandingan

antara kedua nilai mengindikasikan tidak terdapatnya masalah

homoskedastisitas.

Pada output variables in equation signifikansi adalah 0,05 artinya model tidak

signifikan dan dengan demikian terima H0.



Pada output omnibus test menyatakan

bahwa hasil uji chi-square goodness of fit

lebih kecil dari 0,05, ini mengindikasikan

bahwa model adalah signifikan.

Hasil output pada Cox-Snell R2 dan

Nagelkerke R memiliki analogi sama

dengan nilai R-square pada regresi linier,

menyakatan bahwa sebanyak 50,2 persen

keragaman dapat dijelaskan oleh model,

sedangkan sisanya diluar model.

Hasil pada output Hosmer and Lemeshow Goodness-of-Fit Test

mengindikasikan bahwa kita dapat menerima H0 karena lebih dari 0,05 (1 >

0,05).



http://statistik4life.blogspot.com/2009/11/ada-beberapa-jenis-tes-chi-kuadrat.html

output classification table mengindikasikan dalam model regresi logistik, masih

terdapat masalah homoskedastisitas karena nilai persentase keseluruhan

adalah sama (100%).



output variables in the equation menunjukkan nilai signifikansi berdasarkan

Wald Statistic, jika model signifikan, maka nilai sig. adalah kurang dari 0,05.

Kolom Exp(B) menunjukkan nilai odds ratio yang dihasilkan. Nilai odds ratio

yang mendekati 1,0 mengindikasikan bahwa variabel independen tidak

mempengaruhi variabel dependen.



Output classplot diatas menunjukkan prediksi pada regresi logistik. Sumbu X

menujukkan probabilitas yang diprediksi, sedangkan sumbu Y menunjukkan

jumlah kasus yang diamati.



Documents

ANALISIS KORELASI DAN REGRESI - Pusdiklat BPS · Korelasi Berganda Kalau variabel Y berkorelasi dengan X2 dan X3, maka koefisien korelasi antara Y dan X2 (X3 konstan), antara Y dan