Analisis Data Outlier_ PDRB PAD Jatim_kirim

Embed Size (px)

DESCRIPTION

outlier

Citation preview

Tugas Analisis Regresi Analisis Data Outlier

Analisis Data OutlierOleh:

ANALISIS PENGARUH PENDAPATAN ASLI DAERAH (PAD) TERHADAP PRODUK DOMESTIK REGIONAL BRUTO (PDRB) PROVINSI JAWA TIMURUntuk menganalisis data outlier, akan digunakan data PDRB provinsi Jawa Timur pada Tahun 2005 yang diperoleh dari buku Indikator Makro Sosial Ekonomi 2005. Pada analisis ini variabel-variabel yang digunakan adalah:

1. Variabel Respon (Y) adalah Produk Domestik Regional Bruto (PDRB) Per kabupaten/kota di Provinsi Jawa Timur ( Trilyun Rupiah )

2. Variabel Prediktor (X) adalah Pendapatan Asli Daerah (PAD) per Kabupaten/Kota di Provinsi Jawa Timur (Milyar Rupiah)

Disini, akan dilihat pengaruh PAD dalam pembentukan PDRB di Provinsi Jawa Timur. Umumnya ketika suatu daerah mempunyai PAD yang tinggi, maka PDRB yang disumbangkan juga akan tinggi. Namun mungkin ada beberapa kasus spesifik dimana beberapa daerah yang memberikan kontribusi tinggi terhadap PDRB Provinsi Jatim, ternyata tidak banyak kembali ke pendapatan daerah tersebut. Hal ini ditunjukkan oleh nilai PAD yang tidak seimbang.Berikut ini diberikan tabel PDRB dan PAD Kabupaten/Kota di Provinsi Jawa Timur:

Kabupaten/KotaPDRB (Trilyun Rupiah)PAD (Milyar Rupiah)

PACITAN1.94210.67

PONOROGO3.89025.09

TRENGGALEK2.35818.29

TULUNGAGUNG9.70928.00

BLITAR7.06820.64

KEDIRI8.19130.97

MALANG17.62245.05

LUMAJANG6.47930.49

JEMBER12.60541.57

BANYUWANGI11.66237.97

BONDOWOSO2.67623.38

SITUBONDO4.49811.92

PROBOLINGGO8.26318.12

PASURUAN8.82252.12

SIDOARJO34.257125.25

MOJOKERTO7.82934.51

JOMBANG7.91340.11

NGANJUK5.77235.10

MADIUN3.54614.35

MAGETAN3.93721.33

NGAWI3.90111.84

BOJONEGORO7.03134.19

TUBAN7.13651.22

LAMONGAN6.15136.16

GRESIK23.76675.72

BANGKALAN4.25721.12

Tabel LanjutanKabupaten/KotaPDRB (Trilyun Rupiah)PAD (Milyar Rupiah)

SAMPANG3.36915.81

PAMEKASAN2.94917.09

SUMENEP7.75026.71

KOTA KEDIRI35.61830.71

KOTA BLITAR0.87313.07

KOTA MALANG16.68858.33

KOTA PROBOLINGGO2.45317.65

KOTA PASURUAN1.55810.98

KOTA MOJOKERTO2.01212.12

KOTA MADIUN1.48820.26

KOTA SURABAYA104.869433.51

KOTA BATU1.4857.50

Sumber: Buku Indikator Makro Sosial Ekonomi Provinsi Jawa Timur, BPS : 2005Analisis menggunakan program Minitab 14 menghasilkan output sebagai berikut:Scatterplot Data PAD terhadap PDRB

Gambar 1.1 Scatter Plot Data PAD terhadap PDRBDari plotting keseluruhan data (38 observasi) dapat dilihat adanya outlier pada observasi ke-30 yaitu Kota Kediri dan observasi ke-37 yaitu Kota Surabaya. Untuk Kota Kediri, diindikasikan adanya industri rokok Gudang Garam yang memberikan kontribusi cukup besar bagi PDRB Kota Kediri. Namun dari PAD-nya yang tidak seimbang dengan tingginya PDRB diduga karena banyak dari hasil industry rokok Gudang Garam yang tidak kembali sebagai pemasukan/pendapatan daerah Kota Kediri. Sedangkan Kota Surabaya memberikan sumbangan PDRB terbesar bagi Provinsi Jawa Timur. Tentu saja karena statusnya sebagai ibukota provinsi, menjadikan Kota Surabaya sebagai pusat perekonomian hampir di segala sector perekonomian.Melakukan Penaksiran Garis Regresi (Fitted Line Plot)

Gambar 1.2 Taksiran model linear hubungan PDRB dengan PAD

Output ditampilkan dalam format grafik pada gambar 1.2, selain itu juga dalam window sesson pada gambar 1.3. Gambar 1.2 menunjukkan taksiran garis regresi untuk model regresi linear. Selain grafik, gambar 1.2 menunjukkan pula hasil taksiran parameter model regresi linearnya, yaitu:

PDRB = 0,557 + 0,2445 PAD

...................... (1)

Sedangkan format text pada output minitab ditampilkan pada gambar 1.3 :

Gambar 1.3 ANOVA regresi linear sederhana

Dengan standard deviasi model (S) sebesar 5,34018 dan koefisien determinasi (R2) sebesar 91,1%. Persamaan regresi pada persamaan (1) tersebut menunjukkan nilai intersep b0 sebesar 0,557 artinya jika nilai PAD nol maka PDRB daerah tersebut sebesar 0,557 Trilyun rupiah. Sedangkan nilai b1 sebesar 0,2445 artinya jika PAD meningkat sebesar 1 milyar maka akan dapat meningkatkan PDRB sebesar 0,2445 Trilyun rupiah. Koefisien Determinasi (R2) 91,1% artinya model dapat menjelaskan variasi data sebesar 91,1 % sedangkan sisanya dijelaskan oleh variable lain yang tidak terdapat dalam model. Nilai R2 yang cukup tinggi ini yang juga didukung oleh R2adj yang juga tinggi menunjukkan akurasi model yang cukup baik.

Namun jika kita lihat nilai p-value untuk nilai constant pada uji dengan statistic uji t yang menunjukkan nilai 0.585 yang nilainya lebih besar dari , mengindikasikan bahwa model dengan konstanta tidak signifikan. Sedangkan variable PAD memberikan p-value 0,000 yang menunjukkan bahwa PAD signifikan mempengaruhi PDRB.

Hipotesis untuk uji kecukupan model adalah:

H0: Ada salah satu parameter model (0 atau 1) bernilai nol

H1: Parameter model (0 atau 1) tidak nol

Uji kesesuaian model menggunakan statistic F, dimana daerah penolakan adalah: F > F(;v1,v2) atau bisa juga menggunakan P-value < . Pada analisis regresi ini telah ditentukan = 0,05 sehingga untuk F(0,05;1,36)=4,23. Dari gambar 3, F pada ANOVA sebesar 368,43. Karena Statistik F pengamatan lebih besar dari F(0,05;1,36) maka menolak Hipotesis awal, artinya model regresi linier yang dibuat telah mewakili data.

Memeriksa Ukuran Kecukupan Model

Untuk memeriksa ukuran kecukupan model, dapat menggunakan nilai R2 yang menggambarkan seberapa besar variable x dapat menjelaskan model (variable y). Dari hasil output, diperoleh nilai R2 yang cukup tinggi yaitu 91,1% sehingga dapat disimpulkan model cukup bagus untuk digunakan. Begitu juga jika kita melihat nilai korelasi (r) yang didapat dari akar R2. Nilai r sebesar 0,95 menyatakan hubungan linier yang kuat antara PAD dengan PDRB.Memeriksa Unusual Observation atau Data Outlier

Dengan menggunakan Minitab 14 kita juga bisa memeriksa data outlier (unusual observation) sebagai berikut:

Gambar 1.4 Unusual ObservationDari output tersebut dideteksi ada 2 nilai outlier pada observasi ke-30 dan 37 . Untuk itu akan dicoba membuang data outlier tersebut dan akan dibandingkan model, kecukupan model dan keakuratannya.

Uji Normalitas Residual

Gambar 1.5 Grafik Uji Normalitas ResidualDari gambar 1.5 ( kiri atas) diatas, residual hampir mendekati garis lurus. Sehingga dari grafik, kita bisa menduga bahwa residual model regresi yang dibuat telah mengikuti distribusi normal. Selain itu, berdasarkan uji kenormalan secara kuantitatif dengan menggunakan uji Kolmogorov-Smirnov (Gambar 1.5, bawah), diperoleh nilai Kolmogorov-Smirnov 0.203 yang nilainya kurang dari nilai statistic Kolmogorov-Smirnov untuk = 0.05 dan jumlah pengamatan sebanyak 38 yaitu sebesar 0.215. Nilai ini tidak jauh berbeda, dan hal ini juga didukung oleh nilai p-value yang kurang dari 10% yang menunjukkan bahwa asumsi kenormalan residual pada model regresi tersebut kurang terpenuhi dan model tersebut masih kurang layak digunakan.HASIL OUTPUT SETELAH DATA OUTLIER DIKELUARKANScatterplot Data PAD terhadap PDRB

Gambar 2.1 Scatter Plot Data PAD terhadap PDRBDari plotting data setelah dikeluarkan data outlier (36 observasi), dapat dilihat plot data yang lebih mendekati garis lurus (tidak terlalu menyimpang dari garis), walaupun masih ada beberapa data yang residualnya agak tinggi dibanding data lainnya.

Melakukan Penaksiran Garis Regresi (Fitted Line Plot)

Gambar 2.2 Taksiran model linear hubungan PDRB dengan PAD

Output ditampilkan dalam format grafik pada gambar 2.2, selain itu juga dalam window sesson pada gambar 2.3. Gambar 2.2 menunjukkan taksiran garis regresi untuk model regresi linear. Selain grafik, gambar 2.2 menunjukkan pula hasil taksiran parameter model regresi linearnya, yaitu:

PDRB = -1,335 + 0,2831 PAD

...................... (2)

Gambar 2.3 ANOVA regresi linear sederhana

Dengan standard deviasi model (S) sebesar 2,54401 dan koefisien determinasi (R2) sebesar 86,4%. Persamaan regresi pada persamaan (2) tersebut menunjukkan nilai intersep b0 sebesar -1,3349 artinya jika nilai PAD nol maka PDRB daerah tersebut sebesar -1,335 Trilyun rupiah. Sedangkan nilai b1 sebesar 0,2831 artinya jika PAD meningkat sebesar 1 milyar maka akan dapat meningkatkan PDRB sebesar 0,2831 Trilyun rupiah. Koefisien Determinasi (R2) 86,6% artinya model dapat menjelaskan variasi data sebesar 86,6 % sedangkan sisanya dijelaskan oleh variable lain yang tidak terdapat dalam model. Jika dibandingkan dengan nilai Nilai R2 sebelum data outlier dihilangkan, R2 mengalami penurunan.

Namun jika kita lihat nilai p-value untuk constant pada uji dengan statistic uji t yang menunjukkan nilai 0.073 yang nilainya lebih besar dari , mengindikasikan bahwa model dengan konstanta kurang signifikan. Tetapi jika kita bandingkan dengan uji sebelumnya pada saat outlier belum dihilangkan, nilai ini lebih bagus. Sedangkan variable PAD memberikan p-value 0,000 yang menunjukkan bahwa PAD signifikan mempengaruhi PDRB.

Hipotesis untuk uji kecukupan model adalah:

H0: Ada salah satu parameter model (0 atau 1) bernilai nol

H1: Parameter model (0 atau 1) tidak nol

Uji kesesuaian model menggunakan statistic F, dimana daerah penolakan adalah: F > F(;v1,v2) atau bisa juga menggunakan P-value < . Pada analisis regresi ini telah ditentukan = 0,05 sehingga untuk F(0,05;1,34)=4,21. Dari gambar 2.3, F pada ANOVA sebesar 216,73. Karena Statistik F pengamatan lebih besar dari F(0,05;1,34) maka menolak Hipotesis awal, artinya model regresi linier yang dibuat telah mewakili data. Dari sini kita juga bisa membandingkan nilai F uji sesudah outlier dihilangkan lebih kecil daripada data awal. Artinya outlier tidak bisa dengan begitu saja dihilangkan karena beresiko pada ketepatan model. Karena idealnya ketika outlier dihilangkan, seharusnya nilai F uji menjadi lebih besar.Memeriksa Ukuran Kecukupan Model

Untuk memeriksa ukuran kecukupan model, dapat menggunakan nilai R2 yang menggambarkan seberapa besar variable x dapat menjelaskan model (variable y). Dari hasil output, diperoleh nilai R2 86,41% sehingga dapat disimpulkan model cukup bagus untuk digunakan, meskipun masih lebih bagus ketika data outlier tidak dibuang. Begitu juga jika kita melihat nilai korelasi (r) yang didapat dari akar R2. Nilai r sebesar 0,93 menyatakan hubungan linier yang kuat antara PAD dengan PDRB.

Memeriksa Unusual Observation

Gambar 2.4 Unusual Observation

Ternyata setelah dua data outlier dihilangkan masih muncul outlier baru lagi sebanyak 3 unit observasi akibat pemodelan regresi yang baru.

Uji Normalitas Residual

Jika kita lihat grafik uji normalitas residual pada gambar 2.5, semua grafik baik yang berupa histogram, garis normal, dot plot, maupun stasionerity menunjukkan bahwa residual mendekati garis normal. Hal ini mengindikasikan bahwa asumsi kenormalan dapat dipenuhi. Selain dengan grafik juga bisa kita deteksi dengan uji kualitatif menggunakan statistic uji Kolmogorov-Smirnov.

Gambar 2.5 Uji Kenormalan Residual dengan Grafik

Uji Kolmogorov-Smirnov memberikan nilai 0.070, nilai ini kurang dari nilai statistic Kolmogorov-Smirnov untuk = 0.05 dan n=36 yaitu sebesar 0.221 (uji dua arah) dan jika dilihat p-value yang jauh lebih besar dari 15% menunjukkan bahwa asumsi residual dapat terpenuhi. Artinya model regresi linier tersebut dapat digunakan. Perbedaan hasil uji kenormalan ini ternyata sedikit banyak dipengaruhi oleh adanya outlier. Buktinya, pada saat outlier dikeluarkan dari mode, ternyata asumsi kenormalan jadi terpenuhi sehingga model jadi layak digunakan.

KESIMPULANDari perbandingan analisis dengan menggunakan data yang masih mengandung nilai outlier dan setelah data outlier dikeluarkan, dapat disimpulkan bahwa dengan mengeluarkan data outlier akan mempengaruhi hasil analisis sebagai berikut:1. Mengubah nilai b0 dan b12. Menurunkan nilai standard deviasi menjadi hampir setengahnya.

3. Menurunkan nilai R2

4. Mengubah nilai Fuji5. Mempengaruhi uji normalitas residual (pada uji Kolmogorov-Smirnov)

Artinya, kita tidak bisa begitu saja memutuskan untuk membuang outlier jika ternyata hasilnya tidak berpengaruh positif terhadap model. Karena kemungkinan banyak informasi yang dapat diambil dari data outlier tersebut. Apalagi jika kita tinjau kembali data yang dipakai adalah data PDRB yang pada kenyataannya tidak bisa kita abaikan begitu saja karena tiap-tiap daerah mempunyai spesifikasi dan karakter tersendiri dalam pembentukan PDRBnya. Mungkin saja yang perlu dilakukan adalah memeriksa modelnya benar linear atau tidak. Bisa jadi modelnya perlu ditransformasikan ke bentuk nonlinear.

Lampiran:Tabel perbandingan hasil analisis data dengan outlier dan tanpa outlierData yang mengandung OutlierData Outlier dikeluarkan

Regression Analysis: PDRB versus PAD The regression equation is

PDRB = 0.557 + 0.2445 PAD

Predictor Coef SE Coef T P

Constant 0.557 1.012 0.55 0.585

PAD 0.24453 0.01274 19.19 0.000S = 5.34018 R-Sq = 91.1% R-Sq(adj) = 90.9%

Analysis of Variance

Source DF SS MS F P

Regression 1 10506.6 10506.6 368.43 0.000

Error 36 1026.6 28.5

Total 37 11533.2

Regression Analysis: PDRB versus PAD

The regression equation is

PDRB = - 1.33 + 0.283 PAD

Predictor Coef SE Coef T P

Constant -1.3349 0.7224 -1.85 0.073PAD 0.28315 0.01923 14.72 0.000S = 2.54401 R-Sq = 86.4% R-Sq(adj) = 86.0%

Analysis of Variance

Source DF SS MS F P

Regression 1 1402.7 1402.7 216.73 0.000

Residual Error 34 220.0 6.5

Total 35 1622.7

Unusual Observations

Obs PAD PDRB Fit SE Fit Residual St Resid

30 31 35.618 8.067 0.876 27.551 5.23R

37 434 104.869 106.566 5.075 -1.697 -1.02 X

R denotes an observation with a large standardized residual.

X denotes an observation whose X value gives it large influence.

Durbin-Watson statistic = 2.12672

Unusual Observations

Obs PAD PDRB Fit SE Fit Residual St Resid

7 45 17.622 11.421 0.509 6.201 2.49R

15 125 34.257 34.129 1.873 0.128 0.07 X

23 51 7.136 13.168 0.583 -6.032 -2.44R

R denotes an observation with a large standardized residual.

X denotes an observation whose X value gives it large influence.

Durbin-Watson statistic = 2.06741

PROGRAM PASCASARJANA

JURUSAN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT TEKNOLOGI SEPULUH NOPEMBER

SURABAYA, 2007

Tugas Analisis Regresi

Regression Analysis: PDRB versus PAD

The regression equation is

PDRB = 0.557 + 0.2445 PAD

Predictor Coef SE Coef T P

Constant 0.557 1.012 0.55 0.585

PAD 0.24453 0.01274 19.19 0.000

S = 5.34018 R-Sq = 91.1% R-Sq(adj) = 90.9%

Analysis of Variance

Source DF SS MS F P

Regression 1 10506.6 10506.6 368.43 0.000

Error 36 1026.6 28.5

Total 37 11533.2

Unusual Observations

Obs PAD PDRB Fit SE Fit Residual St Resid

30 31 35.618 8.067 0.876 27.551 5.23R

37 434 104.869 106.566 5.075 -1.697 -1.02 X

R denotes an observation with a large standardized residual.

X denotes an observation whose X value gives it large influence.

Durbin-Watson statistic = 2.12672

Regression Analysis: PDRB versus PAD

The regression equation is

PDRB = - 1.33 + 0.283 PAD

Predictor Coef SE Coef T P

Constant -1.3349 0.7224 -1.85 0.073

PAD 0.28315 0.01923 14.72 0.000

S = 2.54401 R-Sq = 86.4% R-Sq(adj) = 86.0%

Analysis of Variance

Source DF SS MS F P

Regression 1 1402.7 1402.7 216.73 0.000

Residual Error 34 220.0 6.5

Total 35 1622.7

No replicates.

Cannot do pure error test.

Unusual Observations

Obs PAD PDRB Fit SE Fit Residual St Resid

7 45 17.622 11.421 0.509 6.201 2.49R

15 125 34.257 34.129 1.873 0.128 0.07 X

23 51 7.136 13.168 0.583 -6.032 -2.44R

R denotes an observation with a large standardized residual.

X denotes an observation whose X value gives it large influence.

Durbin-Watson statistic = 2.06741

Residual Plots for PDRB

MTB > Plot 'PDRB'*'PAD';

SUBC> Symbol;

SUBC> Regress.

Scatterplot of PDRB vs PAD

MTB > NormTest 'RESI1';

SUBC> KSTest.

Probability Plot of RESI1

MTB > Name c4 "RESI2"

MTB > Regress 'PDRB' 1 'PAD';

SUBC> Residuals 'RESI2';

SUBC> GFourpack;

SUBC> RType 1;

SUBC> Constant;

SUBC> DW;

SUBC> Pure;

SUBC> Brief 2.

Regression Analysis: PDRB versus PAD

The regression equation is

PDRB = - 1.33 + 0.283 PAD

Predictor Coef SE Coef T P

Constant -1.3349 0.7224 -1.85 0.073

PAD 0.28315 0.01923 14.72 0.000

S = 2.54401 R-Sq = 86.4% R-Sq(adj) = 86.0%

Analysis of Variance

Source DF SS MS F P

Regression 1 1402.7 1402.7 216.73 0.000

Residual Error 34 220.0 6.5

Total 35 1622.7

No replicates.

Cannot do pure error test.

Unusual Observations

Obs PAD PDRB Fit SE Fit Residual St Resid

7 45 17.622 11.421 0.509 6.201 2.49R

15 125 34.257 34.129 1.873 0.128 0.07 X

23 51 7.136 13.168 0.583 -6.032 -2.44R

R denotes an observation with a large standardized residual.

X denotes an observation whose X value gives it large influence.

Durbin-Watson statistic = 2.06741

Page 2