REGRESI ROBUST DENGAN M-ESTIMASI … ROBUST DENGAN M-ESTIMASI MAKALAH Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Sains Program Studi Matematika Disusun oleh

REGRESI ROBUST DENGAN M-ESTIMASI

MAKALAH

Diajukan untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Sains

Program Studi Matematika

Disusun oleh :

Agnes Tri Susilawati

NIM : 053114001

PROGRAM STUDI MATEMATIKA JURUSAN MATEMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2010

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ii

ROBUST REGRESSION WITH M-ESTIMASI

MAKALAH

Presented As a Partial Fulfillment of The Requirements

To Obtain The Sarjana Sains Degree

In Mathematics

By :

Agnes Tri Susilawati

Student Number : 053114001

MATHEMATICS STUDY PROGRAM

DEPARTEMENT OF MATHEMATICS

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2010


iii


iv


v


vi

Berdirilah dengan teguh, jangan goyah, dan giatlah selalu dalam pekerjaan Tuhan! Sebab dalam

persekutuan dengan Tuhan jerih payahmu tidak sia-sia

1 Korintus 15 : 58

Kupersembahkan makalah ini kepada:

Tuhan Yesus Kristus yang senantiasa menyertaiku, sumber harapan dan kekuatanku

Kedua orangtuaku atas cinta dan doa yang tiada henti

Kedua kakakku Mas Robert dan Mbak Chris

Serta almamaterku tercinta


vii

ABSTRAK

Outlier adalah pengamatan dengan nilai residual yang besar. Dengan adanya

outlier, parameter-parameter dalam model regresi akan menjadi bias, oleh karena itu

dibutuhkan regresi yang dapat menghasilkan model regresi yang tidak terpengaruh oleh

outlier yaitu regresi robust. Regresi robust adalah alat penting untuk menganalisa data

yang dipengaruhi oleh outlier sehingga dihasilkan model yang tidak terpengaruh oleh

outlier.

Pada makalah ini akan dibahas pendugaan parameter dalam regresi robust

dengan menggunakan metode M-Estimasi dengan fungsi bobot Huber. Pada regresi

kuadrat terkecil penduga parameter β adalah ( ) 1 ΥΧΧΧβ ′′= − sedangkan untuk regresi

robust penduga parameter β adalah ( ) .1 ΥWΧΧWΧβ β′′= −β Ketika 1W =β model

regresi robust sama dengan model regresi kuadrat terkecil. Kesukaran dalam

mendapatkan penduga parameter β regresi robust bahwa βW tergantung pada β dan

β tergantung pada βW , sehingga untuk mendapatkan nilai β digunakan suatu iterasi

yang disebut dengan iteratively reweighted least squares (IRLS).

Kata Kunci: outlier, robust, regresi, M-Estimasi, IRLS


viii

ABSTRACT

Outlier is an observation data with big residual value. With attending outlier,

some parameters in the regression model can be bias, so that it needs a best regression

model without outlier and it is mentioned as a robust regression. The robust regression

is an important tool to analyze outlier and then to obtain a regression model without

outlier.

In this research we describe some predicted parameters for the robust regression

using M-Estimation method through a weight formula of Huber. The least squares

regression estimators of β are ( ) 1 ΥΧΧΧβ ′′= − , whereas the robust regression

estimators of β are ( ) .1 ΥWΧΧWΧβ β′′= −β When 1W =β the robust regression model

same as with least square regression model. The difficulty in obtaining of predicted

parameter β is reciprocal depending on βW , while βW depends on β and β depends

on βW , so that to obtain a value of β we need an iteration calculation using IRLS

(iteratively reweighted least squares).

Keywords: outlier, robust, regression, M-Estimation, IRLS


ix


x

KATA PENGANTAR

Puji dan syukur penulis panjatkan kepada Tuhan Yesus Kristus, atas berkat dan

kasih karunianya yang telah diberikan sehingga penulis dapat menyelesaikan makalah

yang berjudul “ Regresi Robust dengan M-estimasi”.

Dalam proses penulisan makalah ini banyak hambatan yang dialami oleh

penulis. Namun, berkat bantuan dan dukungan dari banyak pihak, akhirnya makalah ini

dapat terselesaikan. Oleh karena itu penulis ingin mengucapkan terimakasih kepada:

1. Ibu Enny Murwaningtyas, S.Si, M.Si, selaku dosen pembimbing tugas akhir

yang telah meluangkan waktu, pikiran, serta sabar dalam membimbing penulis

selama penyusunan tugas akhir ini.

2. Yosef Agung Cahyanta, S.T., M.T. selaku Dekan Fakultas Sains dan

Teknologi

3. Ibu Lusia Krismiyati Budiasih, S.Si, M. Si, selaku ketua program studi

Matematika FST USD Yogyakarta yang telah banyak membantu dan

memberikan saran.

4. Romo Prof. Dr. Frans Susilo, SJ, selaku dosen pembimbing akademik yang

selalu setia memberikan nasehat dan saran untuk penuslis dan selaku kepala

perpustakaan yang telah menyediakan fasilitas dan kemudahan selama penulis

kuliah

5. Bapak dan Ibu Dosen Prodi Matematika FST USD Yogyakarta yang telah

memberikan bekal ilmu yang sangat berguna bagi penulis.


xi

6. Bapak Zaerilus Tukija dan Ibu Erma Linda Santyas Rahayu yang telah

memberikan pelayanan administrasi dan urusan-urusan akademik kepada

penulis selama masih kuliah.

7. Perpustakaan USD dan Staf yang telah memberikan fasilitas dan kemudahan

kepada penulis.

8. Bapak dan Ibu tercinta: Bapak F. Ngatijan dan Ibu FM. Suryati yang selalu

mendoakan penulis, memberikan dukungan yang tak pernah berhenti dalam

segala hal.

9. Mas Robert Lujantoro, Mbak Chrispina Lidisia Dwinursari terima kasih karna

kalian telah membuat persaudaraan ini indah dan penuh makna, semoga kita

dapat selalu menjaganya walau jarak memisahkan kita.

10. Simbah Handoyo Hadisuasono Kakung dan Simbah Handoyo Hadisuasono

Putri terima kasih atas doanya sehingga penulis dapat berhasil sampai

sekarang ini.

11. Yohan Priyambodo yang telah memberikan seluruh perhatian, pengertian,

waktu, kesabaran, nasehat, dan keceriaan buat penulis. Terima kasih pula atas

support, doa yang tiada henti untuk penulis, saran, pengetahuan, kebersamaan

dan hari-hari yang begitu indah yag telah diberikan kepada penulis.

12. Teman-teman Kost Pink “ Maria Yuli, Maria Pudyanti, Yulia Venty,

Fransiska Septiana terima kasih buat kebersamaan kita.

13. Prisca Devi Yudistasari, Wuri Johana Fransisca, Yosepin Artiani, terima kasih

atas persahabatan, kenangan, dukungan, semangat, dan perjalanan hidup yang

sangat berarti yang kalian berikan untuk penulis.


xii

14. Teman-teman Matematika angkatan 2005 yang sudah memberikan segala

keceriaan dalam melewati kebersamaan selama di Matematika USD.

Penulis juga tidak lupa mengucapkan terima kasih kepada semua pihak yang

membantu penulis dalam penulisan makalah ini.

Yogyakarta,

Penulis


xiii

DAFTAR ISI

Halaman

HALAMAN JUDUL ............................................................................. i

HALAMAN JUDUL (INGGRIS) ........................................................ ii

HALAMAN PERSETUJUAN PEMBIMBING.................................. iii

HALAMAN PENGESAHAN................................................................ iv

PERNYATAAN KEASLIAN KARYA................................................ v

HALAMAN PERSEMBAHAN............................................................. vi

ABSTRAK.............................................................................................. vii

ABSTRACT............................................................................................ viii

PERNYATAAN PUBLIKASI KARYA ILMIAH.............................. ix

KATA PENGANTAR............................................................................ x

DAFTAR ISI .......................................................................................... xiii

DAFTAR TABEL................................................................................... xv

DAFTAR GAMBAR.............................................................................. xvi

DAFTAR LAMPIRAN........................................................................... xvii

BAB I PENDAHULUAN ............................................................ ...... 1

A. Latar Belakang Masalah ............................................... 1

B. Rumusan Masalah ......................................................... 2

C. Batasan Masalah ............................................................ 3

D. Tujuan Penulisan ........................................................... 3

E. Metode Penulisan ........................................................... 3

F. Manfaat Penulisan ......................................................... 3


xiv

G. Sistematika Penulisan .................................................... 4

BAB II REGRESI LINEAR ................................................................ 5

A. Metode Maksimum Likelihood......................................... 5

B. Model Regresi Linear Sederhana..................................... 6

C. Metode Kuadrat Terkecil........................................... ...... 10

D. Metode Regresi Linear k-Variabel ........................... ...... 14

E. Penaksiran Metode Kuadrat Terkecil k-Variabel... ...... 16

F. Penaksiran Metode Maksimum Likelihood k-Variabel.. 18

BAB III OUTLIER DAN REGRESI ROBUST……………….. ….. 20

A. Outlier……………………………………………….. ….. 20

B. Regresi Least Absolute Deviation (Regresi L)……….. 31

C. M-Estimator…………………………………………….. 32

D. Prosedur M-Estimasi…………………………………… 36

BAB IV APLIKASI REGRESI ROBUST ………………………….. 49

A. Ketenagakerjaan Baja Suatu Negara di Eropa

pada tahun 1974 dan 1992………………………….. ….. 49

B. Kerugian Penjualan Motor Bekas Suatu Dealer

Motor…………………………………………………….. 53

BAB V PENUTUP ……………………………………………….......... 56

A. Kesimpulan………………………………………............ 56

B. Saran…………………………………………………….. 58

DAFTAR PUSTAKA ………………………………………………… 59

LAMPIRAN…………………………………………………………… 61


xv

DAFTAR TABEL

Halaman

Tabel 3.1 Banyak barang terjual dan harga barang ................………… 24

Tabel 3.2 Kuartil dan Jangkauan.........................................…………… 26



Tabel 3.5 Model regresi kuadrat terkecil dan model regresi robust........ 42

Tabel 3.6 Bentuk kuadrat terkecil dan bentuk regresi robust ……….... 43



Tabel 3.9 Model regresi kuadrat terkecil dan model regresi robust........ 47

Tabel 3.10 Bentuk kuadrat terkecil dan bentuk regresi robust ……….... 43

Tabel 4.1 Ketenagakerjaan suatu negara di Eropa tahun 1974 dan 1992 49

Tabel 4.2 Kerugian setiap penjualan motor bekas.................................. 53


xvi

DAFTAR GAMBAR

Halaman

Gambar 1.1 ……………………………………………………………… 2

Gambar 3.1a ……………………………………………………………… 21

Gambar 3.1b ……………………………………………………………… 22

Gambar 3.2a ……………………………………………………………… 22

Gambar 3.2b ……………………………………………………………… 23

Gambar 3.3 ……………………………………………………………… 24

Gambar 3.4 ……………………………………………………………… 25

Gambar 3.5 ……………………………………………………………… 26

Gambar 3.6a ……………………………………………………………… 27

Gambar 3.6b ……………………………………………………………… 27

Gambar 3.7a ……………………………………………………………… 28

Gambar 3.7b ……………………………………………………………… 29

Gambar 3.8a ……………………………………………………………… 39

Gambar 3.8b ……………………………………………………………… 39

Gambar 3.9 ……………………………………………………………… 39

Gambar 3.10 ……………………………………………………………… 46

Gambar 4.1 ……………………………………………………………… 51

Gambar 4.2 ……………………………………………………………… 52


xvii

DAFTAR LAMPIRAN

Halaman

Lampiran A ……………………………………………………………… 62

Lampiran B ……………………………………………………………… 62

Lampiran C ……………………………………………………………… 64

Lampiran D ……………………………………………………………… 64

Lampiran E ……………………………………………………………… 66

Lampiran F ……………………………………………………………… 67

Lampiran G ……………………………………………………………… 69

Lampiran H ……………………………………………………………… 69

Lampiran I ……………………………………………………………… 71

Lampiran J ……………………………………………………………… 71

Lampiran K ……………………………………………………………… 74


1

BAB I

PENDAHULUAN

A. Latar Belakang Masalah

Dalam suatu pengamatan, misalkan Y simbol yang akan digunakan untuk

variabel tak bebas dan X simbol yang akan digunakan untuk variabel bebas, maka

rumusan model regresi antara variabel Y dan X adalah:

iippii εβββ +Χ++Χ+=Υ L110

dengan:

=Υi variabel tak bebas, ni ,,2,1 K=

=Χij variabel bebas, ni ,,2,1 K= , pj ,,2,1 K=

=β koefisien regresi Χ terhadap Υ

=iε nilai error (galat)

Dalam regresi linear sederhana pendugaan parameter dapat menggunakan

metode kuadrat terkecil, namun ketika distribusi dari iε tidak normal atau adanya

beberapa outlier yang berpengaruh pada model maka metode kuadrat terkecil tidak

dapat digunakan karena penduga parameter akan menjadi bias. Oleh karena itu harus

digunakan model regresi yang lain. Regresi robust adalah alat penting untuk

menganalisa data yang dipengaruhi outlier sehingga dihasilkan model yang tidak

terpengaruh oleh outlier.

Menurut Staudte dan Snether (1990) outlier adalah suatu observasi yang jauh

dari sebagian besar data. Pada regresi linear, outlier adalah pengamatan dengan nilai


2

residual yang besar. Dalam Gambar 1.1 diperlihatkan sekumpulan data dengan titik

yang keempat merupakan outlier.

Gambar 1.1. Regresi linear dengan satu outlier

Dalam makalah ini metode yang akan dibahas untuk menduga parameter dari

model regresi robust adalah M-Estimasi dengan fungsi bobot Huber. Fungsi Huber

merupakan fungsi parabola di sekitar titik nol dan meningkat secara linear pada

au > , dengan a adalah tuning konstan.

B. Perumusan Masalah

Berdasarkan uraian yang dikemukakan dalam latar belakang diatas, pokok

permasalahan dalam makalah ini dapat dirumuskan sebagai berikut:

1. Bagaimana mendeteksi data yang memuat outlier?

2. Apa penduga parameter dari regresi robust dengan M-Estimasi?

3. Bagaimanakah penyelesaian penduga parameter dari regresi robust dengan M-

Estimasi menggunakan fungsi bobot Huber?


3

C. Batasan Masalah

Pembahasan masalah dalam makalah ini dibatasi pada pembahasan mengenai

regresi robust yang digunakan untuk mendapatkan model regresi yang tidak terpenga-

ruh outlier. Untuk menyelesaikan masalah ini akan diduga parameter regresi robust

dengan M-Estimasi menggunakan fungsi bobot Huber dengan tuning konstan

345.1=a . Pemilihan tuning konstan tidak akan dibahas dalam makalah ini. Dalam

makalah ini juga tidak akan dibahas tentang distribusi dari residual, dan sifat BLUE

penduga parameter.

D. Tujuan Penulisan

Tujuan penulisan makalah ini adalah:

1. Memahami outlier dan pendeteksian adanya outlier.

2. Menentukan regresi robust dengan M-Estimasi menggunakan funsi bobot

Huber’s

E. Metode Penulisan

Metode penulisan makalah ini menggunakan metode studi pustaka, yaitu

menggunakan buku-buku, jurnal, makalah yang telah dipublikasikan dan dari internet,

sehingga tidak ditemukan hal-hal yang baru. Untuk penyelesaian masalah akan diguna-

kan program MATLAB.

F. Manfaat Penulisan

1. Mendapatkan suatu penduga parameter yang dapat mengurangi pengaruh

adanya outlier.

2. Mengetahui langkah kerja dari M-Estimasi menggunakan fungsi bobot Huber.


4

G. Sistematika Penulisan

Bab I pendahuluan berisi latar belakang masalah, perumusan masalah, batasan

masalah, tujuan penulisan, metode penulisan, dan manfaat penulisan.

Bab II berisi tentang model regresi linear sederhana dan regresi berganda,

metode kuadrat terkecil, maximum likelihood.

Bab III berisi tentang pengertian outlier dan cara pendeteksian adanya outlier,

pengertian regresi robust, M-Estimasi, Huber’s M-Estimasi.

Bab IV berisi kasus tentang model regresi robust yang akan diselesaikan dengan

metode M-Estimasi menggunakan fungsi bobot Huber.

Bab V berisi tentang kesimpulan dan saran.


5

BAB II

REGRESI LINEAR

A. Metode Maksimum Likelihood

Dari suatu pengamatan, sejumlah pendekatan dapat diambil untuk memperoleh

suatu penduga. Salah satu metode untuk memperoleh sebuah penduga adalah metode

maximum likelihood (ML). Misalkan ( )nΧΧΧ ,, 21 L nilai yang diobservasi dalam suatu

sampel random yang besarnya n . Maka fungsi likelihood sampel tersebut adalah

( ) ( )( ) ( ) ( )

( ) ( )2.1 ;f

;f;f;f;,,,

n

1ii

n21

21

∏=

Χ=

ΧΧΧ=ΧΧΧ=

β

βββββL

L nfL

dengan β adalah suatu parameter yang tidak diketahui. ( )βL adalah fungsi likelihood

untuk β , dengan nΧΧΧ ,,, 21 L tetap (fixed). Penduga Maximum Likelihood untuk

parameter β adalah nilai β yang memaksimumkan fungsi likelihood ( )βL .

Contoh 2.1:

Suatu eksperimen Binomial terdiri dari n percobaan yang menghasilkan

observasi ( )ni ΧΧΧΧ ,,,,, 21 KK dengan 1=Χi jika percobaan sukses dan 0=Χi jika

percobaan gagal. Dengan menggunakan metode maximum likelihood carilah p sebagai

penduga dari parameter p.

Jawab:

( ) ( ) XnX pppL −−= 1


6

dengan ∑=

Χ=n

iiX

1

banyaknya sukses. Nilai p dicari dengan menurunkan ( )pL terhadap

p kemudian menyamakannya dengan nol. Untuk mencari turunan ( )pL lebih baik

diambil lognya (ln = log dengan bilangan pokok e).

( ) ( ) ( ) ( )( ) ( )

( )

( )

( ) ( )

XnpXpnpXpX

pXnpXpXn

pX

pXn

pX

pXn

pX

dppLd

pXnpXpL

=−=−−=−−−

=

⎟⎟⎠

⎞⎜⎜⎝

⎛−

−−+⎟⎟⎠

⎞⎜⎜⎝

⎛=

⎟⎟⎠

⎞⎜⎜⎝

⎛−

−−+⎟⎟⎠

⎞⎜⎜⎝

⎛=

−−+=

11

1110

111ln

1lnlnln

Nilai p yang membuat ( )pL maksimum ialah

XnX

nXp

i

=

=

=

∑

dengan 1=Χi jika percobaan sukses dan 0=Χi jika percobaan gagal.

Jadi penduga parameter p dengan menggunakan metode maximum likelihood ialah

nXp =

B. Model Regresi Linear Sederhana

Istilah regresi diperkenalkan oleh Francis Galton yang membandingkan tinggi

badan anak laki-laki dengan tinggi badan ayahnya. Galton menunjukkan bahwa tinggi

badan anak laki-laki dari ayah yang tinggi, setelah beberapa generasi cenderung

mundur (regressed) mendekati tinggi rata-rata seluruh populasi. Dengan kata lain, anak

laki-laki dari ayah yang badannya sangat tinggi cenderung lebih pendek daripada


7

ayahnya, sedangkan anak laki-laki dari ayah yang badannya sangat pendek cenderung

lebih tinggi daripada ayahnya.

Suatu fungsi dikatakan linear dalam parameter β jika β hanya dengan pangkat

satu dan tidak dikalikan atau dibagi dengan parameter lain dan β berderajat satu. Suatu

fungsi dikatakan linear dalam variabel X jika X hanya dengan pangkat satu dan tidak

dikalikan atau dibagi dengan variabel lain dan f(X) merupakan fungsi polynomial

berderajat satu. Dari penafsiran linearitas tersebut, linearitas dalam parameter dapat

mengikuti perkembangan teori regresi. Jadi istilah regresi linear akan selalu berarti

suatu regresi yang linear dalam parameter β , mungkin linear atau tidak dalam variabel

yang menjelaskan X. Persamaan regresi adalah persamaan matematik yang

memungkinkan untuk meramalkan nilai-nilai suatu variabel tak bebas dari nilai-nilai

satu atau lebih variabel bebas. Beberapa contoh model regresi yang termasuk model

regresi linear adalah

1. iii εββ +Χ+=Υ 10

2. ii

i εββ +Χ

+=Υ1

10

3. iii εββ +Χ+=Υ 210

Suatu regresi akan membicarakan masalah pendugaan atau peramalan nilai

variabel tak bebas Υ berdasarkan variabel bebas Χ . Variabel tak bebas diasumsikan

bersifat statistik yaitu bahwa variabel tak bebas diambil dari sampel bukan dari

populasi dan random yaitu suatu variabel yang nilainya ditentukan oleh hasil suatu

eksperimen acak. Variabel bebas diasumsikan nir-stokastik (mempunyai nilai yang

tetap dalam pengambilan sampel berulang) yaitu variabel bebas mengambil nilai yang

sama dalam berbagai sampel.


8

Model regresi dari pengamatan ( )ii ΥΧ , dalam sampel akan memenuhi

persamaan

iii εββ +Χ+=Υ 10 (2.2)

dengan:

=Υi variabel tak bebas, ni ,,2,1 K=

=Χi variabel bebas, ni ,,2,1 K=

=β koefisien regresi Χ terhadap Υ

=iε nilai error (galat)

Asumsi-asumsi regresi linear menurut Gauss:

a. Model regresi adalah linear dalam parameter

b. iε berdistribusi normal untuk setiap i

c. iε mempunyai rata-rata 0 untuk setiap i

d. Variansi dari 2σε =i untuk semua ix (homokedastisitas)

e. Kovariansi iε dan jε , ji ≠ adalah 0

f. Variabel-variabel bebas adalah variabel yang nir-stokastik (mempunyai nilai yang

tetap)

( ) iE ii ∀Χ=Χ ,

Akibat dari asumsi d dan asumsi c yaitu:

( )( ) ( ) ( )[ ]

( )( ) 22

22

22

2

0

,

σε

εσ

εεε

σε

=

−=

−=

∀=

i

i

iii

i

E

E

EEVar

iVar


9

Asumsi e dikenal sebagai asumsi tidak adanya korelasi berurutan atau tidak ada

autokorelasi (non autokorelasi). Asumsi ini mengakibatkan nilai ( ) ( )ji EE εε dan saling

bebas, hal ini ditunjukkan dalam penjabaran berikut ini:

( ) ( )( ) ( )( )[ ]( ) ( ) ( ) ( )[ ]

[ ]( )( ) ( )

0

000

,

=

=

=

+−−=

+−−=

−−=

ji

ji

ji

jiijjiji

jjiiji

EE

E

E

EEEEE

EEECov

εε

εε

εε

εεεεεεεε

εεεεεε

Akibat dari asumsi f adalah:

iΥ berdistribusi normal untuk setiap i dengan nilai harapan dan variansi:

( ) ( )( ) ( ) ( )

i

i

ii

iii

EEEEYE

Χ+=+Χ+=

+Χ+=+Χ+=

10

10

10

10

0ββββ

εββεββ

( ) ( )( ) ( ) ( )

( ) 221

10

10

var0

varvarvarvarvar

σβ

εββεββ

+Χ+=

+Χ+=+Χ+=

i

ii

iiiY

Bagian ( )iΧvar adalah

( ) ( )( )( )( )

00

var

2

2

2

==

Χ−Χ=

Χ−Χ=Χ

E

E

EE

ii

iii

Substitusikan ( ) 0var =Χi ke Persamaan diatas menjadi

( )2

221

00var

σ

σβ

=

+⋅+=iY


10

C. Metode Kuadrat Terkecil

Metode kuadrat terkecil adalah suatu metode pendugaan parameter dengan

meminimumkan ∑=

n

ii

1

2ε (jumlah residual kuadrat) sehingga diperoleh penduga

parameter 0β dan 1β . Penduga (estimator) dalam pendugaan parameter tersebut adalah

aturan bagaimana menghitung nilai dugaan (estimate) berdasarkan pengukuran-

pengukuran yang terdapat di dalam sampel. Persamaan penduga parameter dalam

regresi linear sederhana adalah

ii Χ+=Υ 10ˆˆˆ ββ (2.3)

Dengan mengingat kembali model regresi linear Persamaan (2.2) dan

persamaan penduga parameter Persamaan (2.3), dapat dicari suatu nilai residual ε

yaitu selisih antara nilai Υ yang diamati dengan nilai Υ yang diduga, yang dapat

dinyatakan sebagai berikut:

( )2.4 ˆˆ

ˆ

10 iii

iii

Χ−−Υ=

Υ−Υ=

ββε

ε

Gauss dan Legendre (Plackett 1972 dan Stigler 1981) mengatakan bahwa

penduga parameter 0β dan 1β dapat dicari dengan metode kuadrat terkecil yaitu:

∑=

n

ii

1

2ˆ

min εβ

(2.5)

Prinsip kuadrat terkecil memilih 0β dan 1β sedemikian rupa sehingga untuk suatu

sampel tertentu ∑=

n

ii

1

2ε sekecil mungkin.

Penduga parameter 0β diperoleh dengan menurunkan

( )∑=

Χ−−Υn

iii

1

210

ˆˆ ββ


11

secara parsial terhadap 0β dan menyamakan hasil yang diperoleh dengan nol sehingga

didapat:

( )

( )

( )

( )2.6 ˆˆ

ˆˆ

ˆˆ

ˆˆ0

ˆˆ0

ˆˆ0

ˆˆ20

ˆˆˆˆ

11

10

1 11

0

1 110

110

1

11

10

1

110

110

1

2

1000

1

2

nn

n

n

n

n

ii

n

ii

n

i

n

iii

n

i

n

iii

n

ii

n

ii

n

ii

n

i

n

ii

n

iii

n

iii

n

iii

n

ii

∑∑

∑ ∑

∑ ∑

∑∑

∑∑∑

∑

∑

∑∑

==

= =

= =

==

===

=

=

=

=

Χ−

Υ=

Χ−Υ=

Χ−Υ=

Χ−−Υ=

Χ−−Υ=

Χ−−Υ=

Χ−−Υ−=

Χ−−Υ∂∂

=∂

∂

ββ

ββ

ββ

ββ

ββ

ββ

ββ

ββββ

ε

karena

Υ=Υ∑

=

n

n

ii

1 dan Χ=Χ∑

=

n

n

ii

1

maka Persamaan (2.6) dapat ditulis dalam bentuk:

( )2.7 ˆˆ10 Χ−Υ= ββ

Penduga parameter 1β diperoleh dengan menurunkan

( )∑=

Χ−−Υn

iii

1

210

ˆˆ ββ

secara parsial terhadap 1β dan menyamakan hasil yang diperoleh dengan nol sehingga

didapat:


12

( )

( )

( )

( )2.8 ˆˆ0

ˆˆ0

ˆˆ20

ˆˆˆˆ

1

21

10

1

110

110

1

2

1011

1

2

∑∑∑

∑

∑

∑∑

===

=

=

=

=

Χ−Χ−ΥΧ=

Χ−−ΥΧ=

Χ−−ΥΧ−=

Χ−−Υ∂∂

=∂

∂

n

ii

n

ii

n

iii

n

iiii

n

iiii

n

iii

n

ii

ββ

ββ

ββ

ββββ

ε

Dengan mensubstitusikan Persamaan ( )2.7 ke Persamaan ( )2.8 didapatkan:

( )

( )2.9 ˆ

ˆ

1

1

ˆ

ˆ

ˆ

ˆ0

ˆˆ0

ˆˆ0

2

11

2

1111

1

22

1

1111

1

2

11

1111

1

2

1

111

111

1

2

1

11

2

111

1

21

11

11

1

21

11

1

⎟⎠

⎞⎜⎝

⎛Χ−Χ

ΧΥ−ΥΧ=

Χ−⎟⎠

⎞⎜⎝

⎛Χ

ΥΧ−ΧΥ=

Χ−ΧΧ

ΥΧ−ΧΥ=

Χ−ΧΧ

ΥΧ−ΧΥ=

ΧΥ+ΥΧ−=⎟⎠

⎞⎜⎝

⎛Χ−ΧΧ

⎟⎠

⎞⎜⎝

⎛Χ−ΧΧ+ΧΥ−ΥΧ=

Χ−ΧΧ+ΧΥ−ΥΧ=

Χ−ΧΧ−Υ−ΥΧ=

∑∑

∑∑∑

∑∑

∑∑∑

∑∑∑

∑∑∑

∑∑

∑∑

∑∑∑∑

∑∑∑∑

∑∑∑∑

∑∑∑

==

===

==

===

===

===

==

==

====

====

====

===

n

ii

n

ii

n

ii

n

ii

n

iii

n

ii

n

ii

n

iii

n

ii

n

ii

n

ii

n

ii

n

ii

n

iii

n

ii

n

ii

n

ii

n

ii

n

iii

n

ii

n

ii

n

iii

n

ii

n

ii

n

ii

n

ii

n

ii

n

iii

n

ii

n

ii

n

ii

n

iii

n

ii

n

ii

n

iii

n

n

n

n

n

n

β

β

β

β

β

β

ββ

ββ

Dengan menyelesaikan bagian pembilang Persamaan (2.9) didapat:


13

( )

( )( ) ( )2.10 1

1

1111

111

112

1

11

11

1111111111

∑

∑

∑∑∑∑

∑∑∑

∑∑∑

∑∑∑∑

∑∑∑∑∑∑∑∑∑∑

=

=

====

===

==

=

==

==

==========

Υ−ΥΧ−Χ=

ΥΧ+ΧΥ−ΥΧ−ΥΧ=

⎟⎠

⎞⎜⎝

⎛ΥΧ+ΧΥ−ΥΧ−ΥΧ=

⎟⎠

⎞⎜⎝

⎛ΥΧ+ΧΥ−ΥΧ−ΥΧ=

ΧΥ+Χ

Υ−

ΧΥ−ΥΧ=

ΧΥ−ΧΥ+ΧΥ−ΥΧ=ΧΥ−ΥΧ

n

iii

n

iiiii

n

i

n

ii

n

ii

n

iii

n

ii

n

ii

n

iii

n

ii

n

iin

ii

n

ii

n

iin

ii

n

iii

n

ii

n

ii

n

ii

n

ii

n

ii

n

ii

n

iii

n

ii

n

ii

n

iii

n

n

n

nn

nnn

nn

nnn

nn

Dengan menyelesaikan bagian penyebut Persamaan (2.9) didapat:

( )

( ) ( )2.11

2

2

2

2

2

1

2

1

22

111

2

11

2

112

1

1

1

2

2

1

2

11

22

11

2

∑

∑

∑∑∑

∑∑

∑∑∑

∑∑

∑∑∑∑∑

=

=

===

==

==

=

=

=

=====

Χ−Χ=

Χ+ΧΧ−Χ=

⎟⎠

⎞⎜⎝

⎛ΧΧ+ΧΧ−Χ=

⎟⎠

⎞⎜⎝

⎛ΧΧ+ΧΧ−Χ=

ΧΧ+Χ

Χ−Χ=

⎟⎠

⎞⎜⎝

⎛Χ+⎟

⎠

⎞⎜⎝

⎛Χ−Χ=⎟

⎠

⎞⎜⎝

⎛Χ−Χ

n

ii

n

iii

n

i

n

ii

n

ii

n

ii

n

ii

n

ii

n

iin

ii

n

iin

ii

n

ii

n

ii

n

ii

n

ii

n

ii

n

n

n

nn

nnn

nnn

nn

Dengan mensubstitusikan Persamaan (2.10), dan (2.11) ke Persamaan (2.9) didapat

penduga parameter 1β sebagai berikut:

( )( )

( )( )2.12 ˆ

1

2

11

∑

∑

=

=

Χ−Χ

Υ−ΥΧ−Χ= n

ii

n

iii

n

nβ


14

D. Model Regresi Linear k-Variabel

Secara umum model regresi linear dua-tiga variabel, dapat ditulis sebagai model

regresi linear k-variabel yang meliputi variabel tak bebas Y dan 1−k variabel yang

menjelaskan kXXX ,,, 32 K dapat ditulis sebagai berikut:

NiXXXY ikikiii ,,3,2,1 33221 KL =+++++= εββββ (2.13)

dengan

k = banyaknya variabel bebas

i = observasi ke-i

N = besarnya populasi

Persamaan (2.13) adalah bentuk ringkas untuk sekumpulan N persamaan

berikut:

( )2.14 33221

2232322212

1131321211

NkNkNNN

kk

kk

XXXY

XXXYXXXY

εββββ

εββββεββββ

+++++=

+++++=+++++=

L

KKKKKKKKKKKKKKKKK

L

L

Persamaan diatas dapat ditulis dengan cara lain yang lebih menjelaskan sebagai

berikut:

( )2.15 11 1

1

11

2

1

2

1

32

23222

13121

2

1

××××+=

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

+

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

=

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

NkkNN

XXX

XXXXXX

Y

YY

NkkNNN

k

k

N

εβXΥε

εε

β

ββ

MMMMMM

L

L

M

dengan

Υ = vektor kolom 1×N observasi atas variabel tak bebas Y

X = matriks kN × yang memberikan N observasi atas 1−k variabel kXX L2 , kolom

pertama yang terdiri dari angka 1 menyatakan unsur intersep.


15

β = vektor kolom 1×k dari parameter yang tak diketahui kβββ ,,, 21 K

ε = vektor kolom 1×N dari N gangguan (disturbance) iε

Asumsi-asumsi dalam k-variabel secara umum sama seperti asumsi dalam

model regresi linear sederhana dalam notasi matriks, yaitu:

a. iε berdistribusi normal

b. ( ) 0εi =E

dimana iε dan 0 adalah vektor kolom 1×N , 0 merupakan vektor nol.

c. ( ) Iεi2Var σ=

dimana I adalah matriks identitas (identity matrix) NN ×

d. ( ) 0εε ji =,Cov

e. Matriks ( )kN ×X adalah nir-stokastik, yaitu terdiri dari sekelompok angka yang

tetap

f. Rank (Derajat) dari X adalah k (banyaknya kolom dalam X ) dan k lebih kecil

dari N (banyaknya observasi).

g. Tidak ada multikolinearitas sempurna yaitu tidak terdapat hubungan linear

sempurna diantara variabel bebas Χ .

Asumsi c dapat dijabarkan sebagai berikut:

( ) ( ) [ ]

⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢

⎣

⎡

=

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

=′

221

22212

12121

212

1

,,,

NNN

N

N

N

N

E

EEEE

εεεεε

εεεεεεεεεε

εεε

ε

εε

MMM

L

L

KMii εε


16

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )

NN

NNN

N

N

EEE

EEEEEE

×=

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

=

⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢

⎣

⎡

=

⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢

⎣

⎡

=

I2

2

2

2

2

221

22212

12121

100

010001

00

0000

σ

σ

σ

σσ

εεεεε

εεεεεεεεεε

MMM

L

L

MMM

L

L

MMM

L

L

Asumsi d ditunjukkan oleh unsur-unsur di luar diagonal utama pada matriks diatas.

E. Penaksiran Metode Kuadrat Terkecil dalam k-variabel

Untuk mendapatkan penduga kuadrat terkecil dari β , mula-mula ditulis model

regresi sampel k-variabel:

ikikiii XXXY εββββ +++++= ˆˆˆˆ33221 L

yang dapat ditulis secara ringkas dalam notasi matriks sebagai

εβXΥ += ˆ (2.16)

dan dalam bentuk matriks adalah

11 1

1

11

2

1

2

1

32

23222

13121

2

1

××××+=

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

+

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

=

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

NkkNN

XXX

XXXXXX

Y

YY

NkkNNN

k

k

N

εβX Υε

εε

β

ββ

MMMMMM

L

L

M

Seperti dalam model dua-tiga variabel, dalam kasus k-variabel penduga kuadrat

terkecil diperoleh dengan meminimumkan


17

( )∑∑ −−−−−=2

332212 ˆˆˆˆ

kikiiii XXXY ββββε L (2.17)

dengan ∑ 2iε adalah jumlah residual kuadrat. Dalam notasi matriks, ini sama dengan

meminimumkan εε′ karena

[ ]

∑=+++=

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

=′

2

222

21

2

1

21

i

N

N

N

ε

εεε

ε

εε

εεε

L

εε

dari (2.16) diperoleh

βXΥε ˆ−= (2.18)

Oleh karena itu,

( ) ( )βXXβΥXβ2ΥΥ

βXΥβXΥεεˆˆˆ

ˆˆ

′′+′′−′=

−′

−=′ (2.19)

Dengan sifat-sifat transpose suatu matriks, yaitu ( ) XββX ′′=′ ˆˆ , dan karena ΥXβ ′′ˆ adalah

suatu skalar (suatu angka real), bentuk itu sama dengan transposenya XβΥ ˆ′ .

Dari Persamaan (2.19) dengan aturan penurunan matriks, dan menyamakan

hasil yang diperoleh dengan nol didapatkan:

( )

( )2.20 ˆ

ˆ

ˆ

ˆˆ

ΥXβΧX

ΥX2βΧX2

βΧX2ΥX20

βΧX2ΥX2β

εε

′=′

′=′

′+′−=

′+′−=∂′∂

Dalam Persamaan (2.20) besaran yang diketahui adalah ( )XX′ dan Υ′X (perkalian

silang antara variabel Χ dan Υ ) dan yang tidak diketahui adalah β . Sekarang dengan

menggunakan aljabar matriks, kalau invers dari ( )XX′ ada, katakan ( ) 1−′XX , maka


18

dengan mengalikan di muka kedua sisi dari Persamaan (2.20) dengan invers ini,

didapatkan:

( ) ( ) ( ) Υ′′=′′ −− XXXβXXXX 11 ˆ (2.21)

Tetapi karena ( ) ( ) IXXXX 1 =′′ − suatu matriks identitas derajat (order) kk × , maka

didapatkan:

( ) ΥXXXβI ′′= −1ˆ

atau

( ) ΥXXXβ ′′= −1ˆ (2.22)

F. Penaksiran Metode Likelihood dalam k-variabel

Pendugaan parameter model regresi linear sederhana dengan metode

maksimum likelihood adalah sebagai berikut:

Dengan mengingat kembali model regresi linear Persamaan (2.16), Y

berdistribusi normal dengan rata-rata βXˆ dan variansi 2σ . Sebagai hasilnya fungsi

likelihood ( )βL adalah

( ) ( )( ) ( )

2

ˆˆ

21

2

1 σ

πσβ

βXΥβXΥ −′

−−

= eL NN (2.23)

Pendugaan parameter β diperoleh dengan menurunkan ( )βL terhadap β dan

menyamakan hasilnya dengan nol. Untuk memperoleh turunan ( )βL lebih baik diambil

lognya (ln = log dengan bilangan pokok e), sehingga Persamaan (2.23) menjadi

( ) ( )( ) ( )

( )( ) ( )

⎟⎟⎟

⎠

⎞

⎜⎜⎜

⎝

⎛+⎟

⎠⎞

⎜⎝⎛+⎟

⎟⎠

⎞⎜⎜⎝

⎛=

⎟⎟⎟

⎠

⎞

⎜⎜⎜

⎝

⎛=

−′

−−

−′

−−

2

2

ˆˆ

21

ˆˆ

21

ln1ln2

1ln

2

1lnln

σ

σ

σπ

πσβ

βXΥβXΥ

βXΥβXΥ

e

eL

NN

NN


19

( ) ( )( ) ( )( )βXXβΥXβ2ΥΥ

βXΥβXΥ

βXΥβXΥ

ˆˆˆ2

1ln2ln2

ˆˆ2

1ln2ln2

lnˆˆ2

1ln2ln2

2

2

2

′′+′′−′−−−=

−−−−−=

−−−−−=

′

′

σσπ

σσπ

σσπ

NN

NN

eNN

Hasil penurunan ln ( )βL terhadap β adalah

( ) ( )

( )( )

(2.24) ˆ

ˆ0

ˆ10

ˆ2

10

ˆ

ˆˆˆ2

1ln2ln2

ˆln

2

2

2

ΥXβΧX

βΧXΥX

βΧXΥX

βΧX2ΥX2

β

βXXβΥXβ2ΥΥ

β

′−=′

′+′−=

′+′−=

′+′−=

∂

⎟⎠⎞

⎜⎝⎛ ′′+′′−′−−−∂

=∂

∂

σ

σ

σσπ

βNN

L

Dalam Persamaan (2.24) besaran yang diketahui adalah ( )XX′ dan Υ′X (perkalian

silang antara variabel Χ dan Υ ) dan yang tidak diketahui adalah β . Sekarang dengan

menggunakan aljabar matriks, kalau invers dari ( )XX′ ada, katakan ( ) 1−′XX , maka

dengan mengalikan di muka kedua sisi dari Persamaan (2.24) dengan invers ini,

didapatkan:

( ) ( ) ( ) Υ′′=′′ −− XXXβXXXX 11 ˆ (2.25)

Tetapi karena ( ) ( ) IXXXX 1 =′′ − suatu matriks identitas derajat (order) kk × , maka

didapatkan:

( ) ΥXXXβI ′′= −1ˆ

atau

( ) ΥXXXβ ′′= −1ˆ (2.26)


20

BAB III

OUTLIER DAN REGRESI ROBUST

Dalam suatu pengamatan, misalkan Y simbol yang akan digunakan untuk

variabel bebas dan X simbol yang akan digunakan untuk variabel tak bebas, maka

rumusan model regresi antara variabel Y dan X adalah:

iippii εβββ +Χ++Χ+=Υ L110 (3.1)

Menurut asumsi regresi linear iε berdistribusi normal, namun ketika distribusi

dari iε tidak normal atau adanya beberapa outlier yang berpengaruh pada model, maka

penduga kuadrat terkecil menjadi bias sehingga kurang tepat untuk menduga

parameter-parameter dalam model regresi tersebut. Oleh karena itu dibutuhkan suatu

model regresi dengan parameter-parameter yang tidak terpengaruh oleh outlier. Metode

pendekatan alternatif yang berguna untuk mencari parameter-parameter dalam model

regresi tersebut adalah regresi robust. Regresi robust yang diperkenalkan oleh Andrews

(1972) adalah alat penting untuk menganalisa data yang dipengaruhi oleh outlier

sehingga dihasilkan model yang tidak terpengaruh oleh outlier.

A. Outlier

Menurut Staudte dan Snether (1990) outlier adalah suatu observasi yang jauh

dari sebagian besar data. Pada regresi linear, outlier adalah pengamatan dengan nilai

residual yang besar.

Munculnya outlier dapat membuat penduga kuadrat terkecil menjadi bias.

Munculnya outlier dikarenakan adanya kesalahan dalam memasukkan data, kesalahan

pengukuran, analisis, atau kesalahan-kesalahan lainnya. Keberadaan data yang


21

mengandung outlier akan mengganggu proses analisa data dan harus dihindari dalam

banyak hal. Dalam kaitannya dengan analisa regresi, outlier dapat menyebabkan hal-hal

berikut :

1. Residual yang besar dari model yang terbentuk atau ( ) 0εi ≠E

2. Variansi pada data tersebut menjadi lebih besar

3. Taksiran interval memiliki rentang yang lebar

Permasalahan dengan data yang memuat outlier adalah:

1. Permasalahan dengan outlier di sumbu y

Andaikan ( ) ( )5511 ,,,, ΥΧΥΧ L suatu pengamatan sampel dengan suatu garis L

yang diperlihatkan dalam Gambar 3.1a. Jika terdapat kesalahan dalam memasukkan

data, misalnya nilai 4Υ tinggi yang akan menyebabkan adanya outlier. Maka Gambar

3.1a akan berubah seperti yang diperlihatkan dalam Gambar 3.1b yaitu titik yang

keempat menjauh dari posisi aslinya (ditandai oleh lingkaran garis putus-putus). Titik

ini disebut suatu outlier di sumbu y, yang mempunyai suatu pengaruh besar dengan

garis L, yang sungguh berbeda dari garis L di dalam Gambar 3.1a.

Gambar 3.1. (a) Regresi linear dengan lima data


22

Gambar 3.1. (b) Regresi linear dengan satu outlier di sumbu y.

2. Permasalahan dengan outlier di sumbu x

Andaikan ( ) ( )5511 ,,,, ΥΧΥΧ L suatu pengamatan sampel dengan suatu garis L

yang diperlihatkan dalam Gambar 3.2a. Jika terdapat kesalahan dalam memasukkan

data, misalnya nilai 1Χ tinggi yang akan menyebabkan adanya outlier. Maka Gambar

3.2a akan berubah seperti yang diperlihatkan dalam Gambar 3.2b yaitu titik yang

pertama menjauh dari posisi aslinya (ditandai oleh lingkaran garis putus-putus). Titik

ini disebut suatu outlier di sumbu x, yang mempunyai suatu pengaruh besar dengan

garis L, yang sungguh berbeda dari garis L di dalam Gambar 3.2a.

Gambar 3.2. (a) Regresi linear dengan lima data.


23

Gambar 3.2. (b) Regresi linear dengan satu outlier di sumbu x.

Untuk mendeteksi suatu data yang memuat outlier dan menentukan batasan out-

lier dalam sebuah analisa, akan digunakan 3 metode estimasi yaitu:

1. Metode Grafis (Scatter-plot)

Untuk melihat apakah terdapat outlier pada data, dapat dilakukan dengan mem-

plot data. Selain itu, jika sudah didapatkan model regresi maka dapat dilakukan dengan

cara memplot antara residual (ε ) dengan nilai prediksi Υ . Jika terdapat satu atau

beberapa data yang terletak jauh dari pola kumpulan data keseluruhan maka hal ini

mengindikasikan adanya outlier. Metode ini mempunyai kelemahan yaitu keputusan

bahwa suatu data merupakan outlier sangat bergantung pada peneliti, karena hanya

mengandalkan visualisasi grafis, untuk itu dibutuhkan seseorang yang ahli dan berpe-

ngalaman dalam menginterpretasikan gambar tersebut.

Contoh 3.1

Sebuah toko memiliki rincian banyaknya barang yang terjual beserta harganya

yang disajikan dalam Tabel 3.1. Dengan X = banyaknya barang yang terjual dan

Y = harga barang (dalam ribuan)


24

Tabel 3.1. Banyak barang yang terjual dan harga barang

Observasi X Y 1 18 770 2 16 785 3 15 790 4 12 800 5 10 810 6 7 825 7 6 830

Dengan menggunakan Metode Grafis (Scatter-plot), tentukan apakah data tersebut

memuat outlier?

Jawab:

Melalui metode grafis akan diuji apakah data memuat outlier. Dengan

menggunakan SPSS, scatter-plot antara nilai X dengan nilai Y ditunjukkan dalam

Gambar 3.3.

Gambar 3.3. Scatter-plot

6.00 8.00 10.00 12.00 14.00 16.00 18.00

X

770.00

780.00

790.00

800.00

810.00

820.00

830.00

Y

Dari Gambar 3.3. terlihat bahwa tidak ada data yang jauh dari pola kumpulan

data keseluruhan. Jadi data tersebut tidak memuat outlier.


25

Contoh 3.2

Menggunakan Contoh 3.1 dengan mengganti jumlah barang yang terjual pada

observasi ke-6 dengan nilai 30. Dengan menggunakan Metode Grafis (Scatter-plot),

tentukan apakah data tersebut memuat outlier?

Jawab:

Melalui metode grafis akan diuji apakah data memuat outlier. Dengan

menggunakan SPSS, scatter-plot antara nilai X dengan nilai Y ditunjukkan dalam

Gambar 3.4.

Gambar 3.4. Scatter-plot

5.00 10.00 15.00 20.00 25.00 30.00

X

770.00

780.00

790.00

800.00

810.00

820.00

830.00

Y

Dari Gambar 3.4. terlihat bahwa data pada observasi ke-6 jauh dari pola

kumpulan data keseluruhan. Jadi data tersebut memuat outlier.

2. Boxplot

Metode ini merupakan metode yang paling umum yaitu dengan menggunakan

nilai kuartil dan jangkauan. Kuartil 1, 2, dan 3 akan membagi sebuah urutan data

menjadi empat bagian. Jangkauan (IQR, Interquartile Range) didefinisikan sebagai

selisih kuartil satu terhadap kuartil 3, atau IQR = Q3 – Q1. Dalam Gambar 3.5

diberikan skema identifikasi outlier menggunakan IQR atau boxplot. Outlier terletak


26

pada nilai yang kurang dari 1.5*IQR terhadap kuartil 1 dan nilai yang lebih dari

1.5*IQR terhadap kuartil 3.

Gambar 3.5. Skema identifikasi outlier menggunakan IQR atau boxplot

Contoh 3.3

Dengan menggunakan Boxplot, tentukan apakah data pada Contoh 3.1 memuat

outlier?

Jawab:

Untuk keperluan ini terlebih dahulu dihitung nilai kuartil (Q) 1, 2, dan 3 serta

jangkauan (IQR, Interquartile Range) seperti yang tercantum dalam Tabel 3.2

Tabel 3.2. Kuartil dan jangkauan

X Y Q1 7 785 Q2 12 800 Q3 16 825

IQR 9 40 1.5*IQR 13.5 60


27

Dari Tabel 3.2. outlier terletak pada daerah X < -6.5 dan X > 29.5 atau Y < 725

dan Y > 885. Karena nilai X pada data berada pada nilai -6.5 < X < 29.5 dan nilai Y

pada data berada pada nilai 725 < Y < 885, maka dapat disimpulkan bahwa data

tersebut tidak memuat outlier.

Dengan menggunakan SPSS yang disajikan dalam boxplot akan tampak seperti

Gambar 3.6a. dan Gambar 3.6b.

X

6.00

8.00

10.00

12.00

14.00

16.00

18.00

Gambar 3.6a. Boxplot untuk variabel X

Y

770.00

780.00

790.00

800.00

810.00

820.00

830.00

Gambar 3.6b. Boxplot untuk variabel Y

Dari Gambar 3.6a. maupun Gambar 3.6b. terlihat tidak ada data yang berada di

daerah outlier. Jadi data tersebut tidak memuat outlier.


28

Contoh 3.4

Dengan menggunakan Boxplot, tentukan apakah data pada Contoh 3.2 memuat

outlier?

Jawab:

Untuk keperluan ini terlebih dahulu dihitung nilai kuartil (Q) 1, 2, dan 3 serta

jangkauan (IQR, Interquartile Range) seperti yang tercantum dalam Tabel 3.3


X Y Q1 10 785 Q2 15 800 Q3 18 825 IQR 8 40

1.5*IQR 12 60

Dari Tabel 3.3. outlier terletak pada daerah X < -2 dan X > 30 atau Y < 725 dan

Y > 885. Karena nilai X pada observasi ke-6 yaitu X = 30 berada pada daerah outlier

maka data tersebut memuat outlier di sumbu X.


Gambar 3.7a. dan Gambar 3.7b.

X

5.00

10.00

15.00

20.00

25.00

30.006

Gambar 3.7a. Boxplot untuk variabel X


29

Y

770.00

780.00

790.00

800.00

810.00

820.00

830.00

Gambar 3.7b. Boxplot untuk variabel Y

Dari Gambar 3.7a. terlihat bahwa data pada observasi ke-6 berada di daerah

outlier. Jadi data tersebut memuat outlier di sumbu X.

3. Residual yang distudentkan (Studentized Residual)

Umumnya outlier dipengaruhi oleh pengamatan ( )ii X,Υ pada penduga kuadrat

terkecil yang tergantung pada iΥ yang terlalu besar atau terlalu kecil dibandingkan

dengan nilai iX . Suatu metode yang sederhana dan efektif untuk mendeteksi outlier

adalah analisis residual. Residual banyak memegang peranan penting dalam pengujian

model regresi karena residual itu sendiri merupakan sisa pada suatu pengamatan.

Residual ke-i didefinisikan sebagai berikut:

iii Υ−Υ= ˆε

Umumnya pengamatan yang dicurigai sebagai outlier dikategorikan ke dalam

pelanggaran asumsi. Maka lebih tepat jika digunakan analisis residual. Untuk

mendeteksi apakah terdapat outlier atau tidak, dapat dilakukan dengan menghitung nilai

isε sebagai berikut:

i

iis hs −=

1εε (3.2)


30

dengan:

pns

n

ii

−=∑=1

2

2ε

p adalah banyaknya parameter

ih (nilai laverage) adalah ukuran seberapa jauh ix menyimpang dari nilai rata-rata X .

Andaikan H matriks orthogonal dari X , dengan elemen diagonalnya nhh ,,1 K adalah

nilai leverage dari nxx ,,1 K . Matriks H memenuhi ( ) XXXXH 1−′′= dan

( ) ii xxh 1i XX −′′= .

Jika 2>isε atau 2−<isε untuk data kecil ( )30<n dan 5.3>isε atau 5.3−<isε

untuk data besar ( )30≥n maka data mengandung outlier.

Contoh 3.5

Dengan menggunakan studentized residual, tentukan apakah data pada Contoh

3.1 memuat outlier?

Jawab:

Dari M-file pada program MATLAB yang ditunjukkan dalam Lampiran A

diperoleh nilai

ih = [0.4286 0.2698 0.2143 0.1429 0.1746 0.3413 0.4286] T

iε = [-3.0952 2.4603 2.7381 -1.4286 -0.8730 -0.0397 0.2381] T

s = 2.2800

dengan memasukkan nilai ih , iε , dan s ke Persamaan (3.2) diperoleh nilai studentized

residual sebagai berikut:

isε = [-1.7959 1.2628 1.3548 -0.6768 -0.4215 -0.0214 0.1381] T


31

Karena nilai studentized residual dari data adalah 22 <<− isε maka dapat diyatakan

bahwa data tidak memuat outlier.

Contoh 3.6

Dengan menggunakan studentized residual, tentukan apakah data pada Contoh

3.2 memuat outlier?

Jawab:

Dari M-file pada program MATLAB yang ditunjukkan dalam Lampiran B

diperoleh nilai

ih = [0.1639 0.1443 0.1431 0.1738 0.2228 0.7625 0.3896] T

iε = [-31.0180 -16.3205 -11.4718 -1.9256 7.7719 25.7972 27.1668] T

s = 23.7812

dengan memasukkan nilai ih , iε , dan s ke Persamaan (3.2) diperoleh nilai studentized

residual sebagai berikut:

isε = [-1.4265 -0.7419 -0.5221 -0.0891 0.3707 2.2258 1.4622] T

Karena studentized residual dari data observasi ke-6 adalah 2.2258 > 2 maka dapat di-

nyatakan bahwa data memuat outlier.

B. Regresi Least Absolute Deviation (Regresi L)

Ketika error diasumsikan tidak normal, maka pendugaan parameter β

menggunakan metode maximum likelihood dengan kriteria selain kuadrat terkecil.

Sebagai contoh andaikan error iε , ni ,,2,1 L= saling bebas dan berdistribusi double

exponensial

( ) σε

σε ief i

−=21 (3.3)


32

Fungsi densitas double exponensial mempunyai puncak tertinggi σ21 pada 0=iε dan

iε dapat bernilai negatif atau positif. Maka prinsip maximum likelihood untuk penduga

β akan meminimumkan:

∑=

n

ii

1ε

yaitu jumlah harga mutlak residual, ini dinamakan regresi 1L , sedangkan metode

maximum likelihood dengan kriteria kuadrat terkecil dengan distribusi error

( ) ( ) 2222122 σεπσε −−= ef i (3.4)

meminimumkan

∑=

n

ii

1

2ε

yaitu jumlah kuadrat error, kuadrat terkecil diberi nama regresi 2L . Ada juga metode

regresi pL yang meminimumkan

∑=

n

i

pi

1ε

C. M-ESTIMATOR

M-Estimator adalah tipe penduga maximum likelihood. Andaikan error

berdistribusi sesuai dengan distribusi fungsi ( )εf , maka penduga maximum likelihood

(MLE) dari β yang ditulis dengan β memaksimumkan besarnya

( )∏ ′−=

n

iiYf

1βxi (3.5)


33

dengan ix′ adalah baris ke i dari ,Χ ni ,,2,1 L= pada model .εΧβΥ += Jika arg max

adalah nilai yang memaksimumkan suatu fungsi, maka pernyataan diatas dapat ditulis

sebagai

( )⎟⎟⎠

⎞⎜⎜⎝

⎛∏ ′−==

n

iiYf

1maxargˆ βxβ i (3.6)

Jika fungsi densitas ( )εf selalu bernilai positif yaitu ( ) 0lim >∞→

εfε

, dan fungsi

ln adalah fungsi yang meningkat, maka untuk memaksimumkan ( )εf sama halnya

dengan memaksimumkan ( )εfln , sehingga diperoleh

( )

( ) ( ) ( )[ ]( ) ( ) ( )[ ]

( ) ( )3.7 1lnmaxarg

lnlnlnmaxarglnmaxarg

1lnmaxargˆ

⎥⎥⎦

⎤

⎢⎢⎣

⎡∑=

′−=

′−++′−+′−=

′−⋅′−⋅′−=

⎥⎥⎦

⎤

⎢⎢⎣

⎡⎟⎟⎠

⎞⎜⎜⎝

⎛∏=

′−=

n

iiYf

iYfiYfiYfiYfiYfiYf

n

iiYf

βix

βixβixβixβixβixβix

βixβ

L

L

Jika error berdistribusi normal maka Persamaan 3.7 dapat ditulis sebagai berikut:

( ) ( )

( ) ( )

( ) ( )( )

( ) ( )

( ) ( ) ( )3.8 2

2ln21maxarg

22ln

21maxarg

ln22ln21maxarg

ln2lnmaxarg

2lnmaxargˆ

1 2

2

1

2

1 2

22

1

222

1

22221

2

1

22221

2

⎥⎥⎦

⎤

⎢⎢⎣

⎡∑ ⎟

⎟⎠

⎞⎜⎜⎝

⎛ ′−−+∑−=

∑ ⎟⎟⎠

⎞⎜⎜⎝

⎛ ′−−−=

∑ ⎟⎠⎞

⎜⎝⎛ ′−−+−=

∑ ⎟⎟⎠

⎞⎜⎜⎝

⎛+=

⎥⎥⎦

⎤

⎢⎢⎣

⎡∑ ⎟

⎟⎠

⎞⎜⎜⎝

⎛=

==

=

=

=

′−−−

=

′−−−

n

iin

i

n

ii

n

ii

n

iiY

n

iiY

Y

Y

eY

e

e

σπσ

σπσ

σπσ

πσ

πσ

σ

σ

βx

βx

βx

β

i

i

i

βix

βix

Jika 2σ adalah penduga untuk 2σ , maka nilai tersebut dianggap konstan. Karena nilai

( )∑=

⎥⎦⎤

⎢⎣⎡−

n

i 1

22ln21 πσ dan 22σ merupakan nilai konstan yang akan hilang dalam proses


34

pendiferensialan maka untuk memaksimumkan penduga β nilai tersebut dapat

diabaikan sehingga

( ) ( )3.9 maxargˆ1

2⎥⎦

⎤⎢⎣

⎡′−−= ∑

=

n

iiY βxβ i

Jika arg min adalah nilai yang meminimumkan suatu fungsi, maka

( ) ( )[ ]xfxf −= minargmaxarg , sehingga diperoleh

( )

( ) ( )3.10 minarg

minargˆ

1

2

1

2

⎟⎟⎠

⎞⎜⎜⎝

⎛∑ ′−=

⎥⎦

⎤⎢⎣

⎡⎟⎟⎠

⎞⎜⎜⎝

⎛∑ ′−−−=

=

=

n

ii

n

ii

Y

Y

βx

βxβ

i

i

Jadi penduga β untuk distribusi normal meminimumkan

( ) 2

1 ∑ ′−

=

n

iiiY βx (3.11)

Jika error berdistribusi tidak normal, maka pendugaan β mengikuti selain distribusi

normal, andaikan error berdistribusi double exponensial maka Persamaan 3.7 dapat di-

tulis sebagai berikut:

( )

( )

( ) ( )( )

( )

( )( ) ( )3.12 2lnmaxarg

2lnmaxarg

ln2lnmaxarg

ln2lnmaxarg

2lnmaxargˆ

11

1

1

1

1

1

1

⎥⎥⎦

⎤

⎢⎢⎣

⎡∑ ⎟⎟

⎠

⎞⎜⎜⎝

⎛ ′−−+∑ −=

⎥⎦

⎤⎢⎣

⎡∑

′−−−=

⎥⎦

⎤⎢⎣

⎡∑ ′−−+−=

⎥⎦

⎤⎢⎣

⎡∑ ⎟

⎠⎞⎜

⎝⎛ +=

⎥⎦

⎤⎢⎣

⎡∑ ⎟

⎠⎞⎜

⎝⎛=

==

=

=

=

′−−−

=

′−−−

n

i

in

i

n

i

i

n

ii

n

iiY

n

iiY

Y

Y

eY

e

e

σσ

σσ

σσ

σ

σ

σ

σ

βx

βx

βx

β

i

i

i

βix

βix


35

Jika σ adalah penduga untuk σ maka nilai tersebut dianggap konstan. Karena nilai

( )[ ]∑ −=

n

i 12ln σ dan σ merupakan nilai konstan yang akan hilang dalam proses

pendiferensialan maka untuk memaksimumkan penduga β nilai tersebut dapat

diabaikan sehingga

( )3.13 minarg

minarg

maxargˆ

1

1

1

⎟⎟⎠

⎞⎜⎜⎝

⎛′−=

⎥⎥⎦

⎤

⎢⎢⎣

⎡⎟⎟⎠

⎞⎜⎜⎝

⎛′−−−=

⎥⎦

⎤⎢⎣

⎡′−−=

∑

∑

∑

=

=

=

n

ii

n

ii

n

ii

Y

Y

Y

βx

βx

βxβ

i

i

i

Jadi penduga β untuk distribusi double eksponensial meminimumkan

∑ ′−=

n

iiiY

1βx (3.14)

Gagasan ini dapat diperluas, andaikan ( )uρ adalah suatu fungsi untuk u dan σ

adalah penduga parameter skala, dengan σ

βix′−= iYu , dan ( )εfln−=ρ maka Persamaan

(3. 7) menjadi

( )

( )

( )⎥⎦

⎤⎢⎣

⎡ ′−=

⎥⎦

⎤⎢⎣

⎡⎟⎠

⎞⎜⎝

⎛ ′−−−=

⎥⎥⎦

⎤

⎢⎢⎣

⎡∑=

′−−=

∑

∑

=

=

n

ii

n

ii

Y

Y

n

i iY

1

1

minarg

minarg

1maxargˆ

βx

βx

βixβ

i

i

ρ

ρ

ρ

sehingga dapat didefinisikan suatu penduga β yang meminimumkan

∑=

⎟⎠⎞

⎜⎝⎛ ′−n

i

iiY

1 σρ βx (3.15)

dengan


36

6745,01

med1

med ⎟⎟⎠

⎞⎜⎜⎝

⎛−

−−

=hh

εεσ

dengan ( )

⎪⎪⎪⎪

⎩

⎪⎪⎪⎪

⎨

⎧ +

++

=

⎟⎟⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜⎜⎜

⎝

⎛

gasaln untuk

21

genapn untuk 1

2221

med

n

nn

i

ε

εε

ε

Dapat dilihat jika ( ) 2uu =ρ maka kriteria meminimumkan sama dengan

Persamaan 3.11, jika ( ) uu =ρ maka kriteria meminimumkan sama dengan Persamaan

3.14. Dalam kasus yang specifik ini, ( )uρ dan distribusi dasar saling terkait. Untuk

selanjutnya ( )uρ akan menggunakan fungsi Huber’s

( )⎪⎪⎩

⎪⎪⎨

⎧ ≤

>−=

au

aauau

uuntuk 221

uuntuk 221

ρ (3.16)

dengan a adalah tuning konstan. Tuning konstan a dalam regresi robust menentukan

kerobustan dan efisiensi. Tuning konstan dipilih untuk memberikan variansi asimtotik

sehingga didapat effisiensi asimtotik pada distribusi normal. Dengan menggunakan

efisiensi asimtotik 95% pada distribusi normal standar diperoleh tuning konstan

a = 1.345. Pembahasan tuning konstan tidak dibahas secara mendalam.

D. Prosedur M-Estimasi

Estimasi-M meminimumkan penduga β Persamaan (3.15). Jika fungsi pada

Persamaan 3.15 diturunkan secara parsial terhadap parameter kjj ,,2,1,0, K=β dan

menyamakan hasilnya dengan nol menghasilkan 1+= kp persamaan berikut


37

k,0,1,2,j 0, ˆ1

K==⎟⎠⎞

⎜⎝⎛ ′−∑

=

n

i

iiij

Yxσ

ψ βx (3.17)

dengan ( ) uu ∂∂= ρψ dan ijx adalah entri ke-j dari ( ),,,,,1 21 ikiii xxx K=′x .

Didefinisikan suatu fungsi bobot yaitu:

( ) n,1,2,i ,ˆˆ

K=′−′−

=σσψ

β βxβx

ii

iii Y

Yw (3.18)

Maka bagian kiri dari Persamaan (3.17) dapat ditulis

( ) ( )

( )

( )3.19 ˆ1

ˆ1ˆ1

ˆˆ

ˆ1

ˆˆ

ˆˆ

11

1

1

11

βx

βx

βxβxβx

βxβxβxβx

ii

n

iijii

n

iij

iii

n

iij

iiii

iin

iij

ii

iin

i

iiij

n

i

iiij

wxYwx

-Ywx

-YYYψx

YY-Yψx-Yψx

′−=

′=

′′−′−

=

⎟⎟⎠

⎞⎜⎜⎝

⎛′−′−

⎟⎠⎞

⎜⎝⎛ ′

=⎟⎠⎞

⎜⎝⎛ ′

∑∑

∑

∑

∑∑

==

=

=

==

ββ

β

σσ

σ

σσ

σ

σσ

σσ

Masukkan Persamaan 3.19 ke Persamaan 3.17 diperoleh

( )3.20 ,,2,1,0 ,

0

11

11

kjYwxwx

wxYwx

iin

iijii

n

iij

iin

iijii

n

iij

K=∑=′∑

=′∑−∑

==

==

ββ

ββ

βx

βx

Bagian kiri dari Persamaan 3.20 dalam bentuk matriks adalah

( )3.21

00

0000

2

1

21

22212

12111

2

1

21

22221

11211

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

nnkkk

n

n

nnknn

k

k

xxx

xxxxxx

w

ww

xxx

xxxxxx

β

ββ

M

L

MMM

L

L

L

MMM

L

L

L

MMM

L

L

Bagian kanan dari Persamaan 3.20 dalam bentuk matriks adalah

( )3.22

00

0000

21

22221

11211

2

1

21

22221

11211

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

nknn

k

k

nnknn

k

k

YYY

YYYYYY

w

ww

xxx

xxxxxx

L

MMM

L

L

L

MMM

L

L

L

MMM

L

L


38

Dengan memasukkan Persamaan 3.21 dan 3.22 ke Persamaan 3.20 dalam bentuk

matriks dapat ditulis sebagai berikut

ΥWΧΧβWΧ β′=′ β (3.23)

dengan βW adalah matriks diagonal nn× dari bobot, dengan elemen-elemen diagonal

( )βββ nwww ,,, 21 K . Persamaan ini dikenal sebagai persamaan normal kuadrat terkecil

terboboti. Jika invers dari ( )ΧWΧ β′ ada, katakanlah ( ) 1−′ ΧWΧ β , maka dengan

mengalikan di muka kedua sisi dari (3.23) dengan invers ini didapatkan

( ) ( ) ( )( )( ) ( )3.24 1

1

11

ΥWΧΧWΧβ

ΥWΧΧWΧIβ

ΥWΧΧWΧβΧWΧΧWΧ

β

β

β

′′=

′′=

′′=′′

−

−

−−

β

β

βββ

Dalam makalah ini βW menggunakan bobot kriteria Huber’s. Fungsi bobot

Huber’s dapat dicari dengan menurunkan fungsi ( )uρ Persamaan 3.16 terhadap u,

sehingga diperoleh:

( )( )⎪

⎩

⎪⎨

⎧

=≤

>

au

auau

uuntuk

uuntuk sgn ψ (3.25)

dengan ( )u

u∂∂

=ρψ dan ( )

duud

u =sgn dimana

( )

⎪⎪

⎩

⎪⎪

⎨

⎧ <−

=

>

=

0 jika 1

0 jika 0

0 jika 1

sgn

u

u

u

u

Fungsi ( )uρ dan ( )uψ Huber disajikan dalam gambar 3.8


39

Gambar 3.8.a. Fungsi ( )uρ Huber

0.0

0.5

1.0

0.5

1.0

1 23 12 30

U

PSI

Gambar 3.8.b. Fungsi ( )uψ Huber

Berdasarkan Persamaan (3.18) yaitu ( )uuW ψ

β = , dengan σ

βxiiYu′−

= maka

fungsi bobot huber’s adalah

⎪⎪⎩

⎪⎪⎨

⎧ ≤

>=

a

aaW

uuntuk 1

uuntuk u

β (3.26)

dengan ( )( )du

udu

sgn1=

Fungsi bobot Huber disajikan dalam gambar 3.9

Gambar 3.9. Fungsi bobot Huber


40

Fungsi bobot Huber’s merupakan sebuah matriks diagonal ( )βββ nwww ,,, 21 K

yang tiap elemennya bernilai ⎥⎦

⎤⎢⎣

⎡

ua,1min . Pada umumnya M-Estimasi Huber akan

memberikan bobot yang kecil (bobot 1<βiw ) untuk au > , namun ketika au ≤ M-

estimasi akan memberikan bobot 1=βiw . Ketika 1W =β maka n10 βββ ˆˆˆ === L

sehingga model regresi robust sama dengan model regresi kuadrat terkecil.

Kesukaran dalam memecahkan masalah pendugaan β adalah bahwa βW

tergantung pada β dan β tergantung pada βW , sehingga untuk mendapatkan nilai β

digunakan suatu iterasi. Untuk mencari penduga awal 0β dapat digunakan penduga

kuadrat terkecil, dan untuk mendapatkan bobot awal 0W dapat menggunakan rumus

bobot Huber’s dengan nilai 10 h−

=σ

εu , 0βXY ε ˆ−= , ( ) i i XXh 1−′′= XX dan

6745,01

med1

med0 ⎟⎟⎠

⎞⎜⎜⎝

⎛−

−−

=hh

εεσ . Selanjutnya masukkan bobot awal 0W ke

Persamaan (3.24) sehingga didapatkan solusi 1β .

( ) ΥWΧΧWΧβ 01

01ˆ ′′= − (3.27)

Pada langkah selanjutnya, dihitung kembali bobot dari 1W dengan menggunakan

rumus bobot Persamaan (3.26) tetapi nilai ε menggunakan 1β sebagai pengganti 0β

yaitu 1βXY ε −= .

Pada umumnya, untuk qW bobot yang diberikan dapat menyelesaikan

( ) K,,qqqq 10 ,ˆ1 =′′= −+ ΥWΧΧWΧβ 1 (3.28)

Langkah tersebut membutuhkan beberapa iterasi sampai mencapai konvergen, yaitu

selisih nilai 1qβ +ˆ dengan qβ mendekati nol.


41

Prosedur untuk mendapatkan penduga parameter yaitu iterasi yang disebut de-

ngan iteratively reweighted least squares (IRLS), tahapannya adalah:

1. menentukan nilai residual ε

2. Menentukan 0σ dan fungsi pembobot 0W

3. Mencari penduga pada iterasi ( )L,2,1=qq dengan weighted least square.

( ) ΥWΧΧWΧβ 111

ˆ−

−− ′′= qqq

dengan 1−qW merupakan matriks diagonal dengan elemen diagonalnya adalah

( ) 1−qiw . Sehingga penduga parameter pada iterasi pertama ( )1=q

4. Mengulang tahap 2 dan 3 hingga didapatkan penduga parameter yang konvergen

Contoh 3.6





Observasi X Y 1 18 770 2 16 785 3 15 790 4 12 800 5 10 810 6 30 825 7 6 830

Dengan menggunakan data yang disajikan dalam Tabel 3.4 dan Contoh 3.2,

bahwa outlier berada pada sumbu X yaitu pada observasi ke-6. Ambil 5 nilai outlier

yang berbeda yaitu 30, 40, 48, 150, dan 150.000. Dengan mengubah-ubah data obser-

vasi ke-6 dengan kelima nilai tersebut sedangkan data yang lain tetap, tentukan model


42

regresi robust dari masing-masing nilai outlier. Bandingkan model regresi robust den-

gan model regresi kuadrat terkecil, apakah model regresi robust sama dengan model

regresi kuadrat terkecil? Jelaskan!

Jawab:

Karena outlier berada pada sumbu X yaitu pada observasi ke-6, maka data pada

observasi ke-6 akan diubah-ubah dengan nilai 30, 40, 48, 150, dan 150.000, sedangkan

data yang lainnya tetap. Untuk mendapatkan model regresi robust dari kelima nilai

tersebut digunakan program MATLAB. Dari M-file pada program MATLAB yang

secara lengkap diberikan dalam Lampiran B, diperoleh model regresi kuadrat terkecil

yang diberikan dalam Tabel 3.5.

Dengan menggunakan nilai penduga 0β model regresi kuadrat terkecil yang

dapat dilihat pada Tabel 3.5 diperoleh nilai 0ε , 0h , dan 0σ yang dapat dilihat pada

Lampiran C, selanjutnya untuk mendapatkan penduga β akan dicari dengan

menggunakan iterasi yaitu Iteratively Reweighted Least Squares (IRLS) yang tahapan

penyelesaiannya diberikan dalam Lampiran B. Untuk mendapatkan penduga β akan

digunakan kriteria Huber’s. Model regresi robust dari kelima perubahan nilai outlier

diberikan dalam Tabel 3.5 dan bentuk kuadrat terkecil dan bentuk robust ditunjukkan

dalam Tabel 3.6.

Tabel 3.5.Model Regresi Kuadrat Terkecil dan Model Regresi Robust

Data Outlier Regresi Kuadrat Terkecil Regresi robust 30 =Y 803.7408 - 0.1513 X =Y 850.8747 - 4.1047 X 40 =Y 797.2385 + 0.2507 X =Y 842.6575 - 3.4602 X 48 =Y 795.6952 + 0.3211 X =Y 795.6952 +0.3211X 150 =Y 795.8804 + 0.1711 X =Y 795.8804 + 0.1711 X

150000 =Y 797.4982 + 0.0002 X =Y 797.4982 + 0.0002 X


43

Tabel 3.6. Bentuk kuadrat terkecil dan bentuk robust

Data Outlier Bentuk kuadrat terkecil dan bentuk robust

30

5 10 15 20 25 30720

740

760

780

800

820

840dataMKTRobust

40

5 10 15 20 25 30 35 40700

720

740

760

780

800

820

840dataMKTRobust

48

5 10 15 20 25 30 35 40 45 50770

780

790

800

810

820

830dataMKTRobust


44


150

0 50 100 150770

780

790

800

810

820

830dataMKTRobust

150000

0 5 10 15

x 104

770

780

790

800

810

820

830dataMKTRobuist

Untuk nilai outlier 30 dan 40 model regresi robust tidak sama dengan model

regresi kuadrat terkecil hal ini disebabkan karena nilai bobotnya bukan matriks yang

setiap elemennya bernilai satu. Sedangkan untuk nilai outlier 48, 150, 150000 model

regresi robust sama dengan model regresi kuadrat terkecil hal ini disebabkan karena

nilai bobotnya merupakan matriks yang setiap elemen-elemennya bernilai satu. Nilai

bobot untuk masing-masing simulasi diberikan dalam Lampiran C.

Contoh 3.7





45


Observasi X Y 1 18 770 2 16 785 3 15 790 4 12 800 5 10 810 6 7 885 7 6 825

Apakah data dalam Tabel 3.7 memuat outlier? Jika ya, ambil 5 nilai outlier yang

berbeda yaitu 885, 950, 5000, 9999, dan 9999999. Dengan mengubah-ubah nilai outlier

dengan kelima nilai tersebut sedangkan data yang lain tetap, tTentukan model regresi

robust dari masing-masing nilai outlier. Bandingkan model regresi robust dengan

model regresi kuadrat terkecil, apakah model regresi robust sama dengan model regresi

kuadrat terkecil? Jelaskan!

Jawab:

Untuk mengetahui apakah data dalam Tabel 3.7 memuat outlier atau tidak maka

terlebih dahulu dihitung nilai kuartil (Q) 1, 2, dan 3 serta jangkauan (IQR, Interquartile

Range) seperti yang tercantum dalam Tabel 3.8


Y Q1 785 Q2 800 Q3 825 IQR 40

1.5*IQR 60

Dari Tabel 3.8. outlier terletak pada daerah Y < 725 dan Y > 885. Karena nilai

Y pada observasi ke-6 yaitu Y = 885 berada pada daerah outlier maka data tersebut

memuat outlier di sumbu Y.


46


Gambar 3.10.

Y

760.00

780.00

800.00

820.00

840.00

860.00

880.00

900.00

6

Gambar 3.10. Boxplot untuk variabel Y

Dari Gambar 3.10. terlihat bahwa data pada observasi ke-6 berada di daerah

outlier. Jadi data tersebut memuat outlier di sumbu Y.

Karena outlier berada pada sumbu Y yaitu pada observasi ke-6 maka data pada

observasi ke-6 akan diubah-ubah dengan nilai 885, 950, 5000, 9999, dan 9999999

sedangkan data yang lainnya tetap. Untuk mendapatkan model regresi robust dari

kelima nilai tersebut akan dibantu dengan program MATLAB. Dari M-file pada

program MATLAB yang secara lengkap diberikan dalam Lampiran D, diperoleh model

regresi kuadrat terkecil yang diberikan dalam Tabel 3.8.

Dengan menggunakan nilai penduga 0β model regresi kuadrat terkecil yang

dapat dilihat pada Tabel 3.9 diperoleh nilai 0ε , 0h , dan 0σ yang diberikan dalam

Lampiran E, selanjutnya untuk mendapatkan penduga β akan dicari dengan

menggunakan iterasi yaitu Iteratively Reweighted Least Squares (IRLS) yang tahapan

penyelesaiannya diberikan dalam Lampiran D. Untuk mendapatkan penduga β akan


47

digunakan kriteria Huber’s. Model regresi robust dari kelima simulasi diberikan dalam

Tabel 3.9 dan bentuk kuadrat terkecil dan bentuk robust ditunjukkan Dalam Tabel 3.10.

Tabel 3.9. Model regresi Kuadrat terkecil dan Model regresi Robust

Data Outlier Regresi Kuadrat Terkecil Regresi robust 885 =Y 891.6667 - 6.8651 X =Y 859.5152 - 4.8041 X 950 =Y 931.9048 - 9.4444 X =Y 859.5152 - 4.8041 X 5000 =Y 3439.0 – 170.2 X =Y 859.5152 - 4.8041 X 9999 =Y 6533.7 – 368.5 X =Y 859.5152 - 4.8041 X

9999999 =Y 6190800 – 396800 X =Y 859.5152 - 4.8041 X

Tabel 3.10 bentuk kuadrat terkecil dan bentuk robust


885

6 8 10 12 14 16 18760

780

800

820

840

860

880

900dataMKTRobust

950

6 8 10 12 14 16 18760

780

800

820

840

860

880

900

920

940

960dataMKTRobust


48


5000

6 8 10 12 14 16 180

500

1000

1500

2000

2500

3000

3500

4000

4500

5000dataMKTRobust

9999

6 8 10 12 14 16 18-2000

0

2000

4000

6000

8000

10000dataMKTRobust

9999999

6 8 10 12 14 16 18-2

0

2

4

6

8

10x 10

6

dataMKTRobust

Untuk beberapa nilai outlier yang digunakan sebagai simulasi model regresi

robust tidak sama dengan model regresi kuadrat terkecil. Oleh karena itu model regresi

robust tidak terpengaruh adanya data outlier.


49

BAB IV

APLIKASI REGRESI ROBUST

A. Ketenagakerjaan Suatu Negara di Eropa pada tahun 1974 dan 1992

Suatu Negara di Eropa ingin mengetahui apakah ketenagakerjaan pada tahun

1974 dan 1992 saling terkait dan saling mempengaruhi. Untuk itu pemerintahan di

negara itu mensurvei jumlah ketenagakerjaan tahun 1974 dan 1992 yang dicantumkan

dalam Tabel 4.1. Dengan Υ = ketenagakerjaan tahun 1992 dan Χ = ketenagakerjaan

tahun 1974. Tentukan model regresi robust data pada Tabel 4.1!

Tabel 4.1. Ketenagakerjaan suatu negara di Eropa tahun 1974 dan 1992 (dalam

ribuan)

Negeri X Y Germany 232 132ª Italy 96 50 France 158 43 United Kingdom 194 41 Spain 89 33 Belgium 64 25 Netherlands 25 16 Luxembourg 23 8 Portugal 4 3 Denmark 2 1 Total 887 353

ª Terdiri dari Jerman timur

Jawab:

Dengan menggunakan model

εββ +Χ+=Υ 10

Dari M-File MATLAB yang secara lengkap diberikan dalam Lampiran F,

diperoleh persamaan kuadrat terkecil sebagai berikut:

Χ+−=Υ 4004.03139.0ˆ (4.1)


50

dengan 7357.02 =R dan dari output SPSS yang diberikan dalam Lampiran G korelasi

antara Y dan X tinggi yaitu r = 0.858. Dengan melihat studentized residual yang

dicantumkan dalam Lampiran F, pengamatan 1 dan 4 merupakan outlier dengan

studentized residual 2.5347 dan -2.0653 yang menunjukkan bahwa nilainya besar.

Sekarang perhatikan catatan dibawah Tabel 4.1. Sejak tahun 1992 untuk Jerman

menggunakan Jerman Timur (dimana tahun 1974 bukan), mungkin saja terlalu besar.

Hal ini dapat disesuaikan dengan faktor perbandingan Jerman Barat dan populasi

Jerman di tahun 1992 sebesar 8063 . Hal ini menggantikan 132 dengan 104132

8063

=⋅ .

Dari M-File MATLAB yang secara lengkap diberikan dalam Lampiran H,

diperoleh persamaan kuadrat terkecil sebagai berikut:

Χ+=Υ 3337.08026.2ˆ (4.2)

dengan 0.79812 =R dan dari output SPSS yang diberikan dalam Lampiran I korelasi

antara Y dan X tinggi yaitu r = 0.893. Dengan melihat studentized residual yang

dicantumkan dalam Lampiran H, pengamatan 1 dan 4 merupakan outlier dengan

studentized residual 2.1863 dan -2.1552 yang menunjukkan bahwa nilainya besar.

Untuk mendapatkan nilai penduga parameter model regresi robust yang tidak

terpengaruh outlier digunakan metode M-Estimasi dengan bobot kriteria Huber’s.

Penyelesaian model regresi robust menggunakan bobot kriteria Huber’s dengan

ketenagakerjaan tahun 1992 untuk Negara Jerman menggunakan Jerman Barat dan

Jerman Timur adalah sebagai berikut: Dengan menggunakan nilai penduga 0β yang

diperoleh dari model kuadrat terkecil dan rumus bobot Persamaan 3.29, serta

melakukan analisa dengan bantuan program M-file MATLAB yang dicantumkan dalam

Lampiran F diperoleh bobot awal 0W sebagai berikut:

[0.2564, 1, 0.6141, 0.3147, 1, 1, 1, 1, 1, 1] T (4.3)


51

Dengan memasukkan 0W ke Persamaan (3.25), diperoleh

[ ]T3686.0,1078.21ˆ =β . Dengan menggunakan nilai penduga 1β dan rumus bobot

Persamaan 3.29, serta melakukan analisa dengan bantuan program M-file MATLAB

yang dicantumkan dalam Lampiran F diperoleh bobot 1W sebagai berikut:

[0.2186, 0.9841, 0.6771, 0.3364, 1, 1, 1, 1, 1, 1] T (4.4)

Dengan memasukkan 1W ke Persamaan (3.26) dan mengulangi iterasi sampai

mencapai konvergen (dalam M-file yang dicantumkan dalam Lampiran F diperlihatkan

bahwa iterasi dilakukan sampai 19 iterasi) diperoleh model regresi robust sebagai

berikut:

Χ+=Υ 3027.09147.3ˆ (4.5)

Model regresi kuadrat terkecil dan model regresi robust ditunjukkan dalam Gambar 4.1.

0 50 100 150 200 2500

20

40

60

80

100

120

140

dataMKTRobust

Gambar 4.1. Model regresi kuadrat terkecil dan model regresi robust kriteria Huber’s

Sekarang dengan memperthatikan catatan di bawah Tabel 4.1, penyelesaian

model regresi robust menggunakan bobot kriteria Huber’s dengan ketenagakerjaan

tahun 1992 untuk Negara Jerman menggunakan Jerman Timur (dimana tahun 1974

bukan) adalah sebagai berikut. Dengan menggunakan nilai penduga 0β dari Persamaan

4.2 dan rumus bobot kriteria Huber’s dengan 345.1=a , serta melakukan analisa


52

dengan bantuan program M-file MATLAB yang dicantumkan dalam Lampiran H

diperoleh bobot awal 0W sebagai berikut:

[0.3573, 0.7109, 0.8221, 0.3624, 1, 1, 1, 1, 1, 1] T (4.6)

Dengan memasukkan bobot tersebut ke Persamaan (3.25), diperoleh

[ ]T0.3253 3.3086,ˆ1 =β . Dengan menggunakan nilai penduga 1β dan rumus bobot

kriteria Huber’s dengan 345.1=a , serta melakukan analisa dengan bantuan program

M-file MATLAB yang dicantumkan dalam Lampiran H diperoleh bobot 1W sebagai

berikut:

[0.3259, 0.6744, 0.8515, 0.3662, 1, 1, 1, 1, 1, 1] T (4.7)

Dengan memasukkan bobot tersebut ke Persamaan (3.26) dan mengulangi ite-

rasi diatas sampai mencapai konvergen (dalam M-file yang dicantunkan dalam

Lampiran H diperlihatkan bahwa iterasi dilakukan sampai 18 iterasi) diperoleh model

regresi sebagai berikut

Χ+=Υ 3027.09147.3ˆ (4.8)

Model regresi kuadrat terkecil dan model regresi robust kriteria Huber’s ditunjukkan

dalam Gambar 4.2.

0 50 100 150 200 2500

20

40

60

80

100

120dataMKTRobust

Gambar 4.2. Model regresi kuadrat terkecil dan model regresi robust kriteria Huber’s


53

B. Kerugian Penjualan Motor Bekas Suatu Dealer Motor

Suatu Dealer motor yang mengalami gulung tikar ingin mengetahui apakah

harga jual, harga beli, dan biaya perawatan berpengaruh pada laba / rugi usahanya.

Untuk itu pemilik dealer melihat kembali data perusahaan yang dicantumkan dalam

Tabel 4.2 dengan Υ = Kerugian yang dialami penjual (dalam %) 1Χ = Harga jual, 2Χ

= Harga beli, dan 3Χ = Biaya Perawatan . Tentukan model regresi robust yang sesuai

dengan data pada Tabel 4.2! Gunakan metode Huber’s, Bisquare, dan Andrew’s!

Tabel 4.2. Kerugian setiap penjualan motor bekas

Y 1Χ 2Χ 3Χ 29 14 20 7 32 18 23 10 31 21 25 14 35 27 32 133 38 167 38 26 44 50 147 37 41 46 46 34 42 42 42 31 46 51 51 41 45 57 57 44 50 77 69 60 51 72 63 55 48 65 59 50 55 82 73 63 58 83 75 66 59 91 81 71 63 106 87 84 67 98 85 79 62 95 84 74 70 109 98 91 29 14 20 7 32 18 23 10 31 21 25 14 90 27 32 20 38 167 38 26

Jawab:

Dengan menggunakan model


54

NiXXXY ikikiii ,,3,2,1 33221 KL =+++++= εββββ

Dari M-File MATLAB yang secara rinci diberikan dalam Lampiran J, diperoleh

persamaan kuadrat terkecil sebagai berikut:

321 0.13130.1699X0.1165X22.6275ˆ Χ+++=Υ (4.9)

dengan 0.72602 =R dan dari output SPSS yang diberikan dalam Lampiran K korelasi

antara Y dan 1Χ yaitu r = 0.638, korelasi antara Y dan 2Χ yaitu r = 0.697, korelasi

antara Y dan 3Χ yaitu r = 0.605. Dengan melihat studentized residual yang

dicantumkan dalam Lampiran J, pengamatan 4 pada 1Χ , 6 pada 2Χ , dan 5 pada 3Χ

merupakan outlier dengan studentized residual -3.9734, -3.9235, dan -3.9567, yang

menunjukkan bahwa nilainya besar.

Untuk mendapatkan nilai penduga parameter model regresi robust yang tidak

terpengaruh outlier digunakan metode M-Estimasi dengan bobot kriteria Huber’s.

Penyelesaian model regresi robust kerugian penjualan motor bekas suatu dealer

motor dengan metode M-estimasi kriteria Huber’s adalah sebagai berikut. Dengan

menggunakan nilai penduga 0β dari Persamaan 4.13 dan rumus bobot kriteria Huber’s

dengan 345.1=a , serta melakukan analisa dengan bantuan program M-file MATLAB

yang secara rinci diberikan dalam Lampiran J diperoleh bobot awal 0W sebagai

berikut:

[1, 1, 1, 0.1544, 0.1564, 0.1551, 1, 1, 1, 1, 1, 1, 1, 1, 0.9345, 1, 1, 0.4818, 0.9153,

0.6218 ] T

Dengan memasukkan bobot tersebut ke Persamaan (3.25), diperoleh

[ ]T0.1450 0.1808, 0.1219, 22.6702,ˆ1 =β . Dengan menggunakan nilai penduga 1β dan

rumus bobot kriteria Huber’s dengan 345.1=a , serta melakukan analisa dengan


55

bantuan program M-file MATLAB yang secara rinci diberikan dalam Lampiran J

diperoleh bobot 1W sebagai berikut:

[1, 1, 1, 0.1251, 0.1323, 0.1259, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0.6691, 1, 1] T

Dengan memasukkan bobot tersebut ke Persamaan (3.26) dan mengulangi ite-

rasi sampai mencapai konvergen (dalam M-file yang dicantumkan dalam Lampiran J

diperlihatkan bahwa iterasi dilakukan sampai 264 iterasi) diperoleh model regresi

sebagai berikut

321 0.29760.1644X0.0149X23.2265 ˆ Χ+++=Υ (4.10)

Dengan bobot akhir [1, 1, 1, 0.0524, 1, 0.1214, 1, 1, 1, 1, 0.9382, 1, 1, 1, 1, 1, 1,

0.6740, 1, 1] T


56

BAB V

PENUTUP

A. Kesimpulan

Outlier adalah pengamatan dengan nilai residual yang besar. Untuk mendeteksi

suatu data yang memuat outlier dan menentukan batasannya digunakan:

1. Metode Grafis (Scatter-Plot)

2. Boxplot

3. Residu yang distudentkan (Studentized Residual)

Dalam regresi, ketika iε memuat outlier yang berpengaruh pada model, untuk

mendapatkan parameter-parameter dalam model regresi yang tidak terpengaruh oleh

outlier dapat menggunakan regresi robust. Regresi robust adalah alat penting untuk

menganalisa data yang dipengaruhi oleh outlier sehingga dihasilkan model yang tidak

terpengaruh oleh outlier.

Penyelesaian parameter-parameter dalam regresi robust menggunakan metode

M-Estimasi. Penduga parameter β pada regresi robust adalah

( ) ΥWΧΧWΧβ β′′= −1β

dengan βW adalah matriks diagonal nn× dari bobot, dengan elemen-elemen diagonal

( )βββ nwww ,,, 21 K . Fungsi bobot yang digunakan untuk mendapatkan penduga

parameter β adalah fungsi bobot kriteria Huber’s dengan rumus fungsi bobot sebagai

berikut:


57

⎪⎪⎩

⎪⎪⎨

⎧ ≤

>=

a

aaW

uuntuk 1

uuntuk u

β

dengan a adalah tuning konstan, tuning konstan yang digunakan a = 1,345 dan

h−=

1σεu , dengan 6745,0

1med

1med ⎟⎟

⎠

⎞⎜⎜⎝

⎛−

−−

=hh

εεσ , ( ) ii xxh 1i XX −′′=

Pada umumnya M-Estimasi Huber akan memberikan bobot yang kecil (bobot

1<βiw ) untuk au > , namun ketika au ≤ M-estimasi akan memberikan bobot

1=βiw . Ketika 1W =β maka n10 βββ ˆˆˆ === L sehingga model regresi robust sama

dengan model regresi kuadrat terkecil. Kesukaran dalam mendapatkan penduga

parameter β adalah bahwa βW tergantung pada β dan β tergantung pada βW ,

sehingga untuk mendapatkan nilai β digunakan suatu iterasi yang disebut dengan

iteratively reweighted least squares (IRLS).

Dari Contoh 3.6 dengan mengubah-ubah nilai outlier sedangkan data lain tetap,

model regresi robust dari kelima nilai yang digunakan berbeda, hal ini disebabkan

karena data pada sumbu X sangat berpengaruh pada perubahan nilai ε , h , dan σ . Dari

Contoh 3.7 dengan mengubah-ubah nilai outlier sedangkan data lain tetap, model

regresi robust dari kelima nilai yang digunakan selalu sama, hal ini disebabkan karena

perubahan nilai Y tidak mempengaruhi perubahan nilai ε , h , dan σ .

Adanya nilai outlier yang tinggi pada sumbu X dapat mempengaruhi model

regresi robust, hal ini ditunjukkan dengan model regresi robust sama dengan model

regresi kuadrat terkecil, sedangkan adanya outlier pada sumbu Y tidak mempengaruhi

model regresi yaitu ditunjukkan dengan model regresi robust tidak sama dengan model

regresi kuadrat terkecil.


58

B. Saran

Dalam penulisan makalah ini tentunya penulis masih melakukan banyak

kesalahan, oleh karena itu kritik dan saran yang membangun sangat diharapkan. Penulis

juga menyarankan untuk pembahasan regresi robust menggunakan metode estimasi

yang belum dibahas oleh penulis dalam makalah ini.


59

DAFTAR PUSTAKA

Andrews, dkk. 1972. Robust Estimates of Location. Princeton, NJ: Princeton University Press

Berger, R.L. and Casella, G. 2002. Statistical Inference Second Edition. Chen, C. 2002. Robust Regression and Outlier Detection with the ROBUSTREG

Procedure, www2.sas.com, Sugi paper 265-27, SAS Institute, Cary, NC Damodar, Gujarati. 1978. Ekonometrika Dasar. Jakarta: Penerbit Erlangga Dodge, Y. and Birkes, D. 1993. Alternative Methods of Regression. New York: John

Wiley & Sons, INC Draper, N.R. and Smith. 1998. Applied Regression Analysis Third Edition. New York:

Wiley series in probability and statistics ISBN 0-471-17082-8 Galton, F. 1886. “Family Likeness in Stature,” Proceedings of Royal Society, vol. 40,

42-72. London Maronna, R.A., Martin, R.D. and Yohai, V.J. 2006. Robust Statistics: Theory and

Methods. New Delhi: John Wiley & Sons, Ltd ISBN: 0-470-01092-4 Plackett, R. L. 1972. Studies in the history of probability and statistics XXIX: The

discovery of the method of least squares, Biometrika, 59, 239-251.[Epigraph, 1.1, 3.41

Ripley, B.D. and Venables, W.N. 2002. Modern Applied Statistics With S: Statistics

and Computing. New York: Springer Rousseeuw, P.J. 1984. Least Median of Squares Regression, Journal of the American

Statistical Association, vol. 79, Number 388: Theory and Methods Section, 871-880

Rousseeuw, P.J. and Leroy, A.M. 1987. Robust Regression and Outlier Detection. New

York: Wiley series in Applied Probability and Statistics ISBN 0-471-85233-3 Ryan, T.P. 1984. Modern Regression Methods. New York: Wiley series in Probability

and Statistics Sawyer, S. 2003. Robust Estimation of Regression Parameters Staudte, R. G, and Sheather, S.J. 1990. Robust Estimation and Testing. New York:

Wiley Stigler, S. M. 1981. Gauss and the invention of least squares, Ann. Stat. 9. 465-474.

[1.1]


60

Supranto, J. 1986. Pengantar Probabilita dan Statistik Induktif Jilid II. Jakarta: Penerbit Erlangga

Surjadi, P. A. 1990. Pendahuluan Teori Kemungkinan dan Statistika. Bandung: ITB http: // [email protected]/2009/12/5/ robust regresi/ http: // [email protected]/2009/11/22/ robust regression/



62

Lampiran A:

clear;

clc;

X = [18; 16; 15; 12; 10; 7; 6]

Y = [770; 785; 790; 800; 810; 825; 830]

x = [ones(7,1) X];

H = x*inv(x'*x)*x';

h = [H(1); H(9); H(17); H(25); H(33); H(41); H(49)];

bls = regress(Y,x)

r = Y-bls(1)-bls(2)*X;

s = sqrt(sum(r.^2)./5);

Studentized = r./(s*sqrt(1-h));

Lampiran B: Regresi Robust dengan M-Estimasi Kriteria Huber’s Contoh 3.6

clear;

clc;

X = [18; 16; 15; 12; 10; 30; 6]

Y = [770; 785; 790; 800; 810; 825; 830]

x = [ones(7,1) X];

[n,p] = size (x);

H = x*inv(x'*x)*x';

h = [H(1); H(9); H(17); H(25); H(33); H(41); H(49)];

bls = regress(Y,x)

Ytopi = bls(1)+bls(2)*X;

r = Y-Ytopi;

MSE = sqrt(sum(r.^2)./(n-p));

Studentized = r./(MSE*sqrt(1-h));

Ybar = sum(Y)/n;

R = sum((Ytopi-Ybar).^2)/sum((Y-Ybar).^2

)radj = r ./sqrt(1-h);

rs = sort(abs(radj-median(radj)));

s = median(rs(max(1,p):end)) / 0.6745;


63

u = radj/s;

W = 1.345./max(1.345, abs(u));

bobot = [W(1) 0 0 0 0 0 0;

0 W(2) 0 0 0 0 0;

0 0 W(3) 0 0 0 0;

0 0 0 W(4) 0 0 0;

0 0 0 0 W(5) 0 0;

0 0 0 0 0 W(6) 0;

0 0 0 0 0 0 W(7)];

Beta = inv(x'*bobot*x)*x'*bobot*Y

for r = 1:36

r = Y-Beta(1)-Beta(2)*X;

radj = r ./sqrt(1-h);



u = radj/s;

W = 1.345./max(1.345, abs(u));

bobot = [W(1) 0 0 0 0 0 0;

0 W(2) 0 0 0 0 0;

0 0 W(3) 0 0 0 0;

0 0 0 W(4) 0 0 0;

0 0 0 0 W(5) 0 0;

0 0 0 0 0 W(6) 0;

0 0 0 0 0 0 W(7)];


end

scatter(X,Y)

hold on

plot(X,bls(1)+bls(2)*X,'g:')

plot(X,Beta(1)+Beta(2)*X,'r-')


64

Lampiran C: Informasi Contoh 3.6

X 0ε 0σ h1− 0u 0W

30

-31.0180 -16.3205

-11.4718 -1.9256 7.7719

25.7972 27.1668

35.0849

0.9144 0.9250 0.9257 0.9090 0.8816 0.4874 0.7813

-0.9669 -0.5029 -0.3532 -0.0604 0.2513 1.5087 0.9911

1.0000 1.0000 1.0000 1.0000 1.0000 0.8915 1.0000

40

-31.7509 -16.2495 -10.9988 -0.2468 10.2546 17.7340 31.2573

38.0698

0.9246 0.9254 0.9236 0.9092 0.8918 0.3373 0.8365

-0.9020 -0.4612 -0.3128 -0.0071 0.3020 1.3810 0.9815

1.0000 1.0000 1.0000 1.0000 1.0000 0.9740 1.0000

48

-31.4744 -15.8323 -10.5112 0.4520

11.0941 13.8936 32.3784

38.6368

0.9258 0.9242 0.9220 0.9097 0.8965 0.2679 0.8577

-0.8799 -0.4434 -0.2951 0.0129 0.3203 1.3425 0.9771

1 1 1 1 1 1 1

150

-28.9600 -13.6178 -8.4467 2.0666

12.4087 3.4561

33.0931

37.7344

0.9189 0.9168 0.9157 0.9118 0.9089 0.0715 0.9023

-0.8352 -0.3936 -0.2445 0.0601 0.3618 1.2805 0.9720

1 1 1 1 1 1 1

150000

-27.5015 -12.5011 -7.5009 2.4996

12.5000 0.0031

32.5007

36.5432

0.9129 0.9129 0.9129 0.9129 0.9129 0.0001 0.9129

-0.8244 -0.3747 -0.2249 0.0749 0.3747 1.2723 0.9743

1 1 1 1 1 1 1

Lampiran D: Regresi Robust dengan M-Estimasi Kriteria Huber’s Contoh 3.7

clear;

clc;

X = [18; 16; 15; 12; 10; 7; 6]

Y = [770; 785; 790; 800; 810; 885; 825]

x = [ones(7,1) X];


65

[n,p] = size (x);

H = x*inv(x'*x)*x';

h = [H(1); H(9); H(17); H(25); H(33); H(41); H(49)];

bls = regress(Y,x)


r = Y-Ytopi;



Ybar = sum(Y)/n;

R = sum((Ytopi-Ybar).^2)/sum((Y-Ybar).^2)radj = r ./sqrt(1-h);



u = radj/s;

W = 1.345./max(1.345, abs(u));

bobot = [W(1) 0 0 0 0 0 0;

0 W(2) 0 0 0 0 0;

0 0 W(3) 0 0 0 0;

0 0 0 W(4) 0 0 0;

0 0 0 0 W(5) 0 0;

0 0 0 0 0 W(6) 0;

0 0 0 0 0 0 W(7)];


for r = 1:36





u = radj/s

W = 1.345./max(1.345, abs(u));

bobot = [W(1) 0 0 0 0 0 0;

0 W(2) 0 0 0 0 0;

0 0 W(3) 0 0 0 0;

0 0 0 W(4) 0 0 0;

0 0 0 0 W(5) 0 0;


66

0 0 0 0 0 W(6) 0;

0 0 0 0 0 0 W(7)];


end

scatter(X,Y)

hold on



Lampiran E: Informasi Contoh 3.7

Y 0ε 0σ h1− 0u 0W 885 1.9048

3.1746 1.3095 -9.2857 -13.0159 41.3889 -25.4762

20.2453

0.7559 0.8545 0.8864 0.9258 0.9085 0.8116 0.7559

0.1245 0.1835 0.0730 -0.4954 -0.7076 2.5189 -1.6647

1.0000 1.0000 1.0000 1.0000 1.0000 0.5340 0.8080

950 8.0952 4.2063 -0.2381 -18.5714 -27.4603 84.2063 -50.2381

36.8775

0.7559 0.8545 0.8864 0.9258 0.9085 0.8116 0.7559

0.2904 0.1335 -0.0073 -0.5439 -0.8196 2.8134 -1.8021

1.0000 1.0000 1.0000 1.0000 1.0000 0.4781 0.7463

5000 1.0e+003 *

0.3938 0.0685 -0.0967 -0.5971 -0.9275 2.7521 -1.5931

1.1429e+003

0.7559 0.8545 0.8864 0.9258 0.9085 0.8116 0.7559

0.4558 0.0701 -0.0954 -0.5643 -0.8932 2.9668 -1.8439

1.0000 1.0000 1.0000 1.0000 1.0000 0.4534 0.7294

9999 1.0e+003 *

0.8699 0.1478 -0.2157 -1.3113 -2.0383 6.0451 -3.4975

2.5162e+003

0.7559 0.8545 0.8864 0.9258 0.9085 0.8116 0.7559

0.4573 0.0688 -0.0967 -0.5629 -0.8917 2.9600 -1.8388

1.0000 1.0000 1.0000 1.0000 1.0000 0.4544 0.7315


67

Y 0ε 0σ h1− 0u 0W 9999999 1.0e+006 *

0.9523 0.1587 -0.2381 -1.4285 -2.2220 6.5868 -3.8092

2.7469e+006

0.7559 0.8545 0.8864 0.9258 0.9085 0.8116 0.7559

0.4586 0.0676 -0.0978 -0.5617 -0.8904 2.9544 -1.8345

1.0000 1.0000 1.0000 1.0000 1.0000 0.4552 0.7332

Lampiran F: Regresi Robust Kriteria Huber’s ketenagakerjaan tahun 1992 untuk

Negara Jerman menggunakan Jerman Barat dan Jerman Timur

clear;

clc;

X = [232; 96; 158; 194; 89; 64; 25; 23; 4; 2];

Y = [132; 50; 43; 41; 33; 25; 16; 8; 3; 1];

x = [ones(10,1) X];

[n,p] = size (x);

H = x*inv(x'*x)*x';

h = [H(1); H(12); H(23); H(34); H(45); H(56); H(67); H(78); H(89); H(100)];

bls = regress(Y,x);


r = Y-Ytopi;



Ybar = sum(Y)/n;

R = sum((Ytopi-Ybar).^2)/sum((Y-Ybar).^2);




u = radj/s;

W = 1.345./max(1.345, abs(u));

bobot = [W(1) 0 0 0 0 0 0 0 0 0;

0 W(2) 0 0 0 0 0 0 0 0;

0 0 W(3) 0 0 0 0 0 0 0;


68

0 0 0 W(4) 0 0 0 0 0 0;

0 0 0 0 W(5) 0 0 0 0 0;

0 0 0 0 0 W(6) 0 0 0 0;

0 0 0 0 0 0 W(7) 0 0 0;

0 0 0 0 0 0 0 W(8) 0 0;

0 0 0 0 0 0 0 0 W(9) 0;

0 0 0 0 0 0 0 0 0 W(10)];


for r = 1:19





u = radj/s

W = 1.345./max(1.345, abs(u))

bobot = [W(1) 0 0 0 0 0 0 0 0 0;

0 W(2) 0 0 0 0 0 0 0 0;

0 0 W(3) 0 0 0 0 0 0 0;

0 0 0 W(4) 0 0 0 0 0 0;

0 0 0 0 W(5) 0 0 0 0 0;

0 0 0 0 0 W(6) 0 0 0 0;

0 0 0 0 0 0 W(7) 0 0 0;

0 0 0 0 0 0 0 W(8) 0 0;

0 0 0 0 0 0 0 0 W(9) 0;

0 0 0 0 0 0 0 0 0 W(10)];


end

scatter(X,Y)

hold on




69

Lampiran G: Korelasi X dan Y ketenagakerjaan tahun 1992 untuk Negara

Jerman menggunakan Jerman Barat dan Jerman Timur

Y X Y Pearson

Correlation 1 .858(**)

Sig. (2-tailed) . .002N 10 10

X Pearson Correlation .858(**) 1

Sig. (2-tailed) .002 .N 10 10

** Correlation is significant at the 0.01 level (2-tailed).

Lampiran H: Regresi Robust Kriteria Huber’s ketenagakerjaan tahun 1992 untuk

Negara Jerman menggunakan Jerman Timur (dimana tahun 1974 bukan)

clear;

clc;

X = [232; 96; 158; 194; 89; 64; 25; 23; 4; 2];

Y = [104; 50; 43; 41; 33; 25; 16; 8; 3; 1]

x = [ones(10,1) X];

[n,p] = size (x);

H = x*inv(x'*x)*x';

h = [H(1); H(12); H(23); H(34); H(45); H(56); H(67); H(78); H(89); H(100)];

bls = regress(Y,x)


r = Y-Ytopi;



Ybar = sum(Y)/n;





u = radj/s;

W = 1.345./max(1.345, abs(u));

bobot = [W(1) 0 0 0 0 0 0 0 0 0;


70

0 W(2) 0 0 0 0 0 0 0 0;

0 0 W(3) 0 0 0 0 0 0 0;

0 0 0 W(4) 0 0 0 0 0 0;

0 0 0 0 W(5) 0 0 0 0 0;

0 0 0 0 0 W(6) 0 0 0 0;

0 0 0 0 0 0 W(7) 0 0 0;

0 0 0 0 0 0 0 W(8) 0 0;

0 0 0 0 0 0 0 0 W(9) 0;

0 0 0 0 0 0 0 0 0 W(10)];


for r = 1:19





u = radj/s

W = 1.345./max(1.345, abs(u))

bobot = [W(1) 0 0 0 0 0 0 0 0 0;

0 W(2) 0 0 0 0 0 0 0 0;

0 0 W(3) 0 0 0 0 0 0 0;

0 0 0 W(4) 0 0 0 0 0 0;

0 0 0 0 W(5) 0 0 0 0 0;

0 0 0 0 0 W(6) 0 0 0 0;

0 0 0 0 0 0 W(7) 0 0 0;

0 0 0 0 0 0 0 W(8) 0 0;

0 0 0 0 0 0 0 0 W(9) 0;

0 0 0 0 0 0 0 0 0 W(10)];


end

scatter(X,Y)

hold on




71

Lampiran I: Korelasi X dan Y ketenagakerjaan tahun 1992 untuk Negara Jerman

menggunakan Jerman Timur (dimana tahun 1974 bukan)

Y X Y Pearson

Correlation 1 .893(**)

Sig. (2-tailed) . .000N 10 10

X Pearson Correlation .893(**) 1

Sig. (2-tailed) .000 .N 10 10


Lampiran J: Regresi Robust Dealer Motor

clear;

clc;

x1 = [14; 18; 21; 27; 167; 50; 46; 42; 51; 57; 77; 72; 65; 82; 83; 91; 106; 98; 95; 109]

x2 = [20; 23; 25; 32; 38; 147; 46; 42; 51; 57; 69; 63; 59; 73; 75; 81; 87; 85; 84; 98]

x3 = [7; 10; 14; 133; 26; 37; 34; 31; 41; 44; 60; 55; 50; 63; 66; 71; 84; 79; 74; 91]

Y = [29; 32; 31; 35; 38; 44; 41; 42; 46; 45; 50; 51; 48; 55; 58; 59; 63; 67; 62; 70]

Xx = [ x1 x2 x3];

[n,p] = size (Xx);

X = [ones(n,1) Xx];

H = X*inv(X'*X)*X';

h = [H(1); H(22); H(43); H(64); H(85); H(106); H(127); H(148); H(169); H(190);

H(211); H(232); H(253); H(274); H(295); H(316); H(337); H(358); H(379); H(400)]

bls = inv(X'*X)*X'*Y

Ytopi = bls(1)+bls(2)*x1+bls(3)*x2+bls(4)*x3;

r = Y-Ytopi;




72

Ybar = sum(Y)/n;





u = radj/s;

W = 1.345./max(1.345, abs(u));

bobot = [W(1) 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0;

0 W(2) 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0;

0 0 W(3) 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0;

0 0 0 W(4) 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0;

0 0 0 0 W(5) 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0;

0 0 0 0 0 W(6) 0 0 0 0 0 0 0 0 0 0 0 0 0 0;

0 0 0 0 0 0 W(7) 0 0 0 0 0 0 0 0 0 0 0 0 0;

0 0 0 0 0 0 0 W(8) 0 0 0 0 0 0 0 0 0 0 0 0;

0 0 0 0 0 0 0 0 W(9) 0 0 0 0 0 0 0 0 0 0 0;

0 0 0 0 0 0 0 0 0 W(10) 0 0 0 0 0 0 0 0 0 0;

0 0 0 0 0 0 0 0 0 0 W(11) 0 0 0 0 0 0 0 0 0;

0 0 0 0 0 0 0 0 0 0 0 W(12) 0 0 0 0 0 0 0 0;

0 0 0 0 0 0 0 0 0 0 0 0 W(13) 0 0 0 0 0 0 0;

0 0 0 0 0 0 0 0 0 0 0 0 0 W(14) 0 0 0 0 0 0;

0 0 0 0 0 0 0 0 0 0 0 0 0 0 W(15) 0 0 0 0 0;

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 W(16) 0 0 0 0;

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 W(17) 0 0 0;

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 W(18) 0 0;


73

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 W(19) 0;

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 W(20)];

Beta = inv(X'*bobot*X)*X'*bobot*Y

for r = 1:264;

r = Y-Beta(1)-Beta(2)*x1-Beta(3)*x2-Beta(4)*x3;




u = radj/s;

W = 1.345./max(1.345, abs(u));

bobot = [W(1) 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0;

0 W(2) 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0;

0 0 W(3) 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0;

0 0 0 W(4) 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0;

0 0 0 0 W(5) 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0;

0 0 0 0 0 W(6) 0 0 0 0 0 0 0 0 0 0 0 0 0 0;

0 0 0 0 0 0 W(7) 0 0 0 0 0 0 0 0 0 0 0 0 0;

0 0 0 0 0 0 0 W(8) 0 0 0 0 0 0 0 0 0 0 0 0;

0 0 0 0 0 0 0 0 W(9) 0 0 0 0 0 0 0 0 0 0 0;

0 0 0 0 0 0 0 0 0 W(10) 0 0 0 0 0 0 0 0 0 0;

0 0 0 0 0 0 0 0 0 0 W(11) 0 0 0 0 0 0 0 0 0;

0 0 0 0 0 0 0 0 0 0 0 W(12) 0 0 0 0 0 0 0 0;

0 0 0 0 0 0 0 0 0 0 0 0 W(13) 0 0 0 0 0 0 0;

0 0 0 0 0 0 0 0 0 0 0 0 0 W(14) 0 0 0 0 0 0;

0 0 0 0 0 0 0 0 0 0 0 0 0 0 W(15) 0 0 0 0 0;


74

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 W(16) 0 0 0 0;

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 W(17) 0 0 0;

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 W(18) 0 0;

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 W(19) 0;

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 W(20)];

Beta = inv(X'*bobot*X)*X'*bobot*Y

end

Boxplot(Xx)

Lampiran K: Korelasi antara Y, X1, X2, dan X3 Dealer Motor

Y X1 X2 X3 Y Pearson

Correlation 1 .638(**) .697(**) .605(**)

Sig. (2-tailed) . .002 .001 .005 N 20 20 20 20

X1 Pearson Correlation .638(**) 1 .410 .318

Sig. (2-tailed) .002 . .072 .172 N 20 20 20 20

X2 Pearson Correlation .697(**) .410 1 .375

Sig. (2-tailed) .001 .072 . .103 N 20 20 20 20

X3 Pearson Correlation .605(**) .318 .375 1

Sig. (2-tailed) .005 .172 .103 . N 20 20 20 20



Documents

REGRESI ROBUST DENGAN M-ESTIMASI … ROBUST DENGAN M-ESTIMASI MAKALAH Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Sains Program Studi Matematika Disusun oleh