Upload
dangquynh
View
234
Download
0
Embed Size (px)
Citation preview
LAPORAN
PRAKTIKUM ANALISIS DATA EKSPLORATIF
GEMPUR SAFAR(10877)
AsistenSIGIT SAMAPTAAJIBAGUS PRAMULYA
DosenDra. SRIHARYATMI KARTIKO, M.Sc.
LABORATORIUM KOMPUTASIMATEMATIKA DAN STATISTIKA
JURUSAN MATEMATIKAFAKULTAS MATEMATIKA & ILMU PENGETAHUAN ALAM
UNIVERSITAS GADJAH MADAYOGYAKARTA
2007
ANALISIS DATA EKSPLORATIF
1. Dasar Teori
A. Bentuk Visual Data
Bentuk visual data atau basa disebut angkatan merupakan bentuk
yang dikonstruksikan dari data yang merupakan visualisasi dari data
tersebut, artinya dari bentuk ini dapat dilihat misalnya pengelompokkan
data, pusat data, penyebaran data, sampai bentuk distribusi data.
Bentuk visual dari data dapat dilihat dari daftar tally, dan diagram
batang dan daun. Kedua bentuk visualisasi data ini memiliki kelebihan dan
kekurangan masing-masing.
Daftar tally secra garis besar dapat membantu dalam mengetahui
pemusatan, persebaran dan bentuk distribusi data. Namun, bentuk
visualisai data ini memiliki satu kekurangan, yaitu kita tidak dapat melihat
nilai dari setiap observasi secara lengkap, sebab sebagian besar daftar tally
disajikan dalam bentuk berkelompok (dalam bentuk interval), dan bahkan
jika secara tunggal, kita hanya akan mempunyai beberapa nilai observasi
yang mewakili nilai observasi yang sama.
Kelemahan daftar tally ini dapat kita tutpi dengan bentuk
visualisasi lainnya, yaitu diagram batang dan daun. Selain memiliki fungsi
yang sama dengan daftar tally, bentuk visualisasi ini juga memiliki
beberapa kelebihan seperti dapat digunakan dalam pembuatan array data,
dan membandingan 2 buah angkatan data.
Secara garis besar, bentuk-bentuk angkatan terdiri dari:
univorm Simetris Menjurai Keatas
Menjurai kebawah
Berpuncak Ganda
B. Ringkasan Numerik
Ringkasan numerik terdiri atas dua macam, yaitu:
a. Ukuran pusat yang berfungsi menunjukan letak pusat dari data, dan;
b. Ukuran sebaran yang berfungsi menunjukan seberapa besar data
menyebar.
a. Ukuran Pusat
Ukuran pemusatan data terdiri atas:
• Rata-rata
Penghitungan rata-rata melibatkan seluruh observasi yang
terdapat di dalam data.
_x =
n
xn
ii∑
= 1
• Median
Median adalah observasi yang terletak ditengah setelah data
diurutkan dari nilaiobservasi terkecil menuju terbesar atau
sebaliknya. Median ini membantu mengatasi masalah harga
ekstrim pada rata-rata, karena median tidak terpengaruh oleh
harga ekstrim.
Bila ukuran data agak besar, penentuan median dapat
mengikuti langkah-langkah berikut:
1. mengurutkan data
2. menghitung nilai n(banyak observasi)/2
3. n/2 membesar ke k (n/2 k)
(aturan tambahan, jika n/2 = m ½ dan m ¾ maka k = m+1
dan jika n/2 = m atau m 1/3 maka k = m + ½ )
4. median adalah observasi ke-k dari terkecil atau dari
terbesar
• Kuartil
Kuartil adalah harga yang membagi data menjadi empat
bagian yang sama yang selanjutnya disebut k1, k2 (median) dan k3.
Kuartil dapat ditentukan dengan terlebih dahulu menentukan nilai
n/4 p, dan selanjutnya diperoleh:
k1 = observasi ke-p dari yang terkecil
k3 = observasi ke-p dari yang terbesar.
• Modus
Modus adalah harga yang muncul dengan frekuensi paling
banyak. Suatu data bisa memiliki hanya satu modus, atau lebih
dari 2 modus, bahkan tidak mempunyai modus atau dapat dikatan
semua observasi adalah modus.
Oleh karena itu, nilai modus jarang digunakan dalam
menentukan pemusatan data.
• Trirata
Trirata adalah suatu ukuran pusat yang tidak dipengaruhi
oleh harga ekstrim. Trirata dapat dicari dengan menjumlahkan k1,
k3, dan 2 kali median dan selanjutnya di bagi 4 (empat). Atau
secara matematis :
Trirata = 4
2 321 kkk ++
• Rata-rata tengah
Rata-rata tengah adalah rata-rata dari observasi yang terletak di
antara kuartil 1 dan kuartil 3 tidak termasuk kuartil 1 dan kuartil
3 tersebut.
b. Ukuran Sebaran
Ukuran sebaran data terdiri atas:
Range (jangkauan)
Deviasi Kuartil
Mean Deviasi
Variansi
Standar Deviasi
C. Penggunaan Ringkasan Numerik
D. Transformasi Angakatan Data
2. Permasalahan
Adapun permasalahan yang akan dislesaikan pada laporan kali ini, yaitu:
1. Bagaimanakah cara membuat visualisasi data ?
2. Bagaimanakah cara untuk membuat ringkasan numerik ?
3. Bagaimanakah cara untuk melakukan standardisasi dan transformasi ?
Dan untuk menyelesaikan ketiga permasalahan tersebut, terlebih dahulu akan
diselesaikan contoh soal berikut:
a. untuk memutuskan jumlah konter servis dalam sebuah supermarket,
diperlukan data lama waktu antrian. Berikut ini adalah data lama waktu
antrian (dalam menit):3.6 1.9 1.1 1.4 0.6 1.1 1.6 1.8 0.2 2.8
1.2 1.9 2.1 0.3 1.3 2.5 0.8 5.2 0.3 1.1
3.1 1.1 1.0 0.5 0.8 0.5 0.4 0.4 0.9 1.8
0.2 1.2 2.3 1.2 0.7 0.3 1.0 0.6 1.8 0.4
3.1 1.1 1.4 1.1 4.5 1.3 1.7 0.6 1.8 0.8
0.9 0.8 1.1 0.7 1.6 1.7 0.7 1.3 2.2 0.6
i. buatlah visualisasi data dan ringkasan numeriknya !
ii. berapa proporsi antrian yang kurang atau sama dengan 1 menit ?
b. Ahli lingkungan hidup melakukan survey terhadap 28 ekor lumba-lumba
untuk mengetahui tingkat akumulasi zat mercury pada mamalia laut.
Konsentrasi air raksa (Hg) pada hati lumba-lumba tersebut diukur dalam
microgram per gram berat. Di bawah ini adalah data surveynya :1.70 183 221 286 101 264 316
1.72 168 406 315 209 85.4 481
8.8 218 252 241 445 314 118
5.9 180 329 397 485 278 318
Dari data-data tersebut divisualisasikan dengan membuat bentuk-bentuk
visulisasi data diantaranya daftar tally, diagram batang dan daun, dan
rigkasan numerik.
Buatlah visualisasi data dan ringkasan numeriknya !
c. Empat mahasiswa statistika ingin membandingkan jumlah pengunjung
pada 4 wartel yang ada di suatu kecamatan. Kemudian mereka melakukan
pengamatan selama beberapa hari, dan didapat hasil sebagai berikut:
wartel1 wartel2 wartel3 wartel429 31 13 2619 19 20 1824 31 15 2714 26 12 2921 30 18 2413 22 24 2518 29 11 2317 26 17 2730 32 12 3623 30 18 2718 23 17 2523 26 12 2921 27 22 2922 28 18 2919 32 16 22
i. Buatlah boxplot, diagram batang dan daun, serta ringkasan numerik
untuk data tersebut, lalu interprestasikan hasilnya !
ii. Lakukan standardisasi terhadap data yang ada dengan pusat mean dan
sebaran standar deviasi !
iii. Untuk perbandingan, lakukan standardisasi terhadap data yang ada
dengan pusat median dan sebaran range !
iv. Ulangi langkah 1 untuk data soal nomor 2 dan 3 !
v. Simpulkan hasilnya !
d. Lakukanlah transformasi data untuk variable head L, head W, Neck G,
length, chest G, dan weight pada file Bears.MTW.
i. Buatlah boxplot untuk tiap-tiap variable tersebut !
ii. Hitunglah nisbah untuk setiap transformasinya !
iii. Lakukan transformaasi data hingga diperoleh data yang dapat dikatan
simetris !
3. Pembahasan Permasalahan
a. Berikut ini adalah data lama waktu antrian (dalam menit):
Setelah kita menginputkan data yang akan dianalisis, selanjutnya kita akan
membuat visualisasi dan ringkasan numeric dari data tersebut:
a. Visualisasi data:
Visualisasi data akan disajikan dalam bentuk daftar tally dan diagram
batang dan daun.
Kedua bentuk visualisasi ini dapat kita buat secara manual maupun dengan
menggunakan perangkat lunak Minitab.
• Daftar tally
Secara Manual
1. data akan dibuat kedalam kelas-kelas interval dengan lebar
interval= { nilai tertinggi(5,2) – nilai terendah (0,2)}/ jumlah
kelas yang kita inginkan (missal 8)=0,63 dibulatkan 0,6.
2. setelah diketahui lebar interval, selanjutnya data
diklasifikasikan kedalam kelas masing-masing:
0,2 – 0,7 |||| |||| |||| || 17
0,8 – 1,3 |||| |||| |||| |||| | 21
1,4 – 1,9 |||| |||| || 12
2,0 – 2,5 |||| 4
2,6 – 3,1 ||| 3
3,2 – 3,7 | 1
3,8 – 4,3
4,4 – 4,9 | 1
5,0 – 5,5 | 1
Menggunakan Minitab:
3. setelah data diinputkan kedalam worksheet minitab,
selanjutnya klik menu Stat tables tally, dan akan muncul
kotak dialog berikut:
4. Kemudian masukan variabel atau kolom tempat data yang akan
dibuat daftar tally-nya kedalam kolom variables dan aktirkan
counts, percents, cumulative counts dan cumulative percents.
Kemudian klik OK.
Dan outputnya seabagai berikut:
• Diagram Batang dan daun
Secara Manual:
Batang Daun(satuan) (persepuluhan)
0 2 2 3 3 3 4 4 4 5 5 6 6 6 6 7 7 7 8 8 8 8 9 9
1 0 0 1 1 1 1 1 1 1 2 2 2 3 3 3 4 4 6 6 7 7 8 8 8 8 9 9
2 1 2 3 5 8
3 1 6
4 5
5 2
Menggunakan Minitab
1. Inputkan data, klik Stat EDA steam and leaf
Muncul kotak dialog berikut:
2. Masukan variable C1, aktifkan trim outlier, dan masukan increment
0.6, dan klik OK
b. Ringkasan Numerik:
Oleh karena ringkasan numeric terdiri dari mean, median, kuartil, standar
deviasi, variansi sdan sebagainya yang cukup menyita waktu jika
diselesaikan dengan cara manual, maka akan diselesaikan dengan
menggunakan minitab.
1. inputkan data, klik calc row statistic (column statistic) atau
jika kita ingin sekaligus menampilkan semua ringkasan numeric
kita bisa klik stat basic statistic store (display) descriptive
statistic dan muncul kotak dialog berikut:
2. masukan variable C1 dan klik OK dan muncul outputnya:
• Menghitung proporsi antrian yang kurang dari atau sama dengan
1 menit.
Dengan menggunakan minitab tentu saja terlebih dahulu menginput
data, kita dapat menghitung proprsi tersebut, caranya :
1. Klik calc probability distribution normal , dan muncul
kotak dialog berikut:
2. oleh karena proporsi yang akan dihitung adalah kurang dari sama
dengan 1 menit, maka aktifkan cumulative probability dan
masukan nilai mean dan standar deviasi yang telah kita peroleh
pada ringkasan numeric, klik OK, dan outputnya:
3. sehingga, proporsi proporsi antrian yang kurang dari atau sama
dengan 1 menit adalah 0, 3560.
a. berikut ini adalah data Konsentrasi air raksa (Hg) pada hati 28 ekor lumba-
lumba diukur dalam microgram per gram berat:
1. Daftar tallysetelah data diinputkan kedalam worksheet minitab, selanjutnya klik
menu Stat tables tally, dan akan muncul kotak dialog berikut:
Kemudian masukan variabel atau kolom tempat data yang akan dibuat
daftar tally-nya kedalam kolom variables dan aktirkan counts,
percents, cumulative counts dan cumulative percents. Kemudian klik
OK. Dan outputnya
2. Diagram Batang dan Daun
Inputkan data, klik Stat EDA steam and leaf
Muncul kotak dialog berikut:
Masukan variable C1, aktifkan trim outlier, dan masukan increment 0.6,
dan klik OK , dan outputnya sebagai berikut:
3. Ringkasan Numerik
a. inputkan data, klik calc row statistic (column statistic) atau
jika kita ingin sekaligus menampilkan semua ringkasan numeric
kita bisa klik stat basic statistic store (display) descriptive
statistic dan muncul kotak dialog berikut:
4. masukan variable C1 dan klik OK dan muncul outputnya:
b. Berikut ini data perbandingan Jumlah Pengunjung di 4 wartel berbeda:
a. Boxplot, Diagram Batang dan Daun, Ringkasan Numerik
• Boxplot
• Diagran Batang dan Daun
• Ringkasan Numerik
b. Standarisasi
• Pusat mean, sebaran standar deviasi
• Pusat median , sebaran range
Output akan sekaligus ditampilkan secara bersamaan, sebagai
berikut:jumlah ByVar1 Mean1 StDev1 Median1 Range2 mean/stdv med/rang
29 1 20.7333 4.75795 21 17 1.73744 0.47058819 1 20.7333 4.75795 21 17 -0.36430 -0.11764724 1 20.7333 4.75795 21 17 0.68657 0.17647114 1 20.7333 4.75795 21 17 -1.41518 -0.41176521 1 20.7333 4.75795 21 17 0.05605 0.00000013 1 20.7333 4.75795 21 17 -1.62535 -0.47058818 1 20.7333 4.75795 21 17 -0.57448 -0.17647117 1 20.7333 4.75795 21 17 -0.78465 -0.23529430 1 20.7333 4.75795 21 17 1.94762 0.52941223 1 20.7333 4.75795 21 17 0.47640 0.11764718 1 20.7333 4.75795 21 17 -0.57448 -0.17647123 1 20.7333 4.75795 21 17 0.47640 0.11764721 1 20.7333 4.75795 21 17 0.05605 0.00000022 1 20.7333 4.75795 21 17 0.26622 0.05882419 1 20.7333 4.75795 21 17 -0.36430 -0.11764731 2 27.4667 3.87052 28 13 0.91288 0.23076919 2 27.4667 3.87052 28 13 -2.18747 -0.69230831 2 27.4667 3.87052 28 13 0.91288 0.23076926 2 27.4667 3.87052 28 13 -0.37893 -0.15384630 2 27.4667 3.87052 28 13 0.65452 0.15384622 2 27.4667 3.87052 28 13 -1.41238 -0.46153829 2 27.4667 3.87052 28 13 0.39616 0.07692326 2 27.4667 3.87052 28 13 -0.37893 -0.15384632 2 27.4667 3.87052 28 13 1.17125 0.30769230 2 27.4667 3.87052 28 13 0.65452 0.15384623 2 27.4667 3.87052 28 13 -1.15402 -0.38461526 2 27.4667 3.87052 28 13 -0.37893 -0.15384627 2 27.4667 3.87052 28 13 -0.12057 -0.07692328 2 27.4667 3.87052 28 13 0.13779 0.00000032 2 27.4667 3.87052 28 13 1.17125 0.307692
13 3 16.3333 3.88526 17 13 -0.85794 -0.30769220 3 16.3333 3.88526 17 13 0.94374 0.23076915 3 16.3333 3.88526 17 13 -0.34318 -0.15384612 3 16.3333 3.88526 17 13 -1.11533 -0.38461518 3 16.3333 3.88526 17 13 0.42897 0.07692324 3 16.3333 3.88526 17 13 1.97327 0.53846211 3 16.3333 3.88526 17 13 -1.37271 -0.46153817 3 16.3333 3.88526 17 13 0.17159 0.00000012 3 16.3333 3.88526 17 13 -1.11533 -0.38461518 3 16.3333 3.88526 17 13 0.42897 0.07692317 3 16.3333 3.88526 17 13 0.17159 0.00000012 3 16.3333 3.88526 17 13 -1.11533 -0.38461522 3 16.3333 3.88526 17 13 1.45850 0.38461518 3 16.3333 3.88526 17 13 0.42897 0.07692316 3 16.3333 3.88526 17 13 -0.08579 -0.07692326 4 26.4000 4.06729 27 18 -0.09835 -0.05555618 4 26.4000 4.06729 27 18 -2.06526 -0.50000027 4 26.4000 4.06729 27 18 0.14752 0.00000029 4 26.4000 4.06729 27 18 0.63925 0.11111124 4 26.4000 4.06729 27 18 -0.59007 -0.16666725 4 26.4000 4.06729 27 18 -0.34421 -0.11111123 4 26.4000 4.06729 27 18 -0.83594 -0.22222227 4 26.4000 4.06729 27 18 0.14752 0.00000036 4 26.4000 4.06729 27 18 2.36029 0.50000027 4 26.4000 4.06729 27 18 0.14752 0.00000025 4 26.4000 4.06729 27 18 -0.34421 -0.11111129 4 26.4000 4.06729 27 18 0.63925 0.11111129 4 26.4000 4.06729 27 18 0.63925 0.11111129 4 26.4000 4.06729 27 18 0.63925 0.11111122 4 26.4000 4.06729 27 18 -1.08180 -0.277778c. Boxplot hasil standarisasi
• Pusat mean, sebaran standar deviasi
• Pusat median , sebaran range
d. Analisis Data Bears
Berikut ini data Bears yang diperoleh dari Minitab:
Selanjutnya akan dibuat boxplot dari tiap-tiap variable terhadap nomor
observasi
Variabel Head L
Variabel Head W
Variabel Neck G
Variabel Length
Variabel Chest G
Variabel Weight
Selanjutnya akan dilakukan penghitungan nisbah untuk setiap transformasi
dengan terlebih dahulu menentukan transformasi:
Penentuan Median dan IQR1 setiap variabel:
Stat Basic Statistic Strore Descriptive Statistics
(masukan variabel yang kaan ditransformasi, By variabel Obs. No dan
pada Statistics aktifkan median dan Interquartil range (klik OK, pada
Option aktifkan store a row of output for each row of output (klik OK)
dan klik OK.)
Kemudian plot log median n vs log IQR n (n = 1,2,3,4,5,6 (variabel))
Stat Regression Fitted Line Plot
(pada response [y] : IQR dan pada response [x] : Median, dan type of
regression model : Linear, kemudian pada Option pilih transformation
dan aktifkan logten of Y, logten of X, display logscale foe Y variable,
display logscale foe X variable, (klik OK) klik OK.)
Regression Analysis: IQR1 versus Median1
The regression equation is log(IQR1) = 27.9035 - 24.6367 log(Median1) S = 0.140443 R-Sq = 49.8 % R-Sq(adj) = 49.5 %Analysis of VarianceSource DF SS MS F PRegression 1 2.72200 2.72200 138.002 0.000
Error 139 2.74168 0.01972 Total 140 5.46368
Regression Analysis: IQR3 versus Median3
The regression equation is log(IQR3) = 20.7916 - 15.3559 log(Median3) S = 0.0456390 R-Sq = 78.2 % R-Sq(adj) = 78.0 %Analysis of VarianceSource DF SS MS F PRegression 1 1.03621 1.03621 497.480 0.000Error 139 0.28953 0.00208 Total 140 1.32573
Regression Analysis: IQR5 versus Median5
The regression equation is log(IQR5) = 25.7772 - 16.1040 log(Median5) S = 0.0595329 R-Sq = 79.8 % R-Sq(adj) = 79.7 %Analysis of VarianceSource DF SS MS F PRegression 1 1.95033 1.95033 550.292 0.000Error 139 0.49264 0.00354 Total 140 2.44296
Regression Analysis: IQR4 versus Median4
The regression equation is log(IQR4) = 6.29832 - 2.92332 log(Median4) S = 0.0729883 R-Sq = 3.9 % R-Sq(adj) = 3.2 %Analysis of VarianceSource DF SS MS F PRegression 1 0.030339 0.0303389 5.69499 0.018Error 139 0.740494 0.0053273 Total 140 0.770833
Regression Analysis: IQR6 versus Median6
The regression equation is log(IQR6) = -12.7473 + 6.78642 log(Median6) S = 0.0695991 R-Sq = 46.9 % R-Sq(adj) = 46.5 %Analysis of VarianceSource DF SS MS F PRegression 1 0.59493 0.594930 122.817 0.000Error 139 0.67332 0.004844 Total 140 1.26825
Dari hasil regresi antara log median vs log dq, diperoleh kemiringan
(slope) atau nilai nisbah untuk setiap variabel yaitu:
1. Variabel Head L, sebesar - 24.6367
2. Variabel Head W, tidak diperoleh
3. Variabel Neck G, sebesar - 15.3559
4. Variabel Length, sebesar - 2.92332
5. Variabel Chest G, sebesar - 16.1040
6. Variabel Weight, sebesar + 6.78642
Oleh karena nilai nisbah yang diperoleh sangat besar sehingga
menyulitkan kita untuk mengambil transformasi yang tepat, maka
permasalahan ini akan diselesaikan dengan menggunakan Box-Cox.
Stat Control Charts Box-Cox Transformation
Pada single column masukan variabel yang akan dibuat box-cox-nya
Pada subgroup size, masukan variabel obs. No
Tentukan lokasi penyimpanan data yang telah ditransformasi pada kolom
tertentu.
Output:
Dari hasil Box-Cox, diperoleh nilai-nilai Lamba estimasi dari masing-
masing variabel yang selanjutnya menunjukan pangkat transformasi dari
masing-masing variabel berikut:
1. Variabel Head L, sebesar 1,012
2. Variabel Head W, sebesar -0,224
3. Variabel Neck G, sebesar 0,787
4. Variabel Length, sebesar 1,910
5. Variabel Chest G, sebesar 0,674
6. Variabel Weight, sebesar 0,337
Setelah diperoleh datya hasil tranformasi, selanjutnya dibuat box plot Dari
data hasil transformasi untuk melihat apakah ada perubahan bentuk
boxplot setelah data ditransformasi dan mengarah ke bentuk normal
(simetris).
a. Transformasi variabel Head L
b. Transformasi variabel Head W
c. Transformasi variabel Neck G.
d. Transformasi variabel Length
e. Transformasi variabel Chest G.
f. Transformasi variabel Weight
4. Kesimpulan