Upload
yudi-setyawan
View
46
Download
4
Embed Size (px)
DESCRIPTION
CONTOH penggunaan beberapa software statistika dan matematika
Citation preview
PENGENALAN SOFTWARE MATEMATIKA&STATISTIKA
1. Jenis-jenis lisensi software
2. Software matematika&statistika
3. Sekilas tentang penggunaan software matematika dan statistika
4. SPLUS dan R
5. Pengenalan R lebih lanjut
6. MAPLE
1. Jenis-jenis Lisensi Software
• Ada berbagai istilah dalam lisensi perangkat lunak yang perlu diketahuiContoh: free software, open source, public domain, copylefted software, GPL Software, proprietary software, dll.
Free Software
Free Software: Software yang dalam lisensinya
mengizinkan siapapun untuk menggunakan,
menyalin/menggandakan, dan mendistribusikannya,
sesuai aslinya atau sudah dimodifikasi, baik gratis
maupun dengan memungut biaya. Dengan syarat
utama, source codenya harus tersedia. Contoh : Linux (kernel), GNOME, GIMP
Open Source
• Open Source Pengertian open source sebenarnya adalah istilah pemasaran untuk free software. Ada bermacam-macam lisensi di bawah Open Source seperti : GPL, MPL, BSD License, UPL, Artistic License, XPL, LGPL
• Contoh : FreeBSD, Mozilla, X, Perl, OpenOffice
Public Domain
• Public Domain : Software yang tidak dilindungi hak cipta. Versi penuh, source code tersedia secara bebas untuk dimodifikasi, dan didistribusikan ulang dengan lisensi apapun.
• Contoh : STP MP3 Player
Copylefted Software
Copylefted Software adalah free software yang tidak mengizinkan distribusi ulang atau modifikasi dengan menambahkan batasan baru, sehingga setiap kopi software ini dalam keadaan asli maupun dimodifikasi haruslah tetap free software.
Non-Copylefted Free Software
Non-Copylefted Software adalah free software yang mengizinkan distribusi ulang atau modifikasi dengan menambahkan batasan baru, sehingga setiap kopi software ini, dalam bentuk binary ataupun termodifikasi bisa menjadi proprietary software.
• Contoh : X Window System
GPL Software
• GNU GPL (General Public Licence) adalah lisensi yang mendefinisikan copylefted software.
Semi-Free Software
• Semi-Free Software : Software yang non-free, namun mengizinkan untuk menggunakan, mendistribusikan, dan memodifikasinya untuk kepentingan nonprofit.
• Contoh : PGP
Freeware
• Freeware adalah software yang bebas digunakan dan didistribusikan sepanjang tidak dimodifikasi (dan source codenya tidak tersedia).
• Contoh : StarOffice (versi 5.2), Winamp (mulai versi 2.50), Netscape communicator, Internet Explorer
Shareware
• Pada umumnya shareware adalah software yang bebas didistribusikan, namun berjangka waktu tertentu, untuk pemakaian selanjutnya dikenakan pembayaran yang berguna untuk : membuka (unlock) proteksi software, menghilangkan peringatan (nagscreen), mengupgrade (membuka) feature tambahan. Shareware umumnya closed-source.
• Contoh : Winzip, mIRC, MusicMatch Jukebox, Real Jukebox
Evaluation Copy / Trial / Preview/ Demo
• Evaluation Copy / Trial / Preview/ Demo : Software komersial/ propietary versi akhir (full version) yang dilepas ke konsumen untuk dievaluasi untuk jangka waktu tertentu (30/60 hari) untuk pemakaian selanjutnya diharuskan membeli. Apabila tidak, maka software akan tidak berfungsi.
• Contoh : Macromedia DreamWeaver, Norton Utilities
Adware, Spyware & Nagware• Adware : Varian dari freeware yang menampilkan iklan
pada tampilan software (umumnya berupa banner)Contoh : GoZilla!, JetAudio (mulai versi 4.7), Eudora Pro (mulai versi 4.2), Opera (mulai versi 5)
• Spyware : Suatu istilah untuk menyebut software yang 'membonceng' sebuah adware, yang bertugas mendownload iklan untuk ditampilkan pada adware tersebut. Namun, spyware umumnya juga melakukan 'penyadapan' data teknis komputer yang ditempatinya dan dikirimkan saat komputer itu online.
• Nagware : Varian dari shareware yang selalu menampilkan layar peringatan setiap digunakan, layar ini akan hilang jika software diregistrasi (dengan membayar), namun software itu sendiri masih berfungsi secara normal walaupun tidak diregistrasiContoh : ACDSee (sampai versi 2.42), WinZip, mIRC
Stripware & Optionware• Stripware : Varian dari freeware yang menawarkan versi
gratis dari software komersial dengan fasilitas yang terbatas, biasanya ditandai dengan pemberian nama Personal Edition/Lite Version/Basic.Contoh : Eudora Lite, Real Player Basic, Linux (distribusi Corel)
• Optionware :Varian dari freeware yang meminta imbalan secara sukarela dalam bentuk selain uang, misalnya : e-mail (mailware), prangko (stampware), surat/kartupos, dll, bahkan ada yang meminta anda untuk menyumbangkan sejumlah uang kepada yang membutuhkan, bahkan ada yang hanya meminta Anda untuk berhenti menggerutu tentang sulitnya hidup (!).Contoh : Arachnophilia
Alpha Version & Beta Version • Alpha Version : Software proprietary yang telah selesai
pengkodeannya dan dapat digunakan, namun masih harus menjalani pengujian internal (dalam lingkungan pembuatnya)Contoh : Mozilla
• Beta Version :Software proprietary yang telah selesai pengkodeannya dan dapat digunakan, namun masih harus menjalani pengujian eksternal (di luar lingkungan pembuatnya). Software beta bisa gratis, bisa juga komersial.Contoh : ICQ
Commercial Sofware & Proprietary Software
• Commercial Sofware : Software yang dijual dan dilindungi hak cipta (copyright), dapat bersifat open source atau closed source (proprietary)
Contoh : Zope, GNU Ada• Proprietary Software :Software komersial yang
bersifat closed source, merupakan kebalikan dari free software.
Contoh : MS Windows, MS Office
Istilah-istilah yang sering dicampuradukkan • Shareware >< Freeware :
Freeware akan tetap berfungsi penuh tanpa jangka waktu tertentu dan tidak membutuhkan pembayaran dalam bentuk apapun.
• Shareware >< Evaluation :Shareware bebas didistribusikan, biasanya murah (dibandingkan software komersial)
• Open Source >< Free Software :Software open source mencakup GPL, shareware, dan komersial
• Commercial >< Proprietary :Software komersial dapat berupa open source, proprietary selalu closed source
• Freeware >< Public Domain :Freeware biasanya masih dilindungi hak cipta, dengan berbagai variasi (adware,
optionware, limited freeware) • Freeware >< Free Software :
Istilah freeware sebetulnya mencakup free software, namun untuk penggunaan sehari-hari, freeware merujuk pada free software yang bersifat closed-source.
2. Software matematika&statistika
Ada bermacam-macam software yang dapat kita gunakan dalam bidang matematika dan statistika.
Pada dasarnya software tsb dibedakan menurut cara penggunaannya (paket vs program) atau menurut jenis lisensinya (proprietary vs GPL)
• Proprietary:- SPSS- SPLUS- STATISTICA- Minitab- SAS- EViews, dll.
• GPL:– R– GRETL
JENIS-JENIS PAKET PROGRAM STATISTIKA DAN MATEMATIKA
3. Sekilas tentang penggunaan software matematika dan statistika
Statistical Software • AMOS • AnswerTree • BMDP • EViews • GAUSS • HLM • Limdep • Lisrel • Microfit • Minitab
Mathematical Software:• Maple • Matlab • Mathematica • LINDO • LINGO • Dll.
• PSPP• R• RATS • Resampling Stats • SAS • SHAZAM• SPSS • Stata • Statgraphics• SYSTAT • S-Plus • TSP • DLL.
Support for various ANOVA methods
Product One-Way
Two-Way
MANOVA GLM Post-hoc Tests
Latin Squares Analysis
BioStat Yes Yes Yes Yes Yes NoEViews YesGAUSS No No No No Nogretl
MathematicaYes Yes Yes Yes Yes No
Minitab Yes Yes Yes Yes Yes YesR Yes Yes Yes Yes YesSAS Yes Yes Yes Yes YesStata Yes Yes Yes Yes
Statgraphics Yes Yes Yes Yes Yes Yes
STATISTICA Yes Yes Yes Yes Yes YesSPlus Yes Yes Yes Yes Yes YesSPSS Yes Yes Yes Yes Yes YesSYSTAT Yes Yes Yes Yes Yes Yes
KEMAMPUAN BBRP SOFTWARE MAT&STAT
Support for various regression methods.
Product OLS WLS 2SLS NLLS Logistic GLM LAD Stepwise
BioStatEViews Yes Yes Yes Yes Yes Yes Yes YesGAUSSgretl Yes Yes Yes Yes Yes No YesMathematica Yes Yes YesMinitab Yes Yes No No Yes No No YesR Yes Yes Yes Yes Yes Yes Yes YesSAS Yes Yes Yes YesStata Yes Yes Yes Yes Yes Yes Yes YesStatgraphics Yes Yes No Yes Yes Yes No YesSTATISTICA Yes Yes Yes Yes Yes Yes Yes YesStatPlus Yes No Yes Yes Yes Yes No YesSPlus Yes Yes Yes Yes YesSPSS Yes Yes Yes Yes Yes Yes No YesSYSTAT Yes Yes Yes Yes Yes Yes Yes Yes
Support for various time series analysis methods.
Product ARIMA GARCH Unit root test
Cointegration test VAR Multivariate
GARCH BioStatEasyReg Yes Yes Yes YesEViews Yes Yes Yes Yes Yes YesGAUSSgretl Yes Yes Yes Yes YesMathematica Yes YesMinitab Yes No No No NoR Yes Yes Yes Yes YesSASStata Yes Yes Yes YesStatgraphics Yes No No No NoSTATISTICA Yes No No No NoStatPlus Yes No No No NoSPlus Yes YesSPSS YesSYSTAT Yes
s/w Qua- Surv- Char-type lity Con- ival Anal- ting [5]
[4] base post-hoclatin sqrs
anal- nonpara- trol ysis cluster anal- discri-
stat. [6] tests ysis
metric comp., ANOVA ysis
minant anal-
tests [7] ysis
AcaStatAcaStat
http://www.acastat.c
om/ $29 S + - - - - - - - - - - - - - - - - - - - - -
BioStat AnalystSoft
http://www.analystsof
t.com/ $100[16][15] S + + + + + + + - ++ + + + + - + + + - - + + +
Gauss Aptech System
http://www.aptech.co
m/ Unknown St + + ? - - - - - + - - - - - + + - - - + + +
Mathematica
Wolfram Research
http://www.wolfram.c
om/ $1880[15] S + + + + + + + - + + - + + - + + - + - + + +
Minitab Minitab Inc.
http://www.minitab.c
om/ $1195[15] S + + + + + + + + ++ + + + + + + + + + + + + +
Statgraphics
StatPoint
http://www.statgraphi
cs.com/$695 - $1195 S + + + + + + + + ++ + + + + + + + + + + + + +
STATISTICA StatSoft
http://www.statsoft.c
om/ >$695 S + + + + + + + + ++ + + + + + + + + + + + + +
StatPlus AnalystSoft
http://www.analystsof
t.com/ $150[16][15] S + + + + + + + + ++ + + + + + + + + - - + + +
SPlusInsightful
Inc.
http://www.splus.co
m/
Unknown (on
request, > $1000?) St + + + + + + + + + + + + + + + + - + + + + +
SPSSSPSS Inc.
http://www.spss.com
/ $1599[15] S + + + + + + + + ++ + ++ + + + + + + + + + + +
SYSTAT Systat Softwar
http://www.systat.co
m/ $1,299 S + + + + + + + + + + + + + + + + + + + + + +
norma-lity base series
proc. [11]analysis
[12] BDP [13] Ext. [14]linear
regres. [8]polyn. regres. other [9] CTA [10]1way 2way MANOVA GLM
Time Series Analysis Data ProcessingDescriptive
Statistics ANOVA Regression Nonparametric Statistics
Product Publisher Web-site Price
PENGENALAN R
• R adalah sebuah program open source statistika, yang dapat digunakan sebagai bahasa pemrograman berbasis matriks atau sebagai paket statistik standar.
• Fitur utama dari R termasuk analisa yang canggih data dan alat grafis, manipulasi matriks dan penanganan data dan penyimpanan.
• R merupakan implementasi dari bahasa pemrograman S, yang juga digunakan dalam paket komersial S-Plus.
Apa itu R?
• R tersedia secara gratis melalui Comprehensive R Archive Network (CRAN) yakni http://www.r-project.org atau http://cran.r-project.org
• Download file eksekusi dari alamat di atas atau salah satu mirror CRAN, dan R akan menginstal sendiri.
• Untuk petunjuk rinci tentang menginstal R untuk Windows dan pemecahan masalah, dapat dilihat di halaman web CRAN.
Bagaimana cara mendownload R?
Kemampuan RBeberapa Kemampuan R:• Design untuk stratifikasi, Klustering, multistage sampling,
unequal/weighted sampling probabilities,• Type estimasi dan analisis statistik: mean, quantiles, variance,
tables, ratios, total.• generalised linear models (misal linear regression, logistic
regression, Poisson models, dst.) • model hazards proporsional• post-stratifikasi dan ranking tests untuk asosiasi dalam tabel dua
arah.
MENJALANKAN R
• Dobel klik ikon R yang ada di desktop atau melalui start menu. Maka akan muncul tampilan:
Menu dan Paket dalam R
• Menu drop-down memungkinkan kita untuk menyesuaikan lingkungan kerja. • Berpindah ke direktori dari menu File memungkinkan kita untuk mengatur direktori
kerja untuk sesi R. • Dalam Paket, kita dapat mengatur cermin/mirror CRAN dan pilih repositori untuk
menginstal paket-paket baru. • Submenu GUIPreference di bawah menu Edit akan memungkinkan kita untuk
mengkonfigurasi konsol, jendela grafis dan editor. • Dalam menu Help, kita dapat mengakses manual R dalam format pdf dan mencari
bantuan dalam arsip R online.
Menu dalam R
• Program R yang kita download dari CRAN berisi paket-paket dasar R, yang mencakup beberapa perintah statistik dasar dan utilitas grafis.
• Untuk berbagai jenis analisis statistik, kita perlu menginstal paket tambahan yang dapat dilakukan dari menu drop-down (Paket -> Install paket).
• Sebelum menggunakan paket, kita harus memuat itu untuk sesi kerja saat ini (paket Load Paket->).
• Kita dapat melihat daftar paket R yang tersedia untuk di-download di situs CRAN.
Paket
R sebagai alat hitung• R dapat digunakan sebagai alat hitung
dengan cara mengetikkan secara langsung diikuti dengan enter sehingga hasilnya ditampilkan.
• Contoh:
> 12*(127/13)-sqrt(2001/5)[1] 97.22577
Perintah (command) dalam R
Hasil perhitungan
Vektor dan matriksR dapat menampilkan perhitungan data
dalam bentuk vektor atau matriks.Contoh:
> x=c(1,3,5,7,9)> x[1] 1 3 5 7 9> y=c(12,15,19,24,30)> y[1] 12 15 19 24 30> x+y[1] 13 18 24 31 39> sd(x)[1] 3.162278> var(x+y)[1] 106.5> z=c(x,y)> z [1] 1 3 5 7 9 12 15 19 24 30
> dim(z)<-c(2,5)
> z
[,1] [,2] [,3] [,4] [,5]
[1,] 1 5 9 15 24
[2,] 3 7 12 19 30
> w=c(z,x^2,y^2,x*y)
> dim(w)<-c(5,5)
> w
[,1] [,2] [,3] [,4] [,5]
[1,] 1 12 1 144 12
[2,] 3 15 9 225 45
[3,] 5 19 25 361 95
[4,] 7 24 49 576 168
[5,] 9 30 81 900 270
X
YX^2
Y^2
X*Y
X Y
Distribusi probabilitas• R dapat digunakan
untuk menampilkan beberapa distribusi probabilitas dengan mudah.
• Contohwin.graph()> x=0:20plot(x,dbinom(x,size=
20,prob=0.3),type="o",lwd=4)
0 5 10 15 20
0.00
0.05
0.10
0.15
x
dbin
om(x
, siz
e =
20, p
rob
= 0.
3)
Plot distribusi binomial dengan n=20 dan p=0.3
0 2 4 6 8 10
0.0
0.1
0.2
0.3
0.4
0.5
x
dnor
m(x
, 5, 1
)
Plot dua distribusi normal dengan mean berbeda variansi samaKode untuk membuat plot distribusi
normal (sebelah kanan):
> win.graph()
> x=seq(-1,10,length=1000)
>plot(x,dnorm(x,5,1),type="l",lty=1,lwd=2,yli
m=c(0,0.5))
> lines(x,dnorm(x,3,1),type="l",lty=4,lwd=2)
> title("Plot dua distribusi normal dengan
mean berbeda variansi sama")
Plot distribusi normal mean berbeda variansi sama
Plot distribusi normal mean sama variansi berbeda
-4 -2 0 2 4
0.0
0.2
0.4
0.6
0.8
x
dnor
m(x
, 0, 0
.5)
Plot distribusi normal dengan mean sama variansi berbedaKode untuk membuat plot distribusi normal (sebelah kanan):
> x=seq(-5,5,length=1000)> plot(x,dnorm(x,0,0.5),type="l",lty=4,
lwd=2)> lines(x,dnorm(x,0,1),type="l",lty=3,
lwd=2)> lines(x,dnorm(x,0,2),type="l",lty=2,
lwd=2)> title("Plot distribusi normal dengan
mean sama variansi berbeda")
PAKET FUNGSI DALAM RSemua fungsi dan basis data R disimpan dalam paket. Jika ingin
digunakan maka paket harus dipanggil. Untuk melihat isi paket yang ada digunakan perintah:
> library()Jika ingin memnggil paket tertentu, argumen dapat diisi, misal:> library(boot)Untuk melihat paket yang ada gunakan perintah:> search()Akan ditampilkan paket-paket yang tersedia: [1] ".GlobalEnv" "package:boot" "package:methods" [4] "package:stats" "package:graphics"
"package:grDevices" [7] "package:utils" "package:datasets" "Autoloads" [10] "package:base"
Persiapan Data untuk Analisis
• Ada beberapa jenis struktur data di R: vektor, matriks, array, faktor, time series, dataframe dan daftar.
• Tutorial ini akan fokus pada dataframe karena merupakan struktur yang paling umum digunakan untuk analisis statistik.
• Data frame objek dua dimensi dan dapat berisi beberapa mode dalam satu objek. Mereka termasuk nama variabel dan informasi mengenai variabel (jika, misalnya, mereka numerik atau kategorikal). Data frame dapat berisi nilai hilang dikodekan sebagai NA, namun sebagian besar analisis statistik akan meminta Anda untuk menghapus nilai-nilai yang hilang. frame data dapat dibuat dengan data.frame () fungsi dari matriks atau daftar atau diimpor langsung ke R dari file data eksternal.
Tipe data
• Fungsi read.table() digunakan untuk mengimpor file data eksternal menjadi R dan menciptakan bingkai data untuk analisis statistik.
• Jadi untuk membaca dataset ke R, kita gunakan perintah berikut:
Membaca data files dalam R> mydata <- read.table(“C:/user/temp/AfricaData.txt”, header=TRUE, sep=“,”) > mydata <- read.table(“C:/user/temp/AfricaData.txt”, header=TRUE, sep=“,”)
> mydata <- read.table(“C:/Users/FST/Documents/ AfricaData.txt”, header=TRUE, sep=“,”)
Menampilkan DataUntuk menampilkan data tsg digunakan perintah:>mydataHasilnya adalah:
• Dataset mydata berisi data 117 negara dan 8 variabel.• Variabel country adalah variabel karakter sementara sisanya adalah
variabel numerik. • Variabel country merupakan daftar nama 117 negara untuk setiap
pengamatan; • Variabel growth menunjukkan pertumbuhan ekonomi 1970-1990; • Variabel govspend adalah ukuran dari pengeluaran pemerintah; • Variabel invest menunjukkan investasi 1970-1989; • colony adalah variabel dummy menunjukkan apakah negara tersebut
merupakan bekas koloni; • openmarket menyatakan apalah negara memiliki ekonomi pasar terbuka
antara tahun 1965 dan 1990 ; dan• Institutions adalah ukuran kualitas lembaga. • Perhatikan bahwa ada nilai-nilai yang hilang beberapa, berlabel NA.
• Fungsi class() akan menunjukkan tipe data• Fungsi summary() menunjukkan statistik deskriptif masing-masing variable
:
> class(mydata)[1] "data.frame"
Memanipulasi data dalam R• Sebagian besar analisis statistik dalam R tidak dapat dilaksanakan dengan
nilai-nilai yang hilang. • Untuk membuat dataset tanpa nilai-nilai yang hilang, meminta R untuk
menghilangkan semua nilai berlabel NA:
> mydata <- na.omit (mydata)
Terlihat bahwa data yang tdk lengkap sudak tidak ditampilkan lagi (misal nomor 14, 15, 16 dan 18).
• Untuk menampilkan variabel tertentu (misal country) dari dataset, ketikkan:mydata$country atau mydata[,”country”]
> mydata$country [1] ALGERIA ARGENTINA AUSTRALIA AUSTRIA BANGLADESH BELGIUM BOLIVIA BRAZIL BURKINA FASO [10] CAMEROON CANADA CHILE COLOMBIA CONGO COSTA RICA DENMARK DOMINICAN REP. ECUADOR
[19] EGYPT EL SALVADOR FINLAND FRANCE GABON GERMANY, WEST GHANA GREECE GUATEMALA
[28] GUYANA HONDURAS INDIA INDONESIA IRELAND ISRAEL ITALY IVORY COAST JAMAICA [37] JAPAN JORDAN KENYA KOREA, REP. LUXEMBOURG MADAGASCAR MALAWI MALAYSIA MEXICO [46] MOROCCO NETHERLANDS NEW ZEALAND NICARAGUA NIGERIA NORWAY PAKISTAN PAPUA N.GUINEA
PARAGUAY [55] PERU PHILIPPINES PORTUGAL SINGAPORE SPAIN SRI LANKA SWEDEN SWITZERLAND SYRIA [64] TAIWAN THAILAND TOGO TRINIDAD&TOBAGO TUNISIA TURKEY U.K. U.S.A. UGANDA [73] URUGUAY VENEZUELA ZAMBIA 117 Levels: ALGERIA ARGENTINA AUSTRALIA AUSTRIA BANGLADESH BELGIUM BENIN BOLIVIA BRAZIL BURKINA FASO BURUNDI CAMEROON
CANADA ... ZIMBABWE
>
• Kita dapat merujuk variabel dengan nama saja setelah menggunakan fungsi attach• Fungsi detach() akan membatalkan attach().> attach(mydata) > country [1] ALGERIA ARGENTINA AUSTRALIA AUSTRIA BANGLADESH BELGIUM [7] BENIN
BOLIVIA BRAZIL BURKINA FASO BURUNDI CAMEROON [13] CANADA CAPE VERDE IS. CENTRAL AFR.R. CHAD CHILE CHINA
(dst.) • Fungsi names() akan menampilkan daftar nama-nama variabel:> names(mydata) [1] "country" "growth" "govspend" "invest" "colony" "openmarket" [8] "institutions" • Untuk mengganti nama variabel atau membuat/memberi nama variabel baru (jika
data tdk memuat nama variabel), gunakan syntax:> names(mydata) <- c("Country", "Growth", "Gov.Spend", "Invest", "Colony",
"Open.Market", "Institutions")
Recoding variabel • Misalnya anda ingin membuat variabel dummy yang berkode 1 jika
pengamatan memenuhi kriteria tertentu dan 0 sebaliknya. • Misalnya, Anda ingin membuat variabel boneka berdasarkan variabel
Open.Market, yang merupakan fraksi tahun (1965-1990) di mana negara dinilai sebagai pasar terbuka.
• Open.Market.Dummy sama dengan 1 saat Open.Market lebih besar dari 0,5 dan sama dengan 0 bila Open.Market kurang dari 0,5. Ingat bahwa dengan menggunakan notasi mydata $, Anda membuat variabel baru dalam dataset mydata yang ada.
> Mydata $ Open.Market.Dummy <- as.numeric (Open.Market> 0,5)
• Misalkan sekarang bahwa Anda ingin membuat variabel baru, Open.Market.Cat, yang memiliki tiga kategori: 1 ketika Open.Market kurang dari 0,33, 2 ketika Open.Market adalah antara 0,33 dan 0,66 dan 3 ketika Open.Market lebih besar dari 0,66:
> Mydata $ Open.Market.Cat [Open.Market <0,33] <- 1 > Mydata $ Open.Market.Cat [Open.Market> = 0,33 & Open.Market <= 0,66] <- 2 > Mydata $ Open.Market.Cat [Open.Market> 0,66] <-3 Selain menciptakan variabel baru, Anda juga mungkin ingin menghapus variabel yang ada dari data yang Anda set. Untuk melakukannya, menetapkan bahwa variabel nilai NULL: > Mydata $ Open.Market.Dummy <- NULL Meskipun R bukan merupakan lingkungan yang ideal untuk memasuki dan pengkodean data secara manual, Anda dapat mengubah nilai sel data spesifik dengan menetapkan nomor kolom dan baris. Sebagai contoh, perhatikan bahwa Australia tidak dikodekan sebagai sebuah bekas koloni (Colony memiliki nilai 0). Untuk mengubah ini, tentukan jumlah kolom dan baris dari pengamatan yang ingin Anda ubah. Australia adalah negara ketiga di dataset, dan Colony adalah variabel kelima. Kemudian menetapkan bahwa sebuah sel nilai 1: > Mydata [3,5] <- 1
Menyimpan data • Untuk menyimpan data Anda sebagai file teks, gunakan perintah
write.table (). Tentukan nama objek data yang ingin Anda ekspor (dalam hal ini, mydata), direktori di mana Anda ingin menyimpan file dan metode pemisahan.
> write.table(mydata, file=“C:/Users/FST/Documents/AfricaData1.txt”,
sep = “,”)
Analisis Data Deskriptif
• Untuk menghasilkan tabel frekuensi, gunakan fungsi table (). • Perintah table (), margin.table () dan prop.table () digunakan untuk
membuat membuat tabel frekuensi, tabel frekuensi marjinal dan tabel proporsi, masing-masing untuk variabel Colony (row) dan Open.Market.Cat (kolom ). Fungsi Ftabel () menampilkan hasil yang lebih lengkap. Teks setelah tanda nomor # diperlakukan sebagai sebuah komentar, dan R tidak akan mencoba untuk menjalankannya....
Tabel Frekuensi
> attach(mydata) > table1 <- table(Colony, Open.Market.Cat) > ftable(table1) > table2 <- margin.table(table1, 1) #Frequencies summed over Open.Market.Cat > table3 <- margin.table(table1, 2) #Frequencies summed over Colony > table4 <- prop.table(table1) > ftable(table4)
• Untuk tabel 2x2, dapat digunakan fungsi chisq.test() untuk menguji independensi variabel-variabel baris dan kolom:
> chisq.test(table1) Pearson's Chi-squared test data: table1 X-squared = 11.7733, df = 2,
p-value = 0.002776
Statistik Deskriptif • Selain dengan fungsi summary () seperti di atas, statistik deskriptif untuk variabel
individudapat diperoleh, menggunakan fungsi-fungsi berikut: mean (), median (), max (), min (), range (), var (), sd (), kuantil (), fivenum (),
panjang (), which.max (), which.min (). • Misalnya, untuk memperoleh rentang dan deviasi standar dari variabel Gov.Spend,
ketik: > range (Gov.Spend) [1] 0,0057 0,3280 > sd (Gov.Spend) [1] ,06049456
• Untuk statistik deskriptif bivariat, menggunakan fungsi cor () dan cov (). Contoh: untuk menemukan hubungan antara variabel Growth dan Invest, ketik: > cor (growth, Invest) [1] 0,4751891
• Untuk menemukan matriks korelasi dan kovarians dari mydata, pilih semua variabel tetapi Country (karena merupakan karakter string) dengan meminta R untuk memasukkan pengamatan hanya dari kolom kedua sampai kedelapan: > cor (mydata [, 2:08]) > cov (mydata [, 2:08])
Visualisasi data• Untuk membuat scatterplot dari dua variabel, misalnya, Invest dan Institutions,
gunakan sintaks berikut:
> plot (Institutions, Invest, xlab = “Quality of Institutions", ylab = "Share of Invesment", utama = "Investment by Quality of Institutions", col =" blue ") > abline (lm (Invest ~ Institutions), col = "red")
Kode tsb menghasilkan scatter plot di bawah ini. Argumen utama, xlab dan ylab menentukan judul plot dan label sumbu x dan y, masing-masing. Perubahan pelana argumen warna poin dari default, hitam. Selain itu Anda dapat menambahkan baris ke diagram pencarnya dengan menentukan kemiringan dan titik potong garis dengan fungsi lm()
HISTOGRAM• Anda juga mungkin ingin untuk memvisualisasikan data Anda menggunakan
histogram. Fungsi berikut menghasilkan histogram dari variabel Institutions :
> hist(Institutions, col = “gray", xlim = c (0,10), ylim = c (0,18), xlab = " Quality of Institutions", ylab = " Number of Countries", main = " Quality of Institutions")
Argumen col ini mengisi batang dengan warna abu-abu; argumen xlim dan ylim mengatur kisar an sumbu x dan y; argumen xlab dan ylab memberi label sumbu x-dan y, dan argumen main merupakan judul utama plot.
Data Analysis
• Uji t untuk dua sampel• Untuk menggambarkan prosedur uji t untuk dua sampel-di R, misalkan anda tertarik
untuk mengetahui apakah negara-negara bekas koloni dan negara-negara tanpa masa lalu kolonial berbeda dalam kualitas institusi mereka.
• Dari data ini kita dapat membandingkan variabel Institutions berdasarkan variabel Colony.
• Untuk melakukan uji t dengan R digunakan fungsi t.test (). t. Dalam fungsi test () memerlukan spesifikasi dari variabel yang dibandingkan (dalam hal ini, Lembaga) dan variabel kelompok/gruop (yakni variabel Colony). Pernyataan alternatif menentukan jenis pengujian: dua sisi (two.sided), atau satu sisi . Argumen var.equal dapat diatur untuk memperlakukan varians yang setara, jika TRUE, perkiraan varians pooled digunakan, dan jika FALSE, pendekatan Welch ke derajat kebebasan digunakan.
• p-value kurang dari a=05, sehingga kita menolak hipotesis nol bahwa tidak ada perbedaan dalam kualitas institusi antara negara koloni dan bukan negara koloni. Jasdi, negara koloni dan negara-negara tanpa masa lalu kolonial memiliki kualitas mean variabel Institutions berbeda.
Dengan uji t menggunakan argumen alternatif lebih besar, kita dapat menyimpulkan bahwa negara-negara tanpa sejarah kolonial memiliki kualitas Institusi yang lebih tinggi dari bekas koloni.
One sample t-tes dengan mudah diimplementasikan dalam R dengan mengabaikan variabel kelompok dalam fungsi t.test (). Uji t berpasangan juga dimungkinkan dengan fungsi t.test () dengan menetapkan argumen Paired = TRUE.
> t.test (Institutions ~ Colony, alternative= "two.sided", var.equal = TRUE, conf.level = 0,95) Two Sample t-test
data: Institutions by Colony t = 3.7596, df = 73, p-value = 0.0003405 alternative hypothesis: difference in means not equal to 0 95 percent confidence interval:0.914618 2.978317
mean in group 0 mean in group 1 6.889169 4.942702
Regresi linear sederhana• Misal, kita ingin menerapkan model OLS berikut dalam R:
Invest = b0 + b1 (Institutions) + b2 (Open.Market)
• Sintaks untuk model di atas adalah sebagai berikut:> results1 <- lm (Invest ~Institutions+ Open.Market, data = mydata)
• Fungsi lm () digunakan untuk melakukan pencocokan (fit) model linier dalam R. Fungsi ini menspesifikasi rumus model: Invest ~ Institutions + Open.Market. Selain itu, ditetapkan bahwa data yang akan digunakan adalah mydata. Dengan menyimpan hasil di objek results1 akan memungkinkan kita untuk memanggil beberapa fungsi informasi yang berguna tentang hasil model.
• Fungsi summary() memberikan residual model, estimasi untuk koefisien model, kesalahan standar, statistik t dan-p nilai-nilai, serta model statistik (F-statistik, R-kuadrat, dll).
• Fungsi yang berguna lainnya adalah coef(), resid() dan fitted(), yang masing-masing menghasilkan koefisien model, kesalahan residu terhadap variabel dependen dan prediksi nilai dari variabel dependen. Berikut adalah contoh penggunaannya:
Selain fitting model orde pertama untuk variabel Institutions dan Open.Market, kita dapat memasukkan faktor interaksi antara variabel Institutions dan Open.Market, termasuk faktor polinomial (misalnya, Institutions ^ 2) atau mengecualikan intersep dari model . Masing-masing model ini dijelaskan dalam Tabel berikut:
•Selanjutnya kita harus mengevaluasi hasil model dengan memeriksa kesalahan sisa dan data pencilan yang signifikan. Salah satu cara untuk melakukannya adalah dengan menggunakan fungsi plot () :
> layout (matrix (1:4, 2, 2)) > plot (results1)
fungsi layout() akan memformat windows untuk fungsi plot berikutnya. Dalam kasus ini, kita membuat windows 2x2 dengan empat slot. Selanjutnya, fungsi plot () menghasilkan empat plot untuk model pertama kami cocok, yang hasilnya disimpan dalam obyek results1.
• Slot kiri atas grafik kesalahan sisa terhadap nilai-nilai terpasang (fitted), slot kiri bawah adalah plot QQ, slot kanan atas grafik akar kuadrat dari residual standar terhadap nilai-nilai terpasang, dan slot kanan bawah grafik tersebut leverage pengamatan masing-masing, dengan jarak Cook ditumpangkan pada plot. R memproduksi label untuk plot dan sumbu secara otomatis.
One-way ANOVA• Analisis varians (ANOVA) mudah diterapkan di R. Kembali ke contoh pada
pelaksanaan t-test, misalkan kita ingin membandingkan nilai rata-rata kualitas institusi untuk bekas koloni dan negara-negara tanpa sejarah kolonial dengan analisis varians satu arah.
• Kita dapat mulai analisis dengan boxplot dalam rangka untuk membandingkan distribusi kualitas lembaga untuk koloni dan tidak. Gunakan fungsi boxplot () dan tentukan variabel Institutions sebagai variabel numerik dan variabel Colony sebagai faktor. Perintahnya adalah;
>boxplot(split(Institutions, Colony), xlab="Colony", ylab="Quality of Institutions", main="Quality of Institutions by Colony", col="gray")
• Untuk pengujian ANOVA, gunakan fungsi aov(), tentukan rumus model dan dataset yang akan digunakan serta nama penyimpanan hasilnya dalam R object ( misal. Results5). Selanjutnya gunakan fungsi summary() untuk melihat hasilnya.
> results5 <- aov(Institutions~Colony, data=mydata) > summary(results5)
Selanjutnya kita dapat menguji hasilnya secara visual, dengan menggunakan fungsi layout() dan plot() seperti di atas.Untuk anova multivariat, (MANOVA), digunakan fungsi manova().
R Output
Working with output• Selain dengan menyalin output R dan paste ke file teks, fungsi wastafel ()
memungkinkan kita untuk mengirim output R langsung ke file teks eksternal.• Baris pertama dari kode di bawah ini menetapkan direktori dan file di mana output
akan disimpan, jika argumen split adalah TRUE, output akan dikirim ke file eksternal maupun ditampilkan di R konsol (split set ke FALSE jika kita lebih suka output Anda tidak akan ditampilkan di konsol).
• Baris kedua adalah analisis statistik yang dilakukan. Kita dapat menjalankan beberapa analisis, yang semuanya akan dikirim ke file output.txt.
• Akhirnya, fungsi sink() memotong proses, dan analisis berikutnya tidak dikirim ke file output.txt.
> sink("C:/user/temp/output.txt", split=T) > lm(Invest~Institutions+Gov.Spend+Growth+Open.Market) > sink()
Bekerja dengan grafik
• Untuk mengexport grafik R ke file external, gunakan fungsi jpeg(), yang akan menentukan direktori dan file (extension .jpg) mana grafik R akan disimpan.
• Perintah berikut meminta R membuat plot. Selanjutnya fungsi dev.off() akan mematikan fungsi jpeg() sehingga tidak disimpan sebagai file external .jpeg:
> jpeg("C:/Users/FST/Documets/histogram.jpg") > layout(matrix(1:4, 2, 2)) > plot(results1) > dev.off()
SPLUS
• S-PLUS dirancang oleh AT&T Bell Labs dengan menggunakan
bahasa S yang merupakan object-oriented language.
• S-PLUS dapat menangani data, functions, dan fitted models
sebagai objects, sehinga membuat analisis data menjadi lebih
fleksibel. Dengan fleksibilitas dari S-PLUS kita dapat mencocokkan
model dengan metode klasik atau modern.
Kemampuan SPlusBeberapa kemampuan S-PLUS: • Statistical Inference: One and Two Sample Problems • Statistical Inference for Counts and Proportions • Cross-Classified Data and Contingency Tables • Regression and Smoothing • Generalized Linear Model • Local Regression Model • Classification and Regression Trees • Univariate and Multivariate ANOVA • Principal Components Analysis • Factor Analysis • Cluster Analysis • Time Series Analysis • Survival Analysis • Quality Control Charts • Mathematical Computing
Tampilan SPLUS
SPLUS 2000• SPLUS 2000 direlease oleh AT&T Bell Labs pada tahun 1999 dalam 2 versi:S-PLUS 2000
Professional dan S-PLUS 2000 Standard
• Edition.
• Persamaan: SPLUS 2000 Standard Edition dan keduanya sudah berbasis graphical user
• Interface
• Perbedaan: S-PLUS 2000 Professional memiliki Commands atau Script windows, Commands
History dan access to libraries and modules sedang SPLUS 2000 Standard Edition Tidak
memiliki.
• S-PLUS 2000 memiliki jenis-jenis plot yang lengkap, compatible dengan Microsoft Office-
userinterface sehingga memberikan banyak kemudahan dalam manipulasi data, grafik dan
statistik.
• Dengan S-PLUS 2000 Professional kita dapat memprogram dengan S-PLUS programming
language berbasis bahasa S yang dikembangkan Lucent Technologies. Dengan demikian kita
dapat membuat functions sesuai kehendak kita (fleksibel).
Contoh Penggunaan SPLUS 2000
Linear regression Robust MM regression Robust LTS
regression Stepwise linear
regression Generalized additive
model Local (loess) regression
Nonlinear regression Generalized linear
models Log-linear (Poisson)
regression Logistic regression Probit regression
Analisis RegresiBeberapa teknik analisis regresi yang tersedia dalam SPlus 2000 adalah:
LINEAR REGRESSION
Digunakan untuk menerangkan pengaruh variabel kontinu atau kategori terhadap respons kontinu.
Langkah-langkah:1. Buka Menu utama dan pilih
StatisticsRegression>Linear, maka akan muncuk dialog box:
2. Masukkan/ketikkan nama data file pada menu Data Set (misal exair)
3. Masukkan/Pilih variabel bebas (misal ozone) dan variabel tak bebas (misal temperature) pada menu variables dependen dan Independennya atau tuliskan hubungan antar variabel pada menu Formula (misal ozone~temperature):
4. Klik OK, maka akan muncul hasil analisis regresi liniernya:
Untuk menampilkan plot data dan estimasi garis regresi linear, kita dapat memilih menu Plot pada dialog Linear Regression dan centang ke-7 plot diagnostiknya, kemudian tekan OK:
Maka akan muncul 7 jenis diagnostik plot:
Residuals vs. Fitted Sqrt. Abs.Residuals vs. Fitted
Response vs. Fitted Residual Normal QQ
Residuals Fit Spread Cook’s Distance
Partial Residuals
Contoh lain
Analisis regresi yang lain, seperti:Robust MM regressionRobust LTS regressionStepwise linear regressionGeneralized additive model Local (loess) regression, dll,Dapat dilakukan secara sama dengan memilih
teknik yang sesuai pada option Regression.Misal:
StatisticsRegression>Robust MM