Upload
others
View
28
Download
0
Embed Size (px)
Citation preview
Pengenalan Machine Learning di Industri DigitalAlim Hanif
Outline
1. Penjelasan tentang Machine Learninga. Overviewb. Pendahuluanc. Modelling
2. Penerapan dalam Industri Digital3. Tips & Triks Mendalami Machine Learning4. Q&A
ML-Overview
Gambaran Khusus dari Machine Learning
sumber gambar: Davinson
Pengertian DasarAI: Sebuah teknik rekayasa komputer untuk meniru pekerjaan manusia
ML: Merupakan bagian dari AI dimana kita menggunakan statistik untuk meningkatkan performa AI itu sendiri
DL: Bagian dari ML, dimana sudah menggunakan statistik yang lebih dalam, yaitu neural network.
sumber: Xaltius [link]
Tipe task/pekerjaan yang dapat dilakukan oleh Machine Learning
Sumber: Shankar
ML- Pendahuluan
Pendahuluan
Metode standard menurut CRISP-DM:
1. Business Understanding2. Data Understanding3. Data Preparation4. Modeling5. Evaluation6. Deployment
sumber : datasciencecentral.com
Business Understanding
Transformasi dari business knowledge menjadi machine learning problem
Poin penting:
1. Identifikasi masalah (business)2. Menentukan machine learning problem (i.e. supervise/unsupervised)
a. Memilih metode yang cocok dengan masalah tersebut [research/reading research paper]b. Tentukan parameter keberhasilan (online metrics/offline metrics)c. Kebutuhan data
Data Understanding
Menentukan dan memahami data yang diperlukan untuk menyelesaikan masalah
Poin penting:
1. Mengambil data dari sumbernya2. Mencari insight dari data (Exploratory Data Analysis)
a. Tipe datab. Central Tendency (mean, median, mode)c. Skewnessd. dll.
Data Preparation
Semua aktivitas untuk mempersiapkan data sehingga data siap dikonsumsi oleh model
Poin penting:
1. Data Gathering (Mengambil data dari sumbernya)2. Data Cleansing (handle outlier dan null value)3. Feature Engineering (transform, encode, etc)4. Feature Selection (uji korelasi)5. [optional] Normalisasi data6. Split Train Test data (Prinsip Pareto: 80/20)
ML-Modelling
Unsupervised Learning: Clustering
Algoritma yang sering dipakai:
1. Hierarchical Clustering2. K-Means (selain itu bisa juga K-Modes dan K-Median)3. DBscan4. dll.
Unsupervised Learning
Hierarchical Clustering
Bagian penting:
1. Dendogram2. Teknik:
a. Agglomerativeb. Divisive
Sumber gambar: University of Cincinnati
Unsupervised Learning
K-Means
Bagian penting:
1. Centroid2. Jumlah K
Evaluasi: Silhouette score
Sumber gambar: Google Developer
Supervised Learning: Clustering
Algoritma dalam regresi (estimasi nilai):
1. Regresi Linear2. Tree-based Model
Algoritma dalam klasifikasi:
1. Regresi Logistik2. Tree-based model
Supervised Learning
Regresi Linier
Asumsi:
1. Linieritas2. Normalitas Residual3. Non Outlier4. Homoskedastisitas5. Non Multikolinearitas6. Non Autokorelasi
Sumber gambar: Tran, H
sumber: statistikian.com
Supervised Learning
Regresi Logistic
Asumsi:
1. Target (variable dependen) harus dikotom (tinggi vs rendah, berat vs ringan, dst)
Sumber gambar: javapoint.com
sumber: statistikian.com
Supervised Learning
Decision Tree (Tree-based model)
Sumber gambar: synergy37AI
Supervised Learning
Random Forest (decision Tree)
Catatan:
- Urutan node decision berbeda untuk tiap `tree` nya
Sumber gambar: mygreatlearning.com
Evaluasi Model
Evaluasi
Evaluasi dalam masalah klasifikasi (supervised learning)
Sumber gambar: chemicalstatistician
Evaluasi
Confusion Matrix
Sumber gambar: Nugroho, K.S
Evaluasi
Rumus Perhitungan Metrix
Sumber gambar: Shrivastav, N.
Penerapan ML dalam industri digital
Beberapa contoh task dalam industri digital
1. Fraud Detection: Mendeteksi kecurangan. [5 Top Startup yang menyediakan jasa ini]
2. Chatbot: klasifikasi masalah pada user. kata.ai menyediakan service ini3. Cluster Lokasi Driver Go-Jek: [sumber]
Tips & Tricks belajar MLHarus belajar dari mana ya? kemana? dan dengan siapa?
Skill yang perlu dipelajari
1. Pemahaman statistik dasara. Metode kuantitatif (regresi linear, logistic)b. Clustering (K-means, DBscan), Classification (K-NN)c. [Better to learn] Tree Algorithm: decision tree, random forest dst
2. Programming Skill a. Python atau Rb. Jupyter Notebook [Better to learn]
3. Problem Solving
Belajar dimana?
1. Pemahaman statistik dasar -> perkuliahan, platform online (misal udemy, coursera, web/artikel, dll)
2. Programming Skill (Python atau R) -> perkuliahan, platform online (misalnya udemy, coursera, web/artikel, code-academy, dll)
3. Problem Solving -> perkuliahan (skripsi/ penelitian lain), platform online (misalnya Kaggle). contoh: Klasifikasi Pendapatan [Kaggle]
Sekian Terimakasihask me on: [email protected]