104
Manajemen DATA Adam Mukharil Bachtiar, M.T. Pengenalan Datawarehouse

Data Management (Introducing of Datawarehouse)

Embed Size (px)

Citation preview

Page 1: Data Management (Introducing of Datawarehouse)

Manajemen

DATAAdamMukharil Bachtiar, M.T.

Pengenalan Datawarehouse

Page 2: Data Management (Introducing of Datawarehouse)

Pemahaman Awal Datawarehouse

Page 3: Data Management (Introducing of Datawarehouse)

apa itu Datawarehouse?

Page 4: Data Management (Introducing of Datawarehouse)

Sebuah pendekatan penyimpanan data yang cenderung menyimpan data masa lalu yang mempunyai karakteristik

Subject Oriented, Integrated, Time Variant, dan Nonvolatile

Page 5: Data Management (Introducing of Datawarehouse)

Konsep Subject Oriented

Datawarehouse menyajikan informasi sekitar subjek bisnis dibandingkan operasi yang terjadi

OPERATIONAL DATAWAREHOUSE

E-Commerce

Transaksi Penjualan Pelanggan

E-Library

Peminjaman - Pengembalian Buku

Page 6: Data Management (Introducing of Datawarehouse)

Konsep Integrated

Datawarehouse mengintegrasikan data dari sumber yang heterogenous (beda sumber atau beda format)

Basis Data PT. X Cabang 1

Basis Data PT. X Cabang 2

Flat File PT. X Cabang 3

Datawarehouse PT. X

Page 7: Data Management (Introducing of Datawarehouse)

Tantangan Integrasi

Page 8: Data Management (Introducing of Datawarehouse)

Konsep Time Variant

• Time horizon: 60-90 days• Update of records• Key structure may/may not contains

element of time

OPERATIONAL DATAWAREHOUSE

• Time horizon: 5-10 years• Sophisticated snapshots of data• Key structure contains element of

time

Page 9: Data Management (Introducing of Datawarehouse)

Konsep Time Variant

Page 10: Data Management (Introducing of Datawarehouse)

Konsep Nonvolatile

Data yang sudah ada pada datawarehouse tidak akan dihapus ketika data baru ditambahkan

Page 11: Data Management (Introducing of Datawarehouse)

Sebelum membahas lebihlanjut tentang datawarehouse, ada aturan dasar yang berlakupada datawarehouse

Page 12: Data Management (Introducing of Datawarehouse)

Aturan 1:Datawarehouse dibuatterpisah dengan basis data operasional agar kinerjanyalebih baik

Page 13: Data Management (Introducing of Datawarehouse)

Aturan 2:Tidak ada frequent update pada datawarehouse

Page 14: Data Management (Introducing of Datawarehouse)

Aturan 3:Datawarehousemenyimpan data historical yang digunakan untukanalisis bisnis

Page 15: Data Management (Introducing of Datawarehouse)

Aturan 4:Setiap elemen kunci padadatawarehouse wajibmemiliki elemen waktu

Page 16: Data Management (Introducing of Datawarehouse)

Kenapa Datawarehouse?

Page 17: Data Management (Introducing of Datawarehouse)

Legacy applications + databases = chaos

ProductionControl

MRP

InventoryControl

PartsManagement

Logistics

Shipping

RawGoods

OrderControl

Purchasing

Marketing

Finance

Sales

Accounting

ManagementReporting

Engineering

Actuarial

HumanResources

ContinuityConsolidationControlComplianceCollaboration

Enterprise data warehouse = order

Singleversionofthetruth

EnterpriseDataWarehouse

Everyquestion=decision

Dua tujuan datawarehouse: 1) menghemat waktu pembuatan laporan; 2) mudah mengkotak-kotakan data

Page 18: Data Management (Introducing of Datawarehouse)

Apa perbedaan Datawarehousedengan basis data operasional?

Page 19: Data Management (Introducing of Datawarehouse)

DATABASE (OLTP) DATA WAREHOUSE (OLAP)

• Menangani data saat ini

• Data bisa saja disimpan pada beberapa

platform

• Data diorganisasikan berdasarkan fungsi

atau operasi seperti penjualan, produksi, dan

pemrosesan pesanan

• Pemrosesan bersifat berulang

• Untuk mendukung keputusan harian

(operasional)

• Melayani banyak pemakai operasional

• Berorientasi pada transaksi

• Lebih cenderung menangani data masa lalu

• Data disimpan dalam satu platform

• Data diorganisasikan menutut subjek seperti

pelanggan atau produk

• Pemrosesan sewaktu-waktu, tak terstruktur,

dan bersifat heuristik

• Untuk mendukung keputusan yang strategis

• Untuk mendukung pemakai manajerial yang

berjumlah relatif sedikit

• Berorientasi pada analisis

Page 20: Data Management (Introducing of Datawarehouse)

Bagaimana implementasiDatawarehouse?

Page 21: Data Management (Introducing of Datawarehouse)

DataWarehouse

ExtractTransformLoadRefresh

OLAP Engine

AnalysisQueryReportsData mining

Monitor&

IntegratorMetadata

Data Sources Front-End Tools

Serve

Data Marts

Operational DBs

Othersources

Data Storage

OLAP Server

Arsitektur Datawarehouse

Page 22: Data Management (Introducing of Datawarehouse)

Arsitektur Datawarehouse (alternatif)

Page 23: Data Management (Introducing of Datawarehouse)

Model Data Pada Datawarehouse

Page 24: Data Management (Introducing of Datawarehouse)

Data dari OLTP (Operasional) dipartisimenjadi dua bentuk, yaitutabel dimensi dan tabel fakta

Page 25: Data Management (Introducing of Datawarehouse)

Tabel dimensi berisi detail informasi dari kunci tamuyang digunakan padapengaksesan tabel fakta

Page 26: Data Management (Introducing of Datawarehouse)

Tabel fakta berisi item numerikhasil perhitungan agregatberdasarkan kunci pada tabeldimensi yang direlasikan

Page 27: Data Management (Introducing of Datawarehouse)

NIP NIM Kd. Matkul Nilai

Info Dosen

Info Mata Kuliah

. . .

Ukuran numerikdari tabel fakta

Kolom-kolom kunci dari tabel faktajuga kunci dari tabel-tabel dimensiInfo Mahasiswa

. . .. . .. . .. . .

Tabel-tabel dimensi

Tabel fakta

Gambaran Tabel Dimensi dan Tabel Fakta

Page 28: Data Management (Introducing of Datawarehouse)

ER model berfokus terhadaptransaksional sementaraDimensional Modelling berfokuskepada dimensi dan fakta

Page 29: Data Management (Introducing of Datawarehouse)

Konsep ER Model

Page 30: Data Management (Introducing of Datawarehouse)

Konsep Dimensional Modelling

Item Numerik

Page 31: Data Management (Introducing of Datawarehouse)

Ada tiga jenis skema model data pada datawarehouse, yaitu star, fact constellation, dan snowflake

Page 32: Data Management (Introducing of Datawarehouse)

STAR FACT CONSTELATION SNOWFLAKE

KONSEP DASAR

• Tabel dimensi berelasi

langsung dengan satu

tabel fakta

• Tabel dimensi tidak

bertingkat (denormalisasi)

• Tabel fakta berbagi tabel

dimensi dengan tabel

fakta lainnya

• Multiple facts

Tabel dimensi utama

berelasi dengan tabel fakta

dan dimensi lainnya berelasi

dengan dimensi utama

KELEBIHANAkses cepat dan mudah

dipahami oleh pengguna

Hemat ruang Mengurangi redundansi

karena ternormalisasi

KEKURANGAN

Boros ruang Tabel dimensi yang berelasi

dengan banyak fakta

kinerjanya menurun apabila

diakses bersamaan

Konsep normalisasi

menimbulkan query yang

kompleks

Page 33: Data Management (Introducing of Datawarehouse)

Store Key

Product Key

Period Key

Units

Price

Time Dimension

Product Dimension

Store Key

Store Name

City

State

Region

Period Key

Year

Quarter

Month

Product Key

Product Desc

Store Dimension Sale Fact

Skema Star

Page 34: Data Management (Introducing of Datawarehouse)

Skema Fact Constellation

Store Key

Product Key

Period Key

Units

Price

Store Dimension

Product Dimension

Sales Fact

Store Key

Store Name

City

State

Region

Product Key

Product Desc

Shipper Key

Store Key

Product Key

Period Key

Units

Price

Shipping Fact

Page 35: Data Management (Introducing of Datawarehouse)

Skema Snowflake

Store Key

Product Key

Period Key

Units

Price

Time Dimension

Product Dimension

Sale Fact

Store Key

Store Name

City Key

Period Key

Year

Quarter

Month

Product Key

Product Desc

City Key

City

State

Region

City Dimension

Store Dimension

Page 36: Data Management (Introducing of Datawarehouse)

Metodologi Pembangunan Datawarehouse

Page 37: Data Management (Introducing of Datawarehouse)

Ada dua pendekatan yang biasa digunakan untukmembangun datawarehouse

Page 38: Data Management (Introducing of Datawarehouse)

Dua Methodologi Umum Datawarehouse (Common)

Pendekatan Relasional

Bill Inmon Ralph Kimball

Pendekatan Dimensional

Page 39: Data Management (Introducing of Datawarehouse)

Dua pendekatan ini memilikiperbedaan dari penyusunandatawarehouse maupunpendekatan skema data

Page 40: Data Management (Introducing of Datawarehouse)

INMON (RELATIONAL APPROACH) KIMBALL (DIMENTIONAL APPROACH)

• Entity Relationship (ER) model

• Normalization rules

• Many tables using joins

• History Tables, natural keys

• Good for indirect end-user access of data

• Top-down approach

• Fact and dimensions, star schema

• Less tables but have duplicate data

(denormalized)

• Easier for user to understand (but strange for

IT people used to relational)

• Slowly changing dimensions, surrogate keys

• Good for direct end-user access of data

• Bottom-up approach

Page 41: Data Management (Introducing of Datawarehouse)

Relational Model Dimensional Model

If you are a business user, which model is easier to use?

Relational VS. Dimension Approach

Page 42: Data Management (Introducing of Datawarehouse)

Konsep Kimball

Why staging: Limit source contention (ELT), Recoverability, Backup, Auditing

Page 43: Data Management (Introducing of Datawarehouse)

Konsep Inmon

Page 44: Data Management (Introducing of Datawarehouse)

Dari dua pendekatantersebut, timbul sebuahpendekatan baru yang disebut sebagai Hybrid

Page 45: Data Management (Introducing of Datawarehouse)

Konsep Hybrid

Page 46: Data Management (Introducing of Datawarehouse)

Perancangan Datawarehouse

Page 47: Data Management (Introducing of Datawarehouse)

Datawarehouse dibuat untukmendukung pengambilankeputusan pihak manajerial

Page 48: Data Management (Introducing of Datawarehouse)

Tahap pertama dalammerancang datawarehouseadalah mendefinisikaninformasi-informasi apa sajayang dibutuhkan

Page 49: Data Management (Introducing of Datawarehouse)

Ada enam pertanyaan dasaryang ditanyakan sebelummerancang datawarehouse

Page 50: Data Management (Introducing of Datawarehouse)

Pertanyaan 1:Siapa yang membutuhkaninformasi dari datawarehouse?

Page 51: Data Management (Introducing of Datawarehouse)

Pertanyaan 2:Informasi apa saja yang dibutuhkan?

Page 52: Data Management (Introducing of Datawarehouse)

Pertanyaan 3:Seperti apa layout dan isiinformasi-informasi tersebut?

Page 53: Data Management (Introducing of Datawarehouse)

Pertanyaan 4:Kapan informasi tersebutdigunakan?

Page 54: Data Management (Introducing of Datawarehouse)

Pertanyaan 5:Untuk keperluan apa informasitersebut?

Page 55: Data Management (Introducing of Datawarehouse)

Pertanyaan 6:Basis data apa yang menjadisumber informasi tersebut?

Page 56: Data Management (Introducing of Datawarehouse)

Bagaimana

implementasinya?

Page 57: Data Management (Introducing of Datawarehouse)

Pertanyaan 1:Siapa yang membutuhkan informasi daridatawarehouse?

Jawaban:Manajer pemasaran

Page 58: Data Management (Introducing of Datawarehouse)

Pertanyaan 2:Informasi apa saja yang dibutuhkan?

Jawaban:• Barang apa saja yang paling banyak dijual

di lokasi tertentu sepanjang tahun• Barang apa yang paling banyak

memberikan pendapatan sepanjang tahun

Page 59: Data Management (Introducing of Datawarehouse)

Pertanyaan 3:Seperti apa layout dan isi informasi-informasitersebut?

Page 60: Data Management (Introducing of Datawarehouse)

Jawaban:

TAHUN KECAMATAN KATEGORI SUM(TOTAL_PENJUALAN)

2007 ANDIR KONSUMSI 26

2007 SUMUR BANDUNG ATK 17

2007 ASTANA ANYAR ATK 16

2007 BANDUNG WETAN KONSUMSI 15

2007 SUMUR BANDUNG KONSUMSI 13

2007 ANDIR ATK 13

2007 BANDUNG WETAN ATK 7

Barang apa saja yang paling banyak dijual di lokasi tertentu sepanjang tahun?

TAHUN KECAMATAN SUBKATEGORI SUM(TOTAL_PENDAPATAN)

2007 ATK ALAT TULIS 4.270.000

2007 ATK ELEKTRONIK 511.000

2007 KONSUMSI SEMBAKO 116.000

2007 KONSUMSI SNACK 87.100

Barang apa yang paling banyak memberikan pendapatan sepanjang tahun?

Page 61: Data Management (Introducing of Datawarehouse)

Pertanyaan 4:Untuk keperluan apa informasi tersebut?

Jawaban:Dasar untuk menentukan strategipenjualan barang

Page 62: Data Management (Introducing of Datawarehouse)

Pertanyaan 5:Kapan informasi tersebut digunakan?

Jawaban:Awal periode penjualan

Page 63: Data Management (Introducing of Datawarehouse)

Pertanyaan 6:Basis data apa saja yang menjadi sumber informasi tersebut?

Jawaban:• Barang (#kode_barang, nama_barang, kelompok, satuan, harga)• Kategori (#kelompok, sub_kategori, kategori)• Pelanggan (#kode_cust, nama_cust, alamat, kota, kode_pos, telepon)• Lokasi (#kode_pos, kelurahan, kecamatan) • Penjualan (#no_faktur, #kode_barang, qty)• Pembayaran (#no_faktur, tanggal, total, discount, #kode_cust)

Page 64: Data Management (Introducing of Datawarehouse)

Tahap kedua dalam merancangdatawarehouse adalahmenentukan measure dandimension per informasi

Page 65: Data Management (Introducing of Datawarehouse)

Informasi:Barang apa saja yang paling banyak dijual di lokasitertentu sepanjang tahun?

Jawaban:Measure: total penjualanDimension: barang, tahun (waktu/periode), lokasi

Page 66: Data Management (Introducing of Datawarehouse)

Informasi:Barang apa saja yang memberikan pendapatanpaling banyak sepanjang tahun?

Jawaban:Measure: total pendapatanDimension: barang, tahun (waktu/periode)

Page 67: Data Management (Introducing of Datawarehouse)

Dimensi mempunyai hirarki danhirarki ditentukan sesuai denganproses drill down dan roll up pada OLAP

Page 68: Data Management (Introducing of Datawarehouse)

Hirarki Barang:Nama barang > sub kategori > kategori

Hirarki Periode:Minggu > bulan > tahun

Hirarki Lokasi:Kelurahan > kecamatan > kota

Page 69: Data Management (Introducing of Datawarehouse)

BARANG PERIODE LOKASITOTAL

PENJUALANTOTAL

PENDAPATANKODE NAMA SUB

KATEGORIKATEGORI MINGGU BULAN TAHUN KELURAHAN KECAMATAN KOTA

B-001 SUKRO SNACK KONSUMSI 44 11 2007 ARJUNA ANDIR BANDUNG 5 12.500

45 11 2007 ARJUNA ANDIR BANDUNG 1 2.500

45 11 2007 SUKALUYU BANDUNGWETAN

BANDUNG 1 2.500

45 11 2007 BRAGA SUMURBANDUNG

BANDUNG 2 5.000

9 22.500

..

..

TOTAL 54.500

Layout Informasi

Page 70: Data Management (Introducing of Datawarehouse)

Tahap ketiga adalahperancangan konseptualmenggunakan tiga skema yang sudah dijelaskan

Page 71: Data Management (Introducing of Datawarehouse)

Kode_barang

Kode_periode

Kode_lokasi

Total_penjualan

Total_pendapatan

Tabel DimensiLokasi

Tabel DimensiWaktu

kode_barang

nama_barang

sub_kategori

kategori

Kode_lokasi

kelurahan

kecamatan

kota

Kode_periode

minggu

bulan

tahun

Tabel DimensiBarang

Tabel FaktaPenjualan

Model Konseptual

Page 72: Data Management (Introducing of Datawarehouse)

Tahap terakhir adalahmengimplementasikanrancangan skemadatawarehouse ke DBMS

Page 73: Data Management (Introducing of Datawarehouse)

Masing-masing metodologipengembangandatawarehouse punyaproses yang berbeda

Page 74: Data Management (Introducing of Datawarehouse)

OLAP (Online Analytical Processing)

Page 75: Data Management (Introducing of Datawarehouse)

Kategori dari teknologi perangkat lunak yang memungkinkan analist, manajer, dan eksekutif mendapatkan insight pada data secara cepat, konsisten, interaktif, aneka

ragam tampilan dari datawarehouse

Page 76: Data Management (Introducing of Datawarehouse)

OLAP merepresentasikandata dan relasi dalambentuk multidimensional

Page 77: Data Management (Introducing of Datawarehouse)

Representasi data padamultidimensional biasanya disajikan dalambentuk cube

Page 78: Data Management (Introducing of Datawarehouse)

Setiap sisi pada suatucube adalah dimensiyang ada padadatawarehouse

Page 79: Data Management (Introducing of Datawarehouse)

Gambaran Umum Multidimensional Data

Page 80: Data Management (Introducing of Datawarehouse)

Gambaran Umum Multidimensional Data

Kubus 3-dimensi:Tabel fakta:

sale prod-Id store-Id tgl jumlahp1 s1 1 12p2 s1 1 11p1 s3 1 50p2 s2 1 8p1 s1 2 44p1 s2 2 4

tgl 2 s1 s2 s3p1 44 4p2 s1 s2 s3

p1 12 50p2 11 8

tgl 1

Page 81: Data Management (Introducing of Datawarehouse)

Ada empat operasi dasarOLAP pada multidimensional data

Page 82: Data Management (Introducing of Datawarehouse)

1. Aggregation (Roll Up)

2. Navigation to detailed data (Drill Down)

3. Selection (Slice and Dice)

4. Visualization Operation (Pivot)

Page 83: Data Management (Introducing of Datawarehouse)

Operation 1:Roll Up

Page 84: Data Management (Introducing of Datawarehouse)

Roll up mengaggregasikandata pada suatu cube

Page 85: Data Management (Introducing of Datawarehouse)

Aggregasi dibentukdengan dua cara: climbing up sesuai hirarki dimensidan reduksi dimensi

Page 86: Data Management (Introducing of Datawarehouse)

Gambaran Umum Roll Up

Hirarki Locations: street < city < province < country

Page 87: Data Management (Introducing of Datawarehouse)

Gambaran Umum Roll Up

Page 88: Data Management (Introducing of Datawarehouse)

Gambaran Umum Roll Up

tgl 2 s1 s2 s3p1 44 4p2 s1 s2 s3

p1 12 50p2 11 8

tgl 1

s1 s2 s3p1 56 4 50p2 11 8

s1 s2 s3sum 67 12 50

sump1 110p2 19

129

. . .

Contoh: penghitungan total

Page 89: Data Management (Introducing of Datawarehouse)

Operation 2:Drill Down

Page 90: Data Management (Introducing of Datawarehouse)

Drill down mendetailkaninformasi pada suatu cube dan merupakan kebalikandari Roll up

Page 91: Data Management (Introducing of Datawarehouse)

Drill down dibentukdengan dua cara: stepping down hirarki dimensi danpengenalan dimensi baru

Page 92: Data Management (Introducing of Datawarehouse)

Gambaran Umum Drill Down

Hirarki time: day < month < quarter < year

Page 93: Data Management (Introducing of Datawarehouse)

Gambaran Umum Drill Down

Page 94: Data Management (Introducing of Datawarehouse)

Operation 3:Slice

Page 95: Data Management (Introducing of Datawarehouse)

Slice digunakan untukmemilih satu dimensi yang dibutuhkan untuk dibentuksub-cube baru

Page 96: Data Management (Introducing of Datawarehouse)

Gambaran Umum Slice

Time = “Q1”

Page 97: Data Management (Introducing of Datawarehouse)

Gambaran Umum Slice

tgl 2 s1 s2 s3p1 44 4p2 s1 s2 s3

p1 12 50p2 11 8

tgl 1

s1 s2 s3p1 12 50p2 11 8

WAKTU = tanggal 1

Page 98: Data Management (Introducing of Datawarehouse)

Operation 4:Dice

Page 99: Data Management (Introducing of Datawarehouse)

Dice digunakan untuk memilihdua atau lebih dimensi yang dibutuhkan untuk dibentuksub-cube baru

Page 100: Data Management (Introducing of Datawarehouse)

Gambaran Umum Dice

Location = “Toronto” or “Vancouver”Time = “Q1” or “Q2”Item = “Mobile” or “Modem”

Page 101: Data Management (Introducing of Datawarehouse)

Operation 5:Pivot

Page 102: Data Management (Introducing of Datawarehouse)

Pivot memungkinkan rotasi(perubahan baris dan kolom) pada informasi yang dimunculkanpada datawarehouse

Page 103: Data Management (Introducing of Datawarehouse)

Gambaran Umum Pivot

Item dan Location dirotasi

Page 104: Data Management (Introducing of Datawarehouse)

Gambaran Umum Pivot