Data Management (Introducing of Datawarehouse)

Preview:

Citation preview

Manajemen

DATAAdamMukharil Bachtiar, M.T.

Pengenalan Datawarehouse

Pemahaman Awal Datawarehouse

apa itu Datawarehouse?

Sebuah pendekatan penyimpanan data yang cenderung menyimpan data masa lalu yang mempunyai karakteristik

Subject Oriented, Integrated, Time Variant, dan Nonvolatile

Konsep Subject Oriented

Datawarehouse menyajikan informasi sekitar subjek bisnis dibandingkan operasi yang terjadi

OPERATIONAL DATAWAREHOUSE

E-Commerce

Transaksi Penjualan Pelanggan

E-Library

Peminjaman - Pengembalian Buku

Konsep Integrated

Datawarehouse mengintegrasikan data dari sumber yang heterogenous (beda sumber atau beda format)

Basis Data PT. X Cabang 1

Basis Data PT. X Cabang 2

Flat File PT. X Cabang 3

Datawarehouse PT. X

Tantangan Integrasi

Konsep Time Variant

• Time horizon: 60-90 days• Update of records• Key structure may/may not contains

element of time

OPERATIONAL DATAWAREHOUSE

• Time horizon: 5-10 years• Sophisticated snapshots of data• Key structure contains element of

time

Konsep Time Variant

Konsep Nonvolatile

Data yang sudah ada pada datawarehouse tidak akan dihapus ketika data baru ditambahkan

Sebelum membahas lebihlanjut tentang datawarehouse, ada aturan dasar yang berlakupada datawarehouse

Aturan 1:Datawarehouse dibuatterpisah dengan basis data operasional agar kinerjanyalebih baik

Aturan 2:Tidak ada frequent update pada datawarehouse

Aturan 3:Datawarehousemenyimpan data historical yang digunakan untukanalisis bisnis

Aturan 4:Setiap elemen kunci padadatawarehouse wajibmemiliki elemen waktu

Kenapa Datawarehouse?

Legacy applications + databases = chaos

ProductionControl

MRP

InventoryControl

PartsManagement

Logistics

Shipping

RawGoods

OrderControl

Purchasing

Marketing

Finance

Sales

Accounting

ManagementReporting

Engineering

Actuarial

HumanResources

ContinuityConsolidationControlComplianceCollaboration

Enterprise data warehouse = order

Singleversionofthetruth

EnterpriseDataWarehouse

Everyquestion=decision

Dua tujuan datawarehouse: 1) menghemat waktu pembuatan laporan; 2) mudah mengkotak-kotakan data

Apa perbedaan Datawarehousedengan basis data operasional?

DATABASE (OLTP) DATA WAREHOUSE (OLAP)

• Menangani data saat ini

• Data bisa saja disimpan pada beberapa

platform

• Data diorganisasikan berdasarkan fungsi

atau operasi seperti penjualan, produksi, dan

pemrosesan pesanan

• Pemrosesan bersifat berulang

• Untuk mendukung keputusan harian

(operasional)

• Melayani banyak pemakai operasional

• Berorientasi pada transaksi

• Lebih cenderung menangani data masa lalu

• Data disimpan dalam satu platform

• Data diorganisasikan menutut subjek seperti

pelanggan atau produk

• Pemrosesan sewaktu-waktu, tak terstruktur,

dan bersifat heuristik

• Untuk mendukung keputusan yang strategis

• Untuk mendukung pemakai manajerial yang

berjumlah relatif sedikit

• Berorientasi pada analisis

Bagaimana implementasiDatawarehouse?

DataWarehouse

ExtractTransformLoadRefresh

OLAP Engine

AnalysisQueryReportsData mining

Monitor&

IntegratorMetadata

Data Sources Front-End Tools

Serve

Data Marts

Operational DBs

Othersources

Data Storage

OLAP Server

Arsitektur Datawarehouse

Arsitektur Datawarehouse (alternatif)

Model Data Pada Datawarehouse

Data dari OLTP (Operasional) dipartisimenjadi dua bentuk, yaitutabel dimensi dan tabel fakta

Tabel dimensi berisi detail informasi dari kunci tamuyang digunakan padapengaksesan tabel fakta

Tabel fakta berisi item numerikhasil perhitungan agregatberdasarkan kunci pada tabeldimensi yang direlasikan

NIP NIM Kd. Matkul Nilai

Info Dosen

Info Mata Kuliah

. . .

Ukuran numerikdari tabel fakta

Kolom-kolom kunci dari tabel faktajuga kunci dari tabel-tabel dimensiInfo Mahasiswa

. . .. . .. . .. . .

Tabel-tabel dimensi

Tabel fakta

Gambaran Tabel Dimensi dan Tabel Fakta

ER model berfokus terhadaptransaksional sementaraDimensional Modelling berfokuskepada dimensi dan fakta

Konsep ER Model

Konsep Dimensional Modelling

Item Numerik

Ada tiga jenis skema model data pada datawarehouse, yaitu star, fact constellation, dan snowflake

STAR FACT CONSTELATION SNOWFLAKE

KONSEP DASAR

• Tabel dimensi berelasi

langsung dengan satu

tabel fakta

• Tabel dimensi tidak

bertingkat (denormalisasi)

• Tabel fakta berbagi tabel

dimensi dengan tabel

fakta lainnya

• Multiple facts

Tabel dimensi utama

berelasi dengan tabel fakta

dan dimensi lainnya berelasi

dengan dimensi utama

KELEBIHANAkses cepat dan mudah

dipahami oleh pengguna

Hemat ruang Mengurangi redundansi

karena ternormalisasi

KEKURANGAN

Boros ruang Tabel dimensi yang berelasi

dengan banyak fakta

kinerjanya menurun apabila

diakses bersamaan

Konsep normalisasi

menimbulkan query yang

kompleks

Store Key

Product Key

Period Key

Units

Price

Time Dimension

Product Dimension

Store Key

Store Name

City

State

Region

Period Key

Year

Quarter

Month

Product Key

Product Desc

Store Dimension Sale Fact

Skema Star

Skema Fact Constellation

Store Key

Product Key

Period Key

Units

Price

Store Dimension

Product Dimension

Sales Fact

Store Key

Store Name

City

State

Region

Product Key

Product Desc

Shipper Key

Store Key

Product Key

Period Key

Units

Price

Shipping Fact

Skema Snowflake

Store Key

Product Key

Period Key

Units

Price

Time Dimension

Product Dimension

Sale Fact

Store Key

Store Name

City Key

Period Key

Year

Quarter

Month

Product Key

Product Desc

City Key

City

State

Region

City Dimension

Store Dimension

Metodologi Pembangunan Datawarehouse

Ada dua pendekatan yang biasa digunakan untukmembangun datawarehouse

Dua Methodologi Umum Datawarehouse (Common)

Pendekatan Relasional

Bill Inmon Ralph Kimball

Pendekatan Dimensional

Dua pendekatan ini memilikiperbedaan dari penyusunandatawarehouse maupunpendekatan skema data

INMON (RELATIONAL APPROACH) KIMBALL (DIMENTIONAL APPROACH)

• Entity Relationship (ER) model

• Normalization rules

• Many tables using joins

• History Tables, natural keys

• Good for indirect end-user access of data

• Top-down approach

• Fact and dimensions, star schema

• Less tables but have duplicate data

(denormalized)

• Easier for user to understand (but strange for

IT people used to relational)

• Slowly changing dimensions, surrogate keys

• Good for direct end-user access of data

• Bottom-up approach

Relational Model Dimensional Model

If you are a business user, which model is easier to use?

Relational VS. Dimension Approach

Konsep Kimball

Why staging: Limit source contention (ELT), Recoverability, Backup, Auditing

Konsep Inmon

Dari dua pendekatantersebut, timbul sebuahpendekatan baru yang disebut sebagai Hybrid

Konsep Hybrid

Perancangan Datawarehouse

Datawarehouse dibuat untukmendukung pengambilankeputusan pihak manajerial

Tahap pertama dalammerancang datawarehouseadalah mendefinisikaninformasi-informasi apa sajayang dibutuhkan

Ada enam pertanyaan dasaryang ditanyakan sebelummerancang datawarehouse

Pertanyaan 1:Siapa yang membutuhkaninformasi dari datawarehouse?

Pertanyaan 2:Informasi apa saja yang dibutuhkan?

Pertanyaan 3:Seperti apa layout dan isiinformasi-informasi tersebut?

Pertanyaan 4:Kapan informasi tersebutdigunakan?

Pertanyaan 5:Untuk keperluan apa informasitersebut?

Pertanyaan 6:Basis data apa yang menjadisumber informasi tersebut?

Bagaimana

implementasinya?

Pertanyaan 1:Siapa yang membutuhkan informasi daridatawarehouse?

Jawaban:Manajer pemasaran

Pertanyaan 2:Informasi apa saja yang dibutuhkan?

Jawaban:• Barang apa saja yang paling banyak dijual

di lokasi tertentu sepanjang tahun• Barang apa yang paling banyak

memberikan pendapatan sepanjang tahun

Pertanyaan 3:Seperti apa layout dan isi informasi-informasitersebut?

Jawaban:

TAHUN KECAMATAN KATEGORI SUM(TOTAL_PENJUALAN)

2007 ANDIR KONSUMSI 26

2007 SUMUR BANDUNG ATK 17

2007 ASTANA ANYAR ATK 16

2007 BANDUNG WETAN KONSUMSI 15

2007 SUMUR BANDUNG KONSUMSI 13

2007 ANDIR ATK 13

2007 BANDUNG WETAN ATK 7

Barang apa saja yang paling banyak dijual di lokasi tertentu sepanjang tahun?

TAHUN KECAMATAN SUBKATEGORI SUM(TOTAL_PENDAPATAN)

2007 ATK ALAT TULIS 4.270.000

2007 ATK ELEKTRONIK 511.000

2007 KONSUMSI SEMBAKO 116.000

2007 KONSUMSI SNACK 87.100

Barang apa yang paling banyak memberikan pendapatan sepanjang tahun?

Pertanyaan 4:Untuk keperluan apa informasi tersebut?

Jawaban:Dasar untuk menentukan strategipenjualan barang

Pertanyaan 5:Kapan informasi tersebut digunakan?

Jawaban:Awal periode penjualan

Pertanyaan 6:Basis data apa saja yang menjadi sumber informasi tersebut?

Jawaban:• Barang (#kode_barang, nama_barang, kelompok, satuan, harga)• Kategori (#kelompok, sub_kategori, kategori)• Pelanggan (#kode_cust, nama_cust, alamat, kota, kode_pos, telepon)• Lokasi (#kode_pos, kelurahan, kecamatan) • Penjualan (#no_faktur, #kode_barang, qty)• Pembayaran (#no_faktur, tanggal, total, discount, #kode_cust)

Tahap kedua dalam merancangdatawarehouse adalahmenentukan measure dandimension per informasi

Informasi:Barang apa saja yang paling banyak dijual di lokasitertentu sepanjang tahun?

Jawaban:Measure: total penjualanDimension: barang, tahun (waktu/periode), lokasi

Informasi:Barang apa saja yang memberikan pendapatanpaling banyak sepanjang tahun?

Jawaban:Measure: total pendapatanDimension: barang, tahun (waktu/periode)

Dimensi mempunyai hirarki danhirarki ditentukan sesuai denganproses drill down dan roll up pada OLAP

Hirarki Barang:Nama barang > sub kategori > kategori

Hirarki Periode:Minggu > bulan > tahun

Hirarki Lokasi:Kelurahan > kecamatan > kota

BARANG PERIODE LOKASITOTAL

PENJUALANTOTAL

PENDAPATANKODE NAMA SUB

KATEGORIKATEGORI MINGGU BULAN TAHUN KELURAHAN KECAMATAN KOTA

B-001 SUKRO SNACK KONSUMSI 44 11 2007 ARJUNA ANDIR BANDUNG 5 12.500

45 11 2007 ARJUNA ANDIR BANDUNG 1 2.500

45 11 2007 SUKALUYU BANDUNGWETAN

BANDUNG 1 2.500

45 11 2007 BRAGA SUMURBANDUNG

BANDUNG 2 5.000

9 22.500

..

..

TOTAL 54.500

Layout Informasi

Tahap ketiga adalahperancangan konseptualmenggunakan tiga skema yang sudah dijelaskan

Kode_barang

Kode_periode

Kode_lokasi

Total_penjualan

Total_pendapatan

Tabel DimensiLokasi

Tabel DimensiWaktu

kode_barang

nama_barang

sub_kategori

kategori

Kode_lokasi

kelurahan

kecamatan

kota

Kode_periode

minggu

bulan

tahun

Tabel DimensiBarang

Tabel FaktaPenjualan

Model Konseptual

Tahap terakhir adalahmengimplementasikanrancangan skemadatawarehouse ke DBMS

Masing-masing metodologipengembangandatawarehouse punyaproses yang berbeda

OLAP (Online Analytical Processing)

Kategori dari teknologi perangkat lunak yang memungkinkan analist, manajer, dan eksekutif mendapatkan insight pada data secara cepat, konsisten, interaktif, aneka

ragam tampilan dari datawarehouse

OLAP merepresentasikandata dan relasi dalambentuk multidimensional

Representasi data padamultidimensional biasanya disajikan dalambentuk cube

Setiap sisi pada suatucube adalah dimensiyang ada padadatawarehouse

Gambaran Umum Multidimensional Data

Gambaran Umum Multidimensional Data

Kubus 3-dimensi:Tabel fakta:

sale prod-Id store-Id tgl jumlahp1 s1 1 12p2 s1 1 11p1 s3 1 50p2 s2 1 8p1 s1 2 44p1 s2 2 4

tgl 2 s1 s2 s3p1 44 4p2 s1 s2 s3

p1 12 50p2 11 8

tgl 1

Ada empat operasi dasarOLAP pada multidimensional data

1. Aggregation (Roll Up)

2. Navigation to detailed data (Drill Down)

3. Selection (Slice and Dice)

4. Visualization Operation (Pivot)

Operation 1:Roll Up

Roll up mengaggregasikandata pada suatu cube

Aggregasi dibentukdengan dua cara: climbing up sesuai hirarki dimensidan reduksi dimensi

Gambaran Umum Roll Up

Hirarki Locations: street < city < province < country

Gambaran Umum Roll Up

Gambaran Umum Roll Up

tgl 2 s1 s2 s3p1 44 4p2 s1 s2 s3

p1 12 50p2 11 8

tgl 1

s1 s2 s3p1 56 4 50p2 11 8

s1 s2 s3sum 67 12 50

sump1 110p2 19

129

. . .

Contoh: penghitungan total

Operation 2:Drill Down

Drill down mendetailkaninformasi pada suatu cube dan merupakan kebalikandari Roll up

Drill down dibentukdengan dua cara: stepping down hirarki dimensi danpengenalan dimensi baru

Gambaran Umum Drill Down

Hirarki time: day < month < quarter < year

Gambaran Umum Drill Down

Operation 3:Slice

Slice digunakan untukmemilih satu dimensi yang dibutuhkan untuk dibentuksub-cube baru

Gambaran Umum Slice

Time = “Q1”

Gambaran Umum Slice

tgl 2 s1 s2 s3p1 44 4p2 s1 s2 s3

p1 12 50p2 11 8

tgl 1

s1 s2 s3p1 12 50p2 11 8

WAKTU = tanggal 1

Operation 4:Dice

Dice digunakan untuk memilihdua atau lebih dimensi yang dibutuhkan untuk dibentuksub-cube baru

Gambaran Umum Dice

Location = “Toronto” or “Vancouver”Time = “Q1” or “Q2”Item = “Mobile” or “Modem”

Operation 5:Pivot

Pivot memungkinkan rotasi(perubahan baris dan kolom) pada informasi yang dimunculkanpada datawarehouse

Gambaran Umum Pivot

Item dan Location dirotasi

Gambaran Umum Pivot