Upload
albertof
View
309
Download
0
Embed Size (px)
Citation preview
www.nuvola.it
Presentazione
Database VERTICA
www.nuvola.it
COS’E’ VERTICA:E’ l’innovativo database DBMS che garantisce elevate performance sull’analisi di grandi volumi di dati (unità di Terabyte)
PERCHE’ VERTICA: E’ veloce, è semplice, e… costa poco!
Introduzione a Vertica
www.nuvola.it
La grande esperienza del nostro gruppo ci ha portati ad individuare alcune aree critiche nei progetti dedicati ad aziende che hanno necessità di gestire grandi volumi di dati con tempi di risposta molto rapidi.
Vertica nasce specificamente per soddisfare questo tipo di esigenze:
Per chi è pensato
Progetto a basso impatto sull’azienda
Possibilità di analisi fino alla singola riga di dettaglio
Ottenere rapidi tempi di risposta gestendo grandi volumi di dati
Gestione di base dati delle dimensioni di TeraByte
www.nuvola.it
TC
O (
Co
sto
di
Po
sses
so)
Adatto allo scopo
APPLICAZIONI TRANSAZIONALI
AL
TO
BA
SS
O
APPLICAZIONI ANALITICHE
Kx KDBSybase IQTeradata“RAM”
DBMSs
Postgres/EnterpriseDBMySQL
OracleIBM DB2Sybase ASE
Greenplum(Postgres)Datallegro (Ingres)Netezza (Postgres)
Microsoft SQLServer
Posizionamento sul mercato
www.nuvola.it
TECNOLOGIA“COLUMN-ORIENTED”
RISPOSTE 10-100 VOLTEMAGGIORI
ELEVATA COMPRESSIONEDATI
NECESSITA DI POCO SPAZIO
INSTALLABILE SU HARDWARE LINUXGIA’ ESISTENTE IN AZIENDA
PIATTAFORMA HARDWARE A BASSO IMPATTO ECONOMICO
CARICAMENTO DATICONTINUO
REPORT SEMPRE AGGIORNATI
INTERFACCIA SQLSTANDARD
RAPIDA INTEGRAZIONE E IMPLEMENTAZIONE
DESIGN DEL DATABASESEMPLICE ED EFFICIENTE BASSO COSTO DI MANUTENZIONE
Val
ue V
alue
Caratteristiche
www.nuvola.it
Strumenti di Reporting
Apps
OLTP
EDW
Files
SistemiSorgenti
Nuvola è l’ottimizzazione dell’ interfaccia per Vertica, il database è comunque aperto all’interrogazione di altri strumenti di reportistica.
Architettura
ExtractionTransformation
Loading
ETL
www.nuvola.it
Comparazione Costo Totale di Possesso (TCO) VS principali Competitors espresso in %
100
0
60
40
20
80
TCO %
OracleNTS IBM Teradata
Analisi comparativa TCO
www.nuvola.it
Alcune referenze di Vertica
www.nuvola.it
VERTICA PERFORMANCES
www.nuvola.it
1/17/20071/17/20071/17/20071/17/20071/17/20071/17/20071/17/20071/17/20071/17/20071/17/20071/17/20071/17/20071/17/20071/17/20071/17/20071/17/2007
0000001
0000001
0000003
0000003
0000005
0000011
0000011
0000020
0000026
0000050
0000051
0000052
0000053
0000068
0000069
0000071
Data ID CLiente Trade
Run-lengthEncoding
(Pochi Valori, ordinati)
100.9975.6636.93
146.88283.39
93.4023.21
344.4421.3023.9250.2238.2221.9274.26
152.4989.23
DeltaEncoding
(Molti Valori, ordinati)
Float Compression(Molti Valori, disordinati)
PERCHE’ E’ VELOCE
Perché usare Vertica
www.nuvola.it
1/17/2007, 16
Data ID CLiente Trade
Run-lengthEncoding
(Pochi Valori, ordinati)
DeltaEncoding
(Molti Valori, ordinati)
Float Compression(Molti Valori, disordinati)
PERCHE’ E’ VELOCE ?0000001
0224
1010192549505152676870
100.9975.6636.93
146.88283.3993.4023.21
344.4421.3023.9250.2238.2221.9274.26
152.4989.23
• perchè sfrutta algoritmi di compressione molto performanti • perché ogni dato viene letto una sola volta per ogni occorrenza
• perché i dati organizzati secondo colonne mantengono lo stesso formato
Perché usare Vertica
www.nuvola.it
Test:
Dimensioni DB: 600GB
14 interrogazioni
1 tabella, 200 colonne
Risultati di Vertica:
Tempo di caricamento 3 volte più veloce
Interrogazioni 214 volte più veloci
Immagazzina 1.5 anni nello stesso spazio in cui un normale sistema immagazzinerebbe 90 giorni di dati di vendita.
L’Hardware costa meno della metà
Datawarehouse proprietario
Caricamento
2.4 ore 8 ore
Dimensione DB
56 GB 948 GB
Tempi di risposta
8.7 secondi30 minuti e
57.0 secondi
Costi Hardware
$20,000 $48,000 $$
??
Sommario Benchmark Telecom
www.nuvola.it
Analisi su Record di dettaglio telefonate
Customer Benchmark
• Mobile Communications co•21TB di dettaglio telefonate
Cluster di 5 nodi ognuno con:
• 2x4-core CPUs• 8GB RAM• 7x146 GB HDDs
Risultati
• tempo medio query: 3m 41s• tempo di caricamento: 58 ore• DIMENSIONE DB: 21TB
www.nuvola.it
Comparazione Vertica vs OLTP
Comparazione:
1.5TB Record Dettaglio Telefonate
Vertica : 3- node cluster vs. OLTP DBMS on 24-vie server + SAN
Queries 60 volte più veloci
Compressione migliorata di 4 volte
25 volte più veloce in fase di caricamento
470.000£ in meno di Hardware
0
100000
200000
300000
400000
500000
$30K
$500K
Hardware Cost
Vertica
OLTP DBMS
0
100
200
300
400
500
120 GB
480 GB
Database Size (GB)
Vertica
OLTP DBMS
0
5
10
15
20
25
30
0.5 min
30 min
Avg. Query Response Time (min)
Vertica
OLTP DBMS
0
20
40
60
80
100
120
5.5 h
120 h(5 days)
Load Time (hours)
Vertica
OLTP DBMS
www.nuvola.it
VERTICA: OVERVIEW DI PRODOTTO
www.nuvola.it
1. Architettura “Column-Oriented”
2. Elevata compressione dei dati
3. Ottimizzato per l’analisi
4. Sistema ibrido di lettura/scrittura dati
5. Design semplice ed efficace
Caratteristiche
www.nuvola.it
GM NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSE NYSE 30.77 NYSE NYSE NYSE 1/17/08
GM NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSE NYSE 30.79 NYSE NYSE NYSE 1/17/08
AAPL NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSE NYSE 93.24 NYSE NYSE NYSE 1/17/08
GM NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSE NYSE 30.77 NYSE NYSE NYSE 1/17/08
Lettura per RigheLegge tutte le colonne
1/17/081/17/081/17/081/17/08
Lettura per ColonneLegge 3 colonne
Caratteristiche Tecniche
Ideale per intensi carichi di lavoro in lettura di dati Riduce la I/O Bandwidth dei dischi
E.g.: SELECT avg(price)FROM tickstore WHERE symbol = ‘GM’ and date = ‘1/17/2008’
GMGMGM
AAPL
30.7730.7730.7993.24
NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS
NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS
NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS
NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS
NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS
NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS
NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS
NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS
NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS
NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS
NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS
NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS
www.nuvola.it
Caratteristiche Tecniche
= colonne ordinate
Relazione R:
LOGICA
FISICA
(A B C | A)
A B C
(B A C | B A)
B A C
(B D E | B)
B D E
…
.
.
.
A B C D E
> Immagazzina dati come “Proiezioni” Viste specifiche
Includono colonne ridondanti ordinate differentemente
www.nuvola.it
A3 B3 C3
A1 B1 C1
A2 B2 C2A B C
B3 A3 C3
B2 A2 C2
B1 A1 C1
(A B C | A)
Caratteristiche Tecniche
= colonne ordinate
(B A C | B A)
> Le proiezioni vengono suddivise in segmenti Il numero di segmenti dipende dal numero di nodi; viene
creato un segmento per ogni nodo
B A C
www.nuvola.it
A3 B3 C3
A2 B2 C2
A1 B1 C1
Caratteristiche Tecniche
> I segmenti vengono mappati in nodi per mantenere un livello ottimale di K-Safety
B1 A1 C1
B2 A2 C2
B3 A3 C3
> I segmenti ottimizzano ogni nodo per differenti carichi di lavoro in lettura Ottimizzazione delle performances attraverso la ridondanza
E’ possibile mantenere più copie perchè i dati sono compressi
www.nuvola.it
Caratteristiche Tecniche
> Le colonne sono duplicate, in questo modo se una macchina smette di funzionare si ha sempre una copia disponibile
> Immagazzina sufficienti proiezioni per la K-Safety
Ricostruisce gli oggetti perduti prelevandoli da altri nodi
A3 B3 C3 A2 B2 C2
B1 A1 C1B2 A2 C2 B1 A1 C1
A3 B3 C3 A1 B1 C1
B3 A3 C3
www.nuvola.it
Trasferimento dati Asincrono
TUPLE MOVER
> Read-optimizedColumn Store (ROS)
Disco: il dato è ordinato e compresso
Memoria: proiezioni riflesse in ordine di inserimento (non compresse)
> Write-optimizedColumn Store (WOS)
Caratteristiche Tecniche
Trickle Load: Query executor legge da WOS come anche da ROS
Architettura ibrida di storage
(A B C | A)
A B C
www.nuvola.it
• Basta aggiungere server Blade per scalare le performance
• Fault-tolerance mantenuta automaticamente
• Flessibilità
<= 5 TB <= 15TB 40 TB
6. “Scale Out” on Industry-Standard Hardware
www.nuvola.it
> DBA FORNISCE
> Schema LogicoCrea la tabella
> “Training set” di:Query tipicheDati di esempio
> Livello K-Safety
> Load constraints
Come viene disegnato lo schema fisico? Semplice – DBDesigner viene strutturato sul numero di
nodi presenti nella configurazione
> DBDesigner GENERA
> Uno schema fisico che: Esegue query molto veloci E’ compatibile con i requisiti del trickle load Si assicura che tutte le query SQL vengano
soddisfatte
A B A
(A B C | A) (B A C | B A)
B C C
Database Design
www.nuvola.it
Accesso a Vertica
JDBC/ODBC caricamento e analisi dalle soluzioni più conosciute Vertica include drivers e guide integrate
Supporto a scripting e CLI vsql cli, Perl, Python, PHP, C/++ API
Caricamento continuo 2mb/s per flussi per nodi trickle load 10mb/s per flussi per nodi bulk load
Front-end nativo per analisi dati: NUVOLA
www.nuvola.it
Amministrare Vertica
Facile da implementare Fully scriptable rpm install Progettato per una rappresentazione a griglie
Manutenzione Semplice DBDesigner Integrato Non necessita di indicizzazioni, partizioni o strutture
ausiliarie Utilizza il 13% di spazio su disco rispetto ad un normale
RDBMS
Sistema di monitoraggio integrato Tabelle virtuali e file di log controllabili AquaData Studio, Toad, Visualizzatore di DB
www.nuvola.it
SOMMARIO
www.nuvola.it
Vertica
Vertica E’: Vertica NON E’
Un DBMS completamente relazionale Un motore di database transazionale
Un motore di database che supporta lo standard SQL su Terabyte di dati
Un file system proprietario o motore OLAP con dimensioni limitate
Progettato per leggere dati dalla maggior parte degli strumenti presenti sul mercato
Progettato per imputare o modificare molto frequentemente records come le soluzioni (OLTP)
Orientato a colonne con elevata compressione dei dati
Orientato a righe
Rispetta gli standard ODBC/JDBC per essere integrato con strumenti di Business Intelligence
Un database con stored procedures proprietarie scritte in linguaggio proprietario
La ridondanza è ottenuta attraverso logiche software
Dipendente dalla configurazione RAID
www.nuvola.it
Vertica Database : Una soluzione Completa
Performance EccezionaliMotore di database analitico 10-100x+ traditional DBMS Sistema di “calcolo a griglia”
Facile Amministrazione DB Designer – “iterative learning” Enterprise ready
Piattaforma Cost-Effective Elevata Scalabilità Richiede meno spazio Utilizzo sapiente delle risorse disponibili
www.nuvola.it
Per ulteriori informazioni rivolgersi a:
Ing. Enrico Gasparoni Ing. Enrico Gasparoni
E-mail: [email protected]
Mobile: 348-8863011
Contatti