Download pdf - DB-normalizzazione.ppt [modalità compatibilità]...• X è chiave di R se e solo se X →Z è in F + e non esiste alcun sottoinsieme Y di X ottenuto da X eliminando un solo elemento,

1

1

Corso di Laurea in Ingegneria Informatica

Algoritmi e basi di datiModulo “Basi di dati”

a.a. 2011-2012

Docente: Gigliola VagliniDocente laboratorio: Alessandro Lori

2

Lezione 13

Dipendenze funzionaliRelazioni in forma normale

2

3

Forme normali

• La forma normale è una proprietà che garantisce la “qualità” di una base di dati relazionale, cioè l'assenza di determinati difetti– Ad esempio, una relazione non

normalizzata presenta ridondanze o anomalie

4

Normalizzazione

• La normalizzazione è la procedura che permette di portare schemi relazionali informa normale

• La normalizzazione è utilizzata come tecnica di verifica dei risultati della progettazione, non costituisce una metodologia di progetto

3

5

Una relazione con anomalie

6

Proprietà

• Ogni impiegato ha un solo stipendio (anche se partecipa a più progetti)

• Ogni progetto ha un bilancio • Ogni impiegato in ciascun progetto ha

una sola funzione (anche se può avere funzioni diverse in progetti diversi)

4

7

Anomalie

• Lo stipendio di ciascun impiegato è ripetuto in tutte le ennuple relative– ridondanza

• Se lo stipendio di un impiegato varia, è necessario andarne a modificare il valore in diverse ennuple – anomalia di aggiornamento

• Se un impiegato si licenzia, dobbiamo cancellarlo in diverse ennuple – anomalia di cancellazione

• Un nuovo impiegato senza progetto non può essere inserito– anomalia di inserimento

8

Perché questi fenomeni?

• Un'unica relazione per rappresentare informazioni eterogenee – gli impiegati con i relativi stipendi– i progetti con i relativi bilanci – le partecipazioni degli impiegati ai progetti

con le relative funzioni

5

9

Per studiare in maniera sistematica questi aspetti, è

necessario utilizzare il concetto di

dipendenza funzionale

10

13.1. Le dipendenze funzionali

6

11

Dipendenza funzionale

Si considerino– la relazione r su R(X) – due sottoinsiemi non vuoti Y e Z di X

esiste in r una dipendenza funzionale (FD) da Y a Z se, per ogni coppia di ennuple t1 e t2 di r con gli stessi valori su Y, risulta che t1 e t2 hanno gli stessi valori anche su Z

• ad ogni chiave K di R corrisponde una dipendenza funzionale in R da K verso tutti gli attributi della relazione

12

Notazione

XY

• Esempi:

Impiegato StipendioProgetto Bilancio

Impiegato Progetto Funzione

7

13

Altre FD

• Impiegato Progetto Progetto• Si tratta di una FD “banale” (sempre

soddisfatta)– Y A è non banale se A non appartiene a Y– Y Z è non banale se nessun attributo in Z

appartiene a Y

14



8

15

Alcune FD causano anomalie

• gli impiegati hanno un unico stipendioImpiegato Stipendio

• i progetti hanno un unico bilancioProgetto Bilancio

• Abbiamo visto perché

16

Ma non tutte

• In ciascun progetto, un impiegato svolge una sola funzione


• Perchè?

9

17

Legame tra FD e anomalie



• Impiegato non e’ una chiave• Progetto non e’ una chiave• Impiegato Progetto è chiave

18

FD e anomalie

• La relazione contiene alcune informazioni legate alla chiave e altre ad attributi che non formano una chiave. Infatti abbiamo usato un'unica relazione per rappresentare informazioni eterogenee – proprietà degli impiegati (lo stipendio)– proprietà dei progetti (il bilancio)– proprietà degli impiegati che partecipano ad un

progetto (la funzione svolta)

10

19

Ancora le FD

• Implicazione• Sia F un insieme di dipendenze

funzionali definite su R(Z) ; sia X Y una dipendenza funzionale definita su R(Z) ;– si dice che F implica X Y ( F X Y )

se per ogni istanza r di R che verifica tutte le FD in F risulta verificata anche X Y

– si dice anche che X → Y è implicata da F

20

FD

• Chiusura• Dato un insieme di dipendenze funzionali

F definite su R(Z) ; definiamo come chiusura di F l’insieme di tutte le dipendenze funzionali implicate da F

• F + = { X Y | F X Y }

11

21

FD

• Dato un insieme di dipendenze funzionali F definite su R(Z), un’istanza r di R che soddisfa F, soddisfa anche tutte le dipendenze funzionali logicamente implicate da F

• r si dice istanza legale di R

22

FD

• Dato R(Z) ed un insieme di FD F, un insieme di attributi X appartenenti a Z si dice superchiave di R, se la dipendenza funzionale X → Z è logicamente implicata da F, cioè se X → Z è in F+.

• Se nessun sottoinsieme proprio di X è superchiave di R, allora X si dice chiave di R

12

23

Calcolo di F+

• La definizione di implicazione non è direttamente utilizzabile nella pratica, essa prevede, infatti, una quantificazione universale sulle istanze della base di dati ( “per ogni istanza r ….“),

• Armstrong (1974) ha fornito delle regole di inferenza che permettono di derivare effettivamente tutte le dipendenze funzionali che sono implicate da un dato insieme iniziale

• tali regole sono sound e complete, cioè permettono di ottenere tutte e sole le dipendenze in F+

24

Regole di inferenza di Armstrong

1. Riflessività: Se Y X, allora X → Y2. Additività (o espansione): Se X → Y,

allora XZ → YZ, per qualunque Z3. Transitività: Se X → Y e Y → Z, allora

X → Z

13

25

Esempio di calcolo di F+

• Prendiamo le FD dell’esempioi. Impiegato Stipendioii. Progetto Bilancioiii. Impiegato Progetto Funzione

• E usiamo la regola 2 sulle dipendenze i e ii, otteniamo

iv. Impiegato Progetto Stipendio Progettov. Progetto Impiegato Bilancio Impiegato

• Di conseguenza – Impiegato Progetto Stipendio Progetto Impiegato Bilancio Funzione

• e quindi Impiegato Progetto è chiave• Ci sono altre FD in F+?

26

Proprietà delle regole di Armstrong

• Teorema (correttezza): Le regole di inferenza di Armstrong sono corrette, cioè, applicandole ad un insieme F di dipendenze funzionali, si ottengono solo dipendenze funzionali logicamente implicate da F.

• Teorema (completezza): Le regole di inferenza di Armstrong sono complete, cioè, applicandole ad un insieme F di dipendenze funzionali, si ottengono tutte le dipendenze funzionali logicamente implicate da F.

• Teorema (minimalità): Le regole di inferenza di Armstrong sono minimali, cioè ignorando anche una sola di esse, l’insieme di regole che rimangono non è più completo.

14

27

Esempi di prove

• DIMOSTRARE che, istanza di ogni relazione,X → Y X Z → Y Z

• Supponiamo per assurdo che esista una istanza r di R in cui valga X → Y ma non X Z → Y Z,devono perciò esistere due tuple t1 e t2 di r tali che :

(1) t1[X] = t2[X], (2) t1[Y] = t2[Y],(3) t1[XZ] = t2[XZ], (4) t1[YZ] ≠ t2[YZ]

ma ciò è assurdo, poichè da (1) e (3) si deduce: (5) t1[Z] = t2[Z],e da (2) e (5) si deduce : (6) t1[YZ] = t2[YZ],in contraddizione con la (4)

28

• DIMOSTRARE che X → Y e Y → Z X → Z

• Supponiamo per assurdo che esista una istanza r di R in cui valgano X → Y e Y → Z, ma non X → Z,devono perciò esistere due tuple t1 e t2 in r tali che :

(1) t1[X] = t2[X], (2) t1[Y] = t2[Y],(3) t1[Z] = t2[Z], (4) t1[Z] ≠ t2[Z]

ma ciò è assurdo

15

29

Regole derivate di Armstrong

4. Regola di unione{XY, X Z} X YZ

5. Regola di pseudotransitività (o aggiunta sinistra)

{X Y, WY Z} XW Z6. Regola di decomposizione

Se Z Y, X Y X Z

30

Esempi di prove

• DIMOSTRARE che X → Y e X →Z X → Y ZPer ipotesi valgonoa) X →Yb) X →Zapplicando la regola 2 ad (a) otteniamoc) X Z →Y Zapplicando la stessa regola a (b) otteniamoX X →X Z,che equivale ad) X →X Zper la regola 3 applicata a (d) e (c) otteniamoX →Y Z

16

31

Equivalenza

• Dato un insieme di dipendenze funzionali F è molto utile poter determinare un insieme di dipendenze funzionali G che sia equivalente ad F, ma sia anche strutturalmente più semplice

• F e G sono equivalenti se F+ = G+, ovvero, per ogni X Y F, deve essere X Y G+ e, viceversa, per ogni X Y G, deve essere X Y F+

32

Esempio 1

• F = { A C, AC D, E AD, E H }• G = { A CD, E AH }Verificare se F e G sono equivalenti• Dimostro che le DF in F sono derivabili dalle DF in G, e

viceversa• A CD A C , A D• A CD AC CCD AC CD AC C, AC D• E AH E A, E H• E A , A D E D• E A , E D E AD

17

33

Ovvero

• Siccome il calcolo di F+ è molto costoso (esponenziale nel numero di attributi dello schema nel caso peggiore),

• E spesso quello che ci interessa non è calcolare tutto F+, ma solo verificare se contiene una certa dipendenza,

• si cerca un’altra strada: poiché si può dimostrare che X→Y è in F+ se e solo se Y X +, si può calcolare e utilizzare la chiusura transitiva di un insieme di attributi X (meno costoso ?)

• Quindi la domanda diventa– Se F è un insieme di FD su R(Z) e X Z un insieme di

attributi, quali attributi di Z dipendono funzionalmente da X?

34

Algoritmo per il calcolo di X+

• Denotiamo con X+ l’insieme degli attributi di R(Z) che dipendono da X (chiusura di X) in F; calcolare X+ è semplice (complessità?)– CalcolaChiusura(X,F)=

X+ = X;Ripeti:

– Fine = true;– Per tutte le FD in F = {Vi → Wi}:– Se Vi X+ e Wi X+ allora: {X+ = X+ Wi; Fine = false}

Fino a che Fine = true o X+ = Z

18

35

Esempio 2

• Supponiamo di avere F = {A → B, BC → D, B → E, E → C}

e calcoliamo A+, ovvero l’insieme di attributi che dipendono da A– A+ = A– A+ = AB poiché A → B e A A+– A+ = ABE poiché B → E e B A+– A+ = ABEC poiché E → C e E A+– A+ = ABECD poiché BC → D e BC A+

• Quindi da A dipendono tutti gli attributi dello schema, ovvero A è superchiave (e anche chiave)!

36

Esempio 1 (cont)

• F = { A C, AC D, E AD, E H }• G = { A CD, E AH }Verificare se F e G sono equivalenti• Verifico se X Y in F è implicata dalle df in G; ossia

se X Y è in G + ;ossia se Y (X) + G ( chiusura di X rispetto a G ), e viceversa per ogni df in G

• per A C risulta (A) + G = ACD ; o.k. C (A) + G

• per AC D risulta (AC) + G = ACD ; o.k. D (AC) + G

• per E AD risulta (E) + G = EADCH ; o.k. AD (E) + G

• per E H risulta (E) + G = EHADC ; o.k. H (E) + G

19

37

Importanza della chiusura di un insieme di attributi

• Consideriamo uno schema di relazione R(Z) con dipendenze funzionali F.

• La chiusura di un insieme X Z di attributi è fondamentale per diversi scopi:– Si può utilizzare per verificare se una dipendenza funzionale

è logicamente implicata da F• X → Y è in F+ se e solo se Y X +

– Si può utilizzare per verificare se un insieme di attributi è superchiave o chiave

• X è superchiave di R se e solo se X → Z è in F +, cioè se e solo se Z X +

• X è chiave di R se e solo se X → Z è in F + e non esiste alcun sottoinsieme Y di X ottenuto da X eliminando un solo elemento, tale che Z Y +

38

Ancora equivalenza

• F e G sono equivalenti se F+ = G+, ovvero, per ogni X Y F, deve essere X Y G+ e viceversa, per ogni Z W G, deve essere Z W F+

• Invece di usare il metodo sopra si calcola X+ rispetto a G e si verifica se Y X+ , idem per W Z+ rispetto a F

20

39

Copertura Minimale

• Alcuni attributi di una dipendenza funzionale possono essere ridondanti:– ridondanza a DESTRA: { A → B, B → C, A → CD } può essere

semplificata in { A → B, B → C, A → D } (FD semplici)– ridondanza a SINISTRA: { A → B, B → C, AC → D } può essere

semplificata in { A → B, B → C, A → D } (senza attributi estranei)• Un insieme F di dipendenze funzionali può contenere dipendenze

ridondanti, ovvero ottenibili tramite le dipendenze di FEsempio: A → C è ridondante in {A → B, B → C, A → C}

• Intuitivamente, una copertura minimale (canonica) di F è un insieme minimale di dipendenze funzionali equivalente a F e privo di dipendenze e attributi ridondanti

40

FD semplici

• Per minimizzare un insieme di FD è innanzitutto necessario scriverle tutte in una forma “standard” (forma canonica), in cui sulla destra c’è sempre un singolo attributo

• Supponiamo di avere F = {AB → CD, AC → DE}

• Possiamo riscrivere F comeF = {AB → C, AB → D, AC → D, AC → E}

21

41

Attributi “estranei”

• In alcune FD è possibile che sul lato sinistro ci siano degli attributi inutili (“estranei”): come si identificano?

• Supponiamo di avere F = {AB → C, A → B} e calcoliamo A+ e B+

A+ = A B + =BA+ = AB poiché A → B e A A+

A+ = ABC poiché AB → C e AB A+

C dipende solo da A, e in AB → C l’attributo B è estraneo (a sua volta dipende da A) e possiamo riscrivere l’insieme di FD più semplicemente come: F’ = {A → C, A → B }

• Quindi in una FD del tipo AX → B l’attributo A è estraneo se X+include B (ovvero X da solo determina B)

42

FD ridondanti

• Dopo avere eliminato gli attributi estranei si deve verificare se vi sono intere FD inutili (“ridondanti”), ovvero FD che sono implicate da altre

• Come facciamo a stabilire che una FD del tipo X → A è ridondante?– La eliminiamo da F, calcoliamo X+ e verifichiamo se

include A, ovvero se con le FD che restano riusciamo ancora a dimostrare che X determina A

22

43

Copertura Minimale – Definizione

• Un insieme F di FD è minimale se 1. la parte destra di ogni FD in F è formata da un solo attributo2. tutti gli attributi della parte sinistra di ogni FD in F sono

necessari ( se si sostituisce una X A con Y A ove Y X l’insieme delle FD risultante non è più equivalente ad F )

3. tutte le DF in F sono necessarie, nessuna è ridondante ( non è possibile rimuovere una FD da F e avere un insieme equivalente a F )

• Una copertura minimale di un insieme F è un insieme minimale equivalente a F ( può essere usato al posto di F )

N.B. In generale, la copertura minimale non è unica

44

Copertura Minimale - Algoritmo

• Calcolo di M minimale per un insieme di FD F :– M = F– ogni FD del tipo X { A1, A2, . . . ., An } è

sostituita da X A1 , X A2 , . . . ., X An– ogni FD X A in M, se, per ogni attributo BX,

{ { M − { X A } } { (X − { B } ) A } } M, è sostituita da (X − { B } ) A• A (X − { B } )+

• ogni rimanente X A in M, se { { F − { X A } } M è rimossa

• A X + anche in { { F − { X A } }

23

45

Esempio

– Sia F = {AB → C, B → A, C → A}, A è estraneo in AB → C, quindi trasformiamo F in F’ = {B → C, B → A, C → A}, dopo possiamo eliminare B → A trasformando F’ in F’’ = {B → C, C → A}

– Se tentiamo di eliminare la FD ridondante prima di eliminare l’attributo estraneo non ci riusciamo• NB: questa operazione è bene che segua l’eliminazione degli attributi estranei

46

Proiezione delle FD di R(U) su X U

• La proiezione di F su X, denotata da FX, è l’insieme di dipendenze funzionali Z → Y in F+ che coinvolgono solo attributi in X, cioè tali che Z X e Y X

24

47

Algoritmo • Per calcolare FX, cioè la proiezione di F su X, possiamo

procedere per enumerazione (non si può fare meglio), evitando però di generare dipendenze funzionali “inutili”

• CalcolaProiezione(F,X):={ result = ∅;per ogni sottoinsieme proprio S di X, per ogni attributo A in X tale che A non è in S, e tale che non esiste alcun sottoinsieme S’ di S tale che S’ → A è in result,if A è in CalcolaChiusura(S,F) allora result = result { S → A };}

48

Dimensione della proiezione di F su X

• Ci sono casi un cui la proiezione di F su X ha dimensione esponenziale rispetto alla dimensione di F e X, come mostrato dal seguente esempio

• Consideriamo R(A1,A2,…,An,B1,B2,....,Bn,C1,C2,…,Cn,D) e F = { Ai → Ci, Bi → Ci | 1 ≤ i ≤ n } { C1C2…Cn → D }

• La proiezione di F su { A1,A2,…,An,B1,B2,....,Bn,D } èP = { X1X2...Xn → D | Xi = Ai oppure Xi = Bi per 1 ≤ i ≤ n }, la cui dimensione è ovviamente esponenziale rispetto alla dimensione dello schema R e delle dipendenze funzionali F.

• Si noti che si può dimostrare che nessun insieme equivalente a P ha cardinalità minore.

25

49

Forma normale di Boyce-Codd (BCNF)

• Una relazione r è in forma normale di Boyce-Codd se, per ogni dipendenza funzionale (non banale) X Y definita su di essa, X contiene una chiave K di r

• La forma normale richiede che i concetti in una relazione siano omogenei (tutte le proprietà sono associate alla chiave)

50

BCNF: commenti

• Se R con FD F non è in BCNF allora in F c’è almeno una dipendenza funzionale X → Y che non è banale, e tale che X non è una superchiave di R.

• Chiamiamo una tale dipendenza funzionale un’avversaria della BCNF

• Teorema (avversaria sconfitta): Data R, se in F non c’è alcuna avversaria di BCNF, allora non c’è alcuna avversaria nemmeno in F+.

26

51

BCNF: commenti• Grazie al teorema dell’avversaria sconfitta, è

sufficiente analizzare una ad una le dipendenze funzionali in F (e non F+), e per ognuna verificare se non è avversaria della BCNF, cioè se è banale o se è tale da avere una superchiave come membro sinistro

• Ciò implica che occorre saper verificare se un insieme di attributi è superchiave di una relazione– K è superchiave di R(Z) se K Z F+ con F insieme

di dipendenze funzionali su R– Ovvero Z K+

52

Che facciamo se una relazione non è BCNF?

• La rimpiazziamo con altre relazioni che siano BCNF

Come?• Decomponendo sulla base delle

dipendenze funzionali, al fine di separare i concetti

27

53

54

È sempre così facile?

Impiegato SedeProgetto Sede

28

55

Decomponiamo sulla base delle dipendenze

56

Proviamo a ricostruire

Diversa dalla relazione di partenza!

29

57

Decomposizione senza perdita• Una istanza legale r di una relazione R si

decompone senza perdita su X1 e X2 se il join naturale delle proiezioni di r su X1 e X2 è uguale a r stessa (cioè non contiene ennuple spurie)

• Condizione sufficiente: se r e’ una relazione su X= X1 X2 , X0 = X1 X2 , e r soddisfa X0 X1 oppure X0 X2 ( gli attributi comuni contengono una chiave per almeno una delle relazioni decomposte) allora la decomposizione senza perdita di r è garantita.

58

Algoritmo per la decomposizione in BCNF

• Assumiamo (senza perdita di generalità) che ogni volta che chiamiamo l’algoritmo descritto sotto ogni dipendenza funzionale in F abbia un unico attributo come membro destro, e che U sia l’insieme di tutti gli attributi di R

• Decomponi(R,F):={ if esiste un’avversaria X → A di BCNF in F

then { sostituisci R con una relazione R1 con attributi U-A, ed una relazione R2 con attributi XA;

Decomponi(R1,FU-A);Decomponi(R2,FXA)

}}

30

59

Proprietà dell’algoritmo

• Teorema (correttezza dell’algoritmo della decomposizione) Qualunque sia l’input, l’esecuzione dell’algoritmo su tale input termina, e produce una decomposizione della relazione originaria tale che:– ogni relazione ottenuta è in BCNF– la decomposizione è senza perdita nel join

• N.B. A seconda dell’ordine con cui si considerano le dipendenze funzionali, il risultato della decomposizione può cambiare

60

Relazione R

F=Impiegato Sede,Progetto Sede

Decomponi(R,F):= R1(Impiegato, Sede), R2(Impiegato, Progetto)

Decomponi(R,F):= R1(Impiegato, Progetto), R2(Progetto, Sede)

31

61

Consideriamo una di queste decomposizioni


62

Osservazione

• La decomposizione è senza perdita sul join, però– La FD Progetto Sede interessa

attributi che non stanno nella stessa tabella.

– E’ un problema?

32

63

Problema • Supponiamo di voler inserire una nuova

ennupla che specifica la partecipazione dell'impiegato Neri, che opera a Milano, al progetto Marte


64

33

65

66

Conservazione delle dipendenze

• Una decomposizione conserva le dipendenze se ciascuna delle dipendenze funzionali dello schema originario coinvolge attributi che compaiono tutti insieme in uno degli schemi decomposti

• Progetto Sede non è conservata

34

67

Decomposizione senza perdita di dipendenze

• Sia R uno schema di relazione con dipendenze funzionali F, e sia X un sottoinsieme di attributi di R

• La decomposizione di R in due relazioni con attributi X e Y è una decomposizione senza perdita di dipendenze se (FX FY) è equivalente a F, cioè se (FX FY)+ = F+

• N.B. Non è assicurato che la decomposizione ottenuta dall’algoritmo per la decomposizione BCNF sia senza perdita di dipendenze

68

La verifica di decomposizionesenza perdita di dipendenze

• La definizione di decomposizione senza perdita di dipendenze è basata sul verificare che (FX FY)+ = F+.

• Per applicare la definizione,– è necessario sapere calcolare se un insieme di

dipendenze funzionali è equivalente ad un altro– è necessario saper calcolare la proiezione di un

insieme di dipendenze funzionali su un insieme di attributi

35

69

• Per la verifica di equivalenza si può usare un metodo polinomiale e, per ogni X Y F, calcolare X+ rispetto a G e verificare se Y X+ , idem per XYG e X+ rispetto a F.

• Per calcolare la proiezione abbiamo invece un metodo esponenziale

70

Qualità delle decomposizioni

• Una decomposizione dovrebbe sempre garantire:– BCNF– l’assenza di perdite, in modo da poter ricostruire

le informazioni originarie– la conservazione delle dipendenze, in modo da

mantenere i vincoli di integrità originari

DB ben progettato

36

71

Esempio • La relazione R(A,B,C), con F = { A → B, B → C, A → C }

non è in BCNF (qual è la chiave?, qual è la dipendenza avversaria?).

• Se la decomponiamo in R1(A,B) con A → B e R2(B,C) con B → C, otteniamo due relazioni in BCNF, con la proprietà che la decomposizione è senza perdita nel join. La decomposizione è anche senza perdita di dipendenze, perchè la dipendenza funzionale A → C è logicamente implicata dalle due dipendenze funzionali che valgono in R1 e R2.

• N.B. Se la definizione di conservazione delle dipendenze non considerasse (FX FY)+ ma solo (FX FY), allora la decomposizione sembrerebbe perdere la dipendenza A → C, che non è esprimibile direttamente né in R1 (cioè mediante FAB) nè in R2 (cioè mediante FBC).

72

Relazione BCNF?

Proprietà: Ogni dirigente ha una sede; un progetto può essere diretto da più persone, ma in sedi diverse

37

73

Verifica

Progetto Sede Dirigente okDirigente Sede no

74

Come decomporre?

• Progetto Sede Dirigente coinvolge tutti gli attributi e quindi nessuna decomposizione può preservare tale dipendenza

• Si può trovare una BCNF (vedi algoritmo), ma non preserva le dipendenze

38

75

Approccio differente: una nuova forma normale

• Una relazione r è in terza forma normale se, per ogni FD (non banale) X Y definita su r, è verificata almeno una delle seguenti condizioni:– X è superchiave di r– ogni attributo in Y è contenuto in almeno

una chiave di r

76

Non BCNF, ma 3NF

Progetto Sede DirigenteDirigente Sede

L’attributo Sede è contenuto nella chiave

39

77

Anomalie?

• C’è una ridondanza nella ripetizione della sede del dirigente per i vari progetti che dirige

78

Confronto• 3NF è meno restrittiva di BCNF (e ammette

relazioni con alcune anomalie e ridondanze)• il problema di verificare se una relazione è in

3NF è NP-completo (il miglior algoritmo deterministico conosciuto ha complessità esponenziale nel caso peggiore), infatti:– Dati R ed F e un attributo A

• si genera non deterministicamente un sottoinsieme S degli attributi di R che contiene A,

• si controlla se S è una chiave (non una superchiave)• ha il vantaggio però di essere sempre

“raggiungibile”, cioè si può sempre ottenere una decomposizione 3NF senza perdite e che conserva le dipendenze

40

79

Metodologia di decomposizione• Dati R ed F minimale, si usa

Decomponi(R,F) ottenendo gli schemi R1(X1), R2(X2),…, Rn(Xn) in BCFN ciascuno con dipendenze funzionali FXi• Sia l’insieme N di dipendenze funzionali in F che non sono preservate in R1,R2,…,Rn, cioè che non sono incluse nella chiusura dell’unione dei vari FXi– Per ogni dipendenza funzionale X → A in

N, aggiungiamo lo schema relazionale X A alla decomposizione, con le corrispondenti dipendenze funzionali

80

Altra metodologia• Si deriva la copertura minimale G di F.• Si raggruppano le dipendenze in G in sottoinsiemi tali

che ad ogni sottoinsieme Gi appartengono le dipendenze i cui membri sinistri hanno la stessa chiusura: i.e. X→A e Y→B appartengono a Gi se X+=Y+ secondo G.

• Si partizionano gli attributi U nei sottoinsiemi Uiindividuati dai sottoinsiemi Gi del passo precedente. Se un sottoinsieme è contenuto in un altro si elimina.

• Si crea una relazione Ri (Ui) per ciascun sottoinsieme Ui, con associate le dipendenze Gi.

• Si aggiunge una relazione per gli attributi che non sono coinvolti in alcuna FD

• Se non c’è già una relazione che contenga una chiave della relazione originaria, si aggiunge

41

81

Confronto

• La prima metodologia parte garantendo l’assenza di perdita sul join e poi conserva le dipendenze

• La seconda conserva le dipendenze e poi risolve l’eventuale perdita sul join

82

In generale

• Una volta effettuata la decomposizione in 3NF con la metodologia precedente

• si verifica se lo schema ottenuto è anche BCNF

• Se la relazione ha una sola chiave allora le due forme normali coincidono

42

83

Qualità delle decomposizioni (2)

• Una decomposizione dovrebbe sempre garantire:– BCNF o 3NF– l’assenza di perdite, in modo da poter

ricostruire le informazioni originarie– la conservazione delle dipendenze, in modo

da mantenere i vincoli di integrità originari

84

Schema non decomponibile in BCNF

Dirigente SedeProgetto Sede Dirigente

43

85

Possibile riorganizzazione

Dirigente Sede RepartoSede Reparto DirigenteProgetto Sede Reparto

Si aggiunge un attributo che partiziona le sedi in base ai responsabili

86

BCNF

Progetto Sede Reparto

Marte Roma 1Giove Milano 1Marte Milano 1

Saturno Milano 2Venere Milano 2

Dirigente Sede Reparto

Rossi Roma 1Verdi Milano 1Neri Milano 2

44

87

• Quando una BCNF non è raggiungibile spesso è questione di cattiva progettazione

88

Progettazione e normalizzazione

• la teoria della normalizzazione può essere usata nella progettazione logica per verificare lo schema relazionale finale

• si può usare anche durante la progettazione concettuale per verificare la qualità dello schema concettuale

45

89

Prodotto

Nome prodotto

Prezzo

Nome fornitore

Indirizzo

PartitaIVA

Codice

PartitaIVA NomeFornitore Indirizzo

90

Analisi dell’entità

– L’entità viola la terza forma normale a causa della dipendenza:PartitaIVA NomeFornitore Indirizzo

– Possiamo decomporre sulla base di questa dipendenza

46

91

Indirizzo

PartitaIVA

Nomefornitore

Nomeprodotto

Prezzo

Codice

FornituraProdotto Fornitore

(1,1) (0,N)

92

Professore Studente

Corso dilaurea

Tesi

(0,N) (0,1)

(0,N)

Dipartimento

(0,N)

Studente Corso di laureaStudente Professore

Professore Dipartimento

47

93

Analisi della relationship

• La relationship viola la terza forma normale a causa della dipendenza:

Professore Dipartimento• Possiamo decomporre sulla base di

questa dipendenza

94

Professore Studente

Corso dilaurea

Tesi

(0,N) (0,1)

(0,N)

DipartimentoAfferenza

(1,1)

(0,N)

48

95

Ulteriore analisi sulla base delle dipendenze

• La relationship Tesi è in BCNF sulla base delle dipendenze

Studente CorsoDiLaureaStudente Professore

• le due proprietà sono indipendenti, questo suggerisce una ulteriore decomposizione

96

Professore StudenteTesi

(0,N) (0,1)

Dipartimento

Afferenza

(0,N)

(1,1)

Corso dilaurea

(0,N)

Corso dilaurea

Iscrizione

(0,N)

(1,1)