13
ALGORITMI BIOINFORMATICI PER LA CLASSIFICAZIONE SINTATTICA DELLE LINGUE Relatore: Prof. Andrea Sgarro Correlatore: Prof. Alberto Casagrande Candidato: Devis Meka 1/13

Presentazione meka

Embed Size (px)

Citation preview

Page 1: Presentazione meka

ALGORITMI BIOINFORMATICI PER LA

CLASSIFICAZIONE SINTATTICA DELLE

LINGUE

Relatore: Prof. Andrea Sgarro

Correlatore: Prof. Alberto Casagrande

Candidato: Devis Meka

1/13

Page 2: Presentazione meka

PROBLEMA: CLASSIFICAZIONE DELLE LINGUE

INDO-EUROPEE CONTEMPORANEE USANDO

GLI ALGORITMI BIOINFORMATICI.

Vari studi linguistici per fare una classificazione delle lingue basandosi sui parametri sintattici, usando gli algoritmi bioinformatici.

Confronto tra i metodi basati sui caratteri e i metodi basati sulle distanze, ricostruendo alberi filogenetici.

Confronto tra le distanze di Hamming e le distanze fuzzy di Hamming come misure di divergenza tra le lingue.

2/13

Page 3: Presentazione meka

ALGORITMI BIOINFORMATICI

1) Metodi basati sui caratteri:

Prendono in input una matrice di caratteri discreti.

Massima Parsimonia

Algoritmo di Hendy e Penny

Compatibilità

Massima Verosimiglianza

2)Metodi basati sulle distanze

Prendono in input una matrice con le distanze tra tutte le coppie delle entità.

Neighbor-Joining (NJ)

Unweighted Pair Group Method with ArithmeticMean (UPGMA)

3/13

Page 4: Presentazione meka

MASSIMA PARSIMONIA

4/13

Problemi:Le lingue Germaniche vengono fuse con le lingue Celtiche.I dialetti Italiani vengono raggruppati insieme ai dialetti Greci ed il Greco.

Possibili cause:Condivisone di un certo numero di parametri sintattici.Il numero dei parametri abili a distinguere i sottogruppi è ridotto.

Page 5: Presentazione meka

MASSIMA PARSIMONIA

ALGORITMO DI HENDY-PENNY

5/13

Problemi:La classificazione del Rumeno con i dialetti Greci ed il Greco.

Possibile cause:Il Rumeno è la lingua più esterna al sottogruppo delle lingue Latine.Condivide un grande numero di parametri con i dialetti Greci.

Page 6: Presentazione meka

METODO DI MASSIMA

VEROSIMIGLIANZA

6/13

Problemi:Le lingue Germaniche vengono mischiate con le lingue Celtiche.In questo gruppo viene aggiunta anche la lingua Farsi.

Possibili cause:Le lingue Germaniche condividono un certo numero di parametri con quelle Celtiche.L’attrazione dei rami lunghi.

Page 7: Presentazione meka

UPGMA SULLE DISTANZE DI AMMINA

7/13

UPGMA dà i risultati più soddisfacenti.Assume che il tasso di evoluzione tra tutte le lingue sia uguale o quasi.Ricostruisce un albero binario e con radice.

Page 8: Presentazione meka

NJ SULLE DISTANZE DI HAMMING

8/13

Problemi:Le lingue Germaniche vengono raggruppate con le lingue Celtiche.La posizione errata del Bulgaro.

Possibili cause:NJ non fa una classificazione accurata quando il tasso di evoluzione è uguale.

Page 9: Presentazione meka

UPGMA SULLE DISTANZE FUZZY DI HAMMING

9/13

Problemi:Il Bulgaro e viene raggruppato con le lingue Germaniche.

Possibili cause:La distanza fuzzy di Hammingavvicina il Bulgaro con le lingue Germaniche.

Page 10: Presentazione meka

NJ SULLE DISTANZE FUZZY DI

HAMMING

10/13

Problemi:La classificazione errata del Bulgaro.La fusione dei dialetti Greci con le lingue Latine.

Possibili cause:L’attrazione tra il Rumeno ed il Bulgaro e la posizione esterna del Bulgaro.

Page 11: Presentazione meka

CONFRONTO TRA NJ E UPGMA

11/13

NJ non usa direttamente la matrice delle distanze ma ne ricostruisce un’altra.UPGMA unisce al primo passo il Rumeno con le lingue Latine, mentre NJ unisce il Rumeno con i dialetti Greci.

Page 12: Presentazione meka

CONCLUSIONI

I metodi basati sulle distanze si comportano meglio dei metodi basati sui caratteri, quando si vuole fare una classificazione basata sui parametri sintattici.

Le distanze fuzzy di Hamming non rappresentano correttamente le vere distanze tra le lingue.

L’algoritmo UPGMA fa una ricostruzione più accurata rispetto al NJ.

12/13

Page 13: Presentazione meka

Grazie per

l’attenzione…

13/13