Presentazione meka

ALGORITMI BIOINFORMATICI PER LA

CLASSIFICAZIONE SINTATTICA DELLE

LINGUE

Relatore: Prof. Andrea Sgarro

Correlatore: Prof. Alberto Casagrande

Candidato: Devis Meka

1/13

PROBLEMA: CLASSIFICAZIONE DELLE LINGUE

INDO-EUROPEE CONTEMPORANEE USANDO

GLI ALGORITMI BIOINFORMATICI.

Vari studi linguistici per fare una classificazione delle lingue basandosi sui parametri sintattici, usando gli algoritmi bioinformatici.

Confronto tra i metodi basati sui caratteri e i metodi basati sulle distanze, ricostruendo alberi filogenetici.

Confronto tra le distanze di Hamming e le distanze fuzzy di Hamming come misure di divergenza tra le lingue.

2/13

ALGORITMI BIOINFORMATICI

1) Metodi basati sui caratteri:

Prendono in input una matrice di caratteri discreti.

Massima Parsimonia

Algoritmo di Hendy e Penny

Compatibilità

Massima Verosimiglianza

2)Metodi basati sulle distanze

Prendono in input una matrice con le distanze tra tutte le coppie delle entità.

Neighbor-Joining (NJ)

Unweighted Pair Group Method with ArithmeticMean (UPGMA)

3/13

MASSIMA PARSIMONIA

4/13

Problemi:Le lingue Germaniche vengono fuse con le lingue Celtiche.I dialetti Italiani vengono raggruppati insieme ai dialetti Greci ed il Greco.

Possibili cause:Condivisone di un certo numero di parametri sintattici.Il numero dei parametri abili a distinguere i sottogruppi è ridotto.

MASSIMA PARSIMONIA

ALGORITMO DI HENDY-PENNY

5/13

Problemi:La classificazione del Rumeno con i dialetti Greci ed il Greco.

Possibile cause:Il Rumeno è la lingua più esterna al sottogruppo delle lingue Latine.Condivide un grande numero di parametri con i dialetti Greci.

METODO DI MASSIMA

VEROSIMIGLIANZA

6/13

Problemi:Le lingue Germaniche vengono mischiate con le lingue Celtiche.In questo gruppo viene aggiunta anche la lingua Farsi.

Possibili cause:Le lingue Germaniche condividono un certo numero di parametri con quelle Celtiche.L’attrazione dei rami lunghi.

UPGMA SULLE DISTANZE DI AMMINA

7/13

UPGMA dà i risultati più soddisfacenti.Assume che il tasso di evoluzione tra tutte le lingue sia uguale o quasi.Ricostruisce un albero binario e con radice.

NJ SULLE DISTANZE DI HAMMING

8/13

Problemi:Le lingue Germaniche vengono raggruppate con le lingue Celtiche.La posizione errata del Bulgaro.

Possibili cause:NJ non fa una classificazione accurata quando il tasso di evoluzione è uguale.

UPGMA SULLE DISTANZE FUZZY DI HAMMING

9/13

Problemi:Il Bulgaro e viene raggruppato con le lingue Germaniche.

Possibili cause:La distanza fuzzy di Hammingavvicina il Bulgaro con le lingue Germaniche.

NJ SULLE DISTANZE FUZZY DI

HAMMING

10/13

Problemi:La classificazione errata del Bulgaro.La fusione dei dialetti Greci con le lingue Latine.

Possibili cause:L’attrazione tra il Rumeno ed il Bulgaro e la posizione esterna del Bulgaro.

CONFRONTO TRA NJ E UPGMA

11/13

NJ non usa direttamente la matrice delle distanze ma ne ricostruisce un’altra.UPGMA unisce al primo passo il Rumeno con le lingue Latine, mentre NJ unisce il Rumeno con i dialetti Greci.

CONCLUSIONI

I metodi basati sulle distanze si comportano meglio dei metodi basati sui caratteri, quando si vuole fare una classificazione basata sui parametri sintattici.

Le distanze fuzzy di Hamming non rappresentano correttamente le vere distanze tra le lingue.

L’algoritmo UPGMA fa una ricostruzione più accurata rispetto al NJ.

12/13

Grazie per

l’attenzione…

13/13

Technology

Presentazione meka