Upload
devis111
View
105
Download
2
Embed Size (px)
Citation preview
ALGORITMI BIOINFORMATICI PER LA
CLASSIFICAZIONE SINTATTICA DELLE
LINGUE
Relatore: Prof. Andrea Sgarro
Correlatore: Prof. Alberto Casagrande
Candidato: Devis Meka
1/13
PROBLEMA: CLASSIFICAZIONE DELLE LINGUE
INDO-EUROPEE CONTEMPORANEE USANDO
GLI ALGORITMI BIOINFORMATICI.
Vari studi linguistici per fare una classificazione delle lingue basandosi sui parametri sintattici, usando gli algoritmi bioinformatici.
Confronto tra i metodi basati sui caratteri e i metodi basati sulle distanze, ricostruendo alberi filogenetici.
Confronto tra le distanze di Hamming e le distanze fuzzy di Hamming come misure di divergenza tra le lingue.
2/13
ALGORITMI BIOINFORMATICI
1) Metodi basati sui caratteri:
Prendono in input una matrice di caratteri discreti.
Massima Parsimonia
Algoritmo di Hendy e Penny
Compatibilità
Massima Verosimiglianza
2)Metodi basati sulle distanze
Prendono in input una matrice con le distanze tra tutte le coppie delle entità.
Neighbor-Joining (NJ)
Unweighted Pair Group Method with ArithmeticMean (UPGMA)
3/13
MASSIMA PARSIMONIA
4/13
Problemi:Le lingue Germaniche vengono fuse con le lingue Celtiche.I dialetti Italiani vengono raggruppati insieme ai dialetti Greci ed il Greco.
Possibili cause:Condivisone di un certo numero di parametri sintattici.Il numero dei parametri abili a distinguere i sottogruppi è ridotto.
MASSIMA PARSIMONIA
ALGORITMO DI HENDY-PENNY
5/13
Problemi:La classificazione del Rumeno con i dialetti Greci ed il Greco.
Possibile cause:Il Rumeno è la lingua più esterna al sottogruppo delle lingue Latine.Condivide un grande numero di parametri con i dialetti Greci.
METODO DI MASSIMA
VEROSIMIGLIANZA
6/13
Problemi:Le lingue Germaniche vengono mischiate con le lingue Celtiche.In questo gruppo viene aggiunta anche la lingua Farsi.
Possibili cause:Le lingue Germaniche condividono un certo numero di parametri con quelle Celtiche.L’attrazione dei rami lunghi.
UPGMA SULLE DISTANZE DI AMMINA
7/13
UPGMA dà i risultati più soddisfacenti.Assume che il tasso di evoluzione tra tutte le lingue sia uguale o quasi.Ricostruisce un albero binario e con radice.
NJ SULLE DISTANZE DI HAMMING
8/13
Problemi:Le lingue Germaniche vengono raggruppate con le lingue Celtiche.La posizione errata del Bulgaro.
Possibili cause:NJ non fa una classificazione accurata quando il tasso di evoluzione è uguale.
UPGMA SULLE DISTANZE FUZZY DI HAMMING
9/13
Problemi:Il Bulgaro e viene raggruppato con le lingue Germaniche.
Possibili cause:La distanza fuzzy di Hammingavvicina il Bulgaro con le lingue Germaniche.
NJ SULLE DISTANZE FUZZY DI
HAMMING
10/13
Problemi:La classificazione errata del Bulgaro.La fusione dei dialetti Greci con le lingue Latine.
Possibili cause:L’attrazione tra il Rumeno ed il Bulgaro e la posizione esterna del Bulgaro.
CONFRONTO TRA NJ E UPGMA
11/13
NJ non usa direttamente la matrice delle distanze ma ne ricostruisce un’altra.UPGMA unisce al primo passo il Rumeno con le lingue Latine, mentre NJ unisce il Rumeno con i dialetti Greci.
CONCLUSIONI
I metodi basati sulle distanze si comportano meglio dei metodi basati sui caratteri, quando si vuole fare una classificazione basata sui parametri sintattici.
Le distanze fuzzy di Hamming non rappresentano correttamente le vere distanze tra le lingue.
L’algoritmo UPGMA fa una ricostruzione più accurata rispetto al NJ.
12/13
Grazie per
l’attenzione…
13/13