28
Distribución por longitud de las palabras de diferentes idiomas C. Quesada-Granja

Distribución por longitud de las palabras de diferentes idiomas

Embed Size (px)

Citation preview

Page 1: Distribución por longitud de las palabras de diferentes idiomas

Distribución por longitud de las palabras de diferentes idiomas

C. Quesada-Granja

Page 2: Distribución por longitud de las palabras de diferentes idiomas

Introducción

Page 3: Distribución por longitud de las palabras de diferentes idiomas

Muchos fenómenos se pueden caracterizar mediante

distribuciones de probabilidad

Page 4: Distribución por longitud de las palabras de diferentes idiomas

La distribución de las palabras según su número de letras

¿sigue algún modelo estadístico?

Page 5: Distribución por longitud de las palabras de diferentes idiomas

Es decir…

Page 6: Distribución por longitud de las palabras de diferentes idiomas

Si tomamos un texto y contamos…

• las palabras de 1 letra,• las palabras de 2 letras,• las palabras de 3 letras,• las palabras de 4 letras,• las palabras de 5 letras,• las palabras de 6 letras,• las palabras de 7 letras,

Page 7: Distribución por longitud de las palabras de diferentes idiomas

… y representamos el resultado en un histograma…

0 5 1 0 1 5 2 0 2 50

5 0

1 0 0

1 5 0

2 0 0

2 5 0

3 0 0

Número de letras

Núm

ero

de p

alab

ras

Page 8: Distribución por longitud de las palabras de diferentes idiomas

… ¿se parecerá a alguna distribución de probabilidad

conocida?

Page 9: Distribución por longitud de las palabras de diferentes idiomas

Materiales y métodos

Page 10: Distribución por longitud de las palabras de diferentes idiomas

Selección de los textos

Carácter enciclopédico

Para una docena de lenguas con alfabeto latino

Un fichero por cada lengua

Page 11: Distribución por longitud de las palabras de diferentes idiomas

Contenido de los ficheros

2.500 palabras

Fragmentos de artículos destacados de Wikipedia

10 ó 12 artículos con temáticas diferentes, extraídos al azar

Page 12: Distribución por longitud de las palabras de diferentes idiomas

Análisis de los ficheros

Programa en Matlab

Procesa los ficheros

Representa resultados mediante histogramas

Page 13: Distribución por longitud de las palabras de diferentes idiomas

function datos = leer(namefile)texto = textread(namefile, '%s');numpal = size(texto);vectL = zeros(1,numpal(1));for i = 1:numpal vectL(i) = length(char(texto(i)));endhist(vectL, 1:max(vectL))

Page 14: Distribución por longitud de las palabras de diferentes idiomas

Resultados

Page 15: Distribución por longitud de las palabras de diferentes idiomas

La distribución de las palabras no es igual para todas las lenguas

Similitudes cuando se agrupan por familias lingüísticas

Page 16: Distribución por longitud de las palabras de diferentes idiomas

Lenguas romances

Page 17: Distribución por longitud de las palabras de diferentes idiomas

0 2 4 6 8 1 0 1 2 1 4 1 6 1 80

1 0 0

2 0 0

3 0 0

4 0 0

5 0 0

6 0 0

7 0 0

ESPAÑOLμ = 4,9380σ = 3,0571

0 2 4 6 8 1 0 1 2 1 4 1 6 1 80

1 0 0

2 0 0

3 0 0

4 0 0

5 0 0

6 0 0

7 0 0

FRANCÉSμ = 4,8667σ = 3,0697

1 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 50

1 0 0

2 0 0

3 0 0

4 0 0

5 0 0

6 0 0

CATALÁNμ = 4,7331σ = 3,0985

0 5 1 0 1 50

1 0 0

2 0 0

3 0 0

4 0 0

5 0 0

6 0 0

Número de letras Número de letras

Número de letras Número de letras

Núm

ero

de p

alab

ras

Núm

ero

de p

alab

ras

Núm

ero

de p

alab

ras

Núm

ero

de p

alab

ras

Page 18: Distribución por longitud de las palabras de diferentes idiomas

Lenguas germánicas occidentales

Page 19: Distribución por longitud de las palabras de diferentes idiomas

0 2 4 6 8 1 0 1 2 1 4 1 6 1 80

1 0 0

2 0 0

3 0 0

4 0 0

5 0 0

6 0 0

INGLÉSμ = 4,8773σ = 2,6171

0 5 1 0 1 5 2 0 2 5 3 00

1 0 0

2 0 0

3 0 0

4 0 0

5 0 0

6 0 0

7 0 0

ALEMÁNμ = 6,0968σ = 3,6668

0 5 1 0 1 5 2 0 2 50

1 0 0

2 0 0

3 0 0

4 0 0

5 0 0

6 0 0

NEERLANDÉSμ = 5,2007σ = 3,0556

0 2 4 6 8 1 0 1 2 1 4 1 6 1 8 2 00

1 0 0

2 0 0

3 0 0

4 0 0

5 0 0

6 0 0

Número de letrasNúmero de letras Número de letras

Número de letras Número de letras

Núm

ero

de p

alab

ras

Núm

ero

de p

alab

ras

Núm

ero

de p

alab

ras

Núm

ero

de p

alab

ras

Page 20: Distribución por longitud de las palabras de diferentes idiomas

Lenguas eslavas occidentales

Page 21: Distribución por longitud de las palabras de diferentes idiomas

0 5 1 0 1 5 2 0 2 50

5 0

1 0 0

1 5 0

2 0 0

2 5 0

3 0 0

3 5 0

POLACOμ = 5,6452σ = 3,3431

0 2 4 6 8 1 0 1 2 1 4 1 6 1 80

5 0

1 0 0

1 5 0

2 0 0

2 5 0

3 0 0

3 5 0

CHECOμ = 5,3604σ = 2,9859

0 2 4 6 8 1 0 1 2 1 4 1 6 1 8 2 00

5 0

1 0 0

1 5 0

2 0 0

2 5 0

3 0 0

3 5 0

ESLOVACOμ = 5,6638σ = 3,2797

0 2 4 6 8 1 0 1 2 1 4 1 6 1 80

5 0

1 0 0

1 5 0

2 0 0

2 5 0

3 0 0

Número de letras Número de letras

Número de letras Número de letras

Núm

ero

de p

alab

ras

Núm

ero

de p

alab

ras

Núm

ero

de p

alab

ras

Núm

ero

de p

alab

ras

Page 22: Distribución por longitud de las palabras de diferentes idiomas

Lenguas de otras familias

Page 23: Distribución por longitud de las palabras de diferentes idiomas

0 5 1 0 1 5 2 0 2 5 3 00

5 0

1 0 0

1 5 0

2 0 0

2 5 0

3 0 0

3 5 0

0 2 4 6 8 1 0 1 2 1 4 1 6 1 8 2 00

5 0

1 0 0

1 5 0

2 0 0

2 5 0

3 0 0

3 5 0

EUSKERAμ = 6,5018σ = 2,8321

0 5 1 0 1 5 2 0 2 5 3 0 3 50

5 0

1 0 0

1 5 0

2 0 0

2 5 0

3 0 0

3 5 0

4 0 0

ISLANDÉSμ = 5,2470σ = 3,1405

0 5 1 0 1 5 2 0 2 50

5 0

1 0 0

1 5 0

2 0 0

2 5 0

3 0 0

HÚNGAROμ = 6,2615σ = 3,6546

FINÉSμ = 7,8866σ = 3,8362

Número de letras Número de letras

Número de letras Número de letras

Núm

ero

de p

alab

ras

Núm

ero

de p

alab

ras

Núm

ero

de p

alab

ras

Núm

ero

de p

alab

ras

Page 24: Distribución por longitud de las palabras de diferentes idiomas

Conclusiones

Page 25: Distribución por longitud de las palabras de diferentes idiomas

No se puede establecer un modelo estadístico común a todas las lenguas

Las lenguas de las mismas familias lingüísticas presentan características similares

Page 26: Distribución por longitud de las palabras de diferentes idiomas

Posibles aplicaciones

Diseño de algoritmos para la detección automática de lenguas

Estudios de eficiencia

Page 27: Distribución por longitud de las palabras de diferentes idiomas

Longitudes medias(*)

FINÉS 7,89  

EUSKERA 6,50  

HÚNGARO 6,26  

ALEMÁN 6,10 5,92

ESLOVACO 5,66  

POLACO 5,65  

CHECO 5,36  

ISLANDÉS 5,25  

NEERLANDÉS 5,20  

ESPAÑOL 4,94 4,96

INGLÉS 4,88 4,50

FRANCÉS 4,87 4,84

CATALÁN 4,73  

(*) Fletcher Pratt, Secret and Urgent: the Story of Codes and Ciphers, Blue Ribbon Books, 1939, pp. 256-257.

Page 28: Distribución por longitud de las palabras de diferentes idiomas

C. [email protected]

CC-BY: tj scenes

CC-BY: Gaetan Lee