Upload
quesadagranja
View
3.928
Download
1
Embed Size (px)
Citation preview
Distribución por longitud de las palabras de diferentes idiomas
C. Quesada-Granja
Introducción
Muchos fenómenos se pueden caracterizar mediante
distribuciones de probabilidad
La distribución de las palabras según su número de letras
¿sigue algún modelo estadístico?
Es decir…
Si tomamos un texto y contamos…
• las palabras de 1 letra,• las palabras de 2 letras,• las palabras de 3 letras,• las palabras de 4 letras,• las palabras de 5 letras,• las palabras de 6 letras,• las palabras de 7 letras,
… y representamos el resultado en un histograma…
0 5 1 0 1 5 2 0 2 50
5 0
1 0 0
1 5 0
2 0 0
2 5 0
3 0 0
Número de letras
Núm
ero
de p
alab
ras
… ¿se parecerá a alguna distribución de probabilidad
conocida?
Materiales y métodos
Selección de los textos
Carácter enciclopédico
Para una docena de lenguas con alfabeto latino
Un fichero por cada lengua
Contenido de los ficheros
2.500 palabras
Fragmentos de artículos destacados de Wikipedia
10 ó 12 artículos con temáticas diferentes, extraídos al azar
Análisis de los ficheros
Programa en Matlab
Procesa los ficheros
Representa resultados mediante histogramas
function datos = leer(namefile)texto = textread(namefile, '%s');numpal = size(texto);vectL = zeros(1,numpal(1));for i = 1:numpal vectL(i) = length(char(texto(i)));endhist(vectL, 1:max(vectL))
Resultados
La distribución de las palabras no es igual para todas las lenguas
Similitudes cuando se agrupan por familias lingüísticas
Lenguas romances
0 2 4 6 8 1 0 1 2 1 4 1 6 1 80
1 0 0
2 0 0
3 0 0
4 0 0
5 0 0
6 0 0
7 0 0
ESPAÑOLμ = 4,9380σ = 3,0571
0 2 4 6 8 1 0 1 2 1 4 1 6 1 80
1 0 0
2 0 0
3 0 0
4 0 0
5 0 0
6 0 0
7 0 0
FRANCÉSμ = 4,8667σ = 3,0697
1 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 50
1 0 0
2 0 0
3 0 0
4 0 0
5 0 0
6 0 0
CATALÁNμ = 4,7331σ = 3,0985
0 5 1 0 1 50
1 0 0
2 0 0
3 0 0
4 0 0
5 0 0
6 0 0
Número de letras Número de letras
Número de letras Número de letras
Núm
ero
de p
alab
ras
Núm
ero
de p
alab
ras
Núm
ero
de p
alab
ras
Núm
ero
de p
alab
ras
Lenguas germánicas occidentales
0 2 4 6 8 1 0 1 2 1 4 1 6 1 80
1 0 0
2 0 0
3 0 0
4 0 0
5 0 0
6 0 0
INGLÉSμ = 4,8773σ = 2,6171
0 5 1 0 1 5 2 0 2 5 3 00
1 0 0
2 0 0
3 0 0
4 0 0
5 0 0
6 0 0
7 0 0
ALEMÁNμ = 6,0968σ = 3,6668
0 5 1 0 1 5 2 0 2 50
1 0 0
2 0 0
3 0 0
4 0 0
5 0 0
6 0 0
NEERLANDÉSμ = 5,2007σ = 3,0556
0 2 4 6 8 1 0 1 2 1 4 1 6 1 8 2 00
1 0 0
2 0 0
3 0 0
4 0 0
5 0 0
6 0 0
Número de letrasNúmero de letras Número de letras
Número de letras Número de letras
Núm
ero
de p
alab
ras
Núm
ero
de p
alab
ras
Núm
ero
de p
alab
ras
Núm
ero
de p
alab
ras
Lenguas eslavas occidentales
0 5 1 0 1 5 2 0 2 50
5 0
1 0 0
1 5 0
2 0 0
2 5 0
3 0 0
3 5 0
POLACOμ = 5,6452σ = 3,3431
0 2 4 6 8 1 0 1 2 1 4 1 6 1 80
5 0
1 0 0
1 5 0
2 0 0
2 5 0
3 0 0
3 5 0
CHECOμ = 5,3604σ = 2,9859
0 2 4 6 8 1 0 1 2 1 4 1 6 1 8 2 00
5 0
1 0 0
1 5 0
2 0 0
2 5 0
3 0 0
3 5 0
ESLOVACOμ = 5,6638σ = 3,2797
0 2 4 6 8 1 0 1 2 1 4 1 6 1 80
5 0
1 0 0
1 5 0
2 0 0
2 5 0
3 0 0
Número de letras Número de letras
Número de letras Número de letras
Núm
ero
de p
alab
ras
Núm
ero
de p
alab
ras
Núm
ero
de p
alab
ras
Núm
ero
de p
alab
ras
Lenguas de otras familias
0 5 1 0 1 5 2 0 2 5 3 00
5 0
1 0 0
1 5 0
2 0 0
2 5 0
3 0 0
3 5 0
0 2 4 6 8 1 0 1 2 1 4 1 6 1 8 2 00
5 0
1 0 0
1 5 0
2 0 0
2 5 0
3 0 0
3 5 0
EUSKERAμ = 6,5018σ = 2,8321
0 5 1 0 1 5 2 0 2 5 3 0 3 50
5 0
1 0 0
1 5 0
2 0 0
2 5 0
3 0 0
3 5 0
4 0 0
ISLANDÉSμ = 5,2470σ = 3,1405
0 5 1 0 1 5 2 0 2 50
5 0
1 0 0
1 5 0
2 0 0
2 5 0
3 0 0
HÚNGAROμ = 6,2615σ = 3,6546
FINÉSμ = 7,8866σ = 3,8362
Número de letras Número de letras
Número de letras Número de letras
Núm
ero
de p
alab
ras
Núm
ero
de p
alab
ras
Núm
ero
de p
alab
ras
Núm
ero
de p
alab
ras
Conclusiones
No se puede establecer un modelo estadístico común a todas las lenguas
Las lenguas de las mismas familias lingüísticas presentan características similares
Posibles aplicaciones
Diseño de algoritmos para la detección automática de lenguas
Estudios de eficiencia
Longitudes medias(*)
FINÉS 7,89
EUSKERA 6,50
HÚNGARO 6,26
ALEMÁN 6,10 5,92
ESLOVACO 5,66
POLACO 5,65
CHECO 5,36
ISLANDÉS 5,25
NEERLANDÉS 5,20
ESPAÑOL 4,94 4,96
INGLÉS 4,88 4,50
FRANCÉS 4,87 4,84
CATALÁN 4,73
(*) Fletcher Pratt, Secret and Urgent: the Story of Codes and Ciphers, Blue Ribbon Books, 1939, pp. 256-257.