La complejidad de los idiomas · 2015. 9. 23. · Medidas de complejidad • Medidas teóricas o tipológicas: Surgen de las gramáticas de los distintos idiomas (ej, cantidad de

La complejidad de los idiomas

Germán Coloma

Conceptos de complejidad

•  Complejidad absoluta: Cantidad de distinciones y/o reglas explícitas (McWhorter, 2001); Número de partes en un sistema (Miestamo, 2008).

•  Complejidad relativa: Esfuerzo de un “extranjero generalizado” para aprender un idioma (Kusters, 2003); Cantidad de memoria para retener las estructuras que se procesan (Hawkins, 2004).

•  Complejidad local vs. global: Puede referirse a un aspecto (ej, presencia de un tipo de sonido), a una categoría (ej, morfología, sintaxis) o al idioma como un todo.

Medidas de complejidad

•  Medidas teóricas o tipológicas: Surgen de las gramáticas de los distintos idiomas (ej, cantidad de fonemas, cantidad de géneros, existencia o no de artículos definidos e indefinidos).

•  Medidas empíricas: Surgen de usar textos en distintos idiomas (ej, fonemas por sílaba, palabras por enunciado, cocientes tipos/ocurrencias).

•  Medidas generales: Pueden ser teóricas o empíricas. Surgen de promediar medidas parciales (Parkvall, 2008; Nichols, 2009), o bien de alguna comparación general (ej, complejidad de Kolmogorov).

¿Igual complejidad?

•  Argumentos a favor: Ausencia de correlación entre “complejidad idiomática” y “civilización” (Sapir); idioma como “facultad innata” (Chomsky); idioma como medio de comunicación (Greenberg).

•  Argumentos en contra: El aislamiento favorece la complejidad (Trudgill, 2009); los “idiomas nuevos” son más simples (McWhorter, 2001); los idiomas más hablados son más simples en algunos aspectos y más complejos en otros (Dahl, 2011).

Efectos de compensación

•  Implican la existencia de correlación negativa entre distintas medidas de complejidad; pueden aparecer entre medidas teóricas (Shosted, 2006) o empíricas (Fenk-Oczlon y Fenk, 2008); entre aspectos de la misma categoría (ej, fonología, morfología) o entre categorías distintas.

•  Una posible explicación de esto viene de la “teoría de los sistemas” o “lingüística sinergética” (Köhler, 1987, 2005). La complejidad surge de la interacción de requisitos de codificación, producción, memoria y estabilidad.

Fonología

Morfología

Sintaxis

+ – maxC minP

– minM

Vocabulario

maxE =

Primer estudio: medidas empíricas

•  Utiliza “cocientes lingüísticos”: fonemas por sílaba, sílabas por palabra y palabras por enunciado, tomando como base el mismo texto (“El viento norte y el sol”) en 50 idiomas distintos.

•  Mide la correlación a través de coeficientes simples y también usa coeficientes de correlación parcial.

•  Controla por factores geográficos y filogenéticos, y aprovecha la relación entre coeficientes de correlación y coeficientes de regresión.

Versión ortográfica de “El viento norte y el sol” El viento norte y el sol porfiaban sobre cuál de ellos era el más fuerte, cuando acertó a pasar un viajero envuelto en ancha capa. Convinieron en que quien antes lograra obligar al viajero a quitarse la capa sería considerado más poderoso. El viento norte sopló con gran furia, pero cuanto más soplaba, más se arrebujaba en su capa el viajero; por fin el viento norte abandonó la empresa. Entonces brilló el sol con ardor, e inmediatamente se despojó de su capa el viajero; por lo que el viento norte hubo de reconocer la superioridad del sol. Transcripción fonémica el biénto nórte i el sól porfiában sobre kuál de éλos éra el más fuérte | kuándo aθertó a pasár um biaxéro embuélto en ánca kápa || kombiniéron en ke kien ántes lográra obligár al biaxéro a kitárse la kápa‌‌ sería konsiderádo más poderóso || el biénto nórte sopló kon grám fúria‌‌ | pero kuánto más soplába más se ařebuxába en su kápa el biaxéro || por fín el biénto nórte abandonó la emprésa || entónθes briλó el sól kon ardór | e inmediátaménte se despoxó de su kápa el biaxéro | por lo ke el biénto nórte úbo de řekonoθér la superioridá del sól

Concepto Español Inglés Árabe Promedio Fonemas 425 383 488 458 Sílabas 193 143 217 201 Palabras 97 113 85 96 Enunciados 9 9 9 9,44 Fonemas/Sílaba 2,2021 2,6783 2,2488 2,3004 Sílabas/Palabra 1,9897 1,2655 2,5529 2,1869 Palabras/Enunciado 10,78 12,56 9,44 10,33

SylWord = -0.611·PhonSyl + 3.5923

R2 = 0.0585

0.90

1.40

1.90

2.40

2.90

3.40

3.90

1.60 1.80 2.00 2.20 2.40 2.60 2.80 3.00

Phonemes per Syllable

Syl

lab

les

per

Wo

rd

Tamil Chickasaw

Yine

Vietnamese

Igbo

AmharicJapanese

Irish English

Mandarin

Spanish

WordClause = -3.0353·SylWord + 16.969

R2 = 0.4603

5

7

9

11

13

15

17

19

0.90 1.40 1.90 2.40 2.90 3.40 3.90

Syllables per Word

Wo

rds

pe

r C

lau

se

English

Vietnamese

Spanish Mandarin

Yine

Irish

Arrernte

Tashlhiyt

Amharic

Hindi

Dinka

Chickasaw

WordClause = -0.5899·PhonSyl + 11.688

R2 = 0.0027

5

7

9

11

13

15

17

19

1.60 1.80 2.00 2.20 2.40 2.60 2.80 3.00

Phonemes per Syllable

Wo

rds

pe

r C

lau

se

Irish

Vietnamese

Chickasaw

Igbo

Hindi

Apache

Arrernte

EnglishThai

Spanish

Mandarin Japanese

Coeficiente de correlación

•  Fórmula:

•  Ejemplo para la correlación entre sílabas por palabra y palabras por enunciado:

( )( )

( ) ( )i i

2 2i i

x x y yr

x x y y

− −=

− ⋅ −

∑∑ ∑

( )( )( ) ( )

( )( )( ) ( )

6785,033,10y19,2x

33,10y19,2x

yyxx

yyxxr

2i

2i

ii

2i

2i

ii −=−⋅−

−−=

−⋅−

−−=

∑∑∑

∑∑∑

Coeficientes de correlación de la base de datos analizada

Variable Fonemas/ Sílabas

Sílabas/ Palabras

Palabras/ Enunciados

Fonemas por sílaba 1.0000 -0.2420 -0.0522

Sílabas por palabra 1.0000 -0.6785 Palabras por enunciado 1.0000

Cálculo de la correlación usando resultados de una regresión

•  Ejemplo de regresión entre sílabas por palabra y palabras por enunciado: PE = 16,969 – 3,0353·SP SP = 3,9341 – 0,1517·PE

•  Fórmula de cálculo:

6785,0)1517,0()0353,3(r yx −=−⋅−−=β⋅β−=

Resultados de la regresión de un sistema de ecuaciones

FS = 3,1154 – 0,2034·SP – 0,0358·PE SP = 5,4094 – 0,7023·FS – 0,1556·PE PE = 23,566 – 2,6191·FS – 3,2922·SP •  Coeficientes de correlación parcial:

r(FS,SP) ( 0,0358) ( 2,6191) 0,3036= − − ⋅ − = −

r(SP,PE) ( 0,1556) ( 3,2922) 0,7132= − − ⋅ − = −

r(FS,SP) ( 0,2034) ( 0,7023) 0,3781= − − ⋅ − = −

Inclusión de otras variables en el sistema

FS = c(1)*Europe +c(2)*Africa +c(3)*Westasia +c(4)*Eastasia

+c(5)*America +c(6)*Indoeuro +c(7)*Afroasiatic +c(8)*Nigercongo +c(9)*Sinotibetan +c(10)*SP + c(11)*PE

SP = c(12)*Europe +c(13)*Africa +c(14)*Westasia +c(15)*Eastasia

+c(16)*America +c(17)*Indoeuro +c(18)*Afroasiatic +c(19)*Nigercongo +c(20)*Sinotibetan +c(21)*FS +c(22)*PE

PE = c(23)*Europe +c(24)*Africa +c(25)*Westasia + c(26)*Eastasia

+c(27)*America +c(28)*Indoeuro +c(29)*Afroasiatic +c(30)*Nigercongo +c(31)*Sinotibetan +c(32)*FS +c(33)*SP

Coeficientes de correlación simple y parcial

Concepto FS SP PE

Correlat. Simple

FS 1.0000 -0.2420 -0.0522

SP 1.0000 -0.6785 PE 1.0000

Correlat. Parcial (1)

FS 1.0000 -0.3781 -0.3036

SP 1.0000 -0.7132 PE 1.0000

Correlat. Parcial (2)

FS 1.0000 -0.5857 -0.4204 SP 1.0000 -0.8982 PE 1.0000

Segundo estudio: medidas teóricas

•  Utiliza “variables binarias”: Toman valores iguales a cero (simple) o uno (complejo), y están construidas en base a 60 características para la muestra de 100 idiomas del Atlas Mundial de Estructuras Lingüísticas (WALS).

•  Mide la correlación a través de coeficientes simples y también usa coeficientes de correlación parcial.

•  Controla por factores geográficos y filogenéticos.

Listado de idiomas Abjasio Hixkaryana Ngiyambaa Acoma Hmong Njua Oneida Alamblak Imonda Oromo (Harar) Amele Indonesio Otomí (Mezquital) Apurina Jacalteco Paiwan Árabe (Egipcio) Japonés Persa Arapesh (Montañés) Canarés Pirahá Asmat Karok Quechua (Ecuatoriano) Bagirmi Kayardild Rama Barasano Kewa Rapanui Vasco Mongol (Khalkha) Ruso Bereber (Marroquí) Khoekhoe Sango Birmano Kiowa Sanuma Burushaski Koasati Slave Canela-Kraho Coreano Español Chamorro Koyraboro Senni Supyire Chukchi Krongo Suajili Cree (Praderas) Kutenai Tagalo Daga Lakhota Tailandés Dani (Valle Inferior) Lango Tiwi Inglés Lavukaleve Tukang Besi Fiyiano Lezgiano Turco Finlandés Luvale Vietnamita Francés Makah Warao Georgiano Malgache Wari Alemán Mandarín Wichita Gooniyandi Mangarrayi Wichí Grebo Mapuche Yagua Griego (Moderno) Maricopa Yaqui Groenlandés (Oeste) Martuthunira Yoruba Guaraní Maung Zoque (Copainala) Hausa Maybrat Zulú Hebreo (Moderno) Meithei Hindi Mixteco (Chalcatongo)

Listado de características Fonología Asymmetric Standard Negation Consonant Inventories Nominal and Locational Predication Vowel Quality Inventories Preverbal Negative Morphemes Voicing in Plosives and Fricatives Postverbal Negative Morphemes Uvular Consonants Sistema verbal Glottalized Consonants Perfective/Imperfective Aspect Vowel Nasalization The Past Tense Front Rounded Vowels The Future Tense Syllable Structure The Perfect Tone Position of Tense-Aspect Affixes Fixed Stress Locations The Morphological Imperative Presence of Uncommon Consonants The Optative Morfología Semantic Distinctions of Evidentiality Fusion of Inflectional Formatives Suppletion of Tense and Aspect Inflectional Synthesis of the Verb Verbal Number and Suppletion Locus of Marking in the Clause Passive Constructions Prefixing and Suffixing Antipassive Constructions Case Syncretism Applicative Constructions Syncretism in Verbal Marking Vocabulario Number of Genders Definite Articles Occurrence of Nominal Plurality Indefinite Articles Person Marking on Adpositions Inclusive/Exclusive Distinction (Pronouns) Number of Cases Inclusive/Exclusive Distinction (Verbs) Position of Case Affixes Distance Contrasts in Demonstratives Sintaxis Gender Distinctions in Pronouns Obligatory Possessive Inflection Politeness Distinctions in Pronouns Possessive Classification Intensifiers and Reflexive Pronouns Order of Subject, Object and Verb Numeral Classifiers Order of Object, Oblique, and Verb Noun Phrase Conjunction Position of Polar Question Particles Nominal and Verbal Conjunction Alignment of Case Marking of Nouns Hand and Arm Alignment of Verbal Person Marking Finger and Hand Order of Person Markers on the Verb

Variable Español Inglés Guaraní Árabe Mandarín Consonantes 0 0 0 1 0

Tono 0 0 0 0 1

Afijos 1 1 1 1 0

Géneros 1 0 0 1 0

Voz pasiva 1 1 0 1 1

Demostrativos 1 0 1 0 0

Brazo y mano 1 1 1 0 1

Descripción de los datos •  Total de observaciones: 6000 (60 características x 100

idiomas). •  Total de observaciones “simples”: 3370 (56%). •  Total de observaciones “complejas”: 2630 (44%). •  Idioma con más características simples: Tailandés (46 / 14). •  Idioma con más características complejas: Abjasio (20 / 40). •  Característica con más observaciones simples: Vocales

anteriores redondeadas (93 / 7). •  Característica más observaciones complejas: Dedo y mano

(9 / 91). •  Ningún idioma es más complejo que otro en todas las

características

Correlaciones negativas •  Coeficientes de correlación simple: Hay 801

negativos sobre un total de 1770 (42%). Solo 85 (4,8%) son significativos.

•  Coeficientes de correlación parcial: Hay 887 negativos (50,1%). De ellos, 154 (8,7%) son significativos.

•  Coeficientes de correlación parcial controlando por variables geográficas y filogenéticas: Hay 889 negativos (50,2%). De ellos, 265 (15%) son significativos.

Ilustración con 4 variables fonológicas

Característica 1A 2A 12A 13A Correlación estándar 1A: Consonantes 1.0000 2A: Tipos vocálicos -0.1622 1.0000 12A: Estructura silábica 0.1485 0.0161 1.0000 13A: Tono 0.0990 0.1666 -0.3327 1.0000 Correlación parcial (caso 1) 1A: Consonantes 1.0000 2A: Tipos vocálicos -0.3269 1.0000 12A: Estructura silábica -0.0025 0.2305 1.0000 13A: Tono -0.1030 -0.0067 -0.3082 1.0000 Correlación parcial (caso 2) 1A: Consonantes 1.0000 2A: Tipos vocálicos -0.4155 1.0000 12A: Estructura silábica -0.0021 0.1855 1.0000 13A: Tono -0.3462 -0.1453 -0.2679 1.0000

0.0

1.5

3.0

4.5

0.0 0.2 0.4 0.6 0.8 1.0

Complexity Index

Prob

abili

ty D

ensi

ty

Phonology

Morphology

Syntax

Verbs

Total

Lexicon

Conclusiones

•  Si usamos medidas empíricas, encontramos una evidencia fuerte de que el cociente “sílabas por palabra” está negativamente correlacionado con el cociente “palabras por enunciado”, cualquiera sea el método usado.

•  Usando correlaciones parciales, (y aún más agregando variables geográficas y filogenéticas) aparecen también correlaciones negativas significativas entre aquellas medidas y “fonemas por sílaba”.

•  Si usamos medidas teóricas, las correlaciones negativas son mucho más escasas, pero su número y significación aumentan usando correlaciones parciales y agregando otras variables. También se ve que ningún idioma es más complejo que otro en todas las dimensiones posibles.

•  Todo esto es compatible con el “enfoque sinergético”, que predice correlaciones negativas pero tamizadas por el “requisito de estabilidad”.

Documents

La complejidad de los idiomas · 2015. 9. 23. · Medidas de complejidad • Medidas teóricas o tipológicas: Surgen de las gramáticas de los distintos idiomas (ej, cantidad de