Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
La complejidad de los idiomas
Germán Coloma
Conceptos de complejidad
• Complejidad absoluta: Cantidad de distinciones y/o reglas explícitas (McWhorter, 2001); Número de partes en un sistema (Miestamo, 2008).
• Complejidad relativa: Esfuerzo de un “extranjero generalizado” para aprender un idioma (Kusters, 2003); Cantidad de memoria para retener las estructuras que se procesan (Hawkins, 2004).
• Complejidad local vs. global: Puede referirse a un aspecto (ej, presencia de un tipo de sonido), a una categoría (ej, morfología, sintaxis) o al idioma como un todo.
Medidas de complejidad
• Medidas teóricas o tipológicas: Surgen de las gramáticas de los distintos idiomas (ej, cantidad de fonemas, cantidad de géneros, existencia o no de artículos definidos e indefinidos).
• Medidas empíricas: Surgen de usar textos en distintos idiomas (ej, fonemas por sílaba, palabras por enunciado, cocientes tipos/ocurrencias).
• Medidas generales: Pueden ser teóricas o empíricas. Surgen de promediar medidas parciales (Parkvall, 2008; Nichols, 2009), o bien de alguna comparación general (ej, complejidad de Kolmogorov).
¿Igual complejidad?
• Argumentos a favor: Ausencia de correlación entre “complejidad idiomática” y “civilización” (Sapir); idioma como “facultad innata” (Chomsky); idioma como medio de comunicación (Greenberg).
• Argumentos en contra: El aislamiento favorece la complejidad (Trudgill, 2009); los “idiomas nuevos” son más simples (McWhorter, 2001); los idiomas más hablados son más simples en algunos aspectos y más complejos en otros (Dahl, 2011).
Efectos de compensación
• Implican la existencia de correlación negativa entre distintas medidas de complejidad; pueden aparecer entre medidas teóricas (Shosted, 2006) o empíricas (Fenk-Oczlon y Fenk, 2008); entre aspectos de la misma categoría (ej, fonología, morfología) o entre categorías distintas.
• Una posible explicación de esto viene de la “teoría de los sistemas” o “lingüística sinergética” (Köhler, 1987, 2005). La complejidad surge de la interacción de requisitos de codificación, producción, memoria y estabilidad.
Fonología
Morfología
Sintaxis
+ – maxC minP
– minM
Vocabulario
maxE =
Primer estudio: medidas empíricas
• Utiliza “cocientes lingüísticos”: fonemas por sílaba, sílabas por palabra y palabras por enunciado, tomando como base el mismo texto (“El viento norte y el sol”) en 50 idiomas distintos.
• Mide la correlación a través de coeficientes simples y también usa coeficientes de correlación parcial.
• Controla por factores geográficos y filogenéticos, y aprovecha la relación entre coeficientes de correlación y coeficientes de regresión.
Versión ortográfica de “El viento norte y el sol” El viento norte y el sol porfiaban sobre cuál de ellos era el más fuerte, cuando acertó a pasar un viajero envuelto en ancha capa. Convinieron en que quien antes lograra obligar al viajero a quitarse la capa sería considerado más poderoso. El viento norte sopló con gran furia, pero cuanto más soplaba, más se arrebujaba en su capa el viajero; por fin el viento norte abandonó la empresa. Entonces brilló el sol con ardor, e inmediatamente se despojó de su capa el viajero; por lo que el viento norte hubo de reconocer la superioridad del sol. Transcripción fonémica el biénto nórte i el sól porfiában sobre kuál de éλos éra el más fuérte | kuándo aθertó a pasár um biaxéro embuélto en ánca kápa || kombiniéron en ke kien ántes lográra obligár al biaxéro a kitárse la kápa sería konsiderádo más poderóso || el biénto nórte sopló kon grám fúria | pero kuánto más soplába más se ařebuxába en su kápa el biaxéro || por fín el biénto nórte abandonó la emprésa || entónθes briλó el sól kon ardór | e inmediátaménte se despoxó de su kápa el biaxéro | por lo ke el biénto nórte úbo de řekonoθér la superioridá del sól
Concepto Español Inglés Árabe Promedio Fonemas 425 383 488 458 Sílabas 193 143 217 201 Palabras 97 113 85 96 Enunciados 9 9 9 9,44 Fonemas/Sílaba 2,2021 2,6783 2,2488 2,3004 Sílabas/Palabra 1,9897 1,2655 2,5529 2,1869 Palabras/Enunciado 10,78 12,56 9,44 10,33
SylWord = -0.611·PhonSyl + 3.5923
R2 = 0.0585
0.90
1.40
1.90
2.40
2.90
3.40
3.90
1.60 1.80 2.00 2.20 2.40 2.60 2.80 3.00
Phonemes per Syllable
Syl
lab
les
per
Wo
rd
Tamil Chickasaw
Yine
Vietnamese
Igbo
AmharicJapanese
Irish English
Mandarin
Spanish
WordClause = -3.0353·SylWord + 16.969
R2 = 0.4603
5
7
9
11
13
15
17
19
0.90 1.40 1.90 2.40 2.90 3.40 3.90
Syllables per Word
Wo
rds
pe
r C
lau
se
English
Vietnamese
Spanish Mandarin
Yine
Irish
Arrernte
Tashlhiyt
Amharic
Hindi
Dinka
Chickasaw
WordClause = -0.5899·PhonSyl + 11.688
R2 = 0.0027
5
7
9
11
13
15
17
19
1.60 1.80 2.00 2.20 2.40 2.60 2.80 3.00
Phonemes per Syllable
Wo
rds
pe
r C
lau
se
Irish
Vietnamese
Chickasaw
Igbo
Hindi
Apache
Arrernte
EnglishThai
Spanish
Mandarin Japanese
Coeficiente de correlación
• Fórmula:
• Ejemplo para la correlación entre sílabas por palabra y palabras por enunciado:
( )( )
( ) ( )i i
2 2i i
x x y yr
x x y y
− −=
− ⋅ −
∑∑ ∑
( )( )( ) ( )
( )( )( ) ( )
6785,033,10y19,2x
33,10y19,2x
yyxx
yyxxr
2i
2i
ii
2i
2i
ii −=−⋅−
−−=
−⋅−
−−=
∑∑∑
∑∑∑
Coeficientes de correlación de la base de datos analizada
Variable Fonemas/ Sílabas
Sílabas/ Palabras
Palabras/ Enunciados
Fonemas por sílaba 1.0000 -0.2420 -0.0522
Sílabas por palabra 1.0000 -0.6785 Palabras por enunciado 1.0000
Cálculo de la correlación usando resultados de una regresión
• Ejemplo de regresión entre sílabas por palabra y palabras por enunciado: PE = 16,969 – 3,0353·SP SP = 3,9341 – 0,1517·PE
• Fórmula de cálculo:
6785,0)1517,0()0353,3(r yx −=−⋅−−=β⋅β−=
Resultados de la regresión de un sistema de ecuaciones
FS = 3,1154 – 0,2034·SP – 0,0358·PE SP = 5,4094 – 0,7023·FS – 0,1556·PE PE = 23,566 – 2,6191·FS – 3,2922·SP • Coeficientes de correlación parcial:
r(FS,SP) ( 0,0358) ( 2,6191) 0,3036= − − ⋅ − = −
r(SP,PE) ( 0,1556) ( 3,2922) 0,7132= − − ⋅ − = −
r(FS,SP) ( 0,2034) ( 0,7023) 0,3781= − − ⋅ − = −
Inclusión de otras variables en el sistema
FS = c(1)*Europe +c(2)*Africa +c(3)*Westasia +c(4)*Eastasia
+c(5)*America +c(6)*Indoeuro +c(7)*Afroasiatic +c(8)*Nigercongo +c(9)*Sinotibetan +c(10)*SP + c(11)*PE
SP = c(12)*Europe +c(13)*Africa +c(14)*Westasia +c(15)*Eastasia
+c(16)*America +c(17)*Indoeuro +c(18)*Afroasiatic +c(19)*Nigercongo +c(20)*Sinotibetan +c(21)*FS +c(22)*PE
PE = c(23)*Europe +c(24)*Africa +c(25)*Westasia + c(26)*Eastasia
+c(27)*America +c(28)*Indoeuro +c(29)*Afroasiatic +c(30)*Nigercongo +c(31)*Sinotibetan +c(32)*FS +c(33)*SP
Coeficientes de correlación simple y parcial
Concepto FS SP PE
Correlat. Simple
FS 1.0000 -0.2420 -0.0522
SP 1.0000 -0.6785 PE 1.0000
Correlat. Parcial (1)
FS 1.0000 -0.3781 -0.3036
SP 1.0000 -0.7132 PE 1.0000
Correlat. Parcial (2)
FS 1.0000 -0.5857 -0.4204 SP 1.0000 -0.8982 PE 1.0000
Segundo estudio: medidas teóricas
• Utiliza “variables binarias”: Toman valores iguales a cero (simple) o uno (complejo), y están construidas en base a 60 características para la muestra de 100 idiomas del Atlas Mundial de Estructuras Lingüísticas (WALS).
• Mide la correlación a través de coeficientes simples y también usa coeficientes de correlación parcial.
• Controla por factores geográficos y filogenéticos.
Listado de idiomas Abjasio Hixkaryana Ngiyambaa Acoma Hmong Njua Oneida Alamblak Imonda Oromo (Harar) Amele Indonesio Otomí (Mezquital) Apurina Jacalteco Paiwan Árabe (Egipcio) Japonés Persa Arapesh (Montañés) Canarés Pirahá Asmat Karok Quechua (Ecuatoriano) Bagirmi Kayardild Rama Barasano Kewa Rapanui Vasco Mongol (Khalkha) Ruso Bereber (Marroquí) Khoekhoe Sango Birmano Kiowa Sanuma Burushaski Koasati Slave Canela-Kraho Coreano Español Chamorro Koyraboro Senni Supyire Chukchi Krongo Suajili Cree (Praderas) Kutenai Tagalo Daga Lakhota Tailandés Dani (Valle Inferior) Lango Tiwi Inglés Lavukaleve Tukang Besi Fiyiano Lezgiano Turco Finlandés Luvale Vietnamita Francés Makah Warao Georgiano Malgache Wari Alemán Mandarín Wichita Gooniyandi Mangarrayi Wichí Grebo Mapuche Yagua Griego (Moderno) Maricopa Yaqui Groenlandés (Oeste) Martuthunira Yoruba Guaraní Maung Zoque (Copainala) Hausa Maybrat Zulú Hebreo (Moderno) Meithei Hindi Mixteco (Chalcatongo)
Listado de características Fonología Asymmetric Standard Negation Consonant Inventories Nominal and Locational Predication Vowel Quality Inventories Preverbal Negative Morphemes Voicing in Plosives and Fricatives Postverbal Negative Morphemes Uvular Consonants Sistema verbal Glottalized Consonants Perfective/Imperfective Aspect Vowel Nasalization The Past Tense Front Rounded Vowels The Future Tense Syllable Structure The Perfect Tone Position of Tense-Aspect Affixes Fixed Stress Locations The Morphological Imperative Presence of Uncommon Consonants The Optative Morfología Semantic Distinctions of Evidentiality Fusion of Inflectional Formatives Suppletion of Tense and Aspect Inflectional Synthesis of the Verb Verbal Number and Suppletion Locus of Marking in the Clause Passive Constructions Prefixing and Suffixing Antipassive Constructions Case Syncretism Applicative Constructions Syncretism in Verbal Marking Vocabulario Number of Genders Definite Articles Occurrence of Nominal Plurality Indefinite Articles Person Marking on Adpositions Inclusive/Exclusive Distinction (Pronouns) Number of Cases Inclusive/Exclusive Distinction (Verbs) Position of Case Affixes Distance Contrasts in Demonstratives Sintaxis Gender Distinctions in Pronouns Obligatory Possessive Inflection Politeness Distinctions in Pronouns Possessive Classification Intensifiers and Reflexive Pronouns Order of Subject, Object and Verb Numeral Classifiers Order of Object, Oblique, and Verb Noun Phrase Conjunction Position of Polar Question Particles Nominal and Verbal Conjunction Alignment of Case Marking of Nouns Hand and Arm Alignment of Verbal Person Marking Finger and Hand Order of Person Markers on the Verb
Variable Español Inglés Guaraní Árabe Mandarín Consonantes 0 0 0 1 0
Tono 0 0 0 0 1
Afijos 1 1 1 1 0
Géneros 1 0 0 1 0
Voz pasiva 1 1 0 1 1
Demostrativos 1 0 1 0 0
Brazo y mano 1 1 1 0 1
Descripción de los datos • Total de observaciones: 6000 (60 características x 100
idiomas). • Total de observaciones “simples”: 3370 (56%). • Total de observaciones “complejas”: 2630 (44%). • Idioma con más características simples: Tailandés (46 / 14). • Idioma con más características complejas: Abjasio (20 / 40). • Característica con más observaciones simples: Vocales
anteriores redondeadas (93 / 7). • Característica más observaciones complejas: Dedo y mano
(9 / 91). • Ningún idioma es más complejo que otro en todas las
características
Correlaciones negativas • Coeficientes de correlación simple: Hay 801
negativos sobre un total de 1770 (42%). Solo 85 (4,8%) son significativos.
• Coeficientes de correlación parcial: Hay 887 negativos (50,1%). De ellos, 154 (8,7%) son significativos.
• Coeficientes de correlación parcial controlando por variables geográficas y filogenéticas: Hay 889 negativos (50,2%). De ellos, 265 (15%) son significativos.
Ilustración con 4 variables fonológicas
Característica 1A 2A 12A 13A Correlación estándar 1A: Consonantes 1.0000 2A: Tipos vocálicos -0.1622 1.0000 12A: Estructura silábica 0.1485 0.0161 1.0000 13A: Tono 0.0990 0.1666 -0.3327 1.0000 Correlación parcial (caso 1) 1A: Consonantes 1.0000 2A: Tipos vocálicos -0.3269 1.0000 12A: Estructura silábica -0.0025 0.2305 1.0000 13A: Tono -0.1030 -0.0067 -0.3082 1.0000 Correlación parcial (caso 2) 1A: Consonantes 1.0000 2A: Tipos vocálicos -0.4155 1.0000 12A: Estructura silábica -0.0021 0.1855 1.0000 13A: Tono -0.3462 -0.1453 -0.2679 1.0000
0.0
1.5
3.0
4.5
0.0 0.2 0.4 0.6 0.8 1.0
Complexity Index
Prob
abili
ty D
ensi
ty
Phonology
Morphology
Syntax
Verbs
Total
Lexicon
Conclusiones
• Si usamos medidas empíricas, encontramos una evidencia fuerte de que el cociente “sílabas por palabra” está negativamente correlacionado con el cociente “palabras por enunciado”, cualquiera sea el método usado.
• Usando correlaciones parciales, (y aún más agregando variables geográficas y filogenéticas) aparecen también correlaciones negativas significativas entre aquellas medidas y “fonemas por sílaba”.
• Si usamos medidas teóricas, las correlaciones negativas son mucho más escasas, pero su número y significación aumentan usando correlaciones parciales y agregando otras variables. También se ve que ningún idioma es más complejo que otro en todas las dimensiones posibles.
• Todo esto es compatible con el “enfoque sinergético”, que predice correlaciones negativas pero tamizadas por el “requisito de estabilidad”.