84

Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,
Page 2: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,
Page 3: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,
Page 4: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

JulioAlexánderBernalChávez

DianaAlejandraHincapiéMoreno

Lingüísticadecorpus

Page 5: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

©InstitutoCaroyCuervo©JulioAlexánderBernalChávez©DianaAlejandraHincapiéMoreno

ISBN978-958-611-372-4(e-Book).

INSTITUTOCAROYCUERVOSEDECASADECUERVOCalle104–69,Bogotá

IMPRENTAPATRIÓTICASedeYerbabuenaAutopistaNorte,km9,300m

Todoslosderechosreservados.Estapublicaciónnopuedeserreproducidaniensutodoniensuspartessinelpermisopreviodelaeditorial.

Page 6: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

Contenido

LingüísticadecorpusIntroducciónDefinicióndelalingüísticadecorpusDefinicióndecorpusCaracterísticasdeuncorpusTipologíadeloscorpus

MediodeproduccióndelostextosNúmerodelenguasEspecificidaddelostextosDistribucióndelostextosTamañodelasmuestrasrecogidasInformaciónextradelostextosDocumentaciónqueacompañalostextos

HistoriadelalingüísticadecorpusUsosdeloscorpus

UsosgeneralesyposibilidadesqueofrecenloscorpusElusodeloscorpussegúnladisciplina

LaconstruccióndeuncorpusDiseñoyelaboracióndecorpusObtencióndepermisosycapturadedatosPlaneaciónypreparacióndelsistemadealmacenamientoProcesamientodelcorpus

LalingüísticadecorpusylalenguaespañolaConsideracionesfinalesGlosarioBibliografía

Page 7: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

Introducción

Losavancesenlascienciasdel lenguajeysus interdisciplinasdebenbeneficiarsedelusoadecuado de las evidencias empíricas provenientes de diversas fuentes (protocolos deverbalización, textos originales, elicitación de datos, técnicas estadísticas, mecanismosintrospectivos,etc.);aúnmás,mayorrobustezseconseguirásiseempleamásdeunmediodeaproximaciónalfenómenoenindagación.Lainformaciónconcurrenterecolectadaasífortaleceyproveeresultadoscerterosquejustificaneldesarrolloacumulativodelconocimientocientífico(Parodi,2008,p.94).

Hasta 1970, la lingüística de corpus (LC) la estudiaba únicamente unreducidonúmerodeinvestigadoresyacadémicos,einclusoseutilizabacasidemanera exclusiva para el análisis de la lengua inglesa; pero con el paso deltiempo,loscambiosdeparadigmaslingüísticosylaincursióndelatecnologíaenel campo de las ciencias humanas, la LC se ha constituido hoy día en unametodologíalingüísticaenaugeydegranvalor,envirtuddelasfacilidadesquebrindapararecolectar,sistematizar,analizaryexplotarmuestrasdelenguarealoenuso.Aunqueexistebibliografía sobre laLC, lamayoríadeesta seencuentraen

inglés o se ha escrito con base en la experiencia de investigadores españoles,pero al ser una metodología joven es largo el camino teórico y práctico quequeda por recorrer. Pensando en este camino, con el presente libro se buscadelimitar un área poco estudiada hasta el momento en Latinoamérica,brindándoles a sus lectores herramientas que les permitan comprender lametodología,reflexionarsobreestayaplicarla.LaescrituradeestelibronacedentrodelproyectodeinvestigacióndelGrupo

deLingüística deCorpus del InstitutoCaro yCuervo (ICC).A lo largo de suhistoria,el Institutohadesarrolladoinvestigacionessobre lenguaespañolaque,porsumagnitudeimportancia,sedebenpreservar,divulgaryexplotar;taleselcaso delAtlas lingüístico y etnográfico de Colombia1, los estudios del hablaculta2yElespañolhabladoenBogotá3.Querercumplirestosobjetivosnosllevócasualmente a la lingüística de corpus, ya que reconocemos en esta lasposibilidades para preservar, digitalizar, almacenar, sistematizar, explotar yponer al servicio del público académico y general los materiales de lasinvestigaciones.Sin embargo, para poder hacer uso de esta metodología y preservar los

Page 8: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

archivosresultantesdelasinvestigacionesdelInstitutoeranecesarioconocerlaafondo,loqueimplicabaunaformaciónteóricaantesdelapráctica.Esasícomoen 2013, pensando en la apertura de este grupo de investigación y lapreservación del material del ICC por medio de la creación de corpuslingüísticos, se comenzó con una indagación sistemática sobre la bibliografíaexistente en LC, las universidades, facultades y grupos de investigación quetrabajanconestametodologíaenelmundo,laspublicacionesdedicadasaltemayloscorpusexistentes.Unavezrecopiladaestainformaciónyconunabasededatosconstantemente

alimentada, hubo necesidad de explorar textos teóricos, para lo cual duranteochomesesdelecturaseextrajeroncitasysehicieroncomentariosdediferentestextos sobre la LC. De manera paralela, se desarrollaba en el grupo deinvestigaciónelmismoprocesode formación teóricay lecturaenel campodelingüística computacional, lo que facilitaba la discusión de conceptos y laaclaracióndedudas.A finales de 2013, ya culminado el proceso de lectura, se elaboró la

macroestructuradeunartículoquereflejaríaelestadodelartedelaLC,peroconunacaracterísticaespecial:unavisiónsobre laperspectivadeestametodologíaen y sobre lengua española. El proceso de escritura comenzó en 2014, conrevisióny retroalimentaciónconstantesporpartede losautores,en lasque loscomentariosyanotacionesibanyveníancapítuloporcapítulo;seculminóconlaescritura,yanodeunartículo,sinodeunlibro.La obra contiene en forma general los siguientes temas: definición de la

lingüística de corpus; definición, características y tipología de los corpus;historiadelaLC;usosdeloscorpuslingüísticos;creacióndecorpus,yrelaciónentrelaLCylalenguaespañola.La ideaesqueeste libropermita a estudiantes,profesores e investigadores

aproximarse de un modo sencillo y claro a la lingüística de corpus, con elpropósitodecomenzaraemplearlaenlasinvestigacioneslingüísticasenelpaísyenLatinoamérica,ademásdepensaryconstruircorpusrepresentativosdelasdiferentes variedades del español e incluso de las lenguas aborígenesamericanas.Estudiar la LC y construir corpus es una tarea que no solamente atañe a

lingüistas. Es una labor interdisciplinaria que permite construir conocimientodesdediversasperspectivasyqueinclusoinvolucraaentidadesgubernamentalese industriales; gubernamentales, demanera que posicionen el país y la lenguaespañola, dadas sus características culturales y demográficas, por medio de

Page 9: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

recursos lingüísticos como los corpus y con recursos académicos como laproduccióncientífica,resultadodeinvestigacionesbasadasenLC,eindustriales,encuantoalanecesidaddecrearherramientasinformáticas,materialdidácticoydiccionarios,entreotros,basadosenlingüísticadecorpus.Paracerrar,cabetenerenmenteelenunciadodeMarCruzPiñol:“Eltrabajo

concorpusrepercuteenlasaplicacionesdelalingüística,enlametodologíadelainvestigación y en los propios fundamentos teóricos del estudio del lenguaje”(2012,p.28).Esperamosquetraslalecturadelpresentelibro,todolectorpuedareconocer el impacto que esta metodología tiene, y aplicar sus principios ainvestigacionesveniderasyconstruccionesdecorpusfuturos.

1.Flórezetal.,1982.

2.GonzálezyOtálora,1986.

3.Montesetal.,1998.

Page 10: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

Definicióndelalingüísticadecorpus

¿Qué es la lingüística de corpus? Autores como Geoffrey Leech (1991)argumentanquelaLCesunateoríalingüísticaconbaseentecnologías,mientrasqueTonyMcEnery (2001)dejade ladoestaconcepción teóricadel lenguajeyoptapordefinirlacomounametodologíaparaelanálisisdelalengua,definiciónaceptadaenelmundoacadémicostrictosensu.LabibliografíasobreLCesamplia,especialmenteenloqueserefierealas

produccionesenlenguainglesa;enelcasodelespañolyenLatinoamérica,ChileesunodelospaísesquemástrabajoshanrealizadoenLC.Venegas(2010,p.26)yParodi(2010,p.14),investigadoreschilenos,coincidenenquelalingüísticadecorpusconstituyeunconjuntodeprincipiosmetodológicosapoyadosentécnicasestadísticasycomputacionalesparaestudiardatosrealesdelalengua.Ennuestrocaso,partimosdequelalingüísticadecorpusesunametodología

que se encarga de sistematizar y analizar conjuntos extensos de datos orales,escritosovisualesdeunaovariaslenguas,ordenadosconcriterioslingüísticos,literarios, culturales y sociales, con el propósitodedar cuentade la lengua enuso,valiéndosedeherramientascomputacionalesyestadísticasque facilitanelacceso,almacenamientoyanálisisdelosdatosdesdeconcepcionesdiversas.LaLCbasasuaplicaciónenlosiguiente:

Lalenguaenusocomoinsumo(corpusconformadospormuestrasrealesdelenguaoraloescrita).Elanálisissistemáticodelalengua(análisisqueseajustaaunconjuntodereglasestrictasderecolección,almacenamientoyanotación).Laposibilidaddetrabajardesdeunenfoquecualitativoocuantitativoenunainvestigación(porejemplo,desdelasobservacioneseintuicionesdelos investigadores y desde resultados cuantificables, como listas depalabras).

Dadas estas tres características, la LC toma gran fuerza cuando elfuncionalismolingüístico,comoreacciónalgenerativismo, leda importanciaalafuncióncomunicativaysocialdellenguajeynosecentra—talcomolohacíael generativismo— en un solo aspecto, como la sintaxis o la explicación de

Page 11: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

estructuras y principios del lenguaje desde la perspectiva de adquisiciónindividual4.GiovanniParodicomentaalrespecto:

Algunos de estos aspectos resultaron descuidados desde los estrechos límites delestructuralismosaussureanoydelgenerativismochomskiano,debido―enparte―aqueelusode la lengua (paroleo actuación, segúncorresponda) era consideradodemasiadocambiante eimpredecible y, por consiguiente, inadecuado como objeto de ciencia. Desde la LC, con eldespuntardelmediosigloXX,sonmuchosloslingüistasqueanhelanindagarelusolingüístico,tal como es producido, comunicado y comprendido entre hablantes/escribientes yoyentes/lectoresrealesyensituacionesconcretasyparticulares(2008,p.97).

Además,laLCcomienzaadarlesgranvalornosoloalalenguaescritasinotambién a la lengua oral, puesto que su materia prima es la lengua en uso.Adicionalmente, la inclusión de técnicas estadísticas y de herramientascomputacionalesparaelprocesamientoyelanálisisde la informaciónhacedelosdatosevidenciacientíficamuchomásobjetiva,puessepasade la intuicióndel investigador como única partida al análisis y la explotación de datoscuantificables, lo que lleva a la posibilidad de unir técnicas cuantitativas ycualitativas;estopermitetenerunacercamientoyhacerunanálisismásampliodelosdatos,yaquepuedecubrirvariosaspectosdelalengua,desdeloformalhastalosocial.Algunas disciplinas pueden usar la lingüística de corpus, desde diversos

enfoquesyconaproximacionescuantitativasycualitativas;ejemplodeestosontrabajos como Metaphor in Discourse, de Elena Semino (2008); A UsefulMethodological Synergy? Combining Critical Discourse Analysis and CorpusLinguistics toExamineDiscoursesofRefugeesandAsylumSeekers in theUKPress, de Paul Baker (2008); British Sign Language Corpus Project, delEconomic and Social Research Council (2008), y Corpus Method andDiagnosticQuestionnaireforChronicPain,deElenaSemino(2013),enlosquese demuestra cómo se puede llegar a conclusiones pormedio del lenguaje enáreas como el análisis del discurso, la política, la economía e incluso lamedicina.Lasbasesdeaplicacióndeestametodología,quealavezseconstituyenen

ventajas,sonlassiguientes:

Prioridadalalenguaenusoescritayoral.Aproximaciónalosdatosdeunamaneracuantitativaycualitativa.Herramientaaptaparadiferentesdisciplinas.

A propósito del tema,TonyMcEnery (2014) establece, en su curso virtual

Page 12: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

CorpusLinguistics:Method,Analysis,Interpretation,queel trabajoconcorpuspermite tomar como base grandes cantidades de datos, lo que muestra lastendenciasdelalenguaenuso;revelafenómenosocasosqueseríandifícilesdeencontrar a simplevista opor intuición, e igualmente facilita la investigación,puesto que las herramientas computacionales ahorran tiempo y son bastanteprecisas.La lingüística de corpus no siempre fue una metodología de fácil

implementación.En los años cincuenta y sesenta, por ejemplo, la recolección,sistematización, anotación y análisis de datos lingüísticos demandabanmuchotiempoycapitalhumano,porvariasrazones:losprocesosdebíanllevarseacabomanualmente,elpapelpodíadañarseconfacilidad,eranecesariotenerampliosespaciosparaarchivarlosdocumentosyunordenestrictoparanoconfundirlos,losinvestigadoresdebíancontarunaporunalaspalabrasdelostextosparasaberdequématerialdisponían,ademásdequeteníanqueanalizarcadadatoparaasídeterminar las características semánticas, sintácticas y morfológicas de cadatérmino5.Peroconlallegadadelaeratecnológica,loscomputadoresylosprogramas

informáticos se pusieron a disposición de la LC, de tal manera que laconstrucciónylaexplotacióndecorpusseconvirtieronenprocesosmásrápidos,segurosyconfiables.PorestolaLCseconcibeenlaactualidadcomolingüísticadecorpuscomputacional, y aunqueno seuse en el nombre constantemente lapalabra“computacional”,sedaporsentadoquesehabladecorpusdigitales,nosolo por el modo en que están almacenados y presentados, sino porque loscomputadores, los sistemas informáticos, los softwares y hasta la web seconvirtieronenelementosbásicosparalasinvestigacionesbasadasencorpus.Es común encontrar los términos lingüística de corpus computacional y

lingüísticacomputacionaldecorpus,yesmáscomúnaúncreerqueserefierenalomismo,ysibienestánaltamenterelacionadosyambaslingüísticashacenusolaunadelaotra,sontérminosdiferentes.Porunlado, la lingüísticadecorpuscomputacional tomaherramientas computacionales (hardwareysoftware) paraconstruiryexplotarcorpus,mientrasquelalingüísticacomputacionaldecorpustoma los corpusdesarrolladospor la lingüística de corpus computacionalparaasí estudiar el lenguaje natural y crear modelos lógicos aplicados a variosprogramasinformáticos, loscualespermitenque lasmáquinaspuedanprocesarlenguaje natural y formar parte de situaciones comunicativas, como losprogramasdereconocimientodevoz,deprocesamientodetextoylatraducciónautomática.Esasícomopodemos lograrque teléfonosmóvilesejecuten tareas

Page 13: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

por medio del reconocimiento de voz o que nuestros computadores corrijanautomáticamentelostextosqueescribimos.Además de cumplir como herramienta para diversas disciplinas, existen

también enfoques disponibles para el trabajo con corpus6. Tognini-Bonelli(2001)losdenominacorpus-based (basadoencorpus)ycorpus-driven (guiadoporcorpus).GiovanniParodiplantealasiguienteexplicación:

enelprimercaso,elobjetivoeselmanejodeunmétodo(“basadoencorpus”)quepermitaponer a prueba categorías o ejemplificar teorías y descripciones ya formuladas […] En elsegundocaso,ellingüistabuscairmásalládelosejemplosparadarsustentoasusargumentos;así,desdeelenfoque“guiadoporelcorpus”delalingüísticadecorpus, lateoríanoexistedemaneraindependientedelaevidencia(2010,p.47).

En otras palabras, en una aproximación basada en corpus el investigadorconoce la teoría, tiene hipótesis y lo que busca es validarlas o rechazarlasmediantelosdatosdelcorpus,entantoqueenlasegundaopción,enelenfoqueguiado por corpus, es la observación de ciertos patrones o fenómenosencontradosenuncorpuslaquellevaalaformulacióndeunaovariashipótesis,loquenosignificaqueunainvestigaciónnopuedavalersedeambosenfoques.En general, la LC es una herramienta que permite recopilar, almacenar y

explotar grandes cantidades de textos con información lingüística natural;además,ponealinvestigadorenelpapeldeobservadoryanalistadedatos,yleda la posibilidad de valerse de herramientas informáticas que arrojaninformación sobre patrones lingüísticos (colocaciones, frecuencias,concordancias, etc.7), el enriquecimiento de los textos con información extra(procesosdeanotación8)yelanálisisdemúltiplesparámetrosalmismotiempo.Aunque los corpus no representan la lengua en su totalidad ni explican losfenómenoslingüísticos(tareadelosinvestigadores),sícontienendatosobjetivosque permiten la descripción de la lengua en uso, el análisis sistemático y laposibilidaddetrabajardesdediversasdisciplinas.

4.Véaseelapartado“Historiadelalingüísticadecorpus”paraprofundizarenlarelacióndelaLCyelfuncionalismolingüístico.

5.Sibienesciertoqueenlaactualidadaúnsehacenanálisisyanotacionesmanualesencorpuspequeñosypordecisióndelosinvestigadores,lamayoríadeloscorpus—enespeciallosdegrandesdimensiones—sevalendeherramientasinformáticasylógico-matemáticasparallevaracaboestosprocesos.

6.Parainformacióndetalladasobreelconceptodecorpus,véaseelapartadoDefinicióndecorpus.

7.VeáseGlosario.

8.Ibid.

Page 14: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

Definicióndecorpus

Según el Diccionario de la lengua española (Real Academia Española,2001),uncorpuscorrespondeaun“Conjuntolomásextensoyordenadoposiblede datos o textos científicos, literarios, etc., que pueden servir de base a unainvestigación”. A partir de esta definición, diferentes recopilaciones de textospodríandenominarsecorpus,cualquierconjuntodedatosserviríacomomateriallingüísticoparaunainvestigación,porloquedichomaterialarrojaríaresultadosconfiables; pero esto, en términos prácticos, no es correcto; en tal sentido, esnecesarioaclararqueexistentrestiposdecoleccionestextuales:

Elarchivo(informatizado).Labibliotecadetextos(electrónicos).Elcorpus.

El archivo informatizado tiene como objetivo principal la conservación dematerial.Estaprimeracolecciónhacereferenciaaunoomásconjuntosdetextosensoportedigital,concaracterísticasdiversas, incluyendofechas,estructurasytemasvariados9.Porsuparte,labibliotecadetextoselectrónicos10correspondea una o varias colecciones de textos digitales, almacenados en un formatoestándar y organizados según áreas del conocimiento humano11 para su fácilacceso;yporúltimo,uncorpusinformatizadoserefiereaunconjuntodetextosenformatodigital,aligualquelosanteriores,perorecolectados,almacenadosysistematizadosdeacuerdoconcriterioslingüísticos.Lo que diferencia principalmente un corpus de otras colecciones de textos

sonloscriteriosdeselecciónysistematización,loscualessevenreflejadosenlainformación que acompaña los datos lingüísticos. Los criterios pueden serexternos e internos. Los externos corresponden a información paratextual, esdecir,datosquehacen referenciaalmarcoenelqueel texto seproducecomoforma de comunicación, conocidos también comometadatos12, entre los queestánlosnombresdelosautoreseinformaciónsobrelasituacióncomunicativa,el nivel social de los participantes, el año de producción, etc. Estos datosfacilitanlastareasderecuperacióndelainformación.

Page 15: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

Figura1.CorpusdelasInvestigacionesdelInstitutoCaroyCuervo.

Los datos internos, por su parte, se refieren a elementos lingüísticos(morfemas, fonemas, lexemas o cualquier unidad o categoría lingüística),fenómenos lingüísticos en cualquier nivel de la lengua, tales como yeísmo,seseo, dequeísmo, apócope, metonimia, onomatopeya, etc., o patroneslingüísticos13quecorrespondenaestructuras lingüísticasyparalingüísticasqueutilizamos para organizar el discurso, inmersas dentro de los textos. Aunqueexistenautoresqueconsideranqueloscorpussolodebenserobjetodeanálisisensímismos,estáclaroqueunadelasventajasdeaproximaciónconcorpusesque permiten la inclusión de diversas disciplinas14, tales como lasociolingüística, la pragmática, la fonética, el análisis del discurso y lasemántica, lo que hace posible enriquecer los corpus mediante el uso decategoríasprovenientesdevariasáreasdelconocimiento.A la vez, los corpus están divididos en subcorpus y componentes. Los

subcorpusson lasdivisionesqueseefectúandentrodelcorpusengeneral;porejemplo,uncorpusdenominadoCorpusdelasInvestigacionesdelInstitutoCaroy Cuervo (figura 1) podría contar tanto con el Subcorpus Oral de lasInvestigacionesdelInstitutoCaroyCuervo,comoconelSubcorpusEscritodelas Investigaciones del Instituto Caro y Cuervo. Además, los corpus—y, porende, los subcorpus— están formados por componentes, los cuales hacenreferenciaacoleccionesdemuestrasdelalenguaodetextosquecompartenuncriteriolingüístico;porcitaruncaso,unavariedadcomoElespañolhabladoen

Page 16: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

BogotápodríaseruncomponentedelCorpusdelInstitutoCaroyCuervo.Las definiciones que se encuentran de corpus son diversas. En este caso

haremos un recorrido por algunas, para así determinar las características másrelevantes de los corpus y articular nuestra propia definición. Por ejemplo,Francis, Kučera & Mackie definen corpus como “[...] a collection of textsassumed tobe representativeof agiven language,dialect,orother subsetof alanguage to be used for linguistic analysis” (1982, p. 7). Estos autores exigenque la colección de textos sea representativa. En palabras de Biber, larepresentatividad15“referstotheextenttowhichasampleincludesthefullrangeof variability in a population” (1993, p. 243), dejando claro queun corpus nopretendedarunavisióntotaldeunaovariaslenguas,sinoquebuscaofrecerunamuestradeellas,odeunavariedaddeterminada,quepermitainvestigacionesoestudios basados en datos objetivos. Al ser los corpus representaciones ymuestrasrealesdeunalengua,puedenvalidar,ejemplificarodarpieadiferentesteoríasohipótesis.Una segunda definición dada por Sinclair hace especial énfasis en que los

textos que conforman los corpus se deben producir en situaciones reales, esdecir, deben ser textos naturales16: “[...] a corpus is a collection of naturally-occurringlanguagetext,chosentocharacterizeastateorvarietyofalanguage”(1991, p. 171). La tercera definición hace referencia a que la recolección,organizaciónysistematizacióndelosdatosestándadasporcriteriosespecíficos;así lodejaverMercadoensudefinición:“Coleccióndetextos,reunidossegúnunos criterios precisos, eventualmente estructurados y enriquecidos coninformaciónadicional,envistadeunaexplotaciónteóricaopráctica”(2008,p.7).Encontramos una última definición de corpus: “[...] recopilación de textos

seleccionados según criterios lingüísticos, codificados de modo estándar yhomogéneo, con la finalidad de poder ser tratados mediante procesosinformáticosydestinados a reflejar el comportamientodeunaomás lenguas”(Torruela&Llisterri, 1999a, p. 7). Llama la atención que parte de la anteriordefinición corresponde al carácter computacional del corpus, ya que debido altamañodeloscorpusactualesserequierequesualmacenamientoseaenmediosdigitalesyqueeltratamientoyelanálisisdelainformaciónsehaganmedianteprocesos informáticos. Por ende, la cuarta característica corresponde a lanaturalezacomputacional.En términos generales, las características que permiten la definición de

corpus17sonlassiguientes:

Page 17: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

Muestrarepresentativadelalengua.Textosproducidosensituacionesreales.Criteriosexplícitosdeorganización.Naturalezacomputacional.

Colecciones de textos como el International Corpus of English18, BritishNational Corpus19, crea20, Corde21, Corpus del español22 o el British SignLanguageCorpus23 corroboran en la práctica las características anteriormenteenunciadasysustentanqueuncorpusesunconjuntoextensodedatosescritos,oralesovisuales tomadosde textosnaturalesy representativosdeunaovariaslenguas,ordenadosconcriterioslingüísticos,literarios,culturalesysociales,loscualesdancuentadelalenguaenuso;almacenados,sistematizadosyanalizadosconlaayudadeherramientascomputacionales.

9.ParamásinformaciónsobreelconceptodeArchivo,revisarC.Martín(2009).Temasdebiblioteconomía:conceptoyfuncióndearchivo.Clasesdearchivos.Elsistemaarchivísticoespañol,yparaArchivodigital,revisar:C.Lacombe(2011).Archivosdigitales.

10.VéaseartículoA.SorliyA.Merlo(2000).Bibliotecasdigitales(I):coleccionesdelibrosdeaccesopúblico.

11.Lasáreasdelconocimientohumanocorrespondenaladivisióndelconocimientoenmaterias.ElsistemadeclasificacióndelconocimientomásusadoenlasbibliotecaseseldenominadoClasificaciónDecimalUniversal(CDU),propuestoporMelvilDewey.Lasáreasqueproponesonobrasgenerales,filosofíaypsicología,religión,cienciassociales,cienciaspuras,cienciasaplicadas,arte,lenguayliteratura,ygeografíaehistoria.

12.Términodesarrolladoenlosapartados“Característicasdeuncorpus”y“Diseñoyelaboracióndecorpus”.VéaseelGlosario.

13.Paramásinformaciónsobrepatroneslingüísticos,véaseV.Soler(2007).PatroneslingüísticosparalabúsquedadeinformaciónconceptualenelcorpustextualespecializadodelacerámicaTXTCerama.

14.Véaseelapartado“Usosdeloscorpus”.

15.Paramásinformaciónsobrerepresentatividad,véaseelapartado“Característicasdeuncorpus”.

16.Lostextosnaturaleshacenreferenciaatextosproducidosensituacionescomunicativasreales,esdecir,conversaciones,emisionesderadio,artículoscientíficos,novelas,etc.Parainformaciónmásdetallada,véaseelapartado“Característicasdeuncorpus”.

17.Paraobtenerinformaciónmásdetalladasobrelascaracterísticasdeloscorpus,véaseelapartado“Característicasdeuncorpus”.

18.http://ice-corpora.net/ice/.

19.http://www.natcorp.ox.ac.uk/.

20.http://corpus.rae.es/creanet.html.

Page 18: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

21.http://corpus.rae.es/cordenet.html.

22.http://www.corpusdelespanol.org/.

23.http://www.bslcorpusproject.org/.

Page 19: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

Característicasdeuncorpus

Lascaracterísticasquedefinenuncorpusy lodiferenciandecualquierotracolección de textos son cualidades que actúan entre sí de maneracomplementariayquepermitenconocerlasposibilidadesquetraelaLCparalainvestigaciónlingüística.Asílascosas,sepuededecirque24:

1. Uncorpusesunamuestradelengua25.Loscorpussonporcionesdelenguasodevariedadeslingüísticascapacesderepresentarsustendenciasocaracterísticas.Uncorpusnopuedemostrarlatotalidaddeunalengua,puestoqueesimposiblerecolectartodaslasproduccionesrealizadasenunidioma,perosíesposiblealmacenartextosqueevidencienelcomportamientodeunalenguayqueseconstituyancomoreferencia.

2. Lasmuestrasdeuncorpussonreales26.Loqueuncorpusbuscaesserunafuenteconfiable,condatosquepermitanelestudiodelalenguanatural.Poresto,lostextosquecomponenuncorpus,yaseanorales,escritosovisuales,sedebenproducirensituacionescomunicativasnaturalesyconunpropósitocomunicativoauténtico,aunqueparalacreacióndealgunoscorpusseregistranmuestrasdelenguadepersonasconcaracterísticasespecíficasdeedad,sexoyprofesión,entreotras,osellevanacaboactoscomunicativosdelimitadosapartirdeuntemaodeuncontextodeterminado,einclusoenotroscasossehacenpruebasmonitoreadas,enlasqueelinvestigadorpidelalecturadeenunciados,palabrasosonidos,ylosgrabamientrasdetectayanalizalosfenómenosproducidos.

3. Loscorpusrelacionanlateoríaylosdatos27.Sibienloscorpussonconjuntosdetextossinconceptos,explicacionesodefiniciones,síseconstruyenconcriteriosespecíficosyteniendoclarodedóndesetomanlostextosyporquésehaelegidoestaprocedencia;porejemplo,uncorpusdereferenciadelespañol,aunquecompuestopordiferentesgéneros,seencuentraestructuradodeacuerdoconcriteriosespecíficostextuales,diatópicosysincrónicos,entreotros,loquehacequese

Page 20: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

conviertaenunmodelodelarealidaddelalengua.Estemodelosesustentaenprocesosestadísticos28quepermitenquelosdatosdibujenycorroborenlaestructurayelfuncionamientoqueenlateoríasetiene.

4. Brindaninformaciónadicional29.Unadelascaracterísticasdeloscorpusesquenosolamentecuentanconlostextosquelosconforman,sinoqueademásposeeninformaciónadicionalqueenriquecelosdatos.Diríamosquehayinformacióndedatosexternoseinternosyanotación.Lainformacióndedatosexternoseinternoscorrespondealosmetadatos,informaciónqueidentificalaprocedenciaylascaracterísticasdelostextos,yasuvezpermitehacerbúsquedasespecíficasdentrodeuncorpus;vandesdeelnúmerodehablantes,elañodeproducción,latipologíatextual,hastaladuración,entreotros.Porsuparte,losdatosinternospuedencorresponderainformaciónsobreelaspectofísicodeldocumento,comolaestructura.

5. Laanotacióncorrespondealainclusióndedatosquebuscanenriquecerelcorpusconinformaciónlingüísticaadicional;esasícomocadaelementodeuncorpuspuedetenerunaetiquetaenlaqueseexpliquensuscaracterísticasfonéticas,morfológicas,léxicas,etc.Laanotaciónnoesunacaracterísticaprimordialdeuncorpus,puestoqueexistencorpusnoanotadosoplanos,peroestainformaciónadicionalpermitehacerbúsquedasmásespecíficasdentrodeloscorpus.

6. Facilitanlaextraccióndedatoshomogéneosycuantificables30.Granpartedelacualidadcuantitativadeloscorpusestádadaporelcomponentelógico-matemáticoutilizadoenlosprocedimientosparaelanálisisdelainformación.Loscorpussonunamuestradelalenguareal,einclusoelnúmerodeaparicionesdefenómenoslingüísticosseconstituyeeninformaciónrelevantequesepuedegeneralizarparalalenguaolavariedad.Algunainformacióndistribucionaloestadísticaquesepuedeextraerconlosprocedimientoslógico-matemáticossonlasfrecuenciasdeocurrencias,referidasalafrecuenciadeaparicióndemorfemas,palabras,expresionesopatronesgramaticales,entreotros,ydecoocurrencias,referidasalafrecuenciadeaparicióndeestoselementosdentrodeuncontextoespecífico;porejemplo,lalocuciónapesarpuedeaparecerdemanerafrecuenteacompañadaporlapreposiciónde,loquedacomoresultadolaexpresiónapesarde.

Page 21: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

7. Tienenvariasposibilidadesdecomposición31.Loscorpuspuedenestarcompuestospormaterialesorales,textualesomultimodales;estosúltimossonaquellostextosquerecogenmodalidadesvariadasdecomunicación,comoellenguajedeseñas,lasgrabacionesenvideodesituacionescomunicativas,expresionesfaciales,etc.Uncorpuspuedeconteneruno,dosomástiposdetextos;estoes,haycorpusquesonoralesocorpusqueestáncompuestosportextosoralesyescritosoporvideosytextos.Ademásdelacomposicióndeuncorpusdeacuerdoconelmediodeproducción,tambiénesvariadasucomposiciónsegúnlaextensióndelasmuestras.Partiendodelasnecesidadesyobjetivosdelacreacióndelcorpus,lostextosqueestecontienepuedensermuestrascompletas,comounlibroenteroofragmentos,estaelecciónserealizacuidandotambiénlosparámetrosdeequilibrio32.

8. Sutamañopuedevariar33.Noexisteunnúmeroexactodepalabrasotextosquedetermineeltamañoperfectodeuncorpus.Eltamañoestádadoporlosobjetivosdelcorpus,lasnecesidadesdecadainvestigaciónylosrecursoselectrónicosdelosquesedispongaparaelalmacenamientodelcorpus.Sibienesciertoqueunacantidadmayordedatospermitepotencialmenteabarcarunaporciónmayordelalengua,loqueenverdadimportaesqueeltamañoestépensadoconbaseenmuestrasdiversificadasybalanceadas,puesuncorpusquenosearepresentativosirvedemuypoco34.

9. Sonrepresentativosydiversos35.Sedicequeuncorpusesrepresentativo,puestoquepormásgrandequeseanopuedecontenertodaunalenguaovariedad,perosípuederepresentarla.Larepresentatividadserefierealacapacidadquetieneuncorpusparacomportarsecomounmodelodelalengua,mostrandosuspartesysustendencias,constituyéndoseasícomounareferencia.

10. Hablarderepresentatividadpuedetenderalasubjetividad,puesdependiendodelaexperiencialingüísticadecadapersonapuedeseronorepresentativo;porestohayqueestarmuyatentosalosobjetivosquetienelaconstruccióndelcorpusyalavariedadolenguaquesebuscarepresentar.Paraabandonarunpocolavisiónsubjetivadeestacaracterística,tambiénsepuedeecharmanodedatosestadísticos;graciasaquelarepresentatividadestámuyligadaalequilibrio36esposibledecidirelporcentajedelostextosquecomponenelcorpus,deacuerdo

Page 22: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

conlarealidad.Porejemplo,sisequierecrearuncorpusdelespañoloraldeBogotá,deberíanrecogersemuestrasdetodaslaszonasdelaciudadproporcionalesalapoblacióndecadazona.

11. Paraqueuncorpussearepresentativotienequeser,asuvez,diverso;esdecir,elcorpusdebecontenerregistrosocategoríastextualesvariadas,clasificacionesinternas,yaseantemáticas,degénero,disciplinaocualquierotracategoría;deestamanera,seaseguraqueseabarqueunampliosegmentodelalengua,sealcanceunmayorgradoderepresentatividady,porende,resultadosmásconfiablesygeneralizables.Además,enmuchosestudiosbasadosenlingüísticadecorpuslacomparaciónesimportante,yaquepermiteencontrarpatrones,rasgoscomunesorasgosdistintivosyestascomparacionessonposiblesgraciasaladiversidadderegistrosdentrodeunmismocorpus.

12. Debentenderalequilibrio37.Conequilibrionosreferimosarecogermuestrasproporcionalesentresaspectos:representatividad,variedadytamaño.Representatividadencuantoaquelasmuestrasdebenserreflejodelasvariedadesqueseencuentranenlalenguareal,porejemplosiestamosconstruyendouncorpusoraldereferenciadelespañoldeColombia,noseríaconsecuenteconestacaracterísticaqueelcorpuscontuvieraun60%demuestrasdeconferenciasacadémicasyun40%demuestrasdeconversacionesespontáneas,primeroporqueenlarealidaddelalenguanoseproducenmásconferenciasqueconversacionesespontáneas,ysegundoporquetambiénafectaríamoselsegundoaspecto,eldevariedad.Paraqueuncorpusseaequilibradoenlasvariedades,esclavequeexistaunaporciónsimilardetextosencadaregistroogéneroqueconformaelcorpus,estoes,queelporcentajedeprensaseaparecidoalporcentajedeliteraturay,asuvez,aldetextosacadémicos.Paraseguirenlalíneadelequilibrio,tambiénesconvenientequelasmuestrasseandeigualosimilartamaño,loquesignificaquelamayoríadelostextoscontenidosenelcorpusdebentenerunalongitudparecidaounnúmerosemejantedepalabras.

13. Cuandouncorpusesequilibrado,esposibleexplotarlodesdemuchosmásenfoquesyparadiferentestrabajos;además,facilitalacomparaciónentreregistrosogéneros.Enciertoscasos,eltemadelequilibrioquedaenlateoría,yaquenoesfácilconstruiruncorpusdetalescaracterísticas.Cuandoestoocurre,esimportanteconocerendetallelacomposicióndel

Page 23: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

corpus,paraasíextraerdatoscuantitativosdeunmodocorrectoynopresentarconclusioneserróneas.

14. Suformatoesdigital38.Aunqueenlahistoriadelalingüísticadecorpushanexistidocorpusfísicosysehancreadoalgunospormediodeprocesosmanuales,enlaactualidadloscorpusseconcibendemaneradigital.Ladigitalizacióndeloscorpuspermitequeaumentesutamaño,puestoquelacapacidaddealmacenamientoesmáselevadaylosprocesosdesistematizaciónyanálisismássencillospuedensermanipuladosporunmayornúmerodepersonassinqueelcorpussufradaño,yelanálisisestadísticoylingüísticosepuedellevaracabomediantelaayudadeherramientascomputacionales.

15. Loscorpushandeserdefácilacceso39.Ladigitalizaciónayudatambiénaqueloscorpusesténdisponiblesparaungrupoampliodepersonas.ExistenalgunoscomoelCorpusdelespañol,deMarkDavies40,quesondelibreusoyseencuentranenlaweb.Otros,porejemplo,aunquecuentanconunaversiónonline,requierenunregistroprevio,peroigualpuedenutilizarse;enalgunoscasoshayquepagarparaaccederaellosyotrossimplementesonprivados.

16. Peroconfácilaccesonosolonosreferimosalcarácterpúblicooprivadodeloscorpus,sinoalafacilidaddeaccederalosdatospormediodediferentesprogramas,yaquenodemuchoserviríaelalmacenamientodemillonesdepalabrascuandoalaccederaellasnoselespuedeaplicarningunaformadeanálisis.Porejemplo,losprogramasdeconcordancias41permitenobtenerlistasdefrecuenciasdepalabrasoexpresionescondiferentescriterios,comoapariciónporlema,porcontexto,etc.,locualfacilitatambiénelaccesoalainformación.

Entérminosgenerales,uncorpusdebeconstituirsecomounamuestradelenguarealcondiferentesposibilidadesdecomposiciónquerelacionalateoríaylosdatos,brindainformaciónadicionalalaexplícitaenlostextos,facilitalaextraccióndedatoshomogéneosycuantificables,noserigeporuntamañoestándarestablecido,esrepresentativoydiverso,tiendealequilibrio,esdigitalydefácilacceso.Estascaracterísticashacendeloscorpusfuentesdedatosaptasparainvestigacioneslingüísticas.

Page 24: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

24.LaeleccióndeestascaracterísticasestánsustentadasenlosparámetrosdeEagles(1996)ydeParodi(2008),quienestambiénproponenunascaracterísticasespecíficasparaqueuncorpusseconsiderecomotal.Ademásdeesto,cadacaracterísticacuentaconelapoyodeautoresqueensumomentohanhabladosobredichascualidades.

25.AutorescomoMcEnery&Wilson(2012)yParodi(2008)hablansobreestacaracterística.

26.AutorescomoParodi(2008),McEnery&Wilson(2012)yVenegas(2010)serefierenaestacaracterística.

27.AutorescomoVenegas(2010),Torruela&Llisterri(1999)yGries(2009)hablansobreestacaracterística.

28.Véaselacaracterísticanúmerocincodeestemismoapartado:“Facilitanlaextraccióndedatoshomogéneosycuantificables”.

29.AutorescomoParodi(2008),Rafel&Soler(2003),Gries(2009)thisarticleserefierenatalcaracterística.

30.AutorescomoGries(2009),McEnery&Wilson(2012),Torruela&Llisterri(1999)yRojo(2008)hablansobreestacaracterística.

31.AutorescomoParodi(2010)hablansobreestacaracterística.

32.Véaselacaracterística9deestemismoapartado:“Debentenderalequilibrio”.

33.AutorescomoParodi(2010),Rojo(2008)yLeech(1991)hablansobreestacaracterística.

34.Véanselascaracterísticas8y9deestemismoapartado:“Sonrepresentativosydiversos”y“Debentenderalequilibrio”.

35.AutorescomoMcEnery,Xiao&Tono(2006),Hrušková(2008),Gries(2009),Mercado(2008),McEnery&Wilson(2012),Procházková(2006),Rafel&Soler(2003)yParodi(2008y2010)hablansobreestacaracterística.

36.Véaselacaracterística9deestemismoapartado:“Debentenderalequilibrio”.

37.AutorescomoGries(2009)yBaquero(2010)hablansobreestacaracterística.

38.AutorescomoMcEnery&Wilson(2012),Parodi(2010),Rojo(2008),Venegas(2010)yRafel&Soler(2003)hablansobreestacaracterística.

39.AutorescomoMcEnery&Wilson(2012)yLeech(1991)hablansobreestacaracterística.

40.http://www.corpusdelespanol.org/.

41.Losprogramasdeconcordanciascorrespondenaherramientascomputacionalesdeanálisistextual,quegeneranlistasdeocurrenciasdepalabrasquegeneralmentevanjuntas.AlgunosprogramassonAntConc,WConcordyMicroConcord.

Page 25: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

Tipologíadeloscorpus

Lacreacióndeuncorpusrespondeadiferentesobjetivosofinalidades,comopor ejemplo obtener información sobre una lengua en general, un periodo detiempo específico, una variedad lingüística, cambios en la lengua, un géneroliterario o un tema, entre otros. Estos objetivos o finalidades determinan loscriteriosdeconstrucción,yporendeseconstituyenenlosprincipalesparámetrosparaestablecertipologíasdecorpus.Hablamosde tipologíasynode tipologíaporque en realidadno existeuna

solaclasificaciónestablecida.LlisterriyTorruela(1999)presentanunatipologíasegúnelporcentajeyladistribucióndelostiposdetexto,segúnlaespecificidaddelostextos,segúnlacantidaddetextoqueserecogedecadadocumento,segúnla codificación y la anotación y según la documentación que acompaña lostextos.Procházková(2006)habladecorpusorales,corpusmultimodales,corpusde textos, corpus sincrónicos, diacrónicos, monolingües, multilingües, corpushistóricos,dereferencia,monitoresydialectales.Porsuparte,MilkaVilayandre(2006)establecelatipologíadecorpusapartirdesieteparámetrosprincipales:lamodalidad de la lengua, el número de lenguas a que pertenecen los textos, eltamaño o cantidad de textos que conforman el corpus, el carácter abierto ocerradodel corpus, lavariedad lingüísticaoelgradodeespecializaciónde lostextos, el período temporal que abarcan los textos y el tratamiento aplicado alcorpus.A su vez,Mercado (2008) propone una tipología de los corpus segúnporcentaje de distribución de los diversos tipos de textos que los componen,especificidaddelostextos,cantidaddetextosquerecogen,tipodecodificaciónyanotacionesañadidasaltexto,ycontenido.Si bien todas las tipologías anteriormente enunciadas son válidas y logran

representar los tipos de corpus existentes, en el presente texto incluimos lastipologías enunciadas en una propuesta propia, en la que se articulan variascaracterísticasyseprofundizaendiversosrasgos.Acontinuaciónsepresentalapropuestadetipologíadecorpussegúnsietecriteriosdeclasificación:mediodeproducción de los textos, número de lenguas, especificidad de los textos,distribuciónde los textos, tamañode lasmuestrasrecogidas, informaciónextradelostextosydocumentaciónquelosacompaña.

Page 26: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

Tipologíadeloscorpus

Criteriodeclasificación Tipología Subnivel

Mediodeproduccióndelostextos

Corpusescrito

Corpusoral

CorpusparaladescripciónfonéticadelalenguaCorpusparaeldesarrollodetecnologíasdelhablaCorpusoral

Corpusmultimodal

Númerodelenguas

Corpusmonolingües

CorpusbilingüesCorpusbilingüecomparableCorpusbilingüeparaleloCorpusbilingüealineado

CorpusmultilingüesCorpusmultilingüecomparableCorpusmultilingüeparaleloCorpusmultilingüealineado

Especificidaddelostextos

CorpusgeneralCorpusespecializadoCorpusgenéricoCorpuscanónico

CorpuscronológicoCorpusdiacrónicoohistóricoCorpussincrónico

Distribucióndelostextos

CorpusgrandeCorpusequilibradoCorpuspiramidalCorpuscerradoCorpusabiertoomonitor

TamañodelasmuestrasrecogidasCorpustextualCorpusdereferenciaCorpusléxico

InformaciónextradelostextosCorpussimpleCorpusanotado

Documentaciónqueacompañalostextos

CorpusnodocumentadoCorpusdocumentado

Page 27: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

MediodeproduccióndelostextosSegún el medio de producción de los textos que componen un corpus se

puededecirqueexistencorpusescritoscomoelCorpusdiacrónicodelespañol(Corde)42, corpus orales como el Corpus oral de referencia del españolcontemporáneo43 y corpus multimodales como el British Academic SpokenEnglish(base)44.

Corpusescrito

Loscorpusescritos—tambiénllamadostextuales45—estánconstituidosportextosomuestrasdelenguaescrita.Esunodelostiposdecorpusmáscomunes,puestoquesurecolecciónesmássencillaencomparaciónconloscorpusoralesomultimodales,debidoaquemuchostextosyaestándigitalizados,ydenoserasí solo se requiere un proceso de escaneo por ocr46. Sus fuentes puedenprovenir de libros, revistas, prensa, artículos, textos de internet, entremuchosotros.

CorpusoralUn corpus de este tipo está formado por muestras de lengua oral, que

corresponden a señales de voz, transcripciones y, en algunos casos, a ambas.Podemosdividir los corpusorales encorpuspara ladescripción fonéticade lalengua;unodelosejemplosesTheChainCorpus47,corpusparaeldesarrollodetecnologías del habla como The CarnegieMellon Communicator Corpus48, ycorpusoralescomocolaoCorpusoraldellenguajeadolescente49.

CorpusparaladescripciónfonéticadelalenguaEstos corpus se constituyen a partir de grabaciones y transcripciones

fonéticasrealizadasencondicionesacústicasóptimas,ylamayoríadelasvecesconunapreparaciónpreviarespectoalcontenidodelasmuestras.Enestetipodecorpus las grabaciones pueden ser inventarios de los sistemas fonético-fonológicos de la lengua, frases aisladas, textos leídos, habla espontánea ygrabacionesdemediosdecomunicación.

CorpusparaeldesarrollodetecnologíasdelhablaElobjetivodeestoscorpusesayudareneldesarrollodeaplicacionesenel

ámbitodelastecnologíasdelhabla.Seconstruyendeacuerdoconlaaplicaciónque se está creando, se componen por la señal sonora y algunas veces portranscripcionesquepermitenlaelaboracióndemodelosestadísticosdellenguaje.Las muestras pueden provenir de sonidos aislados, inventarios de unidades

Page 28: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

fonéticas, grabaciones específicas con números generalmente utilizadas enprogramasdereconocimientodevoz,hablaespontánea,diálogosqueayudanadesarrollarserviciosautomáticosporteléfono,frasesdiseñadasconlaaparicióndeciertossonidosylogatomesopalabrassinsentido,perofonológicamentebienformadas.

CorpusoralEstetipodecorpusoralhacereferenciaalqueseorganizaporloregularcon

propósitos netamente lingüísticos. Se construye a partir de grabaciones demuestra oral o sus transcripciones, en un primer momento ortográficas. Elobjetivodeestoscorpusesreflejarunalenguaovariedadapartirdelosusosdela lengua hablada, ya sea discursos, conferencias, conversaciones, hablaespontánea,etc.ElCorpusoralysonorodelespañolrural(Coser)50puedeserunejemploclarodeestetipodecorpus.

CorpusmultimodalElmaterialque formapartedeestoscorpuscombinadosomásmediosde

producción, es decir, pueden estar constituidos por texto, sonido, imagen ovideo. De esta manera, los datos pueden contener información prosódica,kinésica,contextual,etc.Susfuentessonusualmentedocumentales,lenguajedeseñasyvideoconferencias,entreotras.

NúmerodelenguasUncorpuspuedecontenermuestrasdeunaomáslenguas,dependiendodel

objetivo que tenga. Según el número de lenguas, encontramos corpusmonolingües,corpusbilingüesycorpusmultilingües.

CorpusmonolingüeEl objetivo de este corpus es dar cuenta de una lengua o una variedad

lingüística.Portalmotivo, losdatosotextosqueloconformancorrespondenaunasolalengua.

CorpusbilingüeLoscorpusbilingüesrecogenmuestrasdedoslenguasquenonecesariamente

compartencriteriosdeselecciónoson traducciones.Dependiendodeestasdossituaciones,sepuedehablartambiéndecorpusbilingüescomparablesycorpusbilingüesparalelos.

Page 29: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

CorpusbilingüecomparableEl objetivo de un corpus de estas características es comparar el

comportamientodedoslenguasensituacionescomunicativassimilares.Porestorecogetextosparecidosyconcriteriosdeseleccióncompartidos.

CorpusbilingüeparaleloEnelcasodeestoscorpus,lostextosyanosolamentecompartencriteriosde

selección,sinoquecorrespondenatraduccionesenlasdoslenguas.Estoscorpussonmuyutilizadosenelcampodelatraducción.

CorpusbilingüealineadoEn un corpus bilingüe alineado encontramos, al igual que en un corpus

paralelo, los textos traducidos,perosupresentaciónsehacedemaneraque lostextos, párrafos y frases de una lengua aparezcan paralelos a los textostraducidos,loquefacilitaelanálisisylacomparación.Sondeespecialutilidadencontextosbilingües.

CorpusmultilingüeLos corpus multilingües contienen información de tres o más lenguas,

informaciónquenorespondenecesariamentealosmismoscriteriosdeseleccióno a la traducción de todos los textos en las diferentes lenguas. A su vez, loscorpusmultilingüessedividenencorpuscomparables,corpusparalelosycorpusalineados.

CorpusmultilingüecomparableContieneinformaciónsimilardetresomáslenguas,querespondenacriterios

deselecciónparecidosperoquenosontraducciones.

CorpusmultilingüeparaleloEstacoleccióncorrespondeatextosconlosmismoscriteriosdeseleccióny

traducidosentresomáslenguas.

CorpusmultilingüealineadoFuncionadelamismamaneraqueuncorpusbilingüealineado,soloquelos

mismos textos o traducciones se encuentran en tres o más lenguas. Sonmuyútilesencontextosmultilingües,comolaUniónEuropea.

EspecificidaddelostextosDe acuerdo con la especificidad de los textos que componen un corpus se

Page 30: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

puede decir que existen corpus generales, corpus especializados, corpusgenéricos,corpuscanónicosycorpuscronológicos.

CorpusgeneralUn corpus general recogemuestras diversas y equilibradas, para así poder

representar una lengua o variedad en su totalidad y en las situacionescomunicativasmásfrecuentes.

CorpusespecializadoSu objetivo es representar un tipo particular de lengua o un sublenguaje,

comoellenguajemédico,eldeniñosde4a10añosoellenguajecientífico.

CorpusgenéricoEl objetivo de este tipo de corpus es aportar datos para la descripción y

comparacióndeungénero textualespecífico frenteaotros,motivoporelcualrecopilatextospertenecientesaunsologénero:poemas,ensayos,novelas,etc.

CorpuscanónicoUncorpuscanónicorecogetodoslostextosproducidosporunmismoautor,

sinimportarelgénerooregistro;deestemodo,eselautorquiendeterminalostextosqueconfiguranelcorpus.

CorpuscronológicoEsta clase de corpus determina su principal parámetro de conformación a

partirdecaracterísticas temporales,conelobjetivodeestudiar la lenguaounavariedad dentro de un periodo específico. Entre los corpus cronológicosencontramosloscorpusdiacrónicosohistóricosyloscorpussincrónicos.

CorpusdiacrónicoohistóricoLoscorpusdiacrónicossirvencomofuenteparalaobservaciónydescripción

deloscambiosdeunalenguaovariedadatravésdeperiodoslargosysucesivos.Porestorecogentextosqueabarquensiglos,porejemplodatosdelespañoldesdeelsigloXVhastaelsigloXIX.

CorpussincrónicoElcorpussincrónicopermiteelestudiodeunalenguaovariedadenunpunto

particular del tiempo, por ejemplo el Corpus del español mexicanocontemporáneo51, que abarca el periodode1921 a 1974.Por lo general, sirveparacompararvariedadesolenguasysurecolecciónesmuchomásfácilqueenlaconstruccióndeuncorpushistórico,puestoqueselimitaaunasolaetapa.

Page 31: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

DistribucióndelostextosElnúmero,elporcentajeyengeneralladistribucióndelasmuestrasdentro

deuncorpusdeterminansisehabladeuncorpusgrande,uncorpusequilibrado,unopiramidal,uncorpuscerradoouncorpusmonitor.

CorpusgrandeSe habla de corpus grandes en comparación con otros, pues no existe una

cifradeterminadaqueindiquesiesonogrande.Elfenómenodecorpusconunnúmeroelevadodeelementossedagraciasalasfacilidadescomputacionalesdealmacenamiento,organizaciónyanálisisde información.Esposiblequeporeltamañoestetipodecorpusdejeunpocodeladolosparámetrosdeequilibrioyrepresentatividad.

CorpusequilibradoEste tipo de corpus recoge el mismo número o una porción similar de

muestras para representar las diferentes variedades, géneros, registros, fuentes,etc.

CorpuspiramidalUn corpus piramidal se divide en distintos niveles: un primer nivel reúne

pocasvariedadestemáticas,peromuchostextos;unsegundonivelabreunpocoel abanicode las variedades temáticas, pero reduce el númerode textos, y asísucesivamente.

CorpuscerradoUn corpus cerrado tiene un tamaño definido antes de su recopilación, un

tamañoyaseaennúmerodepalabrasodetextos,yalalcanzarestacifrasedapor terminado. El tamaño lo definen, de acuerdo con su criterio, quienes loconstruyen.

CorpusabiertoomonitorEste es un corpus dinámico, que si bien puede tener un número fijo de

elementos,comoenelcasodelcorpuscerrado,seactualizaperiódicamente,demaneraquemantiene lamismacantidadde informaciónpero ingresandodatosmás actuales y excluyendo datos antiguos cada cierto tiempo. En materia derepresentatividad,elidealesquelosdatosqueseingresentengancaracterísticassimilaresalosdatosquesedesechan,aunqueporlanaturalezavivadelalenguamuchasvecesestapremisanoseda;porejemplo,sienladécadadelosochentala prensa física tenía una presencia lingüística muy fuerte, es posible que al

Page 32: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

actualizarelcorpuscondatosdelaño2000, lasentradasdeunblogremplacenlosdatosdelaprensa.

TamañodelasmuestrasrecogidasAparte de la cantidad demuestras recogidas y su distribución, otro factor

determinante en la tipología de los corpus es el tamaño de dichas muestras.Segúnestecriterio,sepuedendefinirtresclasesdecorpus:textual,dereferenciayléxico.

CorpustextualLas muestras de estos corpus son los textos completos, esto es, recogen

novelas, artículos, conversaciones o cualquier producción comunicativa en sutotalidad.

CorpusdereferenciaA diferencia del corpus textual, las muestras que conforman estos corpus

corresponden a fragmentos de textos. El tamaño del fragmento no estáestandarizado, sino que responde a la apreciación de quienes construyen elcorpus; sin embargo, al construir un corpus de referencia se deben tener encuentaaspectosdeequilibrioyrepresentatividad,yaqueelobjetivodeuncorpusde referencia es proporcionar informaciónde una lengua o una variedadde lamanera más completa posible. Para que el corpus sea equilibrado yrepresentativosedeterminanelnúmerodepalabrasporfragmento,elnúmerodemuestras tomadas de la misma fuente, género, registro, se seleccionanfragmentosdepartesvariadasdeltextoysebuscaqueladistribuciónseasimilar,demodoquelogrerepresentarlavariedad.

CorpusléxicoAligualqueuncorpusdereferencia,lasmuestrasdelcorpussonfragmentos,

pero el interés de quienes lo construyen está en el léxico, por lo cual losfragmentostiendenasermáspequeñosperoconunalongitudinvariable.

InformaciónextradelostextosUnadelascaracterísticasdeloscorpusesquebrindaninformaciónadicional

alaqueeltextoporsísolonospuedeproporcionar.Partedeestainformaciónse

Page 33: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

damedianteelprocesodeanotación52,ydependedelobjetivo,lasfacilidadesynecesidadesquetenganlosinvestigadoresalahoradeconstruirelcorpus.Queun corpus cuente o no con información extra es un criterio tipológico que dacomoresultadocorpussimplesycorpuscodificadosoanotados.

CorpussimpleLos corpus simples corresponden a aquellos que no tienen ninguna

información lingüística adicional, simplemente se encuentran los textosordenadosyenunformatoneutrollamadoplaintext(textosimple),quepermitelalecturadecomputadoresyhumanos,puestoqueessolotextosinformato,esdecir,sinnegrita,cursiva,fuentesocódigosadicionales.

CorpuscodificadooanotadoUn corpus codificado o anotado es aquel en el que cada uno de los textos

cuenta con etiquetas que contienen información adicional, ya sea sobreelementosestructuralescomoenunciacióndeltítulo,cambiodepárrafo,cambiode capítulo, lo que indica que es un corpus codificado, o con informaciónlingüística, caso en el cual estaríamos hablando de un corpus anotado. Laanotaciónpuederealizarsecontemplandodiferenteinformación,comocategoríagramatical, estructura sintáctica, lema, turnos de habla y fenómenos fonéticos.Laanotaciónysuscategoríaspuedenvariar,dependiendodeltipodecorpusqueseconstruyeydelinterésquesetienesobreeste.

DocumentaciónqueacompañalostextosEnestaclasificaciónsedisponededoscategorías:corpusnodocumentadosy

corpusdocumentados,comoelWorldAtlasofLanguageStructures53.

CorpusnodocumentadoLostextosqueconformanestoscorpusnocuentanconarchivosrelacionados

comoimágenes,descripcionesdelcorpusodesuscomponentes,queacompañenoamplíendealgunamaneralosdatosqueelcorpuscontiene.Loquenoquieredecirquenopuedansercorpusanotados.

CorpusdocumentadoA diferencia del anterior, un corpus documentado vincula archivos

adicionalesdtd(DocumentTypeDefinition)paradescribir loscomponentesdeltexto o para entrelazar información de los datos que permita conocer más

Page 34: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

profundamente los materiales del corpus. Estos documentos suelen describirrasgos específicos de tipologías textuales, de fenómenos contenidos en loscorpusosencillamentebibliografíarelacionada.Comonotafinal,valelapenaaclararqueuncorpusnorespondeaunúnico

criterio(mediodeproduccióndelostextos,númerodelenguas,especificidaddelos textos, distribución, tamaño de las muestras, información extra,documentaciónqueacompañalostextos);sinoquerespondeaunacaracterísticaporcriterio,esdecir,uncorpuspuedeseroral,monolingüe,anotado,etc.Deestamaneralosobjetivosdecreaciónsesustentanlosunosenlosotrosyelcorpusresultante termina abarcando y definiendo más la variedad o lengua querepresenta.

42.http://corpus.rae.es/cordenet.html.

43.http://www.lllf.uam.es/ESP/Info%20Corlec.html.

44.http://www2.warwick.ac.uk/fac/soc/al/research/collect/base/.

45.Enestecasopreferimoseltérminoescritoynotextual,yaquepuedegenerarconfusionesconloscorpusquemásadelantedenominamostextualesyquehacenreferenciaaaquellosquetomantextoscompletosparaconstruirlacolección.

46.OCR(OpticalCharacterRecognition)serefiereaunprocesodedigitalizacióndetextosyconversióndeestosencaracteresquepuedenserprocesadosporuncomputador.

47.http://chains.ucd.ie/corpus.php.

48.http://repository.cmu.edu/cgi/viewcontent.cgi?article=2394&context=compsci.

49.http://www.colam.org/om_prosj-espannol.html.

50.http://www.lllf.uam.es:8888/coser/.

51.http://www.corpus.unam.mx:8080/cemc/.

52.Véaseelapartado“Característicasdeuncorpus”paraanotación.

53.http://wals.info/

Page 35: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

Historiadelalingüísticadecorpus

La historia de la lingüística de corpus ha sido escrita teniendo en cuentacambios en paradigmas lingüísticos y desarrollos en el área de la tecnologíacomputacional. Al tiempo que la LC responde a estos cambios y se expandecomometodologíaeneláreadelashumanidades,loscorpusconstruidosrecibentambiénelimpactodeestastransformaciones,loquesevereflejadoentérminosdetamaño,composiciónyexplotación.Los primeros trabajos basados en aproximaciones de lingüística de corpus

datan del siglo xix. En 1857 se inició la construcción del Oxford EnglishDictionaryporpartedelaPhilologicalSocietyofLondon,trabajoqueen1878retomaríalaOxfordUniversityPress.Lacreacióndeestediccionariosebasóenla toma de citas como ejemplos lexicográficos y en la selección de datostextualesparalaelaboracióndeldiccionario,tododemaneramanual.En1897,J.Kading,lingüistaalemán,trabajófuertementeenlaconstitucióndeuncorpusdecercadeoncemillonesdepalabrasprocedentesdelalenguaalemana,conelfindeanalizarladistribucióndelasletrasysussecuencias.Acomienzosdelsigloxx,lanecesidaddeestudiarlenguasnodocumentadas

—como las amerindias—haceque lingüistas se acerquen al trabajo condatosrealesyrecurranaloshablantesnativosparaasíobtenermuestras,acercamientoquepermitiódescribirygenerarhipótesissobretaleslenguas.Algunostrabajosde esta época sonHandbook of Native American Indian Languages de FranzBoas (1911), Language de Leonard Bloomfield (1933) y The Structure ofEnglishdeCharlesFries(1952).En la década de los cincuenta aparece The Survey of English Usage54, el

primer centro de investigación dedicado al trabajo con corpus, en el queRandolphQuirkcomienzalacreacióndeuncorpusdelinglésbritánicooralconsuscorrespondientestranscripciones,conocidocomoelSurveyofEnglishUsage(SEU) oCorpus de Quirk, un conjunto de un millón de palabras grabado encintasdecarrete,transcritomanualmenteyorganizadoentarjetasdepapel.Porotraparte,JohnRupertFirthcomenzabaaintroducireltérminocolocaciónenelámbito de la lingüística de corpus, con el que se refería a la ocurrenciasistemáticadedosomáspalabrasdentrodeuncontexto,conceptoqueaúnhoysetieneencuentaparalaexplotaciónyanálisisdecorpus.

Page 36: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

Sinembargo,en1950nosoloseestabanconstruyendolosprimeroscorpussinoqueunnuevoparadigmaemergíade lavozdeNoamChomskyeneláreadellenguaje:elgenerativismo.Estemovimientolingüísticoopacóelnacimientode los estudios basados en corpus y disminuyó el impacto de talesinvestigaciones.Parodi(2008,p.99)dicealrespecto:

[…]diversos investigadorescoincidenenapuntarquela lingüísticagenerativaconstituyóuna influencia decisiva y hegemónica en el devenir científico de las ciencias del lenguaje,diluyendoodebilitandoeldesarrollodeposturasqueabordabanelestudiodel lenguajedesdeópticasdiversas;enparticular,desdeopcionesquenocoincidíanenunadefinición idealizadadellenguajenidemetodologíasdeíndolehipotéticodeductivo(Francis,1979;Conrad&Biber,2001; Chafe, 1992; Sinclair, 1991; Leech, 1991;Kennedy, 1998;McEnery&Wilson, 1996;Moreno,1998)

El generativismo considera el lenguaje como una facultad innata en el serhumanoyportantoloestudiadesdeunaperspectivamentalista,concentrándoseenlacompetencia55ynoenlaactuación56delhablante.Unodelosprincipiosdelgenerativismoeslacreatividadlingüística,lacual

consiste en la creación de enunciados infinitos con un número de elementosfinitos;enpalabrasdeChomsky:

L’aspectcréateurdel’utilisationdulangagereflètelespossibilitésinfiniesdelapenséetdel’imagination.Lelangageoffredesmoyensfinismaisdespossibilitésd’expressioninfinies,quinesubissentd’autresrèglesquecellesdelaformationduconceptetdelaphrase,règlesquisonten partie spécifiques et idiosyncratiques, mais en partie aussi universelles, et telles quel’humanitétoutentièreensoitdotée(1966,p.56).

Con base en esta idea, Chomsky niega toda credibilidad de resultadosbasadosencorpus,argumentandoquenoexisteningúnrepertoriofinitodedatosquepuedadarcuentadeunobjetoinfinitocomolalenguayque,portanto,uncorpusnocontendrátodaslasconstruccioneslingüísticasposibles57.Esta visión sobre el lenguaje hace que los lingüistas generativistas no se

interesenenobservaryestudiarlalenguaenuso,desestimandoelestudiodelalengua a través de corpus y además considerándolos parciales, finitos y norepresentativos. Chafe afirma al respecto: “One consequence of the modularviewisthatitsadherentsarenotparticularlyinterestedinobservingtheeverydayuse of language, since they believe that whatever is most interesting aboutlanguageexistindependentlyofitsuse”(1992,p.81).ParodihacereferenciaalaspalabrasdeSinclair(1991),conlasqueenuncia

losefectosdelenfoquegenerativista:Sedienta por falta de información adecuada, la lingüística languideció―de hecho― se

volviótotalmenteintrovertida.Sehizounamodamirarhaciaadentrodelamentemásquehacialasociedad.Laintuiciónsevolviólaclaveyseenfatizólasimilituddelaestructuradellenguajey varios modelos formales. El rol comunicativo del lenguaje fue escasamente mencionado(2008,p.100).

Page 37: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

Pero aunque el generativismo opacara los esfuerzos de la lingüística decorpusacausadesusprincipiosteóricos58,enlosañossesenta,conlallegadadeloscomputadores,secontinúaconlacreacióndealgunoscorpus,comoelSEUyelBrownCorpus59,loscualesgraciasalatecnologíadelaépocasealmacenabanen tarjetas perforadas, muchas de las cuales pudieron leerse en nuevoscomputadores y permitieron el trabajo con grandes cantidades de datos: unmillóndepalabras,queparalaépocaeraunacervodegranamplitud.LosavancesdelaLCsevieronreflejadosenelSEU,noencuantoaavances

enel campo tecnológico sinoencuantoalprocesodeanotación,debidoaqueCrystal yQuirk se dedicaron a anotar prosódica y paralingüísticamente60 estecorpus.En1964sedioinicioalBrownCorpus,coleccióntextualinformatizadacreada por Henry Kučera y W. Nelson Francis, compuesta por un millón depalabras representativas del inglés americano, trabajos que continuarían sudesarrolloenlossiguientesquinceaños.Ladécadadelossetentafueunaépocadecisivaparalalingüísticadecorpus,

puesporunaparteelfuncionalismolingüísticohizoqueseleprestaraatenciónal uso del lenguaje, y por otro lado, los avances informáticos permitieron elprocesamientodegrandesvolúmenesdedatos;ensuma,lalingüísticadecorpusvolvió a nacer. La lingüística funcional nace como una crítica frente algenerativismo, argumentando que este paradigma es idealista y que no ofreceherramientas para comprender la realidad de la lengua. Parodi señala enreferenciaaesto:

El giro racionalista cognitivo que se impone desde el generativismo tiende a opacar deciertomodoelempirismoimperantey,enalgunoscasos,teñidodeinfluenciaconductista.Lasbases contextualistas (o también externalistas), enmarcadas enparadigmas socioculturales dellenguaje, proveían un andamiaje para la lingüística de corpus tradicional, la que comienza aenfrentarunaoposicióndesdeelnuevoescenariointerdisciplinario.Ahorabien,sibienesciertoqueelgenerativismoaportódemaneracrucialenmateriasnuclearesacercadelanaturalezadellenguajehumano,noesmenosciertoque―entreotras―lavisión idealizadadel lenguaje (asaber, el estudiode la competencia lingüística)mantuvounobjetodeestudiocasiúnicoy sevierondifuminadasalgunasinvestigacionesfocalizadasenelestudiodellenguajeenuso(delaperformance) y de la investigación de la variabilidad lingüística. Ello produjo una ciertadiscontinuidadopérdidadeimpactodeciertaslíneasdeinvestigacionesenlingüística(2008,p.100).

Elfuncionalismopropugnaelestudiodelalenguaenuso:cómoseproduce,cómosecomunica, cómoseentiende,quiénes son losparticipantesycómosedesarrolla el acto comunicativo. McEnery y Hardie hablan sobre elfuncionalismolingüísticoenrelaciónconlacorrientegenerativista:

Functionalism, in a nutshell, is the rejection of this precept: functionalists investigatelanguageform,butexplainitwithreferencetothefunctionstowhichlanguageisput.Language

Page 38: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

isnotseenasanabstract, isolatedsystem,butone that isused tocommunicatemeaning,andwhichisshapedbythewaysitisused,bythecontextinwhichitoccursandbythestructureofhumancognition.“Functionalism”inthisbroadsensecoversasetofapproachestothetheoryof language sharing these features, including functional linguistics, cognitive linguistics andlanguage typology. The emphasis on language in use makes functionalism compatible withcorpuslinguisticsinawaythatformalistlinguisticsisnot(2011,p.168).

Lanuevaconcepciónsobrelosestudiosdelalenguahacequeloslingüistas,antropólogos, sociólogos e incluso psicólogos, ahora preocupados por losfenómenosdelacomunicación,basensusestudiosenlacreaciónyexplotacióndecorpus,puestoqueasípuedenobtenerpruebasempíricasyrealesdehipótesisplanteadas, o estudiar desde un conjunto de datos real los fenómenos que lesinteresan.Sumados a la lingüística funcional, los avances informáticos de softwarey

hardwarefortalecieroneldesarrolloyelusodelaLC.Latecnologíainformáticabrindólaposibilidaddeconstruiryalmacenarcorpusdemillonesybillonesdepalabras, de realizar operaciones computacionales sobre grandes cantidades dedatos y, por tanto, analizar los datos por medio de herramientas comoetiquetadores morfosintácticos y programas semiautomáticos. Desde estemomento,loscorpusseconcibieroncomodigitales.ElSEU,creadoenladécadadeloscincuenta,seviobeneficiadoporlaera

tecnológica. J. Svartik tomó los datos que se encontraban en el SEU y losdigitalizó,creandoasíelLondon-LundCorpusofSpokenEnglish,quedioorigenen 1985 a una de las gramáticasmás relevantes del inglés:AComprehensiveGrammar of the English Language, escrita por Randolph Quirk, SidneyGreenbaum, Geoffrey Leech y Jan Svartvik, más adelante remplazada porlaCambridgeGrammaroftheEnglishLanguage.ElBrownCorpus tambiénsevaliódelasherramientascomputacionalesparaasípublicaren1979suversiónanotada, gracias a un programa de etiquetado de part-of-speech61, creado porGreen y Rubin. Tras la aparición del Brown Corpus, basado en el inglésamericano,secreóelLancaster-Oslo-BergenCorpus62en1978,elcualtienelasmismas características concentradas en el inglés británico y cuya versiónetiquetadaapareceen1986.Apartirde1980yanosehabladecorpussinodemegacorpus,puesdebidoa

lascondicionestecnológicaseramuchomásfácilalmacenarmillonesdedatos,razónporlacualloscorpuspasarondetenerunmillóndedatosa450millones;además, contenían los textos completos y no solo fracciones de estos, endiferentes registros,variedadese inclusode fuentesescritasyorales.Entre losllamados megacorpus encontramos Bank of English o Cobuild Corpus,

Page 39: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

Cambridge English Corpus, Longman/Lancaster English Corpus y BritishNational Corpus63. A partir de estas colecciones se crearon gramáticas ydiccionarios.Yaparalosañosnoventa,aunquesecontinuóconlacreacióndemegacorpus,

no solo en inglés sino en diferentes lenguas, aparece una nuevamodalidad decorpus: los corpus especializados64. Estos corpus, de tamaño más pequeño,contienen datos enfocados en algún tema, alguna variedad, o simplemente secentran en grupos específicos de hablantes; otras tipologías de corpus quecomenzaron a tomar fuerza fueron los corpus diacrónicos65, los cuales seencargandeestudiarunaépocaotiempodeterminado,yloscorpusmonitores66,que son actualizados constantemente. Además, los corpus pasaron de sermateriales construidos y explotados por grupos de investigación de variasuniversidades,comolaUniversidaddeLancaster,laUniversidaddeBirminghamylaAutónomadeMadrid,aconvertirseenunmaterialcomercialquepermitelacreación y la explotación de diferentes tecnologías computacionales, comotraductoresautomáticosyprogramasdereconocimientodevoz;algunosdeestoscorpushansidoelCarnegieMellonCommunicatorCorpusoelCeudex.Durantelosúltimosañoslalingüísticadecorpussehaestablecidocomouna

metodologíautilizadaporvariaslenguas,yanosolamenteporelinglés.Lenguascomoelespañol,elfrancés,elportugués,elmandarín,elpolaco,elcoreano,elcheco o el húngaro cuentan con corpus de diversas características: generales,diacrónicos, sincrónicos, para fines específicos,monitores y documentados.Elrecorrido que le queda a la LC aún es largo, pues si bien ya ha permeadodisciplinasdiferentesdelalingüística,yhaconciliadolasvisionesgenerativistasy funcionalistas, existen lenguas como las lenguas indígenas latinoamericanas,que todavíanocuentanconcorpusquefacilitensupreservaciónydescripción,dadassuscaracterísticasdeoralidadylapocadifusióndelaLCenelcontextoacadémicolatino.La lingüística de corpus cuenta actualmente con asociaciones dedicadas al

trabajo basado en corpus, como la Asociación Española de Lingüística deCorpus67 (Aelinco), Asociación Lingüística Sistémico-Funcional de AméricaLatina68 (Alsfal), American Association for Corpus Linguistics69 (aacl),InternationalQuantitativeLinguisticsAssociation70(iqla),InternationalArchiveof Modern and Medieval English71 (Icame) y Asociación Española deLingüísticaAplicada72(Aesla).Existen tambiéncentrosde investigaciónuniversitarios, comoelCentre for

Page 40: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

Corpus Liguistics73 de la Universidad de Portsmouth, el Centre for CorpusResearch de la Universidad de Birmingham74, el Centre for English CorpusLinguistics75 de laUniversidadCatólicadeLouvaina, elUniversityCentre forComputerCorpusResearchonLanguage76delaUniversidaddeLancaster,entremuchosotros,quetambiénsededicanaltrabajomediantecorpus.En la actualidad, las herramientas tecnológicas no solo sirven para el

almacenamientoy explotacióndedatos, sinoque se constituyen en corpus; enotras palabras, la posibilidad de la web como un gran corpus es una de lasopcionesquepocoapocoempiezanallamarlaatencióndelingüistas.Aunquese habla de desventajas, como la dependencia de buscadores comerciales sinpropósitos lingüísticos, el continuo cambio de resultados obtenidos, lasdificultadesque sepueden tener respecto a losderechosde autoro el carácterprivado de algunos documentos, es una modalidad que brinda acceso a grandiversidaddetextos,abajoscostosydefácilacceso,razonesporlascualesesuncaminoqueseestácomenzandoaexploraryrecorrer.El avance de la LC se ha visto reflejado en los corpus, pues en su

almacenamiento y diseño se pasó del trabajo manual al computacional; decorpusgeneralessecreanahoracorpusespecializados,diacrónicos,históricosymonitores, entre otros; de corpus simples a corpus anotados77 y de corpusanotados manualmente a una anotación semiautomática o automática, porsupuesto con una revisión de los investigadores. Con el paso de los años, lalingüística de corpus se ha convertido en una herramienta para diferentesdisciplinasinteresadasenellenguaje,asícomoenunametodologíaquepermitecrear y probar hipótesis, describir la lengua y construir sistemas deprocesamientodelenguajenatural.

54.http://www.ucl.ac.uk/english-usage/index.htm.

55.Lacompetencialingüísticahacereferenciaalconocimientodelalenguaadquiridoporunhablante.

56.Laactuaciónlingüísticaeselusoqueunhablantedaalalengua.Estádadaporlacompetenciayporfactoressocialesyculturales.

57.Enlaactualidad,reconocemosysabemosqueuncorpusnopuedecontenertodosloselementosyconstruccionesdeunalengua,peroquecumpleconlacaracterísticadelarepresentatividad(véaseelcapítulo“Característicasdeuncorpus”).

58.McEneryyHardie(2011,p.168)enuncianclaramentetresprincipiosdelateoríagenerativistaquedificultabaneltrabajoconjuntoconlalingüísticadecorpus:“Thedistinctionbetweencompetenceandperformance,therejectionofcorpusdatarelianceonintrospection,andtheviewoflanguageasanautonomouscognitivesystem”.

59.http://icame.uib.no/brown/bcm.html.

Page 41: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

60.Laanotaciónprosódicaylaanotaciónparalingüísticacorrespondenalaadicióndedatosoetiquetasaloselementosdelcorpusquehacenreferenciaacategoríasenestasdosdimensiones.Enlaanotaciónprosódicapodemosencontraretiquetasrespectoalamelodía,elacento,laspausasyelritmo,entreotras;yenlaanotaciónparalingüísticaesposibletrabajarcategoríasrelacionadastambiénconlaentonaciónylapronunciaciónyaspectoscomolarisa,elllanto,elsuspiro,etc.,quecualesreflejanemocionesdelentrevistado.

61.Part-of-speech(Etiquetadogramaticalenespañol)correspondealaasignacióndeunaetiquetaacadaunodelosdatosdelcorpus,lacualindicalacategoríagramaticalalaquecorrespondeelelementosegúnelcontexto.

62.http://www.helsinki.fi/varieng/CoRD/corpora/LOB/informaciónymanualsobreelLancaster-Oslo-BergenCorpus.

63.http://www.natcorp.ox.ac.uk/.

64.Véaseelapartado“Tipologíadeloscorpus”.

65.Ibid.

66.Ibid.

67.http://www.um.es/aelinco/.

68.http://www.pucsp.br/isfc/alsfal/espanol/Inicio.html.

69.http://aacl.sdsu.edu/.

70.http://www.iqla.org/index.html.

71.http://icame.uib.no/.

72.http://www.aesla.org.es/es.

73.http://www.port.ac.uk/corpus-linguistics/.

74.http://www.birmingham.ac.uk/research/activity/corpus/index.aspx/.

75.http://www.uclouvain.be/en-cecl.html.

76.http://ucrel.lancs.ac.uk/.

77.Parainformaciónsobrelascaracterísticasdeloscorpusenunciados,véaseelapartado“Tipologíadeloscorpus”.

Page 42: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

Usosdeloscorpus

Entérminosgenerales, losdatoscontenidosenuncorpus lospuedeutilizarcualquier interesado en el estudio del lenguaje, para describir y analizar lalengua y establecer o corroborar hipótesis desde diferentes teorías oaproximaciones.Enesteordende ideas, lasprincipalesventajasque la lingüísticadecorpus

ofrece78asususuariossonlassiguientes:

1. Prioridadalalenguaenuso,escritayoral.2. Aproximaciónalosdatosdeunamaneracuantitativaycualitativa.3. Usocomoherramientaaptaparadiferentesdisciplinas.

Al respecto, Geoffrey Leech propone: “In Corpus Linguistics, the onlyrequirement is that such questions should be capable of being answered byobservingwhatisattestedincorpusdata”(2011,p.161).Acontinuación,sepresentanlasposibilidadesgeneralesqueuncorpusofrece

a cualquier usuario o investigador, tales como opciones de búsqueda,colocacionesyconcordancias,entreotras,ylosusosespecíficosqueselesdaala lingüística de corpus y a los corpus en los estudios realizados por distintasdisciplinas, tales como la lexicografía, la dialectología, la lingüística histórica,etc.

UsosgeneralesyposibilidadesqueofrecenloscorpusLas posibilidades de uso de un corpus dependen en gran medida de dos

factores:

1. Lascaracterísticaspropiasdelcorpus,talcomolaanotación79.2. Lasherramientascomputacionalesylainterfaz.

Las características del corpus determinan las clases de búsquedas yresultadosquesepuedenhaceryobtener.Porejemplo,siuncorpusestáanotado

Page 43: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

morfológicamente sepodránhacerbúsquedasquearrojen listasde sustantivos,verbos, artículos, etc. Otros factores determinantes en las búsquedas son lasherramientascomputacionalesempleadasy la interfaz,yaqueestas facilitan lainteracción del usuario con los datos, establecen las búsquedas que se puedenhacerdentrodelcorpusydeterminanlamaneragráficaenlaquesepresentanlosresultados.Mediante las búsquedas dentro del corpus podemos consultar desde letras

hasta frases, listas de datos, frecuencias de aparición, concordancias,colocacionesypalabrasclaves;deahíenadelante,elempleoqueselesdéalosdatosdependedelasnecesidadesyobjetivosdelosusuariosoinvestigadores.

BúsquedasEn términos generales, los corpus funcionan con base en la posibilidad de

efectuar búsquedas de diferentes categorías. Dentro de un corpus podemosbuscar letras, palabras, partes de palabras o frases, fonemas, elementosgramaticales (verbos, artículos, sustantivos, adverbios, adjetivos, etc.),sintácticos(sintagmanominal,sintagmaverbal,etc.)ycualquiertipodesondeomás específico, dependiendo de las etiquetas80 que contengan el corpus y laanotación.Elsistemadebúsquedaenelquesebasanlacreación,construcciónyexplotación de corpus, dado por herramientas computacionales, permite hacerlasbúsquedasrequeridasendiversosmomentosyrecuperarinformaciónquedeotromodosehabríaperdido.

ListasdedatosLosresultadosdeuncorpussemuestrangeneralmenteenformadelistas,que

puedenserdepalabras, lemas,categoríasgramaticales,etc.81,odefrecuenciasdeaparición,colocaciones,concordanciasopalabrasclaves82.Laventajadeestesistemaesqueloselementospuedenaparecerporordenalfabético,porordendefrecuencia83o inclusocombinando lasdosopciones;estobrinda laposibilidadde comparar listas de elementos dentro de un corpus o listas de diferentescorpus, lo que en muchos casos puede arrojar información sobre estructuraslingüísticasquesonmáscomunesenalgunosregistrosqueenotros,pues tododependedeltipodecorpusquesecompare.

FrecuenciasdeapariciónLosíndicesdefrecuenciasseconstituyenenelelementoconmayortradición

enlosestudiosbasadosenlingüísticadecorpusdebidoalacantidaddeempleosqueselespuedendar,comolacreacióndeglosarios,dediccionarios,dematerial

Page 44: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

didáctico para la enseñanza de lenguas, la creación de hipótesis en el área deanálisisdeldiscurso,etc.La frecuencia de aparición conlleva un proceso de revisión automática del

contenidodeuncorpus,pormediodelacualsedeterminaelnúmerodevecesqueunelemento,yaseapalabra,categoríagramatical, lema,combinacionesdeletras, frases o combinación de elementos en una cadena lingüística, aparecedentro de un corpus. Las frecuencias nos dan una idea clara respecto a laimportancia y el uso de una palabra en una lengua o dentro de los textos ygénerosdeunmismocorpus.Rafel y Soler dan dos ejemplos claros sobre el funcionamiento de las

frecuenciasenloscorpus:Enuncorpusconlostextosclasificadostemáticamente,dospalabraspresentanfrecuencias

similares.Sinembargo,unadeellas concentracasi todas susaparicionesenun tipo temático(porejemplo,enmatemáticas,obienporderecho,obienporpsicología,etc.),mientrasquelaotra se presenta repartidamás omenos equitativamente entre la totalidad de los grupos. Deforma inmediata diríamos que la segunda palabra tiene un carácter más general en elvocabularioque laprimera; esta, encambio,podría tratarseconbastanteprobabilidaddeunapalabraespecíficadeunadeterminadamateria[…]lafrecuenciaesundatoabsoluto,cuyovalordepende fuertemente de la extensión del corpus a que se refiere. Supongamos que undeterminado elemento léxico a aparece 50 veces en un corpus de 50.000.000 de palabras,mientrasqueotroelementoléxicobaparecetambién50vecesenunpequeñocorpusde5.000palabras, aunquea yb tengan lasmismas frecuencias en términos absolutos, su importanciarelativaencadaunodelosdoscorpusesbastantediferente:aapareceunavezcadamillóndepalabras,mientrasquebapareceunavezcadacienpalabras(2003,p.63).

ConcordanciasLasconcordancias84seobtienenpormediodeherramientasinformáticasque

danlaposibilidaddearrojarresultadosamaneradelíneasenlasqueunapalabradeterminada aparece acompañada por elementos de sus contextos lingüísticos.En otras palabras, las concordancias son todas las apariciones de una mismapalabra acompañada de los elementos anteriores o posteriores. El número deelementos que aparecen junto a estas palabras, ya sea anterior, posterior oambos, está determinado por las herramientas computacionales con las quecuentaelcorpus.Arenglónseguidosepresentaunejemplodelasconcordanciasdelapalabracualquiera:

Concordanciasdelapalabracualquiera

unapintura cualquiera quenoseacostosacadavezque cualquiera seacercaalamesapásame cualquiera delascartas

Page 45: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

cualquiera nopuedeganarque cualquiera quieraira

Los resultados de las concordancias pueden aparecer en orden alfabético,segúnelordendelaspalabrasanterioresoposteriores,oenalgúnordendefinidoporelusuario,claroestá,sielprogramacomputacionalestádiseñadoparaello.En términos más generales, las concordancias nos muestran secuenciasespecíficasdeelementoscomoletrasopalabrasdediversalongitud.

ColocacionesLas colocacionesguardan relación con las concordanciasy las frecuencias.

Unacolocaciónseveinfluenciadaporestasdoscategorías,yaquecorrespondeala frecuencia de aparición de una palabra en compañía de otra. McEnery yHardie definen colocación como “A co-ocurrence relationship between twowords.Words are said to collocate with one another if one is more likely tooccurinthepresenceoftheotherthanelsewhere”(2011,p.240).Porejemplo,contarycuentopuedenserunacolocaciónenundeterminado

corpus debido al número de veces que pueden aparecer juntas en frases comocuéntameuncuento,élcuentacuentosolamadrelescuentacuentosasushijos.Unadefiniciónmásexhaustiva,contenidaenAGlossaryofCorpusLinguistics,deBakeryHardie,rezaasí:

Described by Firth (1957: 14) as ‘actualwords in habitual company’, collocation is thephenomenon surrounding the fact that certainwords aremore likely tooccur in combinationwithotherwords incertaincontexts.Acollocate is thereforeawordwhichoccurswithin theneighbourhoodofanotherword(2006,p.36).

Para poder hablar de colocaciones la relación debe darse entre dos omáselementos,ladistanciamáximaentreellosnopuedesuperarlascincopalabrasylafrecuenciadebeseralta85.Sobreeltemadelascolocaciones,TonyMcEnery(2014)hablaensucurso

CorpusLinguistics:Method,TheoryandPractice-FutureLearnsobretrestiposdefenómenosadicionales:lapreferenciasemántica,lacoligación86(colligation)y la prosodia del discurso. La preferencia semántica es la relación entre uncampo semántico y un grupo de palabras semánticamente relacionadas; porejemplo: falda, camisa, saco, pantalón corresponden a prendas de vestir. Lacoligación,porsuparte,señala laocurrenciaentreunapalabrayunacategoríagramatical; es el casodeella+verbo.Dentro de un corpus es posible que laaparición de la palabra ella vaya seguida de un verbo: ella comemucho, ellasufredeimpaciencia,veremossiellaquieresalir,etc.

Page 46: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

Ylaprosodiadeldiscursooprosodiasemántica,quecorrespondealamaneraenquelaspalabrasenuncorpuspuedenrelacionarseconunaasociaciónpositivao negativa del hablante debido a las colocaciones, en palabras deMcEnery yHardieesesto:“Semanticprosodyis thetendencyexhibitedbysomewordsoridiomstooccurconsistenlywitheitherpositiveornegativemeanings”(2011,p.250). En este caso, podríamos decir que dados los ejemplos encontrados enciertocorpuslapalabramuerteserelacionaconviolenta,súbita,dolorosa,loquetiene una asociación negativa, aunque hipotéticamente también podría formarcolocacionesconlostérminosfelizytranquila.

PalabraclaveEste términocorresponde a laspalabrasque aparecen enun corpus conun

grado de frecuenciamás alto del esperado y que, al ser comparadas con otrocorpusdelmismotamañoomásgrande,siguensiendodistintivasyrelevantes,dadalafrecuenciadeaparición.SegúnelglosariodellibroCorpusLinguistics:Method,TheoryandPractice,deMcEneryyHardie,unapalabraclaveesesta:“Awordthatismorefrequentinatextorcorpusunderstudythanitisinsome(larger) reference corpus, where the difference in frequency is statisticallysignificant” (2011, p. 245). Por ejemplo, en un corpus del español de Bogotáaparece con una alta frecuencia la palabra jurgo, que significa unmontón; alrealizar la búsqueda de esta palabra en un corpus del español de Colombia,encontramos que su frecuencia es baja y que su aparición se concentra en lostextosrepresentativosdeBogotá;enestecaso,puededecirsequeesunapalabrarepresentativa del español de Bogotá y que corresponde a una palabra clave.Desdeallísepuedenllevaracaboanálisisyestudiosmásespecíficos.

ElusodeloscorpussegúnladisciplinaLa lingüística de corpus y el uso de corpus pueden combinarse con casi

cualquierdisciplinaoárea interesadaenel lenguaje,debidoa laevidenciaquepuedebrindar a las investigaciones; incluso la construccióndeun corpusy sumantenimiento se convierten en una actividad interdisciplinar, en la que senecesitan lingüistas, ingenierosdesistemasymatemáticos,entreotros.RafelySolerexplicanelporquédesuversatilidad:

Elobjetivodelalingüísticadecorpuseslaprospecciónyelprocesamientodecorpusparala descripción, a partir de datos objetivos, de las estructuras y de las categorías (sintácticas,léxicas,morfológicas,etc.)de la lengua.Uncorpussirve,así,comoelementodecontrastedehipótesisdellingüista,yalmismotiempo,comounelementoquepuedeconducirdeterminadas

Page 47: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

investigacioneslingüísticas,porlainmediatezdelostiposdeevidenciaqueproporciona(2003,p.70).

Lalingüísticadecorpushatrabajadodelamanoconlalingüísticahistórica,la lexicografía, la adquisición del lenguaje, la enseñanza de lenguas y lasociolingüística, entre otras áreas y disciplinas. Es importante aclarar quemuchasmásdisciplinaspuedenhacerusodeloscorpusyqueestodependedelacreatividaddelosinvestigadores,lasnecesidadesdelainvestigaciónyelalcanceque los corpus puedan tener en la investigaciónmisma.A renglón seguido sedescribenalgunosusos:

SemánticaLa semántica utiliza los corpus para describir, descubrir, despejar dudas y

probarhipótesis respectoa lautilizacióndepalabraso frases,yal sentidoquetienenendiferentescontextos.Losestudiosrealizadosdesdelasemánticatienengranimpactosobrelosestudioslexicográficosydeanálisisdeldiscurso87.

MorfologíaysintaxisCon la ayuda de los corpus es posible describir, verificar y descubrir

estructurasmorfológicasyconstruccionessintácticasdentrodeunalengua;estoayudaaladescripcióngeneraldeunalenguaespecífica,ungéneroounregistro,ytambiénpuedeservirdeapoyoenáreascomolaenseñanzadelenguas,enlaque sehacenecesarioque los estudiantes aprendanelementosy estructuras enuso. El estudio de lamorfología y la sintaxis desde una perspectiva históricabasadaencorpustambiénpermiteobservar,analizarydescribirloscambiosdelaslenguasenestosdosniveles88.

DialectologíaysociolingüísticaEstas disciplinas utilizan corpus con el propósito de describir fenómenos

sobrevariacionesgeográficasygrupossociales,comparardialectososociolectosenlosdiferentesnivelesdelalengua89,revelarcaracterísticasdegrupossocialesparticulares, identificar patrones pertenecientes a una zona geográfica o a ungruposocialycompararelhablasegúnelgénero(femeninoomasculino)90.

GramáticaAunquelosestudiosdegramáticabasadosencorpusenglobanlasramasdela

lingüística anteriormente enunciadas, la unión de estos estudios con unacercamiento sustentado en el empleo de corpus permite la elaboración degramáticasquedescribenlalenguaenuso91.

Page 48: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

LingüísticahistóricaEl primer beneficio que recibe la lingüística histórica de la lingüística de

corpus es la digitalización de libros antiguos y manuscritos, ya que con elestudio de este material se pueden hacer descripciones diacrónicas, observarcambioslingüísticosycrearhipótesisdecambiosfuturos,determinarfechasdeapariciónydesaparicióndeelementosencadalengua,yporsupuestorecolectarmaterialparalaconstruccióndediccionariosetimológicos92.

EstilometríayliteraturaLaestilometríaylaliteraturautilizannumerososdatos,enlosquesereúnen

obrasdeautoresimportantesenciertasépocasdelahistoria,seanalizantextospara extraer frecuencias, concordancias y ejemplos de uso de palabras oconstruccioneslingüísticas,seestablecenautoríasapartirdeanálisistextualesyestilísticos,sedescribenobrasreflejadasmásadelanteenedicionescríticas,yentérminos generales, se estudian estilos literarios, autores, géneros y periodoshistóricosenlaliteratura.Enconjuntoconherramientascomputacionalespuedencrearseprogramasparadeteccióndeplagioydeteccióndeautoría93.

AnálisisdeldiscursoEl análisis del discurso es una de las disciplinas más beneficiadas por la

lingüística de corpus, ya que esta le facilita el almacenamiento de grandescantidadesdedatos, a loscuales sepuedeaccederunayotravez;además, lasherramientasinformáticaspermitenladeteccióndepatroneslingüísticos,loqueenelanálisisdeldiscursodeterminamuchasdelashipótesisyconclusiones.Unadelasprincipalesventajasdeestadisciplinaesquepuedeutilizarseendiferentescampos,porloqueenlaactualidadserealizanestudiossociales,políticos,etc.,con la ayuda de corpus de periódicos, noticias y documentos políticos, entreotros. Estos estudios tienen gran impacto en la sociedad en general y en losmediosdecomunicaciónenparticular94.

PsicolingüísticaylingüísticaclínicaLa psicolingüística se encarga de estudiar la comprensión, producción y

adquisición del lenguaje. Existen corpus diseñados para el estudio de laadquisición del lenguaje, en los que los informantes son niños; los corpustambiénpueden funcionar comouna fuenteparadeterminar las frecuenciasdeuso de los elementos de la lengua, y desde allí diseñar pruebas paraexperimentosdeprocesamiento95.Porotrolado,elestudiodepatologíaspuedetrabajarsetambiéndesdedatosrecolectadosencorpus,yaqueestospermitenla

Page 49: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

descripción de patologías del lenguaje, el reconocimiento de patrones en cadaunade ellas y la reflexión respecto al trabajoque sepuede llevar a caboparadetectarymanejarestosfenómenos96.

LingüísticaforenseRamas como la lingüística forense se valen de técnicas estadísticas y de

herramientas informáticas para la recolección de pruebas en los procesos deperitaje.Los corpus dan la posibilidad de comparar pruebas con datos, lo quehacequesedetectenpatronesmorfológicos,sintácticosysemánticoscuandolaspruebassonescritas,yfonéticoscuandolafuenteprobatoriaesoral97.

TraducciónLos estudios en traducción implementan las tecnologías del lenguaje para

facilitar, agilizar y validar sus trabajos; por este motivo, los corpus98 seconvierten en una herramienta para comprobar la calidad de las traducciones,encontrarequivalenciasentrelenguasyconformarbasesdedatosquepermitenla automatización de estos procesos, puesto que aquellos contienen ejemplosrealesdeuso99.

LexicografíaGuillermo Rojo dice en su artículo denominado “Sobre la creación de

diccionariosbasadosencorpus”:Elobjetivodeunproyectolexicográficobasadoencorpuses,contodaclaridad,recogerlas

palabrasquefiguranenuncorpusrepresentativodelalenguaovariedadlingüísticasobrelaquesetrabajayreflejarlossignificadosrealmentepresentesenlostextos,incorporandolasmarcasdeusocorrespondientesencadacaso(2009).

Estecomentariodejaverlautilidadprincipaldeloscorpusenlexicografía:lacreacióndediccionarios.Loscorpuscontextualizanlaspalabrasenuso,puedendeterminar las entradas de un diccionario por medio de la frecuencia deaparicióndeloselementosybrindanunaccesoinstantáneoadatosactualizados.AlgunosdiccionarioscreadosapartirdeltrabajoconcorpussonelDiccionariodelcastellanodelsigloxvenlacoronadeAragón100yelGrandiccionariodeuso del español actual. También se pueden hacer listas de frecuencias porgénerosoregistrosydiccionariosbilingüesconejemplosreales.

FonéticayfonologíaLa fonética y la fonología utilizan corpus orales para describir las lenguas

segmentalysuprasegmentalmente,estudiarfenómenosarticulatoriosyacústicos,clasificar acentos, comparar sistemas fonéticos, obtener datos para caracterizar

Page 50: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

hablantes, trabajar acerca de la interferencia fonética en el aprendizaje delenguas,etc.Además,juntoconlalingüísticacomputacionalyloscorpus,logranconstruirmodelosdelenguajenaturalaplicadosatecnologíasdelhabla101,comoaplicacionesparalaconversióndetextoahabla.

LingüísticacomputacionalLalingüísticacomputacionaltomaloscorpuscomoinsumoparalacreación

deherramientascomputacionalesquepermitenlabúsqueda, larecuperación,elanálisis y la explotación de datos contenidos en textos electrónicos. Estasherramientas son las que hacen posible etiquetar, anotar, buscar frecuencias,colocacionesyconcordanciasenuncorpus.Igualmente,loscorpussonnecesariosenlacreacióndemodelosdelenguaje

quefacilitenelreconocimientodevozylaconversióndevozatextoodetextoavoz.Desdeestaperspectiva,loscorpusylalingüísticacomputacionalentranenladinámicadelaindustriadelalengua:

Existengrandesoportunidadesdemercadoenámbitoscomolaeducaciónoelocio,conlaintegración de tecnología lingüística en juegos, en divulgación del patrimonio cultural, enpaquetesdeentretenimientoeducativo,enbibliotecas,entornosdesimulaciónyprogramasdecapacitación.Los servicios de informaciónmóvil, el software de aprendizaje de idiomas, losentornosdee-learning,lasherramientasdeautoevaluaciónyelsoftwarededeteccióndeplagioson solo algunas de las áreas de aplicación en las que la tecnología lingüística puededesempeñarunpapelimportante(Melero,Badia&Moreno,n.d.-a,p.7).

EnseñanzadeidiomasLos corpus pueden usarse fuera y dentro del aula, como un elemento de

investigaciónocomounaherramientadidácticaenclase.Apartirdeuncorpussepuedenhacerdiccionariosparaaprendices,construirmaterialdidácticocomolibrosoejerciciosparalaclase,crearexámenes;adicionalmente,losestudiantespueden utilizarlos para acercarse a la lengua, descubrir y describir patrones, ycorroborarconstruccionesqueocurrenenlalengua.Otra posibilidad es la creación o explotación de corpus de aprendices, los

cualesreúnenmuestrasdetextosointeraccionesproducidasporestudiantesdelalengua.Apartirdeellos sepuedecrearelmaterial anteriormentemencionado,estudiarlainterlenguayanalizarloserroresquecometenlosaprendices102.TrasesterecorridoporlosusosdelaLC,esposibleafirmarquetodaaquella

disciplinainteresadaenellenguajeyconnecesidaddedatosrealesdelalenguapuede utilizar los corpus y la lingüística de corpus como herramientas en susinvestigaciones.

78.Véaseelapartado“Definicióndelalingüísticadecorpus”.

Page 51: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

79.Laanotacióneselprocesomedianteelcualseexplicitancategoríaslingüísticaspormediodeetiquetasqueseañadenalosdatos.

80.Unaetiquetacorrespondeaunasecuenciadecaracteresdealgúntipodelenguajedemarcado(xml,html,sgml),lacualcontieneinformaciónacercadeloselementosdelcorpus,deundocumentoodelcorpusengeneral.

81.AligualqueenBúsquedas,laslistasdeuncorpusdependendelasetiquetasdeesteydelasherramientasinformáticasutilizadas.

82.Todosestostérminos(frecuenciasdeaparición,colocaciones,concordanciaypalabrasclaves)sedesarrollanenestemismocapítulo.

83.Númerodevecesqueelelementoaparecedentrodelcorpus.

84.LasconcordanciassedenominantambiéneninglésKeyWordinContext(KWIC).

85.Noexisteunacantidadexactaparadeterminarqueunafrecuenciaesalta,yaqueestevalordependedeltamañodelcorpus,aunqueautorescomoTonyMcEnery,ensucursoCorpusLinguistics:Method,TheoryandPractice-FutureLearn(2014),afirmanqueelvalormínimodefrecuenciaparadeterminarsiesunacolocaciónesde10.

86.Dentrodelabibliografíarevisada,enningúntextoseutilizaeltérminoenespañol.

87.UnodelostrabajosbasadosenlingüísticadecorpusysemánticasedenominaIntroducciónalanálisisdeestructuraslingüísticasencorpus.Aproximaciónsemántica(Alcántara,2007).

88.UnejemplodeestudiosmorfológicosysintácticosesFuturoperifrásticoyFuturomorfológicoenelCorpussociolingüísticodelaCiudaddeMéxico(Lastra,2008).

89.Fonético-fonológico,morfo-sintáctico,léxico-semánticoypragmático.

90.Paraampliarsobrelarelaciónentrelingüísticadecorpusypsicolingüística,véaseCorpusLinguistics:Method,TheoryandPractice-FutureLearn,deMcEneryyHardie(2011b,pp.94-121).

91.Paramásinformaciónsobrelarelaciónentrelingüísticadecorpusygramática,véaseCorpusLinguisticsInvestigatingLanguageStructureandUse,deBiber,ConradyReppen(1998,pp.55-83).

92.JohannesKabatek(2012)daunaexplicacióncompletasobrelarelaciónentrelalingüísticahistóricaylalingüísticadecorpusensutextollamado¿Esposibleunalingüísticahistóricabasadaenuncorpusrepresentativo?

93.Dentrodelreconocimientodelaestilometría,lalingüísticaforenseylalingüísticadecorpusseencuentrantrabajoscomoeldeLópez,Méndez,SierraySolórzano(2013),Exploracióndemedidasestilométricasparaatribucióndeautoría.

94.UnejemplodeltrabajoconjuntoentrelingüísticadecorpusyanálisisdediscursolopresentanPalaciosySierra(2011,pp.386-398)ysedenominaCorpusparaelanálisisdeldiscursodelconceptoadhoc-cracia.

95.ParamásinformaciónsobrelarelaciónentrelingüísticadecorpusypsicolingüísticavéaseCorpusLinguistics:Method,TheoryandPracticedeMcEneryyHardie(2011,pp.192-224).

96.CorpuslingüísticodedefinicionesdecategoríassemánticasdesujetosancianossanosyconlaenfermedaddeAlzheimer.Unainvestigacióntransculturalhispano-argentina(PeraitayGrasso,2010)presentauntrabajoentrelalingüísticaclínica,lasemánticaylalingüísticadecorpus.

97.Paraampliarsobrelarelaciónentrelingüísticadecorpusylingüísticaforense,véaseLalingüísticaforenseyelusodeloscorpuslingüísticos,deCicres(2011,pp.517-524).

98.Entraducciónseutilizanespecialmentecorpusbilingüesymultilingües,comparadosyparalelos.

Page 52: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

99.JoséCortez(2010)exponelasventajasqueofrecenloscorpusaláreadelatraducciónensutrabajoElcorpusadhoccomoherramientadetraducción.

100.http://ghcl.ub.edu/diccaxv/home/index/myLanguage:es.

101.VéaseLingüísticacomputacionalenestemismoapartado.

102.Unodelosfundamentosteórico-prácticosenespañolquemuestranlasposibilidadesdelalingüísticadecorpusylaenseñanzadeidiomasesLingüísticadecorpusyenseñanzadelespañolcomo2/L,deMarCruzPiñol(2012).

Page 53: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

Laconstruccióndeuncorpus

Hoyendía,puedenllevarseacabodiversasinvestigacionessobreellenguajecon corpus ya existentes; sin embargo, cuando lo que se quiere es preservar,almacenar y sistematizar un material en particular o se requieren datos concaracterísticas específicas103, se hace necesaria la construcción de nuevoscorpus.Así como los corpus pueden utilizarse para responder a problemas desde

diferentesdisciplinas,parasucreaciónymantenimientoserequieretambiénunconocimiento interdisciplinar, hace falta conocimiento lingüístico, informático,matemáticoy,dependiendodeltipodecorpusquesequieraconstruir,senecesitaademásconocimientohistórico,sociolingüístico,etc.Dentrodelalingüísticadecorpusnoexisteunprotocoloquedeterminepaso

a paso cómo crear un corpus. Kennedy (1998), por ejemplo, propone cincomomentos: diseño de corpus, planeación del sistema de almacenamiento,obtención de permisos, captura de textos y marcado; Atkins, Clear y Ostler(1992) plantean también cinco estadios: planeación, adquisición de permisos,capturadedatos,manipulacióndetextosydesarrollodecorpus.Acontinuaciónpresentamosunapropuestaconcincomomentosprincipales,

quepuedeadaptarseadiversasnecesidadesinvestigativas:

1. Eldiseñodecorpus.2. Laobtencióndepermisosycapturadedatos.3. Laplaneaciónypreparacióndelsistemadealmacenamiento.4. Elprocesamientodelcorpus.5. Lasopcionesdeuso.

DiseñoyelaboracióndecorpusEl diseño de corpus cuenta con tres pasos específicos: definición de

objetivos,definicióndelacomposicióndelcorpusyloscriteriosderecolección,yporúltimo, la elecciónde la tipología.Estaetapadediseño, juntocon lade

Page 54: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

procesamiento,determinalasposibilidadesdeutilizacióndeuncorpus.

Paso1.Definirlosobjetivos104Paraempezar,esnecesarioaclararcuáleslafinalidaddelcorpus.Partiendo

de aquí, los objetivos tanto del corpus como del proyecto determinan lascaracterísticas de la colección textual y establecen el tipo de uso y búsquedasquesepuedenefectuar.

Paso2.DefinirlacomposiciónyloscriteriosderecolecciónEnunsegundopasosedefinenlacomposiciónyloscriteriosderecolección,

con loque sehaceprecisopensar en la representatividad105, el tamañoque sequiereoelmaterialdelquesedispone, lavariedadde la lenguaqueelcorpusrepresentaráylacronologíaalacualpertenecenlostextos106.Mercado(2008,p.19) plantea siete criterios que hay que decidir al momento de definir lacomposicióndelcorpus:

1. Tipo:oraloescrito.2. Tiposderegistros:literatura,prensa,etc.3. Parámetrosdemográficos:edad,sexo,grupo,etc.4. Época.5. Mediosdecomunicación:libros,periódicos,correoselectrónicos,etc.6. Niveleslingüísticos:coloquial,formal,lenguainfantil,publicitaria,etc.7. Tiposdetextos:novelas,poemas,reportajes,columnas,encuestas,etc.

Después de definir la composición del corpus siguiendo los anteriorescriterios,sehacenecesariodeterminarlaspautasderecolección,paraloqueserequiere:

1. Precisardedóndesetomaránlostextos,2. Concretarelnúmerodemuestras,3. Definirlasseccionesqueseutilizarándecadatexto4. Determinarlalongituddelasmuestras

Ladefinicióndelasseccionesylalongituddelasmuestrasqueseutilizaránpara la construcción del corpus dependen de los objetivos previos y de las

Page 55: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

facilidadesqueexistanparaobtenerlasmuestras.TorruelayLlisterriproponentresmanerasdedefinirlassecciones:

a)Al azar;b)dividiendo los textosen trespartesdeextensiónparecidayextrayendodecada una de ellas las muestras en número y proporciones aproximadamente iguales; c)determinandolaestructuraexternadelostextosydecidiendoquénivelesestructuralesseusaránparaelmuestreo(unnúmerodeterminadodepalabrasodefrasesdecadacapítulo,unnúmerodeterminadodecadaapartado,unnúmerodeterminadodecadapárrafo,etc.)(1999,p.20).

En el caso de la longitud de las muestras, pueden tomarse los textoscompletos o fragmentos; se debe evitar caer en la extracción de los inicios ofinalesdeltexto,anoserqueeseseaelobjetivodelcorpus,yaqueestopuedeafectar la característica de representatividad. La longitud de los fragmentospuede hacerse escogiendo un número determinado de palabras o de oracionesconsentido,loquesepuedelograrsisetomanfraccionesdelimitadasporpuntosenelcasodematerialescritoopausasenelcasodemuestrasorales.

Paso3.DefinirlatipologíaSegún los objetivos del corpus, se establece o corrobora la tipología del

corpustrasladefinicióndetodaslasvariablesdecomposición.Dependiendodelas elecciones hechas en el paso 2 puede hablarse de corpus escrito, oral,multimodal,monolingüe,bilingüe,multilingüe,general,especializado,genérico,canónico,cronológico,grande,equilibrado,piramidal,cerrado,abierto, textual,dereferenciaoléxico107.

ObtencióndepermisosycapturadedatosParapoderusar los textosograbacionesque se incluirán en los corpus, es

necesario tenerencuenta losderechosdeautor.Muchasvecespara reproducirlostextos,estoes,digitalizarlos,serequierelaautorizacióndelosautores;todoslos textosdeun corpusdebenestar bajo laproteccióndederechosde autory,además,debentenerlospermisosparaelusoqueserequiere.Esrecomendablebuscar asesoría legal en este momento de la construcción del corpus paraprevenir futuros inconvenientes, y considerar que las leyes respecto a losderechosdeautorvaríansegúnelpaísyelmaterialquesemaneje.Para la captura de datos se pueden requerir bastante tiempo y dinero,

dependiendo de la cantidad de datos que deban recogerse y de las fuentes dedónde se obtengan. Para crear un corpus resulta indispensable que todo elmaterialestédigitalizado,yaseaoraloescrito.Enelcasodelmaterialescrito,existentresopcionesdecaptura:

Page 56: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

1. MedianteOpticalCharacterRecognition(OCR),procesoqueconsisteenescanearlostextosfísicosmedianteunsistemadereconocimientodecaracteresparadigitalizarlostextos.

2. Transcripciónmanual.3. Datosyadigitales.

SiseoptaporelusodeOCResrecomendablerealizaruncontroldelmaterialobtenido;asuvez,latranscripciónmanualesmuyutilizadaencorpusorales,yaque las cintas requieren en su mayoría una transcripción ortográfica que enmuchas ocasiones no puede hacerse mediante programas automáticos dereconocimientodevoz108;encualquieradelosdosprocesossenecesitanunaodos revisiones manuales por parte de los investigadores tras el proceso dedigitalización o transcripción, pues así se pueden corregir los errores que laautomatización pueda tener. En lo referente al uso de datos ya digitales, loscostosyeltiemposereducen;además,muchosdeestosdatossepuedentomardeinternet.

PlaneaciónypreparacióndelsistemadealmacenamientoEn esta fase se debe pensar acerca del tamaño total del corpus para así

obtenerelespaciodealmacenamiento109;nohayqueolvidarquesinespaciodealmacenamientonohaycorpus.Traslaobtencióndelespacio,losinvestigadoresdebenasegurarsedealmacenardemanerasistemáticayordenada losdatos; serecomiendaguardarcadatextocomounarchivodiferenteyllevarunasecuenciaclara,lógicaysistemática110,paraqueelcorpuspuedaempezaraordenarseconbaseendatosexternos,comoelnombreoelnúmerodelarchivo,yfacilitarasílaubicacióndelainformación.

Procesamientodelcorpus

LainterfazDespués de contar con el espacio y el sistema de almacenamiento, es

necesariopensar en la interfaz, que es el conjuntodeprogramasquepermitenextraer información del corpus y facilitan la interacción del usuario con los

Page 57: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

datos.RafelySolerdicenalrespecto:“Laóptimautilizacióndeuncorpusestáenrelacióndirectaconlascapacidadesdelainterfazconqueseaccedealmismopara la ejecución de procesos de selección y para la presentación de losdiferentestiposderesultadosposibles”(2003,p.67).Hastaestemomento,conelmaterialorganizadosegúncriterioslingüísticos,

almacenado, y una interfaz que permita abrir, descargar o reproducir losarchivos,sepodríadecirquesecuentaconuncorpussimple111.

CodificaciónLacodificacióneselprocesodeconversióndecaracteresdellenguajenatural

aun lenguajequesepuedaprocesarpormediodemáquinasosistemasquesevalen de programas computacionales; en el momento en que se prepara uncorpus para su procesamiento, hay que decidir el formato del texto y lacodificación, en función de los programas que se pretenden utilizar. Esaconsejable buscar sistemas de codificación con alto número de caracteres112,puesasínoserequierecambiardecodificaciónañosdespuésdelaconstruccióndel corpus; esto, sumado al uso de estándares113, permite la reutilización delcorpus.En la codificación, debe elegirse un lenguaje de marcas o etiquetas que

permita representar información adicional a la que contiene el texto114 yconviene ceñirse a un estándar de codificación. A continuación se presentanalgunasopcionesestándaresdecodificaciónylenguajesdemarcado:

Estándaresdecodificaciónylenguajesdemarcado

Estándaresdecodificación Lenguajesdemarcado Localización

TEI(TextEncodingIniciative1) XML http://www.tei-c.org/index.xml.ELRA(EuropeanLanguageResourcesAssociation2) HTML http://www.elra.info/.

LDC(LinguisticDataConsortium3) SGML https://www.ldc.upenn.edu/.

CES(CorpusEncodingStandard4) http://www.tei-c.org/Activities/Projects/co02.xml.

Eagles(ExpertAdvisoryGrouponLanguageEngineeringStandards5) http://www.ilc.cnr.it/EAGLES/browse.html.

MarcadodemetadatosCon la elección del lenguaje demarcado y el estándar, se da comienzo al

procesodeetiquetadoomarcadodemetadatos.Esteprocesoconsisteeninsertar

Page 58: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

etiquetas para enriquecer los textos, las cuales deben contener informaciónestructural de los textos, como origen, autor, año, tipo de texto, participantes,duraciónycalidadde lagrabación,entreotras.Dichascategoríasdependendelosinteresesdelgrupoydelestándarqueseelija,yaqueestosmanejanetiquetasdeterminadas,aunquenosignificaquenopuedancrearsenuevascategorías.La inserción de estas etiquetas y un mayor número de datos externos

registrados facilitan las búsquedas cruzadas y con una cobertura de másvariables,yaque,porejemplo,pueden llevarseacabobúsquedasdedatoscondos,tresomáscaracterísticasalmismotiempo,locualhacequelosdatosseanasuvezmásprecisos.

AnotaciónlingüísticaAuncuandouncorpussimplepermiteelacercamientoalosdatosdemanera

confiable, existen investigaciones que requieren análisis más complejos yexactos, lo cual se puede lograrmediante la anotación lingüística de los datoscontenidos en el corpus. La anotación lingüística corresponde al proceso deetiquetado de las palabras pertenecientes a los textos, con el fin de incluirinformación lingüísticaadicional,ya sea sobre sucarácter semántico, fonético,morfológico,pragmático,etc.Entérminosgenerales,cadapalabradeuncorpusanotadotieneunaovariasetiquetasqueindicansuscaracterísticas.Laanotacióndebeestarseparadadel textocomotal,esdecir,quealborrar

las etiquetas el texto debe permanecer intacto. Procházková señala algunosprincipiosdelaanotaciónqueesconvenienteseguir:

Laevaluacióndelasanotacionesdebeserposiblesineltextooriginal.Lasnormasdeanotacióndebenseraccesibles.Losanotadoresylascircunstanciasdelaanotacióndebenserconocidos.Los usuarios deben saber que las anotaciones pueden contener errores(2006,p.11).

Los corpus anotados requieren un proceso específico de etiquetado. JuliaBaquerodefineclaramenteesteproceso:

Loscorpusanotadosoetiquetadosrequierenunatransformacióndeltextooriginaldeformaque se pueda acceder a él y extraer lamayor cantidad de información posible. Para ello, loscorpussonsometidosaunprocesamientoqueincluye,entreotras,laposibilidaddedividirloenlaunidadmáspequeña―eltoken―sobrelacualseaplicaunaetiquetadecarácterlingüísticomedianteunprogramadenominadoetiquetador.Esteasignaautomáticamenteacadaunidad,porejemplo, su categoría, su correspondiente lema, características morfológicas, informaciónsintáctica, etc., a partir de un archivo de diccionario que el programa utiliza para asignar la

Page 59: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

etiquetaadecuadaacadaexpresión(2010,p.35).

EltokenalcualserefiereBaquerocorresponde,enlenguajecomputacional,acadaunadelascadenasdecaracteresdivididaporespacios;enotraspalabras,untokenes igual a unapalabra.El procesopor el que los datos sondivididos entokens se llama tokenización, y tal como Julia Baquero señala, facilita losdiferentes tipos de procesamiento como las frecuencias de aparición, lascolocacionesy lasconcordancias115, yaque separacadaunode loselementosdelcorpus.Tras el proceso descrito anteriormente, se puede comenzar con la

denominada anotación lingüística, la cual representa un tipo de análisisparticular y un corpus. Un corpus puede contar con uno o más tipos deanotaciones:

Lematización.Enestecaso,cadapalabravaacompañadaporsulema.Anotaciónmorfológicao part-of-speech (pos). Las palabras tienen unaetiquetaquecorrespondeainformaciónmorfológica.Anotación sintáctica o parsing. Cada palabra tiene informaciónsintáctica.Anotaciónfonética.Anotaciónfonológica.Anotaciónprosódica.Anotaciónpragmática.Anotacióndiscursiva.

La anotación se puede llevar a cabodemanera automática116o demaneramanual;sinimportarelmétodoqueseutilice,siempredebeexistirunafasederevisióndelmaterialanotado.Acontinuaciónsepresentanalgunasherramientascomputacionalesquepermitenlaanotaciónoelprocesamientodecorpus:

Page 60: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

Softwareparaprocesamientoyanotacióndecorpus117Crecimientoymonitoreo

Software Localización

Aconcorde6 http://www.andy-roberts.net/coding/aconcorde.

A.nnotate7 http://a.nnotate.com/.

Antconc8 http://www.antlab.sci.waseda.ac.jp/software.html.

Anvil9 http://www.anvil-software.org/.

Concapp10 http://concapp.software.informer.com/.

Corpussearch11 http://corpussearch.sourceforge.net/.

Corpuswizard12 http://www2d.biglobe.ne.jp/~htakashi/software/cw2e.htm.

Elan13 http://tla.mpi.nl/tools/tla-tools/elan/.

Exmeralda14 http://www.exmaralda.org/.

Freeling15 http://nlp.lsi.upc.edu/freeling/.

ParaConc16 http://www.paraconc.com/.

Praat17 http://www.fon.hum.uva.nl/praat/.

Simpleconcordanceprogram18 http://www.textworld.eu/scp/.

Svm-tool19 http://www.lsi.upc.edu/~nlp/SVMTool/#.

Textstat20 http://neon.niederlandistik.fu-berlin.de/textstat/.

Transcriber21 http://trans.sourceforge.net/en/presentation.php.

Treetagger22 http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/.

VISLtools23 http://beta.visl.sdu.dk/visl2/.

Wraetlictools24 http://alfonseca.org/eng/research/wraetlic.html.

Xaira25 http://xaira.sourceforge.net/.

Lacreacióndeuncorpusno terminacon laanotaciónde loselementos;uncorpusrequiereuncontinuomonitoreo,sobretodocuandoseencuentraenunafase piloto, puesto que en la mayoría de los casos y con los comentariosprovenientesdelosusuariosdebenreajustarsefragmentosdelcorpus,mejorarselainterfazyalimentarelcorpusconnuevosdatos.

AlgunoscomentariossobrecorpusoralesLa idea de un corpus oral es que pueda contener lamáxima diversidad de

situaciones comunicativas posibles, a no ser que se quiera construir un corpusespecializado, en el cual se recogeríanmuestras de situaciones comunicativasespecíficas, talescomoexposiciones,discusionesy locucionesradiales118.Para

Page 61: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

capturar muestras orales, muchas veces se utilizan entornos acústicamentecontrolados,comolaboratoriosdefonéticaocabinasinsonorizadasparaevitarlainfluenciadelosruidosdelambiente.Cuandosecuentaconestasopciones,debegrabarseintentandoobtenerlamejorcalidadypasandolasmuestrasporsoftwareespecializadosquemejorenlacalidaddelsonido,sinalterarlasmuestras.Unade las fasesmás importantes, noobligatoria, en la construccióndeun

corpus oral es la transcripción119, ya sea ortográfica, fonética, prosódica, etc.Paraesto,sesuelenusaralfabetosbasadosenelAlfabetoFonéticoInternacional(AFI) que se puedan procesar informáticamente, tales como el SpeechAssessmentMethodsPhoneticAlphabet(Sampa)120.Lo que se pretende con las transcripciones es evidenciar turnos de habla,

variaciones de pronunciación, pausas, identidad del hablante, superposiciónentre locutores, fenómenos segmentales y fenómenos suprasegmentales. Estastranscripcionesdebensincronizarseconlagrabación.Las fases que se presentaron en este capítulo pueden verse alteradas y

modificadas por los objetivos, recursos y tipo de material que se recolecte;igualmente,estaesunapropuestaquesepuedemodificar,segúnlasnecesidadesquesepresentenenlaconstruccióndecadacorpus.

103.Lascaracterísticasespecíficashacenreferenciaanúmerodemuestrasquesequieren,tiposderegistroycualidadesdeloshablantes,entreotras;estascaracterísticasestándadasporlosobjetivosyeltipodecorpusquesequiereconstruir.

104.Unodelosobjetivosdecualquiercorpusdeberíaserlaposibilidaddequesusrecursoslingüísticosseansiemprereutilizables.

105.Véaseelapartado“Característicasdeuncorpus”.

106.Paramásinformaciónsobreestosparámetros,CaminoRea(2010)haceunrecorridoporestoscuatroaspectosensutextoGettingonwithCorpusCompilation:fromTheorytoPractice.

107.Paraampliarsobrelostiposdecorpusysuscaracterísticas,véaseelapartado“Tipologíadeloscorpus”.

108.Losprogramasdereconocimientodevozsonentrenadosbajoelléxicodeuncorpus,peroparaqueunodeestosprogramasfuncionedemaneracorrectaparalatranscripcióndeuncorpusdebecontenerlosdatosqueseencuentranenelcorpusoralquevaatranscribir.Portalmotivo,esmuydifícilqueesteprocesosedéautomáticamente,yaquesedebecontarconunsoftwarequecontengalascaracterísticasespecíficasdelosarchivosoralesquesevanatrabajar.

109.Yaqueloscorpussondigitalesserequierecontabilizareltamañodelmaterialparadeestamaneraadquirirelespacioinformáticodealmacenamientodondeestarácontenidoelcorpus,puedeserespacioenlanubeodispositivosdealmacenamientocomodiscosduros.

110.Lamaneraenlaqueseordenanlosdatosesunadecisióndequiencreaelcorpus,loqueserecomiendaesqueexistaunasecuencialógicaenlaformacomosenombranlosarchivosparadeestemodosistematizarlos,porejemplonombrarcadaarchivoconunnúmero,eltipodematerialylaprocedencia:

Page 62: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

1orcol(or=oral,col=Colombia).Ladenominacióndelosarchivosdependedelascaracterísticasdeestos.

111.Paramásinformaciónsobreuncorpussimple,véaseelapartado“Tipologíadeloscorpus”.

112.Lossistemasdecodificación(ASCII,ASCIIExtendido,Unicode)cuentanconunnúmerodecaracterescomputacionales,loscualesrepresentanloscaracteresdelasdiferenteslenguasdelmundo;amayornúmerodecaracterescontenidosporelsistema,másfácillarepresentacióndellenguajepormedioscomputacionales.

113.Losestándaressonmodelosclarosdecriteriosparalacodificación,eletiquetadoylaanotacióndeuncorpus.

114.Lainformaciónadicionalhacereferenciaalosprocesosdeanotaciónyadicióndemetadatos,explicadosenelcapítulodenominado“Característicasdeuncorpus”.

115.Paramásinformaciónsobreestascategorías,véaseelapartado“Usosdeloscorpus”.

116.Dependedelaccesoquesetengaaherramientascomputacionales,ylosresultadosdelaprecisióndeestas.

117.Paramásinformaciónsobreherramientascomputacionales,ingresara:http://linguistech.ca/Online+Tools+-+home,http://www.uow.edu.au/~dlee/software.htmohttp://linguistlist.org/sp/SearchWRListing-action.cfm?subclassid=7223&SearchType=LF&WRTypeID=2.

118.Estassituacionescomunicativassedefinenapartirdelosobjetivosdelcorpus.

119.Latranscripciónesunprocesoenelcuallalenguahabladaserepresentaconcaracteresescritos,enelcasodelatranscripciónfonéticasebuscarepresentarlossonidosdelhabla,ycuandosehabladeunatranscripciónprosódica,serepresentanlosfenómenossuprasegmentalescomoelacento,elritmoylaentonaciónmediantecaracteresgráficos.

120.http://www.phon.ucl.ac.uk/home/sampa/.

Page 63: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

Lalingüísticadecorpusylalenguaespañola

La lengua española es una importante herramienta de comunicacióninternacional. Según cifras del último informe del Instituto Cervantes, Elespañol: una lengua viva (2014), 548 millones de personas son hablantes deespañol,ya seacomo lenguamaterna, segunda lengua, extranjeracondominionativoolimitado,osonestudiantes;secreeademásqueentresgeneracionesel10%delapoblaciónmundialhablaráespañol.Asímismo,eslaterceralenguamásutilizadaen la red,produceel10%delPIBmundial, y según labasededatosdelISSNel5%deltotaldelasrevistassonenespañol.Aun así, el impacto del español en el mundo científico no responde a la

magnituddelalengua;apropósitodel tema,Melero,BadiayMorenoseñalan:“A pesar del peso demográfico del español, de su posición como lengua decomunicación internacionalyde lademandaactualdel español como segundalengua,sucompetitividadcomolenguacientíficaesseriamentecuestionadaporelinglés”(n.d.,p.14).Esta situación se ve claramente reflejada en la relación existente entre la

lenguaespañolaylalingüísticadecorpus.Rojo(2008),ensutextoLingüísticade corpus y lingüística del español, enuncia que la LC en el español se hadesarrollado demanera atrasada en comparación con otras lenguas—como elinglés—, pero gracias al esfuerzo de diferentes equipos de investigación en elmundo hispánico, hoy en día se hace uso de la LC en los estudios de lenguaespañola,loquenoquieredecirquenofaltebastantecaminoporrecorrer.Uno de los elementos que ayudan al posicionamiento de una lengua en el

mundoeslacantidadylacalidaddesusrecursoslingüísticos121.RafelySolerserefierenasíaestematerial:“Eldesarrollodegrandescorpusdereferenciasehaconvertidoenunodelosprimerosobjetivosquedebencumplirlaslenguasdeunpesoculturalydemográficomásdestacado” (2003,p.59).Deestamanera, sehace explícita la necesidad de más corpus del español; aunque en formaintrínseca losestudiosen lenguaespañolasehanvalidodecorpus lingüísticos,no esunametodología ampliamente conocida, desarrollada enpublicacionesymuchomenosutilizada,enespecialporpaísesdiferentesdeEspaña.

Page 64: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

La creación y explotación de corpus requiere también recursos yherramientascomputacionales,puestoquelamayoríadelasherramientasqueseencuentran en línea se han diseñado para el trabajo con material en lenguainglesa.Ysibienmuchosdeestosprogramassepuedenutilizarconmaterialenespañol,esnecesariodiseñarherramientasquesoportenlosanálisispropiosdelalengua,demodoquelosestudiosenlenguaespañolaylosinvestigadorespuedanapoyarseenlaLCcomounametodología.Comoseenuncióanteriormente,laproduccióncientíficaenespañolesmuy

reducida; algunos de los autores de publicaciones relacionadas con corpus ylengua española son Leonel RuizMiyares (Cuba), Julia Baquero (Colombia),VíctorM.Castel,AnaMaríaMiret,RodolfoBoninoyLinaGrasso(Argentina),Giovanni Parodi, René Venegas y Manuel Contreras (Chile), Mariela Grassi,MarisaMalcouriyJavierCouto(Uruguay),LuisLara,PedroMartínButragueñoyYolandaLastra(México),GuillermoRojo,M.PazBattaner,M.AntoniaMartí,Irene Castellón Masalles, Joaquim Rafel, Joan Soler, Joaquim Llisterri, JoanTorruella,ManuelAlcántaraPla,MarioBarcala,AntonioBriz,MartaAlbelda,TeresaCabré,CarmenBach,M.LuisaCarrio,MiguelÁngelCandel-Mora,MarCruz Piñol, Manuel Ezquerra, Juan Villena, Francisco Marcos, FranciscoNavarro,ChantalPérez,PamelaBenítez,AntonioOrtiz,HerminiaPeraita,PilarSánchez-Gijón y María Rosa Vila y Milka Villayandre (España). Esta listapermiteverqueaunquesíexisteproducciónacadémicasobreelespañol,quedaclaroquelamayorpartedeestaproducciónprovienedeEspaña.La relación de la LC y el español comienza claramente en 1964 con el

“ProyectodeestudiocoordinadodelanormalingüísticacultadelasprincipalesciudadesdeEspañaeIberoamérica”122,conelcualsebuscabaconstruirungrancorpus123 oral representativo del español culto de varias ciudades españolas eiberoamericanas.Auncuandoestainiciativanosepensódesdelalingüísticadecorpus, se enmarcó en esos parámetros, por lo que permitió el estudio dediversosfenómenoslingüísticosyelcontrasteentrelasvariedadesdelespañol,obviamentesinlosapoyostecnológicosdelaactualidad.En 1969, Paul Garvin y la Universidad Mayor de San Marcos de Perú

publicanunode losprimeros textosenespañoldedicadosa los fundamentosylas herramientas informáticas necesarios para los trabajos en LC, denominadoBreveintroducciónalacomputaciónlingüística,consideradopioneroensuárea.Años después, aparecen en el panorama de los estudios lingüísticos del

español varios proyectos que desembocarían en la construcción de algunoscorpus. En 1991, el “Proyecto para el estudio sociolingüístico del español de

Page 65: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

EspañaydeAmérica”124(Preseea)dainicioasusactividadesderecolecciónyconstrucción de un corpus del español hablado representativo en su variedadgeográfica y social de diferentes ciudades hispanohablantes como Alcalá deHenares, Buenos Aires, Culiacán, Lérida, Mérida, Montevideo, San Juan dePuertoRico,Valencia,Granada, Lima,Oviedo, Santiago deChile,Valparaíso,La Habana, Miami, Pereira, Medellín, Bogotá, Monterrey, Quito y Zaragoza,entre otras. Cada subcorpus, representativo de una ciudad específica, seencuentraenunestadodiferente,algunosestánenprocesoderecolección,otrosen fase de transcripción y unos restantes ya analizados y con materialpublicado.125 En 2014, Preseea tiene en su página web126 un corpus coninformación de Alcalá de Henares, Caracas, La Habana, Lima, Madrid,Medellín, Monterrey, Montevideo y Valencia, catalogada según el sexo delinformante(hombre-mujer),laedadyelniveldeestudios.Hacia finalesde losañosnoventa, laRealAcademiaEspañola (rae)ponea

disposición del público en general, de manera virtual y gratuita, dos nuevoscorpus: el Corpus de referencia del español actual127 (CREA) y el Corpusdiacrónicodelespañol128(Corde).ElCREAcuentaconmásde160millonesdepalabrasextraídasdetextosoralesyescritosentre1975y2004,provenientesenun50%defuentesespañolasyelotro50%defuentesamericanas;estoreflejala falta de equilibrio en la representatividad del corpus, ya que para serequilibrado y representativo debería tener muestras de cada paíshispanohablante,segúnsuporcentajedeproducciónlingüística.Deigualmanera,elcreaesconsideradouncorpusdegranimportanciapara

el español por ser el primero de su tipo y por su tamaño.A su vez, elCordecuenta con 250millones de palabras tomadas de textos escritos de diferentesgéneros,quedatande todas lasépocasy lugaresdondesehahabladoespañol,desdesuconsolidacióncomolenguahastaelaño1975.Estecorpushaservidocomo material para la construcción del Nuevo diccionario histórico delespañol129(actualmente,enprocesodeelaboración).En 2001, Mark Davies crea un corpus, gratuito y de libre acceso,

denominado Corpus del español, con más de cien millones de palabrasprocedentesderegistrosescritosdelossiglosXIIIalXXyregistroshabladosdeeste último siglo. La interfaz130 permite que el usuario realice búsquedas depalabras,frases,lemas,categoríasgramaticales,colocacionesyfrecuencias131.Desde 1990, la relación entre la lingüística de corpus y el español se ha

estrechado; esto se puede ver en el número de asociaciones y eventos

Page 66: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

relacionadosdealgunamaneraconlaLCyelespañol,laconstitucióndegruposdeinvestigación,lautilizacióndeestametodologíapordiferentesuniversidadesylacreacióndediversoscorpus.

AsociacionesquedesarrollaneventosopropuestasdesdelaLC

Asociación Link

AmericanAssociationforCorpusLinguistics(AACL) http://aacl.sdsu.edu/

AsociaciónEspañoladeLingüísticadeCorpus(Aelinco) http://www.um.es/aelinco/

AsociaciónEspañoladeLingüísticaAplicada(Aesla) http://www.aesla.org.es/esAsociacióndeLingüísticayFilologíadeAméricaLatina(Alfal) http://www.mundoalfal.org/

AsociaciónLingüísticaSistémico-FuncionaldeAméricaLatina(Alsfal)

http://www4.pucsp.br/isfc/alsfal/espanol/Inicio.html

Si bien existen más de cinco asociaciones dedicadas al trabajo con lalingüística, son las nombradas anteriormente las que de alguna maneradesarrollan procesos o eventos relacionados con la LC. De las cinco, una sededicaespecialmentealtrabajoconestametodología(Aelinco),dosdeellassonespañolas (Aelinco yAesla), dos son latinoamericanas (Alfal yAlsfal), y unarealiza sus actividades desde Estados Unidos, enfocada principalmente enestudiossobrelenguascomoelinglésyelespañol(AACL).

EventosrelacionadosconlaLC

Evento InstituciónorganizadoraCongresoInternacionaldeLingüísticadeCorpus Aelinco

AACL AmericanAssociationforCorpusLinguistics

JornadadeCorpusLingüístics:Constitució,EtiquetatgeiExplotación UniversidadPompeuFabraEscuelaInternacionaldeVeranodeLingüísticadeCorpus UniversidadPompeuFabraJornadadeDivulgacióndelaLingüísticadeCorpus/CorpusLinguistics:AnIntroductorySeminarandWorkshop UniversidaddeSalamanca

En2014,elúnicoeventoactivofueelCongresoInternacionaldeLingüísticadeCorpus,ensusextaedición;porsuparte,elAACLsellevaacabocadadosaños, por lo cual el último evento se celebró en la ciudad de San Diego(California), en 2013. Las Jornadas de Corpus Lingüístics ofrecidas por laUniversidad Pompeu Fabra no han tenido continuidad desde finales de los

Page 67: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

noventa,ylaEscuelaInternacionaldeVerano(2010),aligualquelaJornadadeDivulgación, ha tenido una sola presentación, efectuada en 2007. Estos datosdemuestranlafaltadetrabajoconjuntoenelámbitodela lenguaespañolaconrespecto a la LC, pues mientras que en inglés se cuenta con eventos anualescomo Corpus Linguistics Conference132, Summer School in CorpusLinguistics133, Workshop on Annotation134 y el International Workshop onTreebanksandLinguisticTheories135,enespañolsoloexisteuneventoanual.

GruposdeinvestigaciónyuniversidadesquetrabajanconlaLC

Dependencia Universidad País

CentrodeLingüísticaTeórica UniversidadAutónomadeBarcelona España

CentredeLlenguatgeiComputació(CliC) UniversidaddeBarcelona EspañaCorpusMultilingüedeEconomíayNegocios(Comenego) UniversidaddeAlicante EspañaElInstitutUniversitarideLingüísticaAplicada(IULA) UniversidadPompeuFabra España

GrupodeAnálisisdelasLenguasdeEspecialidad(GALE) UniversidadPolitécnicadeValencia España

GrupodeEstructurasdeDatosyLingüísticaComputacional UniversidaddeLasPalmasdeGranCanaria España

GrupodeFonética UniversidadAutónomadeBarcelona España

GrupoparaelEstudiodelaHistoriaLingüísticaIberoamericana UniversidaddeValladolid España

ILSEGrupodeInvestigación UniversidaddeAlmería EspañaInstitutoInteruniversitariodeLenguasModernasAplicadasdelaComunidadValenciana(Iulma) España

LaboratoriodeLingüísticaInformática UniversidadAutónomadeMadrid España

ResearchGroupforMultidimensionalCorpus-basedStudiesinEnglish(Muste) UniversidadedaCoruña España

GrupodeInvestigaciónProcesosdeGramaticalizaciónenlaHistoriadelEspañol(Programes)

UniversidadComplutensedeMadrid España

ValenciaEspañolColoquial(Val.Es.Co) UniversidaddeValencia EspañaLingüísticaAplicadaComputacional,EnseñanzadeLenguasyLexicografía(Lacell) UniversidaddeMurcia España

LingüísticaAplicadaComputacional,EnseñanzadeLenguasyLexicografía(Lacell)

UniversidadNacionalAutónomadeMéxico México

GrupodeIngenieríaLingüística(GIL) UniversidadNacionalAutónomadeMéxico México

GrupodeIngenieríaLingüística(GIL) UniversidadNacionalAutónomadeMéxico México

Page 68: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

LaboratoriodeEstudiosFónicos ElColegiodeMéxico MéxicoEscuelaLingüísticadeValparaíso UniversidaddeValparaíso Chile

GrupodeLingüísticaHispánica UniversidaddelosAndes(Mérida,Venezuela) Venezuela

InstitutodeInvestigacionesLingüísticas UniversidaddeCostaRica CostaRica

GrupodeInvestigaciónenLingüísticadeCorpus InstitutoCaroyCuervo ColombiaGrupodeInvestigaciónenTraducciónyNuevasTecnologías UniversidaddeAntioquia Colombia

En cuanto a los grupos de investigación y la divulgación de la LC en elámbito académico del español, se encuentran en la actualidad (2014)veinticuatro equipos de trabajo que se dedican a la creación o explotación decorpus,oaltrabajodesdelalingüísticacomputacionalbasadoencorpus136.Delos veinticuatro grupos, más de la mitad se encuentran en territorio español;solamentenuevesonlatinoamericanos,conunafuertepresenciamexicana.

Corpusnacionales

Corpus País Localización

1 Corpusdelespañolmexicanocontemporáneo1(CEMC) México http://www.corpus.unam.mx:8080/cemc/.

2 CorpushistóricodelespañoldeMéxico2(CHEM) México http://saussure.ii.unam.mx/chem/.

3 CorpuslingüísticodereferenciadelalenguaespañolaenChile3 Chile http://www.lllf.uam.es/ESP/Chile.html.

4CorpuslingüísticodereferenciadelalenguaespañolaenArgentina4

Argentina http://www.lllf.uam.es/ESP/Argentina.html.

Enespañol existen cuatro corpus representativosde lavariedadhabladadecadapaís.MéxicocuentaconelCorpusdelespañolmexicanocontemporáneoyelCorpushistóricodelespañoldeMéxico,losdosconaccesogratuitoenlínea,mientras que Chile tiene un Corpus de referencia del español de Chile yArgentinaunCorpusdereferenciadelespañoldeArgentina,losdosdonadosalCorpusdelespañol,deMarkDavies.Seencuentrantambiéncorpusnacionalescomo American National Corpus137 (Estados Unidos), British NationalCorpus138 (Inglaterra), Thai National Corpus139 (Tailandia), HungarianNationalCorpus140 (Hungría),Cˇeskýnárodní korpus141 (RepúblicaCheca) yHellenicNationalCorpus142(Grecia),entreotros.

Page 69: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

Corpusdelespañol

Corpus Corpus

1 ABC 42 Corpusoraldellenguajeadolescente(COLA)

2 Adquisición,desarrolloyrepresentacióndecategoríassemánticasenniñosdeedadescolar 43 Corpusoralpeninsular

3 Albayzín 44 Corpusoralysonorodelespañolrural(Coser

4 Alfal 45 CorpusparaelestudiodelespañolhabladoenSantiagodeCompostela-CSC

5 Almecor 46 CorpussociolingüísticodeMérida,Venezuela(CSMV)

6 AnálisisdelaconversacióndelaUniversidaddeAlcaládeHenares(Acuah) 47 Corpustextualdelespañolperiodístico

7 Análisisdeldiscursooral 48 Cráter8 Análisisdeldiscursopúblicoactual(ADPA) 49 Cumbre9 Briscoe 50 DIES-RTP

10 Caracas77 51 Diferenciasindividualesenlaadquisicióndellenguaje11 Caracas87 52 DIMEx10012 CATE 53 Disponibilidadléxicadelosadolescentes13 Cedel2 54 Elcorpusvirtualdelared14 Ceudex 55 ElGrial15 Corpus92 56 ElMundo1994-1995

16 Corpusanotadoconrelacionesdiscursivas-RSTSpanishTreebank 57 Espal

17 Corpusdecontextosdefinitorios(Corcode) 58 FAE-EspCan

18 Corpusdeconversacióncoloquial-Valenciaespañolcoloquial 59 Frecuenciadeelementosléxicosenmanualesdepreescolar

19 Corpusdedocumentoscoloniales(Mérida,Venezuela) 60 Gaudí

20 Corpusdedocumentosespañolesanterioresa1700 61 HamburgCorpusofArgentineanSpanish(HaCASpa)

21 CorpusdeencuestasdeAsuncióndeParaguay(CEAP) 62 Hopinion

22 CorpusdelassexualidadesenMéxico(CSMX) 63 LAN23 Corpusdereferenciadelespañolactual(CREA) 64 Legebidium

24Corpusdeverificacióndelsistemadediccionariosygramáticaselectrónicosdelespañol(CorVerifSDGEE)

65 Lejes

Page 70: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

25 Corpusdevocabulariodelniñode6a14años 66 Léxicoinformatizadodelespañol(Lexesp)

26 Corpusdelespañol 67Macrocorpusdelanormalingüísticacultadelasprincipalesciudadesdelmundohispánico(MC-NLCH)

27 Corpusdelespañolactual(CEA) 68 Multext

28 Corpusdelespañolmexicanocontemporáneo(CEMC) 69 Número

29 CorpusdelhabladeAlmería 70 PA85/86-Corpusdedígitos

30 CorpusdelNuevoDiccionarioHistóricodelEspañol(NDHE) 71 PA85/86-Corpusdeletras

31 Corpusdiacrónicodelespañol(Corde) 72ProyectoparaelEstudioSociolingüísticodelEspañoldeEspañaydeAmérica(Preseea)

32 Corpusdigitaldelespañolcolonialmexicano(Corecom) 73 SpanishFrameNet(SFN)

33 CorpushistóricodelespañoldeMéxico(CHEM) 74 Spatis

34 Corpusinformatizado:TextosdelespañoldeUruguay(Corin) 75 Tangora

35CorpuslingüísticodedefinicionesdecategoríassemánticasdepersonasmayoressanasyconlaenfermedaddeAlzheimer

76 Telémaco

36 CorpuslingüísticodereferenciadelalenguaespañolaenArgentina 77 TIC-0448/89

37 CorpuslingüísticodereferenciadelalenguaespañolaenChile 78 UAM-Treebank

38 Corpuslingüísticoeningeniería(CLI) 79 Variedadesurbanasandaluzas(VUA)

39 CorpusoraldelavariedadjuveniluniversitariadelespañolhabladoenAlicante(COVJ) 80 Vestel

40 Corpusoraldereferenciadelespañolcontemporáneo(Corlec) 81 Vox-Bibliograf

41 Corpusoraldereferenciadelespañolcontemporáneo

Además de los ya conocidos Corde, CREA yCorpus del español, existendiversos corpus en español hechos con diferentes fines; por ejemplo, algunoscorpusrealizadosporMéxico,VenezuelayParaguaysedonaronalCREA,comoel CEAP,Caracas 77 yCaracas 87. Los corpus que se presentan en la tablaanterior(tabla8)nocorrespondenatodoslosexistentesenlenguaespañola,perosímuestranunespectrodel lugardondeseencuentra laLCen relacióncon lalengua.Lamayoríade loscorpussonrepresentativosde lavariedad ibérica, loque denota poco desarrollo de recursos lingüísticos representativos de otrasvariedades del español. Cabe señalar que la mayor parte de ellos se puedeconsultaratravésdeinternet.Sibienlarelaciónentre laLCyelespañolescadavezmásfuerte, todavía

Page 71: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

son diversos los campos en los que se puede explorar. El uso de estametodología brinda la posibilidad de conocer mejor las características de lasvariedades de la lengua española; además, esta relación ofrece oportunidadescomo las que Berber (2011) plantea: oportunidad de innovación,interdisciplinariedad,creacióndecomunidad investigativaen lenguamaternayexploracióndelcontextolocal.Alespañollehacenfaltacorpusrepresentativosdecadapaís,diccionariosde

frecuencias,gramáticasbasadasenusosreales,corpusdeaprendicesysoftwareespecializados en la lengua; adicionalmente, el área científico-académica delespañol debe superar las barreras metodológicas y tecnológicas para ser máscompetitivosenelcampodelainvestigaciónlingüística,divulgarefectivamentepublicacionesenespañolyhacerquelaLCformepartedeloscurrículosdelospregrados y posgrados relacionados con la lingüística. De esta manera, larelaciónentrelaLCyelespañolseconsolidará.

121.Conrecursoslingüísticossehacereferenciaalaliteratura,losdiccionariosyloscorpus,entreotros.

122.Desdeel2003esteproyectoseconoceconelnombrede“ProyectodelanormacultahispánicaJuanM.LopeBlanch”.

123.Eltérminocorpusnoseutilizóduranteeldesarrollodelproyecto,peroelresultadofuelaconstitucióndeuncorpusnodigital.

124.http://preseea.linguas.net/.

125.Estainformaciónseencuentraactualizadaa2014.

126.http://preseea.linguas.net/Corpus.aspx.

127.http://corpus.rae.es/creanet.html.

128.http://corpus.rae.es/cordenet.html.

129.http://web.frl.es/DH/org/login/Inicio.view.

130.Lainterfazcorrespondealprogramainfo7rmáticoquepermitelainteraccióndelusuarioconelcorpus.

131.Paramásinformaciónsobrecolocacionesyfrecuencias,véaseelapartado“Característicasdeuncorpus”oelGlosario.

132.http://ucrel.lancs.ac.uk/.

133.http://ucrel.lancs.ac.uk/summerschool/corpusling.php.

134.http://www.ling.uni-potsdam.de/acl-lab/law2014/.

135.http://tlt13.sfs.uni-tuebingen.de/.

136.EsposiblequeexistanmásgruposquetrabajenconlaLC,peroestosveinticuatrosonlosquemástrabajoshandesarrolladoapartirdelametodología.

137.http://www.americannationalcorpus.org/OANC/index.html.

138.http://www.natcorp.ox.ac.uk/.

Page 72: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

139.http://www.arts.chula.ac.th/~ling/TNC/.

140.http://corpus.nytud.hu/mnsz/index_eng.html.

141.https://www.korpus.cz/.

142.http://hnc.ilsp.gr/en/.

Page 73: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

Consideracionesfinales

Asílascosas,eldesarrollodelaLCcontinúaenunmarcoextraordinariamenteinteresanteyenebullición.Lasimplicanciasquelaperspectivateóricaque(yaseaprofundaosuperficial)puedatraerconsigo(Hunston&Thompson,2006)anuncian―enalgunamedida―queestamosenmedio de un proceso de cambios y ajustes, y avanzando hacia unamirada cada vezmáscompleja y enriquecida de los objetos de estudio. Miradas que ciertamente potencian lasindagaciones empíricas del lenguaje y de las lenguas particulares, desdemúltiples puntos demirayhaciendoconfluiraproximacionesantesimpensadas(Parodi,2008,p.118).

La lingüística de corpus se constituye en una metodología para lainvestigaciónyelanálisisdedatosdelalenguaenuso.Sucampodeaplicaciónse expande cuando se recurre a herramientas informáticas, ya que permiten elalmacenamiento, la sistematización y la explotación de grandes cantidades demateriallingüístico;dichametodologíatomacadavezmásfuerzaysonmásloscorpusquesecreandíatrasdía.Apropósitodeesto,RafelySolercomentan:

Enlaactualidad,lacantidaddecorpusexistentesydeproyectosdeconstitucióndecorpuscrece cada día, hasta el punto de que se hace difícil dar una relación de los mismos. Haydirecciones web específicas que están actualizadas periódicamente, donde puede encontrarseinformaciónsobrediferentescorpus(2003b,p.59).

Algunas de estas páginas web en las que se puede encontrar informaciónsobrecorpusyherramientasparasuexplotaciónson:

http://www.meta-share.org/.http://www.essex.ac.uk/linguistics/external/clmt/w3c/corpus_ling/content/corpora/list/index2.htmlhttp://www.ling.ohio-state.edu/~dickinso/corpus.html.http://ucrel.lancs.ac.uk/#sec.https://www.ldc.upenn.edu/.http://www.uow.edu.au/~dlee/CBLLinks.htm.http://www.helsinki.fi/varieng/CoRD/corpora/.

Conestelibrosebusca,ademásdebrindarbasesteóricassobrelaLCyloscorpus, despertar el interés de estudiantes, profesores, académicos einvestigadores, para que exploren y utilicen la lingüística de corpus en susclases,proyectoseinvestigaciones,demaneraquesedifundaestametodología

Page 74: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

enelpanorama latinoamericano;poresto,nuestrasconsideraciones finalesvanencaminadashacialoquefaltahacerenestaárea:

Los corpus deben ser novedosos, representativos, variados yreutilizables.Construirunsinnúmerodecorpussimilares,queincluyanotrabajen losmismos fenómenos, solodesembocaen laacumulación,nosistemática,derecursoslingüísticos.Laslenguasconmáspesoculturalydemográficorequierenuncorpusdereferencia. Por eso, el español necesita corpus de cada variedadlingüística.Dada la variedad lingüística latinoamericana, se hace necesariodocumentar lasdiferenteslenguas, loquesugierelacreacióndenuevoscorpus.La LC y la explotación de corpus abren el espectro investigativo adiferentesáreasinteresadasenellenguaje,nosolamentealalingüística;estudios que responden a múltiples necesidades pueden resultar delanálisisdedatoslingüísticosdelalenguaenuso.

Aunque existen iniciativas como TEI (Text Encoding Iniciative)143, sedebebuscarlaestandarizacióndeparámetrosdeconstruccióndecorpus;de estemodo, elmaterial lo pueden utilizar investigadores de diversoscamposydisciplinas.Laofertadeherramientascomputacionalesparalaexplotacióndecorpusesvariada,peronosuficiente;porestoserequierelacreacióndenuevastecnologías, especialmente para el trabajo de la lengua española, conespecialénfasisenlosprocesosdeanotación.Laexplotacióndelawebcomocorpusrequiereatención,sobretododeestudiantes,profesores,académicoseinvestigadoreshispanohablantes.Las publicaciones científicas y académicas en español, tanto en libroscomoenrevistas,debenversemáspermeadasporlaLC,asícomosucedeenlenguascomoelinglés.Los programas universitarios de pregrado, posgrado e investigaciónrelacionados con el lenguaje deben incluir en sus currículos materiasrelacionadasconlalingüísticadecorpusylalingüísticacomputacional,especialmenteenLatinoamérica.Parodicomentaalrespecto:

Page 75: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

Lasuperacióndelabarrerametodológicaytecnológicanopuedeesperarsi queremos, efectivamente, producir investigación competitiva y deprimer orden, acompañada de publicaciones indexadas de ampliadifusiónennuestralengua.Ladocenciadepregradoydeposgradoexigequeasí sea,paraque―entreotros―la superaciónde labrechadigitaldeje de ser una utopía y el acceso al conocimiento especializado estédisponibledemocráticamente(2010,p.166).Losdepartamentosuniversitariosdelingüística,ingenieríaseinformáticapueden trabajar en proyectos conjuntos, de manera que se formenexpertoseneláreadelaLC.Lainvestigaciónenlingüísticadecorpusesunatareadelaacademia,lasentidadesgubernamentaleseinclusolasindustriales.La unión entre centros universitarios, editoriales y empresas detecnologíapuedencontribuiralacreaciónyexplotacióndecorpusy,porsupuesto,alacreacióndenuevasherramientasinformáticas.

143.VéaseelGlosario.

Page 76: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

Glosario

AnotaciónAdición de información lingüística (fonética, morfológica, semántica, etc.) acadaunodeloselementosdeuncorpus.

AnotaciónparalingüísticaAdicióndeinformaciónacadaunodeloselementosdeuncorpus,sobredatosno lingüísticos que acompañan las situaciones comunicativas, como signosfisiológicosoemocionales,elvolumendelavozyelritmo.

AnotaciónprosódicaAdición de información de elementos paralingüísticos propios de la oralidad,comolaentonación,laspausas,elritmoylosacentos,entreotros,acadaunodeloselementosdeuncorpus.

ArchivoinformatizadoConjunto de textos en soporte digital, de características diversas en cuanto afechas,estructurasytemas,quebuscalaconservacióndematerialtextual.

BibliotecadetextoselectrónicosColecciones de textos digitales, almacenados en un formato estándar yorganizados según áreas del conocimiento humano, con el fin de facilitar lasbúsquedas.

CoocurrenciaAparicionesfrecuentesdediferenteselementoslingüísticosdentrodeunmismocontexto.Ejemplo:lapalabradineroenuncorpusderevistasfinancierastieneunaelevadafrecuenciadeaparición,acompañadade laspalabras lavadoyde, formando laexpresiónlavadodedinero.

CodificaciónProceso de conversión del lenguaje natural a caracteres susceptibles deprocesamientoporprogramascomputacionales.

Coligación(Colligation)Secuenciadepalabrasenlaqueuntérminoléxicocoocurreamenudoconuna

Page 77: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

categoríagramatical.

ColocaciónSecuencia de términos léxicos que coocurren frecuentemente en una mismalengua.

ComponenteConstituyentedeuncorpusquecorrespondeacoleccionesdemuestrasdelenguaquecompartenunmismocriterio lingüístico,comolavariedad,elregistroylaprocedencia.

ConcordanciaListadetodaslasocurrenciasdeunapalabraotérminoespecíficodentrodeuncontextoonúmerodeterminadodeelementosquelaacompañanantesodespuésdesuaparición.

CorpusConjunto de textos en formato digital, recolectados, almacenados ysistematizadosdeacuerdoconcriterioslingüísticoscomomuestrarepresentativadeunalenguaovariedad.

Enfoquebasadoencorpus(corpus-based)Formadetrabajodesdelalingüísticadecorpusenlaqueelinvestigadorconocelateoría,tienehipótesisybuscavalidarlasorechazarlasmediantelosdatosdelcorpus.

Enfoqueguiadoporcorpus(corpusdriven)Forma de trabajo desde la lingüística de corpus en la que a partir de laobservación de patrones o fenómenos encontrados en un corpus se llega a laformulacióndehipótesis.

EstándardecodificaciónReferencia que permite entender, manejar y guiar los procesos y códigosempleadosporunsoftware.AlgunosestándaresparamanipulacióndecorpussonExpert Advisory Group on Language Engineering Standards (Eagles) y TextEncodingInitiative(TEI).

EtiquetaSecuencia de caracteres de algún lenguaje demarcado (xml, hatml, sgml) quecontiene información adicional acerca de los elementos del corpus, losdocumentosouncorpusengeneral.

Page 78: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

EtiquetadorProgramacomputacionalencargadodeadicionarcualquier tipode informaciónextraalcorpusysuselementos.

Etiquetadogramaticalomorfológico(part-of-speech,pos)Procesodeanotaciónenelqueseasignaunaetiquetaacadapalabradelcorpusdondeseindicalacategoríagramatical,segúnelcontexto.

FrecuenciaNúmerodevecesqueunmismoelemento(morfema,palabra,expresión,patróngramatical)aparecedentrodeuncorpus.

FuncionalismoEnfoquealateoríalingüísticaquebuscaexplicarlalenguaapartirdereferenciasdeuso.

InterfazgráficaProgramacomputacionalquepermiteyfacilitalainteraccióndelusuarioconelcorpus.

LenguajedeMarcasdeHipertexto(HypertextMarkupLanguage,html)Sistema de codificación utilizado para agregar etiquetas que indican alnavegadorcómoestructurarymostrarcontenido,especialmenteenlaweb.

LingüísticacomputacionalDisciplina de la lingüística aplicada y la inteligencia artificial encargada delestudio, diseño y elaboración demodelos computacionales capaces de simularlashabilidadeslingüísticasdelserhumano.

MetadatoInformación estructurada que describe el contenido y las características de losdatos,lostextosyloscorpus,yqueasuvezpermitehacerbúsquedasdentrodelacolección.

Palabraclave(keyword)Término que, por su alta frecuencia de aparición en comparación con otroscorpus,seconvierteenpropioyrepresentativodelcorpusalquepertenece.

ProgramadeconcordanciasHerramientas computacionales de análisis textual que generan listas deocurrenciasdepalabrasquegeneralmentevanjuntas.

Page 79: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

RecursoslingüísticosMaterialpropioyrepresentativodeunalenguaovariedad,comolaproducciónliteraria,losdiccionariosyloscorpus.

RepresentatividadRasgo ideal de un corpus para comportarse como un modelo de la lenguamostrandosuspartesytendencias,yconstituyéndoseenunareferencia.

SistemadecodificaciónLenguaje compuesto por caracteres computacionales capaz de representar loscaracteres propios de las diferentes lenguas.Algunos sistemas de codificaciónsonASCII,ASCIIExtendidoyUnicode.

SubcorpusDivisióndeuncorpusenporcionesmáspequeñasconcaracterísticascomunesyquepuedenfuncionardemaneraindependiente.

TokenUnidad informática o componente léxico (palabra) compuesto por caracterespropiosdealgúnlenguajedeprogramación,enlosquesedividecadaunodelostextosdeuncorpus.

TranscripciónProceso manual o automático en el cual la lengua hablada se representa concaracteres escritos. Puede ser fonética cuando se representan los sonidos delhabla y prosódica cuando se representan, mediante caracteres gráficos,fenómenossuprasegmentalesdelalenguacomolaentonaciónyelacento.

Page 80: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

Bibliografía

Alcántara, M. (2007). Introducción al análisis de estructuras lingüísticas encorpus.Aproximaciónsemántica.Madrid:UAMEdiciones.

Atkins, S., Clear, J.&Ostler, N. (1992). Corpus design criteria.Literary andLinguisticComputing,7(1),1-16.doi:10.1093/llc/7.1.1.

Baker,P.,Gabrielatos,C.,KhosraviNik,M.,Krzyzanowski,M.,McEnery,T.&Wodak, R. (2008). A useful methodological synergy? Combining criticaldiscourseanalysisandcorpuslinguisticstoexaminediscoursesofrefugeesandasylumseekersintheUKpress.Discourse&Society,19(3),273-306.Doi:10.1177/0957926508088962.

Baker,P.&Hardie,A. (2006).AGlossaryofCorpusLinguistics.Manchester:EdinburghUniversityPress.

Baquero, J. (2010).Lingüística computacional aplicada. Bogotá: UniversidadNacionaldeColombia.

Berber, T. (2011). Corpus linguistics in South America. En Perspectives onCorpus Linguistics (pp. 29-45). Amsterdam/Philadelphia: John BenjaminsPublishing.

Biber,D. (1993).Representativeness in corpusdesign.Literary and LinguisticComputing,8(4),243-257.

Biber,D., Conrad, S.&Reppen, R. (1998).Corpus Linguistics: InvestigatingLanguageStructureandUse.Cambridge:CambridgeUniversityPress.

BNCConsortium. (2007).BritishNationalCorpus [Text].Recuperado el 7 demarzode2014dehttp://www.natcorp.ox.ac.uk.

Chafe,W. (1992).The ImportanceofCorpusLinguistics toUnderstanding theNature ofLanguage.EnDirections inCorpus Linguistics: Proceedings ofNobelSymposium82Stockholm,4-8August1991 (pp.79-97).Estocolmo:WalterdeGruyter.

Chomsky,N.(1966).Linguistiquecartésienne.París:Seuil.Cicres, J. (2011).La lingüística forenseyelusode loscorpus lingüísticos.En

ActasdelIIICongresointernacionalde lingüísticadecorpus.Tecnologíasdelainformaciónylascomunicaciones:presenteyfuturoenelanálisisdecorpus.Valencia:UniversidadPolitécnicadeValencia.

Corpus Linguistics: Method, Analysis, Interpretation - Future Learn (2014).

Page 81: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

Course, Lancaster University. Recuperado dehttps://www.futurelearn.com/courses/corpus-linguistics/todo/241.

Cortez,Godínez,J. (2010).Elcorpusadhoccomoherramienta de traducción.En Memorias del VI Foro de Estudios en Lenguas Internacionales.Chetumal:UniversidaddeQuintanaRoo.

Cruz, M. (2012). Lingüística de corpus y enseñanza del español como 2/L.Madrid:ArcoLibros.

Davies,M. (s.f.). Corpus del español. Recuperado el 7 de marzo de 2014 dehttp://www.corpusdelespanol.org.

Economic and Social Research Council (2008). BSL Corpus Project.Recuperadoel28defebrerode2014dehttp://www.bslcorpusproject.org.

Flórez, L., Montes, J., Mora, S., Rodríguez, M., Figueroa, J. & Lozano, M.(1982).Atlaslingüístico-etnográficodeColombia(ALEC).Bogotá:InstitutoCaroyCuervo.

Francis,N.,Kučera,H.&Mackie,A.W.(1982).FrequencyanalysisofEnglishusage:lexiconandgrammar.Boston:HoughtonMifflin.

González,A.&Otálora,H.(1986).ElhabladelaciudaddeBogotá:materialesparasuestudio.Bogotá:InstitutoCaroyCuervo.

Gries, S. (2009). What is Corpus Linguistics? Language and LinguisticsCompass,3(5),1225-1241.doi:10.1111/j.1749-818X.2009.00149.x.

GrupodeTecnologíadelHablade laUniversidadPolitécnicadeMadrid (s.f.).Corpus lingüísticos. Recuperado dehttp://lorien.die.upm.es/juancho/pfcs/AJP/cap4.pdf.

Hrušková, J. (2008). Los corpus crea y Corde en el contexto de los corpuslingüísticos.

ICE Teams (1990). International Corpus of English (ice). Recuperado el 7 demarzode2014dehttp://ice-corpora.net/ice.

Instituto Cervantes (2014). El español: una lengua viva. Madrid: InstitutoCervantes.

Kabatek, J. (2012). ¿Es posible una lingüística histórica basada en un corpusrepresentativo? Recuperado dehttps://www.academia.edu/2299020/_Es_posible_una_linguistica_historica_basada_en_un_corpus_representativo

Kennedy,G.(1998).Anintroductiontocorpuslinguistics.Londres,NuevaYork:Longman.

Lastra, Y. (2008). Futuro perifrástico y futuro morfológico en el corpussociolingüístico de la Ciudad deMéxico. Presentado en el XV CongresoInternacionaldelaAlfal.Montevideo.

Page 82: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

Leech,G.(1991).Thestateoftheartincorpuslinguistics.Recuperadoel9deagosto de 2013 dehttp://ccl.pku.edu.cn/doubtfire/CorpusLinguistics/Introduction/The%20state%20of%20the%20art%20in%20corpus%20linguistics.htm

Leech, G. (2011). Principles and applications of Corpus Linguistics. EnPerspectivesonCorpusLinguistics(pp.155-170).Amsterdam/Philadelphia:JohnBenjaminsPublishing.

López, F., Méndez, C., Sierra, G. & Solórzano, J. (2013). Exploración demedidas estilométricas para atribución de autoría. Presentado en el IIISeminariodeLingüísticaForense.México,D.F.

Maher,J.&Groves,J.(2007).Chomskyparatodos.Barcelona:Paidós.McEnery, T. (2001). Corpus Linguistics: An Introduction. Manchester:

EdinburghUniversityPress.McEnery, T. & Hardie, A. (2011).Corpus Linguistics: Method, Theory and

Practice.Cambridge,NuevaYork:CambridgeUniversityPress.McEnery, T. & Wilson, A. (2012). ICT4LT Module 3,4 Corpus Linguistics.

Recuperado el 9 de agosto de 2013 de http://www.ict4lt.org/en/en_mod3-4.htm.

McEnery,T.,Xiao,R.&Tono,Y.(2006).Corpus-basedLanguageStudies:Anadvancedresourcebook.Londres,NuevaYork:Routledge.

Melero, M., Badia, T. & Moreno, A. (s.f.-b). La lengua española en la eradigital.Barcelona:Springer.

Mercado,H.(2008).Fundamentosdelalingüísticadecorpus.Montes, J., Mora, S., Espejo, M., Figueroa, J., Lozano, M., Ramírez, R. &

Duarte,G.(1998).ElespañolhabladoenBogotá.Bogotá:InstitutoCaroyCuervo.

Palacios, M. & Sierra, G. (2011). Corpus para el análisis del discurso delconcepto ad hoc- cracia. En Actas del III Congreso Internacional deLingüísticadeCorpus.Tecnologíasdelainformaciónylascomunicaciones:presenteyfuturoenelanálisisdecorpus.Valencia:UniversidadPolitécnicadeValencia.

Parodi, G. (2005). Discurso especializado y lingüística de corpus: hacia eldesarrollodeunacompetenciapsicolingüística.BoletíndeLingüística, 23,61-88.

Parodi, G. (2007a). Lingüística de corpus: puntos de mira. EnLingüística decorpusydiscursosespecializados:puntosdemira (pp.13-30).Valparaíso:EdicionesUniversitariasdeValparaíso.

Parodi, G. (2007b). Working with Spanish corpora. Londres, Nueva York:

Page 83: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

Continuum.Parodi, G. (2008). Lingüística de corpus: una introducción al ámbito. RLA.

Revista de Lingüística Teórica y Aplicada, 46(1), 93-119.doi:10.4067/S0718-48832008000100006.

Parodi, G. (2010). Lingüística de corpus: de la teoría a la empiria.Madrid/Frankfurt:Iberoamericana.

Parodi,C.&Carrera,M.(2011).InformedelasactividadesdelproyectoparalahistoriadelespañoldeAmérica.Madrid:Alfal.

Peraita,H.&Grasso,L.(2010).Corpuslingüísticodedefinicionesdecategoríassemánticas de sujetos ancianos sanos y con la enfermedad de Alzheimer.Una investigación transcultural hispano-argentina. Madrid, Buenos Aires:Fundaciónbbva.

Procházková,P. (2006).Fundamentosde la lingüísticadecorpus.“Concepciónde los corpus y métodos de investigación con corpus”. Recuperado dehttp://prochazkova.de/fundamentos_de_la_ling%C3%BC%C3%ADstica_de_corpus.pdf

Rafel,J.&Soler,J.(2003).Elprocesamientodecorpus.Lalingüísticaempírica.EnLastecnologíasdellenguaje(p.295).Barcelona:Editorialuoc.

Rea,C. (2010).GettingonwithCorpusCompilation: fromTheory toPractice.ESPWorld,9.

RealAcademiaEspañola(2001).Diccionariodelalenguaespañola (22.aed.).Madrid:Espasa.

RealAcademiaEspañola(s.f.-a).Corpusdereferenciadelespañolactual(crea).Recuperadoel7demarzode2014dehttp://corpus.rae.es/creanet.html.

Real Academia Española (s.f.-b). Corpus diacrónico del español (Corde).Recuperadoel7demarzode2014dehttp://corpus.rae.es/cordenet.html.

Rojo,G.(2008).Lingüísticadecorpusylingüísticadelespañol.PresentadoenelXVCongresodelaAlfal.Montevideo.

Rojo, G. (2009). Sobre la construcción de diccionarios basados en corpus.Revista Tradumàtica. Recuperado dehttp://webs2002.uab.es/tradumatica/revista/num7/articles/02/02art.htm.

Semino, E. (2008). Metaphor in discourse. Cambridge, UK; Nueva York:CambridgeUniversityPress.

Semino, E. (2013).Corpus methods and a questionnaire for the diagnosis ofpainsymptoms.PresentadoenUcrelcrs,LancasterUniversity.

Sinclair,J.(1991).Corpus,concordance,collocation.Oxford:OxfordUniversityPress.

Soler, V. (2007). Patrones lingüísticos para la búsqueda de información

Page 84: Lingüística de corpus - Caro y Cuervo · 2018. 4. 28. · lingüísticos, se comenzó con una indagación sistemática sobre la bibliografía existente en LC, las universidades,

conceptualenelcorpustextualespecializadodelacerámicaTXTCerama(p.14). Presentado en Jornades de Foment de la Investigació. Valencia.Recuperadodehttp://www.uji.es/bin/publ/edicions/jfi10/trad/14.pdf.

Tognini-Bonelli,E.(2001).Corpuslinguisticsatwork.Amsterdam/Philadelphia:JohnBenjaminsPublishing.

Torruela, J. & Llisterri, J. (1999a). Diseño de corpus textuales y orales. EnFilologíaeinformática:nuevastecnologíasenlosestudiosfilológicos (pp.45-77).Barcelona:Milenio.

Venegas, R. (2010). Lingüística de corpus: métodos y herramientas para elanálisis del discurso escrito. Recuperado dehttp://www.slideserve.com/ellie/ling-stica-de-corpus-m-todos-y-herramientas-para-el-an-lisis-del-discurso-escrito.

Viana, V., Zyngier, S. & Barnbrook, G. (2011). Perspectives on corpuslinguistics.Amsterdam/Philadelphia:JohnBenjaminsPublishing.

Villayandre,M. (2006). Lingüística de corpus. Recuperado el 9 de agosto de2013dehttp://fhyc.unileon.es/Milka/LCII/LC1.htm.