Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
JulioAlexánderBernalChávez
DianaAlejandraHincapiéMoreno
Lingüísticadecorpus
©InstitutoCaroyCuervo©JulioAlexánderBernalChávez©DianaAlejandraHincapiéMoreno
ISBN978-958-611-372-4(e-Book).
INSTITUTOCAROYCUERVOSEDECASADECUERVOCalle104–69,Bogotá
IMPRENTAPATRIÓTICASedeYerbabuenaAutopistaNorte,km9,300m
Todoslosderechosreservados.Estapublicaciónnopuedeserreproducidaniensutodoniensuspartessinelpermisopreviodelaeditorial.
Contenido
LingüísticadecorpusIntroducciónDefinicióndelalingüísticadecorpusDefinicióndecorpusCaracterísticasdeuncorpusTipologíadeloscorpus
MediodeproduccióndelostextosNúmerodelenguasEspecificidaddelostextosDistribucióndelostextosTamañodelasmuestrasrecogidasInformaciónextradelostextosDocumentaciónqueacompañalostextos
HistoriadelalingüísticadecorpusUsosdeloscorpus
UsosgeneralesyposibilidadesqueofrecenloscorpusElusodeloscorpussegúnladisciplina
LaconstruccióndeuncorpusDiseñoyelaboracióndecorpusObtencióndepermisosycapturadedatosPlaneaciónypreparacióndelsistemadealmacenamientoProcesamientodelcorpus
LalingüísticadecorpusylalenguaespañolaConsideracionesfinalesGlosarioBibliografía
Introducción
Losavancesenlascienciasdel lenguajeysus interdisciplinasdebenbeneficiarsedelusoadecuado de las evidencias empíricas provenientes de diversas fuentes (protocolos deverbalización, textos originales, elicitación de datos, técnicas estadísticas, mecanismosintrospectivos,etc.);aúnmás,mayorrobustezseconseguirásiseempleamásdeunmediodeaproximaciónalfenómenoenindagación.Lainformaciónconcurrenterecolectadaasífortaleceyproveeresultadoscerterosquejustificaneldesarrolloacumulativodelconocimientocientífico(Parodi,2008,p.94).
Hasta 1970, la lingüística de corpus (LC) la estudiaba únicamente unreducidonúmerodeinvestigadoresyacadémicos,einclusoseutilizabacasidemanera exclusiva para el análisis de la lengua inglesa; pero con el paso deltiempo,loscambiosdeparadigmaslingüísticosylaincursióndelatecnologíaenel campo de las ciencias humanas, la LC se ha constituido hoy día en unametodologíalingüísticaenaugeydegranvalor,envirtuddelasfacilidadesquebrindapararecolectar,sistematizar,analizaryexplotarmuestrasdelenguarealoenuso.Aunqueexistebibliografía sobre laLC, lamayoríadeesta seencuentraen
inglés o se ha escrito con base en la experiencia de investigadores españoles,pero al ser una metodología joven es largo el camino teórico y práctico quequeda por recorrer. Pensando en este camino, con el presente libro se buscadelimitar un área poco estudiada hasta el momento en Latinoamérica,brindándoles a sus lectores herramientas que les permitan comprender lametodología,reflexionarsobreestayaplicarla.LaescrituradeestelibronacedentrodelproyectodeinvestigacióndelGrupo
deLingüística deCorpus del InstitutoCaro yCuervo (ICC).A lo largo de suhistoria,el Institutohadesarrolladoinvestigacionessobre lenguaespañolaque,porsumagnitudeimportancia,sedebenpreservar,divulgaryexplotar;taleselcaso delAtlas lingüístico y etnográfico de Colombia1, los estudios del hablaculta2yElespañolhabladoenBogotá3.Querercumplirestosobjetivosnosllevócasualmente a la lingüística de corpus, ya que reconocemos en esta lasposibilidades para preservar, digitalizar, almacenar, sistematizar, explotar yponer al servicio del público académico y general los materiales de lasinvestigaciones.Sin embargo, para poder hacer uso de esta metodología y preservar los
archivosresultantesdelasinvestigacionesdelInstitutoeranecesarioconocerlaafondo,loqueimplicabaunaformaciónteóricaantesdelapráctica.Esasícomoen 2013, pensando en la apertura de este grupo de investigación y lapreservación del material del ICC por medio de la creación de corpuslingüísticos, se comenzó con una indagación sistemática sobre la bibliografíaexistente en LC, las universidades, facultades y grupos de investigación quetrabajanconestametodologíaenelmundo,laspublicacionesdedicadasaltemayloscorpusexistentes.Unavezrecopiladaestainformaciónyconunabasededatosconstantemente
alimentada, hubo necesidad de explorar textos teóricos, para lo cual duranteochomesesdelecturaseextrajeroncitasysehicieroncomentariosdediferentestextos sobre la LC. De manera paralela, se desarrollaba en el grupo deinvestigaciónelmismoprocesode formación teóricay lecturaenel campodelingüística computacional, lo que facilitaba la discusión de conceptos y laaclaracióndedudas.A finales de 2013, ya culminado el proceso de lectura, se elaboró la
macroestructuradeunartículoquereflejaríaelestadodelartedelaLC,peroconunacaracterísticaespecial:unavisiónsobre laperspectivadeestametodologíaen y sobre lengua española. El proceso de escritura comenzó en 2014, conrevisióny retroalimentaciónconstantesporpartede losautores,en lasque loscomentariosyanotacionesibanyveníancapítuloporcapítulo;seculminóconlaescritura,yanodeunartículo,sinodeunlibro.La obra contiene en forma general los siguientes temas: definición de la
lingüística de corpus; definición, características y tipología de los corpus;historiadelaLC;usosdeloscorpuslingüísticos;creacióndecorpus,yrelaciónentrelaLCylalenguaespañola.La ideaesqueeste libropermita a estudiantes,profesores e investigadores
aproximarse de un modo sencillo y claro a la lingüística de corpus, con elpropósitodecomenzaraemplearlaenlasinvestigacioneslingüísticasenelpaísyenLatinoamérica,ademásdepensaryconstruircorpusrepresentativosdelasdiferentes variedades del español e incluso de las lenguas aborígenesamericanas.Estudiar la LC y construir corpus es una tarea que no solamente atañe a
lingüistas. Es una labor interdisciplinaria que permite construir conocimientodesdediversasperspectivasyqueinclusoinvolucraaentidadesgubernamentalese industriales; gubernamentales, demanera que posicionen el país y la lenguaespañola, dadas sus características culturales y demográficas, por medio de
recursos lingüísticos como los corpus y con recursos académicos como laproduccióncientífica,resultadodeinvestigacionesbasadasenLC,eindustriales,encuantoalanecesidaddecrearherramientasinformáticas,materialdidácticoydiccionarios,entreotros,basadosenlingüísticadecorpus.Paracerrar,cabetenerenmenteelenunciadodeMarCruzPiñol:“Eltrabajo
concorpusrepercuteenlasaplicacionesdelalingüística,enlametodologíadelainvestigación y en los propios fundamentos teóricos del estudio del lenguaje”(2012,p.28).Esperamosquetraslalecturadelpresentelibro,todolectorpuedareconocer el impacto que esta metodología tiene, y aplicar sus principios ainvestigacionesveniderasyconstruccionesdecorpusfuturos.
1.Flórezetal.,1982.
2.GonzálezyOtálora,1986.
3.Montesetal.,1998.
Definicióndelalingüísticadecorpus
¿Qué es la lingüística de corpus? Autores como Geoffrey Leech (1991)argumentanquelaLCesunateoríalingüísticaconbaseentecnologías,mientrasqueTonyMcEnery (2001)dejade ladoestaconcepción teóricadel lenguajeyoptapordefinirlacomounametodologíaparaelanálisisdelalengua,definiciónaceptadaenelmundoacadémicostrictosensu.LabibliografíasobreLCesamplia,especialmenteenloqueserefierealas
produccionesenlenguainglesa;enelcasodelespañolyenLatinoamérica,ChileesunodelospaísesquemástrabajoshanrealizadoenLC.Venegas(2010,p.26)yParodi(2010,p.14),investigadoreschilenos,coincidenenquelalingüísticadecorpusconstituyeunconjuntodeprincipiosmetodológicosapoyadosentécnicasestadísticasycomputacionalesparaestudiardatosrealesdelalengua.Ennuestrocaso,partimosdequelalingüísticadecorpusesunametodología
que se encarga de sistematizar y analizar conjuntos extensos de datos orales,escritosovisualesdeunaovariaslenguas,ordenadosconcriterioslingüísticos,literarios, culturales y sociales, con el propósitodedar cuentade la lengua enuso,valiéndosedeherramientascomputacionalesyestadísticasque facilitanelacceso,almacenamientoyanálisisdelosdatosdesdeconcepcionesdiversas.LaLCbasasuaplicaciónenlosiguiente:
Lalenguaenusocomoinsumo(corpusconformadospormuestrasrealesdelenguaoraloescrita).Elanálisissistemáticodelalengua(análisisqueseajustaaunconjuntodereglasestrictasderecolección,almacenamientoyanotación).Laposibilidaddetrabajardesdeunenfoquecualitativoocuantitativoenunainvestigación(porejemplo,desdelasobservacioneseintuicionesdelos investigadores y desde resultados cuantificables, como listas depalabras).
Dadas estas tres características, la LC toma gran fuerza cuando elfuncionalismolingüístico,comoreacciónalgenerativismo, leda importanciaalafuncióncomunicativaysocialdellenguajeynosecentra—talcomolohacíael generativismo— en un solo aspecto, como la sintaxis o la explicación de
estructuras y principios del lenguaje desde la perspectiva de adquisiciónindividual4.GiovanniParodicomentaalrespecto:
Algunos de estos aspectos resultaron descuidados desde los estrechos límites delestructuralismosaussureanoydelgenerativismochomskiano,debido―enparte―aqueelusode la lengua (paroleo actuación, segúncorresponda) era consideradodemasiadocambiante eimpredecible y, por consiguiente, inadecuado como objeto de ciencia. Desde la LC, con eldespuntardelmediosigloXX,sonmuchosloslingüistasqueanhelanindagarelusolingüístico,tal como es producido, comunicado y comprendido entre hablantes/escribientes yoyentes/lectoresrealesyensituacionesconcretasyparticulares(2008,p.97).
Además,laLCcomienzaadarlesgranvalornosoloalalenguaescritasinotambién a la lengua oral, puesto que su materia prima es la lengua en uso.Adicionalmente, la inclusión de técnicas estadísticas y de herramientascomputacionalesparaelprocesamientoyelanálisisde la informaciónhacedelosdatosevidenciacientíficamuchomásobjetiva,puessepasade la intuicióndel investigador como única partida al análisis y la explotación de datoscuantificables, lo que lleva a la posibilidad de unir técnicas cuantitativas ycualitativas;estopermitetenerunacercamientoyhacerunanálisismásampliodelosdatos,yaquepuedecubrirvariosaspectosdelalengua,desdeloformalhastalosocial.Algunas disciplinas pueden usar la lingüística de corpus, desde diversos
enfoquesyconaproximacionescuantitativasycualitativas;ejemplodeestosontrabajos como Metaphor in Discourse, de Elena Semino (2008); A UsefulMethodological Synergy? Combining Critical Discourse Analysis and CorpusLinguistics toExamineDiscoursesofRefugeesandAsylumSeekers in theUKPress, de Paul Baker (2008); British Sign Language Corpus Project, delEconomic and Social Research Council (2008), y Corpus Method andDiagnosticQuestionnaireforChronicPain,deElenaSemino(2013),enlosquese demuestra cómo se puede llegar a conclusiones pormedio del lenguaje enáreas como el análisis del discurso, la política, la economía e incluso lamedicina.Lasbasesdeaplicacióndeestametodología,quealavezseconstituyenen
ventajas,sonlassiguientes:
Prioridadalalenguaenusoescritayoral.Aproximaciónalosdatosdeunamaneracuantitativaycualitativa.Herramientaaptaparadiferentesdisciplinas.
A propósito del tema,TonyMcEnery (2014) establece, en su curso virtual
CorpusLinguistics:Method,Analysis,Interpretation,queel trabajoconcorpuspermite tomar como base grandes cantidades de datos, lo que muestra lastendenciasdelalenguaenuso;revelafenómenosocasosqueseríandifícilesdeencontrar a simplevista opor intuición, e igualmente facilita la investigación,puesto que las herramientas computacionales ahorran tiempo y son bastanteprecisas.La lingüística de corpus no siempre fue una metodología de fácil
implementación.En los años cincuenta y sesenta, por ejemplo, la recolección,sistematización, anotación y análisis de datos lingüísticos demandabanmuchotiempoycapitalhumano,porvariasrazones:losprocesosdebíanllevarseacabomanualmente,elpapelpodíadañarseconfacilidad,eranecesariotenerampliosespaciosparaarchivarlosdocumentosyunordenestrictoparanoconfundirlos,losinvestigadoresdebíancontarunaporunalaspalabrasdelostextosparasaberdequématerialdisponían,ademásdequeteníanqueanalizarcadadatoparaasídeterminar las características semánticas, sintácticas y morfológicas de cadatérmino5.Peroconlallegadadelaeratecnológica,loscomputadoresylosprogramas
informáticos se pusieron a disposición de la LC, de tal manera que laconstrucciónylaexplotacióndecorpusseconvirtieronenprocesosmásrápidos,segurosyconfiables.PorestolaLCseconcibeenlaactualidadcomolingüísticadecorpuscomputacional, y aunqueno seuse en el nombre constantemente lapalabra“computacional”,sedaporsentadoquesehabladecorpusdigitales,nosolo por el modo en que están almacenados y presentados, sino porque loscomputadores, los sistemas informáticos, los softwares y hasta la web seconvirtieronenelementosbásicosparalasinvestigacionesbasadasencorpus.Es común encontrar los términos lingüística de corpus computacional y
lingüísticacomputacionaldecorpus,yesmáscomúnaúncreerqueserefierenalomismo,ysibienestánaltamenterelacionadosyambaslingüísticashacenusolaunadelaotra,sontérminosdiferentes.Porunlado, la lingüísticadecorpuscomputacional tomaherramientas computacionales (hardwareysoftware) paraconstruiryexplotarcorpus,mientrasquelalingüísticacomputacionaldecorpustoma los corpusdesarrolladospor la lingüística de corpus computacionalparaasí estudiar el lenguaje natural y crear modelos lógicos aplicados a variosprogramasinformáticos, loscualespermitenque lasmáquinaspuedanprocesarlenguaje natural y formar parte de situaciones comunicativas, como losprogramasdereconocimientodevoz,deprocesamientodetextoylatraducciónautomática.Esasícomopodemos lograrque teléfonosmóvilesejecuten tareas
por medio del reconocimiento de voz o que nuestros computadores corrijanautomáticamentelostextosqueescribimos.Además de cumplir como herramienta para diversas disciplinas, existen
también enfoques disponibles para el trabajo con corpus6. Tognini-Bonelli(2001)losdenominacorpus-based (basadoencorpus)ycorpus-driven (guiadoporcorpus).GiovanniParodiplantealasiguienteexplicación:
enelprimercaso,elobjetivoeselmanejodeunmétodo(“basadoencorpus”)quepermitaponer a prueba categorías o ejemplificar teorías y descripciones ya formuladas […] En elsegundocaso,ellingüistabuscairmásalládelosejemplosparadarsustentoasusargumentos;así,desdeelenfoque“guiadoporelcorpus”delalingüísticadecorpus, lateoríanoexistedemaneraindependientedelaevidencia(2010,p.47).
En otras palabras, en una aproximación basada en corpus el investigadorconoce la teoría, tiene hipótesis y lo que busca es validarlas o rechazarlasmediantelosdatosdelcorpus,entantoqueenlasegundaopción,enelenfoqueguiado por corpus, es la observación de ciertos patrones o fenómenosencontradosenuncorpuslaquellevaalaformulacióndeunaovariashipótesis,loquenosignificaqueunainvestigaciónnopuedavalersedeambosenfoques.En general, la LC es una herramienta que permite recopilar, almacenar y
explotar grandes cantidades de textos con información lingüística natural;además,ponealinvestigadorenelpapeldeobservadoryanalistadedatos,yleda la posibilidad de valerse de herramientas informáticas que arrojaninformación sobre patrones lingüísticos (colocaciones, frecuencias,concordancias, etc.7), el enriquecimiento de los textos con información extra(procesosdeanotación8)yelanálisisdemúltiplesparámetrosalmismotiempo.Aunque los corpus no representan la lengua en su totalidad ni explican losfenómenoslingüísticos(tareadelosinvestigadores),sícontienendatosobjetivosque permiten la descripción de la lengua en uso, el análisis sistemático y laposibilidaddetrabajardesdediversasdisciplinas.
4.Véaseelapartado“Historiadelalingüísticadecorpus”paraprofundizarenlarelacióndelaLCyelfuncionalismolingüístico.
5.Sibienesciertoqueenlaactualidadaúnsehacenanálisisyanotacionesmanualesencorpuspequeñosypordecisióndelosinvestigadores,lamayoríadeloscorpus—enespeciallosdegrandesdimensiones—sevalendeherramientasinformáticasylógico-matemáticasparallevaracaboestosprocesos.
6.Parainformacióndetalladasobreelconceptodecorpus,véaseelapartadoDefinicióndecorpus.
7.VeáseGlosario.
8.Ibid.
Definicióndecorpus
Según el Diccionario de la lengua española (Real Academia Española,2001),uncorpuscorrespondeaun“Conjuntolomásextensoyordenadoposiblede datos o textos científicos, literarios, etc., que pueden servir de base a unainvestigación”. A partir de esta definición, diferentes recopilaciones de textospodríandenominarsecorpus,cualquierconjuntodedatosserviríacomomateriallingüísticoparaunainvestigación,porloquedichomaterialarrojaríaresultadosconfiables; pero esto, en términos prácticos, no es correcto; en tal sentido, esnecesarioaclararqueexistentrestiposdecoleccionestextuales:
Elarchivo(informatizado).Labibliotecadetextos(electrónicos).Elcorpus.
El archivo informatizado tiene como objetivo principal la conservación dematerial.Estaprimeracolecciónhacereferenciaaunoomásconjuntosdetextosensoportedigital,concaracterísticasdiversas, incluyendofechas,estructurasytemasvariados9.Porsuparte,labibliotecadetextoselectrónicos10correspondea una o varias colecciones de textos digitales, almacenados en un formatoestándar y organizados según áreas del conocimiento humano11 para su fácilacceso;yporúltimo,uncorpusinformatizadoserefiereaunconjuntodetextosenformatodigital,aligualquelosanteriores,perorecolectados,almacenadosysistematizadosdeacuerdoconcriterioslingüísticos.Lo que diferencia principalmente un corpus de otras colecciones de textos
sonloscriteriosdeselecciónysistematización,loscualessevenreflejadosenlainformación que acompaña los datos lingüísticos. Los criterios pueden serexternos e internos. Los externos corresponden a información paratextual, esdecir,datosquehacen referenciaalmarcoenelqueel texto seproducecomoforma de comunicación, conocidos también comometadatos12, entre los queestánlosnombresdelosautoreseinformaciónsobrelasituacióncomunicativa,el nivel social de los participantes, el año de producción, etc. Estos datosfacilitanlastareasderecuperacióndelainformación.
Figura1.CorpusdelasInvestigacionesdelInstitutoCaroyCuervo.
Los datos internos, por su parte, se refieren a elementos lingüísticos(morfemas, fonemas, lexemas o cualquier unidad o categoría lingüística),fenómenos lingüísticos en cualquier nivel de la lengua, tales como yeísmo,seseo, dequeísmo, apócope, metonimia, onomatopeya, etc., o patroneslingüísticos13quecorrespondenaestructuras lingüísticasyparalingüísticasqueutilizamos para organizar el discurso, inmersas dentro de los textos. Aunqueexistenautoresqueconsideranqueloscorpussolodebenserobjetodeanálisisensímismos,estáclaroqueunadelasventajasdeaproximaciónconcorpusesque permiten la inclusión de diversas disciplinas14, tales como lasociolingüística, la pragmática, la fonética, el análisis del discurso y lasemántica, lo que hace posible enriquecer los corpus mediante el uso decategoríasprovenientesdevariasáreasdelconocimiento.A la vez, los corpus están divididos en subcorpus y componentes. Los
subcorpusson lasdivisionesqueseefectúandentrodelcorpusengeneral;porejemplo,uncorpusdenominadoCorpusdelasInvestigacionesdelInstitutoCaroy Cuervo (figura 1) podría contar tanto con el Subcorpus Oral de lasInvestigacionesdelInstitutoCaroyCuervo,comoconelSubcorpusEscritodelas Investigaciones del Instituto Caro y Cuervo. Además, los corpus—y, porende, los subcorpus— están formados por componentes, los cuales hacenreferenciaacoleccionesdemuestrasdelalenguaodetextosquecompartenuncriteriolingüístico;porcitaruncaso,unavariedadcomoElespañolhabladoen
BogotápodríaseruncomponentedelCorpusdelInstitutoCaroyCuervo.Las definiciones que se encuentran de corpus son diversas. En este caso
haremos un recorrido por algunas, para así determinar las características másrelevantes de los corpus y articular nuestra propia definición. Por ejemplo,Francis, Kučera & Mackie definen corpus como “[...] a collection of textsassumed tobe representativeof agiven language,dialect,orother subsetof alanguage to be used for linguistic analysis” (1982, p. 7). Estos autores exigenque la colección de textos sea representativa. En palabras de Biber, larepresentatividad15“referstotheextenttowhichasampleincludesthefullrangeof variability in a population” (1993, p. 243), dejando claro queun corpus nopretendedarunavisióntotaldeunaovariaslenguas,sinoquebuscaofrecerunamuestradeellas,odeunavariedaddeterminada,quepermitainvestigacionesoestudios basados en datos objetivos. Al ser los corpus representaciones ymuestrasrealesdeunalengua,puedenvalidar,ejemplificarodarpieadiferentesteoríasohipótesis.Una segunda definición dada por Sinclair hace especial énfasis en que los
textos que conforman los corpus se deben producir en situaciones reales, esdecir, deben ser textos naturales16: “[...] a corpus is a collection of naturally-occurringlanguagetext,chosentocharacterizeastateorvarietyofalanguage”(1991, p. 171). La tercera definición hace referencia a que la recolección,organizaciónysistematizacióndelosdatosestándadasporcriteriosespecíficos;así lodejaverMercadoensudefinición:“Coleccióndetextos,reunidossegúnunos criterios precisos, eventualmente estructurados y enriquecidos coninformaciónadicional,envistadeunaexplotaciónteóricaopráctica”(2008,p.7).Encontramos una última definición de corpus: “[...] recopilación de textos
seleccionados según criterios lingüísticos, codificados de modo estándar yhomogéneo, con la finalidad de poder ser tratados mediante procesosinformáticosydestinados a reflejar el comportamientodeunaomás lenguas”(Torruela&Llisterri, 1999a, p. 7). Llama la atención que parte de la anteriordefinición corresponde al carácter computacional del corpus, ya que debido altamañodeloscorpusactualesserequierequesualmacenamientoseaenmediosdigitalesyqueeltratamientoyelanálisisdelainformaciónsehaganmedianteprocesos informáticos. Por ende, la cuarta característica corresponde a lanaturalezacomputacional.En términos generales, las características que permiten la definición de
corpus17sonlassiguientes:
Muestrarepresentativadelalengua.Textosproducidosensituacionesreales.Criteriosexplícitosdeorganización.Naturalezacomputacional.
Colecciones de textos como el International Corpus of English18, BritishNational Corpus19, crea20, Corde21, Corpus del español22 o el British SignLanguageCorpus23 corroboran en la práctica las características anteriormenteenunciadasysustentanqueuncorpusesunconjuntoextensodedatosescritos,oralesovisuales tomadosde textosnaturalesy representativosdeunaovariaslenguas,ordenadosconcriterioslingüísticos,literarios,culturalesysociales,loscualesdancuentadelalenguaenuso;almacenados,sistematizadosyanalizadosconlaayudadeherramientascomputacionales.
9.ParamásinformaciónsobreelconceptodeArchivo,revisarC.Martín(2009).Temasdebiblioteconomía:conceptoyfuncióndearchivo.Clasesdearchivos.Elsistemaarchivísticoespañol,yparaArchivodigital,revisar:C.Lacombe(2011).Archivosdigitales.
10.VéaseartículoA.SorliyA.Merlo(2000).Bibliotecasdigitales(I):coleccionesdelibrosdeaccesopúblico.
11.Lasáreasdelconocimientohumanocorrespondenaladivisióndelconocimientoenmaterias.ElsistemadeclasificacióndelconocimientomásusadoenlasbibliotecaseseldenominadoClasificaciónDecimalUniversal(CDU),propuestoporMelvilDewey.Lasáreasqueproponesonobrasgenerales,filosofíaypsicología,religión,cienciassociales,cienciaspuras,cienciasaplicadas,arte,lenguayliteratura,ygeografíaehistoria.
12.Términodesarrolladoenlosapartados“Característicasdeuncorpus”y“Diseñoyelaboracióndecorpus”.VéaseelGlosario.
13.Paramásinformaciónsobrepatroneslingüísticos,véaseV.Soler(2007).PatroneslingüísticosparalabúsquedadeinformaciónconceptualenelcorpustextualespecializadodelacerámicaTXTCerama.
14.Véaseelapartado“Usosdeloscorpus”.
15.Paramásinformaciónsobrerepresentatividad,véaseelapartado“Característicasdeuncorpus”.
16.Lostextosnaturaleshacenreferenciaatextosproducidosensituacionescomunicativasreales,esdecir,conversaciones,emisionesderadio,artículoscientíficos,novelas,etc.Parainformaciónmásdetallada,véaseelapartado“Característicasdeuncorpus”.
17.Paraobtenerinformaciónmásdetalladasobrelascaracterísticasdeloscorpus,véaseelapartado“Característicasdeuncorpus”.
18.http://ice-corpora.net/ice/.
19.http://www.natcorp.ox.ac.uk/.
20.http://corpus.rae.es/creanet.html.
21.http://corpus.rae.es/cordenet.html.
22.http://www.corpusdelespanol.org/.
23.http://www.bslcorpusproject.org/.
Característicasdeuncorpus
Lascaracterísticasquedefinenuncorpusy lodiferenciandecualquierotracolección de textos son cualidades que actúan entre sí de maneracomplementariayquepermitenconocerlasposibilidadesquetraelaLCparalainvestigaciónlingüística.Asílascosas,sepuededecirque24:
1. Uncorpusesunamuestradelengua25.Loscorpussonporcionesdelenguasodevariedadeslingüísticascapacesderepresentarsustendenciasocaracterísticas.Uncorpusnopuedemostrarlatotalidaddeunalengua,puestoqueesimposiblerecolectartodaslasproduccionesrealizadasenunidioma,perosíesposiblealmacenartextosqueevidencienelcomportamientodeunalenguayqueseconstituyancomoreferencia.
2. Lasmuestrasdeuncorpussonreales26.Loqueuncorpusbuscaesserunafuenteconfiable,condatosquepermitanelestudiodelalenguanatural.Poresto,lostextosquecomponenuncorpus,yaseanorales,escritosovisuales,sedebenproducirensituacionescomunicativasnaturalesyconunpropósitocomunicativoauténtico,aunqueparalacreacióndealgunoscorpusseregistranmuestrasdelenguadepersonasconcaracterísticasespecíficasdeedad,sexoyprofesión,entreotras,osellevanacaboactoscomunicativosdelimitadosapartirdeuntemaodeuncontextodeterminado,einclusoenotroscasossehacenpruebasmonitoreadas,enlasqueelinvestigadorpidelalecturadeenunciados,palabrasosonidos,ylosgrabamientrasdetectayanalizalosfenómenosproducidos.
3. Loscorpusrelacionanlateoríaylosdatos27.Sibienloscorpussonconjuntosdetextossinconceptos,explicacionesodefiniciones,síseconstruyenconcriteriosespecíficosyteniendoclarodedóndesetomanlostextosyporquésehaelegidoestaprocedencia;porejemplo,uncorpusdereferenciadelespañol,aunquecompuestopordiferentesgéneros,seencuentraestructuradodeacuerdoconcriteriosespecíficostextuales,diatópicosysincrónicos,entreotros,loquehacequese
conviertaenunmodelodelarealidaddelalengua.Estemodelosesustentaenprocesosestadísticos28quepermitenquelosdatosdibujenycorroborenlaestructurayelfuncionamientoqueenlateoríasetiene.
4. Brindaninformaciónadicional29.Unadelascaracterísticasdeloscorpusesquenosolamentecuentanconlostextosquelosconforman,sinoqueademásposeeninformaciónadicionalqueenriquecelosdatos.Diríamosquehayinformacióndedatosexternoseinternosyanotación.Lainformacióndedatosexternoseinternoscorrespondealosmetadatos,informaciónqueidentificalaprocedenciaylascaracterísticasdelostextos,yasuvezpermitehacerbúsquedasespecíficasdentrodeuncorpus;vandesdeelnúmerodehablantes,elañodeproducción,latipologíatextual,hastaladuración,entreotros.Porsuparte,losdatosinternospuedencorresponderainformaciónsobreelaspectofísicodeldocumento,comolaestructura.
5. Laanotacióncorrespondealainclusióndedatosquebuscanenriquecerelcorpusconinformaciónlingüísticaadicional;esasícomocadaelementodeuncorpuspuedetenerunaetiquetaenlaqueseexpliquensuscaracterísticasfonéticas,morfológicas,léxicas,etc.Laanotaciónnoesunacaracterísticaprimordialdeuncorpus,puestoqueexistencorpusnoanotadosoplanos,peroestainformaciónadicionalpermitehacerbúsquedasmásespecíficasdentrodeloscorpus.
6. Facilitanlaextraccióndedatoshomogéneosycuantificables30.Granpartedelacualidadcuantitativadeloscorpusestádadaporelcomponentelógico-matemáticoutilizadoenlosprocedimientosparaelanálisisdelainformación.Loscorpussonunamuestradelalenguareal,einclusoelnúmerodeaparicionesdefenómenoslingüísticosseconstituyeeninformaciónrelevantequesepuedegeneralizarparalalenguaolavariedad.Algunainformacióndistribucionaloestadísticaquesepuedeextraerconlosprocedimientoslógico-matemáticossonlasfrecuenciasdeocurrencias,referidasalafrecuenciadeaparicióndemorfemas,palabras,expresionesopatronesgramaticales,entreotros,ydecoocurrencias,referidasalafrecuenciadeaparicióndeestoselementosdentrodeuncontextoespecífico;porejemplo,lalocuciónapesarpuedeaparecerdemanerafrecuenteacompañadaporlapreposiciónde,loquedacomoresultadolaexpresiónapesarde.
7. Tienenvariasposibilidadesdecomposición31.Loscorpuspuedenestarcompuestospormaterialesorales,textualesomultimodales;estosúltimossonaquellostextosquerecogenmodalidadesvariadasdecomunicación,comoellenguajedeseñas,lasgrabacionesenvideodesituacionescomunicativas,expresionesfaciales,etc.Uncorpuspuedeconteneruno,dosomástiposdetextos;estoes,haycorpusquesonoralesocorpusqueestáncompuestosportextosoralesyescritosoporvideosytextos.Ademásdelacomposicióndeuncorpusdeacuerdoconelmediodeproducción,tambiénesvariadasucomposiciónsegúnlaextensióndelasmuestras.Partiendodelasnecesidadesyobjetivosdelacreacióndelcorpus,lostextosqueestecontienepuedensermuestrascompletas,comounlibroenteroofragmentos,estaelecciónserealizacuidandotambiénlosparámetrosdeequilibrio32.
8. Sutamañopuedevariar33.Noexisteunnúmeroexactodepalabrasotextosquedetermineeltamañoperfectodeuncorpus.Eltamañoestádadoporlosobjetivosdelcorpus,lasnecesidadesdecadainvestigaciónylosrecursoselectrónicosdelosquesedispongaparaelalmacenamientodelcorpus.Sibienesciertoqueunacantidadmayordedatospermitepotencialmenteabarcarunaporciónmayordelalengua,loqueenverdadimportaesqueeltamañoestépensadoconbaseenmuestrasdiversificadasybalanceadas,puesuncorpusquenosearepresentativosirvedemuypoco34.
9. Sonrepresentativosydiversos35.Sedicequeuncorpusesrepresentativo,puestoquepormásgrandequeseanopuedecontenertodaunalenguaovariedad,perosípuederepresentarla.Larepresentatividadserefierealacapacidadquetieneuncorpusparacomportarsecomounmodelodelalengua,mostrandosuspartesysustendencias,constituyéndoseasícomounareferencia.
10. Hablarderepresentatividadpuedetenderalasubjetividad,puesdependiendodelaexperiencialingüísticadecadapersonapuedeseronorepresentativo;porestohayqueestarmuyatentosalosobjetivosquetienelaconstruccióndelcorpusyalavariedadolenguaquesebuscarepresentar.Paraabandonarunpocolavisiónsubjetivadeestacaracterística,tambiénsepuedeecharmanodedatosestadísticos;graciasaquelarepresentatividadestámuyligadaalequilibrio36esposibledecidirelporcentajedelostextosquecomponenelcorpus,deacuerdo
conlarealidad.Porejemplo,sisequierecrearuncorpusdelespañoloraldeBogotá,deberíanrecogersemuestrasdetodaslaszonasdelaciudadproporcionalesalapoblacióndecadazona.
11. Paraqueuncorpussearepresentativotienequeser,asuvez,diverso;esdecir,elcorpusdebecontenerregistrosocategoríastextualesvariadas,clasificacionesinternas,yaseantemáticas,degénero,disciplinaocualquierotracategoría;deestamanera,seaseguraqueseabarqueunampliosegmentodelalengua,sealcanceunmayorgradoderepresentatividady,porende,resultadosmásconfiablesygeneralizables.Además,enmuchosestudiosbasadosenlingüísticadecorpuslacomparaciónesimportante,yaquepermiteencontrarpatrones,rasgoscomunesorasgosdistintivosyestascomparacionessonposiblesgraciasaladiversidadderegistrosdentrodeunmismocorpus.
12. Debentenderalequilibrio37.Conequilibrionosreferimosarecogermuestrasproporcionalesentresaspectos:representatividad,variedadytamaño.Representatividadencuantoaquelasmuestrasdebenserreflejodelasvariedadesqueseencuentranenlalenguareal,porejemplosiestamosconstruyendouncorpusoraldereferenciadelespañoldeColombia,noseríaconsecuenteconestacaracterísticaqueelcorpuscontuvieraun60%demuestrasdeconferenciasacadémicasyun40%demuestrasdeconversacionesespontáneas,primeroporqueenlarealidaddelalenguanoseproducenmásconferenciasqueconversacionesespontáneas,ysegundoporquetambiénafectaríamoselsegundoaspecto,eldevariedad.Paraqueuncorpusseaequilibradoenlasvariedades,esclavequeexistaunaporciónsimilardetextosencadaregistroogéneroqueconformaelcorpus,estoes,queelporcentajedeprensaseaparecidoalporcentajedeliteraturay,asuvez,aldetextosacadémicos.Paraseguirenlalíneadelequilibrio,tambiénesconvenientequelasmuestrasseandeigualosimilartamaño,loquesignificaquelamayoríadelostextoscontenidosenelcorpusdebentenerunalongitudparecidaounnúmerosemejantedepalabras.
13. Cuandouncorpusesequilibrado,esposibleexplotarlodesdemuchosmásenfoquesyparadiferentestrabajos;además,facilitalacomparaciónentreregistrosogéneros.Enciertoscasos,eltemadelequilibrioquedaenlateoría,yaquenoesfácilconstruiruncorpusdetalescaracterísticas.Cuandoestoocurre,esimportanteconocerendetallelacomposicióndel
corpus,paraasíextraerdatoscuantitativosdeunmodocorrectoynopresentarconclusioneserróneas.
14. Suformatoesdigital38.Aunqueenlahistoriadelalingüísticadecorpushanexistidocorpusfísicosysehancreadoalgunospormediodeprocesosmanuales,enlaactualidadloscorpusseconcibendemaneradigital.Ladigitalizacióndeloscorpuspermitequeaumentesutamaño,puestoquelacapacidaddealmacenamientoesmáselevadaylosprocesosdesistematizaciónyanálisismássencillospuedensermanipuladosporunmayornúmerodepersonassinqueelcorpussufradaño,yelanálisisestadísticoylingüísticosepuedellevaracabomediantelaayudadeherramientascomputacionales.
15. Loscorpushandeserdefácilacceso39.Ladigitalizaciónayudatambiénaqueloscorpusesténdisponiblesparaungrupoampliodepersonas.ExistenalgunoscomoelCorpusdelespañol,deMarkDavies40,quesondelibreusoyseencuentranenlaweb.Otros,porejemplo,aunquecuentanconunaversiónonline,requierenunregistroprevio,peroigualpuedenutilizarse;enalgunoscasoshayquepagarparaaccederaellosyotrossimplementesonprivados.
16. Peroconfácilaccesonosolonosreferimosalcarácterpúblicooprivadodeloscorpus,sinoalafacilidaddeaccederalosdatospormediodediferentesprogramas,yaquenodemuchoserviríaelalmacenamientodemillonesdepalabrascuandoalaccederaellasnoselespuedeaplicarningunaformadeanálisis.Porejemplo,losprogramasdeconcordancias41permitenobtenerlistasdefrecuenciasdepalabrasoexpresionescondiferentescriterios,comoapariciónporlema,porcontexto,etc.,locualfacilitatambiénelaccesoalainformación.
Entérminosgenerales,uncorpusdebeconstituirsecomounamuestradelenguarealcondiferentesposibilidadesdecomposiciónquerelacionalateoríaylosdatos,brindainformaciónadicionalalaexplícitaenlostextos,facilitalaextraccióndedatoshomogéneosycuantificables,noserigeporuntamañoestándarestablecido,esrepresentativoydiverso,tiendealequilibrio,esdigitalydefácilacceso.Estascaracterísticashacendeloscorpusfuentesdedatosaptasparainvestigacioneslingüísticas.
24.LaeleccióndeestascaracterísticasestánsustentadasenlosparámetrosdeEagles(1996)ydeParodi(2008),quienestambiénproponenunascaracterísticasespecíficasparaqueuncorpusseconsiderecomotal.Ademásdeesto,cadacaracterísticacuentaconelapoyodeautoresqueensumomentohanhabladosobredichascualidades.
25.AutorescomoMcEnery&Wilson(2012)yParodi(2008)hablansobreestacaracterística.
26.AutorescomoParodi(2008),McEnery&Wilson(2012)yVenegas(2010)serefierenaestacaracterística.
27.AutorescomoVenegas(2010),Torruela&Llisterri(1999)yGries(2009)hablansobreestacaracterística.
28.Véaselacaracterísticanúmerocincodeestemismoapartado:“Facilitanlaextraccióndedatoshomogéneosycuantificables”.
29.AutorescomoParodi(2008),Rafel&Soler(2003),Gries(2009)thisarticleserefierenatalcaracterística.
30.AutorescomoGries(2009),McEnery&Wilson(2012),Torruela&Llisterri(1999)yRojo(2008)hablansobreestacaracterística.
31.AutorescomoParodi(2010)hablansobreestacaracterística.
32.Véaselacaracterística9deestemismoapartado:“Debentenderalequilibrio”.
33.AutorescomoParodi(2010),Rojo(2008)yLeech(1991)hablansobreestacaracterística.
34.Véanselascaracterísticas8y9deestemismoapartado:“Sonrepresentativosydiversos”y“Debentenderalequilibrio”.
35.AutorescomoMcEnery,Xiao&Tono(2006),Hrušková(2008),Gries(2009),Mercado(2008),McEnery&Wilson(2012),Procházková(2006),Rafel&Soler(2003)yParodi(2008y2010)hablansobreestacaracterística.
36.Véaselacaracterística9deestemismoapartado:“Debentenderalequilibrio”.
37.AutorescomoGries(2009)yBaquero(2010)hablansobreestacaracterística.
38.AutorescomoMcEnery&Wilson(2012),Parodi(2010),Rojo(2008),Venegas(2010)yRafel&Soler(2003)hablansobreestacaracterística.
39.AutorescomoMcEnery&Wilson(2012)yLeech(1991)hablansobreestacaracterística.
40.http://www.corpusdelespanol.org/.
41.Losprogramasdeconcordanciascorrespondenaherramientascomputacionalesdeanálisistextual,quegeneranlistasdeocurrenciasdepalabrasquegeneralmentevanjuntas.AlgunosprogramassonAntConc,WConcordyMicroConcord.
Tipologíadeloscorpus
Lacreacióndeuncorpusrespondeadiferentesobjetivosofinalidades,comopor ejemplo obtener información sobre una lengua en general, un periodo detiempo específico, una variedad lingüística, cambios en la lengua, un géneroliterario o un tema, entre otros. Estos objetivos o finalidades determinan loscriteriosdeconstrucción,yporendeseconstituyenenlosprincipalesparámetrosparaestablecertipologíasdecorpus.Hablamosde tipologíasynode tipologíaporque en realidadno existeuna
solaclasificaciónestablecida.LlisterriyTorruela(1999)presentanunatipologíasegúnelporcentajeyladistribucióndelostiposdetexto,segúnlaespecificidaddelostextos,segúnlacantidaddetextoqueserecogedecadadocumento,segúnla codificación y la anotación y según la documentación que acompaña lostextos.Procházková(2006)habladecorpusorales,corpusmultimodales,corpusde textos, corpus sincrónicos, diacrónicos, monolingües, multilingües, corpushistóricos,dereferencia,monitoresydialectales.Porsuparte,MilkaVilayandre(2006)establecelatipologíadecorpusapartirdesieteparámetrosprincipales:lamodalidad de la lengua, el número de lenguas a que pertenecen los textos, eltamaño o cantidad de textos que conforman el corpus, el carácter abierto ocerradodel corpus, lavariedad lingüísticaoelgradodeespecializaciónde lostextos, el período temporal que abarcan los textos y el tratamiento aplicado alcorpus.A su vez,Mercado (2008) propone una tipología de los corpus segúnporcentaje de distribución de los diversos tipos de textos que los componen,especificidaddelostextos,cantidaddetextosquerecogen,tipodecodificaciónyanotacionesañadidasaltexto,ycontenido.Si bien todas las tipologías anteriormente enunciadas son válidas y logran
representar los tipos de corpus existentes, en el presente texto incluimos lastipologías enunciadas en una propuesta propia, en la que se articulan variascaracterísticasyseprofundizaendiversosrasgos.Acontinuaciónsepresentalapropuestadetipologíadecorpussegúnsietecriteriosdeclasificación:mediodeproducción de los textos, número de lenguas, especificidad de los textos,distribuciónde los textos, tamañode lasmuestrasrecogidas, informaciónextradelostextosydocumentaciónquelosacompaña.
Tipologíadeloscorpus
Criteriodeclasificación Tipología Subnivel
Mediodeproduccióndelostextos
Corpusescrito
Corpusoral
CorpusparaladescripciónfonéticadelalenguaCorpusparaeldesarrollodetecnologíasdelhablaCorpusoral
Corpusmultimodal
Númerodelenguas
Corpusmonolingües
CorpusbilingüesCorpusbilingüecomparableCorpusbilingüeparaleloCorpusbilingüealineado
CorpusmultilingüesCorpusmultilingüecomparableCorpusmultilingüeparaleloCorpusmultilingüealineado
Especificidaddelostextos
CorpusgeneralCorpusespecializadoCorpusgenéricoCorpuscanónico
CorpuscronológicoCorpusdiacrónicoohistóricoCorpussincrónico
Distribucióndelostextos
CorpusgrandeCorpusequilibradoCorpuspiramidalCorpuscerradoCorpusabiertoomonitor
TamañodelasmuestrasrecogidasCorpustextualCorpusdereferenciaCorpusléxico
InformaciónextradelostextosCorpussimpleCorpusanotado
Documentaciónqueacompañalostextos
CorpusnodocumentadoCorpusdocumentado
MediodeproduccióndelostextosSegún el medio de producción de los textos que componen un corpus se
puededecirqueexistencorpusescritoscomoelCorpusdiacrónicodelespañol(Corde)42, corpus orales como el Corpus oral de referencia del españolcontemporáneo43 y corpus multimodales como el British Academic SpokenEnglish(base)44.
Corpusescrito
Loscorpusescritos—tambiénllamadostextuales45—estánconstituidosportextosomuestrasdelenguaescrita.Esunodelostiposdecorpusmáscomunes,puestoquesurecolecciónesmássencillaencomparaciónconloscorpusoralesomultimodales,debidoaquemuchostextosyaestándigitalizados,ydenoserasí solo se requiere un proceso de escaneo por ocr46. Sus fuentes puedenprovenir de libros, revistas, prensa, artículos, textos de internet, entremuchosotros.
CorpusoralUn corpus de este tipo está formado por muestras de lengua oral, que
corresponden a señales de voz, transcripciones y, en algunos casos, a ambas.Podemosdividir los corpusorales encorpuspara ladescripción fonéticade lalengua;unodelosejemplosesTheChainCorpus47,corpusparaeldesarrollodetecnologías del habla como The CarnegieMellon Communicator Corpus48, ycorpusoralescomocolaoCorpusoraldellenguajeadolescente49.
CorpusparaladescripciónfonéticadelalenguaEstos corpus se constituyen a partir de grabaciones y transcripciones
fonéticasrealizadasencondicionesacústicasóptimas,ylamayoríadelasvecesconunapreparaciónpreviarespectoalcontenidodelasmuestras.Enestetipodecorpus las grabaciones pueden ser inventarios de los sistemas fonético-fonológicos de la lengua, frases aisladas, textos leídos, habla espontánea ygrabacionesdemediosdecomunicación.
CorpusparaeldesarrollodetecnologíasdelhablaElobjetivodeestoscorpusesayudareneldesarrollodeaplicacionesenel
ámbitodelastecnologíasdelhabla.Seconstruyendeacuerdoconlaaplicaciónque se está creando, se componen por la señal sonora y algunas veces portranscripcionesquepermitenlaelaboracióndemodelosestadísticosdellenguaje.Las muestras pueden provenir de sonidos aislados, inventarios de unidades
fonéticas, grabaciones específicas con números generalmente utilizadas enprogramasdereconocimientodevoz,hablaespontánea,diálogosqueayudanadesarrollarserviciosautomáticosporteléfono,frasesdiseñadasconlaaparicióndeciertossonidosylogatomesopalabrassinsentido,perofonológicamentebienformadas.
CorpusoralEstetipodecorpusoralhacereferenciaalqueseorganizaporloregularcon
propósitos netamente lingüísticos. Se construye a partir de grabaciones demuestra oral o sus transcripciones, en un primer momento ortográficas. Elobjetivodeestoscorpusesreflejarunalenguaovariedadapartirdelosusosdela lengua hablada, ya sea discursos, conferencias, conversaciones, hablaespontánea,etc.ElCorpusoralysonorodelespañolrural(Coser)50puedeserunejemploclarodeestetipodecorpus.
CorpusmultimodalElmaterialque formapartedeestoscorpuscombinadosomásmediosde
producción, es decir, pueden estar constituidos por texto, sonido, imagen ovideo. De esta manera, los datos pueden contener información prosódica,kinésica,contextual,etc.Susfuentessonusualmentedocumentales,lenguajedeseñasyvideoconferencias,entreotras.
NúmerodelenguasUncorpuspuedecontenermuestrasdeunaomáslenguas,dependiendodel
objetivo que tenga. Según el número de lenguas, encontramos corpusmonolingües,corpusbilingüesycorpusmultilingües.
CorpusmonolingüeEl objetivo de este corpus es dar cuenta de una lengua o una variedad
lingüística.Portalmotivo, losdatosotextosqueloconformancorrespondenaunasolalengua.
CorpusbilingüeLoscorpusbilingüesrecogenmuestrasdedoslenguasquenonecesariamente
compartencriteriosdeselecciónoson traducciones.Dependiendodeestasdossituaciones,sepuedehablartambiéndecorpusbilingüescomparablesycorpusbilingüesparalelos.
CorpusbilingüecomparableEl objetivo de un corpus de estas características es comparar el
comportamientodedoslenguasensituacionescomunicativassimilares.Porestorecogetextosparecidosyconcriteriosdeseleccióncompartidos.
CorpusbilingüeparaleloEnelcasodeestoscorpus,lostextosyanosolamentecompartencriteriosde
selección,sinoquecorrespondenatraduccionesenlasdoslenguas.Estoscorpussonmuyutilizadosenelcampodelatraducción.
CorpusbilingüealineadoEn un corpus bilingüe alineado encontramos, al igual que en un corpus
paralelo, los textos traducidos,perosupresentaciónsehacedemaneraque lostextos, párrafos y frases de una lengua aparezcan paralelos a los textostraducidos,loquefacilitaelanálisisylacomparación.Sondeespecialutilidadencontextosbilingües.
CorpusmultilingüeLos corpus multilingües contienen información de tres o más lenguas,
informaciónquenorespondenecesariamentealosmismoscriteriosdeseleccióno a la traducción de todos los textos en las diferentes lenguas. A su vez, loscorpusmultilingüessedividenencorpuscomparables,corpusparalelosycorpusalineados.
CorpusmultilingüecomparableContieneinformaciónsimilardetresomáslenguas,querespondenacriterios
deselecciónparecidosperoquenosontraducciones.
CorpusmultilingüeparaleloEstacoleccióncorrespondeatextosconlosmismoscriteriosdeseleccióny
traducidosentresomáslenguas.
CorpusmultilingüealineadoFuncionadelamismamaneraqueuncorpusbilingüealineado,soloquelos
mismos textos o traducciones se encuentran en tres o más lenguas. Sonmuyútilesencontextosmultilingües,comolaUniónEuropea.
EspecificidaddelostextosDe acuerdo con la especificidad de los textos que componen un corpus se
puede decir que existen corpus generales, corpus especializados, corpusgenéricos,corpuscanónicosycorpuscronológicos.
CorpusgeneralUn corpus general recogemuestras diversas y equilibradas, para así poder
representar una lengua o variedad en su totalidad y en las situacionescomunicativasmásfrecuentes.
CorpusespecializadoSu objetivo es representar un tipo particular de lengua o un sublenguaje,
comoellenguajemédico,eldeniñosde4a10añosoellenguajecientífico.
CorpusgenéricoEl objetivo de este tipo de corpus es aportar datos para la descripción y
comparacióndeungénero textualespecífico frenteaotros,motivoporelcualrecopilatextospertenecientesaunsologénero:poemas,ensayos,novelas,etc.
CorpuscanónicoUncorpuscanónicorecogetodoslostextosproducidosporunmismoautor,
sinimportarelgénerooregistro;deestemodo,eselautorquiendeterminalostextosqueconfiguranelcorpus.
CorpuscronológicoEsta clase de corpus determina su principal parámetro de conformación a
partirdecaracterísticas temporales,conelobjetivodeestudiar la lenguaounavariedad dentro de un periodo específico. Entre los corpus cronológicosencontramosloscorpusdiacrónicosohistóricosyloscorpussincrónicos.
CorpusdiacrónicoohistóricoLoscorpusdiacrónicossirvencomofuenteparalaobservaciónydescripción
deloscambiosdeunalenguaovariedadatravésdeperiodoslargosysucesivos.Porestorecogentextosqueabarquensiglos,porejemplodatosdelespañoldesdeelsigloXVhastaelsigloXIX.
CorpussincrónicoElcorpussincrónicopermiteelestudiodeunalenguaovariedadenunpunto
particular del tiempo, por ejemplo el Corpus del español mexicanocontemporáneo51, que abarca el periodode1921 a 1974.Por lo general, sirveparacompararvariedadesolenguasysurecolecciónesmuchomásfácilqueenlaconstruccióndeuncorpushistórico,puestoqueselimitaaunasolaetapa.
DistribucióndelostextosElnúmero,elporcentajeyengeneralladistribucióndelasmuestrasdentro
deuncorpusdeterminansisehabladeuncorpusgrande,uncorpusequilibrado,unopiramidal,uncorpuscerradoouncorpusmonitor.
CorpusgrandeSe habla de corpus grandes en comparación con otros, pues no existe una
cifradeterminadaqueindiquesiesonogrande.Elfenómenodecorpusconunnúmeroelevadodeelementossedagraciasalasfacilidadescomputacionalesdealmacenamiento,organizaciónyanálisisde información.Esposiblequeporeltamañoestetipodecorpusdejeunpocodeladolosparámetrosdeequilibrioyrepresentatividad.
CorpusequilibradoEste tipo de corpus recoge el mismo número o una porción similar de
muestras para representar las diferentes variedades, géneros, registros, fuentes,etc.
CorpuspiramidalUn corpus piramidal se divide en distintos niveles: un primer nivel reúne
pocasvariedadestemáticas,peromuchostextos;unsegundonivelabreunpocoel abanicode las variedades temáticas, pero reduce el númerode textos, y asísucesivamente.
CorpuscerradoUn corpus cerrado tiene un tamaño definido antes de su recopilación, un
tamañoyaseaennúmerodepalabrasodetextos,yalalcanzarestacifrasedapor terminado. El tamaño lo definen, de acuerdo con su criterio, quienes loconstruyen.
CorpusabiertoomonitorEste es un corpus dinámico, que si bien puede tener un número fijo de
elementos,comoenelcasodelcorpuscerrado,seactualizaperiódicamente,demaneraquemantiene lamismacantidadde informaciónpero ingresandodatosmás actuales y excluyendo datos antiguos cada cierto tiempo. En materia derepresentatividad,elidealesquelosdatosqueseingresentengancaracterísticassimilaresalosdatosquesedesechan,aunqueporlanaturalezavivadelalenguamuchasvecesestapremisanoseda;porejemplo,sienladécadadelosochentala prensa física tenía una presencia lingüística muy fuerte, es posible que al
actualizarelcorpuscondatosdelaño2000, lasentradasdeunblogremplacenlosdatosdelaprensa.
TamañodelasmuestrasrecogidasAparte de la cantidad demuestras recogidas y su distribución, otro factor
determinante en la tipología de los corpus es el tamaño de dichas muestras.Segúnestecriterio,sepuedendefinirtresclasesdecorpus:textual,dereferenciayléxico.
CorpustextualLas muestras de estos corpus son los textos completos, esto es, recogen
novelas, artículos, conversaciones o cualquier producción comunicativa en sutotalidad.
CorpusdereferenciaA diferencia del corpus textual, las muestras que conforman estos corpus
corresponden a fragmentos de textos. El tamaño del fragmento no estáestandarizado, sino que responde a la apreciación de quienes construyen elcorpus; sin embargo, al construir un corpus de referencia se deben tener encuentaaspectosdeequilibrioyrepresentatividad,yaqueelobjetivodeuncorpusde referencia es proporcionar informaciónde una lengua o una variedadde lamanera más completa posible. Para que el corpus sea equilibrado yrepresentativosedeterminanelnúmerodepalabrasporfragmento,elnúmerodemuestras tomadas de la misma fuente, género, registro, se seleccionanfragmentosdepartesvariadasdeltextoysebuscaqueladistribuciónseasimilar,demodoquelogrerepresentarlavariedad.
CorpusléxicoAligualqueuncorpusdereferencia,lasmuestrasdelcorpussonfragmentos,
pero el interés de quienes lo construyen está en el léxico, por lo cual losfragmentostiendenasermáspequeñosperoconunalongitudinvariable.
InformaciónextradelostextosUnadelascaracterísticasdeloscorpusesquebrindaninformaciónadicional
alaqueeltextoporsísolonospuedeproporcionar.Partedeestainformaciónse
damedianteelprocesodeanotación52,ydependedelobjetivo,lasfacilidadesynecesidadesquetenganlosinvestigadoresalahoradeconstruirelcorpus.Queun corpus cuente o no con información extra es un criterio tipológico que dacomoresultadocorpussimplesycorpuscodificadosoanotados.
CorpussimpleLos corpus simples corresponden a aquellos que no tienen ninguna
información lingüística adicional, simplemente se encuentran los textosordenadosyenunformatoneutrollamadoplaintext(textosimple),quepermitelalecturadecomputadoresyhumanos,puestoqueessolotextosinformato,esdecir,sinnegrita,cursiva,fuentesocódigosadicionales.
CorpuscodificadooanotadoUn corpus codificado o anotado es aquel en el que cada uno de los textos
cuenta con etiquetas que contienen información adicional, ya sea sobreelementosestructuralescomoenunciacióndeltítulo,cambiodepárrafo,cambiode capítulo, lo que indica que es un corpus codificado, o con informaciónlingüística, caso en el cual estaríamos hablando de un corpus anotado. Laanotaciónpuederealizarsecontemplandodiferenteinformación,comocategoríagramatical, estructura sintáctica, lema, turnos de habla y fenómenos fonéticos.Laanotaciónysuscategoríaspuedenvariar,dependiendodeltipodecorpusqueseconstruyeydelinterésquesetienesobreeste.
DocumentaciónqueacompañalostextosEnestaclasificaciónsedisponededoscategorías:corpusnodocumentadosy
corpusdocumentados,comoelWorldAtlasofLanguageStructures53.
CorpusnodocumentadoLostextosqueconformanestoscorpusnocuentanconarchivosrelacionados
comoimágenes,descripcionesdelcorpusodesuscomponentes,queacompañenoamplíendealgunamaneralosdatosqueelcorpuscontiene.Loquenoquieredecirquenopuedansercorpusanotados.
CorpusdocumentadoA diferencia del anterior, un corpus documentado vincula archivos
adicionalesdtd(DocumentTypeDefinition)paradescribir loscomponentesdeltexto o para entrelazar información de los datos que permita conocer más
profundamente los materiales del corpus. Estos documentos suelen describirrasgos específicos de tipologías textuales, de fenómenos contenidos en loscorpusosencillamentebibliografíarelacionada.Comonotafinal,valelapenaaclararqueuncorpusnorespondeaunúnico
criterio(mediodeproduccióndelostextos,númerodelenguas,especificidaddelos textos, distribución, tamaño de las muestras, información extra,documentaciónqueacompañalostextos);sinoquerespondeaunacaracterísticaporcriterio,esdecir,uncorpuspuedeseroral,monolingüe,anotado,etc.Deestamaneralosobjetivosdecreaciónsesustentanlosunosenlosotrosyelcorpusresultante termina abarcando y definiendo más la variedad o lengua querepresenta.
42.http://corpus.rae.es/cordenet.html.
43.http://www.lllf.uam.es/ESP/Info%20Corlec.html.
44.http://www2.warwick.ac.uk/fac/soc/al/research/collect/base/.
45.Enestecasopreferimoseltérminoescritoynotextual,yaquepuedegenerarconfusionesconloscorpusquemásadelantedenominamostextualesyquehacenreferenciaaaquellosquetomantextoscompletosparaconstruirlacolección.
46.OCR(OpticalCharacterRecognition)serefiereaunprocesodedigitalizacióndetextosyconversióndeestosencaracteresquepuedenserprocesadosporuncomputador.
47.http://chains.ucd.ie/corpus.php.
48.http://repository.cmu.edu/cgi/viewcontent.cgi?article=2394&context=compsci.
49.http://www.colam.org/om_prosj-espannol.html.
50.http://www.lllf.uam.es:8888/coser/.
51.http://www.corpus.unam.mx:8080/cemc/.
52.Véaseelapartado“Característicasdeuncorpus”paraanotación.
53.http://wals.info/
Historiadelalingüísticadecorpus
La historia de la lingüística de corpus ha sido escrita teniendo en cuentacambios en paradigmas lingüísticos y desarrollos en el área de la tecnologíacomputacional. Al tiempo que la LC responde a estos cambios y se expandecomometodologíaeneláreadelashumanidades,loscorpusconstruidosrecibentambiénelimpactodeestastransformaciones,loquesevereflejadoentérminosdetamaño,composiciónyexplotación.Los primeros trabajos basados en aproximaciones de lingüística de corpus
datan del siglo xix. En 1857 se inició la construcción del Oxford EnglishDictionaryporpartedelaPhilologicalSocietyofLondon,trabajoqueen1878retomaríalaOxfordUniversityPress.Lacreacióndeestediccionariosebasóenla toma de citas como ejemplos lexicográficos y en la selección de datostextualesparalaelaboracióndeldiccionario,tododemaneramanual.En1897,J.Kading,lingüistaalemán,trabajófuertementeenlaconstitucióndeuncorpusdecercadeoncemillonesdepalabrasprocedentesdelalenguaalemana,conelfindeanalizarladistribucióndelasletrasysussecuencias.Acomienzosdelsigloxx,lanecesidaddeestudiarlenguasnodocumentadas
—como las amerindias—haceque lingüistas se acerquen al trabajo condatosrealesyrecurranaloshablantesnativosparaasíobtenermuestras,acercamientoquepermitiódescribirygenerarhipótesissobretaleslenguas.Algunostrabajosde esta época sonHandbook of Native American Indian Languages de FranzBoas (1911), Language de Leonard Bloomfield (1933) y The Structure ofEnglishdeCharlesFries(1952).En la década de los cincuenta aparece The Survey of English Usage54, el
primer centro de investigación dedicado al trabajo con corpus, en el queRandolphQuirkcomienzalacreacióndeuncorpusdelinglésbritánicooralconsuscorrespondientestranscripciones,conocidocomoelSurveyofEnglishUsage(SEU) oCorpus de Quirk, un conjunto de un millón de palabras grabado encintasdecarrete,transcritomanualmenteyorganizadoentarjetasdepapel.Porotraparte,JohnRupertFirthcomenzabaaintroducireltérminocolocaciónenelámbito de la lingüística de corpus, con el que se refería a la ocurrenciasistemáticadedosomáspalabrasdentrodeuncontexto,conceptoqueaúnhoysetieneencuentaparalaexplotaciónyanálisisdecorpus.
Sinembargo,en1950nosoloseestabanconstruyendolosprimeroscorpussinoqueunnuevoparadigmaemergíade lavozdeNoamChomskyeneláreadellenguaje:elgenerativismo.Estemovimientolingüísticoopacóelnacimientode los estudios basados en corpus y disminuyó el impacto de talesinvestigaciones.Parodi(2008,p.99)dicealrespecto:
[…]diversos investigadorescoincidenenapuntarquela lingüísticagenerativaconstituyóuna influencia decisiva y hegemónica en el devenir científico de las ciencias del lenguaje,diluyendoodebilitandoeldesarrollodeposturasqueabordabanelestudiodel lenguajedesdeópticasdiversas;enparticular,desdeopcionesquenocoincidíanenunadefinición idealizadadellenguajenidemetodologíasdeíndolehipotéticodeductivo(Francis,1979;Conrad&Biber,2001; Chafe, 1992; Sinclair, 1991; Leech, 1991;Kennedy, 1998;McEnery&Wilson, 1996;Moreno,1998)
El generativismo considera el lenguaje como una facultad innata en el serhumanoyportantoloestudiadesdeunaperspectivamentalista,concentrándoseenlacompetencia55ynoenlaactuación56delhablante.Unodelosprincipiosdelgenerativismoeslacreatividadlingüística,lacual
consiste en la creación de enunciados infinitos con un número de elementosfinitos;enpalabrasdeChomsky:
L’aspectcréateurdel’utilisationdulangagereflètelespossibilitésinfiniesdelapenséetdel’imagination.Lelangageoffredesmoyensfinismaisdespossibilitésd’expressioninfinies,quinesubissentd’autresrèglesquecellesdelaformationduconceptetdelaphrase,règlesquisonten partie spécifiques et idiosyncratiques, mais en partie aussi universelles, et telles quel’humanitétoutentièreensoitdotée(1966,p.56).
Con base en esta idea, Chomsky niega toda credibilidad de resultadosbasadosencorpus,argumentandoquenoexisteningúnrepertoriofinitodedatosquepuedadarcuentadeunobjetoinfinitocomolalenguayque,portanto,uncorpusnocontendrátodaslasconstruccioneslingüísticasposibles57.Esta visión sobre el lenguaje hace que los lingüistas generativistas no se
interesenenobservaryestudiarlalenguaenuso,desestimandoelestudiodelalengua a través de corpus y además considerándolos parciales, finitos y norepresentativos. Chafe afirma al respecto: “One consequence of the modularviewisthatitsadherentsarenotparticularlyinterestedinobservingtheeverydayuse of language, since they believe that whatever is most interesting aboutlanguageexistindependentlyofitsuse”(1992,p.81).ParodihacereferenciaalaspalabrasdeSinclair(1991),conlasqueenuncia
losefectosdelenfoquegenerativista:Sedienta por falta de información adecuada, la lingüística languideció―de hecho― se
volviótotalmenteintrovertida.Sehizounamodamirarhaciaadentrodelamentemásquehacialasociedad.Laintuiciónsevolviólaclaveyseenfatizólasimilituddelaestructuradellenguajey varios modelos formales. El rol comunicativo del lenguaje fue escasamente mencionado(2008,p.100).
Pero aunque el generativismo opacara los esfuerzos de la lingüística decorpusacausadesusprincipiosteóricos58,enlosañossesenta,conlallegadadeloscomputadores,secontinúaconlacreacióndealgunoscorpus,comoelSEUyelBrownCorpus59,loscualesgraciasalatecnologíadelaépocasealmacenabanen tarjetas perforadas, muchas de las cuales pudieron leerse en nuevoscomputadores y permitieron el trabajo con grandes cantidades de datos: unmillóndepalabras,queparalaépocaeraunacervodegranamplitud.LosavancesdelaLCsevieronreflejadosenelSEU,noencuantoaavances
enel campo tecnológico sinoencuantoalprocesodeanotación,debidoaqueCrystal yQuirk se dedicaron a anotar prosódica y paralingüísticamente60 estecorpus.En1964sedioinicioalBrownCorpus,coleccióntextualinformatizadacreada por Henry Kučera y W. Nelson Francis, compuesta por un millón depalabras representativas del inglés americano, trabajos que continuarían sudesarrolloenlossiguientesquinceaños.Ladécadadelossetentafueunaépocadecisivaparalalingüísticadecorpus,
puesporunaparteelfuncionalismolingüísticohizoqueseleprestaraatenciónal uso del lenguaje, y por otro lado, los avances informáticos permitieron elprocesamientodegrandesvolúmenesdedatos;ensuma,lalingüísticadecorpusvolvió a nacer. La lingüística funcional nace como una crítica frente algenerativismo, argumentando que este paradigma es idealista y que no ofreceherramientas para comprender la realidad de la lengua. Parodi señala enreferenciaaesto:
El giro racionalista cognitivo que se impone desde el generativismo tiende a opacar deciertomodoelempirismoimperantey,enalgunoscasos,teñidodeinfluenciaconductista.Lasbases contextualistas (o también externalistas), enmarcadas enparadigmas socioculturales dellenguaje, proveían un andamiaje para la lingüística de corpus tradicional, la que comienza aenfrentarunaoposicióndesdeelnuevoescenariointerdisciplinario.Ahorabien,sibienesciertoqueelgenerativismoaportódemaneracrucialenmateriasnuclearesacercadelanaturalezadellenguajehumano,noesmenosciertoque―entreotras―lavisión idealizadadel lenguaje (asaber, el estudiode la competencia lingüística)mantuvounobjetodeestudiocasiúnicoy sevierondifuminadasalgunasinvestigacionesfocalizadasenelestudiodellenguajeenuso(delaperformance) y de la investigación de la variabilidad lingüística. Ello produjo una ciertadiscontinuidadopérdidadeimpactodeciertaslíneasdeinvestigacionesenlingüística(2008,p.100).
Elfuncionalismopropugnaelestudiodelalenguaenuso:cómoseproduce,cómosecomunica, cómoseentiende,quiénes son losparticipantesycómosedesarrolla el acto comunicativo. McEnery y Hardie hablan sobre elfuncionalismolingüísticoenrelaciónconlacorrientegenerativista:
Functionalism, in a nutshell, is the rejection of this precept: functionalists investigatelanguageform,butexplainitwithreferencetothefunctionstowhichlanguageisput.Language
isnotseenasanabstract, isolatedsystem,butone that isused tocommunicatemeaning,andwhichisshapedbythewaysitisused,bythecontextinwhichitoccursandbythestructureofhumancognition.“Functionalism”inthisbroadsensecoversasetofapproachestothetheoryof language sharing these features, including functional linguistics, cognitive linguistics andlanguage typology. The emphasis on language in use makes functionalism compatible withcorpuslinguisticsinawaythatformalistlinguisticsisnot(2011,p.168).
Lanuevaconcepciónsobrelosestudiosdelalenguahacequeloslingüistas,antropólogos, sociólogos e incluso psicólogos, ahora preocupados por losfenómenosdelacomunicación,basensusestudiosenlacreaciónyexplotacióndecorpus,puestoqueasípuedenobtenerpruebasempíricasyrealesdehipótesisplanteadas, o estudiar desde un conjunto de datos real los fenómenos que lesinteresan.Sumados a la lingüística funcional, los avances informáticos de softwarey
hardwarefortalecieroneldesarrolloyelusodelaLC.Latecnologíainformáticabrindólaposibilidaddeconstruiryalmacenarcorpusdemillonesybillonesdepalabras, de realizar operaciones computacionales sobre grandes cantidades dedatos y, por tanto, analizar los datos por medio de herramientas comoetiquetadores morfosintácticos y programas semiautomáticos. Desde estemomento,loscorpusseconcibieroncomodigitales.ElSEU,creadoenladécadadeloscincuenta,seviobeneficiadoporlaera
tecnológica. J. Svartik tomó los datos que se encontraban en el SEU y losdigitalizó,creandoasíelLondon-LundCorpusofSpokenEnglish,quedioorigenen 1985 a una de las gramáticasmás relevantes del inglés:AComprehensiveGrammar of the English Language, escrita por Randolph Quirk, SidneyGreenbaum, Geoffrey Leech y Jan Svartvik, más adelante remplazada porlaCambridgeGrammaroftheEnglishLanguage.ElBrownCorpus tambiénsevaliódelasherramientascomputacionalesparaasípublicaren1979suversiónanotada, gracias a un programa de etiquetado de part-of-speech61, creado porGreen y Rubin. Tras la aparición del Brown Corpus, basado en el inglésamericano,secreóelLancaster-Oslo-BergenCorpus62en1978,elcualtienelasmismas características concentradas en el inglés británico y cuya versiónetiquetadaapareceen1986.Apartirde1980yanosehabladecorpussinodemegacorpus,puesdebidoa
lascondicionestecnológicaseramuchomásfácilalmacenarmillonesdedatos,razónporlacualloscorpuspasarondetenerunmillóndedatosa450millones;además, contenían los textos completos y no solo fracciones de estos, endiferentes registros,variedadese inclusode fuentesescritasyorales.Entre losllamados megacorpus encontramos Bank of English o Cobuild Corpus,
Cambridge English Corpus, Longman/Lancaster English Corpus y BritishNational Corpus63. A partir de estas colecciones se crearon gramáticas ydiccionarios.Yaparalosañosnoventa,aunquesecontinuóconlacreacióndemegacorpus,
no solo en inglés sino en diferentes lenguas, aparece una nuevamodalidad decorpus: los corpus especializados64. Estos corpus, de tamaño más pequeño,contienen datos enfocados en algún tema, alguna variedad, o simplemente secentran en grupos específicos de hablantes; otras tipologías de corpus quecomenzaron a tomar fuerza fueron los corpus diacrónicos65, los cuales seencargandeestudiarunaépocaotiempodeterminado,yloscorpusmonitores66,que son actualizados constantemente. Además, los corpus pasaron de sermateriales construidos y explotados por grupos de investigación de variasuniversidades,comolaUniversidaddeLancaster,laUniversidaddeBirminghamylaAutónomadeMadrid,aconvertirseenunmaterialcomercialquepermitelacreación y la explotación de diferentes tecnologías computacionales, comotraductoresautomáticosyprogramasdereconocimientodevoz;algunosdeestoscorpushansidoelCarnegieMellonCommunicatorCorpusoelCeudex.Durantelosúltimosañoslalingüísticadecorpussehaestablecidocomouna
metodologíautilizadaporvariaslenguas,yanosolamenteporelinglés.Lenguascomoelespañol,elfrancés,elportugués,elmandarín,elpolaco,elcoreano,elcheco o el húngaro cuentan con corpus de diversas características: generales,diacrónicos, sincrónicos, para fines específicos,monitores y documentados.Elrecorrido que le queda a la LC aún es largo, pues si bien ya ha permeadodisciplinasdiferentesdelalingüística,yhaconciliadolasvisionesgenerativistasy funcionalistas, existen lenguas como las lenguas indígenas latinoamericanas,que todavíanocuentanconcorpusquefacilitensupreservaciónydescripción,dadassuscaracterísticasdeoralidadylapocadifusióndelaLCenelcontextoacadémicolatino.La lingüística de corpus cuenta actualmente con asociaciones dedicadas al
trabajo basado en corpus, como la Asociación Española de Lingüística deCorpus67 (Aelinco), Asociación Lingüística Sistémico-Funcional de AméricaLatina68 (Alsfal), American Association for Corpus Linguistics69 (aacl),InternationalQuantitativeLinguisticsAssociation70(iqla),InternationalArchiveof Modern and Medieval English71 (Icame) y Asociación Española deLingüísticaAplicada72(Aesla).Existen tambiéncentrosde investigaciónuniversitarios, comoelCentre for
Corpus Liguistics73 de la Universidad de Portsmouth, el Centre for CorpusResearch de la Universidad de Birmingham74, el Centre for English CorpusLinguistics75 de laUniversidadCatólicadeLouvaina, elUniversityCentre forComputerCorpusResearchonLanguage76delaUniversidaddeLancaster,entremuchosotros,quetambiénsededicanaltrabajomediantecorpus.En la actualidad, las herramientas tecnológicas no solo sirven para el
almacenamientoy explotacióndedatos, sinoque se constituyen en corpus; enotras palabras, la posibilidad de la web como un gran corpus es una de lasopcionesquepocoapocoempiezanallamarlaatencióndelingüistas.Aunquese habla de desventajas, como la dependencia de buscadores comerciales sinpropósitos lingüísticos, el continuo cambio de resultados obtenidos, lasdificultadesque sepueden tener respecto a losderechosde autoro el carácterprivado de algunos documentos, es una modalidad que brinda acceso a grandiversidaddetextos,abajoscostosydefácilacceso,razonesporlascualesesuncaminoqueseestácomenzandoaexploraryrecorrer.El avance de la LC se ha visto reflejado en los corpus, pues en su
almacenamiento y diseño se pasó del trabajo manual al computacional; decorpusgeneralessecreanahoracorpusespecializados,diacrónicos,históricosymonitores, entre otros; de corpus simples a corpus anotados77 y de corpusanotados manualmente a una anotación semiautomática o automática, porsupuesto con una revisión de los investigadores. Con el paso de los años, lalingüística de corpus se ha convertido en una herramienta para diferentesdisciplinasinteresadasenellenguaje,asícomoenunametodologíaquepermitecrear y probar hipótesis, describir la lengua y construir sistemas deprocesamientodelenguajenatural.
54.http://www.ucl.ac.uk/english-usage/index.htm.
55.Lacompetencialingüísticahacereferenciaalconocimientodelalenguaadquiridoporunhablante.
56.Laactuaciónlingüísticaeselusoqueunhablantedaalalengua.Estádadaporlacompetenciayporfactoressocialesyculturales.
57.Enlaactualidad,reconocemosysabemosqueuncorpusnopuedecontenertodosloselementosyconstruccionesdeunalengua,peroquecumpleconlacaracterísticadelarepresentatividad(véaseelcapítulo“Característicasdeuncorpus”).
58.McEneryyHardie(2011,p.168)enuncianclaramentetresprincipiosdelateoríagenerativistaquedificultabaneltrabajoconjuntoconlalingüísticadecorpus:“Thedistinctionbetweencompetenceandperformance,therejectionofcorpusdatarelianceonintrospection,andtheviewoflanguageasanautonomouscognitivesystem”.
59.http://icame.uib.no/brown/bcm.html.
60.Laanotaciónprosódicaylaanotaciónparalingüísticacorrespondenalaadicióndedatosoetiquetasaloselementosdelcorpusquehacenreferenciaacategoríasenestasdosdimensiones.Enlaanotaciónprosódicapodemosencontraretiquetasrespectoalamelodía,elacento,laspausasyelritmo,entreotras;yenlaanotaciónparalingüísticaesposibletrabajarcategoríasrelacionadastambiénconlaentonaciónylapronunciaciónyaspectoscomolarisa,elllanto,elsuspiro,etc.,quecualesreflejanemocionesdelentrevistado.
61.Part-of-speech(Etiquetadogramaticalenespañol)correspondealaasignacióndeunaetiquetaacadaunodelosdatosdelcorpus,lacualindicalacategoríagramaticalalaquecorrespondeelelementosegúnelcontexto.
62.http://www.helsinki.fi/varieng/CoRD/corpora/LOB/informaciónymanualsobreelLancaster-Oslo-BergenCorpus.
63.http://www.natcorp.ox.ac.uk/.
64.Véaseelapartado“Tipologíadeloscorpus”.
65.Ibid.
66.Ibid.
67.http://www.um.es/aelinco/.
68.http://www.pucsp.br/isfc/alsfal/espanol/Inicio.html.
69.http://aacl.sdsu.edu/.
70.http://www.iqla.org/index.html.
71.http://icame.uib.no/.
72.http://www.aesla.org.es/es.
73.http://www.port.ac.uk/corpus-linguistics/.
74.http://www.birmingham.ac.uk/research/activity/corpus/index.aspx/.
75.http://www.uclouvain.be/en-cecl.html.
76.http://ucrel.lancs.ac.uk/.
77.Parainformaciónsobrelascaracterísticasdeloscorpusenunciados,véaseelapartado“Tipologíadeloscorpus”.
Usosdeloscorpus
Entérminosgenerales, losdatoscontenidosenuncorpus lospuedeutilizarcualquier interesado en el estudio del lenguaje, para describir y analizar lalengua y establecer o corroborar hipótesis desde diferentes teorías oaproximaciones.Enesteordende ideas, lasprincipalesventajasque la lingüísticadecorpus
ofrece78asususuariossonlassiguientes:
1. Prioridadalalenguaenuso,escritayoral.2. Aproximaciónalosdatosdeunamaneracuantitativaycualitativa.3. Usocomoherramientaaptaparadiferentesdisciplinas.
Al respecto, Geoffrey Leech propone: “In Corpus Linguistics, the onlyrequirement is that such questions should be capable of being answered byobservingwhatisattestedincorpusdata”(2011,p.161).Acontinuación,sepresentanlasposibilidadesgeneralesqueuncorpusofrece
a cualquier usuario o investigador, tales como opciones de búsqueda,colocacionesyconcordancias,entreotras,ylosusosespecíficosqueselesdaala lingüística de corpus y a los corpus en los estudios realizados por distintasdisciplinas, tales como la lexicografía, la dialectología, la lingüística histórica,etc.
UsosgeneralesyposibilidadesqueofrecenloscorpusLas posibilidades de uso de un corpus dependen en gran medida de dos
factores:
1. Lascaracterísticaspropiasdelcorpus,talcomolaanotación79.2. Lasherramientascomputacionalesylainterfaz.
Las características del corpus determinan las clases de búsquedas yresultadosquesepuedenhaceryobtener.Porejemplo,siuncorpusestáanotado
morfológicamente sepodránhacerbúsquedasquearrojen listasde sustantivos,verbos, artículos, etc. Otros factores determinantes en las búsquedas son lasherramientascomputacionalesempleadasy la interfaz,yaqueestas facilitan lainteracción del usuario con los datos, establecen las búsquedas que se puedenhacerdentrodelcorpusydeterminanlamaneragráficaenlaquesepresentanlosresultados.Mediante las búsquedas dentro del corpus podemos consultar desde letras
hasta frases, listas de datos, frecuencias de aparición, concordancias,colocacionesypalabrasclaves;deahíenadelante,elempleoqueselesdéalosdatosdependedelasnecesidadesyobjetivosdelosusuariosoinvestigadores.
BúsquedasEn términos generales, los corpus funcionan con base en la posibilidad de
efectuar búsquedas de diferentes categorías. Dentro de un corpus podemosbuscar letras, palabras, partes de palabras o frases, fonemas, elementosgramaticales (verbos, artículos, sustantivos, adverbios, adjetivos, etc.),sintácticos(sintagmanominal,sintagmaverbal,etc.)ycualquiertipodesondeomás específico, dependiendo de las etiquetas80 que contengan el corpus y laanotación.Elsistemadebúsquedaenelquesebasanlacreación,construcciónyexplotación de corpus, dado por herramientas computacionales, permite hacerlasbúsquedasrequeridasendiversosmomentosyrecuperarinformaciónquedeotromodosehabríaperdido.
ListasdedatosLosresultadosdeuncorpussemuestrangeneralmenteenformadelistas,que
puedenserdepalabras, lemas,categoríasgramaticales,etc.81,odefrecuenciasdeaparición,colocaciones,concordanciasopalabrasclaves82.Laventajadeestesistemaesqueloselementospuedenaparecerporordenalfabético,porordendefrecuencia83o inclusocombinando lasdosopciones;estobrinda laposibilidadde comparar listas de elementos dentro de un corpus o listas de diferentescorpus, lo que en muchos casos puede arrojar información sobre estructuraslingüísticasquesonmáscomunesenalgunosregistrosqueenotros,pues tododependedeltipodecorpusquesecompare.
FrecuenciasdeapariciónLosíndicesdefrecuenciasseconstituyenenelelementoconmayortradición
enlosestudiosbasadosenlingüísticadecorpusdebidoalacantidaddeempleosqueselespuedendar,comolacreacióndeglosarios,dediccionarios,dematerial
didáctico para la enseñanza de lenguas, la creación de hipótesis en el área deanálisisdeldiscurso,etc.La frecuencia de aparición conlleva un proceso de revisión automática del
contenidodeuncorpus,pormediodelacualsedeterminaelnúmerodevecesqueunelemento,yaseapalabra,categoríagramatical, lema,combinacionesdeletras, frases o combinación de elementos en una cadena lingüística, aparecedentro de un corpus. Las frecuencias nos dan una idea clara respecto a laimportancia y el uso de una palabra en una lengua o dentro de los textos ygénerosdeunmismocorpus.Rafel y Soler dan dos ejemplos claros sobre el funcionamiento de las
frecuenciasenloscorpus:Enuncorpusconlostextosclasificadostemáticamente,dospalabraspresentanfrecuencias
similares.Sinembargo,unadeellas concentracasi todas susaparicionesenun tipo temático(porejemplo,enmatemáticas,obienporderecho,obienporpsicología,etc.),mientrasquelaotra se presenta repartidamás omenos equitativamente entre la totalidad de los grupos. Deforma inmediata diríamos que la segunda palabra tiene un carácter más general en elvocabularioque laprimera; esta, encambio,podría tratarseconbastanteprobabilidaddeunapalabraespecíficadeunadeterminadamateria[…]lafrecuenciaesundatoabsoluto,cuyovalordepende fuertemente de la extensión del corpus a que se refiere. Supongamos que undeterminado elemento léxico a aparece 50 veces en un corpus de 50.000.000 de palabras,mientrasqueotroelementoléxicobaparecetambién50vecesenunpequeñocorpusde5.000palabras, aunquea yb tengan lasmismas frecuencias en términos absolutos, su importanciarelativaencadaunodelosdoscorpusesbastantediferente:aapareceunavezcadamillóndepalabras,mientrasquebapareceunavezcadacienpalabras(2003,p.63).
ConcordanciasLasconcordancias84seobtienenpormediodeherramientasinformáticasque
danlaposibilidaddearrojarresultadosamaneradelíneasenlasqueunapalabradeterminada aparece acompañada por elementos de sus contextos lingüísticos.En otras palabras, las concordancias son todas las apariciones de una mismapalabra acompañada de los elementos anteriores o posteriores. El número deelementos que aparecen junto a estas palabras, ya sea anterior, posterior oambos, está determinado por las herramientas computacionales con las quecuentaelcorpus.Arenglónseguidosepresentaunejemplodelasconcordanciasdelapalabracualquiera:
Concordanciasdelapalabracualquiera
unapintura cualquiera quenoseacostosacadavezque cualquiera seacercaalamesapásame cualquiera delascartas
cualquiera nopuedeganarque cualquiera quieraira
Los resultados de las concordancias pueden aparecer en orden alfabético,segúnelordendelaspalabrasanterioresoposteriores,oenalgúnordendefinidoporelusuario,claroestá,sielprogramacomputacionalestádiseñadoparaello.En términos más generales, las concordancias nos muestran secuenciasespecíficasdeelementoscomoletrasopalabrasdediversalongitud.
ColocacionesLas colocacionesguardan relación con las concordanciasy las frecuencias.
Unacolocaciónseveinfluenciadaporestasdoscategorías,yaquecorrespondeala frecuencia de aparición de una palabra en compañía de otra. McEnery yHardie definen colocación como “A co-ocurrence relationship between twowords.Words are said to collocate with one another if one is more likely tooccurinthepresenceoftheotherthanelsewhere”(2011,p.240).Porejemplo,contarycuentopuedenserunacolocaciónenundeterminado
corpus debido al número de veces que pueden aparecer juntas en frases comocuéntameuncuento,élcuentacuentosolamadrelescuentacuentosasushijos.Unadefiniciónmásexhaustiva,contenidaenAGlossaryofCorpusLinguistics,deBakeryHardie,rezaasí:
Described by Firth (1957: 14) as ‘actualwords in habitual company’, collocation is thephenomenon surrounding the fact that certainwords aremore likely tooccur in combinationwithotherwords incertaincontexts.Acollocate is thereforeawordwhichoccurswithin theneighbourhoodofanotherword(2006,p.36).
Para poder hablar de colocaciones la relación debe darse entre dos omáselementos,ladistanciamáximaentreellosnopuedesuperarlascincopalabrasylafrecuenciadebeseralta85.Sobreeltemadelascolocaciones,TonyMcEnery(2014)hablaensucurso
CorpusLinguistics:Method,TheoryandPractice-FutureLearnsobretrestiposdefenómenosadicionales:lapreferenciasemántica,lacoligación86(colligation)y la prosodia del discurso. La preferencia semántica es la relación entre uncampo semántico y un grupo de palabras semánticamente relacionadas; porejemplo: falda, camisa, saco, pantalón corresponden a prendas de vestir. Lacoligación,porsuparte,señala laocurrenciaentreunapalabrayunacategoríagramatical; es el casodeella+verbo.Dentro de un corpus es posible que laaparición de la palabra ella vaya seguida de un verbo: ella comemucho, ellasufredeimpaciencia,veremossiellaquieresalir,etc.
Ylaprosodiadeldiscursooprosodiasemántica,quecorrespondealamaneraenquelaspalabrasenuncorpuspuedenrelacionarseconunaasociaciónpositivao negativa del hablante debido a las colocaciones, en palabras deMcEnery yHardieesesto:“Semanticprosodyis thetendencyexhibitedbysomewordsoridiomstooccurconsistenlywitheitherpositiveornegativemeanings”(2011,p.250). En este caso, podríamos decir que dados los ejemplos encontrados enciertocorpuslapalabramuerteserelacionaconviolenta,súbita,dolorosa,loquetiene una asociación negativa, aunque hipotéticamente también podría formarcolocacionesconlostérminosfelizytranquila.
PalabraclaveEste términocorresponde a laspalabrasque aparecen enun corpus conun
grado de frecuenciamás alto del esperado y que, al ser comparadas con otrocorpusdelmismotamañoomásgrande,siguensiendodistintivasyrelevantes,dadalafrecuenciadeaparición.SegúnelglosariodellibroCorpusLinguistics:Method,TheoryandPractice,deMcEneryyHardie,unapalabraclaveesesta:“Awordthatismorefrequentinatextorcorpusunderstudythanitisinsome(larger) reference corpus, where the difference in frequency is statisticallysignificant” (2011, p. 245). Por ejemplo, en un corpus del español de Bogotáaparece con una alta frecuencia la palabra jurgo, que significa unmontón; alrealizar la búsqueda de esta palabra en un corpus del español de Colombia,encontramos que su frecuencia es baja y que su aparición se concentra en lostextosrepresentativosdeBogotá;enestecaso,puededecirsequeesunapalabrarepresentativa del español de Bogotá y que corresponde a una palabra clave.Desdeallísepuedenllevaracaboanálisisyestudiosmásespecíficos.
ElusodeloscorpussegúnladisciplinaLa lingüística de corpus y el uso de corpus pueden combinarse con casi
cualquierdisciplinaoárea interesadaenel lenguaje,debidoa laevidenciaquepuedebrindar a las investigaciones; incluso la construccióndeun corpusy sumantenimiento se convierten en una actividad interdisciplinar, en la que senecesitan lingüistas, ingenierosdesistemasymatemáticos,entreotros.RafelySolerexplicanelporquédesuversatilidad:
Elobjetivodelalingüísticadecorpuseslaprospecciónyelprocesamientodecorpusparala descripción, a partir de datos objetivos, de las estructuras y de las categorías (sintácticas,léxicas,morfológicas,etc.)de la lengua.Uncorpussirve,así,comoelementodecontrastedehipótesisdellingüista,yalmismotiempo,comounelementoquepuedeconducirdeterminadas
investigacioneslingüísticas,porlainmediatezdelostiposdeevidenciaqueproporciona(2003,p.70).
Lalingüísticadecorpushatrabajadodelamanoconlalingüísticahistórica,la lexicografía, la adquisición del lenguaje, la enseñanza de lenguas y lasociolingüística, entre otras áreas y disciplinas. Es importante aclarar quemuchasmásdisciplinaspuedenhacerusodeloscorpusyqueestodependedelacreatividaddelosinvestigadores,lasnecesidadesdelainvestigaciónyelalcanceque los corpus puedan tener en la investigaciónmisma.A renglón seguido sedescribenalgunosusos:
SemánticaLa semántica utiliza los corpus para describir, descubrir, despejar dudas y
probarhipótesis respectoa lautilizacióndepalabraso frases,yal sentidoquetienenendiferentescontextos.Losestudiosrealizadosdesdelasemánticatienengranimpactosobrelosestudioslexicográficosydeanálisisdeldiscurso87.
MorfologíaysintaxisCon la ayuda de los corpus es posible describir, verificar y descubrir
estructurasmorfológicasyconstruccionessintácticasdentrodeunalengua;estoayudaaladescripcióngeneraldeunalenguaespecífica,ungéneroounregistro,ytambiénpuedeservirdeapoyoenáreascomolaenseñanzadelenguas,enlaque sehacenecesarioque los estudiantes aprendanelementosy estructuras enuso. El estudio de lamorfología y la sintaxis desde una perspectiva históricabasadaencorpustambiénpermiteobservar,analizarydescribirloscambiosdelaslenguasenestosdosniveles88.
DialectologíaysociolingüísticaEstas disciplinas utilizan corpus con el propósito de describir fenómenos
sobrevariacionesgeográficasygrupossociales,comparardialectososociolectosenlosdiferentesnivelesdelalengua89,revelarcaracterísticasdegrupossocialesparticulares, identificar patrones pertenecientes a una zona geográfica o a ungruposocialycompararelhablasegúnelgénero(femeninoomasculino)90.
GramáticaAunquelosestudiosdegramáticabasadosencorpusenglobanlasramasdela
lingüística anteriormente enunciadas, la unión de estos estudios con unacercamiento sustentado en el empleo de corpus permite la elaboración degramáticasquedescribenlalenguaenuso91.
LingüísticahistóricaEl primer beneficio que recibe la lingüística histórica de la lingüística de
corpus es la digitalización de libros antiguos y manuscritos, ya que con elestudio de este material se pueden hacer descripciones diacrónicas, observarcambioslingüísticosycrearhipótesisdecambiosfuturos,determinarfechasdeapariciónydesaparicióndeelementosencadalengua,yporsupuestorecolectarmaterialparalaconstruccióndediccionariosetimológicos92.
EstilometríayliteraturaLaestilometríaylaliteraturautilizannumerososdatos,enlosquesereúnen
obrasdeautoresimportantesenciertasépocasdelahistoria,seanalizantextospara extraer frecuencias, concordancias y ejemplos de uso de palabras oconstruccioneslingüísticas,seestablecenautoríasapartirdeanálisistextualesyestilísticos,sedescribenobrasreflejadasmásadelanteenedicionescríticas,yentérminos generales, se estudian estilos literarios, autores, géneros y periodoshistóricosenlaliteratura.Enconjuntoconherramientascomputacionalespuedencrearseprogramasparadeteccióndeplagioydeteccióndeautoría93.
AnálisisdeldiscursoEl análisis del discurso es una de las disciplinas más beneficiadas por la
lingüística de corpus, ya que esta le facilita el almacenamiento de grandescantidadesdedatos, a loscuales sepuedeaccederunayotravez;además, lasherramientasinformáticaspermitenladeteccióndepatroneslingüísticos,loqueenelanálisisdeldiscursodeterminamuchasdelashipótesisyconclusiones.Unadelasprincipalesventajasdeestadisciplinaesquepuedeutilizarseendiferentescampos,porloqueenlaactualidadserealizanestudiossociales,políticos,etc.,con la ayuda de corpus de periódicos, noticias y documentos políticos, entreotros. Estos estudios tienen gran impacto en la sociedad en general y en losmediosdecomunicaciónenparticular94.
PsicolingüísticaylingüísticaclínicaLa psicolingüística se encarga de estudiar la comprensión, producción y
adquisición del lenguaje. Existen corpus diseñados para el estudio de laadquisición del lenguaje, en los que los informantes son niños; los corpustambiénpueden funcionar comouna fuenteparadeterminar las frecuenciasdeuso de los elementos de la lengua, y desde allí diseñar pruebas paraexperimentosdeprocesamiento95.Porotrolado,elestudiodepatologíaspuedetrabajarsetambiéndesdedatosrecolectadosencorpus,yaqueestospermitenla
descripción de patologías del lenguaje, el reconocimiento de patrones en cadaunade ellas y la reflexión respecto al trabajoque sepuede llevar a caboparadetectarymanejarestosfenómenos96.
LingüísticaforenseRamas como la lingüística forense se valen de técnicas estadísticas y de
herramientas informáticas para la recolección de pruebas en los procesos deperitaje.Los corpus dan la posibilidad de comparar pruebas con datos, lo quehacequesedetectenpatronesmorfológicos,sintácticosysemánticoscuandolaspruebassonescritas,yfonéticoscuandolafuenteprobatoriaesoral97.
TraducciónLos estudios en traducción implementan las tecnologías del lenguaje para
facilitar, agilizar y validar sus trabajos; por este motivo, los corpus98 seconvierten en una herramienta para comprobar la calidad de las traducciones,encontrarequivalenciasentrelenguasyconformarbasesdedatosquepermitenla automatización de estos procesos, puesto que aquellos contienen ejemplosrealesdeuso99.
LexicografíaGuillermo Rojo dice en su artículo denominado “Sobre la creación de
diccionariosbasadosencorpus”:Elobjetivodeunproyectolexicográficobasadoencorpuses,contodaclaridad,recogerlas
palabrasquefiguranenuncorpusrepresentativodelalenguaovariedadlingüísticasobrelaquesetrabajayreflejarlossignificadosrealmentepresentesenlostextos,incorporandolasmarcasdeusocorrespondientesencadacaso(2009).
Estecomentariodejaverlautilidadprincipaldeloscorpusenlexicografía:lacreacióndediccionarios.Loscorpuscontextualizanlaspalabrasenuso,puedendeterminar las entradas de un diccionario por medio de la frecuencia deaparicióndeloselementosybrindanunaccesoinstantáneoadatosactualizados.AlgunosdiccionarioscreadosapartirdeltrabajoconcorpussonelDiccionariodelcastellanodelsigloxvenlacoronadeAragón100yelGrandiccionariodeuso del español actual. También se pueden hacer listas de frecuencias porgénerosoregistrosydiccionariosbilingüesconejemplosreales.
FonéticayfonologíaLa fonética y la fonología utilizan corpus orales para describir las lenguas
segmentalysuprasegmentalmente,estudiarfenómenosarticulatoriosyacústicos,clasificar acentos, comparar sistemas fonéticos, obtener datos para caracterizar
hablantes, trabajar acerca de la interferencia fonética en el aprendizaje delenguas,etc.Además,juntoconlalingüísticacomputacionalyloscorpus,logranconstruirmodelosdelenguajenaturalaplicadosatecnologíasdelhabla101,comoaplicacionesparalaconversióndetextoahabla.
LingüísticacomputacionalLalingüísticacomputacionaltomaloscorpuscomoinsumoparalacreación
deherramientascomputacionalesquepermitenlabúsqueda, larecuperación,elanálisis y la explotación de datos contenidos en textos electrónicos. Estasherramientas son las que hacen posible etiquetar, anotar, buscar frecuencias,colocacionesyconcordanciasenuncorpus.Igualmente,loscorpussonnecesariosenlacreacióndemodelosdelenguaje
quefacilitenelreconocimientodevozylaconversióndevozatextoodetextoavoz.Desdeestaperspectiva,loscorpusylalingüísticacomputacionalentranenladinámicadelaindustriadelalengua:
Existengrandesoportunidadesdemercadoenámbitoscomolaeducaciónoelocio,conlaintegración de tecnología lingüística en juegos, en divulgación del patrimonio cultural, enpaquetesdeentretenimientoeducativo,enbibliotecas,entornosdesimulaciónyprogramasdecapacitación.Los servicios de informaciónmóvil, el software de aprendizaje de idiomas, losentornosdee-learning,lasherramientasdeautoevaluaciónyelsoftwarededeteccióndeplagioson solo algunas de las áreas de aplicación en las que la tecnología lingüística puededesempeñarunpapelimportante(Melero,Badia&Moreno,n.d.-a,p.7).
EnseñanzadeidiomasLos corpus pueden usarse fuera y dentro del aula, como un elemento de
investigaciónocomounaherramientadidácticaenclase.Apartirdeuncorpussepuedenhacerdiccionariosparaaprendices,construirmaterialdidácticocomolibrosoejerciciosparalaclase,crearexámenes;adicionalmente,losestudiantespueden utilizarlos para acercarse a la lengua, descubrir y describir patrones, ycorroborarconstruccionesqueocurrenenlalengua.Otra posibilidad es la creación o explotación de corpus de aprendices, los
cualesreúnenmuestrasdetextosointeraccionesproducidasporestudiantesdelalengua.Apartirdeellos sepuedecrearelmaterial anteriormentemencionado,estudiarlainterlenguayanalizarloserroresquecometenlosaprendices102.TrasesterecorridoporlosusosdelaLC,esposibleafirmarquetodaaquella
disciplinainteresadaenellenguajeyconnecesidaddedatosrealesdelalenguapuede utilizar los corpus y la lingüística de corpus como herramientas en susinvestigaciones.
78.Véaseelapartado“Definicióndelalingüísticadecorpus”.
79.Laanotacióneselprocesomedianteelcualseexplicitancategoríaslingüísticaspormediodeetiquetasqueseañadenalosdatos.
80.Unaetiquetacorrespondeaunasecuenciadecaracteresdealgúntipodelenguajedemarcado(xml,html,sgml),lacualcontieneinformaciónacercadeloselementosdelcorpus,deundocumentoodelcorpusengeneral.
81.AligualqueenBúsquedas,laslistasdeuncorpusdependendelasetiquetasdeesteydelasherramientasinformáticasutilizadas.
82.Todosestostérminos(frecuenciasdeaparición,colocaciones,concordanciaypalabrasclaves)sedesarrollanenestemismocapítulo.
83.Númerodevecesqueelelementoaparecedentrodelcorpus.
84.LasconcordanciassedenominantambiéneninglésKeyWordinContext(KWIC).
85.Noexisteunacantidadexactaparadeterminarqueunafrecuenciaesalta,yaqueestevalordependedeltamañodelcorpus,aunqueautorescomoTonyMcEnery,ensucursoCorpusLinguistics:Method,TheoryandPractice-FutureLearn(2014),afirmanqueelvalormínimodefrecuenciaparadeterminarsiesunacolocaciónesde10.
86.Dentrodelabibliografíarevisada,enningúntextoseutilizaeltérminoenespañol.
87.UnodelostrabajosbasadosenlingüísticadecorpusysemánticasedenominaIntroducciónalanálisisdeestructuraslingüísticasencorpus.Aproximaciónsemántica(Alcántara,2007).
88.UnejemplodeestudiosmorfológicosysintácticosesFuturoperifrásticoyFuturomorfológicoenelCorpussociolingüísticodelaCiudaddeMéxico(Lastra,2008).
89.Fonético-fonológico,morfo-sintáctico,léxico-semánticoypragmático.
90.Paraampliarsobrelarelaciónentrelingüísticadecorpusypsicolingüística,véaseCorpusLinguistics:Method,TheoryandPractice-FutureLearn,deMcEneryyHardie(2011b,pp.94-121).
91.Paramásinformaciónsobrelarelaciónentrelingüísticadecorpusygramática,véaseCorpusLinguisticsInvestigatingLanguageStructureandUse,deBiber,ConradyReppen(1998,pp.55-83).
92.JohannesKabatek(2012)daunaexplicacióncompletasobrelarelaciónentrelalingüísticahistóricaylalingüísticadecorpusensutextollamado¿Esposibleunalingüísticahistóricabasadaenuncorpusrepresentativo?
93.Dentrodelreconocimientodelaestilometría,lalingüísticaforenseylalingüísticadecorpusseencuentrantrabajoscomoeldeLópez,Méndez,SierraySolórzano(2013),Exploracióndemedidasestilométricasparaatribucióndeautoría.
94.UnejemplodeltrabajoconjuntoentrelingüísticadecorpusyanálisisdediscursolopresentanPalaciosySierra(2011,pp.386-398)ysedenominaCorpusparaelanálisisdeldiscursodelconceptoadhoc-cracia.
95.ParamásinformaciónsobrelarelaciónentrelingüísticadecorpusypsicolingüísticavéaseCorpusLinguistics:Method,TheoryandPracticedeMcEneryyHardie(2011,pp.192-224).
96.CorpuslingüísticodedefinicionesdecategoríassemánticasdesujetosancianossanosyconlaenfermedaddeAlzheimer.Unainvestigacióntransculturalhispano-argentina(PeraitayGrasso,2010)presentauntrabajoentrelalingüísticaclínica,lasemánticaylalingüísticadecorpus.
97.Paraampliarsobrelarelaciónentrelingüísticadecorpusylingüísticaforense,véaseLalingüísticaforenseyelusodeloscorpuslingüísticos,deCicres(2011,pp.517-524).
98.Entraducciónseutilizanespecialmentecorpusbilingüesymultilingües,comparadosyparalelos.
99.JoséCortez(2010)exponelasventajasqueofrecenloscorpusaláreadelatraducciónensutrabajoElcorpusadhoccomoherramientadetraducción.
100.http://ghcl.ub.edu/diccaxv/home/index/myLanguage:es.
101.VéaseLingüísticacomputacionalenestemismoapartado.
102.Unodelosfundamentosteórico-prácticosenespañolquemuestranlasposibilidadesdelalingüísticadecorpusylaenseñanzadeidiomasesLingüísticadecorpusyenseñanzadelespañolcomo2/L,deMarCruzPiñol(2012).
Laconstruccióndeuncorpus
Hoyendía,puedenllevarseacabodiversasinvestigacionessobreellenguajecon corpus ya existentes; sin embargo, cuando lo que se quiere es preservar,almacenar y sistematizar un material en particular o se requieren datos concaracterísticas específicas103, se hace necesaria la construcción de nuevoscorpus.Así como los corpus pueden utilizarse para responder a problemas desde
diferentesdisciplinas,parasucreaciónymantenimientoserequieretambiénunconocimiento interdisciplinar, hace falta conocimiento lingüístico, informático,matemáticoy,dependiendodeltipodecorpusquesequieraconstruir,senecesitaademásconocimientohistórico,sociolingüístico,etc.Dentrodelalingüísticadecorpusnoexisteunprotocoloquedeterminepaso
a paso cómo crear un corpus. Kennedy (1998), por ejemplo, propone cincomomentos: diseño de corpus, planeación del sistema de almacenamiento,obtención de permisos, captura de textos y marcado; Atkins, Clear y Ostler(1992) plantean también cinco estadios: planeación, adquisición de permisos,capturadedatos,manipulacióndetextosydesarrollodecorpus.Acontinuaciónpresentamosunapropuestaconcincomomentosprincipales,
quepuedeadaptarseadiversasnecesidadesinvestigativas:
1. Eldiseñodecorpus.2. Laobtencióndepermisosycapturadedatos.3. Laplaneaciónypreparacióndelsistemadealmacenamiento.4. Elprocesamientodelcorpus.5. Lasopcionesdeuso.
DiseñoyelaboracióndecorpusEl diseño de corpus cuenta con tres pasos específicos: definición de
objetivos,definicióndelacomposicióndelcorpusyloscriteriosderecolección,yporúltimo, la elecciónde la tipología.Estaetapadediseño, juntocon lade
procesamiento,determinalasposibilidadesdeutilizacióndeuncorpus.
Paso1.Definirlosobjetivos104Paraempezar,esnecesarioaclararcuáleslafinalidaddelcorpus.Partiendo
de aquí, los objetivos tanto del corpus como del proyecto determinan lascaracterísticas de la colección textual y establecen el tipo de uso y búsquedasquesepuedenefectuar.
Paso2.DefinirlacomposiciónyloscriteriosderecolecciónEnunsegundopasosedefinenlacomposiciónyloscriteriosderecolección,
con loque sehaceprecisopensar en la representatividad105, el tamañoque sequiereoelmaterialdelquesedispone, lavariedadde la lenguaqueelcorpusrepresentaráylacronologíaalacualpertenecenlostextos106.Mercado(2008,p.19) plantea siete criterios que hay que decidir al momento de definir lacomposicióndelcorpus:
1. Tipo:oraloescrito.2. Tiposderegistros:literatura,prensa,etc.3. Parámetrosdemográficos:edad,sexo,grupo,etc.4. Época.5. Mediosdecomunicación:libros,periódicos,correoselectrónicos,etc.6. Niveleslingüísticos:coloquial,formal,lenguainfantil,publicitaria,etc.7. Tiposdetextos:novelas,poemas,reportajes,columnas,encuestas,etc.
Después de definir la composición del corpus siguiendo los anteriorescriterios,sehacenecesariodeterminarlaspautasderecolección,paraloqueserequiere:
1. Precisardedóndesetomaránlostextos,2. Concretarelnúmerodemuestras,3. Definirlasseccionesqueseutilizarándecadatexto4. Determinarlalongituddelasmuestras
Ladefinicióndelasseccionesylalongituddelasmuestrasqueseutilizaránpara la construcción del corpus dependen de los objetivos previos y de las
facilidadesqueexistanparaobtenerlasmuestras.TorruelayLlisterriproponentresmanerasdedefinirlassecciones:
a)Al azar;b)dividiendo los textosen trespartesdeextensiónparecidayextrayendodecada una de ellas las muestras en número y proporciones aproximadamente iguales; c)determinandolaestructuraexternadelostextosydecidiendoquénivelesestructuralesseusaránparaelmuestreo(unnúmerodeterminadodepalabrasodefrasesdecadacapítulo,unnúmerodeterminadodecadaapartado,unnúmerodeterminadodecadapárrafo,etc.)(1999,p.20).
En el caso de la longitud de las muestras, pueden tomarse los textoscompletos o fragmentos; se debe evitar caer en la extracción de los inicios ofinalesdeltexto,anoserqueeseseaelobjetivodelcorpus,yaqueestopuedeafectar la característica de representatividad. La longitud de los fragmentospuede hacerse escogiendo un número determinado de palabras o de oracionesconsentido,loquesepuedelograrsisetomanfraccionesdelimitadasporpuntosenelcasodematerialescritoopausasenelcasodemuestrasorales.
Paso3.DefinirlatipologíaSegún los objetivos del corpus, se establece o corrobora la tipología del
corpustrasladefinicióndetodaslasvariablesdecomposición.Dependiendodelas elecciones hechas en el paso 2 puede hablarse de corpus escrito, oral,multimodal,monolingüe,bilingüe,multilingüe,general,especializado,genérico,canónico,cronológico,grande,equilibrado,piramidal,cerrado,abierto, textual,dereferenciaoléxico107.
ObtencióndepermisosycapturadedatosParapoderusar los textosograbacionesque se incluirán en los corpus, es
necesario tenerencuenta losderechosdeautor.Muchasvecespara reproducirlostextos,estoes,digitalizarlos,serequierelaautorizacióndelosautores;todoslos textosdeun corpusdebenestar bajo laproteccióndederechosde autory,además,debentenerlospermisosparaelusoqueserequiere.Esrecomendablebuscar asesoría legal en este momento de la construcción del corpus paraprevenir futuros inconvenientes, y considerar que las leyes respecto a losderechosdeautorvaríansegúnelpaísyelmaterialquesemaneje.Para la captura de datos se pueden requerir bastante tiempo y dinero,
dependiendo de la cantidad de datos que deban recogerse y de las fuentes dedónde se obtengan. Para crear un corpus resulta indispensable que todo elmaterialestédigitalizado,yaseaoraloescrito.Enelcasodelmaterialescrito,existentresopcionesdecaptura:
1. MedianteOpticalCharacterRecognition(OCR),procesoqueconsisteenescanearlostextosfísicosmedianteunsistemadereconocimientodecaracteresparadigitalizarlostextos.
2. Transcripciónmanual.3. Datosyadigitales.
SiseoptaporelusodeOCResrecomendablerealizaruncontroldelmaterialobtenido;asuvez,latranscripciónmanualesmuyutilizadaencorpusorales,yaque las cintas requieren en su mayoría una transcripción ortográfica que enmuchas ocasiones no puede hacerse mediante programas automáticos dereconocimientodevoz108;encualquieradelosdosprocesossenecesitanunaodos revisiones manuales por parte de los investigadores tras el proceso dedigitalización o transcripción, pues así se pueden corregir los errores que laautomatización pueda tener. En lo referente al uso de datos ya digitales, loscostosyeltiemposereducen;además,muchosdeestosdatossepuedentomardeinternet.
PlaneaciónypreparacióndelsistemadealmacenamientoEn esta fase se debe pensar acerca del tamaño total del corpus para así
obtenerelespaciodealmacenamiento109;nohayqueolvidarquesinespaciodealmacenamientonohaycorpus.Traslaobtencióndelespacio,losinvestigadoresdebenasegurarsedealmacenardemanerasistemáticayordenada losdatos; serecomiendaguardarcadatextocomounarchivodiferenteyllevarunasecuenciaclara,lógicaysistemática110,paraqueelcorpuspuedaempezaraordenarseconbaseendatosexternos,comoelnombreoelnúmerodelarchivo,yfacilitarasílaubicacióndelainformación.
Procesamientodelcorpus
LainterfazDespués de contar con el espacio y el sistema de almacenamiento, es
necesariopensar en la interfaz, que es el conjuntodeprogramasquepermitenextraer información del corpus y facilitan la interacción del usuario con los
datos.RafelySolerdicenalrespecto:“Laóptimautilizacióndeuncorpusestáenrelacióndirectaconlascapacidadesdelainterfazconqueseaccedealmismopara la ejecución de procesos de selección y para la presentación de losdiferentestiposderesultadosposibles”(2003,p.67).Hastaestemomento,conelmaterialorganizadosegúncriterioslingüísticos,
almacenado, y una interfaz que permita abrir, descargar o reproducir losarchivos,sepodríadecirquesecuentaconuncorpussimple111.
CodificaciónLacodificacióneselprocesodeconversióndecaracteresdellenguajenatural
aun lenguajequesepuedaprocesarpormediodemáquinasosistemasquesevalen de programas computacionales; en el momento en que se prepara uncorpus para su procesamiento, hay que decidir el formato del texto y lacodificación, en función de los programas que se pretenden utilizar. Esaconsejable buscar sistemas de codificación con alto número de caracteres112,puesasínoserequierecambiardecodificaciónañosdespuésdelaconstruccióndel corpus; esto, sumado al uso de estándares113, permite la reutilización delcorpus.En la codificación, debe elegirse un lenguaje de marcas o etiquetas que
permita representar información adicional a la que contiene el texto114 yconviene ceñirse a un estándar de codificación. A continuación se presentanalgunasopcionesestándaresdecodificaciónylenguajesdemarcado:
Estándaresdecodificaciónylenguajesdemarcado
Estándaresdecodificación Lenguajesdemarcado Localización
TEI(TextEncodingIniciative1) XML http://www.tei-c.org/index.xml.ELRA(EuropeanLanguageResourcesAssociation2) HTML http://www.elra.info/.
LDC(LinguisticDataConsortium3) SGML https://www.ldc.upenn.edu/.
CES(CorpusEncodingStandard4) http://www.tei-c.org/Activities/Projects/co02.xml.
Eagles(ExpertAdvisoryGrouponLanguageEngineeringStandards5) http://www.ilc.cnr.it/EAGLES/browse.html.
MarcadodemetadatosCon la elección del lenguaje demarcado y el estándar, se da comienzo al
procesodeetiquetadoomarcadodemetadatos.Esteprocesoconsisteeninsertar
etiquetas para enriquecer los textos, las cuales deben contener informaciónestructural de los textos, como origen, autor, año, tipo de texto, participantes,duraciónycalidadde lagrabación,entreotras.Dichascategoríasdependendelosinteresesdelgrupoydelestándarqueseelija,yaqueestosmanejanetiquetasdeterminadas,aunquenosignificaquenopuedancrearsenuevascategorías.La inserción de estas etiquetas y un mayor número de datos externos
registrados facilitan las búsquedas cruzadas y con una cobertura de másvariables,yaque,porejemplo,pueden llevarseacabobúsquedasdedatoscondos,tresomáscaracterísticasalmismotiempo,locualhacequelosdatosseanasuvezmásprecisos.
AnotaciónlingüísticaAuncuandouncorpussimplepermiteelacercamientoalosdatosdemanera
confiable, existen investigaciones que requieren análisis más complejos yexactos, lo cual se puede lograrmediante la anotación lingüística de los datoscontenidos en el corpus. La anotación lingüística corresponde al proceso deetiquetado de las palabras pertenecientes a los textos, con el fin de incluirinformación lingüísticaadicional,ya sea sobre sucarácter semántico, fonético,morfológico,pragmático,etc.Entérminosgenerales,cadapalabradeuncorpusanotadotieneunaovariasetiquetasqueindicansuscaracterísticas.Laanotacióndebeestarseparadadel textocomotal,esdecir,quealborrar
las etiquetas el texto debe permanecer intacto. Procházková señala algunosprincipiosdelaanotaciónqueesconvenienteseguir:
Laevaluacióndelasanotacionesdebeserposiblesineltextooriginal.Lasnormasdeanotacióndebenseraccesibles.Losanotadoresylascircunstanciasdelaanotacióndebenserconocidos.Los usuarios deben saber que las anotaciones pueden contener errores(2006,p.11).
Los corpus anotados requieren un proceso específico de etiquetado. JuliaBaquerodefineclaramenteesteproceso:
Loscorpusanotadosoetiquetadosrequierenunatransformacióndeltextooriginaldeformaque se pueda acceder a él y extraer lamayor cantidad de información posible. Para ello, loscorpussonsometidosaunprocesamientoqueincluye,entreotras,laposibilidaddedividirloenlaunidadmáspequeña―eltoken―sobrelacualseaplicaunaetiquetadecarácterlingüísticomedianteunprogramadenominadoetiquetador.Esteasignaautomáticamenteacadaunidad,porejemplo, su categoría, su correspondiente lema, características morfológicas, informaciónsintáctica, etc., a partir de un archivo de diccionario que el programa utiliza para asignar la
etiquetaadecuadaacadaexpresión(2010,p.35).
EltokenalcualserefiereBaquerocorresponde,enlenguajecomputacional,acadaunadelascadenasdecaracteresdivididaporespacios;enotraspalabras,untokenes igual a unapalabra.El procesopor el que los datos sondivididos entokens se llama tokenización, y tal como Julia Baquero señala, facilita losdiferentes tipos de procesamiento como las frecuencias de aparición, lascolocacionesy lasconcordancias115, yaque separacadaunode loselementosdelcorpus.Tras el proceso descrito anteriormente, se puede comenzar con la
denominada anotación lingüística, la cual representa un tipo de análisisparticular y un corpus. Un corpus puede contar con uno o más tipos deanotaciones:
Lematización.Enestecaso,cadapalabravaacompañadaporsulema.Anotaciónmorfológicao part-of-speech (pos). Las palabras tienen unaetiquetaquecorrespondeainformaciónmorfológica.Anotación sintáctica o parsing. Cada palabra tiene informaciónsintáctica.Anotaciónfonética.Anotaciónfonológica.Anotaciónprosódica.Anotaciónpragmática.Anotacióndiscursiva.
La anotación se puede llevar a cabodemanera automática116o demaneramanual;sinimportarelmétodoqueseutilice,siempredebeexistirunafasederevisióndelmaterialanotado.Acontinuaciónsepresentanalgunasherramientascomputacionalesquepermitenlaanotaciónoelprocesamientodecorpus:
Softwareparaprocesamientoyanotacióndecorpus117Crecimientoymonitoreo
Software Localización
Aconcorde6 http://www.andy-roberts.net/coding/aconcorde.
A.nnotate7 http://a.nnotate.com/.
Antconc8 http://www.antlab.sci.waseda.ac.jp/software.html.
Anvil9 http://www.anvil-software.org/.
Concapp10 http://concapp.software.informer.com/.
Corpussearch11 http://corpussearch.sourceforge.net/.
Corpuswizard12 http://www2d.biglobe.ne.jp/~htakashi/software/cw2e.htm.
Elan13 http://tla.mpi.nl/tools/tla-tools/elan/.
Exmeralda14 http://www.exmaralda.org/.
Freeling15 http://nlp.lsi.upc.edu/freeling/.
ParaConc16 http://www.paraconc.com/.
Praat17 http://www.fon.hum.uva.nl/praat/.
Simpleconcordanceprogram18 http://www.textworld.eu/scp/.
Svm-tool19 http://www.lsi.upc.edu/~nlp/SVMTool/#.
Textstat20 http://neon.niederlandistik.fu-berlin.de/textstat/.
Transcriber21 http://trans.sourceforge.net/en/presentation.php.
Treetagger22 http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/.
VISLtools23 http://beta.visl.sdu.dk/visl2/.
Wraetlictools24 http://alfonseca.org/eng/research/wraetlic.html.
Xaira25 http://xaira.sourceforge.net/.
Lacreacióndeuncorpusno terminacon laanotaciónde loselementos;uncorpusrequiereuncontinuomonitoreo,sobretodocuandoseencuentraenunafase piloto, puesto que en la mayoría de los casos y con los comentariosprovenientesdelosusuariosdebenreajustarsefragmentosdelcorpus,mejorarselainterfazyalimentarelcorpusconnuevosdatos.
AlgunoscomentariossobrecorpusoralesLa idea de un corpus oral es que pueda contener lamáxima diversidad de
situaciones comunicativas posibles, a no ser que se quiera construir un corpusespecializado, en el cual se recogeríanmuestras de situaciones comunicativasespecíficas, talescomoexposiciones,discusionesy locucionesradiales118.Para
capturar muestras orales, muchas veces se utilizan entornos acústicamentecontrolados,comolaboratoriosdefonéticaocabinasinsonorizadasparaevitarlainfluenciadelosruidosdelambiente.Cuandosecuentaconestasopciones,debegrabarseintentandoobtenerlamejorcalidadypasandolasmuestrasporsoftwareespecializadosquemejorenlacalidaddelsonido,sinalterarlasmuestras.Unade las fasesmás importantes, noobligatoria, en la construccióndeun
corpus oral es la transcripción119, ya sea ortográfica, fonética, prosódica, etc.Paraesto,sesuelenusaralfabetosbasadosenelAlfabetoFonéticoInternacional(AFI) que se puedan procesar informáticamente, tales como el SpeechAssessmentMethodsPhoneticAlphabet(Sampa)120.Lo que se pretende con las transcripciones es evidenciar turnos de habla,
variaciones de pronunciación, pausas, identidad del hablante, superposiciónentre locutores, fenómenos segmentales y fenómenos suprasegmentales. Estastranscripcionesdebensincronizarseconlagrabación.Las fases que se presentaron en este capítulo pueden verse alteradas y
modificadas por los objetivos, recursos y tipo de material que se recolecte;igualmente,estaesunapropuestaquesepuedemodificar,segúnlasnecesidadesquesepresentenenlaconstruccióndecadacorpus.
103.Lascaracterísticasespecíficashacenreferenciaanúmerodemuestrasquesequieren,tiposderegistroycualidadesdeloshablantes,entreotras;estascaracterísticasestándadasporlosobjetivosyeltipodecorpusquesequiereconstruir.
104.Unodelosobjetivosdecualquiercorpusdeberíaserlaposibilidaddequesusrecursoslingüísticosseansiemprereutilizables.
105.Véaseelapartado“Característicasdeuncorpus”.
106.Paramásinformaciónsobreestosparámetros,CaminoRea(2010)haceunrecorridoporestoscuatroaspectosensutextoGettingonwithCorpusCompilation:fromTheorytoPractice.
107.Paraampliarsobrelostiposdecorpusysuscaracterísticas,véaseelapartado“Tipologíadeloscorpus”.
108.Losprogramasdereconocimientodevozsonentrenadosbajoelléxicodeuncorpus,peroparaqueunodeestosprogramasfuncionedemaneracorrectaparalatranscripcióndeuncorpusdebecontenerlosdatosqueseencuentranenelcorpusoralquevaatranscribir.Portalmotivo,esmuydifícilqueesteprocesosedéautomáticamente,yaquesedebecontarconunsoftwarequecontengalascaracterísticasespecíficasdelosarchivosoralesquesevanatrabajar.
109.Yaqueloscorpussondigitalesserequierecontabilizareltamañodelmaterialparadeestamaneraadquirirelespacioinformáticodealmacenamientodondeestarácontenidoelcorpus,puedeserespacioenlanubeodispositivosdealmacenamientocomodiscosduros.
110.Lamaneraenlaqueseordenanlosdatosesunadecisióndequiencreaelcorpus,loqueserecomiendaesqueexistaunasecuencialógicaenlaformacomosenombranlosarchivosparadeestemodosistematizarlos,porejemplonombrarcadaarchivoconunnúmero,eltipodematerialylaprocedencia:
1orcol(or=oral,col=Colombia).Ladenominacióndelosarchivosdependedelascaracterísticasdeestos.
111.Paramásinformaciónsobreuncorpussimple,véaseelapartado“Tipologíadeloscorpus”.
112.Lossistemasdecodificación(ASCII,ASCIIExtendido,Unicode)cuentanconunnúmerodecaracterescomputacionales,loscualesrepresentanloscaracteresdelasdiferenteslenguasdelmundo;amayornúmerodecaracterescontenidosporelsistema,másfácillarepresentacióndellenguajepormedioscomputacionales.
113.Losestándaressonmodelosclarosdecriteriosparalacodificación,eletiquetadoylaanotacióndeuncorpus.
114.Lainformaciónadicionalhacereferenciaalosprocesosdeanotaciónyadicióndemetadatos,explicadosenelcapítulodenominado“Característicasdeuncorpus”.
115.Paramásinformaciónsobreestascategorías,véaseelapartado“Usosdeloscorpus”.
116.Dependedelaccesoquesetengaaherramientascomputacionales,ylosresultadosdelaprecisióndeestas.
117.Paramásinformaciónsobreherramientascomputacionales,ingresara:http://linguistech.ca/Online+Tools+-+home,http://www.uow.edu.au/~dlee/software.htmohttp://linguistlist.org/sp/SearchWRListing-action.cfm?subclassid=7223&SearchType=LF&WRTypeID=2.
118.Estassituacionescomunicativassedefinenapartirdelosobjetivosdelcorpus.
119.Latranscripciónesunprocesoenelcuallalenguahabladaserepresentaconcaracteresescritos,enelcasodelatranscripciónfonéticasebuscarepresentarlossonidosdelhabla,ycuandosehabladeunatranscripciónprosódica,serepresentanlosfenómenossuprasegmentalescomoelacento,elritmoylaentonaciónmediantecaracteresgráficos.
120.http://www.phon.ucl.ac.uk/home/sampa/.
Lalingüísticadecorpusylalenguaespañola
La lengua española es una importante herramienta de comunicacióninternacional. Según cifras del último informe del Instituto Cervantes, Elespañol: una lengua viva (2014), 548 millones de personas son hablantes deespañol,ya seacomo lenguamaterna, segunda lengua, extranjeracondominionativoolimitado,osonestudiantes;secreeademásqueentresgeneracionesel10%delapoblaciónmundialhablaráespañol.Asímismo,eslaterceralenguamásutilizadaen la red,produceel10%delPIBmundial, y según labasededatosdelISSNel5%deltotaldelasrevistassonenespañol.Aun así, el impacto del español en el mundo científico no responde a la
magnituddelalengua;apropósitodel tema,Melero,BadiayMorenoseñalan:“A pesar del peso demográfico del español, de su posición como lengua decomunicación internacionalyde lademandaactualdel español como segundalengua,sucompetitividadcomolenguacientíficaesseriamentecuestionadaporelinglés”(n.d.,p.14).Esta situación se ve claramente reflejada en la relación existente entre la
lenguaespañolaylalingüísticadecorpus.Rojo(2008),ensutextoLingüísticade corpus y lingüística del español, enuncia que la LC en el español se hadesarrollado demanera atrasada en comparación con otras lenguas—como elinglés—, pero gracias al esfuerzo de diferentes equipos de investigación en elmundo hispánico, hoy en día se hace uso de la LC en los estudios de lenguaespañola,loquenoquieredecirquenofaltebastantecaminoporrecorrer.Uno de los elementos que ayudan al posicionamiento de una lengua en el
mundoeslacantidadylacalidaddesusrecursoslingüísticos121.RafelySolerserefierenasíaestematerial:“Eldesarrollodegrandescorpusdereferenciasehaconvertidoenunodelosprimerosobjetivosquedebencumplirlaslenguasdeunpesoculturalydemográficomásdestacado” (2003,p.59).Deestamanera, sehace explícita la necesidad de más corpus del español; aunque en formaintrínseca losestudiosen lenguaespañolasehanvalidodecorpus lingüísticos,no esunametodología ampliamente conocida, desarrollada enpublicacionesymuchomenosutilizada,enespecialporpaísesdiferentesdeEspaña.
La creación y explotación de corpus requiere también recursos yherramientascomputacionales,puestoquelamayoríadelasherramientasqueseencuentran en línea se han diseñado para el trabajo con material en lenguainglesa.Ysibienmuchosdeestosprogramassepuedenutilizarconmaterialenespañol,esnecesariodiseñarherramientasquesoportenlosanálisispropiosdelalengua,demodoquelosestudiosenlenguaespañolaylosinvestigadorespuedanapoyarseenlaLCcomounametodología.Comoseenuncióanteriormente,laproduccióncientíficaenespañolesmuy
reducida; algunos de los autores de publicaciones relacionadas con corpus ylengua española son Leonel RuizMiyares (Cuba), Julia Baquero (Colombia),VíctorM.Castel,AnaMaríaMiret,RodolfoBoninoyLinaGrasso(Argentina),Giovanni Parodi, René Venegas y Manuel Contreras (Chile), Mariela Grassi,MarisaMalcouriyJavierCouto(Uruguay),LuisLara,PedroMartínButragueñoyYolandaLastra(México),GuillermoRojo,M.PazBattaner,M.AntoniaMartí,Irene Castellón Masalles, Joaquim Rafel, Joan Soler, Joaquim Llisterri, JoanTorruella,ManuelAlcántaraPla,MarioBarcala,AntonioBriz,MartaAlbelda,TeresaCabré,CarmenBach,M.LuisaCarrio,MiguelÁngelCandel-Mora,MarCruz Piñol, Manuel Ezquerra, Juan Villena, Francisco Marcos, FranciscoNavarro,ChantalPérez,PamelaBenítez,AntonioOrtiz,HerminiaPeraita,PilarSánchez-Gijón y María Rosa Vila y Milka Villayandre (España). Esta listapermiteverqueaunquesíexisteproducciónacadémicasobreelespañol,quedaclaroquelamayorpartedeestaproducciónprovienedeEspaña.La relación de la LC y el español comienza claramente en 1964 con el
“ProyectodeestudiocoordinadodelanormalingüísticacultadelasprincipalesciudadesdeEspañaeIberoamérica”122,conelcualsebuscabaconstruirungrancorpus123 oral representativo del español culto de varias ciudades españolas eiberoamericanas.Auncuandoestainiciativanosepensódesdelalingüísticadecorpus, se enmarcó en esos parámetros, por lo que permitió el estudio dediversosfenómenoslingüísticosyelcontrasteentrelasvariedadesdelespañol,obviamentesinlosapoyostecnológicosdelaactualidad.En 1969, Paul Garvin y la Universidad Mayor de San Marcos de Perú
publicanunode losprimeros textosenespañoldedicadosa los fundamentosylas herramientas informáticas necesarios para los trabajos en LC, denominadoBreveintroducciónalacomputaciónlingüística,consideradopioneroensuárea.Años después, aparecen en el panorama de los estudios lingüísticos del
español varios proyectos que desembocarían en la construcción de algunoscorpus. En 1991, el “Proyecto para el estudio sociolingüístico del español de
EspañaydeAmérica”124(Preseea)dainicioasusactividadesderecolecciónyconstrucción de un corpus del español hablado representativo en su variedadgeográfica y social de diferentes ciudades hispanohablantes como Alcalá deHenares, Buenos Aires, Culiacán, Lérida, Mérida, Montevideo, San Juan dePuertoRico,Valencia,Granada, Lima,Oviedo, Santiago deChile,Valparaíso,La Habana, Miami, Pereira, Medellín, Bogotá, Monterrey, Quito y Zaragoza,entre otras. Cada subcorpus, representativo de una ciudad específica, seencuentraenunestadodiferente,algunosestánenprocesoderecolección,otrosen fase de transcripción y unos restantes ya analizados y con materialpublicado.125 En 2014, Preseea tiene en su página web126 un corpus coninformación de Alcalá de Henares, Caracas, La Habana, Lima, Madrid,Medellín, Monterrey, Montevideo y Valencia, catalogada según el sexo delinformante(hombre-mujer),laedadyelniveldeestudios.Hacia finalesde losañosnoventa, laRealAcademiaEspañola (rae)ponea
disposición del público en general, de manera virtual y gratuita, dos nuevoscorpus: el Corpus de referencia del español actual127 (CREA) y el Corpusdiacrónicodelespañol128(Corde).ElCREAcuentaconmásde160millonesdepalabrasextraídasdetextosoralesyescritosentre1975y2004,provenientesenun50%defuentesespañolasyelotro50%defuentesamericanas;estoreflejala falta de equilibrio en la representatividad del corpus, ya que para serequilibrado y representativo debería tener muestras de cada paíshispanohablante,segúnsuporcentajedeproducciónlingüística.Deigualmanera,elcreaesconsideradouncorpusdegranimportanciapara
el español por ser el primero de su tipo y por su tamaño.A su vez, elCordecuenta con 250millones de palabras tomadas de textos escritos de diferentesgéneros,quedatande todas lasépocasy lugaresdondesehahabladoespañol,desdesuconsolidacióncomolenguahastaelaño1975.Estecorpushaservidocomo material para la construcción del Nuevo diccionario histórico delespañol129(actualmente,enprocesodeelaboración).En 2001, Mark Davies crea un corpus, gratuito y de libre acceso,
denominado Corpus del español, con más de cien millones de palabrasprocedentesderegistrosescritosdelossiglosXIIIalXXyregistroshabladosdeeste último siglo. La interfaz130 permite que el usuario realice búsquedas depalabras,frases,lemas,categoríasgramaticales,colocacionesyfrecuencias131.Desde 1990, la relación entre la lingüística de corpus y el español se ha
estrechado; esto se puede ver en el número de asociaciones y eventos
relacionadosdealgunamaneraconlaLCyelespañol,laconstitucióndegruposdeinvestigación,lautilizacióndeestametodologíapordiferentesuniversidadesylacreacióndediversoscorpus.
AsociacionesquedesarrollaneventosopropuestasdesdelaLC
Asociación Link
AmericanAssociationforCorpusLinguistics(AACL) http://aacl.sdsu.edu/
AsociaciónEspañoladeLingüísticadeCorpus(Aelinco) http://www.um.es/aelinco/
AsociaciónEspañoladeLingüísticaAplicada(Aesla) http://www.aesla.org.es/esAsociacióndeLingüísticayFilologíadeAméricaLatina(Alfal) http://www.mundoalfal.org/
AsociaciónLingüísticaSistémico-FuncionaldeAméricaLatina(Alsfal)
http://www4.pucsp.br/isfc/alsfal/espanol/Inicio.html
Si bien existen más de cinco asociaciones dedicadas al trabajo con lalingüística, son las nombradas anteriormente las que de alguna maneradesarrollan procesos o eventos relacionados con la LC. De las cinco, una sededicaespecialmentealtrabajoconestametodología(Aelinco),dosdeellassonespañolas (Aelinco yAesla), dos son latinoamericanas (Alfal yAlsfal), y unarealiza sus actividades desde Estados Unidos, enfocada principalmente enestudiossobrelenguascomoelinglésyelespañol(AACL).
EventosrelacionadosconlaLC
Evento InstituciónorganizadoraCongresoInternacionaldeLingüísticadeCorpus Aelinco
AACL AmericanAssociationforCorpusLinguistics
JornadadeCorpusLingüístics:Constitució,EtiquetatgeiExplotación UniversidadPompeuFabraEscuelaInternacionaldeVeranodeLingüísticadeCorpus UniversidadPompeuFabraJornadadeDivulgacióndelaLingüísticadeCorpus/CorpusLinguistics:AnIntroductorySeminarandWorkshop UniversidaddeSalamanca
En2014,elúnicoeventoactivofueelCongresoInternacionaldeLingüísticadeCorpus,ensusextaedición;porsuparte,elAACLsellevaacabocadadosaños, por lo cual el último evento se celebró en la ciudad de San Diego(California), en 2013. Las Jornadas de Corpus Lingüístics ofrecidas por laUniversidad Pompeu Fabra no han tenido continuidad desde finales de los
noventa,ylaEscuelaInternacionaldeVerano(2010),aligualquelaJornadadeDivulgación, ha tenido una sola presentación, efectuada en 2007. Estos datosdemuestranlafaltadetrabajoconjuntoenelámbitodela lenguaespañolaconrespecto a la LC, pues mientras que en inglés se cuenta con eventos anualescomo Corpus Linguistics Conference132, Summer School in CorpusLinguistics133, Workshop on Annotation134 y el International Workshop onTreebanksandLinguisticTheories135,enespañolsoloexisteuneventoanual.
GruposdeinvestigaciónyuniversidadesquetrabajanconlaLC
Dependencia Universidad País
CentrodeLingüísticaTeórica UniversidadAutónomadeBarcelona España
CentredeLlenguatgeiComputació(CliC) UniversidaddeBarcelona EspañaCorpusMultilingüedeEconomíayNegocios(Comenego) UniversidaddeAlicante EspañaElInstitutUniversitarideLingüísticaAplicada(IULA) UniversidadPompeuFabra España
GrupodeAnálisisdelasLenguasdeEspecialidad(GALE) UniversidadPolitécnicadeValencia España
GrupodeEstructurasdeDatosyLingüísticaComputacional UniversidaddeLasPalmasdeGranCanaria España
GrupodeFonética UniversidadAutónomadeBarcelona España
GrupoparaelEstudiodelaHistoriaLingüísticaIberoamericana UniversidaddeValladolid España
ILSEGrupodeInvestigación UniversidaddeAlmería EspañaInstitutoInteruniversitariodeLenguasModernasAplicadasdelaComunidadValenciana(Iulma) España
LaboratoriodeLingüísticaInformática UniversidadAutónomadeMadrid España
ResearchGroupforMultidimensionalCorpus-basedStudiesinEnglish(Muste) UniversidadedaCoruña España
GrupodeInvestigaciónProcesosdeGramaticalizaciónenlaHistoriadelEspañol(Programes)
UniversidadComplutensedeMadrid España
ValenciaEspañolColoquial(Val.Es.Co) UniversidaddeValencia EspañaLingüísticaAplicadaComputacional,EnseñanzadeLenguasyLexicografía(Lacell) UniversidaddeMurcia España
LingüísticaAplicadaComputacional,EnseñanzadeLenguasyLexicografía(Lacell)
UniversidadNacionalAutónomadeMéxico México
GrupodeIngenieríaLingüística(GIL) UniversidadNacionalAutónomadeMéxico México
GrupodeIngenieríaLingüística(GIL) UniversidadNacionalAutónomadeMéxico México
LaboratoriodeEstudiosFónicos ElColegiodeMéxico MéxicoEscuelaLingüísticadeValparaíso UniversidaddeValparaíso Chile
GrupodeLingüísticaHispánica UniversidaddelosAndes(Mérida,Venezuela) Venezuela
InstitutodeInvestigacionesLingüísticas UniversidaddeCostaRica CostaRica
GrupodeInvestigaciónenLingüísticadeCorpus InstitutoCaroyCuervo ColombiaGrupodeInvestigaciónenTraducciónyNuevasTecnologías UniversidaddeAntioquia Colombia
En cuanto a los grupos de investigación y la divulgación de la LC en elámbito académico del español, se encuentran en la actualidad (2014)veinticuatro equipos de trabajo que se dedican a la creación o explotación decorpus,oaltrabajodesdelalingüísticacomputacionalbasadoencorpus136.Delos veinticuatro grupos, más de la mitad se encuentran en territorio español;solamentenuevesonlatinoamericanos,conunafuertepresenciamexicana.
Corpusnacionales
Corpus País Localización
1 Corpusdelespañolmexicanocontemporáneo1(CEMC) México http://www.corpus.unam.mx:8080/cemc/.
2 CorpushistóricodelespañoldeMéxico2(CHEM) México http://saussure.ii.unam.mx/chem/.
3 CorpuslingüísticodereferenciadelalenguaespañolaenChile3 Chile http://www.lllf.uam.es/ESP/Chile.html.
4CorpuslingüísticodereferenciadelalenguaespañolaenArgentina4
Argentina http://www.lllf.uam.es/ESP/Argentina.html.
Enespañol existen cuatro corpus representativosde lavariedadhabladadecadapaís.MéxicocuentaconelCorpusdelespañolmexicanocontemporáneoyelCorpushistóricodelespañoldeMéxico,losdosconaccesogratuitoenlínea,mientras que Chile tiene un Corpus de referencia del español de Chile yArgentinaunCorpusdereferenciadelespañoldeArgentina,losdosdonadosalCorpusdelespañol,deMarkDavies.Seencuentrantambiéncorpusnacionalescomo American National Corpus137 (Estados Unidos), British NationalCorpus138 (Inglaterra), Thai National Corpus139 (Tailandia), HungarianNationalCorpus140 (Hungría),Cˇeskýnárodní korpus141 (RepúblicaCheca) yHellenicNationalCorpus142(Grecia),entreotros.
Corpusdelespañol
Corpus Corpus
1 ABC 42 Corpusoraldellenguajeadolescente(COLA)
2 Adquisición,desarrolloyrepresentacióndecategoríassemánticasenniñosdeedadescolar 43 Corpusoralpeninsular
3 Albayzín 44 Corpusoralysonorodelespañolrural(Coser
4 Alfal 45 CorpusparaelestudiodelespañolhabladoenSantiagodeCompostela-CSC
5 Almecor 46 CorpussociolingüísticodeMérida,Venezuela(CSMV)
6 AnálisisdelaconversacióndelaUniversidaddeAlcaládeHenares(Acuah) 47 Corpustextualdelespañolperiodístico
7 Análisisdeldiscursooral 48 Cráter8 Análisisdeldiscursopúblicoactual(ADPA) 49 Cumbre9 Briscoe 50 DIES-RTP
10 Caracas77 51 Diferenciasindividualesenlaadquisicióndellenguaje11 Caracas87 52 DIMEx10012 CATE 53 Disponibilidadléxicadelosadolescentes13 Cedel2 54 Elcorpusvirtualdelared14 Ceudex 55 ElGrial15 Corpus92 56 ElMundo1994-1995
16 Corpusanotadoconrelacionesdiscursivas-RSTSpanishTreebank 57 Espal
17 Corpusdecontextosdefinitorios(Corcode) 58 FAE-EspCan
18 Corpusdeconversacióncoloquial-Valenciaespañolcoloquial 59 Frecuenciadeelementosléxicosenmanualesdepreescolar
19 Corpusdedocumentoscoloniales(Mérida,Venezuela) 60 Gaudí
20 Corpusdedocumentosespañolesanterioresa1700 61 HamburgCorpusofArgentineanSpanish(HaCASpa)
21 CorpusdeencuestasdeAsuncióndeParaguay(CEAP) 62 Hopinion
22 CorpusdelassexualidadesenMéxico(CSMX) 63 LAN23 Corpusdereferenciadelespañolactual(CREA) 64 Legebidium
24Corpusdeverificacióndelsistemadediccionariosygramáticaselectrónicosdelespañol(CorVerifSDGEE)
65 Lejes
25 Corpusdevocabulariodelniñode6a14años 66 Léxicoinformatizadodelespañol(Lexesp)
26 Corpusdelespañol 67Macrocorpusdelanormalingüísticacultadelasprincipalesciudadesdelmundohispánico(MC-NLCH)
27 Corpusdelespañolactual(CEA) 68 Multext
28 Corpusdelespañolmexicanocontemporáneo(CEMC) 69 Número
29 CorpusdelhabladeAlmería 70 PA85/86-Corpusdedígitos
30 CorpusdelNuevoDiccionarioHistóricodelEspañol(NDHE) 71 PA85/86-Corpusdeletras
31 Corpusdiacrónicodelespañol(Corde) 72ProyectoparaelEstudioSociolingüísticodelEspañoldeEspañaydeAmérica(Preseea)
32 Corpusdigitaldelespañolcolonialmexicano(Corecom) 73 SpanishFrameNet(SFN)
33 CorpushistóricodelespañoldeMéxico(CHEM) 74 Spatis
34 Corpusinformatizado:TextosdelespañoldeUruguay(Corin) 75 Tangora
35CorpuslingüísticodedefinicionesdecategoríassemánticasdepersonasmayoressanasyconlaenfermedaddeAlzheimer
76 Telémaco
36 CorpuslingüísticodereferenciadelalenguaespañolaenArgentina 77 TIC-0448/89
37 CorpuslingüísticodereferenciadelalenguaespañolaenChile 78 UAM-Treebank
38 Corpuslingüísticoeningeniería(CLI) 79 Variedadesurbanasandaluzas(VUA)
39 CorpusoraldelavariedadjuveniluniversitariadelespañolhabladoenAlicante(COVJ) 80 Vestel
40 Corpusoraldereferenciadelespañolcontemporáneo(Corlec) 81 Vox-Bibliograf
41 Corpusoraldereferenciadelespañolcontemporáneo
Además de los ya conocidos Corde, CREA yCorpus del español, existendiversos corpus en español hechos con diferentes fines; por ejemplo, algunoscorpusrealizadosporMéxico,VenezuelayParaguaysedonaronalCREA,comoel CEAP,Caracas 77 yCaracas 87. Los corpus que se presentan en la tablaanterior(tabla8)nocorrespondenatodoslosexistentesenlenguaespañola,perosímuestranunespectrodel lugardondeseencuentra laLCen relacióncon lalengua.Lamayoríade loscorpussonrepresentativosde lavariedad ibérica, loque denota poco desarrollo de recursos lingüísticos representativos de otrasvariedades del español. Cabe señalar que la mayor parte de ellos se puedeconsultaratravésdeinternet.Sibienlarelaciónentre laLCyelespañolescadavezmásfuerte, todavía
son diversos los campos en los que se puede explorar. El uso de estametodología brinda la posibilidad de conocer mejor las características de lasvariedades de la lengua española; además, esta relación ofrece oportunidadescomo las que Berber (2011) plantea: oportunidad de innovación,interdisciplinariedad,creacióndecomunidad investigativaen lenguamaternayexploracióndelcontextolocal.Alespañollehacenfaltacorpusrepresentativosdecadapaís,diccionariosde
frecuencias,gramáticasbasadasenusosreales,corpusdeaprendicesysoftwareespecializados en la lengua; adicionalmente, el área científico-académica delespañol debe superar las barreras metodológicas y tecnológicas para ser máscompetitivosenelcampodelainvestigaciónlingüística,divulgarefectivamentepublicacionesenespañolyhacerquelaLCformepartedeloscurrículosdelospregrados y posgrados relacionados con la lingüística. De esta manera, larelaciónentrelaLCyelespañolseconsolidará.
121.Conrecursoslingüísticossehacereferenciaalaliteratura,losdiccionariosyloscorpus,entreotros.
122.Desdeel2003esteproyectoseconoceconelnombrede“ProyectodelanormacultahispánicaJuanM.LopeBlanch”.
123.Eltérminocorpusnoseutilizóduranteeldesarrollodelproyecto,peroelresultadofuelaconstitucióndeuncorpusnodigital.
124.http://preseea.linguas.net/.
125.Estainformaciónseencuentraactualizadaa2014.
126.http://preseea.linguas.net/Corpus.aspx.
127.http://corpus.rae.es/creanet.html.
128.http://corpus.rae.es/cordenet.html.
129.http://web.frl.es/DH/org/login/Inicio.view.
130.Lainterfazcorrespondealprogramainfo7rmáticoquepermitelainteraccióndelusuarioconelcorpus.
131.Paramásinformaciónsobrecolocacionesyfrecuencias,véaseelapartado“Característicasdeuncorpus”oelGlosario.
132.http://ucrel.lancs.ac.uk/.
133.http://ucrel.lancs.ac.uk/summerschool/corpusling.php.
134.http://www.ling.uni-potsdam.de/acl-lab/law2014/.
135.http://tlt13.sfs.uni-tuebingen.de/.
136.EsposiblequeexistanmásgruposquetrabajenconlaLC,peroestosveinticuatrosonlosquemástrabajoshandesarrolladoapartirdelametodología.
137.http://www.americannationalcorpus.org/OANC/index.html.
138.http://www.natcorp.ox.ac.uk/.
139.http://www.arts.chula.ac.th/~ling/TNC/.
140.http://corpus.nytud.hu/mnsz/index_eng.html.
141.https://www.korpus.cz/.
142.http://hnc.ilsp.gr/en/.
Consideracionesfinales
Asílascosas,eldesarrollodelaLCcontinúaenunmarcoextraordinariamenteinteresanteyenebullición.Lasimplicanciasquelaperspectivateóricaque(yaseaprofundaosuperficial)puedatraerconsigo(Hunston&Thompson,2006)anuncian―enalgunamedida―queestamosenmedio de un proceso de cambios y ajustes, y avanzando hacia unamirada cada vezmáscompleja y enriquecida de los objetos de estudio. Miradas que ciertamente potencian lasindagaciones empíricas del lenguaje y de las lenguas particulares, desdemúltiples puntos demirayhaciendoconfluiraproximacionesantesimpensadas(Parodi,2008,p.118).
La lingüística de corpus se constituye en una metodología para lainvestigaciónyelanálisisdedatosdelalenguaenuso.Sucampodeaplicaciónse expande cuando se recurre a herramientas informáticas, ya que permiten elalmacenamiento, la sistematización y la explotación de grandes cantidades demateriallingüístico;dichametodologíatomacadavezmásfuerzaysonmásloscorpusquesecreandíatrasdía.Apropósitodeesto,RafelySolercomentan:
Enlaactualidad,lacantidaddecorpusexistentesydeproyectosdeconstitucióndecorpuscrece cada día, hasta el punto de que se hace difícil dar una relación de los mismos. Haydirecciones web específicas que están actualizadas periódicamente, donde puede encontrarseinformaciónsobrediferentescorpus(2003b,p.59).
Algunas de estas páginas web en las que se puede encontrar informaciónsobrecorpusyherramientasparasuexplotaciónson:
http://www.meta-share.org/.http://www.essex.ac.uk/linguistics/external/clmt/w3c/corpus_ling/content/corpora/list/index2.htmlhttp://www.ling.ohio-state.edu/~dickinso/corpus.html.http://ucrel.lancs.ac.uk/#sec.https://www.ldc.upenn.edu/.http://www.uow.edu.au/~dlee/CBLLinks.htm.http://www.helsinki.fi/varieng/CoRD/corpora/.
Conestelibrosebusca,ademásdebrindarbasesteóricassobrelaLCyloscorpus, despertar el interés de estudiantes, profesores, académicos einvestigadores, para que exploren y utilicen la lingüística de corpus en susclases,proyectoseinvestigaciones,demaneraquesedifundaestametodología
enelpanorama latinoamericano;poresto,nuestrasconsideraciones finalesvanencaminadashacialoquefaltahacerenestaárea:
Los corpus deben ser novedosos, representativos, variados yreutilizables.Construirunsinnúmerodecorpussimilares,queincluyanotrabajen losmismos fenómenos, solodesembocaen laacumulación,nosistemática,derecursoslingüísticos.Laslenguasconmáspesoculturalydemográficorequierenuncorpusdereferencia. Por eso, el español necesita corpus de cada variedadlingüística.Dada la variedad lingüística latinoamericana, se hace necesariodocumentar lasdiferenteslenguas, loquesugierelacreacióndenuevoscorpus.La LC y la explotación de corpus abren el espectro investigativo adiferentesáreasinteresadasenellenguaje,nosolamentealalingüística;estudios que responden a múltiples necesidades pueden resultar delanálisisdedatoslingüísticosdelalenguaenuso.
Aunque existen iniciativas como TEI (Text Encoding Iniciative)143, sedebebuscarlaestandarizacióndeparámetrosdeconstruccióndecorpus;de estemodo, elmaterial lo pueden utilizar investigadores de diversoscamposydisciplinas.Laofertadeherramientascomputacionalesparalaexplotacióndecorpusesvariada,peronosuficiente;porestoserequierelacreacióndenuevastecnologías, especialmente para el trabajo de la lengua española, conespecialénfasisenlosprocesosdeanotación.Laexplotacióndelawebcomocorpusrequiereatención,sobretododeestudiantes,profesores,académicoseinvestigadoreshispanohablantes.Las publicaciones científicas y académicas en español, tanto en libroscomoenrevistas,debenversemáspermeadasporlaLC,asícomosucedeenlenguascomoelinglés.Los programas universitarios de pregrado, posgrado e investigaciónrelacionados con el lenguaje deben incluir en sus currículos materiasrelacionadasconlalingüísticadecorpusylalingüísticacomputacional,especialmenteenLatinoamérica.Parodicomentaalrespecto:
Lasuperacióndelabarrerametodológicaytecnológicanopuedeesperarsi queremos, efectivamente, producir investigación competitiva y deprimer orden, acompañada de publicaciones indexadas de ampliadifusiónennuestralengua.Ladocenciadepregradoydeposgradoexigequeasí sea,paraque―entreotros―la superaciónde labrechadigitaldeje de ser una utopía y el acceso al conocimiento especializado estédisponibledemocráticamente(2010,p.166).Losdepartamentosuniversitariosdelingüística,ingenieríaseinformáticapueden trabajar en proyectos conjuntos, de manera que se formenexpertoseneláreadelaLC.Lainvestigaciónenlingüísticadecorpusesunatareadelaacademia,lasentidadesgubernamentaleseinclusolasindustriales.La unión entre centros universitarios, editoriales y empresas detecnologíapuedencontribuiralacreaciónyexplotacióndecorpusy,porsupuesto,alacreacióndenuevasherramientasinformáticas.
143.VéaseelGlosario.
Glosario
AnotaciónAdición de información lingüística (fonética, morfológica, semántica, etc.) acadaunodeloselementosdeuncorpus.
AnotaciónparalingüísticaAdicióndeinformaciónacadaunodeloselementosdeuncorpus,sobredatosno lingüísticos que acompañan las situaciones comunicativas, como signosfisiológicosoemocionales,elvolumendelavozyelritmo.
AnotaciónprosódicaAdición de información de elementos paralingüísticos propios de la oralidad,comolaentonación,laspausas,elritmoylosacentos,entreotros,acadaunodeloselementosdeuncorpus.
ArchivoinformatizadoConjunto de textos en soporte digital, de características diversas en cuanto afechas,estructurasytemas,quebuscalaconservacióndematerialtextual.
BibliotecadetextoselectrónicosColecciones de textos digitales, almacenados en un formato estándar yorganizados según áreas del conocimiento humano, con el fin de facilitar lasbúsquedas.
CoocurrenciaAparicionesfrecuentesdediferenteselementoslingüísticosdentrodeunmismocontexto.Ejemplo:lapalabradineroenuncorpusderevistasfinancierastieneunaelevadafrecuenciadeaparición,acompañadade laspalabras lavadoyde, formando laexpresiónlavadodedinero.
CodificaciónProceso de conversión del lenguaje natural a caracteres susceptibles deprocesamientoporprogramascomputacionales.
Coligación(Colligation)Secuenciadepalabrasenlaqueuntérminoléxicocoocurreamenudoconuna
categoríagramatical.
ColocaciónSecuencia de términos léxicos que coocurren frecuentemente en una mismalengua.
ComponenteConstituyentedeuncorpusquecorrespondeacoleccionesdemuestrasdelenguaquecompartenunmismocriterio lingüístico,comolavariedad,elregistroylaprocedencia.
ConcordanciaListadetodaslasocurrenciasdeunapalabraotérminoespecíficodentrodeuncontextoonúmerodeterminadodeelementosquelaacompañanantesodespuésdesuaparición.
CorpusConjunto de textos en formato digital, recolectados, almacenados ysistematizadosdeacuerdoconcriterioslingüísticoscomomuestrarepresentativadeunalenguaovariedad.
Enfoquebasadoencorpus(corpus-based)Formadetrabajodesdelalingüísticadecorpusenlaqueelinvestigadorconocelateoría,tienehipótesisybuscavalidarlasorechazarlasmediantelosdatosdelcorpus.
Enfoqueguiadoporcorpus(corpusdriven)Forma de trabajo desde la lingüística de corpus en la que a partir de laobservación de patrones o fenómenos encontrados en un corpus se llega a laformulacióndehipótesis.
EstándardecodificaciónReferencia que permite entender, manejar y guiar los procesos y códigosempleadosporunsoftware.AlgunosestándaresparamanipulacióndecorpussonExpert Advisory Group on Language Engineering Standards (Eagles) y TextEncodingInitiative(TEI).
EtiquetaSecuencia de caracteres de algún lenguaje demarcado (xml, hatml, sgml) quecontiene información adicional acerca de los elementos del corpus, losdocumentosouncorpusengeneral.
EtiquetadorProgramacomputacionalencargadodeadicionarcualquier tipode informaciónextraalcorpusysuselementos.
Etiquetadogramaticalomorfológico(part-of-speech,pos)Procesodeanotaciónenelqueseasignaunaetiquetaacadapalabradelcorpusdondeseindicalacategoríagramatical,segúnelcontexto.
FrecuenciaNúmerodevecesqueunmismoelemento(morfema,palabra,expresión,patróngramatical)aparecedentrodeuncorpus.
FuncionalismoEnfoquealateoríalingüísticaquebuscaexplicarlalenguaapartirdereferenciasdeuso.
InterfazgráficaProgramacomputacionalquepermiteyfacilitalainteraccióndelusuarioconelcorpus.
LenguajedeMarcasdeHipertexto(HypertextMarkupLanguage,html)Sistema de codificación utilizado para agregar etiquetas que indican alnavegadorcómoestructurarymostrarcontenido,especialmenteenlaweb.
LingüísticacomputacionalDisciplina de la lingüística aplicada y la inteligencia artificial encargada delestudio, diseño y elaboración demodelos computacionales capaces de simularlashabilidadeslingüísticasdelserhumano.
MetadatoInformación estructurada que describe el contenido y las características de losdatos,lostextosyloscorpus,yqueasuvezpermitehacerbúsquedasdentrodelacolección.
Palabraclave(keyword)Término que, por su alta frecuencia de aparición en comparación con otroscorpus,seconvierteenpropioyrepresentativodelcorpusalquepertenece.
ProgramadeconcordanciasHerramientas computacionales de análisis textual que generan listas deocurrenciasdepalabrasquegeneralmentevanjuntas.
RecursoslingüísticosMaterialpropioyrepresentativodeunalenguaovariedad,comolaproducciónliteraria,losdiccionariosyloscorpus.
RepresentatividadRasgo ideal de un corpus para comportarse como un modelo de la lenguamostrandosuspartesytendencias,yconstituyéndoseenunareferencia.
SistemadecodificaciónLenguaje compuesto por caracteres computacionales capaz de representar loscaracteres propios de las diferentes lenguas.Algunos sistemas de codificaciónsonASCII,ASCIIExtendidoyUnicode.
SubcorpusDivisióndeuncorpusenporcionesmáspequeñasconcaracterísticascomunesyquepuedenfuncionardemaneraindependiente.
TokenUnidad informática o componente léxico (palabra) compuesto por caracterespropiosdealgúnlenguajedeprogramación,enlosquesedividecadaunodelostextosdeuncorpus.
TranscripciónProceso manual o automático en el cual la lengua hablada se representa concaracteres escritos. Puede ser fonética cuando se representan los sonidos delhabla y prosódica cuando se representan, mediante caracteres gráficos,fenómenossuprasegmentalesdelalenguacomolaentonaciónyelacento.
Bibliografía
Alcántara, M. (2007). Introducción al análisis de estructuras lingüísticas encorpus.Aproximaciónsemántica.Madrid:UAMEdiciones.
Atkins, S., Clear, J.&Ostler, N. (1992). Corpus design criteria.Literary andLinguisticComputing,7(1),1-16.doi:10.1093/llc/7.1.1.
Baker,P.,Gabrielatos,C.,KhosraviNik,M.,Krzyzanowski,M.,McEnery,T.&Wodak, R. (2008). A useful methodological synergy? Combining criticaldiscourseanalysisandcorpuslinguisticstoexaminediscoursesofrefugeesandasylumseekersintheUKpress.Discourse&Society,19(3),273-306.Doi:10.1177/0957926508088962.
Baker,P.&Hardie,A. (2006).AGlossaryofCorpusLinguistics.Manchester:EdinburghUniversityPress.
Baquero, J. (2010).Lingüística computacional aplicada. Bogotá: UniversidadNacionaldeColombia.
Berber, T. (2011). Corpus linguistics in South America. En Perspectives onCorpus Linguistics (pp. 29-45). Amsterdam/Philadelphia: John BenjaminsPublishing.
Biber,D. (1993).Representativeness in corpusdesign.Literary and LinguisticComputing,8(4),243-257.
Biber,D., Conrad, S.&Reppen, R. (1998).Corpus Linguistics: InvestigatingLanguageStructureandUse.Cambridge:CambridgeUniversityPress.
BNCConsortium. (2007).BritishNationalCorpus [Text].Recuperado el 7 demarzode2014dehttp://www.natcorp.ox.ac.uk.
Chafe,W. (1992).The ImportanceofCorpusLinguistics toUnderstanding theNature ofLanguage.EnDirections inCorpus Linguistics: Proceedings ofNobelSymposium82Stockholm,4-8August1991 (pp.79-97).Estocolmo:WalterdeGruyter.
Chomsky,N.(1966).Linguistiquecartésienne.París:Seuil.Cicres, J. (2011).La lingüística forenseyelusode loscorpus lingüísticos.En
ActasdelIIICongresointernacionalde lingüísticadecorpus.Tecnologíasdelainformaciónylascomunicaciones:presenteyfuturoenelanálisisdecorpus.Valencia:UniversidadPolitécnicadeValencia.
Corpus Linguistics: Method, Analysis, Interpretation - Future Learn (2014).
Course, Lancaster University. Recuperado dehttps://www.futurelearn.com/courses/corpus-linguistics/todo/241.
Cortez,Godínez,J. (2010).Elcorpusadhoccomoherramienta de traducción.En Memorias del VI Foro de Estudios en Lenguas Internacionales.Chetumal:UniversidaddeQuintanaRoo.
Cruz, M. (2012). Lingüística de corpus y enseñanza del español como 2/L.Madrid:ArcoLibros.
Davies,M. (s.f.). Corpus del español. Recuperado el 7 de marzo de 2014 dehttp://www.corpusdelespanol.org.
Economic and Social Research Council (2008). BSL Corpus Project.Recuperadoel28defebrerode2014dehttp://www.bslcorpusproject.org.
Flórez, L., Montes, J., Mora, S., Rodríguez, M., Figueroa, J. & Lozano, M.(1982).Atlaslingüístico-etnográficodeColombia(ALEC).Bogotá:InstitutoCaroyCuervo.
Francis,N.,Kučera,H.&Mackie,A.W.(1982).FrequencyanalysisofEnglishusage:lexiconandgrammar.Boston:HoughtonMifflin.
González,A.&Otálora,H.(1986).ElhabladelaciudaddeBogotá:materialesparasuestudio.Bogotá:InstitutoCaroyCuervo.
Gries, S. (2009). What is Corpus Linguistics? Language and LinguisticsCompass,3(5),1225-1241.doi:10.1111/j.1749-818X.2009.00149.x.
GrupodeTecnologíadelHablade laUniversidadPolitécnicadeMadrid (s.f.).Corpus lingüísticos. Recuperado dehttp://lorien.die.upm.es/juancho/pfcs/AJP/cap4.pdf.
Hrušková, J. (2008). Los corpus crea y Corde en el contexto de los corpuslingüísticos.
ICE Teams (1990). International Corpus of English (ice). Recuperado el 7 demarzode2014dehttp://ice-corpora.net/ice.
Instituto Cervantes (2014). El español: una lengua viva. Madrid: InstitutoCervantes.
Kabatek, J. (2012). ¿Es posible una lingüística histórica basada en un corpusrepresentativo? Recuperado dehttps://www.academia.edu/2299020/_Es_posible_una_linguistica_historica_basada_en_un_corpus_representativo
Kennedy,G.(1998).Anintroductiontocorpuslinguistics.Londres,NuevaYork:Longman.
Lastra, Y. (2008). Futuro perifrástico y futuro morfológico en el corpussociolingüístico de la Ciudad deMéxico. Presentado en el XV CongresoInternacionaldelaAlfal.Montevideo.
Leech,G.(1991).Thestateoftheartincorpuslinguistics.Recuperadoel9deagosto de 2013 dehttp://ccl.pku.edu.cn/doubtfire/CorpusLinguistics/Introduction/The%20state%20of%20the%20art%20in%20corpus%20linguistics.htm
Leech, G. (2011). Principles and applications of Corpus Linguistics. EnPerspectivesonCorpusLinguistics(pp.155-170).Amsterdam/Philadelphia:JohnBenjaminsPublishing.
López, F., Méndez, C., Sierra, G. & Solórzano, J. (2013). Exploración demedidas estilométricas para atribución de autoría. Presentado en el IIISeminariodeLingüísticaForense.México,D.F.
Maher,J.&Groves,J.(2007).Chomskyparatodos.Barcelona:Paidós.McEnery, T. (2001). Corpus Linguistics: An Introduction. Manchester:
EdinburghUniversityPress.McEnery, T. & Hardie, A. (2011).Corpus Linguistics: Method, Theory and
Practice.Cambridge,NuevaYork:CambridgeUniversityPress.McEnery, T. & Wilson, A. (2012). ICT4LT Module 3,4 Corpus Linguistics.
Recuperado el 9 de agosto de 2013 de http://www.ict4lt.org/en/en_mod3-4.htm.
McEnery,T.,Xiao,R.&Tono,Y.(2006).Corpus-basedLanguageStudies:Anadvancedresourcebook.Londres,NuevaYork:Routledge.
Melero, M., Badia, T. & Moreno, A. (s.f.-b). La lengua española en la eradigital.Barcelona:Springer.
Mercado,H.(2008).Fundamentosdelalingüísticadecorpus.Montes, J., Mora, S., Espejo, M., Figueroa, J., Lozano, M., Ramírez, R. &
Duarte,G.(1998).ElespañolhabladoenBogotá.Bogotá:InstitutoCaroyCuervo.
Palacios, M. & Sierra, G. (2011). Corpus para el análisis del discurso delconcepto ad hoc- cracia. En Actas del III Congreso Internacional deLingüísticadeCorpus.Tecnologíasdelainformaciónylascomunicaciones:presenteyfuturoenelanálisisdecorpus.Valencia:UniversidadPolitécnicadeValencia.
Parodi, G. (2005). Discurso especializado y lingüística de corpus: hacia eldesarrollodeunacompetenciapsicolingüística.BoletíndeLingüística, 23,61-88.
Parodi, G. (2007a). Lingüística de corpus: puntos de mira. EnLingüística decorpusydiscursosespecializados:puntosdemira (pp.13-30).Valparaíso:EdicionesUniversitariasdeValparaíso.
Parodi, G. (2007b). Working with Spanish corpora. Londres, Nueva York:
Continuum.Parodi, G. (2008). Lingüística de corpus: una introducción al ámbito. RLA.
Revista de Lingüística Teórica y Aplicada, 46(1), 93-119.doi:10.4067/S0718-48832008000100006.
Parodi, G. (2010). Lingüística de corpus: de la teoría a la empiria.Madrid/Frankfurt:Iberoamericana.
Parodi,C.&Carrera,M.(2011).InformedelasactividadesdelproyectoparalahistoriadelespañoldeAmérica.Madrid:Alfal.
Peraita,H.&Grasso,L.(2010).Corpuslingüísticodedefinicionesdecategoríassemánticas de sujetos ancianos sanos y con la enfermedad de Alzheimer.Una investigación transcultural hispano-argentina. Madrid, Buenos Aires:Fundaciónbbva.
Procházková,P. (2006).Fundamentosde la lingüísticadecorpus.“Concepciónde los corpus y métodos de investigación con corpus”. Recuperado dehttp://prochazkova.de/fundamentos_de_la_ling%C3%BC%C3%ADstica_de_corpus.pdf
Rafel,J.&Soler,J.(2003).Elprocesamientodecorpus.Lalingüísticaempírica.EnLastecnologíasdellenguaje(p.295).Barcelona:Editorialuoc.
Rea,C. (2010).GettingonwithCorpusCompilation: fromTheory toPractice.ESPWorld,9.
RealAcademiaEspañola(2001).Diccionariodelalenguaespañola (22.aed.).Madrid:Espasa.
RealAcademiaEspañola(s.f.-a).Corpusdereferenciadelespañolactual(crea).Recuperadoel7demarzode2014dehttp://corpus.rae.es/creanet.html.
Real Academia Española (s.f.-b). Corpus diacrónico del español (Corde).Recuperadoel7demarzode2014dehttp://corpus.rae.es/cordenet.html.
Rojo,G.(2008).Lingüísticadecorpusylingüísticadelespañol.PresentadoenelXVCongresodelaAlfal.Montevideo.
Rojo, G. (2009). Sobre la construcción de diccionarios basados en corpus.Revista Tradumàtica. Recuperado dehttp://webs2002.uab.es/tradumatica/revista/num7/articles/02/02art.htm.
Semino, E. (2008). Metaphor in discourse. Cambridge, UK; Nueva York:CambridgeUniversityPress.
Semino, E. (2013).Corpus methods and a questionnaire for the diagnosis ofpainsymptoms.PresentadoenUcrelcrs,LancasterUniversity.
Sinclair,J.(1991).Corpus,concordance,collocation.Oxford:OxfordUniversityPress.
Soler, V. (2007). Patrones lingüísticos para la búsqueda de información
conceptualenelcorpustextualespecializadodelacerámicaTXTCerama(p.14). Presentado en Jornades de Foment de la Investigació. Valencia.Recuperadodehttp://www.uji.es/bin/publ/edicions/jfi10/trad/14.pdf.
Tognini-Bonelli,E.(2001).Corpuslinguisticsatwork.Amsterdam/Philadelphia:JohnBenjaminsPublishing.
Torruela, J. & Llisterri, J. (1999a). Diseño de corpus textuales y orales. EnFilologíaeinformática:nuevastecnologíasenlosestudiosfilológicos (pp.45-77).Barcelona:Milenio.
Venegas, R. (2010). Lingüística de corpus: métodos y herramientas para elanálisis del discurso escrito. Recuperado dehttp://www.slideserve.com/ellie/ling-stica-de-corpus-m-todos-y-herramientas-para-el-an-lisis-del-discurso-escrito.
Viana, V., Zyngier, S. & Barnbrook, G. (2011). Perspectives on corpuslinguistics.Amsterdam/Philadelphia:JohnBenjaminsPublishing.
Villayandre,M. (2006). Lingüística de corpus. Recuperado el 9 de agosto de2013dehttp://fhyc.unileon.es/Milka/LCII/LC1.htm.