18
IULA-UPF Centre de Competències CLARIN Big Data y Humanidades -- Núria Bel 1 Centro de Competencias en Recursos y Tecnologías Lingüísticas Núria Bel [email protected] Grup de Tecnologies dels Recursos Lingüístics/ Institut Universitari de Lingüística Aplicada Departament de Traducció i Ciències del llenguatge

Centro de Competencias en Recursos y Tecnologías Lingüísticas

Embed Size (px)

DESCRIPTION

Presentación del IULA-UPF Centro de Competencias CLARIN en la Jornada “Big Data en las Humanidades” realizada en el el Centro de Cultura Contemporanea de Barcelona (02/10/2014).

Citation preview

Page 1: Centro de Competencias en Recursos y Tecnologías Lingüísticas

IULA-UPF Centre de Competències CLARINB

ig D

ata

y H

um

anid

ades -

-N

úria B

el

1

Centro de Competencias en Recursos y Tecnologías Lingüísticas

Núria Bel

[email protected]

Grup de Tecnologies dels Recursos Lingüístics/

Institut Universitari de Lingüística Aplicada

Departament de Traducció i Ciències del llenguatge

Page 2: Centro de Competencias en Recursos y Tecnologías Lingüísticas

IULA-UPF Centre de Competències CLARINB

ig D

ata

y H

um

anid

ades -

-N

úria B

el

2

Misión del centro

El Centro de Competencias tiene la misión de promocionar

la utilización de tecnología lingüística en la investigación

en Humanidades y Ciencias Sociales.

La tecnología es la que capacita a los investigadores para

analizar grandes cantidades de datos.

Page 3: Centro de Competencias en Recursos y Tecnologías Lingüísticas

IULA-UPF Centre de Competències CLARINB

ig D

ata

y H

um

anid

ades -

-N

úria B

el

3

¿Grandes cantidades de datos en

Humanidades ?

Algunos ejemplos?

Page 4: Centro de Competencias en Recursos y Tecnologías Lingüísticas

IULA-UPF Centre de Competències CLARINB

ig D

ata

y H

um

anid

ades -

-N

úria B

el

4

Páginas Objetivo

Mapping Texts, Torget AJ,

Mihalcea R, Christensen J,

McGhee G

232.567 Descubrir patrones lingüísticos

interesantes.

Demography of Literary

Form: Probabilistic

Models for Literary

History, Allen Beye

Riddell

12.370 Identificar géneros/grupos de

novelas

Studying How the Past is

Remembered. Au Yeung

C, Jatowt A

2.000.000 Identificar referencias al pasado en

artículos de prensa para representar

la memoria colectiva de diferentes

países.

Is There a Political Bias?

A Computational

Analysis of Female

Subjects' Coverage in

Liberal and Conservative

Newspapers. Shor E, et

al.

25.000.000 Estimar si la adscripción política de

un medio explica un tratamiento

diferente del seguimiento público de

mujeres.

Big Data: 39.000 quijotes ?

Algunos ejemplos?

Page 5: Centro de Competencias en Recursos y Tecnologías Lingüísticas

IULA-UPF Centre de Competències CLARINB

ig D

ata

y H

um

anid

ades -

-N

úria B

el

5

12.370 pág.

Page 6: Centro de Competencias en Recursos y Tecnologías Lingüísticas

IULA-UPF Centre de Competències CLARINB

ig D

ata

y H

um

anid

ades -

-N

úria B

el

6

232.567 pág.

Page 7: Centro de Competencias en Recursos y Tecnologías Lingüísticas

IULA-UPF Centre de Competències CLARINB

ig D

ata

y H

um

anid

ades -

-N

úria B

el

7

2.000.000 pág.

Page 8: Centro de Competencias en Recursos y Tecnologías Lingüísticas

IULA-UPF Centre de Competències CLARINB

ig D

ata

y H

um

anid

ades -

-N

úria B

el

8

25.000.000 páginas

Page 9: Centro de Competencias en Recursos y Tecnologías Lingüísticas

IULA-UPF Centre de Competències CLARINB

ig D

ata

y H

um

anid

ades -

-N

úria B

el

9

¿Cómo lo hacen los que ya están analizando grandes cantidades de textos en investigaciones de áreas de humanidades y ciencias sociales?

Page 10: Centro de Competencias en Recursos y Tecnologías Lingüísticas

IULA-UPF Centre de Competències CLARINB

ig D

ata

y H

um

anid

ades -

-N

úria B

el

10

Enlaces para describir y dar información de la tecnología

Page 11: Centro de Competencias en Recursos y Tecnologías Lingüísticas

IULA-UPF Centre de Competències CLARINB

ig D

ata

y H

um

anid

ades -

-N

úria B

el

11

Y capacitar al usuario para utilizar las herramientas

Alcalde de Casa

Alemania

Almirante de Castilla

Arzobispo de Granada

Choronica

Ciudad Rodrigo 3 de

agosto de 1641

Conde Duque

Conde Duque

Conde Duque de Olivares

Conde Duque de Olivares

Conde de Olivares

Conde de Olivares

Corte

Don Eugenio Carreto

Don Garcerán Albañel

Duque de Alba

Duquesa de el Infantado

España

Granada

Italia

Madrid

Madrid 11 de septiembre

de 1624

Marqués de Grana

Meliso

Miguel de Cárdenas

Padre Francisco Aguado

Presidente de Castilla

Provincial de la Compañía

de Jesús

Reina Doña Isabel de

Borbón

Reinos

Page 12: Centro de Competencias en Recursos y Tecnologías Lingüísticas

IULA-UPF Centre de Competències CLARINB

ig D

ata

y H

um

anid

ades -

-N

úria B

el

12

El catálogo capacita a investigadores a partir de 3 acciones:

• Mirar qué han hecho los demás?

– Entrada por áreas de investigación, enlaces a

proyectos y artículos

• Y cómo lo han hecho ellos?

– Enlace directo a la información de la tecnología

utilizada.

• Para hacerlo YA!

– Acceso directo a herramientas (servicio-web) con uso

simplificado

– Ejemplos (input/output) y textos propios para romper

la barrera tecnológica.

Page 13: Centro de Competencias en Recursos y Tecnologías Lingüísticas

IULA-UPF Centre de Competències CLARINB

ig D

ata

y H

um

anid

ades -

-N

úria B

el

13

clarin-es-lab.org

Page 14: Centro de Competencias en Recursos y Tecnologías Lingüísticas

IULA-UPF Centre de Competències CLARINB

ig D

ata

y H

um

anid

ades -

-N

úria B

el

14

El catálogo cubre, por ahora, tecnología disponible para:

• Frecuencia de palabras (formas – lemas) y

combinaciones significativas de palabras

(colocaciones).

• Reconocimiento de Entidades con nombre y su

frecuencia en textos.

• Similitud Textual: comparación de textos para extraer

información objetiva de similitud.

Contenidos actuales: Oct-2014

• Documentos enlazados: 123

• Proyectos enlazados: 36

• Herramientas (servicios web): 78

Page 15: Centro de Competencias en Recursos y Tecnologías Lingüísticas

IULA-UPF Centre de Competències CLARINB

ig D

ata

y H

um

anid

ades -

-N

úria B

el

15

Algunas cuestiones técnicas

• Datos abiertos enlazados (Linked Open Data, LOD):

– Permite enlazar con contenidos ya disponibles

(wikipedia / dbpedia) y reducir costes.

– Invita al usuario a navegar por la información creando

su propio perfil formativo.

Villegas, Marta; Melero, Maite; Bel, Núria (2014). "Metadata as Linked Open Data: mapping

disparate XML metadata registries into one RDF/OWL registry". Proceedings of the Ninth

International Conference on Language Resources and Evaluation (LREC'14): ELRA. Pàg. 393-

400.

Arano, Silvia, and Núria Bel. 2014. “Datos enlazados de publicaciones, proyectos Y herramientas

informáticas para los Investigadores en humanidades digitales: el catálogo piloto del Centro

Clarin IULA-UPF.” El Profesional de La Información [en Prensa].

Page 16: Centro de Competencias en Recursos y Tecnologías Lingüísticas

IULA-UPF Centre de Competències CLARINB

ig D

ata

y H

um

anid

ades -

-N

úria B

el

16

Agradecimientos

“Fondo Europeo de Desarrollo Regional (FEDER),

Programa operativo FEDER de Cataluña 2007‐2013,

Objetivo 1”.

Infraestructura europea “Common Language Resources

and Technology Infrastructure” www.clarin.eu

Programas abiertos de uso libre:

- FreeLing http://nlp.lsi.upc.edu/freeling/

Proyectos CLARIN-CAT (DGR-GenCat), MetaNet4U (7FP

CIP-PSP-270893), PANACEA (7FP-ITC-248064)

Colaboradores: U. Vigo, UPV, UPC, UB, UAB, ULleida, U

Jaén.

Page 17: Centro de Competencias en Recursos y Tecnologías Lingüísticas

IULA-UPF Centre de Competències CLARINB

ig D

ata

y H

um

anid

ades -

-N

úria B

el

17

Más información en:

www.clarin-es-lab.org

@CLARIN_ES_LAB

[email protected]

Para niños …

Page 18: Centro de Competencias en Recursos y Tecnologías Lingüísticas

IULA-UPF Centre de Competències CLARINB

ig D

ata

y H

um

anid

ades -

-N

úria B

el

18

Créditos

Este obra está bajo una licencia de Creative Commons Reconocimiento 3.0 España. Para ver una copia de esta licencia, visite

http://creativecommons.org/licenses/by/3.0/es/ .

2014, Núria Bel