48
Nivel superficial y léxico 1 Procesamiento superficial y léxico Nivel de procesamiento superficial El concepto de palabra Nivel de procesamiento léxico Lexicones Adquisición de la información léxica

Procesamiento superficial y léxico

  • Upload
    zinna

  • View
    77

  • Download
    0

Embed Size (px)

DESCRIPTION

Procesamiento superficial y léxico. Nivel de procesamiento superficial El concepto de palabra Nivel de procesamiento léxico Lexicones Adquisición de la información léxica. Nivel de procesamiento superficial 1. Preprocesado textual Obtención del documento a procesar acceso a BD - PowerPoint PPT Presentation

Citation preview

Generación*
Introduction: marc general i la motivació d’aquest treball
PLN Nivel superficial y léxico
*
Preprocesado textual
acceso a BD
detección de elementos textuales
documentos multimedia, páginas Web, ...
*
segmentación del texto
localización de unidades
términos multipalabras
*
Tamaño del vocabulario (V)
N número total de palabras
depende del , para el inglés 0.4 0.6
El vocabulario crece sublinealmente pero no llega a saturarse
tiende a estabilizarse para 1Mb de texto (150.000w)
palabras
*
Distribución estadística de las palabras en el texto
Obviamente no uniforme
Las palabras más comunes cubren el 50% de las occurrencias
Un 50% de las palabras sólo aparecen 1 vez
~12% del texto está constituído por palabras que aparecen 3 veces o menos.
PLN Nivel superficial y léxico
*
Ley de Zipf:
Ordenamos las palabras de un texto por su frecuencia. El producto de la frecuencia de una palabra (f) por su posición (r) es aproximadamente constante.
Chart1
1
6.72
12.44
18.16
23.88
29.6
35.32
41.04
46.76
52.48
58.2
63.92
69.64
75.36
81.08
86.8
92.52
98.24
103.96
109.68
115.4
121.12
126.84
132.56
138.28
More
Frequency
Bin
Frequency
Histogram
295
216
28
7
29
7
10
7
14
2
26
9
1
1
0
2
0
0
0
0
0
1
1
1
0
1
Sheet1
Column1
Mean
9.4346504559
*
Frecuencia de una palabra vs capacidad discriminante del documento.
Stop Words.
Las palabras más interesantes tienen frecuencias intermedias.
PLN Nivel superficial y léxico
*
Colocaciones 1
Expresiones formadas por dos o más palabras que tienen una probabilidad alta de aparecer juntas (con frecuencia contiguas):
"Estados Unidos"
terminología
Se caracterizan por tener una compositividad limitada (el significado del compuesto no se deduce exactamente del de sus componentes).
PLN Nivel superficial y léxico
*
Lexicografía Computacional
Generación del LN
Parsing, inducción gramatical
*
Frecuencia de la colocación complementada con un filtro morfológico (sólo algunas tuplas son aceptables: AN, NN, AAN, ANN, NAN, NNN, NPN)
Método 2
Colocaciones no adyacentes
Media y variancia de la distancia entre los elementos de la colocación
PLN Nivel superficial y léxico
*
Colocaciones 4
Método 3
Likelihood ratio
Decidir qué modelo entre dos posibilidades es más apropiado para describir los datos
H1 hipótesis del modelo 1 (por ejemplo, w1 y w2 no forman una colocación, p(w1|w2) = p = p(w1|-w2) )
H2 hipótesis del modelo 2 (por ejemplo, w1 y w2 si forman una colocación, p(w1|w2) = p1 p2 = p(w1|-w2))
PLN Nivel superficial y léxico
*
Part of Speech (POS), categoría morfosintáctica.
Propiedad formal de un word-type que determina sus usos acceptables en sintaxis.
Una POS puede considerarse una clase de palabras
Un word-type puede poseer varias POS, un word-token sólo una
Categorías plenas
N, Adj, Adv, V
*
Agrupación (clustering) de palabras 1
A veces es interesante crear clases o agrupaciones (clusters) de palabras (ej. generalización, forma de abordar el data sparseness, backoff, ...)
Factores (features) a tener en cuenta:
palabras adyacentes
*
VSM (Vector Space Model)
representar cada word-type como un punto en un espacio de k dimensiones (k = tamaño del vocabulario).
definir una medida de proximidad (o distancia) entre los puntos
p.ej. la distancia euclídea, Dice, Jaccard, ...
Examinar el espacio de k dimensiones en el que hemos colocado todos los puntos (todos los word-types) para localizar núcleos de agrupación (clusters)
PLN Nivel superficial y léxico
*
Plot in k dimensions (here k=3)
PLN Nivel superficial y léxico
*
Clustering aglomerativo (bottom up)
Formas de decidir la proximidad entre clusters:
single link
complete link
average link
centroid link
dist(A,B) = min(dist(mean(A),mean(B))
*
Qué es un lexicón
Un lexicón es simplemente un repositorio de información léxica que puede ser utilizada por usuarios humanos o por algún tipo de procesador del lenguaje natural
Dos aspectos a considerar
Representar la información léxica
Adquirir la información léxica
*
qué hace falta codificar en los léxicos computacionales (cuantitativamente y cualitativamente)
cuáles son las fuentes de conocimiento idóneas para extraer dicho conocimiento
qué métodos de extracción son necesarios para ello.
PLN Nivel superficial y léxico
*
Transcripción ortográfica
Transcripción fonética
Modelo flexivo
AMAR VTR(OBJLIST: SN).
*
Categoría gramatical (POS)
Relaciones léxicas
*
*
Forma: pares atributo/valor, rels binarias o n-arias, valores codificados, valores de dominio abierto…
Asignaciones múltiples (relaciones uno a varios o varios a varios), dependencias contextuales…
Facetas de los rasgos o atributos: obligatoriedad u opcionalidad, cardinalidad, valores por omisión…
Gradación en las propiedades: valores exactos, preferencias, asignaciones probabilísticas.
PLN Nivel superficial y léxico
*
Modelos textuales
Bases de datos orientadas a objetos
Sistemas basados en esquemas (frames)
Sistemas basados en unificación
*
Modelo de datos relacional.
limitaciones:
Excesiva uniformidad, poco apropiadas para los rasgos de tipo textual.
PLN Nivel superficial y léxico
*
SGML, TEI, Eagles
Obtención de las apariciones de una palabra en un corpus,
Coapariciones de varias palabras
Consulta de fragmentos de palabra
Uso de comodines, expresiones booleanas, etc...
PLN Nivel superficial y léxico
*
aproximación de dos niveles
fuente primaria de datos
limitación : a menudo implementaciones ad-hoc
Ejemplos de bases de datos léxicas son IBM-LDB [Neff et al. 88] o Acquilex LDB [Briscoe et al. 90].
PLN Nivel superficial y léxico
*
*
Gestión de la persistencia
Dos tipos básicos
bases de datos orientadas a objetos puras, que extienden algunos lenguajes orientados al objeto como C++, Smalltalk, Eiffel, CLOS, etc…
bases de datos orientadas al objeto que extienden sistemas convencionales de gestión de bases de datos
=> Sistemas basados en esquemas (frames)
PLN Nivel superficial y léxico
*
formas variadas de herencia (simple, múltiple, monótona, por omisión, etc...)
operaciones: generalización, reescritura, formas varias de unificación, etc...
Uso de macros, alias, reglas léxicas, etc...
compilación de las estructuras de rasgos en estructuras más eficientes (como términos Prolog)
PLN Nivel superficial y léxico
*
Dos familias de sistemas basados en rasgos:
estructuras de rasgos libres: PATR-II
estructuras de rasgos restringidas por tipos: ALE, ALEP, CUF, TFS
ER -> tipo que determina su estructura. Taxonomía de tipos
tipo -> restricciones sobre los rasgos
rasgo -> tipos apropiados
*
Los Diccionarios como fuente de información
MRD
Estructura interna predeterminada
Relaciones internas (sinonimia, hiponimia, etc.) de manera implícita o explícita
Vocabulario restringido
PLN Nivel superficial y léxico
*
Automáticamente, utilizando (y posiblemente combinando) fuentes ya disponibles
los diccionarios accesibles por ordenador
los corpus textuales.
En forma semiautomática
*
DICCIONARIO
ACCESIBLE
POR
MAQUINA
(MRD)
DICCIONARIO
TRATABLE
POR
MAQUINA
(MTD)
BASE
*
*
m.
[r1]
fam. Pedazo pequeño de alguna cosa.[c1] 2.[r1] Cierto juego
de naipes.[c1] 3.[c1]
Méj
[r1] Participación
pequeña en un número de la lotería. [e2][v1]Sin.[v2] 1.V.[n1]
Pedazo.
[f1]
_961596076.doc
[f1]
Pedazo.
[r1] Participación
pequeña en un número de la lotería. [e2][v1]Sin.[v2] 1.V.[n1]
P.Rico.
Méj
[r1]
fam. Pedazo pequeño de alguna cosa.[c1] 2.[r1] Cierto juego
de naipes.[c1] 3.[c1]
m.
*
cosa. 2. Cierto juego de naipes. 3.
Méj
y
P.Rico.
SIN. 1.V.
SIN. 1.V.
cosa. 2. Cierto juego de naipes. 3.
m.
, piedrecita)
calculu
(l.
*
*
PLN Nivel superficial y léxico
*
Sinonimia
caza CASI-SIN cazar
*
antonimia.
abierto **adj** no murado o cerrado
abierto ANT murado
abierto ANT cerrado
antisocial **adj** Contrario a la sociedad, a la convivencia social.
antisocial ANT social
*
meronimia/ holonimia:
porción/ trozo/ pedazo/ punta, ... de
X (entrada) es merónimo de Y (elemento que sigue al patrón en la definición)
mano **f.** Parte del cuerpo humano que …
mano MER cuerpo humano
*
Métodos de extracción de relaciones 4
Relaciones entre un nombre y la acción básica en la que está implicado.
verbo con su agente, paciente, instrumento, etc.
Instrumento
patrones
para + V (SN)
fotómetro **m.** Instrumento para medir la intensidad de la luz
medir (la intensidad ...) INVOLVED fotómetro
aflicción CAUSA aflictivo
*
Ventajas:
Facilidad de clasificación
Capacidad de utilización como banco de pruebas para refrendo de teorías o intuiciones.
Capacidad de integración de datos experimentales.
Posibilidad de utilización de métodos estadísticos de tratamiento.
PLN Nivel superficial y léxico
*
Dificultades:
Combinación de métodos estadísticos con métodos basados en conocimiento gramaticales
Garantía o control de la coherencia interna.
Nivel de completitud suficiente sin sobrerrepresentar
Nivel de granularidad deseado para una aplicación concreta.
Adaptación a un dominio concreto.
PLN Nivel superficial y léxico
*
Colocaciones
Inducción gramatical.
Análisis probabilístico.
Relaciones léxicas.
*
*
Manual:
presentación al lexicógrafo de las apariciones que correspondan al patrón pedido
Diversos niveles de preproceso y ayuda
Automático
Semiautomáticos
filtrado manual por parte del lexicógrafo, de los casos propuestos por el sistema.
PLN Nivel superficial y léxico
*
Coocurrencias
Histogram
0
50
100
150
200
250
300
350
1
18.1635.3252.4869.64
86.8
103.96121.12138.28
Bin
Frequency
Frequency
10
m.
[r1]
fam. Pedazo pequeño de alguna cosa.[c1] 2.[r1] Cierto juego
de naipes.[c1] 3.[c1]
Méj
[r1] Participación
pequeña en un número de la lotería. [e2][v1]Sin.[v2] 1.V.[n1]
Pedazo.
[f1]
cosa. 2. Cierto juego de naipes. 3.
Méj
y
P.Rico.
SIN. 1.V.
(SENSE
(SENSE
(TIPOR: sin)