49
Introducción al Procesamiento de Lenguaje Natural Grupo de PLN - InCo

Introducción al Procesamiento de Lenguaje Natural

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Introducción al Procesamiento de Lenguaje Natural

Grupo de PLN - InCo

Semántica léxica

Agenda

• Análisis semántico• Semántica léxica• Relaciones léxicas• WordNet• Desambiguación

Análisis semántico

Asignación de significado a expresionesSemántica composicional: derivamos el

significado de una oración del significado de sus partes

• Análisis sintáctico previo• Significado de tokens• Reglas de composición de significado

Análisis semántico

Problemas de un enfoque composicional:- oso de juguete- viejo amigo- la punta del iceberg

Análisis semánticoMaharani sirve comida vegetariana.∃x sirve(maharani, x) ∧ comida(x) ∧ vegetariana(x)Maharani sirve platos vegetarianos.∃x sirve(maharani, x) ∧ plato(x) ∧ vegetariano(x)Maharani sirve menú vegetariano.∃x sirve(maharani, x) ∧ menú(x) ∧ vegetariano(x)

Las tres oraciones son equivalentes. ¿Cómo podemos hacer que estas tres representaciones sean iguales?

Semántica léxica

Estudio deLas conexiones sistemáticas de significado

entre palabrasLa estructura interna de significado de cada

palabraLexema

La unidad de estudio es el lexema: par <forma ortográfica y fonológica,

significado>

Semántica léxica

Ejemplos de lexemas<“banco”, Asiento, con respaldo o sin él, en

que pueden sentarse varias personas.><“banco”, Establecimiento público de

crédito, constituido en sociedad por acciones.>

<“gato”, Mamífero carnívoro de la familia de los Félidos.>

<“gato”, Herramienta que sirve para levantar grandes pesos a poca altura.>

Relaciones léxicas

Homónimos: palabras con la misma forma pero significados distintos no relacionadosbanco (financiero, para sentarse)vela (de barco, de cera)

Homófonos: lexemas distintos con la misma pronunciaciónhola / olacasar / cazar (rioplatense)

Relaciones léxicas

Homógrafos: lexemas con la misma forma pero con diferente pronunciaciónNo existen en español ☺En inglés: bass (un tipo de pez) y bass

(instrumento musical)

Diccionarios

Los diccionarios explican el significado de las palabras, a veces con definiciones circulares.

No están explícitas en muchos casos las relaciones entre las mismas.

Por más que estén en formato electrónico no son inmediatamente explotables en PLN.

Diccionarios

red n. the color of blood or a ruby.blood n. the red liquid that circulates in

the heart, arteries and veins of animals.right adj. located nearer the right hand

esp. being on the right when facing the same direction as the observer.

left adj. located nearer to this side of the body than the right.

American Heritage Dictionary (Morris, 1985)

PolisemiaPolisemia: múltiples significados relacionados para una

sola palabrabanco … de sangre / financierohoja … de un árbol / de papel

Es difícil en muchos casos distinguir la homonimia de la polisemia. (ej., árbol en computación vs. árbol de un bosque)

Decisiones basadas en:EtimologíaIntuición de hablantes nativos

La mayoría de las palabras muy comunes son polisémicas (ley de Zipf)

PolisemiaPara un lexema polisémico es importante

establecer:¿Cuáles son los sentidos distintos que tiene?¿Cómo están vinculados estos sentidos?¿Cómo pueden ser distinguidos?

En POS tagging se resuelven problemas similares ¿cuáles?

Resolver estos problemas influye en el comportamiento de las aplicaciones

Incidencia en aplicaciones

Corrección ortográficaReconocimiento de hablaRecuperación de informaciónTraducción automática

PolisemiaDistinción de sentidos

Usar tantos sentidos como sea necesario para dar cuenta de distinciones finas de significado

Un test para detectar sentidos distintos: combinación con una conjunción

Juan sintió los ruidos del jardín.Juan sintió mucho pesar por su partida.Juan sintió los ruidos del jardín y mucho pesar por su partida.

Pero la proliferación de sentidos puede generar problemas de procesamiento

Polisemia¿Cómo se relacionan los distintos significados

entre sí?En general se tratan como entidades distintas

sin vinculación: no se diferencian homónimos de las distintas acepciones de lexemas polisémicos.

Es posible establecer vinculaciones entre significados relacionados si se hace un análisis semántico interno de un significado (ej., descomposición en primitivas semánticas).

Metáforas, metonimiaMetáfora: Utilizamos términos apropiados para

otras situaciones pero logrando sentido.

Hacia fines de la década pasada se dejó de hablar de “pagos de intereses de la deuda” - concepto con fuerte contenido simbólico- reemplazándolo por “superávit fiscal primario”. Conceptos idénticos que técnicamente indican el mismo drenaje financiero hacia el exterior aunque esconde la emblemática palabra “pago”.

Tengo las manos heladas.Se realizaron turbios manejos.La conversación fluía lentamente.

Metáforas, metonimiaMetonimia: Nos referimos a un concepto u

objeto a través de uno de sus atributos:

Le gusta Cortázar. (autor por sus obras)

La Casa Blanca no emitió comentarios. (lugar por institución)

Empezó el libro. (omisión de la acción, empezó a leer, a escribir, a fotocopiar)

Relaciones léxicas: sinonimiaPalabras que tienen el mismo significado

lindo belloauto cochebarro lodofino estrechosolicitar pedir

Dos lexemas son sinónimos (perfectos) si pueden sustituirse en todos los contextos

Relaciones léxicas: sinonimiaCasi no hay ejemplos de sinónimos perfectos

Pueden tener matices de significado que haga aceptable la sustitución sólo en algún contexto.

Importa también la situación, tipo de lenguaje (informal o formal).

Ejemplos :pedir / solicitaramor / afectoamar / querer

Relaciones léxicas: antonimia

Antónimos : Palabras opuestas en alguna componente de su significado

En realidad, son muy similares, son del “mismo tipo”

oscuro clarohombre mujernegro blancoadentro afueraentrar salir

Relaciones léxicas: hiponimia

Hiponimia: uno de los lexemas denota un concepto que es subclase del denotado por el otro.

Hipernimia/Hiperonimia: relación inversa a la hiponimia

auto es un hipónimo de vehículovehículo es un hipérnimo/hiperónimo de

auto

Relaciones léxicas: holonimia

Holonimia: relación de parte-todo. Diferentes clases:- Miembro de un grupo: tripulación → piloto- Parte o componente: mesa → pata

- Sustancia: destornillador → vodka

Meronimia: relación inversa a la holonimia.

Propiedades

La hiperonimia es transitiva y asimétrica

La meronimia es asimétrica, no es transitivaEj. puerta parte-de casa pestillo parte-de puerta pestillo parte-de casa ??

WordNethttp://wordnet.princeton.edu/ (demo online y download)

Base de datos léxicaMúltiples vinculaciones entre los datos

● Relaciones léxicasIncluye aspectos de un diccionario (glosa, breve

explicación de un significado)Hecha “a mano”

WordNetEstadísticas de la página de Princeton:http://wordnet.princeton.edu/wordnet/man/wnstats.7WN.html

POS Unique Strings Synsets Avg. Polysemy

Noun 117798 82115 1.24

Verb 11529 13767 2.17

Adjective 21479 18156 1.40

Adverb 4481 3621 1.25

Totals 155287 117659

WordNet¿Cuáles son las unidades semánticas?Se definen por synsets (synonym sets), son

cuasi-sinónimos, sustituibles en al menos un contexto.

Los significados distintos de cada lexema están diferenciados, habitualmente por un índice numérico.

Un significado (o concepto) es una lista de lexemas indizados.

La glosa es una breve explicación de un significado, todas las acepciones de distintas palabras de un mismo synset comparten la glosa.

WordNet - branchNoun

(n) branch, subdivision, arm (an administrative division of some larger or more complex organization) "a branch of Congress"

(n) branch (a division of a stem, or secondary stem arising from the main stem of a plant)

(n) branch, leg, ramification (a part of a forked or branching shape) "he broke off one of the branches"

(n) outgrowth, branch, offshoot, offset (a natural consequence of development)

(n) branch (a stream or river connected to a larger one)

(n) arm, branch, limb (any projection that is thought to resemble a human arm) "the arm of the record player"; "an arm of the sea"; "a branch of the sewer"

Verb

(v) ramify, branch (grow and send out branches or branch-like structures) "these plants ramify early and get to be very large"

(v) branch, ramify, fork, furcate, separate (divide into two or more branches so as to form a fork) "The road forks"

WordNet - armNoun

(n) arm (a human limb; technically the part of the superior limb between the shoulder and the elbow but commonly used to refer to the whole superior limb)

(n) weapon, arm, weapon system (any instrument or instrumentality used in fighting or hunting) "he was licensed to carry a weapon"

(n) branch, subdivision, arm (an administrative division of some larger or more complex organization) "a branch of Congress"

(n) arm, branch, limb (any projection that is thought to resemble a human arm) "the arm of the record player"; "an arm of the sea"; "a branch of the sewer"

(n) arm (the part of an armchair or sofa that supports the elbow and forearm of a seated person)

(n) sleeve, arm (the part of a garment that is attached at the armhole and that provides a cloth covering for the arm)

Verb

(v) arm, build up, fortify, gird (prepare oneself for a military confrontation) "The U.S. is girding for a conflict in the Middle East"; "troops are building up on the Iraqi border"

(v) arm (supply with arms) "The U.S. armed the freedom fighters in Afghanistan"

SynsetsNoun(n) arm (n) weapon, arm, weapon system(n) branch, subdivision, arm (n) arm, branch, limb (n) arm (n) sleeve, arm

Verb(v) arm, build up, fortify, gird (v) arm

Noun(n) branch, subdivision, arm (n) branch (n) branch, leg, ramification(n) outgrowth, branch, offshoot, offset(n) branch (n) arm, branch, limb

Verb(v) ramify, branch (v) branch, ramify, fork, furcate,

separate

WordNet, relacionesLa mayoría de las relaciones se da entre synsets.NOMBRES

Generalización (hiperónimo) /especialización (hipónimo)

Es-parte (merónimo) / tiene-parte (holónimo)

ADJETIVOS / ADVERBIOSantonimia

VERBOSimplicacióntroponimia

WordNet - NombresSistema léxico de herencia, dado por la relación

de hiponimia.Todos los nombres heredan inicialmente del

concepto “entity”.Las unidades semánticas asociadas a nombres

están vinculadas además por relaciones de meronimia (/holonimia).

La meronimia puede ser de elemento (marinero/tripulación), de parte(árbol/rama), de sustancia (agua/oxígeno).

WordNet - Jerarquía<noun.plant> (n) tree

direct hyponym / full hyponym

part meronym

member holonym

substance meronym

direct hypernym / inherited hypernym / sister term <noun.plant> (n) woody plant, ligneous plant

<noun.plant> (n) vascular plant, tracheophyte <noun.Tops> (n) plant, flora, plant life

<noun.Tops> (n) organism, being

<noun.Tops> (n) living thing, animate thing

<noun.Tops> (n) object, physical object

<noun.Tops> (n) physical entity

<noun.Tops> (n) entity

WordNet - Nombres<noun.plant> (n) tree

direct hyponym / full hyponym

part meronym<noun.plant> (n) stump, tree stump<noun.plant> (n) crown, capitulum, treetop<noun.plant> (n) limb, tree branch<noun.plant> (n) trunk, tree trunk, bole <noun.plant> (n) burl

member holonym<noun.group> (n) forest, wood, woods

substance meronym <noun.plant> (n) sapwood <noun.plant> (n) heartwood, duramen

Verbos

Dos relaciones básicas:

troponimia murmurar es un modo de hablar

implicación léxicaroncar implica dormir

Verbos: verbo eatVerb<verb.consumption> (v) eat "She was eating a banana"; "What did you eat for dinner last

night?" direct troponym / full troponym

verb group

entailment

direct hypernym / inherited hypernym / sister term

derivationally related form

sentence frame

<verb.consumption> (v) eat "We did not eat until 10 P.M. because there were so many phone calls"; "I didn't eat yet, so I gladly accept your invitation"

<verb.consumption> (v) feed, eat "This dog doesn't eat certain kinds of meat"; "What do whales eat?"

<verb.consumption> (v) consume, eat up, use up, eat, deplete, exhaust, run through, wipe out "this car consumes a lot of gas"; "We exhausted our savings"; "They run through 20 bottles of wine a week"

<verb.emotion> (v) eat, eat on "What's eating you?" <verb.change> (v) corrode, eat, rust "The acid corroded the metal"; "The steady dripping of water

rusted the metal stopper in the sink"

Verbos: verbo eat<verb.consumption> (v) eat "She was eating a banana"; "What did you eat for dinner last night?"

direct troponym / full troponym <verb.consumption> (v) wash down "She washed down her dinner with a bottle of red wine"; "He washes down his worries

with a nightly glass of whisky"

<verb.consumption> (v) gluttonize, gluttonise, fress

<verb.consumption> (v) wolf, wolf down "The teenager wolfed down the pizza"

<verb.consumption> (v) slurp "He slurped his soup"

<verb.consumption> (v) devour, guttle, raven, pig "he devoured three sandwiches"

entailment <verb.consumption> (v) chew, masticate, manducate, jaw "He jawed his bubble gum"; "Chew your food and don't

swallow it!"; "The cows were masticating the grass"

<verb.consumption> (v) swallow, get down "Swallow the raw fish--it won't kill you!"

sentence frame Somebody ----s something

[Applies to eat] They eat more bread

Verbos en WordNet

IMPLICACIÓN

+ TROPONIMIA - TROPONIMIA

Co-extensivosmurmurar – hablar

rogar – pedir

hornear - cocinar

Inclusión propiaroncar – dormir

comprar - pagar

Verbos en WordNet

Organizados en 15 grupos, según dominios semánticos:

cambiocomunicaciónpercepción…

Adjetivos en WordNetAdjective

<adj.all> (adj) cheap, inexpensive "it would have been cheap at twice the price"; "inexpensive family restaurants"

similar to <adj.all> (adj) bargain-priced, cut-rate, cut-price "buying bargain-priced clothes for the children"; "cut-rate

goods"

<adj.all> (adj) catchpenny "catchpenny ornaments"

<adj.all> (adj) dirt cheap "a dirt cheap property"

<adj.all> (adj) low-budget "a low-budget movie"; "a low-budget menu"

<adj.all> (adj) low-cost, low-priced, affordable "low-cost housing"

<adj.all> (adj) nickel-and-dime "a nickel-and-dime job"

<adj.all> (adj) sixpenny, threepenny, twopenny, tuppeny, two- a-penny, twopenny-halfpenny

antonym <adj.all> (adj) expensive [Opposed to: cheap] "expensive clothes"; "an expensive shop"

derivationally related form <noun.attribute> (n) cheapness [Related to: cheap]

<noun.attribute> (n) inexpensiveness [Related to: inexpensive]

….

http://adimen.si.ehu.es/web/MCR/

MCR: Multilingual Central RepositoryEs un WordNet para varios idiomas:- Español (castellano)- Catalán- Gallego- Euskadi- Portugués

Mantienen estructura de WordNet en inglés

Y para el español?

● Menor cubrimiento del idioma que WordNet en inglés○ 55000 sustantivos vs 80000 en inglés

● No utiliza exactamente el mismo formato que WordNet○ Incluye una versión de WordNet en inglés anotado

en el formato MCR

Y para el español?

Base de datos semántica construida a partir de WordNet y Wikipedia

● 271 idiomas● 14 millones de synsets● 364k relaciones léxicas (las de WordNet)● 380m relaciones no catalogadas (las de

Wikipedia)http://babelnet.org/

BabelNet

BabelNet

Desambiguación semántica

Problema : Dado un conjunto fijo de significados, determinar el apropiado para una instancia particular de un ítem léxico.

Dos enfoques:Métodos basados en reglasMétodos estadísticos

Desambiguación semántica

Métodos basados en reglas: Restricciones sintáctico-semánticas• Etapa de análisis semántico, se

eliminan análisis con mala formación

• Independiente, previo a otros análisis

• Requiere información muy fina

Desambiguación semántica

Métodos estadísticos: • Supervisados• No supervisados• Bootstrapping

Gran parte del conocimiento se adquiere de los propios datos, no de un analista humano.

Desambiguación semántica

Heurística más simple (baseline):Considerar que el significado de la palabra x es el primer synset de Wordnet asociado a x.•Da un resultado aceptable en unos cuantos casos porque Wordnet ordena los synsets por frecuencia.•¿Podemos mejorarlo?