Razumevanje Naravnega Jezika, Tekst, Kontekst

Preview:

DESCRIPTION

 

Citation preview

Razumevanje naravnega jezika, tekst, kontekst

Simon@hekovnik.si

AI urice IV

Kaj pomeni pomen?

“Pomen je uporaba sama.”

– Wittgenstein

Od filozofije k nevroznanosti

Epizodičen spomin >>

• Konkreten dogodek• kontekst

• Hebbovo pravilo

semantičen spomin• Abstrakten koncept

Ozemljitev ali zakaj je mačka mačka

Ozemljitev

• Zunanji sklic– Čim komuniciramo prevajamo v prenosljivo

obliko

• Pomen gradimo sloj za slojem iz primitivnih izkustev

Pomen je uporaba

• Sopojavitve   krma kobilica krava

živina x   x

jadrnica x x  

travnik   x x

Od pomena k prostoru

Pomensko podobne besede blizu skupaj

Razdalja

• Kosinusnad = (/ (dot a b) (l2-norm a) (l2-norm b))

• Evklidskad = (sqrt (sum #’square (vector- a b)))

Problem: sopomenke

Rešitev: Latenten pomen

       

Izjemno x    

fantastično

  x x

odlično   x  

izvrstno x    

Latenten pomen

• Zmanjšanje dimenzionalnosti (kompresija)– Kategorije (ozemljitev)

• Sorodne besede se sesedejo v eno

Pomeni višjega reda (koncepti)

Z vsakim branjem vnašamo pomen

Praktični pomisleki

Obteževanje

Besede nosijo različno pomena:

vsaj v. dideskalije

• Stopwords

• Tf-idf

• Kurtoza

Stopwords

• Prepogoste besede

• Preredke besede

Tf-idf

(defun tf-idf (word document documents)

(* (/ (count word document)

(length document))

(/ (length documents)

(count (lambda (document)

(find word document)) documents)))

Kurtoza

(defun mean (xs) (/ (sum xs) (length xs)))

(defun central-moment (k xs) (/ (sum (lambda (x)

(expt (- x (mean xs)) k)) xs)(length xs))

(defun kurtosis (xs) (/ (central-moment 4 xs))

(expt (central-moment 2 xs) 2)))

Kurtoza = 7.6

Kurtoza = 1.4

Kurtoza = 5.1

Korenske oblike

• Sklon/spregatev, število, spol, velike/male črke

• Problem: včasih oblike niso enakomerno porazdeljene po vseh pomenih

Random Indexing

Ideja

• Beseda je vsota svojih kontekstov

• Kontekst je vsota svojih besed

Random indexing

Za vsak kontekst:

1. Nov indeks konteksta[epizodični

spomin]

2. Prištej indeks konteksta [Hebbovo

vsem besedam konteksta pravilo]

Indeks konteksta

• Visoko-dimenzionalen (> 1000)

• Naključen

• Redek

• Trojiški

• Skoraj pravokotni (ohranjanje razdalj)

Peščica naključno posejanih 1 in -1

Uporaba

• Primerjanje besed med sabo– Dopolnjevanje poizvedb

• Primerjanje teksta s tekstom– Grozdenje– Iskanje– Priporočila

• Primerjanje teksta in besede– Iskanje ključnih besed– Priporočanje tagov