31
Gépi tanulás 2007. szeptember 26.

Gépi tanulás

Embed Size (px)

DESCRIPTION

Gépi tanulás. 2007. szeptember 26. Mesterséges Intelligencia. „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával foglalkozik” (Luger 1993) - PowerPoint PPT Presentation

Citation preview

Page 1: Gépi tanulás

Gépi tanulás

2007. szeptember 26.

Page 2: Gépi tanulás

Mesterséges Intelligencia

„A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával foglalkozik” (Luger 1993)

Annak tanulmányozása, hogy hogyan lehet a számítógéppel olyan dolgokat művelni amiben pillanatnyilag az emberek a jobbak” (Rich 1991)

Page 3: Gépi tanulás

Gépi tanulás

Algoritmusok vs. Mest. Int.

Gépi tanulás = Statisztikai tanulás

Ma, a gyakorlati problémák megoldására hatékony Mest. Int. a gépi tanulás

Ez intelligencia?

Page 4: Gépi tanulás

Osztályozási feladat

Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz), találjuk meg a szabályosságokat, mintázatokat ami alapján korábban nem látott egyedeket be tudjuk az adott osztályokba.

Page 5: Gépi tanulás

Gépi tanulás

Legfontosabb részfeladatok:• egyed-jellemzők megtalálása• megfelelő tanuló módszer kiválasztása,

hangolása• kiértékelés és visszacsatolás

Page 6: Gépi tanulás

Jellemzők

Cél minden olyan jellemző összegyűjtése ami segítheti a predikciót (manuális)

Tartsuk szem előtt a problémát!

Típusai:• diszkrét: értékek véges halmaza, nincs

rendezés• folytonos

Page 7: Gépi tanulás

Tanuló algoritmus

Page 8: Gépi tanulás

Kiértékelés és visszacsatolás

Kiértékelési metrika: a jelölés jóságának (gold standard címkékhez viszonyított) leképezése egyetlen értékre.

Feladatonként más és más

Visszacsatolás: elemzzük a hibáinkat!Lehetőségek: új jellemzők felvétele,

paraméterek hangolása, stb.

Page 9: Gépi tanulás

Adatbázisok, versenyek

Tanító adatbázis Fejlesztői adatbázis Kiértékelési adatbázis

Versenyeken: – tanító és fejlesztői adatbázis: 1-2 hónap– Kiértékelési adatbázis: 1-2 nap

Page 10: Gépi tanulás

UFO példa

• egyedek: emberek• osztályok: férfi/nő• adott egy tanuló adatbázis és ismeretlen

elemek egy halmaza (teszt)• feladat: tesztegyedek osztályba sorolása• jellemzők: haj hossza, derékbőség …• tanuló algoritmus: C4.5 döntési fa• Kiértékelés: hányszor találta el• visszacsatolás…

Page 11: Gépi tanulás

A tanuló adatbázis mérete

Page 12: Gépi tanulás

Általánosítás és túltanulás

Page 13: Gépi tanulás

Jelentés-egyértelműsítés

Word sense disambiguation: Egy szóalak jelentésének kiválasztása, egy előre megadott (lehetséges jelentés-) halmazból

– A lehetséges jelentések ált. egy szótárból, tezauruszból– Osztályozási modellek alkalmazhatók (előre egyértelműsített példák szükségesek)

Word sense discrimination: Az adott szóalak különböző használati eseteit (~jelentés) elkülöníteni, anélkül, hogy a lehetséges jelentéseket kívülről megadnánk /és így címkézett példáink sem lehetnek/

– Felügyelet nélküli statisztikai modellek

Page 14: Gépi tanulás

A többértelműség a nyelvben

Az agyunk optimalizál– Nagyobb többértelműség

kisebb lexikon kevesebb memória bonyolultabb feldolgozás

– Kisebb többértelműség nagyobb lexikon lassabb tanulás könnyebb értelmezés

A nyelvben gyakori a többértelműség– Az embernek mégis elvétve okoz gondot a fogadott

jelsorozat értelmezése– A nyelv hatékony az ember számára

A számítógép száméra szinte teljesen kezelhetetlen a többértelműség

Page 15: Gépi tanulás

WSD

Típusai– All words

A cél az összes szóalak egyértelműsítése, folyó szövegben

– Lexical sampleA cél bizonyos szóalakok egyértelműsítése, minden szóalakra önálló modell

Page 16: Gépi tanulás

Pro és Kontra

All words– Nagyon kevés erőforrás áll

rendelkezésre– Olyan mintákat kell tanulni,

melyek függetlenek az adott szóalaktól

– Nincs kielégítő megoldás még

– Gyakorlatban ez lenne jól használható

Lexical sample– Több erőforrás van, és

olcsóbban előállítható 1-1 új szóalakra

– Az adott szóra jellemző mintákat tanulhatunk, könnyebb feladat

– Tűrhető (nem jó!) megoldások vannak

– Gyakorlatban ritkán használható

Page 17: Gépi tanulás

Lexical Sample

Hipotézis: egy szóalak, adott jelentésben hasonló szavakkal fordul elő együttesen használjuk a kontextust az egyértelműsítésre (nem nagy ötlet, mi mást tudnánk használni? )

Vegyünk egy N széles ablakot a szóelőfordulás körül Írjuk le a szó környezetében található (remélhetőleg hasznos)

információt Tipikus jellemzők: szavak, lemmák, szófaji kód, gyakoriságok, …

„An electric guitar and bass player stand off to one side, not really part of the scene, just as a sort of nod to gringo expectations perhaps.”

– Surrounding context (local features) [ (guitar, NN1), (and, CJC), (player, NN1), (stand, VVB) ]

– Frequent co-occurring words (topical features) [fishing, big, sound, player, fly, rod, pound, double, runs, playing, guitar, band] [0,0,0,1,0,0,0,0,0,0,1,0]

– Other features: [followed by "player", contains "show" in the sentence,…] [yes, no, … ]

Page 18: Gépi tanulás

Lexical sample

Az előző dián látottak szerint építsünk egy tanuló modellt (tetszőleges osztályozó használható)

Eredmények:

Senseval-3 legjobb: 72.9%Baseline (leggyakoribb j.): 55.2%

Emberi egyetértési ráta: ~67%

Page 19: Gépi tanulás

Lexical sample feladat tanulságai

Ilyen megközelítésben építhetők jó rendszerek (jelentősen túllépték a basline-t)

A feladat nehéz, ha nem a megértés, hanem a döntés a feladat (alacsony egyetértés az emberi bejelölők közt.

Túl barokkos jelentésmegkülönböztetés (még embernek is nehéz elhatárolni a jelentéseket)

www.senseval.org http://nlp.cs.swarthmore.edu/semeval/

Page 20: Gépi tanulás

All words

Senseval-3 –on legsikeresebb modellek minimális felügyelettel tanított osztályozók

Senselearner Senseval-3 all word task: 64.6%

Leggyakoribb jelentés: 60.9% Ez a feladat még nem ért el arra a szintre,

hogy alkalmazásokba építve javítson azok működésén (nyitott terület)

Page 21: Gépi tanulás

Word Sense Discrimination

Nincs előre definiált jelentéshalmaz HyperLex

– Szó szövegkörnyezeteire együttelőfordulási (co-occurence) gráfot épít– Egy szó körül nem véletlenszerűen jelennek meg (vagy nem) együtt a

szavak Naná, ha értelmes a szöveg…

– Ezek a gráfok speciális szerkezetet mutatnak Ezen a gráfon keressünk kiemelten fontos csomópontokat Ezek tükrözni fogják az adott szóalak különböző használati eseteit Használjuk fel őket (IR-ben jó így ahogy van; WSD-hez, képezzük rá ezeket a

jelentéshalmazra)

Page 22: Gépi tanulás
Page 23: Gépi tanulás
Page 24: Gépi tanulás

HyperLex

Nagyon jó eredmények IR-ben, a nemreleváns lapok kidobálására

Jó eredmények Lexical Sample WSD-re /főnevekre a jelenlegi legjobb felügyelet nélküli modell/

Senseval-3, főnevek: 64.6%Leggyakoribb jelentés: 54.5%

Page 25: Gépi tanulás

WSD magyarra

A WordNet építése mellett elkészült Szegeden az első (Lexical Sample) tanítókorpusz magyarra

melléknév: anyagi, élő, erős, képes, pontos, szociális

főnév: civil, család, élet, ház, helyzet, intézmény, iskola, kép, képviselő, kormány, nap, oldal, ország, perc, pont, program, század, személy, szervezet, tanár, világ, víz

ige: függ, hat, jár, kap, kerül, marad, rendelkezik, szerepel, tart, tartozik, tud, válik

Page 26: Gépi tanulás

Magyar WSD statisztikák

Page 27: Gépi tanulás

Magyar WSD statisztikák

Page 28: Gépi tanulás

Projektmunka

Tanító adatbázis: – 33 szóalak– ~ 5 ezer HVG cikk (pontosan 1 célszó)– automatikusan szótövesített, szófajilag

egyértelműsített elemzés adott Kiértékelés1:

– Ugyanezen szóalakokra ~ 2 ezer HVG cikk Kiértékelés2:

– 6 újabb szóalak

Végeredmény: a kettő számtani átlaga

Page 29: Gépi tanulás

Leggyakoribb jelentés

baseline.cpp

> evaluation.exe cimke_test predicated

Correctly classified: 1667

Incorrectly classified: 517

Accuracy: 0.763278

Ezt le kell tudni győzni!

Kiértékelés: evaluation.exe (pontosság)

Page 30: Gépi tanulás

Projektmunka menetrend

Tanító adatbázis, evaluation.exe: mostantól Kiértékelő1 adatbázis kiadása: okt. 24. Kiértékelő1 beküldési határidő: nov. 6. Kiértékelő2 adatbázis kiadása: nov. 28. Kiértékelő2 beküldési határidő: dec. 2. Projektmunkák prezentálása

(eredményhirdetés): dec. 4. Szóbeli vizsga: dec. 11.

Page 31: Gépi tanulás

Projektmunka tippek

Automatikusan keressünk „indikáló” szavakat Milyen környezet lehet jó?

– egész cikk / bekezdés / mondat

Szótövek, szófaji kódok segíthetnek Jó stratégia lehet:

– Ha biztosan tudunk dönteni tegyük meg,– egyébként használjuk a leggyakoribb jelentést