44
Kivonatolás, kérdés megválaszolás, dialógus rendszerek 2010. november. 16.

Kivonatolás, kérdés megválaszolás, dialógus rendszerek

Embed Size (px)

DESCRIPTION

Kivonatolás, kérdés megválaszolás, dialógus rendszerek. 2010. november. 16. Kivonatolás. Automatic text summarization Kivonat: rövid , de pontos reprezentánsa a dokumentum tartalmának rövid: kevesebb, mint az eredeti fele tartalom: legfontosabb tartalomnak át kell jönnie - PowerPoint PPT Presentation

Citation preview

Page 1: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Kivonatolás, kérdés megválaszolás,

dialógus rendszerek

2010. november. 16.

Page 2: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Kivonatolás

• Automatic text summarization• Kivonat: rövid, de pontos reprezentánsa

a dokumentum tartalmának

• rövid: kevesebb, mint az eredeti fele• tartalom: legfontosabb tartalomnak át

kell jönnie

„Olvastam a Háború és Békét… Oroszországról szól…” Woody Alen

Page 3: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

A kivonatolás alkalmazásai

• újságcikkek

• TV műsor/mozi előzetes

• tudományos publikációk

• önéletrajzok

• sport közvetítések

• egyetemi jegyzetek

Page 4: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Miért kivonatoljunk

• információrobbanás, Internet• szöveges adatok, számítógép gyorsabb• ha a cél általános szövegek

összefoglalása, nem konkrét információtípus (IE eredménye nem mindig értelmezhető hétköznapi embereknek)

• mobil, PDA

Page 5: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Kivonat típusok

• megközelítés: kinyerés vs. absztrakt• általános, query alapú, felhasználó alapú• szakértői vagy bevezető jellegű• single vs. multi document• input típusa (pl. részben strukturált)• nyelvközi kivonatolás

Page 6: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Problémák a kivonatolásban

• A szöveg tartalmát kell megragadni

• Hogyan határozzuk meg a kivonat hosszát (rövid dokumentumok nehezebb összefoglalni)?

• Automatikus rendszerek kiértékelése

• Jelenlegi rendszerek közel sem olyan jók, mint az ember

Page 7: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Mondat kinyerés

• Alapegységek a mondatok (vagy?)• Cél: legfontosabb mondatok kiválogatása a

szövegből• Legelső kezdeményezések (’58)

– fontossági sorrend felállítása a mondatok közt (szignifikáns szavak előfordulásainak száma)

– bináris osztályozás: állító/magyarázó mondat– domain-specifikus rendszerek

• kiértékelés: pontosság, fedés

Page 8: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Hasznos jellemzők

• kulcsszavak/tulajdonnevek

• szövegbeli pozíció– bevezetés/konklúzió

– bekezdésen belüli pozíció

• mondat hossza

• mondatok közti szemantikus távolság

Page 9: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

A mondatkinyerés hátrányai• A kohézió hiánya (kohézió analízis)• Következetesség hiánya

Supermarket A announced a big profit for the third quarter of the year. The directory studies the creation of new jobs. Meanwhile, B’s supermarket sales drop by 10% last month. The firm is studying closing down some of its stores. (DOCUMENT)

Supermarket A announced a big profit for the third quarter of the year. The firm is studying closing down some of its stores. (EXTRACT)

Page 10: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Mondat realizálás

• Tömörítés/egyszerűsítés

When it arrives sometime new year in new TV sets, the V-chip will give parents a new and potentially revolutionary device to block out programs they don’t want their children to see.

• Felügyelt szekvenciajelölő megközelítés– tanító adatbázis: kézi összefoglalók– párhuzamosítás

Page 11: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Absztrakt kivonatolás

• „új” mondatok generálása a „megértett” tartalom alapján

• Anafóra feloldás/szintaktikai elemzés/WSD

• query alapú kivonatolás:

IE eredményből generálás

Page 12: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Absztrakt kivonat értékelése• kohézió, következetesség

• eltalálja a témát?

• fontos információ nem marad ki?

• Helyettesítheti a kivonat a dokumentumot? (osztályozhatóság, kérdések megválaszolása)

• Automatikus kiértékelés: ROUGE, emberi kivonatokhoz hasonlítás (hasonló a BLUE-höz, de fedés-alapú)

Page 13: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

A multi dokumentum kivonatolásról…

• Motiváció: „tegnapi sporthírek”

• A dokumentumok stílusa különböző (még ha témájában meg is egyezik)

• Redundáns információ/Kiegészítő info

• Ellentmondó információnégyen haltak meg

3 embert öltek meg

Page 14: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

A multi dokumentum kivonatolásról…

• Lépései:– Mondatok kinyerése (megegyező

mondatok)– Sorrend felállítása

• kronológia• kohézió• klaszterzés + „átlagos” sorrend

– Realizáció• Tisztítás, összevonás, co-refereciák

Page 15: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

RealizációPresidential advisers do not blame O’Neill, but they’ve long recognized that a shakeup of the economic team would help indicate Bush was doing everything he could to improve matters. U.S. President George W. Bush pushed out Treasury Secretary Paul O’Neill and top economic adviser Lawrence Lindsey on Friday, launching the first shake - up of his administration to tackle the ailing economy before the 2004 election campaign.

Page 16: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Főcím generálás• A fő gondolat megtalálása (ált.

rövidebb mint egy mondat)

• Különbözik a folyó szövegtől – egyszerű nyelvtan– figyelemfelkeltő stílus

• ML (legvalószínűbb főcím)– szó választás (jellemző, átfogó)– generálás

Page 17: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Címkézés• tagging, kulcsszó kinyerés• címkehalmaz = kivonat• ugyanazok a problémák, mint

mondatoknál – kiválasztás– kohézió– absztrakt címkék

• egyszerűbb feladat• használhatóság?

Page 18: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Címkézés alkalmazásai

• blogokhoz ajánlás

• újsághírek címkézése

• tudományos cikkeknél kulcsszó kinyerés

• más NLP alkalmazásokhoz bemenet– dokumentum osztályozás/klaszterezés– információ visszakeresés

Page 19: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Címke ajánlás

• Kézzel címkézett halmaz rendelkezésre áll (pl. blog)

1. címkézetlen dokumentumokhoz leghasonlóbbak megtalálása

2. címkék átvétele (kapcsolódás mértéke, kohézió)

• hátrány: fix címke halmaz

Page 20: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Kulcsszó kinyerés

• Egyetlen dokumentumra fókuszál1. címkejelöltek azonosítása

• főnévi szerkezetek• absztrakt címkék

2. végső címkézés szűrésejelöltek szöveg- és korpuszbeli • előfordulása• gyakorisága• együtt-előfordulása

• hátrány: dokumentumközi koherencia

Page 21: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Próbáljuk ki!• Kivonatoláshttp://cimkezes.origo.hu/cimkefelho/

• Q&Ahttp://ask.com

• Dialógus rendszerekhttp://www.lafoxka.hu/http://www.ikea.hu

Page 22: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Kérdés megválaszolás

Page 23: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Kérdés megválaszolás

• Question answering (Q&A)• Input: egy természetes nyelvi kérdés• Output: választ tartalmazó dokumentumok

halmaza (ugyanaz, mint IR)• Vagy releváns bekezdés… (kivonat?)• Vagy a válasz…• Következő generációs kereső rendszerek?

– Ki használ speciális karaktereket?– Ki fog kérdést begépelni?

Page 24: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Kérdések típusai

• Tények (nevek, dátumok, helyek stb.)

• Listák

• Definíciók

• Eldöntendő

• Hogyan? Miért?

Page 25: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Architektúra

• kulcsszó alapú rendszer (kérdés szavai)• Azokat a mondatokat vizsgálja ahol

megjelennek ezek a szavak• A mondatok rangsorolás (pozíció, sorrend,

relevancia)• A kérdés átformálása működik ha elég nagy

az adathalmaz:Hol született Petőfi?

„Petőfi * született”

Page 26: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Egy Q&A rendszer felépítése

(Moldovan – TREC 2004)

1. Kérdés feldolgozás

2. Keresőszavak előállítása

3. Dokumentum szűrés és rangsorolás

4. Válasz feldolgozása

Page 27: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Kérdés feldolgozás

• Kérdés típus azonosítás– ML: bag-of-words, tulajdonnevek stb.

• Válasz típusának meghatározása (kérdéstípuson belül)

• A kérés fókuszának behatárolásaMelyik a leghosszabb folyó Európában?

általában szabály alapú rendszerrel

Page 28: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Kérdések típusai

Page 29: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Keresőkifejezések előállítása

• Heurisztikák:– nem gyakori szavak– tulajdonnevek– jelzős főnévi szerkezetek– igék– a kérdés fókusza

• Szinonimák

Page 30: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Dokumentumok szűrése

• A kulcsszavaknak egymáshoz közel kell elhelyezkedniük (pl. egymást követő bekezdésekben)

• Túl gyakori/túl ritka kulcsszavak

• Rangsorolás:– dokumentum forrása (Wiki, hivatalos)– kérdés szavainak száma– nem illesztett kulcsszavak

Page 31: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Válasz mondat kiválasztása• Válasz lokalizálása a dokumentumban

(bekezdés/mondat)

• Nyelvi elemzés (elsősorban szintaktikai)

• Ellenőrzés, hogy a válasz típusának megfelel-e a találat (pl. WordNet hyponímia)

• Legjobb válaszok listája(?)

Page 32: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Q&A kiértékelése

• MRR (mean recoprical rank)• adott:

– tesztkérdések– dokumentumhalmaz– emberi válaszok a dokhalmaz alapján

• Minden rendszer N db rangsorolt választ ad minden kérdésre

• metrika: jó válasz rangsorának reciproka

Page 33: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Próbáljuk ki!• Kivonatoláshttp://cimkezes.origo.hu/cimkefelho/

• Q&Ahttp://ask.com

• Dialógus rendszerekhttp://www.lafoxka.hu/http://www.ikea.hu

Page 34: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Dialógus rendszerek

Page 35: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Dialógus rendszerek

• beszélgető ágensek

• Ember-gép interakció• Tutoring• Adatbázis keresések

• Információkinyerés dialógusokból• Tárgyalás követés

Page 36: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Alkalmazások

• Döntéstámogató rendszerek

• Navigációs rendszerek

• Ügyfélszolgálatok (irányítás)

• Vizsgáztatás

Page 37: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Példák

[19:31:22] <TCH> öcsémnél lefagyott a firefox

[19:31:23] <TCH> és erre írt a készítőknek

[19:31:29] <TCH> hogy "lefagyott ez a szar„

[19:31:44] <TCH> erre visszaírtak magyarul, hogy "na jó, de hogy fagyott le ez a szar?„

[19:32:06] <TCH> szal fx-nél legalább support van

Page 38: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Példák17:03 < no_screen> 3 honapos macska vkinek?17:03 < no_screen> free17:03 < no_screen> :)17:04 < Steven_> :DDDDDDDD17:04 < no_screen> ne rohogj :)17:04 < no_screen> :)17:05 < reflexx> no_screen: gari? allapot?17:05 < no_screen> :) allapot alig hasznalt17:05 < no_screen> gari azt valalok 1 evet17:05 < no_screen> :)17:05 < reflexx> csipas verzio?17:05 < no_screen> csak ha teljesen tonkremegy akkor cserelem17:05 < reflexx> :))17:05 < no_screen> :))17:06 < reflexx> szin?17:06 < no_screen> szurke csikos17:06 < reflexx> marka?17:06 < no_screen> homemade

Page 39: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Problémák a dialógusoknál• Számítógépes nyelvészet

– Kérdés vagy információközlés megértése (szemantikai reprezentáció)

– NL generálás

• Mesterséges Intelligencia– ha nem értem a kérdést visszakérdezzek

(pontosítás)?– mikor váltsak át kérdezőbe/információ közlőbe?– ha nincs válasz az nemet jelent? meddig várjak?– „Visszacsatolásos tanulás”: a dialógus ágens

céljait milyen kérdések/közlések sorozatával érheti el a leghatékonyabban

Page 40: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek
Page 41: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Jelenleg működő rendszerek

• Lehetséges kérdések halmaza rögzített• ügyfélszolgálatok, tutoring• szűk domainen működik!• bejövő kérdéshez leghasonlóbb

mintakérdés kiválasztása (egyébként „nem értem mire gondolsz”) és az előre megadott válasz (szöveges vagy navigáció) megadása

Page 42: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Jelenleg működő beszélgető ágensek

• néhány beépített (gyakori) kérdésre válasz

• próbálják a kérdező szerepét átvenni (ált. eldöntendő kérdések)

• a válaszok egyszerű elemzésével (bag-of-words) tudnak „reagálni”

• céljuk általában: beszélgetési/kérdés/válasz sablonok gyűjtése későbbi (gépi) tanuláshoz

Page 43: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Turing teszt Kínai szoba

Page 44: Kivonatolás,  kérdés megválaszolás, dialógus rendszerek

Próbáljuk ki!• Kivonatoláshttp://cimkezes.origo.hu/cimkefelho/

• Q&Ahttp://ask.com

• Dialógus rendszerekhttp://www.lafoxka.hu/http://www.ikea.hu