Szöveg alapú dokumentumok összehasonlításának optimális paraméterei
KISS ANDRÁS KÁROLYBUDAPESTI CORVINUS EGYETEM
Amiről szó lesz
u Bevezetésu Irodalmi áttekintés és kutatási résu Hipotézisek megfogalmazásau Kutatás módszertanau Kutatási eredmények ismertetéseu Konklúziók levonása, összegzés
2
3Bevezetés
BSc (2011 – 2014)
MSc (2014 – 2016)
PhD (2016 – ?)
Irodalmi áttekintés és kutatási rés 4
Előnyök Hátrányok
Szavak
Statisztikai szempontbólelőnyös, szinonimák
problémája kezelhető
Hiányzik a kontextus,
szófordulatok szétesnek
Frázisok
elemezhető kontextus, szemantika nem veszik
el, megmaradószófordulatok
Statisztikai szempontbólnem előnyös
A. Stavrianou, P. Andritsos & N. Nicoloyannis:
Hogyan valósítható mindez meg?Mit jelent ez számokban?
KOPI működési elve:
Alapfogalmak 5
Ez itt egy dokumentum teljes szövege.Szövegkörnyezetbeli sorrend
Forrás dokumentum
Tokenek halmaza
2. token
N = 5 hosszúságú token
(Reprezentáló képesség)
Kutatási kérdések
1. A tokenek hosszúsága befolyásolja-e azok halmazánakdokumentum reprezentáló képességét?
2. A tokenizálás során a szavak szövegkörnyezetbelisorrendjének elhagyása befolyásolja-e a tokenekhalmazának dokumentum reprezentáló képességét?
3. A tokenek súlyozása befolyásolja-e azok halmazánakdokumentum reprezentáló képességét?
6
Teszthalmaz 7
Forrás és egyben kontroll dokumentum
Teszthalmaz
Összesen Másolt Egyezésdokumentum 1 152 20 0,13dokumentum 2 145 86 0,59dokumentum 3 154 31 0,20dokumentum 4 185 59 0,32dokumentum 5 137 33 0,24dokumentum 6 57 25 0,44dokumentum 7 100 21 0,21dokumentum 8 80 15 0,19dokumentum 9 83 20 0,24dokumentum 10 79 30 0,38
kontroll dokumentum 167
Az algoritmus 8
Kontroll és teszt dokumentum halmaz
Dokumentumok tartalmának beolvasása Java nyelvi elemekkel
Szöveg szavakká tördelése a sorrendiség megőrzése mellett
Tokenizálás elvégzése eltérő logikák mentén(N = 1,2,3,4 illetve random sorrend esetén)
Kontroll és teszt dokumentum közös tokeneinek keresése
Eredmények kiértékelése 9
-60.00
-50.00
-40.00
-30.00
-20.00
-10.00
0.00
10.00
20.00
30.00
1 2 3 4 5 6 7 8 9 10
Elté
rés
%-b
an
Axis Title
N=1 N=2 N=3 N=4 random N=2
Kutatási eredmények ismertetése
u Tokenek hosszúsága erősen befolyásolu Szavak szövegkörnyezetbeli sorrendjének elhagyása nem vezetett
eredményreu Tokenek súlyozása nem megfelelő megoldás a problémára:
u Nincsenek fontosabb szókapcsolatok
u A leggyakoribb szókapcsolatok csak azt bizonyítják, hogy azonos témában íródtak
u Nem meghatározható, hogy a súlyok miként befolyásolják az átfedés mértékét
10
Összegzés
u A szövegek összehasonlítását N = 2 hosszúságú tokenekkel érdemes elvégezni
u A szavak sorrendisége a szöveg egy fontos tulajdonsága, melyet nem érdemes heurisztika alkalmazásával megtörni
u A tokenek között nincsen olyan, ami több információt hordoz a dokumentumra nézve, mint a többi
11
Szöveg alapú dokumentumok összehasonlításának optimális paraméterei
KISS ANDRÁS KÁROLYBUDAPESTI CORVINUS EGYETEM