12
Szöveg alapú dokumentumok összehasonlításának optimális paraméterei KISS ANDRÁS KÁROLY BUDAPESTI CORVINUS EGYETEM [email protected]

Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális paraméterei

Embed Size (px)

Citation preview

Page 1: Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális paraméterei

Szöveg alapú dokumentumok összehasonlításának optimális paraméterei

KISS ANDRÁS KÁROLYBUDAPESTI CORVINUS EGYETEM

[email protected]

Page 2: Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális paraméterei

Amiről szó lesz

u Bevezetésu Irodalmi áttekintés és kutatási résu Hipotézisek megfogalmazásau Kutatás módszertanau Kutatási eredmények ismertetéseu Konklúziók levonása, összegzés

2

Page 3: Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális paraméterei

3Bevezetés

BSc (2011 – 2014)

MSc (2014 – 2016)

PhD (2016 – ?)

Page 4: Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális paraméterei

Irodalmi áttekintés és kutatási rés 4

Előnyök Hátrányok

Szavak

Statisztikai szempontbólelőnyös, szinonimák

problémája kezelhető

Hiányzik a kontextus,

szófordulatok szétesnek

Frázisok

elemezhető kontextus, szemantika nem veszik

el, megmaradószófordulatok

Statisztikai szempontbólnem előnyös

A. Stavrianou, P. Andritsos & N. Nicoloyannis:

Hogyan valósítható mindez meg?Mit jelent ez számokban?

KOPI működési elve:

Page 5: Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális paraméterei

Alapfogalmak 5

Ez itt egy dokumentum teljes szövege.Szövegkörnyezetbeli sorrend

Forrás dokumentum

Tokenek halmaza

2. token

N = 5 hosszúságú token

(Reprezentáló képesség)

Page 6: Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális paraméterei

Kutatási kérdések

1. A tokenek hosszúsága befolyásolja-e azok halmazánakdokumentum reprezentáló képességét?

2. A tokenizálás során a szavak szövegkörnyezetbelisorrendjének elhagyása befolyásolja-e a tokenekhalmazának dokumentum reprezentáló képességét?

3. A tokenek súlyozása befolyásolja-e azok halmazánakdokumentum reprezentáló képességét?

6

Page 7: Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális paraméterei

Teszthalmaz 7

Forrás és egyben kontroll dokumentum

Teszthalmaz

Összesen Másolt Egyezésdokumentum 1 152 20 0,13dokumentum 2 145 86 0,59dokumentum 3 154 31 0,20dokumentum 4 185 59 0,32dokumentum 5 137 33 0,24dokumentum 6 57 25 0,44dokumentum 7 100 21 0,21dokumentum 8 80 15 0,19dokumentum 9 83 20 0,24dokumentum 10 79 30 0,38

kontroll dokumentum 167

Page 8: Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális paraméterei

Az algoritmus 8

Kontroll és teszt dokumentum halmaz

Dokumentumok tartalmának beolvasása Java nyelvi elemekkel

Szöveg szavakká tördelése a sorrendiség megőrzése mellett

Tokenizálás elvégzése eltérő logikák mentén(N = 1,2,3,4 illetve random sorrend esetén)

Kontroll és teszt dokumentum közös tokeneinek keresése

Page 9: Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális paraméterei

Eredmények kiértékelése 9

-60.00

-50.00

-40.00

-30.00

-20.00

-10.00

0.00

10.00

20.00

30.00

1 2 3 4 5 6 7 8 9 10

Elté

rés

%-b

an

Axis Title

N=1 N=2 N=3 N=4 random N=2

Page 10: Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális paraméterei

Kutatási eredmények ismertetése

u Tokenek hosszúsága erősen befolyásolu Szavak szövegkörnyezetbeli sorrendjének elhagyása nem vezetett

eredményreu Tokenek súlyozása nem megfelelő megoldás a problémára:

u Nincsenek fontosabb szókapcsolatok

u A leggyakoribb szókapcsolatok csak azt bizonyítják, hogy azonos témában íródtak

u Nem meghatározható, hogy a súlyok miként befolyásolják az átfedés mértékét

10

Page 11: Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális paraméterei

Összegzés

u A szövegek összehasonlítását N = 2 hosszúságú tokenekkel érdemes elvégezni

u A szavak sorrendisége a szöveg egy fontos tulajdonsága, melyet nem érdemes heurisztika alkalmazásával megtörni

u A tokenek között nincsen olyan, ami több információt hordoz a dokumentumra nézve, mint a többi

11

Page 12: Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális paraméterei

Szöveg alapú dokumentumok összehasonlításának optimális paraméterei

KISS ANDRÁS KÁROLYBUDAPESTI CORVINUS EGYETEM

[email protected]