Download pdf - Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális paraméterei

Szöveg alapú dokumentumok összehasonlításának optimális paraméterei

KISS ANDRÁS KÁROLYBUDAPESTI CORVINUS EGYETEM

[email protected]

Amiről szó lesz

u Bevezetésu Irodalmi áttekintés és kutatási résu Hipotézisek megfogalmazásau Kutatás módszertanau Kutatási eredmények ismertetéseu Konklúziók levonása, összegzés

2

3Bevezetés

BSc (2011 – 2014)

MSc (2014 – 2016)

PhD (2016 – ?)

Irodalmi áttekintés és kutatási rés 4

Előnyök Hátrányok

Szavak

Statisztikai szempontbólelőnyös, szinonimák

problémája kezelhető

Hiányzik a kontextus,

szófordulatok szétesnek

Frázisok

elemezhető kontextus, szemantika nem veszik

el, megmaradószófordulatok

Statisztikai szempontbólnem előnyös

A. Stavrianou, P. Andritsos & N. Nicoloyannis:

Hogyan valósítható mindez meg?Mit jelent ez számokban?

KOPI működési elve:

Alapfogalmak 5

Ez itt egy dokumentum teljes szövege.Szövegkörnyezetbeli sorrend

Forrás dokumentum

Tokenek halmaza

2. token

N = 5 hosszúságú token

(Reprezentáló képesség)

Kutatási kérdések

1. A tokenek hosszúsága befolyásolja-e azok halmazánakdokumentum reprezentáló képességét?

2. A tokenizálás során a szavak szövegkörnyezetbelisorrendjének elhagyása befolyásolja-e a tokenekhalmazának dokumentum reprezentáló képességét?

3. A tokenek súlyozása befolyásolja-e azok halmazánakdokumentum reprezentáló képességét?

6

Teszthalmaz 7

Forrás és egyben kontroll dokumentum

Teszthalmaz

Összesen Másolt Egyezésdokumentum 1 152 20 0,13dokumentum 2 145 86 0,59dokumentum 3 154 31 0,20dokumentum 4 185 59 0,32dokumentum 5 137 33 0,24dokumentum 6 57 25 0,44dokumentum 7 100 21 0,21dokumentum 8 80 15 0,19dokumentum 9 83 20 0,24dokumentum 10 79 30 0,38

kontroll dokumentum 167

Az algoritmus 8

Kontroll és teszt dokumentum halmaz

Dokumentumok tartalmának beolvasása Java nyelvi elemekkel

Szöveg szavakká tördelése a sorrendiség megőrzése mellett

Tokenizálás elvégzése eltérő logikák mentén(N = 1,2,3,4 illetve random sorrend esetén)

Kontroll és teszt dokumentum közös tokeneinek keresése

Eredmények kiértékelése 9

-60.00

-50.00

-40.00

-30.00

-20.00

-10.00

0.00

10.00

20.00

30.00

1 2 3 4 5 6 7 8 9 10

Elté

rés

%-b

an

Axis Title

N=1 N=2 N=3 N=4 random N=2

Kutatási eredmények ismertetése

u Tokenek hosszúsága erősen befolyásolu Szavak szövegkörnyezetbeli sorrendjének elhagyása nem vezetett

eredményreu Tokenek súlyozása nem megfelelő megoldás a problémára:

u Nincsenek fontosabb szókapcsolatok

u A leggyakoribb szókapcsolatok csak azt bizonyítják, hogy azonos témában íródtak

u Nem meghatározható, hogy a súlyok miként befolyásolják az átfedés mértékét

10

Összegzés

u A szövegek összehasonlítását N = 2 hosszúságú tokenekkel érdemes elvégezni

u A szavak sorrendisége a szöveg egy fontos tulajdonsága, melyet nem érdemes heurisztika alkalmazásával megtörni

u A tokenek között nincsen olyan, ami több információt hordoz a dokumentumra nézve, mint a többi

11

Szöveg alapú dokumentumok összehasonlításának optimális paraméterei

KISS ANDRÁS KÁROLYBUDAPESTI CORVINUS EGYETEM

[email protected]