22
Szófelhő és ontológia generálás szövegbányászathoz Gáspár László Ervin

Szófelhő és ontológia generálás szövegbányászathozlingua.arts.unideb.hu/workshop2019/doc/present.pdf · –(Javascript, PHP, MySql / MIT és GNU-liszensz) •Korpuszok 1

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Szófelhő és ontológia generálás szövegbányászathozlingua.arts.unideb.hu/workshop2019/doc/present.pdf · –(Javascript, PHP, MySql / MIT és GNU-liszensz) •Korpuszok 1

Szófelhő és ontológia generálás szövegbányászathoz

Gáspár László Ervin

Page 2: Szófelhő és ontológia generálás szövegbányászathozlingua.arts.unideb.hu/workshop2019/doc/present.pdf · –(Javascript, PHP, MySql / MIT és GNU-liszensz) •Korpuszok 1

Programok, korpuszok

• Programok 1. Szófelhő 2. Adatgráf 3. Fogalmi háló – (Javascript, PHP, MySql / MIT és GNU-liszensz)

• Korpuszok 1. Politikai választási beszéd (Trump) 2. Leegyszerűsített szövegmodell (élettani

taxonómia) 3. Értekezés (Wittgenstein)

• Modellezett problémák – Jelentés – Fogalmi hierarchia

Page 3: Szófelhő és ontológia generálás szövegbányászathozlingua.arts.unideb.hu/workshop2019/doc/present.pdf · –(Javascript, PHP, MySql / MIT és GNU-liszensz) •Korpuszok 1

Problémafelvetés

• Négy attribútum:

1. Tartalom (elemek, szavak, címkék)

2. Címkék mérete („szógyakoriság”)

3. Elhelyezkedése

4. Színe

• A szófelhők merevsége

– Pozíciógeneráló algoritmus: csak helykitöltő

– Szín: random (látványelem)

– Címkék / Tartalom: a felhő esszenciális elemei, de

• Csak szűrt (címszó) elemekre korlátozódnak

• Nem fejeznek ki viszonyokat

Page 4: Szófelhő és ontológia generálás szövegbányászathozlingua.arts.unideb.hu/workshop2019/doc/present.pdf · –(Javascript, PHP, MySql / MIT és GNU-liszensz) •Korpuszok 1

Problémafelvetés

Technikailag szükségszerű: Általános és töltelékszavak, számok eltávolítása, stemmelés…

Szöveg (determinál): előzetesen strukturált szöveg, sablon, szabvány (Pl.: szócikk, életrajz)

• A „merevség” miatt a felhő nem tükrözi a korpusz „releváns képét”, nem mindig „reprezentatív”

Page 5: Szófelhő és ontológia generálás szövegbányászathozlingua.arts.unideb.hu/workshop2019/doc/present.pdf · –(Javascript, PHP, MySql / MIT és GNU-liszensz) •Korpuszok 1

„Hagyományos” szövegfelhő

• Korpusz: Donald Trump floridai beszéde

• Program: hagyományos online szófelhő szerkesztő

• „Make America great again”, Florida, people…

Page 6: Szófelhő és ontológia generálás szövegbányászathozlingua.arts.unideb.hu/workshop2019/doc/present.pdf · –(Javascript, PHP, MySql / MIT és GNU-liszensz) •Korpuszok 1

Nem standard beállítás

Page 7: Szófelhő és ontológia generálás szövegbányászathozlingua.arts.unideb.hu/workshop2019/doc/present.pdf · –(Javascript, PHP, MySql / MIT és GNU-liszensz) •Korpuszok 1

• Standard beállítás

– A megosztó (populista) beszédmód, az éles határ a „mi” és az „ők” között eltűnik

– Nem érzékelhető „érzelmi töltés”

– Ad hominem „személyeskedő beszédmód” +- irányban szintén eltűnik

– Az egyes szám első személy („I said”, „I know”) hangsúlyos jellege elvész

• A felhő generálás „dilemmája” :

– Vagy objektív tárgyszavazás és kevésbé reprezentatív, vagy sokkal terjengősebb, de kifejezőbb címkefelhő

– A tárgyszavak (címkék) önmagukban nem fejeznek ki viszonyokat

• Áthidaló megoldás:

– Szófajelemzés (POS), kivonatolás

– bizonyos szófajok vagy szóösszetételek megengedése / kizárása

Page 8: Szófelhő és ontológia generálás szövegbányászathozlingua.arts.unideb.hu/workshop2019/doc/present.pdf · –(Javascript, PHP, MySql / MIT és GNU-liszensz) •Korpuszok 1

• Megengedett: JJ, NN, NNS, NNP, NNPS

Page 9: Szófelhő és ontológia generálás szövegbányászathozlingua.arts.unideb.hu/workshop2019/doc/present.pdf · –(Javascript, PHP, MySql / MIT és GNU-liszensz) •Korpuszok 1

• Megengedett: JJ, RB

Page 10: Szófelhő és ontológia generálás szövegbányászathozlingua.arts.unideb.hu/workshop2019/doc/present.pdf · –(Javascript, PHP, MySql / MIT és GNU-liszensz) •Korpuszok 1

• Megengedett: RB, RBR, RBS, JJ, JJR, JJS

Page 11: Szófelhő és ontológia generálás szövegbányászathozlingua.arts.unideb.hu/workshop2019/doc/present.pdf · –(Javascript, PHP, MySql / MIT és GNU-liszensz) •Korpuszok 1

• Keresés opcionális finomítása

– Szabad szavas kizárás és elfogadás

– Stemmer algoritmus

– Szófajok megengedése és kizárása

• Szófaji csoportok szerinti elkülönítés (szín vagy elhelyezés szerint)

• http://nagyalma.hu/nlp/

Page 12: Szófelhő és ontológia generálás szövegbányászathozlingua.arts.unideb.hu/workshop2019/doc/present.pdf · –(Javascript, PHP, MySql / MIT és GNU-liszensz) •Korpuszok 1

A gyakoriság problémája egy leegyszerűsített élettani taxonómia felhőjén

Tiger is mammal.

Mammal is animal.

Flower is plant.

Animal is living-being.

Plant is living-being.

animal (2)

flower (1)

living-being (2)

mammal (2)

plant (2)

tiger

(1)

living-being

plant

flower

animal

mammal

tiger

Page 13: Szófelhő és ontológia generálás szövegbányászathozlingua.arts.unideb.hu/workshop2019/doc/present.pdf · –(Javascript, PHP, MySql / MIT és GNU-liszensz) •Korpuszok 1

Korpusz: értekezés, Program: keresőmotor és adat-gráf

• Ludwig Wittgenstein: Tractatus Logico-Philosophicus, Logikai-filozófiai értekezés (1914/16-tól, első megjelenés: 1922-23) – Logikai és holisztikus/egzisztenciális olvasat hipotézise – http://nagyalma.hu/nlp/

Page 14: Szófelhő és ontológia generálás szövegbányászathozlingua.arts.unideb.hu/workshop2019/doc/present.pdf · –(Javascript, PHP, MySql / MIT és GNU-liszensz) •Korpuszok 1

Korpusz: értekezés, Program: keresőmotor és adat-gráf

• A program a felsorolt fogalmak alapján kialakít egy hálózati struktúrát.

• A megrajzolt struktúra alapján elemezhetőek az érintkezési pontok…

Leben{color:

#19FFA0}

Tod{color: #820BB8}

Leben -> 5.621

{color: #19FFA0,

weight: 1}

Page 15: Szófelhő és ontológia generálás szövegbányászathozlingua.arts.unideb.hu/workshop2019/doc/present.pdf · –(Javascript, PHP, MySql / MIT és GNU-liszensz) •Korpuszok 1
Page 16: Szófelhő és ontológia generálás szövegbányászathozlingua.arts.unideb.hu/workshop2019/doc/present.pdf · –(Javascript, PHP, MySql / MIT és GNU-liszensz) •Korpuszok 1

Korpusz: értekezés, Program: keresőmotor és adat-gráf

élet – halál Leben – Tod

ember – isten Mensch – Gott

idő – tér Zeit – Raum

lényeg – szubsztancia Wesen – Substanz

filozófia – pszichológia Psychologie – Philosophie

meghalni – lélek sterben – Seele

rejtvény – megoldás Rätsel – Lösung

örök – jelen ewig – Gegenwart

végtelen – vég nélküli unendlich – endlos

látómező – Gesichtsfeld –

valóság – önkényes Wirklichkeit – willkührlich

lehetőség – valószínűség Möglichkeit – Wahrscheinlichkeit

sors – véletlen Schicksal – zufällig

oksági – szükségszerű(ség) Kausalnexus, Kausalität – notwendig, Notwendigkeit

természeti törvény – nem logikai Naturgesetz – unlogisch

metafizika(i) – gondolat metaph(ysisch) – Gedank

köznyelv – a nyelv „logikája” Umgangssprache – Sprachlogik

nyelv – határ Sprache – Grenze

Page 17: Szófelhő és ontológia generálás szövegbányászathozlingua.arts.unideb.hu/workshop2019/doc/present.pdf · –(Javascript, PHP, MySql / MIT és GNU-liszensz) •Korpuszok 1
Page 18: Szófelhő és ontológia generálás szövegbányászathozlingua.arts.unideb.hu/workshop2019/doc/present.pdf · –(Javascript, PHP, MySql / MIT és GNU-liszensz) •Korpuszok 1
Page 19: Szófelhő és ontológia generálás szövegbányászathozlingua.arts.unideb.hu/workshop2019/doc/present.pdf · –(Javascript, PHP, MySql / MIT és GNU-liszensz) •Korpuszok 1

• A megrajzolt gráfokat, az általuk megadott fogalmakat és a hozzájuk rendelt színeket, egyetlen címkefelhő elemnek tekinthetjük -> már nem szófelhő

• A gráfok adják meg a címkék pozícióját, de nem random jelleggel, hanem az egyes elemek (kulcsfogalmak) összefüggése alapján

Fejlesztés:

• A gráfok, a súlyozott élek értékét hozzá lehet rendelni az egyes fogalmakhoz

• A színekkel lehetséges az élek súlyát és két fogalom összefüggésének mértékét érzékeltetni

• A csomópontok, élek és színek számszerűsítése további mérési módszereket tesz lehetővé

• Hiányosság

– Önmagukban a gráfok sem mondanak sokat a jelentéséről. Ezt az elemzést a gráfot elemző személynek kell „kihámoznia” a struktúra alapján

– Nem tartalmaznak (ontológiai) hierarchiát, csak fogalmi viszonyokat

Page 20: Szófelhő és ontológia generálás szövegbányászathozlingua.arts.unideb.hu/workshop2019/doc/present.pdf · –(Javascript, PHP, MySql / MIT és GNU-liszensz) •Korpuszok 1

A jelentés problémája

• Willard van Orman Quine: Ontológiai relativitás

– A jelentés ún. „múzeumi használatá”-nak kritikája

– Címke: jelentésreprezentáló (referenciális) funkció

– Anti-referencializmus (T. Dobler) = naturalizmus (Quine)

Page 21: Szófelhő és ontológia generálás szövegbányászathozlingua.arts.unideb.hu/workshop2019/doc/present.pdf · –(Javascript, PHP, MySql / MIT és GNU-liszensz) •Korpuszok 1

Gráf és felhő összehasonlítása

• http://nagyalma.hu/nlp/

Page 22: Szófelhő és ontológia generálás szövegbányászathozlingua.arts.unideb.hu/workshop2019/doc/present.pdf · –(Javascript, PHP, MySql / MIT és GNU-liszensz) •Korpuszok 1

1. A fenti programok finomítása, fejlesztése

2. Ezek összehangolása egyetlen programban: szófelhők + hálózatok

3. Magyar nyelvű verzió készítése

4. Open Access hozzáférhetővé tétel

Köszönöm a figyelmüket!