10
Korpusová lingvistika (2) Jan Radimský FF JU České Budějovice

Korpusová lingvistika (2)

Embed Size (px)

DESCRIPTION

Korpusová lingvistika (2). Jan Radimský FF JU České Budějovice. Korpusová lingvistika… … samostatná lingvistická disciplína / teorie?. ... podle některých autorů ano! K tomu viz zejm.: Tognini-Bonelli E., Corpus linguistics at work (2001) Rozlišuje dva přístupy k využití korpusových dat: - PowerPoint PPT Presentation

Citation preview

Page 1: Korpusová lingvistika (2)

Korpusová lingvistika (2)

Jan RadimskýFF JU České Budějovice

Page 2: Korpusová lingvistika (2)

Korpusová lingvistika…… samostatná lingvistická disciplína / teorie?

... podle některých autorů ano! K tomu viz zejm.: Tognini-Bonelli E.,

Corpus linguistics at work (2001) Rozlišuje dva přístupy k využití korpusových

dat: corpus based approach corpus driven approach

Před četbou: malý exkurz do metodologie vědy

Page 3: Korpusová lingvistika (2)

Několik obecně metodologických pojmů...

Věda rozumové poznání, vychází z rozvažování nebo z

pozorování jevů Dedukce – indukce

Všichni lidé jsou smrtelní. Sokrates je člověk. ... ? Tato labuť je bílá. Všechny labutě jsou bílé.

Princip falsifikace (K. Popper) verifikace: nalézt příklady, které teorii potvrzují falsifikace: možnost hledat příklady, které teorii

vyvracejí Hypoteticko-deduktivní metoda

Proč jsou labutě bílé? (teorie) Mohu najít/hledat nějakou ne-bílou labuť?

Page 4: Korpusová lingvistika (2)

Korpusová lingvistika jako teorie

Popis - viz Elena Tognini-Bonelli (dále TB) Vychází z metodologických základů, které jsou

společné i mnoha dalším teoretickým popisům jazyka Některé aspekty dovádí do krajnosti.

Cíle KL: popis a analýza užívání jazyka v textech (TB, s. 2)

Podobně je zaměřena i textová lingvistika Text je ale vnímán jako celek, čten horizontálně, s

cílem porozumět obsahu... Korpus je analyzován fragmentárně, čten vertikálně,

studují se opakované „události“ (výskyty)... (TB.,3)

Page 5: Korpusová lingvistika (2)

Teoretické základy KL J. Firth: kontextová teorie významu (contextual theory of

meaning) Každý výraz je nedílnou součástí konkrétního kontextu

(jazykového, situačního): kontext je určující pro interpretaci významu

Každá jednotka (item) se vyskytuje vždy v kontextu (context) Kolokace (collocation) – bezprostřední kontext / okolí dané

jednotky Koligace (colligation) – bezprostřední kontext vyjádřený jako

gramatická kategorie Podobné myšlenky najdeme i jinde, ale s více či méně

podstatnými modifikacemi M. Gross: jednotkou lexikálního popisu je jednoduchá věta

(protože každé slovo musí být v kontextu) Ale tato věta může být umělá (uměle vytvořená), nemusí

pocházet z reálného textu.

Page 6: Korpusová lingvistika (2)

TB (s. 27): ukázka kolokačního / koligačního paradigmatu all but + X

Page 7: Korpusová lingvistika (2)

Corpus-based approach Přístup, který má využívat korpus pouze k

„ilustraci“ předem známých faktů / jevů Z dat (korpusu) má vybírat pouze jevy,

které považuje za „správné“ (tj. v souladu s teorií) Ostatní data přehlíží nebo popíše tak, aby nebyla

s teorií v rozporu

Nezajímá se o četnost jevů Používá předem dané kategorie (slovní

druhy, větné členy...)

Page 8: Korpusová lingvistika (2)

Corpus-driven approach Pro popis jednotek a vymezení kategorií se používá

výhradně reálný kontext: kolokace, koligace Opakovaný souvýskyt jednotek má dopad na

sémiotický systém cf. časté přívlastky slov jako žena / muž

- [tag="A.*"] [lemma="žena"] v SYN2005

Typické kolokace mohou souviset s konotací dané jednotky (slova)

Obecná pravidla se odvozují induktivně Neužívá se předem daná lematizace

Page 9: Korpusová lingvistika (2)

Příklad použití corpus-driven přístupu It. adjektivum bello (TB, 120)

význam krásný delexikalizované významy pořádný / pěkný / úplný –

jako kvantifikátory Příklady

C’è un bel rumore Continuammo a camminare per un bel pezzo... Quel rumore non era bello

Závěry: Alomorfy bell’ a bel se užívají jako delexikalizované

(46% a 27% případů) Alomorfy belli, begli ne Nejde tedy o stejné paradigma

Vaše interpretace?

Page 10: Korpusová lingvistika (2)

Jiné využití korpusu

Distinkce corpus driven / corpus based je dnes překonaná

Korpus lze využít k ověřování hypotéz v rámci hypoteticko-deduktivní metody