Upload
kreszenz-karlsen
View
117
Download
0
Embed Size (px)
Citation preview
Slowakisches Nationalkorpus Slovenský národný korpus
Tschechisches Nationalkorpus Česky národní korpus
erstellt von: Rita Plos
Seminar: Slawische Korpuslinguistik
SS 2006
O. Prof. Dr. Branko Tošović
Graz, am 16.05.2006
Slowakisches NationalkorpusSlovenský národný korpus
Leitung: PhDr. Mária Šimková
Institut: Ľ. Štúr-Institut f. Linguistik
Slowakische Akademie der Wissenschaften, Bratislava
Jazykovedný ústav Ľ. Štúra
Slovenská Akadémia Vied, Bratislava
Verfügbarkeit: Internet - http://korpus.juls.sayba.sk/
Sprachen: Slowakisch/Englisch
2SE: Slawische Korpuslinguistik, SS 2006
Struktur des SNKŠtruktúra SNK
Allgemeines (primäres) Korpus
Všeobecný (primárny) korpus
Linguistische Quellen
Lingvistické zdroje
Parallelkorpus
Paralelné korpusy
3SE: Slawische Korpuslinguistik, SS 2006
Allgemeines (primäres) Korpus Všeobecný (primárny) korpus
Die derzeitige Version dieses Korpus heißt prim-2.1:
prim-2.1-public-all – enthält alle Texte: 294.087.581 token
prim-2.1-public-inf –
enthält nur journalistische Texte: 178.070.839 token
prim-2.1-public-prf –
enthält nur Wissenschafts- & Fachtexte: 34.118.166 token
prim-2.1-public-img – enthält nur Belletristik: 51.365.542 token
4SE: Slawische Korpuslinguistik, SS 2006
Allgemeines (primäres) Korpus Všeobecný (primárny) korpus
prim-2.1-public-sane – durchgesehenes Korpus, enthält nur nicht-linguistische Texte mit Standardqualität (richtige diakritische Zeichen, Standard der slowakischen Gegenswartssprache): 285.700.835 token
prim-2.1-public-skimg – enthält nur original slowakische Belletristik: 12.508.261 token
prim-2.1-vyv – ausgeglichenes Korpus (60% journalitische Texte, 20% Belletristik, 20% Fachtexte): 54.357.894 token
5SE: Slawische Korpuslinguistik, SS 2006
Allgemeines (primäres) Korpus Všeobecný (primárny) korpus
Außerdem gibt es ein spezielles Subkorpus:
r-mak-1.0 - händisch morphologisch annotiertes Korpus: 322.600 token
6SE: Slawische Korpuslinguistik, SS 2006
Linguistische QuellenLingvistické zdroje
Slowakische Sprachwissenschaftler 1976 – 2000
Slovenskí jazykovedci 1976 - 2000
Kleines Wörterbuch der Slowakischen Sprache
Krátky slovník slovenskeho jazyka
Volltext Datenbank mit ausgewählten Exemplaren des „Kultúra slova“ Magazins
Vybrané čísla časopisu Kultúra slova
7SE: Slawische Korpuslinguistik, SS 2006
ParallelkorpusParalelné korpusy
Parallelkorpus f. Computer-Fachausdrücke
- Sprachen: alle slawischen Sprachen, alle romanischen
Sprachen, Deutsch, Englisch, Chinesisch etc.
8SE: Slawische Korpuslinguistik, SS 2006
Tschechisches Nationalkorpus Česky národní korpus
Leitung: Prof. PhDr. František Čermák, DrSc.
Institut: Institut des ČNK, Karlsuniversität, Prag
Ústav Českého národního korpusu,Univerzita Karlova, Praha
Verfügbarkeit: Internet - http://ucnk.ff.cuni.cz/
Sprachen: Tschechisch / Englisch
Gegründet: 1994
9SE: Slawische Korpuslinguistik, SS 2006
Struktur des ČNKStruktura ČNK
Synchroner Teil / Synchronní část :
1. Geschriebenes Korpus / Psané korpusy
2. Gesprochenes Korpus / Mluvené korpusy
3. Parallelkorpora / Paralelní korpusy
Diachroner Teil / Diachronní část :
1. Diachrones Korpus / Diachronní korpus
10SE: Slawische Korpuslinguistik, SS 2006
Geschriebenes KorpusPsané korpusy
SYN2000 – enthält zeitgenössische, tschechische Texte: 100.000.000 Wörter
SYN2005 – enthält zeitgenössische, tschechische Texte:
100.000.000 Wörter
11SE: Slawische Korpuslinguistik, SS 2006
SYN 2000 SYN2005
Publizistik publicistika
60% 33%
Fachliteratur odborná lit.
15% 40%
Belletristik beletrie
25% 27%
Geschriebenes KorpusPsané korpusy
PUBLIC – reduzierte Version v. SYN2000 (ohne Passwort): 20.000.000 Wörter
- 60% Publizistik / publicistika
- 25% Fachliteratur / odborná literatura
- 15% Belletristik / beletrie
12SE: Slawische Korpuslinguistik, SS 2006
Geschriebenes KorpusPsané korpusy
Weiters:
FSC2000
SYNEC
LITERA
ORWELL
DB – unterstützende Datenbanken und elektr. Wörterbücher
13SE: Slawische Korpuslinguistik, SS 2006
Geschriebenes KorpusPsané korpusy
ČNKSYN-Archiv – enthält elektr.Texte in rohen Dateiformaten (MS Word, Ventura etc.), meist nur als Sicherungskopie
ČNKSYN-Bank – enthält die an das Korpusformat (SGML), angepassten Texte. Leider ist es nicht möglich die ČNKSYN als ein großes Korpus anzubieten.
14SE: Slawische Korpuslinguistik, SS 2006
Gesprochenes Korpus Mluvené korpusy
Prager gesprochenes Korpus
Pražský mluvený korpus
Brünner gesprochenes Korpus
Brněnský mluvený korpus
15SE: Slawische Korpuslinguistik, SS 2006
Parallelkorpora Paralelní korpusy
16SE: Slawische Korpuslinguistik, SS 2006
InterCorp – Projekt (keine näheren Angaben)
DIAKORP – Auswahl alter, tschechischer Texte (13.Jh.) bis heute: ~ 700.000 Wörter
DB – Datenbanken & Wörterbücher auf Alt-Tschechisch
ČNKDIA-Archiv – enthält gescannte Texte des Alt-Tschechischen
Diachrones Korpus Diachronní korpus
SE: Slawische Korpuslinguistik, SS 2006 17
Diachrones Korpus Diachronní korpus
ČNKDIA-Bank – enthält:
- transkribierte Texte (2 000 000 Wörter),
- transliterierte Texte (100 000 Wörter)
- Dialekt-Texte (200 000 Wörter)
DIAL – geplantes Dialektkorpus
18SE: Slawische Korpuslinguistik, SS 2006
Literatur und QuellenLiteratúra a prameňe / Literatura a prameny
Slowakisch / Slovenský
Jarošová 1993: Jarošová, A. Korpus textov slovenského jazyka. – In: Slovenská reč. – Bratislava , 1993. – Ročník 58, číslo 2. – S. 89-95.
Гарабик 2004: Гарабик, Р. Словацкий национальный корпус. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт-Петербург: Изд-во Санкт-Петербургского ун-та. – С. 99-121.
http://korpus.juls.savba.sk/
19SE: Slawische Korpuslinguistik, SS 2006
Literatur und QuellenLiteratúra a prameňe / Literatura a prameny
Tschechisch/ Český
Petkevič 2004: Petkevič, V. Rule-Based Part-of-Speech and Morphological Disambiguation of the Czech National Corpus. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт - Петербург : Изд - во Санкт - Петербургского ун - та . – С . 271-285.
Rychly/Smrz 2004: Rychly, P.; Smrz, P. Manatee, Bonito and Word Sketches for Czech. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт - Петербург : Изд - во Санкт - Петербургского ун - та . – С . 324-334.
20SE: Slawische Korpuslinguistik, SS 2006
Literatur und QuellenLiteratúra a prameňe / Literatura a prameny
Копршивова 2004: Копршивова, М. К некоторым вопросам, связанным с лемматизацией корпуса чешских текстов. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт-Петербург: Изд-во Санкт-Петербургского ун-та. – С. 176-182.
http://ucnk.ff.cuni.cz/
21SE: Slawische Korpuslinguistik, SS 2006