43
1 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Språk, datorer och textbehandling Föreläsning 1: Introduktion till korpuslingvistik Eva Pettersson [email protected]

Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

1 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Språk, datorer och textbehandling

Föreläsning 1:Introduktion till korpuslingvistik

Eva [email protected]

Page 2: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

2 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Kursplan - Syfte

5 poäng, grundnivå, huvudområde: språkteknologi

Syfte: Kursen skall förmedla grundläggande

kunskaper om datasystem och databehandling som

bas för språkvetenskapliga studier och behandlar

grundläggande tekniker för språkvetenskaplig

bearbetning av stora textsamlingar (korpusar).

Fokus ligger på praktisk användning av verktyg

för korpusanalys.

Page 3: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

3 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Kursplan – Innehåll och upplägg

• Begreppen operativsystem och filsystem och deras

användning, med praktiska övningar i de datormiljöer som

används i utbildningen.

• Representation och bearbetning i datasystem av text och

textelement: teckenrepresentationer och

dokumentbeskrivningsspråk.

• Konstruktion av enkla program för textbearbetning.

• Introduktion till Internet och WWW.

Page 4: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

4 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Kursplan – Innehåll och upplägg

• Befintliga språkvetenskapliga korpusar.

• Separering av ord (tokenisering).

• Olika kvantitativa analyser.

• Grammatisk analys och uppmärkning av korpusar.

• Användning av parallella korpusar (där texter på olika

språk som är varandras översättningar ställs jämte

varandra).

Page 5: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

5 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Examination

Kunskapskontroll sker genom:

– obligatoriska labbrapporter

– seminarier

– projektuppgift

Betyget på kursen bestäms av:

– den muntliga och skriftliga presentationen av

labbarna och projektuppgiften

Page 6: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

6 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Kurslitteratur och hemsida

• McEnery, Tony & Andrew Wilson (2001) Corpus linguistics,

2nd edition. Edinburgh: Edinburgh University Press.

alt.

Tony McEnery, Richard Xiao och Ykiou Tono, 2006.

Corpus-Based Language Studies – an advanced resource

book. Routledge Applied Linguistics

• Kurssida:

http://stp.lingfil.uu.se/~evapet/Undervisning/SDT07/

• Kompletterande litteratur, läsrekommendationer och diverse

intressanta länkar finns på kurssidan!

Page 7: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

7 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Föreläsningsöversikt

• Vad är en korpus?

• Vad är korpuslingvistik?

• Varför korpuslingvistik?

• Korpusen som begrepp och dess innehåll

• Korpusannotering

• Korpustyper

• Exempel på korpusar

Page 8: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

8 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Vad är en korpus?

• Korpus av latinets corpus = kropp

• Nationalencyklopedins definition: textmängd som är föremål för

språkvetenskapligt studium

• Samling språkliga data som:

– består av en samling skrivna texter eller transkriptioner av

talspråk

– är mer eller mindre representativt för språket i fråga

– lagras elektroniskt

• Internet = Världens största korpus!

Page 9: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

9 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Vad är korpuslingvistik?

• Huvudsyftet med en korpus är att verifiera hypoteser om

språket, t.ex. att undersöka hur ett visst ljud, ord eller

syntaktisk konstruktion faktiskt används:

När började man skriva ''mejl'' istället för ''mail''?

Säger man ''bättre än jag'' eller ''bättre än mig''?

• Gammal idé (dialektstudier, studier av utdöda språk etc.)

• Förverkligad genom modern teknik (framfart sedan 80-

talet)

Page 10: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

10 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Varför korpuslingvistik?

• Objektiv lingvistik: Man studerar språket som det används i

verkligheten (ej påhittade exempel)

• Enda sättet att undersöka frekvens i språkbruket

• Talforskning (talspråkskorpusar): prosodi, ålder, klass, kön

etc.

• Korpusbaserad grammatik: empiriska data för att testa

hypoteser om grammatik

• Historisk lingvistik: diakroniska korpusar för jämförande

studier ur olika tidsepoker

Page 11: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

11 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Korpusen som begrepp och dess innehåll

En korpus i modern lingvistik är inte bara en samling

texter, utan uppfyller också (oftast) följande:

– representativt urval

– begränsad storlek (inte alltid)

– elektronisk form

– standardreferens

Page 12: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

12 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Korpusurval och representativitet

• Korpusar fungerar som ett representativt ”stickprov” av

en (mycket större) ”population” (t.ex. ett språk)

• Biber (Representativeness in corpus design, 1993)

diskuterar representativitet i texturval för korpusar:

– definiera populationen (”sampling frame”)

– fastställ den hierarkiska strukturen i populationen

(”strata”) - genrer, texttyper, ursprung

– bestäm storleken (vad är den optimala storleken?)

Page 13: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

13 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Korpusar som standardreferens

Korpusar används som standardreferens för

jämförande studier:

– jämför speciell språkanvändning med en

standardreferens (korpus)

Page 14: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

14 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Korpusannotering

Att märka upp korpusen med lingvistisk information, ex:

– Ordklass (part-of-speech)

– Böjningsinformation (morfo-syntaktisk information)

– Lemma (grundform, d.v.s. uppslagsord i lexikon)

– Syntax

– Fonetik (uttal) - transkription

– Semantik

Annoteringen kan göras för hand eller automatiskt.

Page 15: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

15 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Ordklasser

• Ej trivialt hur många ordklasser det finns

• Traditionellt 9 st:

substantiv, adjektiv, verb, pronomen, räkneord, adverb,

prepositioner, konjunktioner, interjektioner

• Ska dessa vara egna ordklasser?

subjunktioner, artiklar, particip, verbpartiklar,

infinitivmärke, egennamn

• SUC-korpusen har 23 ordklasser, bl.a. finare adverb-

indelning och skillnad mellan grundtal och ordningstal

Page 16: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

16 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Böjningsinformation

• Substantiv

genus (en/ett), numerus (singular/plural), bestämdhet

(bestämd/obestämd), kasus (nominativ/genitiv)

• Verb

tempus (presens/preteritum), diates (aktiv/passiv), modus

(indikativ/imperativ/konjunktiv)

• Adjektiv

komparationsgrad (positiv/komparativ/superlativ)

• Pronomen

kasus (subjekt/objekt)

Page 17: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

17 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Syntax

Grammatisk analys

– Frasstruktur

nominalfraser, adjektivfraser, adverbfraser,

prepositionsfraser, verbfraser

– Satsdelar

subjekt, objekt, adverbial etc.

Page 18: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

18 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Semantik

• Av grekiska semainein = betyda, beteckna

• Beskriver språkliga uttrycks betydelse, till

skillnad från syntax som beskriver strukturen

• Semantisk annotering i korpusar:

– Ordbetydelse

– Semantiska relationer (agent, patient etc.)

Page 19: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

19 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Korpustyper

• Skriftspråkskorpusar

• Talspråkskorpusar

• Balanserade korpusar

Består av olika texttyper i bestämda proportioner, avsett att

representera ett språk eller en aspekt av ett språk.

• Monitorkorpusar

Korpusen växer ständigt. Möjliggör studier av hur

språkbruket förändras över tiden.

Page 20: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

20 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Fler korpustyper

• Trädbanker (Grammatiskt uppmärkta korpusar)

• Flerspråkiga korpusar

Innehåller texter på flera olika språk. Två undertyper:

– jämförbara korpusar (Samma texttyper på flera olika språk)

– parallellkorpusar (Samma texter på flera olika språk)

• Specialkorpusar

Korpusar som utvecklats för att studera en viss språktyp,

t.ex. ungdomsspråk eller fornengelska.

Page 21: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

21 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Välkända korpusar Engelska

– BNC (British National Corpus, 100 milj ord)– Brown corpus (1 milj ord)

Svenska– SUC (Stockholm-Umeå Corpus, 1 milj ord)– PAROLE (19 milj ord)

Flerspråkiga– Hansard (Kanadensiska parlamentstexter på

engelska och franska)– EUROPARL (Europaparlamentstexter på EU-språk)– JRC-Acquis (Lagtexter från EU)

Page 22: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

22 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Exempel på

korpusar

Page 23: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

23 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

SUC SUC = Stockholm Umeå Corpus Ca 1 miljon löpord Balanserad 500 texter med cirka 2000 ord per text 9 huvudgenrer, med undergenrer, t.ex:

– K (skönlitteratur)• KK allmän skönlitteratur• KL deckare och science fiction• KN triviallitteratur• KR humor

Manuellt uppmärkt med ordklass, lemma och böjningsinformation

Page 24: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

24 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Genreindelning i SUC

• A. Press: Reportage

• B. Press: Editorial

• C. Press: Reviews

• E. Skills, Trades and Hobbies

• F. Popular Lore

• G. Belles Lettres, Biography, Memoirs

• H. Miscellaneous

• J. Learned and Scientific Writing

• K. Imaginative prose

Page 25: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

25 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Exempel ur SUC

<s id=aa01a-007><w n=68>Särskilt<ana><ps>AB<b>särskilt</w><w n=69>smygrustningen<ana><ps>NN<m>UTR SIN DEF NOM<b>smygrustning</w><w n=70>vad<ana><ps>HA<b>vad</w><w n=71>gäller<ana><ps>VB<m>PRS AKT<b>gälla</w><w n=72>missiler<ana><ps>NN<m>UTR PLU IND NOM<b>missil</w><w n=73>oroar<ana><ps>VB<m>PRS AKT<b>oroa</w><d n=74>.<ana><ps>MAD<b>.</d></s>

Page 26: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

26 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

SUC (ordklasser)

<s id=aa01a-007><w n=68>Särskilt<ana><ps>AB<b>särskilt</w><w n=69>smygrustningen<ana><ps>NN<m>UTR SIN DEF NOM<b>smygrustning</w><w n=70>vad<ana><ps>HA<b>vad</w><w n=71>gäller<ana><ps>VB<m>PRS AKT<b>gälla</w><w n=72>missiler<ana><ps>NN<m>UTR PLU IND NOM<b>missil</w><w n=73>oroar<ana><ps>VB<m>PRS AKT<b>oroa</w><d n=74>.<ana><ps>MAD<b>.</d></s>

Page 27: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

27 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

SUC (böjningsinformation)

<s id=aa01a-007><w n=68>Särskilt<ana><ps>AB<b>särskilt</w><w n=69>smygrustningen<ana><ps>NN<m>UTR SIN DEF NOM<b>smygrustning</w><w n=70>vad<ana><ps>HA<b>vad</w><w n=71>gäller<ana><ps>VB<m>PRS AKT<b>gälla</w><w n=72>missiler<ana><ps>NN<m>UTR PLU IND NOM<b>missil</w><w n=73>oroar<ana><ps>VB<m>PRS AKT<b>oroa</w><d n=74>.<ana><ps>MAD<b>.</d></s>

Page 28: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

28 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

SUC (lemma)

<s id=aa01a-007><w n=68>Särskilt<ana><ps>AB<b>särskilt</w><w n=69>smygrustningen<ana><ps>NN<m>UTR SIN DEF NOM<b>smygrustning</w><w n=70>vad<ana><ps>HA<b>vad</w><w n=71>gäller<ana><ps>VB<m>PRS AKT<b>gälla</w><w n=72>missiler<ana><ps>NN<m>UTR PLU IND NOM<b>missil</w><w n=73>oroar<ana><ps>VB<m>PRS AKT<b>oroa</w><d n=74>.<ana><ps>MAD<b>.</d></s>

Page 29: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

29 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

BNC

British National Corpushttp://www.natcorp.ox.ac.uk/

Ca 100 miljoner löpord Talad (10%) och skriven (90%) brittisk engelska Balanserad Ordklasser och böjningsinformation har tilldelats

helt automatiskt

Page 30: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

30 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Exempel ur BNC

<w DT0>Each<w NN1>dance<w VVD-VVN>followed<w AJ0>particular<w NN2>rules<w VVD-VVN>laid<w AVP>down<w PRP>by<w AT0>the<w AJ0-NN1>dancing<w NN2>masters

Page 31: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

31 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

BNC: ordklasser och böjning

<w DT0>Each<w NN1>dance<w VVD-VVN>followed<w AJ0>particular<w NN2>rules<w VVD-VVN>laid<w AVP>down<w PRP>by<w AT0>the<w AJ0-NN1>dancing<w NN2>masters

Page 32: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

32 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Talspråkskorpusar

• Göteborg Spoken Language Corpus (GSLC)

– 1,5 miljoner inspelade ord

– Transkriberad och uppmärkt med ordklasser

• London-Lund Corpus (LLC)

http://khnt.hit.uib.no/icame/manuals/LONDLUND/

– 500 000 ord

– Talad, brittisk engelska

– Transkriberad

Page 33: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

33 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Monitorkorpusar

• Språkbanken (Göteborgs universitet)

http://spraakbanken.gu.se/

• Bank of English (COBUILD)

– Talad och skriven engelska

Page 34: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

34 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

EUROPARL

• European Parliament Proceedings Parallel Corpus

http://people.csail.mit.edu/koehn/publications/europarl/

• Parallellkorpus

• Europaparlamentstexter från perioden 1996-2003

• Inkluderar 11 språk:

franska, italienska, spanska, portugisiska, engelska,

nederländska, tyska, danska, svenska, grekiska och finska

• Uppmärkt med information om talare

Page 35: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

35 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

JRC-Acquis

• http://langtech.jrc.it/JRC-Acquis.html

• Parallellkorpus (monitorkorpus)

• EU-lagtexter

• Ca 8 000 dokument och 9 miljoner ord per språk

• Inkluderar 22 språk:

Bulgariska, tjeckiska, danska, tyska, grekiska, engelska,

spanska, estniska, finska, franska, ungerska, italienska,

litauiska, lettiska, maltesiska, holländska, polska,

portugisiska, rumänska, slovakiska, slovenska och svenska

Page 36: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

36 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Länkning

• Metod för att hitta översättningsrelationer i

parallellkorpusar

• Ett datorprogram parar automatiskt ihop

segment i det ena språket med segment i det

andra språket

– meningslänkning

– ordlänkning

Page 37: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

37 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Meningslänkning

• Att para ihop meningar i källspråket

(originaldokumentet) med motsvarande meningar i

målspråket (den översatta texten)

• Kan göras automatiskt med mycket hög korrekthet

• Ex. på ledtrådar som datorn utnyttjar: styckeindelning,

meningslängd, lexikon, sifferuttryck och liknande,

som inte förändras mellan två språk.

• Inte alltid ett ett-till-ett-förhållande mellan meningar

på de olika språken

Page 38: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

38 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Meningslänkning, exempel

1:1 I didn't know what to say.

Jag visste inte vad jag skulle säga.

2:3 Her brother said to her, ''Why does Ras always say 'longwedge' for - 'language', he talks about African

'longwedges'? Sounds so funny.''

''Hur kommer det sig att Ras alltid säger 'sprak' i ställetför 'språk'? Han talar om afrikanska 'sprak'. Det låter så roligt.''

2:1 ''Go to hell.'' Emanuelle sat up straight.

''Dra åt skogen!'' sade Emanuelle och satte sig kapprak.

Page 39: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

39 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Ordlänkning

• Att para ihop ord och fraser i källspråket

(originaldokumentet) med motsvarande ord och fraser

i målspråket (den översatta texten)

• Svårare att uppnå hög korrekthet automatiskt än för

meningslänkning

• Ex. på ledtrådar som datorn utnyttjar

– stränglikhet

– samförekomst

– ordklassuppmärkning

– lexikon

Page 40: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

40 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Trädbanker

• Penn Treebank

– Engelsk tidningstext (Wall Street Journal)

• Talbanken

– En av världens äldsta trädbanker (70-talet)

– Talad och skriven svenska

Page 41: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

41 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Exempel ur TalbankenP10120048001 0000 << GM 046P10120048002 *DESSUTOM ABOC +A 046P10120048003 KOMMER KVPS FV 046P10120048004 EN EN SSDT 046P10120048005 ENSAMSTÅENDE AJ SS SSAT 046P10120048006 FOLKPENSIONÄR NN HS SS 046P10120048007 ATT IM IM 046P10120048008 KUNNA QVIV IV 046P10120048009 HA HVIV IX 046P10120048010 EN EN OODT 046P10120048011 INKOMST NN OO 046P10120048012 OM PR OOETPR 046P10120048013 1500 RO OOETDT 046P10120048014 KR NN OOET 046P10120048015 VID PR AAPR 046P10120048016 SIDAN ID AAPR 046P10120048017 AV ID AAPR 046P10120048018 FOLKPENSIONEN NNDDSS AA 046P10120048019 1000 +F +F 046P101200480201000 OCH ++ ++ 046P101200480211000 ÄNDOCK ABMN +B 046P101200480221000 BLI BVIV FV 046P101200480231000 SKATTEFRI AJ SP 046P10120048024 . IP IP 046

Page 42: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

42 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

ASU-korpusen

• Andraspråkets StrukturUtveckling

• Specialkorpus inriktad mot studier av svenskt inlärarspråk i

dess utvecklingsfaser och jämförelser mellan inlärares och

inföddas språkbruk

• Inspelade samtal och skrivna texter från vuxna inlärare av

svenska

• Kompletterad med jämförbart material från infödda svenskar

• 490 000 löpord (415 000 ord samtal och 75 000 ord skrift)

Page 43: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f1-kursintro.pdf · 8 Språk, datorer och textbehandling Föreläsning 1, 10 oktober 2007 Eva Pettersson Vad är en korpus?

43 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson

Nästa gång

• Mer om korpusannotering

• Textkodning

• Textnormalisering