Upload
others
View
7
Download
0
Embed Size (px)
Citation preview
1 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Språk, datorer och textbehandling
Föreläsning 1:Introduktion till korpuslingvistik
2 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Kursplan - Syfte
5 poäng, grundnivå, huvudområde: språkteknologi
Syfte: Kursen skall förmedla grundläggande
kunskaper om datasystem och databehandling som
bas för språkvetenskapliga studier och behandlar
grundläggande tekniker för språkvetenskaplig
bearbetning av stora textsamlingar (korpusar).
Fokus ligger på praktisk användning av verktyg
för korpusanalys.
3 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Kursplan – Innehåll och upplägg
• Begreppen operativsystem och filsystem och deras
användning, med praktiska övningar i de datormiljöer som
används i utbildningen.
• Representation och bearbetning i datasystem av text och
textelement: teckenrepresentationer och
dokumentbeskrivningsspråk.
• Konstruktion av enkla program för textbearbetning.
• Introduktion till Internet och WWW.
4 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Kursplan – Innehåll och upplägg
• Befintliga språkvetenskapliga korpusar.
• Separering av ord (tokenisering).
• Olika kvantitativa analyser.
• Grammatisk analys och uppmärkning av korpusar.
• Användning av parallella korpusar (där texter på olika
språk som är varandras översättningar ställs jämte
varandra).
5 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Examination
Kunskapskontroll sker genom:
– obligatoriska labbrapporter
– seminarier
– projektuppgift
Betyget på kursen bestäms av:
– den muntliga och skriftliga presentationen av
labbarna och projektuppgiften
6 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Kurslitteratur och hemsida
• McEnery, Tony & Andrew Wilson (2001) Corpus linguistics,
2nd edition. Edinburgh: Edinburgh University Press.
alt.
Tony McEnery, Richard Xiao och Ykiou Tono, 2006.
Corpus-Based Language Studies – an advanced resource
book. Routledge Applied Linguistics
• Kurssida:
http://stp.lingfil.uu.se/~evapet/Undervisning/SDT07/
• Kompletterande litteratur, läsrekommendationer och diverse
intressanta länkar finns på kurssidan!
7 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Föreläsningsöversikt
• Vad är en korpus?
• Vad är korpuslingvistik?
• Varför korpuslingvistik?
• Korpusen som begrepp och dess innehåll
• Korpusannotering
• Korpustyper
• Exempel på korpusar
8 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Vad är en korpus?
• Korpus av latinets corpus = kropp
• Nationalencyklopedins definition: textmängd som är föremål för
språkvetenskapligt studium
• Samling språkliga data som:
– består av en samling skrivna texter eller transkriptioner av
talspråk
– är mer eller mindre representativt för språket i fråga
– lagras elektroniskt
• Internet = Världens största korpus!
9 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Vad är korpuslingvistik?
• Huvudsyftet med en korpus är att verifiera hypoteser om
språket, t.ex. att undersöka hur ett visst ljud, ord eller
syntaktisk konstruktion faktiskt används:
När började man skriva ''mejl'' istället för ''mail''?
Säger man ''bättre än jag'' eller ''bättre än mig''?
• Gammal idé (dialektstudier, studier av utdöda språk etc.)
• Förverkligad genom modern teknik (framfart sedan 80-
talet)
10 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Varför korpuslingvistik?
• Objektiv lingvistik: Man studerar språket som det används i
verkligheten (ej påhittade exempel)
• Enda sättet att undersöka frekvens i språkbruket
• Talforskning (talspråkskorpusar): prosodi, ålder, klass, kön
etc.
• Korpusbaserad grammatik: empiriska data för att testa
hypoteser om grammatik
• Historisk lingvistik: diakroniska korpusar för jämförande
studier ur olika tidsepoker
11 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Korpusen som begrepp och dess innehåll
En korpus i modern lingvistik är inte bara en samling
texter, utan uppfyller också (oftast) följande:
– representativt urval
– begränsad storlek (inte alltid)
– elektronisk form
– standardreferens
12 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Korpusurval och representativitet
• Korpusar fungerar som ett representativt ”stickprov” av
en (mycket större) ”population” (t.ex. ett språk)
• Biber (Representativeness in corpus design, 1993)
diskuterar representativitet i texturval för korpusar:
– definiera populationen (”sampling frame”)
– fastställ den hierarkiska strukturen i populationen
(”strata”) - genrer, texttyper, ursprung
– bestäm storleken (vad är den optimala storleken?)
13 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Korpusar som standardreferens
Korpusar används som standardreferens för
jämförande studier:
– jämför speciell språkanvändning med en
standardreferens (korpus)
14 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Korpusannotering
Att märka upp korpusen med lingvistisk information, ex:
– Ordklass (part-of-speech)
– Böjningsinformation (morfo-syntaktisk information)
– Lemma (grundform, d.v.s. uppslagsord i lexikon)
– Syntax
– Fonetik (uttal) - transkription
– Semantik
Annoteringen kan göras för hand eller automatiskt.
15 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Ordklasser
• Ej trivialt hur många ordklasser det finns
• Traditionellt 9 st:
substantiv, adjektiv, verb, pronomen, räkneord, adverb,
prepositioner, konjunktioner, interjektioner
• Ska dessa vara egna ordklasser?
subjunktioner, artiklar, particip, verbpartiklar,
infinitivmärke, egennamn
• SUC-korpusen har 23 ordklasser, bl.a. finare adverb-
indelning och skillnad mellan grundtal och ordningstal
16 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Böjningsinformation
• Substantiv
genus (en/ett), numerus (singular/plural), bestämdhet
(bestämd/obestämd), kasus (nominativ/genitiv)
• Verb
tempus (presens/preteritum), diates (aktiv/passiv), modus
(indikativ/imperativ/konjunktiv)
• Adjektiv
komparationsgrad (positiv/komparativ/superlativ)
• Pronomen
kasus (subjekt/objekt)
17 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Syntax
Grammatisk analys
– Frasstruktur
nominalfraser, adjektivfraser, adverbfraser,
prepositionsfraser, verbfraser
– Satsdelar
subjekt, objekt, adverbial etc.
18 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Semantik
• Av grekiska semainein = betyda, beteckna
• Beskriver språkliga uttrycks betydelse, till
skillnad från syntax som beskriver strukturen
• Semantisk annotering i korpusar:
– Ordbetydelse
– Semantiska relationer (agent, patient etc.)
19 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Korpustyper
• Skriftspråkskorpusar
• Talspråkskorpusar
• Balanserade korpusar
Består av olika texttyper i bestämda proportioner, avsett att
representera ett språk eller en aspekt av ett språk.
• Monitorkorpusar
Korpusen växer ständigt. Möjliggör studier av hur
språkbruket förändras över tiden.
20 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Fler korpustyper
• Trädbanker (Grammatiskt uppmärkta korpusar)
• Flerspråkiga korpusar
Innehåller texter på flera olika språk. Två undertyper:
– jämförbara korpusar (Samma texttyper på flera olika språk)
– parallellkorpusar (Samma texter på flera olika språk)
• Specialkorpusar
Korpusar som utvecklats för att studera en viss språktyp,
t.ex. ungdomsspråk eller fornengelska.
21 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Välkända korpusar Engelska
– BNC (British National Corpus, 100 milj ord)– Brown corpus (1 milj ord)
Svenska– SUC (Stockholm-Umeå Corpus, 1 milj ord)– PAROLE (19 milj ord)
Flerspråkiga– Hansard (Kanadensiska parlamentstexter på
engelska och franska)– EUROPARL (Europaparlamentstexter på EU-språk)– JRC-Acquis (Lagtexter från EU)
22 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Exempel på
korpusar
23 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
SUC SUC = Stockholm Umeå Corpus Ca 1 miljon löpord Balanserad 500 texter med cirka 2000 ord per text 9 huvudgenrer, med undergenrer, t.ex:
– K (skönlitteratur)• KK allmän skönlitteratur• KL deckare och science fiction• KN triviallitteratur• KR humor
Manuellt uppmärkt med ordklass, lemma och böjningsinformation
24 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Genreindelning i SUC
• A. Press: Reportage
• B. Press: Editorial
• C. Press: Reviews
• E. Skills, Trades and Hobbies
• F. Popular Lore
• G. Belles Lettres, Biography, Memoirs
• H. Miscellaneous
• J. Learned and Scientific Writing
• K. Imaginative prose
25 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Exempel ur SUC
<s id=aa01a-007><w n=68>Särskilt<ana><ps>AB<b>särskilt</w><w n=69>smygrustningen<ana><ps>NN<m>UTR SIN DEF NOM<b>smygrustning</w><w n=70>vad<ana><ps>HA<b>vad</w><w n=71>gäller<ana><ps>VB<m>PRS AKT<b>gälla</w><w n=72>missiler<ana><ps>NN<m>UTR PLU IND NOM<b>missil</w><w n=73>oroar<ana><ps>VB<m>PRS AKT<b>oroa</w><d n=74>.<ana><ps>MAD<b>.</d></s>
26 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
SUC (ordklasser)
<s id=aa01a-007><w n=68>Särskilt<ana><ps>AB<b>särskilt</w><w n=69>smygrustningen<ana><ps>NN<m>UTR SIN DEF NOM<b>smygrustning</w><w n=70>vad<ana><ps>HA<b>vad</w><w n=71>gäller<ana><ps>VB<m>PRS AKT<b>gälla</w><w n=72>missiler<ana><ps>NN<m>UTR PLU IND NOM<b>missil</w><w n=73>oroar<ana><ps>VB<m>PRS AKT<b>oroa</w><d n=74>.<ana><ps>MAD<b>.</d></s>
27 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
SUC (böjningsinformation)
<s id=aa01a-007><w n=68>Särskilt<ana><ps>AB<b>särskilt</w><w n=69>smygrustningen<ana><ps>NN<m>UTR SIN DEF NOM<b>smygrustning</w><w n=70>vad<ana><ps>HA<b>vad</w><w n=71>gäller<ana><ps>VB<m>PRS AKT<b>gälla</w><w n=72>missiler<ana><ps>NN<m>UTR PLU IND NOM<b>missil</w><w n=73>oroar<ana><ps>VB<m>PRS AKT<b>oroa</w><d n=74>.<ana><ps>MAD<b>.</d></s>
28 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
SUC (lemma)
<s id=aa01a-007><w n=68>Särskilt<ana><ps>AB<b>särskilt</w><w n=69>smygrustningen<ana><ps>NN<m>UTR SIN DEF NOM<b>smygrustning</w><w n=70>vad<ana><ps>HA<b>vad</w><w n=71>gäller<ana><ps>VB<m>PRS AKT<b>gälla</w><w n=72>missiler<ana><ps>NN<m>UTR PLU IND NOM<b>missil</w><w n=73>oroar<ana><ps>VB<m>PRS AKT<b>oroa</w><d n=74>.<ana><ps>MAD<b>.</d></s>
29 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
BNC
British National Corpushttp://www.natcorp.ox.ac.uk/
Ca 100 miljoner löpord Talad (10%) och skriven (90%) brittisk engelska Balanserad Ordklasser och böjningsinformation har tilldelats
helt automatiskt
30 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Exempel ur BNC
<w DT0>Each<w NN1>dance<w VVD-VVN>followed<w AJ0>particular<w NN2>rules<w VVD-VVN>laid<w AVP>down<w PRP>by<w AT0>the<w AJ0-NN1>dancing<w NN2>masters
31 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
BNC: ordklasser och böjning
<w DT0>Each<w NN1>dance<w VVD-VVN>followed<w AJ0>particular<w NN2>rules<w VVD-VVN>laid<w AVP>down<w PRP>by<w AT0>the<w AJ0-NN1>dancing<w NN2>masters
32 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Talspråkskorpusar
• Göteborg Spoken Language Corpus (GSLC)
– 1,5 miljoner inspelade ord
– Transkriberad och uppmärkt med ordklasser
• London-Lund Corpus (LLC)
http://khnt.hit.uib.no/icame/manuals/LONDLUND/
– 500 000 ord
– Talad, brittisk engelska
– Transkriberad
33 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Monitorkorpusar
• Språkbanken (Göteborgs universitet)
http://spraakbanken.gu.se/
• Bank of English (COBUILD)
– Talad och skriven engelska
34 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
EUROPARL
• European Parliament Proceedings Parallel Corpus
http://people.csail.mit.edu/koehn/publications/europarl/
• Parallellkorpus
• Europaparlamentstexter från perioden 1996-2003
• Inkluderar 11 språk:
franska, italienska, spanska, portugisiska, engelska,
nederländska, tyska, danska, svenska, grekiska och finska
• Uppmärkt med information om talare
35 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
JRC-Acquis
• http://langtech.jrc.it/JRC-Acquis.html
• Parallellkorpus (monitorkorpus)
• EU-lagtexter
• Ca 8 000 dokument och 9 miljoner ord per språk
• Inkluderar 22 språk:
Bulgariska, tjeckiska, danska, tyska, grekiska, engelska,
spanska, estniska, finska, franska, ungerska, italienska,
litauiska, lettiska, maltesiska, holländska, polska,
portugisiska, rumänska, slovakiska, slovenska och svenska
36 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Länkning
• Metod för att hitta översättningsrelationer i
parallellkorpusar
• Ett datorprogram parar automatiskt ihop
segment i det ena språket med segment i det
andra språket
– meningslänkning
– ordlänkning
37 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Meningslänkning
• Att para ihop meningar i källspråket
(originaldokumentet) med motsvarande meningar i
målspråket (den översatta texten)
• Kan göras automatiskt med mycket hög korrekthet
• Ex. på ledtrådar som datorn utnyttjar: styckeindelning,
meningslängd, lexikon, sifferuttryck och liknande,
som inte förändras mellan två språk.
• Inte alltid ett ett-till-ett-förhållande mellan meningar
på de olika språken
38 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Meningslänkning, exempel
1:1 I didn't know what to say.
Jag visste inte vad jag skulle säga.
2:3 Her brother said to her, ''Why does Ras always say 'longwedge' for - 'language', he talks about African
'longwedges'? Sounds so funny.''
''Hur kommer det sig att Ras alltid säger 'sprak' i ställetför 'språk'? Han talar om afrikanska 'sprak'. Det låter så roligt.''
2:1 ''Go to hell.'' Emanuelle sat up straight.
''Dra åt skogen!'' sade Emanuelle och satte sig kapprak.
39 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Ordlänkning
• Att para ihop ord och fraser i källspråket
(originaldokumentet) med motsvarande ord och fraser
i målspråket (den översatta texten)
• Svårare att uppnå hög korrekthet automatiskt än för
meningslänkning
• Ex. på ledtrådar som datorn utnyttjar
– stränglikhet
– samförekomst
– ordklassuppmärkning
– lexikon
40 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Trädbanker
• Penn Treebank
– Engelsk tidningstext (Wall Street Journal)
• Talbanken
– En av världens äldsta trädbanker (70-talet)
– Talad och skriven svenska
41 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Exempel ur TalbankenP10120048001 0000 << GM 046P10120048002 *DESSUTOM ABOC +A 046P10120048003 KOMMER KVPS FV 046P10120048004 EN EN SSDT 046P10120048005 ENSAMSTÅENDE AJ SS SSAT 046P10120048006 FOLKPENSIONÄR NN HS SS 046P10120048007 ATT IM IM 046P10120048008 KUNNA QVIV IV 046P10120048009 HA HVIV IX 046P10120048010 EN EN OODT 046P10120048011 INKOMST NN OO 046P10120048012 OM PR OOETPR 046P10120048013 1500 RO OOETDT 046P10120048014 KR NN OOET 046P10120048015 VID PR AAPR 046P10120048016 SIDAN ID AAPR 046P10120048017 AV ID AAPR 046P10120048018 FOLKPENSIONEN NNDDSS AA 046P10120048019 1000 +F +F 046P101200480201000 OCH ++ ++ 046P101200480211000 ÄNDOCK ABMN +B 046P101200480221000 BLI BVIV FV 046P101200480231000 SKATTEFRI AJ SP 046P10120048024 . IP IP 046
42 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
ASU-korpusen
• Andraspråkets StrukturUtveckling
• Specialkorpus inriktad mot studier av svenskt inlärarspråk i
dess utvecklingsfaser och jämförelser mellan inlärares och
inföddas språkbruk
• Inspelade samtal och skrivna texter från vuxna inlärare av
svenska
• Kompletterad med jämförbart material från infödda svenskar
• 490 000 löpord (415 000 ord samtal och 75 000 ord skrift)
43 Språk, datorer och textbehandlingFöreläsning 1, 10 oktober 2007Eva Pettersson
Nästa gång
• Mer om korpusannotering
• Textkodning
• Textnormalisering