Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Språkgranskningsverktyg 2008; copyright Eva Pettersson
Maskinöversättning och språkgranskning 2008
F5 Allmänt om språkgranskning + ordkontroll
Språkgranskningsverktyg 2008; copyright Sågvall Hein
Språkgranskningsverktyg
• Datorprogram som fungerar som skrivstöd genom att kontrollera språkriktighet och ev. stil i text.
• Språkriktighet och stil bedöms i relation till en given norm
Språkgranskningsverktyg 2008; copyright Sågvall Hein
Språkgranskningsområden
• Stavningskontroll
• Stilkontroll
• Avstavning• Grammatikkontroll
Språkgranskningsverktyg 2008; copyright Sågvall Hein
Deluppgifter för ett språkgranskningsprogram
• Känna igen fel
• Diagnosticera dem
• Rätta el. föreslå rättelser
Språkgranskningsverktyg 2008; copyright Sågvall Hein
Önskemål
• Igenkänning– fullständighet (recall)
• alla fel ska kännas igen
– träffsäkerhet (precision)• inga falska alarm
• Diagnos– korrekt diagnos ska ställas/väljas
– tillräckligt specifik för att ge grund för rättelse el. rättelseförslag
Språkgranskningsverktyg 2008; copyright Sågvall Hein
Önskemål, forts.
• Rättelseförslag– Träffsäkerhet– Formulering med hänsyn tagen till
användaren
Språkgranskningsverktyg 2008; copyright Sågvall Hein
Olika användare
Den vane användaren
Journalister
Tekniska skribenter
Inlärare
Barn
etc.
Språkgranskningsverktyg 2008; copyright Sågvall Hein
Användaranpassning
• Lexikon
• Terminologi
• Grammatik• Kontrollerat språk
Språkgranskningsverktyg 2008; copyright Sågvall Hein
Kommersiella språkgranskningsprogram för
svenska• WORD
• Tansa– http://www.tansasystems.com/products.htm
• Skribent– http://licenser.adm.gu.se/gu/pgm/skribent.html
• Scania Checker• etc.
Språkgranskningsverktyg 2008; copyright Sågvall Hein
Språklig norm
• Preskriptiv, ej deskriptiv, lingvistik
• Skriftspråk, ej talspråk
• Vem fastställer normen för det svenska standardspråket?– Svenska Akademien– Språkrådet (f.d. Svenska språknämnden)
Språkgranskningsverktyg 2008; copyright Sågvall Hein
Svenska Akademien
• Svenska Akademien instiftades 1786 av Gustaf III. Den främsta uppgiften skulle vara att arbeta på svenska språkets "renhet, styrka och höghet", dvs. dess klarhet, uttrycksfullhet och anseende. För att uppnå det målet skulle Akademien bland annat utarbeta en ordbok och en grammatik. – Svenska Akademiens ordlista
– Svenska Akademiens ordbok– Svenska Akademiens grammatik
Språkgranskningsverktyg 2008; copyright Sågvall Hein
Svenska Akademiens ordlista
• SAOL (1986), 11 upplagan av Svenska Akademiens Ordlista– c:a 120.000 uppslagsord
• SAOL (2006), 13 upplagan– http://www.saol.se/– Ungefärligt antal uppslagsord?– Vilka stilar och ämnesområden urskiljs?
Språkgranskningsverktyg 2008; copyright Sågvall Hein
Användning av SAOL
• Huvudkälla för svensk stavning vid manuell stavningskontroll.
• Källa till flera svenska stavningsprogram. • Uppslagsord
– originalversionen = grundform• Manuellt bruk
– ”uppblåst version” = böjningsform• Maskinellt bruk
Språkgranskningsverktyg 2008; copyright Eva Pettersson
Ex. på uppslag i SAOL(1986)form -en s. 1 pl. -ar i sms. som gjutform, bakform 2 pl. -er skapnad, gestalt, yttre beskaffenhet -beständig -bröd -bunden -enlig -experiment -fast -fel -flaska tekn. -franska bröd -fråga s. -fulländad -fulländning -förändring -ge el. giva -givare -givning -gjuta -kurva sport. -känsla -lära -lös -löshet -maskin tekn. -massa -ord t.ex. pronomen, preposition -pressa tekn. -pressning -ren adj. -rik-rikedom -rytteri -sak -sand tekn. -skön -spruta v. tekn. -sprutning -språk -stridig -sträng adj. -svacka s. sport. -system -topp sport. -verktyg -vilja -värld
1form|a 1 -an -or s. liten öppning i ugns vägg för tillförsel av blästerluft m.m. 2 -ade v. ge form åt; gestalta; skapa m.m.; sms. se under form -ad -at adj.
Språkgranskningsverktyg 2008; copyright Sågvall Hein
Svenska Akademiens ordbok
”Svenska Akademiens ordbok, SAOB, är en historisk ordbok som beskriver svenskt skriftspråk från 1521 till våra dagar.”
Man har hunnit från A till Trivsel.
Deskriptiv, inte preskriptiv
http://www.saob.se/
Språkgranskningsverktyg 2008; copyright Sågvall Hein
Språkrådet
Språkrådet (f.d. Svenska språknämnden) är Sveriges officiella språkvårdsorgan. Rådet är en del av den nya språkmyndigheten Institutet för språk och folkminnen.
Språkrådet ger bland annat ut Språk- och skrivråd.
Språkgranskningsverktyg 2008; copyright Sågvall Hein
Mål för ordkontroll
Skrivfel
• Fel som beror på bristande uppmärksamhet och som leder till – ”icke-ord”,t.ex. coh
– Rätt ord men fel i sammanhanget, t.ex. • Föredraget vad intressant. • Den här karten med inlagda höjdschatteringar blev
årets karta både 2006 och 2007 (UNT 2008-04-27)
Språkgranskningsverktyg 2008; copyright Sågvall Hein
Stavningskontroll, forts.
Stavfel
• Fel som beror på bristande kunskap, t.ex– alldrig, altid, undervisitet, åtminstonde
– bad design, stekt kyckling lever– Tjära vän!
Språkgranskningsverktyg 2008; copyright Sågvall Hein
Stilkontroll
• Avvikelser från standardspråket– Ålderdomlig, byråkratisk, talspråklig etc.
• Uttryck– Ordval, t.ex.
• ity, pimpad
– Böjningsform, t.ex. • sig/sej, de/dom
– Struktur, t.ex. • större än jag/ större än mig; före middagen/innan
middagen
Språkgranskningsverktyg 2008; copyright Sågvall Hein
Huvudmetoder för feligenkänning vid stavningskontroll
LexikaliskAvstämning mot lexikon (lab)Problem med produktiva ordbildningar
Statistiskavstämning mot trigram (Nylander 2000)problem med täckning
Grafotaktiskavstämning mot grafotaktiska regler (Nylander 2000)problem med täckning
Språkgranskningsverktyg 2008; copyright Sågvall Hein
Avstavning i svenska
• Mekanisk avstavning – enkonsonantregeln– En konsonant till nästa rad, men
• Bryt ej – ck, ng som betecknar ett ljud (fonem)– vid sammansättningsgräns
• Morfematisk avstavning– Avstavning mellan ordled
Den morfematiska avstavningen lanserades i SAOL 1986
Introduktion till språkteknologi 1997; Copyright Sågvall Hein
Omskrivningsregler för stavelseigenkänning vid mek. avstavning
SYLL1 (C1) V (C2)
V {a, e, i, o, u, ...}
C1 {b, c, d, f, .....}
C2 {b, c, d, f, .. , ck, ng, ...}
(från Sågvall Hein 97)
Introduktion till språkteknologi 1997; Copyright Sågvall Hein
Avstavning enl. den mekaniska och den
morfematiska principen
mekanisk morfematiskfyrkant fyr-kant fyr-kant ankor an-kor ank-or elitutbildning eli-tutbildning elit-utbildning andras and-ras andr-as (annan) andras and-ras an-dras (andra) bildrulle bild-rulle bild-rullebildrulle bild-rulle bil-drulle
(från Sågvall Hein 97)
Språkgranskningsverktyg 2008; copyright Sågvall Hein
Ordfel som kräver grammatikkontroll
• Ett stor hus• Böckerna var intressant.• En av de många fallen• Där samlade då hela universitetets spridda
administration (UNT 2008-04-27)
• Det är tänkbart att vi flyttar ut Skandalhuset, men jag kan inte föregripa utvecklingen … (UNT 2008-04-27)
• En idé har varit att göra Carolina till bli universitetets ansikte med en informationsdisk i entrén för studenter och besökare (UNT 2008-04-27)
Språkgranskningsverktyg 2008; copyright Eva Pettersson
Vad förväntas av det ideala ordkontrollprogrammet?
Känna igen och larma för alla felskrivna ord
Känna igen och acceptera alla rättstavade ord
Ge ett korrekt rättningsförslag för alla felskrivna ord
Språkgranskningsverktyg 2008; copyright Eva Pettersson
Mer realistiska förväntningar
Känna igen och larma för de mest frekventa och lättidentifierade felstavningarna
Känna igen och acceptera alla rättstavade ord, som är tillräckligt frekventa i språket
Ge ett troligt rättningsförslag för alla felstavade ord (frekvens)
Språkgranskningsverktyg 2008; copyright Eva Pettersson
Feligenkänningsstrategier
•Trigram av tecken
–Larmar för ovanliga teckenkombinationer
–Används främst inom OCR
•Lexikon
–Fullformslexikon eller stamlexikon
–Lexikonstorleken avgörande:
•För stort lexikon = många fel missas (låg täckning)
•För litet lexikon = många falska alarm (låg precision)
Språkgranskningsverktyg 2008; copyright Eva Pettersson
Problem: språket är produktivt – omöjligt att lista alla ord i lexikonet
Brist på täckning kan lura skribenten att faktiskt stava fel, t. ex. särskriva sammansättningar: jätte trött
Feligenkänning mha lexikon
Språkgranskningsverktyg 2008; copyright Eva Pettersson
Kompletterande strategier:• Morfologiska regler för t.ex. avledningar
• Sammansättningsregler
• Egennamnsigenkänning
• Tillåt användaren att lägga till egna ord i lexikonet
Feligenkänning mha lexikon, forts
Språkgranskningsverktyg 2008; copyright Eva Pettersson
Enklast strategi: ord = ord + ord• dator + lingvistik = datorlingvistik
Förfinad strategi: ord = förled + ord• flicka + klänning = flickklänning
• äpple + paj = äppelpaj
• kvinna + parti = kvinnoparti
• cigarr + rök = cigarrök
Feligenkänning: sammansättningar
Språkgranskningsverktyg 2008; copyright Eva Pettersson
Sammansättningsanalys minskar antalet falska alarm
Sammansättningsanalys kan dock öka antalet missade fel
kotakt kontaktmakelera makuleramedalg medaljcykelsäll cykelställsärkskilt särskilt
Feligenkänning: sammansättningar, forts
Språkgranskningsverktyg 2008; copyright Eva Pettersson
Kompetensfel
• Fonetiska fel: restaurang ---> resturang
• Homofonfel: gott ---> gått
Performansfel
• Insättning språkteknologii
• Borttagning spåkteknologi
• Substitution sprokteknologi
• Transposition spårkteknologi
Felkorrigering: feltyper
Språkgranskningsverktyg 2008; copyright Eva Pettersson
De flesta felstavningar är performansfel (insättning, borttagning, substitution eller transposition)
De flesta felstavningar påverkar inte ordets längd med mer än en bokstav
Första bokstaven i ordet är sällan felaktig
Tangenternas placering påverkar
Bokstävernas frekvenser påverkar
Felkorrigering: empiriskt grundade iakttagelser
Språkgranskningsverktyg 2008; copyright Eva Pettersson
Minimum Edit Distance
Likhetsnycklar
N-gramsbaserade tekniker
Regelbaserade tekniker
Probabilistiska tekniker
Neurala nätverk
Korrigeringsstrategier
Språkgranskningsverktyg 2008; copyright Eva Pettersson
Stränglikhet
Minsta antalet editeringsoperationer som behövs för att omvandla en sträng till en annan
Editeringsoperationer:
• Insättning
• Borttagning
• Substitution (alt. borttagning + insättning)
• Transposition (alt. borttagning + insättning)
Minimum Edit Distance
Språkgranskningsverktyg 2008; copyright Eva Pettersson
Minimum Edit Distance
r ä n g n a
r e g n a r
Språkgranskningsverktyg 2008; copyright Eva Pettersson
Minimum Edit Distance
r ä n g n a
r e g n a r
substitution + borttagning + insättning = 3
Språkgranskningsverktyg 2008; copyright Eva Pettersson
Strängar matchas mot nycklar
Ord som stavas på liknande sätt har likadana eller nästan likadana nycklar
Likhetsnycklar
Språkgranskningsverktyg 2008; copyright Eva Pettersson
SOUNDEX: Indexing on Sound
Odell & Russel, 1918 (!)
Fonetisk likhet• Vokaler ignoreras
• Konsonanter grupperas tillsammans om de liknar
varandra fonetiskt
Användning: Flygbokningssystem (Davidson 1962)
Likhetsnycklar: SOUNDEX (1)
Språkgranskningsverktyg 2008; copyright Eva Pettersson
Behåll det första tecknet Ersätt efterföljande tecken enligt nedan:
a, e, i, o, u, y, h, w: 0 b, f, p, v: 1 c, g, j, k, q, s, x, z: 2 d, t: 3 l: 4 m, n: 5 r: 6
Ta bort alla nollor Ta bort alla på varandra följande dubbletter Spara de tre första siffrorna
Likhetsnycklar: SOUNDEX (2)
Språkgranskningsverktyg 2008; copyright Eva Pettersson
Likhetsnycklar: SOUNDEX (3)
disappoint --->D215disapont --->D215
Ersättningsförslag för disapont:disband, disbands, disbanded, disbanding, disbandment, disbandments, dispense, dispenses, dispensed, dispensing, dispenser, dispensers, dispensary, dispensaries, dispensable, dispensation, dispensations, deceiving, deceivingly, despondent, despondency, despondently, disobeying, disappoint, disappoints, disappointed, disappointing, disappointedly, disappointingly, disappointment, disappointments, disavowing
Språkgranskningsverktyg 2008; copyright Eva Pettersson
Stränglikhet: andelen gemensamma n-gram (trigram)
Likhet(i, j) = 2C/(n+n’)där n är antalet trigram i iochn’ är antalet trigram i jochC är antalet trigram gemensamma för i och j
N-gramsbaserade tekniker
Språkgranskningsverktyg 2008; copyright Eva Pettersson
N-gramsbaserade tekniker
Hur lika är concider och consider?
##c #co con onc nci cid ide der er# r##
##c #co con ons nsi sid ide der er# r##
C (antalet gemensamma trigram) = 7n (antalet trigram i concider) = 10n’ (antalet trigram i consider) = 10
Likhet(concider, consider) = 2C/n+n’ = 14/20 = 0,70
Språkgranskningsverktyg 2008; copyright Eva Pettersson
N-gramsbaserade tekniker
Hur lika är concider och cider?
##c #co con onc nci cid ide der er# r##
##c #ci cid ide der er# r##
C (antalet gemensamma trigram) = 6n (antalet trigram i concider) = 10n’ (antalet trigram i cider) = 7
Likhet(concider, cider) = 2C/n+n’ = 12/17 = 0,71
Språkgranskningsverktyg 2008; copyright Eva Pettersson
Karen Kukich, 1992, Techniques for Automatically Correcting Words in Text
Daniel Jurafsky & James H. Martin, 2000 (avsnitt 5.1 – 5.6), Speech and Language Processing
Stina Nylander, 2000, Statistics and Phonotactical Rules in Finding OCR errors.
http://stp.ling.uu.se/exarb/arch/2000-001.pdf
Roger Mitton, 1996, Spellchecking by Computer. http://www.dcs.bbk.ac.uk/~roger/spellchecking.html
Vidareläsning, för den som vill…