45
Språkgranskningsverktyg 2008; co Maskinöversättning och språkgranskning 2008 F5 Allmänt om språkgranskning + ordkontroll

Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Eva Pettersson

Maskinöversättning och språkgranskning 2008

F5 Allmänt om språkgranskning + ordkontroll

Page 2: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Sågvall Hein

Språkgranskningsverktyg

• Datorprogram som fungerar som skrivstöd genom att kontrollera språkriktighet och ev. stil i text.

• Språkriktighet och stil bedöms i relation till en given norm

Page 3: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Sågvall Hein

Språkgranskningsområden

• Stavningskontroll

• Stilkontroll

• Avstavning• Grammatikkontroll

Page 4: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Sågvall Hein

Deluppgifter för ett språkgranskningsprogram

• Känna igen fel

• Diagnosticera dem

• Rätta el. föreslå rättelser

Page 5: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Sågvall Hein

Önskemål

• Igenkänning– fullständighet (recall)

• alla fel ska kännas igen

– träffsäkerhet (precision)• inga falska alarm

• Diagnos– korrekt diagnos ska ställas/väljas

– tillräckligt specifik för att ge grund för rättelse el. rättelseförslag

Page 6: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Sågvall Hein

Önskemål, forts.

• Rättelseförslag– Träffsäkerhet– Formulering med hänsyn tagen till

användaren

Page 7: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Sågvall Hein

Olika användare

Den vane användaren

Journalister

Tekniska skribenter

Inlärare

Barn

etc.

Page 8: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Sågvall Hein

Användaranpassning

• Lexikon

• Terminologi

• Grammatik• Kontrollerat språk

Page 9: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Sågvall Hein

Kommersiella språkgranskningsprogram för

svenska• WORD

• Tansa– http://www.tansasystems.com/products.htm

• Skribent– http://licenser.adm.gu.se/gu/pgm/skribent.html

• Scania Checker• etc.

Page 10: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Sågvall Hein

Språklig norm

• Preskriptiv, ej deskriptiv, lingvistik

• Skriftspråk, ej talspråk

• Vem fastställer normen för det svenska standardspråket?– Svenska Akademien– Språkrådet (f.d. Svenska språknämnden)

Page 11: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Sågvall Hein

Svenska Akademien

• Svenska Akademien instiftades 1786 av Gustaf III. Den främsta uppgiften skulle vara att arbeta på svenska språkets "renhet, styrka och höghet", dvs. dess klarhet, uttrycksfullhet och anseende. För att uppnå det målet skulle Akademien bland annat utarbeta en ordbok och en grammatik. – Svenska Akademiens ordlista

– Svenska Akademiens ordbok– Svenska Akademiens grammatik

Page 12: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Sågvall Hein

Svenska Akademiens ordlista

• SAOL (1986), 11 upplagan av Svenska Akademiens Ordlista– c:a 120.000 uppslagsord

• SAOL (2006), 13 upplagan– http://www.saol.se/– Ungefärligt antal uppslagsord?– Vilka stilar och ämnesområden urskiljs?

Page 13: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Sågvall Hein

Användning av SAOL

• Huvudkälla för svensk stavning vid manuell stavningskontroll.

• Källa till flera svenska stavningsprogram. • Uppslagsord

– originalversionen = grundform• Manuellt bruk

– ”uppblåst version” = böjningsform• Maskinellt bruk

Page 14: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Eva Pettersson

Ex. på uppslag i SAOL(1986)form -en s. 1 pl. -ar i sms. som gjutform, bakform 2 pl. -er skapnad, gestalt, yttre beskaffenhet -beständig -bröd -bunden -enlig -experiment -fast -fel -flaska tekn. -franska bröd -fråga s. -fulländad -fulländning -förändring -ge el. giva -givare -givning -gjuta -kurva sport. -känsla -lära -lös -löshet -maskin tekn. -massa -ord t.ex. pronomen, preposition -pressa tekn. -pressning -ren adj. -rik-rikedom -rytteri -sak -sand tekn. -skön -spruta v. tekn. -sprutning -språk -stridig -sträng adj. -svacka s. sport. -system -topp sport. -verktyg -vilja -värld

1form|a 1 -an -or s. liten öppning i ugns vägg för tillförsel av blästerluft m.m. 2 -ade v. ge form åt; gestalta; skapa m.m.; sms. se under form -ad -at adj.

Page 15: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Sågvall Hein

Svenska Akademiens ordbok

”Svenska Akademiens ordbok, SAOB, är en historisk ordbok som beskriver svenskt skriftspråk från 1521 till våra dagar.”

Man har hunnit från A till Trivsel.

Deskriptiv, inte preskriptiv

http://www.saob.se/

Page 16: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Sågvall Hein

Språkrådet

Språkrådet (f.d. Svenska språknämnden) är Sveriges officiella språkvårdsorgan. Rådet är en del av den nya språkmyndigheten Institutet för språk och folkminnen.

Språkrådet ger bland annat ut Språk- och skrivråd.

Page 17: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Sågvall Hein

Mål för ordkontroll

Skrivfel

• Fel som beror på bristande uppmärksamhet och som leder till – ”icke-ord”,t.ex. coh

– Rätt ord men fel i sammanhanget, t.ex. • Föredraget vad intressant. • Den här karten med inlagda höjdschatteringar blev

årets karta både 2006 och 2007 (UNT 2008-04-27)

Page 18: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Sågvall Hein

Stavningskontroll, forts.

Stavfel

• Fel som beror på bristande kunskap, t.ex– alldrig, altid, undervisitet, åtminstonde

– bad design, stekt kyckling lever– Tjära vän!

Page 19: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Sågvall Hein

Stilkontroll

• Avvikelser från standardspråket– Ålderdomlig, byråkratisk, talspråklig etc.

• Uttryck– Ordval, t.ex.

• ity, pimpad

– Böjningsform, t.ex. • sig/sej, de/dom

– Struktur, t.ex. • större än jag/ större än mig; före middagen/innan

middagen

Page 20: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Sågvall Hein

Huvudmetoder för feligenkänning vid stavningskontroll

LexikaliskAvstämning mot lexikon (lab)Problem med produktiva ordbildningar

Statistiskavstämning mot trigram (Nylander 2000)problem med täckning

Grafotaktiskavstämning mot grafotaktiska regler (Nylander 2000)problem med täckning

Page 21: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Sågvall Hein

Avstavning i svenska

• Mekanisk avstavning – enkonsonantregeln– En konsonant till nästa rad, men

• Bryt ej – ck, ng som betecknar ett ljud (fonem)– vid sammansättningsgräns

• Morfematisk avstavning– Avstavning mellan ordled

Den morfematiska avstavningen lanserades i SAOL 1986

Page 22: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Introduktion till språkteknologi 1997; Copyright Sågvall Hein

Omskrivningsregler för stavelseigenkänning vid mek. avstavning

SYLL1 (C1) V (C2)

V {a, e, i, o, u, ...}

C1 {b, c, d, f, .....}

C2 {b, c, d, f, .. , ck, ng, ...}

(från Sågvall Hein 97)

Page 23: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Introduktion till språkteknologi 1997; Copyright Sågvall Hein

Avstavning enl. den mekaniska och den

morfematiska principen

mekanisk morfematiskfyrkant fyr-kant fyr-kant ankor an-kor ank-or elitutbildning eli-tutbildning elit-utbildning andras and-ras andr-as (annan) andras and-ras an-dras (andra) bildrulle bild-rulle bild-rullebildrulle bild-rulle bil-drulle

(från Sågvall Hein 97)

Page 24: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Sågvall Hein

Ordfel som kräver grammatikkontroll

• Ett stor hus• Böckerna var intressant.• En av de många fallen• Där samlade då hela universitetets spridda

administration (UNT 2008-04-27)

• Det är tänkbart att vi flyttar ut Skandalhuset, men jag kan inte föregripa utvecklingen … (UNT 2008-04-27)

• En idé har varit att göra Carolina till bli universitetets ansikte med en informationsdisk i entrén för studenter och besökare (UNT 2008-04-27)

Page 25: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Eva Pettersson

Vad förväntas av det ideala ordkontrollprogrammet?

Känna igen och larma för alla felskrivna ord

Känna igen och acceptera alla rättstavade ord

Ge ett korrekt rättningsförslag för alla felskrivna ord

Page 26: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Eva Pettersson

Mer realistiska förväntningar

Känna igen och larma för de mest frekventa och lättidentifierade felstavningarna

Känna igen och acceptera alla rättstavade ord, som är tillräckligt frekventa i språket

Ge ett troligt rättningsförslag för alla felstavade ord (frekvens)

Page 27: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Eva Pettersson

Feligenkänningsstrategier

•Trigram av tecken

–Larmar för ovanliga teckenkombinationer

–Används främst inom OCR

•Lexikon

–Fullformslexikon eller stamlexikon

–Lexikonstorleken avgörande:

•För stort lexikon = många fel missas (låg täckning)

•För litet lexikon = många falska alarm (låg precision)

Page 28: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Eva Pettersson

Problem: språket är produktivt – omöjligt att lista alla ord i lexikonet

Brist på täckning kan lura skribenten att faktiskt stava fel, t. ex. särskriva sammansättningar: jätte trött

Feligenkänning mha lexikon

Page 29: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Eva Pettersson

Kompletterande strategier:• Morfologiska regler för t.ex. avledningar

• Sammansättningsregler

• Egennamnsigenkänning

• Tillåt användaren att lägga till egna ord i lexikonet

Feligenkänning mha lexikon, forts

Page 30: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Eva Pettersson

Enklast strategi: ord = ord + ord• dator + lingvistik = datorlingvistik

Förfinad strategi: ord = förled + ord• flicka + klänning = flickklänning

• äpple + paj = äppelpaj

• kvinna + parti = kvinnoparti

• cigarr + rök = cigarrök

Feligenkänning: sammansättningar

Page 31: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Eva Pettersson

Sammansättningsanalys minskar antalet falska alarm

Sammansättningsanalys kan dock öka antalet missade fel

kotakt kontaktmakelera makuleramedalg medaljcykelsäll cykelställsärkskilt   särskilt

Feligenkänning: sammansättningar, forts

Page 32: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Eva Pettersson

Kompetensfel

• Fonetiska fel: restaurang ---> resturang

• Homofonfel: gott ---> gått

Performansfel

• Insättning språkteknologii

• Borttagning spåkteknologi

• Substitution sprokteknologi

• Transposition spårkteknologi

Felkorrigering: feltyper

Page 33: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Eva Pettersson

De flesta felstavningar är performansfel (insättning, borttagning, substitution eller transposition)

De flesta felstavningar påverkar inte ordets längd med mer än en bokstav

Första bokstaven i ordet är sällan felaktig

Tangenternas placering påverkar

Bokstävernas frekvenser påverkar

Felkorrigering: empiriskt grundade iakttagelser

Page 34: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Eva Pettersson

Minimum Edit Distance

Likhetsnycklar

N-gramsbaserade tekniker

Regelbaserade tekniker

Probabilistiska tekniker

Neurala nätverk

Korrigeringsstrategier

Page 35: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Eva Pettersson

Stränglikhet

Minsta antalet editeringsoperationer som behövs för att omvandla en sträng till en annan

Editeringsoperationer:

• Insättning

• Borttagning

• Substitution (alt. borttagning + insättning)

• Transposition (alt. borttagning + insättning)

Minimum Edit Distance

Page 36: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Eva Pettersson

Minimum Edit Distance

r ä n g n a

r e g n a r

Page 37: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Eva Pettersson

Minimum Edit Distance

r ä n g n a

r e g n a r

substitution + borttagning + insättning = 3

Page 38: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Eva Pettersson

Strängar matchas mot nycklar

Ord som stavas på liknande sätt har likadana eller nästan likadana nycklar

Likhetsnycklar

Page 39: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Eva Pettersson

SOUNDEX: Indexing on Sound

Odell & Russel, 1918 (!)

Fonetisk likhet• Vokaler ignoreras

• Konsonanter grupperas tillsammans om de liknar

varandra fonetiskt

Användning: Flygbokningssystem (Davidson 1962)

Likhetsnycklar: SOUNDEX (1)

Page 40: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Eva Pettersson

Behåll det första tecknet Ersätt efterföljande tecken enligt nedan:

a, e, i, o, u, y, h, w: 0 b, f, p, v: 1 c, g, j, k, q, s, x, z: 2 d, t: 3 l: 4 m, n: 5 r: 6

Ta bort alla nollor Ta bort alla på varandra följande dubbletter Spara de tre första siffrorna

Likhetsnycklar: SOUNDEX (2)

Page 41: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Eva Pettersson

Likhetsnycklar: SOUNDEX (3)

disappoint --->D215disapont --->D215

Ersättningsförslag för disapont:disband, disbands, disbanded, disbanding, disbandment, disbandments, dispense, dispenses, dispensed, dispensing, dispenser, dispensers, dispensary, dispensaries, dispensable, dispensation, dispensations, deceiving, deceivingly, despondent, despondency, despondently, disobeying, disappoint, disappoints, disappointed, disappointing, disappointedly, disappointingly, disappointment, disappointments, disavowing

Page 42: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Eva Pettersson

Stränglikhet: andelen gemensamma n-gram (trigram)

Likhet(i, j) = 2C/(n+n’)där n är antalet trigram i iochn’ är antalet trigram i jochC är antalet trigram gemensamma för i och j

N-gramsbaserade tekniker

Page 43: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Eva Pettersson

N-gramsbaserade tekniker

Hur lika är concider och consider?

##c #co con onc nci cid ide der er# r##

##c #co con ons nsi sid ide der er# r##

C (antalet gemensamma trigram) = 7n (antalet trigram i concider) = 10n’ (antalet trigram i consider) = 10

Likhet(concider, consider) = 2C/n+n’ = 14/20 = 0,70

Page 44: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Eva Pettersson

N-gramsbaserade tekniker

Hur lika är concider och cider?

##c #co con onc nci cid ide der er# r##

##c #ci cid ide der er# r##

C (antalet gemensamma trigram) = 6n (antalet trigram i concider) = 10n’ (antalet trigram i cider) = 7

Likhet(concider, cider) = 2C/n+n’ = 12/17 = 0,71

Page 45: Maskinöversättning och språkgranskning 2008evapet/Undervisning/Mosg08/Mosg 08 F5.pdfInlärare Barn etc. Språkgranskningsverktyg 2008; copyright Sågvall Hein Användaranpassning

Språkgranskningsverktyg 2008; copyright Eva Pettersson

Karen Kukich, 1992, Techniques for Automatically Correcting Words in Text

Daniel Jurafsky & James H. Martin, 2000 (avsnitt 5.1 – 5.6), Speech and Language Processing

Stina Nylander, 2000, Statistics and Phonotactical Rules in Finding OCR errors.

http://stp.ling.uu.se/exarb/arch/2000-001.pdf

Roger Mitton, 1996, Spellchecking by Computer. http://www.dcs.bbk.ac.uk/~roger/spellchecking.html

Vidareläsning, för den som vill…