Upload
phungquynh
View
228
Download
1
Embed Size (px)
Citation preview
UPPSALA UNIVERSITET EXAMENSARBETE
Institutionen för lingvistik Språkteknologiprogrammet
VT 2002
av Fredrik Granlund
Felkorrigering av översättningsminnen
Handledare: Anna Sågvall-Hein, Institutionen för lingvistik
Ingrid Almqvist, Scania CV AB
ABSTRACT
This report describes processes that I have developed and used when correct-
ing errors in translation memories for the truck manufacturing company
Scania CV. Scania produces large quantities of technical documentation in
Swedish for their products, while applying a policy of controlled language.
A web based tool for maintaining this policy was introduced in 2000,
Scania Checker, but the tool has not been in use when updating already trans-
lated texts. This has been a problem for Scania since the concept of language
control has many advantages, e.g. upholding linguistic quality throughout the
translation processes.
In the report I give a brief introduction to translation memory technology,
aiming at specific tools and techniques currently in use at Scania, before de-
scribing my solutions for checking translation memory texts using the Scania
Checker tool. The resulting errors and error types have been compiled and
analyzed, applicable errors have subsequently been corrected in the memories.
As a result, Scania now have translation memory source language texts that
comply more fully with its standardized controlled language, and these texts
can now also be used for updates.
Translation units that have been corrected in the memories have also been
flagged individually, so that these units easily can be selected for review. This
is particularly useful while target language texts in some cases may need to be
changed, due to more profound source language corrections that alter the
underlying lexical meaning. A suggested method for performing this review
procedure is briefly described at the end of the report along with some con-
cluding suggestions for the future development of these processes and Scania
Checker.
2
ACKNOWLEDGEMENTS
This report would probably never have been written without the support
from employees at Interverbum Localization, who willingly took on my duties
there while I was working with this project; and in particular Stefan Gunnars-
son whose solid Trados expert advices helped me set some crucial details
straight. Likewise, staff at the Linguistics Department in Uppsala helped me
get started with the project.
Supervisors Anna Sågvall Hein and Ingrid Almqvist, apart from encouraging
the general use of professional linguistic competence in an area where simple
short-term solutions are widespread, have also helped me to clarify many
things in the report.
2002-06-04
Fredrik Granlund
3
INNEHÅLL
Innehållsförteckning:
Innehållsförteckning:..........................................................................................................................4 1. INLEDNING.....................................................................................................................5
1.1 Bakgrund och syfte .....................................................................................................5 1.2 Uppgiften......................................................................................................................6 1.3 Rapportöversikt ...........................................................................................................6
2 GENERELLT OM ÖVERSÄTTNINGMINNEN..........................................................7 2.1 Filter ...............................................................................................................................7 2.2 Statistik ..........................................................................................................................8 2.3 Fuzzy matching............................................................................................................8 2.4 Interaktiv översättning ...............................................................................................8 2.5 Tillgängliga program...................................................................................................9
2.5.1 Trados Workbench ............................................................................................ 9 2.6 Fördelar med översättningsminnen...................................................................... 10 2.7 Begränsningar och problem med översättningsminnen .................................. 11
2.7.1 Strängmatchning mot hela segment .............................................................13 2.7.2 Textsammanhang går förlorat .......................................................................14
3 ÖVERSÄTTNINGSPROCESSEN PÅ SCANIA.......................................................... 15 3.1 Scanias översättningsminnen................................................................................. 16 3.2 Reglerat språk: Scaniasvenska och Scania Checker........................................... 17
4 ARBETSGÅNG OCH IMPLEMENTERING .............................................................. 19 4.1 Specifikation av uppgiften...................................................................................... 19 4.2 Extraktion av felmeningar...................................................................................... 19
4.2.1 Perlprogrammet tm2htm...............................................................................20 4.3 Resultat: fördelning av felordsmeningar och antal felord................................ 23 4.4 Korrigering av svenska segment ........................................................................... 24
4.4.1 Gula ord – okända ord....................................................................................24 4.4.2 Röda ord – felaktiga ord .................................................................................25 4.4.2.1 Feltyper och rättningsförslag .........................................................................26 4.4.2.2 Rättning av minnen..........................................................................................26 Olämpliga förslag .............................................................................................28 Efterjustering.....................................................................................................29 Resultat ...............................................................................................................29 4.4.3 Gröna ord – grammatikfel..............................................................................29 4.4.4 Flaggning av ändrade enheter ........................................................................31
4.5 Fel i engelska segment............................................................................................. 32 5 SLUTSATSER OCH DISKUSSION................................................................................. 33 REFERENSER ............................................................................................................................... 35 BILAGA 1......................................................................................................................................... 36 BILAGA 2......................................................................................................................................... 37 BILAGA 3......................................................................................................................................... 38
4
KAPITEL 1 INTRODUKTION
INLEDNING
1.1 Bakgrund och syfte
Huvudsyftet med detta arbete är att anpassa befintliga, redan utförda
översättningar av manualtexter till ett avgränsat reglerat språk –
Scaniasvenska1. Dessa översättningar finns sparade i form av
översättningsminnen bestående av källspråks- och målspråkssegment.
Källspråkssegmenten är på svenska och genom att anpassa dessa till
Scaniasvenskan uppnås flera fördelar:
• En större del av Scanias servicelitteratur blir på Scaniasvenska, med de
fördelar detta innebär, bl. a. enhetligare terminologi och färre
ambivalenser.
• De översättningsenheter vars källspråkssegment anpassats har
markerats, vilket gör det lättare att även anpassa målspråkssegmenten
till godkänt termbruk för målspråk.
• De anpassade minnena kan även komma till användning vid
maskinöversättning, där matchningar i minne innebär att översättning
kan hämtas direkt ur minnet i stället för att belasta
maskinöversättningssystemet, med fördelar som snabbhet och
enhetlighet som följd.
1 Sågvall Hein, 1997. Language Control and Machine Translation.
5
1.2 Uppgiften
Uppgiften består i att stämma av den svenska delen av Scanias
översättningsminnen mot Scaniasvenskan implementerad i Scania Checker2.
De svenska delarna av minnena anpassas till Scania Checkers krav och de
åtgärder som behöver vidtas i den engelska delen av minnet som konsekvens
av att svenskan anpassats till Scaniasvenskan analyseras .
1.3 Rapportöversikt
Rapporten är uppdelad i fyra egentliga huvuddelar varav den första behandlar
översättningsminnen generellt, fördelar och nackdelar med särskild inriktning
på det överättningverktyg som använts i Scanias översättningsprocess –
Trados. I andra delen av rapporten beskrivs det reglerade språk som Scania
tillämpar med hjälp av Scania Checker, och vidare i tredje delen de processer
som använts för att extrahera svensk text ur Scanias översättningsminnen.
Även den metod som använts för att hantera textöverföring till och från
Scania Checker beskrivs. Resultat av de olika felen som granskaren funnit
redovisas och likaså den metod för minneskorrigering som använts. Vidare
beskrivs vilka typer av rättningar som genomförts och vilka som inte
genomförts för de olika feltyperna, samt återstående antal fel. Den fjärde
delen av rapporten innehåller en sammanfattning och slutsatser av arbetet.
För att göra beskrivningen av reguljära uttryck tydligare har jag försökt hålla
mig till Friedls typografiska konventioner för de tecken han använt i sin bok
Mastering Regular Expressions. Exempelvis betecknar ’• ’ ett mellanslagstecken.
Länkade referenser inom rapporten visas oformaterade trots att de flesta är
klickbara för att underlätta vid läsning med dator.
2 Almqvist och Sågvall-Hein, Language Checker of Controlled Language and its Integration in a Documentation and
Translation Workflow, sid. 9.
6
2 GENERELLT OM ÖVERSÄTTNINGMINNEN
En generell definition av ett översättningsminne ges av EAGLES3:
”a translation memory is a multilingual text archive containing (segmented, aligned, parsed and classified) multilingual texts, allowing storage and retrieval of aligned multilingual text segments against various search conditions. “
Vilket förenklat innebär att det räcker att ha matchande källspråks- och
målspråkstexter och möjlighet att söka i, spara och redigera texten för att
detta ska kunna definieras som översättningsminne. Men i praktiken skapas
översättningsminnen vanligtvis för att användas tillsammans med något
specifikt översättarverktyg och lagras då i ett databasformat som är särskilt
anpassat för verktyget. Minnet kan sedan återanvändas vid översättning av
liknande texter t.ex uppdateringar. Översättningsminnen skapas normalt
antingen interaktivt vid översättning. så som beskrivs i kapitel 12.4, eller av
färdiga käll- och målspråkstexter m.h.a. alignment-verktyg4. Sådana verktyg
segmenterar upp texterna och skapar översättningsenheter av matchande käll-
och målspråkssegment. Dessa kan även granskas och modifieras manuellt.
2.1 Filter
För att hantera olika filformat är översättningsverktygen försedda med filter
som skiljer ut den översättningsbara texten från formatspecifik kod i
exempelvis XML/HTML/SGML-, RTF- och RC-filer. För andra format,
t.ex. ASP och PHP, kan det vara nödvändigt att utveckla egna filter för att
komma åt texten och lämna kod och taggar orörda.
3 Definition från: EAGLES Evaluation of Natural Language Processing Systems, Final Report. Section E.3.1:
Design and function of translation memory, sid. 140.
4 Exempelvis Trados WinAlign, se även Esselink, A Practical Guide to Localization, sid 365.
7
2.2 Statistik
Verktygen innehåller funktioner för att få fram nödvändig statistik om de filer
som skall översättas. Hur många ord den översättningsbara texten innehåller,
hur många interna repetitioner som förekommer i texten samt, om minne
används, hur många matchningar som finns i minnet (externa repetitioner).
Dessa faktorer är viktiga för att kunna prissätta ett översättningsarbete korrekt
och för att kunna avgöra om verktyg överhuvudtaget skall användas.
2.3 Fuzzy matching
De viktigaste översättarverktygen använder sig av fuzzy matching, dvs. de klarar
av att matcha segmentsträngar som endast stämmer ungefärligt med strängar i
minnet. Matchningskriterierna sammanfattas i en procentsats som kan sättas
som ett minsta tröskelvärde för att undvika irrelevanta översättningsförslag.
2.4 Interaktiv översättning
Om en text förbehandlats och analyserats enligt 2.1 och 2.2 ovan och visat sig
innehålla många interna eller externa repetitioner, kan den bedömas vara
lämplig för översättning med hjälp av översättningsverktyg och -minne. Detta
går till så att källtext segmenteras av verktyget, vanligtvis i meningar eller
stycken5, och presenteras för översättaren. För varje segment utförs en
sökning efter liknande källspråkssegment i översättningsminnet, varvid
antingen:
• en tillräckligt bra matchning återfinns i minnet. Verktyget skriver då in
den tidigare översättningen i målspråkssegmentet.
eller:
• inget matchande segment hittas. Ett tomt målspråkssegment öppnas
då för manuell översättning.
5 Även tabellceller och listobjekt är möjliga segment, se: Esselink, A PracticalGuide to Localization, sid 363.
8
Efter att utförd översättning skrivits in, eller eventuell redigering av verktygets
översättningsförslag utförts, sparas segmenten som en översättningsenhet
(translation unit) i översättningsminnet. Redigerade översättningsförslag ersätter
alltså tidigare översättning när de sparas till minnet.
Därmed kan tidigare utförda översättningar återanvändas och resurser sparas,
särskilt vid uppdateringar av repetitiva tekniska manualtexter och
programvarutexter.
2.5 Tillgängliga program
Många olika verktyg som nyttjar tekniken med översättningsminnen finns
kommersiellt tillgängliga. Några av de viktigaste är Trados
Translator’s Workbench (TW), SDLX, STAR Transit, Déjà Vu och
Translation Manager6, varav Trados TW är ett av de mest dominerande på
marknaden för översättningsverktyg7. TW började utvecklas i mitten av
åttiotalet och integrerades tidigt i Microsoft Word genom användande av
Word-makron och -mallar.
2.5.1 Trados Workbench
Figur 1 visar ett källspråkssegment på svenska som öppnats för översättning
med TW, där TW funnit en matchning i minnet och skrivit in motsvarande
målspråkssegment. Detta förslag har översättaren möjlighet att redigera innan
det godkänns.
6 För utförligare översikt se: John Hutchins, Compendium of Translation Software, AMTA 2000.
7 Antalet sålda licenser uppgår till 55.000, Internet 2002-05-31: http://www.trados.com/about/company_profile
9
Figur 1: Källmening på svenska öppnad för översättning med föreslagen fuzzy-matchning på engelska
från TW-minne
2.6 Fördelar med översättningsminnen
För texter som innehåller mycket lite repetitioner och som inte skall
uppdateras innebär översättningsverktyg med minne knappast några fördelar.
Det är för repetitiva texter som uppdateras ofta som verktygen kommer till
sin rätt, t.ex. underhållsmanualer, webbsidor och programvarutexter inklusive
dokumentation och hjälpfiler. I sin bok A Practical Guide to Localization anger
Bert Esselink följande fördelar med minnesverktyg8:
• Repetitioner återanvänds
interna repetitioner i dokument, vid interaktiv översättning
externa repetitioner i minne, mellan dokumentversioner
• Minnen kan även återanvändas för nya eller liknande produkter
• Integrerad terminologihantering ökar enhetligt termbruk
• Flera överättare kan samtigt använda samma översättningsminne i ett
lokalt nätverk vilket ökar enhetlighet och produktivitet
• Analys- och statistikfunktioner gör det möjligt att planera, fördela och
prissätta översättningsarbetet korrekt
8 Listan har förkortats något. Se: Esselink, A PracticalGuide to Localization, sid 366.
10
• Enkelt användargränssnitt gör att relativt oerfarna översättare kan
hantera verktyget
• Produktiviteten kan öka med 30 – 50 %
Översättningskostnaderna kan minska med 15 – 30 %
Dessa fördelar avser programvaru- och webblokalisering, men gäller även för
andra typer av repetitiva texter som uppdateras ofta.
2.7 Begränsningar och problem med översättningsminnen
För texter som endast innehåller en liten mängd repetitioner och som inte är
avsedda att uppdateras i framtiden kan det innebära onödigt extra arbete att
använda översättningsverktyg. För vissa texter kan det dessutom vara en
nackdel att återanvända upprepningar. Texter med variation kan uppfattas
som mer livfulla vilket ofta är lämpligt för t.ex. marknadsföringstexter. Men
även vid översättning av repetitiva texter innebär bruk av verktyg en hel del
extra arbete, med för- och efterarbete, samt även en möjlig felkälla. Dessutom
krävs att användaren följer vissa rutiner och tagit hänsyn till de hård- och
mjukvarukonfigurationer som krävs av verktyget. Esselink listar följande
nackdelar med översättningsminnen9:
Översättning/granskning
• Verktygen stöder inte strukturella ändringar av texten. Om exempelvis
texten segmenterats styckevis, kan inte den inbördes meningsföljden
ändras10
• Verktygen visar inte dokumentens layout och format, vilket leder till
att granskning måste utföras efter konvertering till originalformat
9 Listan har förkortats något. Se källtext: Esselink, A Practical Guide to Localization, sid 367.
10 I Trados kan man lösa detta genom att segmentera tillfälligt på meningar, översätta och flytta de färdiga översättningsenheterna så att korrekt meningsföljd för målspråket erhålls.
11
• Ändringar som utförs i dokumentet vid granskning måste också
införas i minnet, vilket innebär extra arbetsutiner vid granskning
Minne:
• Delning av översättningsminnen utöver intranät stöds inte, vilket
innebär extra arbete för minneshantering, så att olika översättare i
samma projekt skall kunna ha tillgång till uppdaterade minnen
Filter:
• Filkonvertering före och efter själva översättningen med verktyg
innebär extra arbetsrutiner
• Filter är inte alltid anpassade för nya versioner av de filformat de är
avsedda att klara av, vilket kan resultera i skadad eller översatt kod,
eller oöversatt text
• Det kan vara komplicerat och innebära mycket programmeringsarbete
att skapa egna filter för filformat som verktyget inte anpassats till.
Dessa nackdelar är viktiga att beakta vid planering av såväl stora som små
översättningsprojekt. Resurser och tidsmarginaler måste anpassas efter de
olika arbetsmomenten.
När väl översättning med hjälp av översättarverktyg påbörjats uppdagas
ytterligare begränsningar och problem, bl. a. angående verktygens sätt att
matcha hela segment. De repetitioner som analysen visat och som
förekommer i texten är repeterande hela segment. Men vid översättning stöter
man snart på mängder av repetitioner som verktygen inte hanterar. Förutom
rent lexikala repetitioner t.ex. termer, kan det vara frågan om fraser,
kollokationer och idiomatiska uttryck som översättaren måste översätta varje
förekomst av.
12
2.7.1 Strängmatchning mot hela segment
De verktyg som använder tekniken med översättningsminnen utför
uppslagning och matchning i minnet snabbt med hjälp av fuzzy-logic-
indexering av de sparade översättningsenheterna. Denna typ av matchning ger
översättaren bästa möjliga träff ur minnet, men endast avseende
teckenöverensstämmelse på segmentnivå11. Ingen morfologisk eller syntaktisk
analys utförs. Detta innebär att verktygens användbarhet snabbt minskar med
ökat antal ordformer och minskar ytterligare om ordföljden varieras.
Macklovich och Russel visar hur information lagrad i översättningsminne i
praktiken kan döljas för översättaren eftersom TW inte utför någon
morfologisk analys. Ett exempel på detta är om man med källmeningen i
exemplet i Figur 1 (sid. 10):
”Otillåten signal från gaspedalsgivarens potentiometer”
byter ut ”gaspedalgivare” mot nonsensordet ”gaspedalrivare”. Då erhålls
samma matchningsprocent som ”gaspedalgivare” trots att detta är en ordform
av motsvarande ord i minnet, se Tabell 112:
Tabell 1 I minnet: ändrat ord i källtext: match: GASPEDALGIVARENS GASPEDALGIVARE 92 % GASPEDALRIVARE 92 %
Metoden att matcha meningar innebär att t.ex. varken ”Otillåten signal” eller
”gaspedalsgivarens potentiometer” i exemplet ovan (Figur 1) ger några träffar
i minnet13 när de söks i minnet som fristående strängar. Inte ens
kommaavgränsade delsträngar av ett segment matchas i minnet, enligt
11 Vanligtvis meningar eller stycken, se 12.4. Segmentavgränsning har användaren möjlighet att ställa in
vid minneskonfigurering. För Trados TW, se se TRADOS Specialist Guide, 2-18 sid 39.
12 Se även Macklovich & Russel sid. 139.
13 Endast 16 av 52 tecken matchar, dvs. 31 %. Trados rekommenderar att matchningar under 60 % ignoreras.
13
Macklovich och Russel14. Ett sätt att, åtminstone delvis, hantera denna
begränsning är att vid översättning låta TW söka i ett terminologilexikon, som
kan skapas från redan gjorda översättningar med hjälp av TW-verktyget Extra
Term. Översättaren måste då fortfarande vid översättning kontrollera att
termen har korrekt form.
Ett verktyg, Déjà Vu, har en funktion som kallas ”Assemble from portions”
som innebär att matchningar på ordnivå faktiskt tillåts, om de är tillräckligt
bra. Härigenom kan översättningsförslag erhållas för delsträngar av
segmenten, t.ex. ord, fraser och termer, oberoende av om de finns med i en
terminologidatabas eller inte.
2.7.2 Textsammanhang går förlorat
Översättningsminnen byggs visserligen normalt upp i en följd när ett
dokument översätts, så att textens diskurs återspeglas i minnet. Men det finns
ingen funktionalitet i TW som uppehåller denna ordning. Översättaren kan
välja att inte bearbeta texten i en följd, eller använda samma minne för olika
textavsnitt. Om flera översättare arbetar mot samma minne byggs minnet upp
av sammanflätade översättningsenheter från de olika översättarnas dokument.
Detta innebär att översättningsenheter kan förekomma helt oberoende av
omgivande enheter i ett minne. För översättaren kan det innebära problem att
avgöra matchande enheters relevans, särskilt för segment som innehåller
lexikala flertydigheter eller syftningar över meningsgränserna. Ett sätt att
hantera denna begränsning är att tillhandahålla referensmateriel i form av
fulltextversioner av tidigare översättningar. Trados har ett nyligen lanserat
verktyg kallat Xtranslate som har funktioner för automatisk sökning av
matchande meningar i fulltextdokument.
14 Macklovich & Russel sid. 140. Detta gäller under förutsättning att kommatecken inte satts som
segmentavgränsare vid konfigurering av minne.
14
3 ÖVERSÄTTNINGSPROCESSEN PÅ SCANIA
Översättningsprocessen på Scania har beskrivits utförligt av Almqvist och
Sågvall Hein15 och sammanfattas här :
• De texter som skall översättas skrivs av tekniska skribenter på
svenska.
• Terminologin kontrolleras noggrant bl. a. med hjälp av Scania
Checker
• Texten skickas till översättningsföretag för översättning, först till
engelska och sedan vidare till övriga språk.
• Tryckning och distribution av de färdiga texterna
• Översättningsföretagen hanterar de korrigeringar som behöver
utföras i filer och minne.
De layoutprogram som används för att skapa denna typ av manualer och
dokumentation kräver att filkonvertering utförs innan de kan översättas med
hjälp av översättningsminnen. Filer som skapats i FrameMaker FM-format
sparas i MIF-format och konverteras sedan till STF/RTF för översättning
med TW i Microsoft Word16.
När nya texter skapas använder skribenterna Scania Checker som hjälp för att
kontrollera att texten inte avviker från den definierade Scaniasvenskan. När
uppdateringar ska utföras av tidigare gjorda översättningar utnyttjas
översättningsminnena. I detta led har hittills inte Scania Checker kunnat
utnyttjas fullt ut. Eftersom det skulle innebära för mycket manuellt arbete att
15 Almqvist och Sågvall-Hein, Language Checker of Controlled Language and its Integration in a Documentation and
Translation Workflow, sid. 2-4.
16 För detaljer se TRADOS Specialist Guide Chapter 6, sid 130.
15
använda Scania Checker vid uppdateringar har den endast använts i uppdrag
där texten huvudsakligen nyskapas, se Figur 2.
Men genom att de svenska segmenten i översättningsminnena nu anpassas
efter Scania Checkers förslag blir det möjligt att även få språket i
uppdateringarna anpassat till Scaniasvenskan.
V
e
F
m
NYTTNYTT
NYTT
Figur 2: Scania checker har tidiga
3.1 Scanias översätt
Scanias översättningsmin
uppdateringar som utfört
1994-2000. Minnena anv
servicelitteraturen för att
översättningar. Ett expor
uppmärkta med omslutan
arje översättningsenhet
ventuella attribut, t.ex. n
öljande exempel visar en
arkerat med TW:s bete
17 {\cs6\f1\cf6\lang10
inbäddade typsnittstaggen <F TW inte räknar med den i sin204.
TM
TM
TM
Scania Checker
re inte använts för texter som till största del finns sparade i minne.
ningsminnen
nen är i tradosformat, resultat av översättningar och
s av översättningsföretag för Scania under åren
änds kontinuerligt vid uppdateringar av
möjliggöra återanvändning av redan utförda
terat tradosminne består av översättningsenheter
de taggar <TrU> och </TrU>.
består av källspråks- och målspråkssegment, samt
är det skapats, version, etc.
översättningsenhet där källspråkssegmentet är
ckning för svenska, <Seg L=SV_SE>17 :
16
24 <F 12>}är RTF-filsformatering som här formaterar den 12> för Frame Maker med mallen tw4winInternal, vilket innebär att
strängmatchning av segmentet , se även TRADOS Specialist Guide, sid
<TrU> <CrD>13072001, 15:07:46 <CrU>FREDRIKG <Att L=Customer>Scania <Att L=Translator>Internal <Seg L=SV_SE>Kontrollera{\cs6\f1\cf6\lang1024 <F 12>} s{\cs6\f1\cf6\lang1024 <F 4>}litage och funktion. <Seg L=EN_US>Check for{\cs6\f1\cf6\lang1024 <F 12>} w{\cs6\f1\cf6\lang1024 <F 4>}ear and function. </TrU>
I TW visas samma enhet på följande sätt, i dess konkordansfönster:
Figur 3. TW visar segmenttext från minne med symboler för formateringsinformation
Innan texten i segmenten med svensk text skickas till Scania Checker krävs att
formateringsinformationen17, markerad med TAG i Figur 3, tas bort och att
den egentliga texten, i exemplet ovan ”Kontrollera slitage och funktion”
extraheras.
3.2 Reglerat språk: Scaniasvenska och Scania Checker
Scaniasvenska har definierats för att underlätta översättning och göra
terminologibruket mer enhetligt inom Scania. Genom att begränsa
• antalet synonymer
• antalet svåröversatta eller svårbegripliga ord
• bruk av ordstam för sammansättningar och avledningar
har ett kontrollerat subspråk definierats – Scaniasvenska18. Detta har sedan
implementerats i Scania Checker, ett webbaserat verktyg som även utför
grammatikkontroll. Bakom webbgränssnittet där användaren matar in text, se
Figur 4 nedan, finns programfunktioner som analyserar och gör
18 Almqvist och Sågvall-Hein, Language Checker of Controlled Language and its Integration in a Documentation and
Translation Workflow, sid. 9.
17
lexikonuppslagning i lexikondatabasen Scania Lexicon när en användare
klickar på knappen Kontrollera.
Figur 4: I Scania Checkers formulärfält skriver användaren in den text som ska skickas för granskning
Resultatet får användaren i HTML-format tillbaka till webbläsaren, där de
felaktigheter Scania Checker funnit är markerade med hjälp av formatmallar
med gult för ord som inte återfinns i lexikon (word-warn), rött för ord som
ska bytas ut (word-err) och grönt för grammatikfel (gram-err)19. Information
om respektive fel anges på webbläsarens statusrad när användaren för
muspekaren över ett felord. Scania Checker ger t.ex. förslag på ersättningsord
för varje word-err-markerat ord, se bild nedan:
Figur 5: Scania Checker föreslår korrigering av word-err-markerade avgasledningar till avgasrör20.
19 Almqvist och Sågvall-Hein, Language Checker of Controlled Language and its Integration in a Documentation and
Translation Workflow, sid. 5-6.
20 De andra markerade orden, högdämpande och VP, är word-warn-markerade med gult.
18
Scania Checker är ett lättanvänt och smidigt verktyg avsett för kontroll av
mindre textmassor. Vid större textmängder än c:a 5 000 rader blir dock
resulterande HTML-fil stor, svårhanterbar och minneskrävande om man vill
se resultatet i en vanlig webbläsare. Det tar dessutom längre tid för Scania
Checker att behandla större mängder text.
KAPITEL 4 METOD
4 ARBETSGÅNG OCH IMPLEMENTERING
4.1 Specifikation av uppgiften
Uppgiften består av följande deluppgifter21:
• Extraktion och kategorisering av meningar som får felmeddelande i Scania Checker
(kap. 4.2 och 4.3)
• Åtgärder pga Scania Checker-kontroll:
okända ord: gulmarkerade ord skickas till terminologiansvarig på Scania efter att
uppenbara felaktigheter korrigerats i minne
kända felaktiga ord: rödmarkerade ord – ändringen utförs i minne
grammatikfel: grönmarkerade ord – ändringen utförs i minne
• Märkning av de översättningsenheter som ändrats
• Analys av de märkta översättningsenheternas engelska segment (kap. 4.5): kategorisering av de feltyper som behöver korrigeras.
4.2 Extraktion av felmeningar
För att kunna extrahera de meningar som innehåller felaktiga ord behöver
texten i de svenska segmenten plockas ut ur översättningsminnena och
skickas till Scania Checker. Denna analyserar texten och returnerar resultatet i
HTML-format, där de felaktiga orden är färgmarkerade. Ur denna text
21 Sammanfattning från specifikation av examensarbete: Almqvist, Fredrik Granlund: Exjobb, 2000.
19
extraheras alla de meningar som innehåller något fel och sorteras efter feltyp,
se figur 6 nedan.
Den här processen för extraktion av felmeningar har implementerats i ett
perlprogram, tm2htm, vars viktigaste funktioner beskrivs i kapitel 4.6.1
nedan.
svensk text
TM
Figur 6: Huvudprocessen: tm2htm hämtar text ur TM, skicoch extraherar felmärkningar som utgör grund för den minn
4.2.1 Perlprogrammet tm2htm
I det här kapitlet beskrivs hur minnena förbeh
kunna skickas till Scania Checker för gransknin
och felord extraheras ur den resulterande htm
minnen som undersökts är på sammanlagt 62
enheter22, dvs. meningar eller stycken liknande
i form av två textfiler på sammanlagt närmare
förbehandlas på flera sätt, dels har jag delat up
att den sök- och ersätts-process som beskrivs
snabbt och smidigt. Dels delar tm2htm upp v
valfritt antal filer bl. a. för att inte resulterande
Men den formateringsinformation som beskri
också här, eftersom Scania Checker inte har fu
typen av information. Det är endast den svens
tm2htm plockar därför ut de rader som börja
av Perls inbyggda grep-funktion. Eftersom ing
22 Antalet avser efter att minnena reorganiserats, vilket
språksegment slagits samman. Före reorganisering var anta
Scania Checker
we ge ww
Minnesrättningkar till Scania Checker, tar emot resultatet eskorrigering som beskrivs i kap 4.8.
andlas av tm2htm för att
g och hur meningar med fel
l-koden. De översättnings-
563 unika översättnings-
exemplet på sid 16. Minnena är
22 MB. Dessa filer
p filerna i åtta mindre filer för
nedan i kap 4.4.2.2 ska gå
ar och en av dessa åtta filer i ett
html-filer ska blir för stora.
vs ovan i kapitel 3.1 behandlas
nktioner för att hantera den
ka texten som skall granskas, så
r med <Seg L=SV_SE> med hjälp
a radbrytningstecken per
20
bl.a. innebär att enheter med identiska let enheter 73 237.
definition23 får finnas i giltiga segment, så innebär detta att varje urplockad rad
verkligen innehåller ett fullständigt svenskt segment. Men såsom tidigare
beskrivits innehåller även den svenska texten information som är irrelevant
för Scania Checker, nämligen formateringsinformation (se kap 3.1). Denna är
specifik för de ordbehandlingsprogram som använts, Microsoft Word och
Adobe Frame Maker, och har sparats som text i minnet. Det här är inte
frågan om någon lexikal information, men skulle tolkas av Scania Checker
som felord av typen word-warn, dvs. okända ord. Ett alternativ vore att i
stället ta bort denna information ur den resulterande html-koden, men det
skulle innebära nackdelar genom att Scania Checker då skulle få en större
mängd text att bearbeta, kontrollen skulle gå långsammare att utföra och
resulterande filer blir större. Formateringsinformationen tas därför alltså bort
eller ersätts av mellanslagstecken. I tm2htm sker detta med hjälp av reguljära
uttryck innan texten skickas till Scania Checker. De två vanligaste typerna av
formateringsinformation visas i Tabell 2:
Tabell 2 Reguljärt uttryck: Matchar: Exempel: <[^>]*> STF-taggar24 <F•12>
\{[^• ]*•\} RTF-formatering25 {\cs6\f1\cf6\lang1024•text}
Exempel på andra, mindre vanliga formateringstyper som tm2htm tar bort
eller ersätter är \lquote och \rquote, dvs. de engelska tecknen ( “ ) och
( ” ) för höger, respektive vänster citationstecken. Vissa koder för skiljetecken
kan inte tas bort utan att ersättas av något annat passande tecken, t.ex.
\emdash för långt tankstreck ( – ) och <SP> för mellanslag ( • ). 23 Denna definition kan kringås genom att temporärt ersätta radbrytningar med något tecken som
används som unik identifierare och formateras med mallen tw4winInternal, t ex ¤.
24 Formateringsinformation för Frame Maker, ’<[^>]*>’: matchar ett ’<’ följt av godtyckligt antal tecken som inte är ’>’, följt av ’>’, dvs. endast enkla taggar, ej inbäddningar.
25 Formateringsinformation för RTF, ’\{[^• ]*•\}’: bakstrecken ’\’ markerar specialtecknen för klammerparenteser ’{’ och ’}’. ’[^• ]*• ’ matchar godtyckligt antal tecken som inte är mellanslag ’• ’, följt av mellanslag ’• ’ (tecknet efter asterisken).
21
När texten rensats från formateringsinformation ska den skickas till Scania
Checker, men en så här stor mängd text kan inte behandlas vid ett tillfälle
utan måste delas upp i ett lämpligt antal småfiler. För att automatisera
textöverföringen till och från Scania Checker använder programmet Perls
inbyggda förenklade webbläsare (LWP26, libwww-perl). Men denna lösning
kräver i sin tur ytterligare en del förbehandling av den text som ska skickas.
I motsats till konventionella webbläsare måste MIME-typ anges som
”content_type”, se Kodexempel 4. Scania Checker tar nämligen normalt emot
formulärtext från en webbläsarklient, se Figur 4, vilket innebär att texten
automatiskt MIME-kodas med URL-kod av webbläsaren. Detta innebär att
vissa tecken kodas om, exempelvis mellanslag kodas om till %20. Denna
omkodning görs i tm2htm och formulärfält definieras innan texten skickas
som en förfrågan till Scania Checker. Texten i de filer som skickas (@fil i
Kodexempel 1 nedan) är alltså URL-kodad, rensad från radbrytningar och
skickas som en enda sammanhängande teckensträng tillsammans med
formulärfältsdefinitioner till Scania Checker. När texten analyserats av Scania
Checker returneras resultatet i form av HTML-kod som tm2htm sparar lokalt
i HTML-filer (filnamn.html i kodexemplet nedan).
Ur varje HTML-fil extraheras sedan felmeningar för respektive felordstyp
som sorteras i var sin fil.
26 LPW är en modul som medföljer Perl. Se dokumentationen för modulen genom att köra ”perldoc
LPW” i kommandotolk för system med Perl installerat. Finns även på Internet: http://aspn.activestate.com/ASPN/Products/ActivePerl/site/lib/LWP.html
22
Kodexempel 127:
1. $browser = LWP::UserAgent->new(); 2. my $req = new HTTP::Request POST => 'http://www.server.se/Scaniachecker.perl'; 3. $req->content_type('application/x-www-form-urlencoded'); 4. $req->content(@fil); 5. my $res = $browser->request($req,"filnamn.html");
4.3 Resultat: fördelning av felordsmeningar och antal felord
I de översättningsminnen som testats visade sig nästan en fjärdedel av
översättningsenheterna innehålla felord, varav 55 % ej igenkända ord (word-
warn) och 54 % igenkända men felaktiga ord (word-err). Andelen enheter
med grammatikfel (gram-err) varierade mellan 0,5 % och 5 %. Tabell 3 visar
antalet felordsmeningar i förhållande till det totala antalet
översättningsenheter. Närmare två tusen meningar innehöll fler än en typ av
felmärkning.
Tabell 3: Antal och andel översättningsenheter med felordsförekomst i Scanias översättningsminnen
word-warn word-err gram-err
Summa
meningar
med felord:
Översättningsenheter 8 321 (13 %)
8 155 (13 %)
614 (1 %)
15 148 (24 %)
För att få fram antal felord av respektive feltyp skrevs först ett VBA-makro28
som nyttjar formatmallsuppmärkningen av felorden. All text som inte är
27 Radvis sammanfattning av koden:
1. Webbläsarobjekt skapas
2. Förfrågan till Scania Checker skapas (här med fiktiv webbadress)
3. Innehållstypen på förfrågan sätts till URL-kodad text
4. Den URL-kodade texten i @fil utgör innehållet i den förfrågan som skickas
5. Svaret på förfrågan sparas lokalt, här som filen "filnamn.html"
28 VBA (Visual Basic for Applications) är ett delspråk av Microsoft Visual Basic
23
färgmarkerad rensas bort och återstående felord sorteras och rensas på
dubletter manuellt m.h.a. sort och uniq. Detta VBA-makro tog lång tid att
exekvera så därför skrev jag perlskript (greperr och tocol) som snabbt skapar
tabbseparerade textfiler med felord, men med enklare programkod. Antal
felord redovisas i Tabell 4:
Tabell 4: Antal felordsförekomster och felordstyper word-warn word-err gram-err Totalt:
antal förekomster 10 592 9 098 784 20 474
felordstyper 5 580 1 839 340 7 759
Den mest förekommande felordstypen är word-warn. De allra flesta av dessa
bör sannolikt tillföras Scania Lexicon. Alla felordstyper har analyserats med
särskild fokus på word-err-orden. Drygt 8 000 rättningar har utförts i minnet.
4.4 Korrigering av svenska segment
4.4.1 Gula ord – okända ord
De word-warn-markerade orden är ord som inte återfinns i Scania Checkers
lexikon av följande skäl:
1. Ord som bör finnas i lexikon
2. Felstavade ord
3. Uttryck som bör matchas av Scania Checker
Jag har med hjälp av Words stavningskontroll identifierat 485 felstavade ord,
varav de flesta endast förekommer någon enstaka gång. Bland de ord som
förekommer mer än sex gånger hittade jag inga felstavningar. Fördelningen av
felstavade ord illustreras i ett diagram i Bilaga 2. De felstavade orden har
rättats i minne m.h.a. ett Windows-baserat verktyg, Search & Replace
(SR v. 3.9), som hanterar textersättning med reguljära uttryck, se Figur 7.
24
Figur 7: Sökning i minne efter fyra förekomstrer av smörjschemorna som ersätts med smörjschemana med
hjälp av Search & Replace.29
Den ordlista med word-warn-ord som återstår efter rättning innehåller till
största del ordförslag till lexikonuppdatering, men även en hel del
teckensträngar som bör kunna hanteras av Scania Checker, exempelvis
sifferuttryck, sökvägar i filsystem och variabelnamn. I Scania Checker finns
nämligen funktionalitet med reguljära uttryck30 för att hantera denna typ av
text. En del word-warn-ord är också avstavade ord där borttagandet av
formateringsinformation felaktigt lett till nya ordformer31.
4.4.2 Röda ord – felaktiga ord
Det huvudsakliga korrigeringsarbetet som utförts har gällt word-err-märkta
ord. Meningar som innehåller sådana ord sparas av tm2htm i en fil we.html.
Ur denna har felord med ändringsförslag extraherats med hjälp av Perls
inbyggda grep-funktion, sorterats och rensats från dubletter (m.h.a. sort och
29 Search & Replace använder en egen syntax för vissa reguljära uttryck, t.ex. står *[] för valfritt antal
godyckliga tecken och utropstecken ( ! )för negation. För mer information se webbsida: http://www.funduc.com/regexp.htm
30 Almqvist och Sågvall-Hein, Language Checker of Controlled Language and its Integration in a Documentation and
Translation Workflow, sid. 14.
31 Exempel: växel-lådan
25
uniq) kolumnvis till en textfil innehållande felord och Scania Checkers förslag
på ändring, se Tabell 6. Denna fil har sedan utgjort underlag för det
interaktiva sök- och ersättningsprogrammet errfixtm som beskrivs i kapitel
4.4.2.2.
4.4.2.1 Feltyper och rättningsförslag
Ändringsförslagen återspeglar den definierade Scaniasvenskan, vars syfte är att
minimera förekomst av synonymer, svåröversatta ord, svårbegripliga ord samt
öka enhetlighet vid ordbildningar. Bland Scania Checkers rättningsförslag
finns många exempel på svårbegripliga sammansättningar som kan förtydligas
genom uppdelning i huvudord följt av prepositionsfras. Andra
ändringsförslag beskriver ofta termens funktion tydligare än tidigare. Många
termer saknar även inskotts-s eller är felstavade. Tabell 5 visar exempel på
olika feltyper. Bilaga 3 visar de vanligaste felordsförekomsterna.
Tabell 5: Olika feltyper Feltyp: Funnet fel Scania Checkers rättningsförslag otydlighet sammansättning Kylsystemprovare Tryckprovare för kylsystem otydlighet, funktion oljeavloppsrör returoljerör inskotts-s ventilskafttätning ventilskaftstätning felstavning noggran noggrann avstavning by-passledning by-pass-ledning förkortning d.v.s dvs. synonymer dieselbränsle
dieselbrännolja diesel
4.4.2.2 Rättning av minnen
Scania Checkers rättningsförslag visar ordet lemmatiserat. Det innebär att
ändelser måste tillföras varje rättningsförslag i rättningsfilen innan korrigering
kunnat utföras. Exempel:
Tabell 6: Rättningsfil: felord och Scania Checkers förslag med manuellt justerad ändelse dieselbränsle diesel dieselbränslet diesel + n dieselbränslets diesel + ns
26
Denna fil utgör sedan underlag för det interaktiva sök- och
ersättningsprogrammet errfixtm32, se Figur 7, där varje förekomst av felord
söks upp i de svenska segmenten i minne och visas tillsammans med hela den
mening ordet ingår i:
Figur 7: Programmet errfixtm visar hela den omgivande meningen för varje felord
Om Scania Checkers ändringsförslag visar sig vara olämpligt att utföra i aktuell
mening, kan användaren välja att avstå genom att skriva n+Enter. Man kan då
välja att fortsätta bearbeta minnesfilen med samma felord (Enter), eller gå vidare
till nästa felord i rättningsfilen (n+Enter). Om användaren i stället godkänner
förslaget utförs ändringen genom att trycka på Enter-tangenten och programmet
söker efter nästa förekomst av aktuellt felord. När ingen ytterligare
felordsförekomst hittas, plockas nästa ordpar från rättningsfilen.
Utförd ersättning sparas tillsammans med hela segmentet i en textfil logg.txt, för
eventuell granskning, och de ordpar i rättningsfilen som bearbetats loggas i
done.txt.
32 Följande reguljära utrryck utför själva ersättningen i errfixtm:
Matchning: ^(<Seg L\=SV_SE>(.*))$errword(.*)
Ersättning: <Att L\=Word\-err fixed>in Swedish\n$1$cure$3
där $1 och $3 är text före respektive efter ändringsförslaget $cure inklusive inledande segmenttagg.
27
Olämpliga förslag
Det förekommer texter i minnena där Scania Checkers ändringsförslag inte är
tillämpbara. Exempel på detta är flertydiga ord där betydelsen i Scania Checkers
förslag inte är densamma som hos den förekomst som finns i minnet. Tabell 7: Exempel på olämpliga förslag: polysemi
Funnet fel Scania Checkers rättningsförslag Text i minne:
insatt isatt …är väl insatt i arbetet… ringa liten …för att ringa in problemet…
Relativt vanligt förekommande är också att Scania Checkers förslag redan finns
med i texten, t.ex.: Tabell 8 Exempel på olämpliga förslag: förslag finns redan
Funnet fel Scania Checkers rättningsförslag Text i minne:
hjulbas axelavstånd Ange fordonets axelavstånd (hjulbas). lackering målning Vid lackering eller målning har färg…
Även samförekomst med andra ord kan göra ändringen olämplig: Tabell 9 Exempel på olämpliga förslag: samförekomst med befintliga ord
Funnet fel Scania Checkers rättningsförslag Text i minne:
explosionsfarliga explosiv …brand- och explosionsfarliga ämnen… farthållning konstantfarthållning …konstant farthållning…
Sammansättningar som delats upp i huvudord och prepositionsfras kan bli
onaturliga i genitivform: Tabell 10 Exempel på olämpliga förslag: onaturlig genitivform
Funnet fel Scania Checkers rättningsförslag Text i minne:
Reglerstångslägesgivarens Lägesgivare för reglerstångReglerstånglägesgivarens spänning är en intern spänningsnivå…
I vissa fall ger Scania Checker rättningsförslag för ett ord, men missar samma ord
när det förekommer i en sammansättning33. Det förekommer även att ord både
markeras med word-warn och word-err, men att den andra markeringen felaktigt
”drabbar” efterföljande ord eller tecken. Scania Checker föreslår även korrigering
33 Exempelvis ”diffspärr” markeras för ändring till differentialspärr, men inte ”diffspärrinställning”.
28
av förkortningar som redan är korrekta och i enlighet med förslaget. De
vanligaste felorden redovisas i Bilaga 3.
Övriga ändringsförslag som inte kunnat utföras är när Scania Checker angett
”Annan formulering” eller ett antal sammanhangsspecifika alternativ, t.ex.
”extravärmare; motorvärmare; bränslevärmare, etc.”34 och där det inte gått att
säkert avgöra vilket alternativ som är korrekt. Dessa förslag utgjorde tillsammans
4 % av de 1 839 felordsformerna.
Efterjustering
Många av Scania Checkers ändringsförslag innebär ändring av genus hos
ersättningsordet vilket kan medföra kongruensfel efter utförd ersättning.
Efterjustering måste då utföras manuellt, för exempel se nedan och Tabell 6: Tabell 11 Efterjustering av kongruensförhållanden
Funnet fel Scania Checkers rättningsförslag Text i minne:
glödpluggen glödstiftet …glödpluggen får spänning från flamstartens styrenhet värms den upp så…
displayen teckenfönster När strömbrytaren är i läge ”ON”, är displayen aktiv.
Resultat
Efter rensning av minnena återstod 11 % av felorden där rättningsförslag inte
kunnat genomföras35.
4.4.3 Gröna ord – grammatikfel
Funktionen för grammatikkontroll i Scania Checker blockeras när stora
mängder text bearbetas. Antalet förekomster av gram-err vid körningar med
endast 10 rader text åt gången resulterade i tre gånger mer
grammatikfelsförekomster36 jämfört med körning med tusentals rader text.
34 Som alternativ till värmare.
35 Totalt 203 av 1.839 felordsformer lämnades utan åtgärd.
36 Småfiler med 10 rader vardera resulterade i 330 grammatikfel, jämfört med 110 fel vid körning med 3 000 rader text per fil.
29
Av 217 olika förekomster av grammatikfel i word-err-korrigerat minne har
drygt hälften åtgärdats enligt Scania Checkers instruktioner, resten lämnades
utan åtgärd eftersom förslagen inte verkade tillämpbara. Samma arbetsmetod
som för word-warn-orden har använts för grammatikrättningarna, SR har
använts för att utföra rättningarna. De vanligaste grammatikfelen avser
substantiv, fel form eller genus och särskrivna sammansättningar. Totalt fann
Scania Checker 21 olika typer av grammatikfel i det word-err-korrigerade
minnet, tabell 12 visar de vanligaste felen37:
Tabell 12 De vanligaste typerna av funna grammatikfel Antal fel:
Typ av grammatikfel: Exempel38:
80 Fel form på substantivet Denna beskrivningen berör funktionen för hela det mekaniska systemet
75 Särskriven sammansättning, obestämd form: bindestreck saknas
EBS funktion utan begränsningar på bilen
32 Fel genus på substantivet eller dess bestämning
Inget annan köldmedium än R134a får användas .
27 Fel numerus på adjektivet i predikatsfyllnaden
Ta bort proppen och tappa ur oljan när de är varm
24 Infinitivmärke att saknas efter vissa verb
Om du väljer Inaktiv så kommer man bara kunna ställa in tomgångsvarvtalet
17 Fel numerus på substantivet eller dess bestämning
…rikta in ljuddämparen och dra fast alla klammer
14 Särskriven sammansättning, bestämd form: bindestreck saknas
Diagnosprogrammet kommunicerar med BNS systemet
12 Fel genus på adjektivet i predikatsfyllnaden
… om fordonet är utrustad med en retarderspak
10 Särskriven sammansättning eller grundkasus i stället för genitiv
ELC Bosch Buss
9 Särskriven sammansättning eller bestämd form efter genitivattribut
Europa standard: EN 590
37 Fullständig förteckning över grammatikfelstyperna finns i Appendix A
38 Klicka på länken för att se hela segmentet
30
De ”sämsta” förslagen rörde endast ett fåtal förekomster. Följande förslag
föranledde vid en första granskning inte till några ändringar men skulle
samtliga tjäna i tydlighet på att skrivas om:
Tabell 13 De typer av grammatikfel som inte ändrats Fel verbform efter modalverb
Utifrån de värden styrenheten får styr den magnetventilen V58, glödstiftet H10 och kontroll lampan W35.
Kommatering: ...styrenheten får, styr den...
Supinum i stället för imperativ
Förberett för körriktningsvisare på släpvagn
Komplettering av sats: Det är förberett...
Dubbelt supinum
Omkalibrering måste göras om styrenheten blivit omkonfigurerad eller färdbromsventilen blivit bytt
Komplettering med hjälpverb: ...har blivit bytt
Predikatsverb saknas
Vrid svänghjulet så att märkningen 72° på svänghjulet syns i det nedre fönstret på svänghjulskåpan och det samtidigt är ventilväxling på cylinder 5
Bisatskonstruktion: ...svänghjulskåpan, samtidigt som det är...
Några av Scania Checkers bästa förslag redovisas i Bilaga 139.
4.4.4 Flaggning av ändrade enheter
Det är viktigt att kunna identifiera de rättade meningarna så att motsvarande
målspråkssegment lätt kan kontrolleras. Därför har en markering lagts till
varje översättningsenhet som rättats i minne. I errfixtm sker detta om
användaren godkänner föreslagen ersättning, i SR genom att markeringen,
följd av radbrytningstecken40, infogas före ersättningsordet. Markeringarna
följer Trados konvention för definition av attributfält. Följande exempel visar
markering för word-err-korrigeringar:
<Att L=Word-err fixed>in Swedish.
Vid granskning av de engelska segmenten i ändrade översättningsenheter kan
39 Fullständig lista över de funna grammatikfelen, ordnad efter feltyp, finns här.
40 I SR motsvarar \r ASCII-tecknet <CR> (carriage return) och \n tecknet för <LF> (line feed)
31
detta utföras i TW genom att begränsa sökningen till flaggade enheter i TW’s
minnesunderhållsfunktion. Då visas vid sökning endast de ändrade enheterna
och modifieringar i målspråkssegment kan utföras direkt i minnet41, se bild
nedan:
Figur 8: Resultat av sökning begränsad till flaggade enheter med TWs underhållsfunktion
4.5 Fel i engelska segment
De funna grammatikfelen kräver normalt ingen korrigering i det engelska
segmentet. Däremot kan vissa av de röda word-err-förslagen kräva åtgärder i
motsvarande engelska segment. Exempel på detta är när ord förtydligats så
mycket att även motsvarande ord på engelska behöver specificeras ytterligare.
Eller motsatsen – när begrepp förenklats så mycket på svenska att även
motsvarande begrepp på engelska bör förenklas, se exempel nedan.
Tabell 14 Efterjustering av kongruensförhållanden Feltyp: Exempel Svenskt segment
Ändring nödvändig iengelskt segment
otydlighet sammansättning
Kylsystemprovare Tryckprovare för kylsystem Ja
synonymer dieselbränsle dieselbrännolja
diesel Ja
Andelen engelska segment som behöver åtgärdas har jag m.h.a. sampling
uppskattat till c:a 14 %.
41 Genom att högerklicka på målspråksflaggan och välja Edit i menyn.
32
5 SLUTSATSER OCH DISKUSSION
Det här examensarbetet har lett till att specifika problem åtminstone delvis
kunnat lösas genom att över 8 000 rättningar har utförts i Scanias
översättningsminnen. Scaniasvenskan kan nu tillämpas, inte enbart vid
nyskrivning av text, utan även vid uppdateringar av tidigare översatta
dokument. Jag har, parallellt med att arbetet utförts, dokumenterat och
implementerat de olika delprocesserna för granskning och rättning av
minnena som illustreras i Figur 6.
Genom att tillämpa dessa processer kan översättningsminnen även
fortsättningsvis korrigeras regelbundet allteftersom de byggs upp, vilket
säkerställer att textinnehållet är i enlighet med Scaniasvenskan. Delar av
processen kan automatiseras genom att sätta samman de viktigaste delarna
och göra dem tillgängliga via ett enstaka kommando (t.ex. knapptryckning)
som resulterar i:
• lista över lexikonförslag (word-warn-ord)
• lista över rättningsförslag (word-err). Listan över rättningsförslag bör
även kunna förses med ändelser, se Tabell 6, så att den kan levereras
så komplett som möjligt till användare, som sedan manuellt får
övervaka sök- och ersättsprocessen i minne.
• lista över meningar med grammatikfel
Förutom dessa uppgiftsspecifika resultat har mitt examensarbete även
inneburit att Scania Checker testats med större textmängder än tidigare.
Resultatet bör kunna användas vid en förbättring av programmet. Dessa
förbättringar bör lämpligen innefatta:
33
• komplettering av Scanias matchningsregler för igenkänning av, i första
hand typbeteckningar, nummer, variabelnamn, etc.
• funktionalitet för att hantera större textmängder med bibehållen
grammatikkontroll
Denna metod bör även innebära fördelar jämfört med det ofta
förekommande alternativet att kassera gamla minnen med fel, för att istället
nyskapa text och bygga nya minnen. Robusta och effektiva feedback-
processer som interagerar med granskningsverktyg som Scania Checker, bör
tillsammans kunna utgöra en god grund för kontinuerligt underhåll av
översättningsminnen allteftersom de skapas.
34
REFERENSER
Almqvist, Ingrid & Sågvall Hein, Anna, 1996 2000: A Language Checker of Controlled Language and its Integration in a Documentation and Translation Workflow. I Proceedings from the Aslib conference, London, 16 & 17 November, 2000. London, Aslib. Almqvist, Ingrid, 2000: Fredrik Granlund: Exjobb, Scania CV AB (ej publ.). EAGLES Evaluation of Natural Language Processing Systems, Final Repor, 1995. EAGLES document EAG-EWG-PR.2 (1995). http://issco-www.unige.ch/ewg95/ Esselink, Bert., 2000: A Practical Guide to Localization, J. Benjamins Publishing Co., Holland. Fiedl, Jeffrey E. F., 1997: Mastering Regular Expressions, O’Reilly & Associates Inc., USA. Macklovitch, E. & Russell G., 2000: What’s been Forgotten in Transla-tion Memory. I White, J.S. (ed.), 2000: AMTA 2000, LNAI 1934. Berlin, Springer-Verlag, Tyskland. Fil i PS-format: http://www-rali.iro.umontreal.ca/pub/AMTA-2000.ps Sågvall Hein, A., 1997: Language Control and Machine Translation. In: Proceedings of the 7th International Conference on Theoretical and Methodological Issues in Machine Translation. July 23-25, 1997. St. John’s College, Santa Fe, USA. Trados: TRADOS Specialist Guide, 2001. Fil i ZIP-arkiv: http://support.trados.com/download/TS_T5_en.zip
35
BILAGA 1
Samtliga typer av grammatikfel och antal:
Antal fel:
Typ av grammatikfel:
80 Fel form på substantivet 75 Särskriven sammansättning, obestämd form: bindestreck saknas 32 Fel genus på substantivet eller dess bestämning 27 Fel numerus på adjektivet i predikatsfyllnaden 24 Infinitivmärke att saknas efter vissa verb 17 Fel numerus på substantivet eller dess bestämning 14 Särskriven sammansättning, bestämd form: bindestreck saknas 12 Fel genus på adjektivet i predikatsfyllnaden 10 Särskriven sammansättning eller grundkasus i stället för genitiv 9 Särskriven sammansättning eller bestämd form efter genitivattribut 7 Fel form av pronominet efter preposition 6 Fel verbform efter modalverb 4 Dubbel passiv 3 Supinum i stället för imperativ 2 Fel form av adjektivet 2 Fel verbform efter temporala hjälpverb 2 Överflödigt infinitivmärke att efter vissa verb 1 Dubbelt supinum 1 Infinitivmärke att saknas efter preposition 1 Predikatsverb saknas 1 Överflödigt substantiv, stryk
Grammatikfel sorterade efter andelen utförda förslag:
Antal fel:
Typ av grammatikfel: Andel utförda:
2 Fel verbform efter temporala hjälpverb 100% 2 Överflödigt infinitivmärke att efter vissa verb 100% 1 Överflödigt substantiv, stryk 100% 12 Fel genus på adjektivet i predikatsfyllnaden 75% 7 Fel form av pronominet efter preposition 60% 24 Infinitivmärke att saknas efter vissa verb 59%
36
BILAGA 2
De vanligaste word-warn-felen och identifierade felstavningarna, ordnade
efter antal förekomster:
Word-warn-fel 247 checklista 48 VIKTIGT 41 givargrupp 33 klimatmodulen 29 retarder-styrenheten 28 AKTIV 28 maskinrummet 27 INAKTIV 23 AC-aggregatet 23 färddata 23 överstigits 22 SP2-programmet 22 pol-par 21 Feltillståndet 21 VP 20 BNS-generation
Korrigerade felstavade ord 6 1och 6 2.Kontrollera 6 konstanfartbromsning 5 Bytesintervaller 5 driftstimmar 5 reglerars 4 Körriktningsvisarelampor 4 ettmatningsrelä 4 fjädringsbägar 4 ing 4 oljetryckvakt 4 programmer 4 radioknappen 4 smörjschemorna 4 takanalen
37
BILAGA 3
De vanligaste word-err-felen ordnade efter antal förekomster:
Antal Förekomst i minne: Felbeskrivning/ersättningsord: 960 t.ex t.ex. 164 förprogrammerad konfigurera; förinställa 127 värmare extravärmare; motorvärmare; bränslevärmare etc.70 noggrant noggrann 63 m.m m.m. 55 Typ typ 53 entrédörren främre dörr; bakre dörr etc. 52 brukar använda 50 Punktreparation annan formulering 49 T.ex t.ex. 49 tas tas 40 Oringar O-ring 38 0C Mellanslag mellan siffra och måttenhet 38 rullriktningen rullriktning 35 entrédörr främre dörr; bakre dörr etc. 35 ändar ände 34 Chassi chassi 34 Smörjsystem/Kylsystem Ersätt snedstreck med annan formulering 32 är axelände 31 Km/h Ersätt snedstreck med annan formulering 30 acc acc. 29 timmar timme 29 värmemattning fading 27 Tomgång/Avstängd Ersätt snedstreck med annan formulering 26 mg/l Ersätt snedstreck med annan formulering 26 punktreparation annan formulering 24 bromspedalkaraktäristik annan formulering 23 block cylinderblock; motorblock; blinksekvens etc. 20 Serviceintervall formen serviceintervallen 19 Bogsering/bärgning Ersätt snedstreck med annan formulering 19 Reglerventil/in Ersätt snedstreck med annan formulering 19 bakaxel/boggibelastning Ersätt snedstreck med annan formulering 19 enl enl.
38