38
UPPSALA UNIVERSITET EXAMENSARBETE Institutionen för lingvistik Språkteknologiprogrammet VT 2002 av Fredrik Granlund [email protected] Felkorrigering av översättningsminnen Handledare: Anna Sågvall-Hein, Institutionen för lingvistik Ingrid Almqvist, Scania CV AB

UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

Embed Size (px)

Citation preview

Page 1: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

UPPSALA UNIVERSITET EXAMENSARBETE

Institutionen för lingvistik Språkteknologiprogrammet

VT 2002

av Fredrik Granlund

[email protected]

Felkorrigering av översättningsminnen

Handledare: Anna Sågvall-Hein, Institutionen för lingvistik

Ingrid Almqvist, Scania CV AB

Page 2: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

ABSTRACT

This report describes processes that I have developed and used when correct-

ing errors in translation memories for the truck manufacturing company

Scania CV. Scania produces large quantities of technical documentation in

Swedish for their products, while applying a policy of controlled language.

A web based tool for maintaining this policy was introduced in 2000,

Scania Checker, but the tool has not been in use when updating already trans-

lated texts. This has been a problem for Scania since the concept of language

control has many advantages, e.g. upholding linguistic quality throughout the

translation processes.

In the report I give a brief introduction to translation memory technology,

aiming at specific tools and techniques currently in use at Scania, before de-

scribing my solutions for checking translation memory texts using the Scania

Checker tool. The resulting errors and error types have been compiled and

analyzed, applicable errors have subsequently been corrected in the memories.

As a result, Scania now have translation memory source language texts that

comply more fully with its standardized controlled language, and these texts

can now also be used for updates.

Translation units that have been corrected in the memories have also been

flagged individually, so that these units easily can be selected for review. This

is particularly useful while target language texts in some cases may need to be

changed, due to more profound source language corrections that alter the

underlying lexical meaning. A suggested method for performing this review

procedure is briefly described at the end of the report along with some con-

cluding suggestions for the future development of these processes and Scania

Checker.

2

Page 3: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

ACKNOWLEDGEMENTS

This report would probably never have been written without the support

from employees at Interverbum Localization, who willingly took on my duties

there while I was working with this project; and in particular Stefan Gunnars-

son whose solid Trados expert advices helped me set some crucial details

straight. Likewise, staff at the Linguistics Department in Uppsala helped me

get started with the project.

Supervisors Anna Sågvall Hein and Ingrid Almqvist, apart from encouraging

the general use of professional linguistic competence in an area where simple

short-term solutions are widespread, have also helped me to clarify many

things in the report.

2002-06-04

Fredrik Granlund

3

Page 4: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

INNEHÅLL

Innehållsförteckning:

Innehållsförteckning:..........................................................................................................................4 1. INLEDNING.....................................................................................................................5

1.1 Bakgrund och syfte .....................................................................................................5 1.2 Uppgiften......................................................................................................................6 1.3 Rapportöversikt ...........................................................................................................6

2 GENERELLT OM ÖVERSÄTTNINGMINNEN..........................................................7 2.1 Filter ...............................................................................................................................7 2.2 Statistik ..........................................................................................................................8 2.3 Fuzzy matching............................................................................................................8 2.4 Interaktiv översättning ...............................................................................................8 2.5 Tillgängliga program...................................................................................................9

2.5.1 Trados Workbench ............................................................................................ 9 2.6 Fördelar med översättningsminnen...................................................................... 10 2.7 Begränsningar och problem med översättningsminnen .................................. 11

2.7.1 Strängmatchning mot hela segment .............................................................13 2.7.2 Textsammanhang går förlorat .......................................................................14

3 ÖVERSÄTTNINGSPROCESSEN PÅ SCANIA.......................................................... 15 3.1 Scanias översättningsminnen................................................................................. 16 3.2 Reglerat språk: Scaniasvenska och Scania Checker........................................... 17

4 ARBETSGÅNG OCH IMPLEMENTERING .............................................................. 19 4.1 Specifikation av uppgiften...................................................................................... 19 4.2 Extraktion av felmeningar...................................................................................... 19

4.2.1 Perlprogrammet tm2htm...............................................................................20 4.3 Resultat: fördelning av felordsmeningar och antal felord................................ 23 4.4 Korrigering av svenska segment ........................................................................... 24

4.4.1 Gula ord – okända ord....................................................................................24 4.4.2 Röda ord – felaktiga ord .................................................................................25 4.4.2.1 Feltyper och rättningsförslag .........................................................................26 4.4.2.2 Rättning av minnen..........................................................................................26 Olämpliga förslag .............................................................................................28 Efterjustering.....................................................................................................29 Resultat ...............................................................................................................29 4.4.3 Gröna ord – grammatikfel..............................................................................29 4.4.4 Flaggning av ändrade enheter ........................................................................31

4.5 Fel i engelska segment............................................................................................. 32 5 SLUTSATSER OCH DISKUSSION................................................................................. 33 REFERENSER ............................................................................................................................... 35 BILAGA 1......................................................................................................................................... 36 BILAGA 2......................................................................................................................................... 37 BILAGA 3......................................................................................................................................... 38

4

Page 5: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

KAPITEL 1 INTRODUKTION

INLEDNING

1.1 Bakgrund och syfte

Huvudsyftet med detta arbete är att anpassa befintliga, redan utförda

översättningar av manualtexter till ett avgränsat reglerat språk –

Scaniasvenska1. Dessa översättningar finns sparade i form av

översättningsminnen bestående av källspråks- och målspråkssegment.

Källspråkssegmenten är på svenska och genom att anpassa dessa till

Scaniasvenskan uppnås flera fördelar:

• En större del av Scanias servicelitteratur blir på Scaniasvenska, med de

fördelar detta innebär, bl. a. enhetligare terminologi och färre

ambivalenser.

• De översättningsenheter vars källspråkssegment anpassats har

markerats, vilket gör det lättare att även anpassa målspråkssegmenten

till godkänt termbruk för målspråk.

• De anpassade minnena kan även komma till användning vid

maskinöversättning, där matchningar i minne innebär att översättning

kan hämtas direkt ur minnet i stället för att belasta

maskinöversättningssystemet, med fördelar som snabbhet och

enhetlighet som följd.

1 Sågvall Hein, 1997. Language Control and Machine Translation.

5

Page 6: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

1.2 Uppgiften

Uppgiften består i att stämma av den svenska delen av Scanias

översättningsminnen mot Scaniasvenskan implementerad i Scania Checker2.

De svenska delarna av minnena anpassas till Scania Checkers krav och de

åtgärder som behöver vidtas i den engelska delen av minnet som konsekvens

av att svenskan anpassats till Scaniasvenskan analyseras .

1.3 Rapportöversikt

Rapporten är uppdelad i fyra egentliga huvuddelar varav den första behandlar

översättningsminnen generellt, fördelar och nackdelar med särskild inriktning

på det överättningverktyg som använts i Scanias översättningsprocess –

Trados. I andra delen av rapporten beskrivs det reglerade språk som Scania

tillämpar med hjälp av Scania Checker, och vidare i tredje delen de processer

som använts för att extrahera svensk text ur Scanias översättningsminnen.

Även den metod som använts för att hantera textöverföring till och från

Scania Checker beskrivs. Resultat av de olika felen som granskaren funnit

redovisas och likaså den metod för minneskorrigering som använts. Vidare

beskrivs vilka typer av rättningar som genomförts och vilka som inte

genomförts för de olika feltyperna, samt återstående antal fel. Den fjärde

delen av rapporten innehåller en sammanfattning och slutsatser av arbetet.

För att göra beskrivningen av reguljära uttryck tydligare har jag försökt hålla

mig till Friedls typografiska konventioner för de tecken han använt i sin bok

Mastering Regular Expressions. Exempelvis betecknar ’• ’ ett mellanslagstecken.

Länkade referenser inom rapporten visas oformaterade trots att de flesta är

klickbara för att underlätta vid läsning med dator.

2 Almqvist och Sågvall-Hein, Language Checker of Controlled Language and its Integration in a Documentation and

Translation Workflow, sid. 9.

6

Page 7: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

2 GENERELLT OM ÖVERSÄTTNINGMINNEN

En generell definition av ett översättningsminne ges av EAGLES3:

”a translation memory is a multilingual text archive containing (segmented, aligned, parsed and classified) multilingual texts, allowing storage and retrieval of aligned multilingual text segments against various search conditions. “

Vilket förenklat innebär att det räcker att ha matchande källspråks- och

målspråkstexter och möjlighet att söka i, spara och redigera texten för att

detta ska kunna definieras som översättningsminne. Men i praktiken skapas

översättningsminnen vanligtvis för att användas tillsammans med något

specifikt översättarverktyg och lagras då i ett databasformat som är särskilt

anpassat för verktyget. Minnet kan sedan återanvändas vid översättning av

liknande texter t.ex uppdateringar. Översättningsminnen skapas normalt

antingen interaktivt vid översättning. så som beskrivs i kapitel 12.4, eller av

färdiga käll- och målspråkstexter m.h.a. alignment-verktyg4. Sådana verktyg

segmenterar upp texterna och skapar översättningsenheter av matchande käll-

och målspråkssegment. Dessa kan även granskas och modifieras manuellt.

2.1 Filter

För att hantera olika filformat är översättningsverktygen försedda med filter

som skiljer ut den översättningsbara texten från formatspecifik kod i

exempelvis XML/HTML/SGML-, RTF- och RC-filer. För andra format,

t.ex. ASP och PHP, kan det vara nödvändigt att utveckla egna filter för att

komma åt texten och lämna kod och taggar orörda.

3 Definition från: EAGLES Evaluation of Natural Language Processing Systems, Final Report. Section E.3.1:

Design and function of translation memory, sid. 140.

4 Exempelvis Trados WinAlign, se även Esselink, A Practical Guide to Localization, sid 365.

7

Page 8: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

2.2 Statistik

Verktygen innehåller funktioner för att få fram nödvändig statistik om de filer

som skall översättas. Hur många ord den översättningsbara texten innehåller,

hur många interna repetitioner som förekommer i texten samt, om minne

används, hur många matchningar som finns i minnet (externa repetitioner).

Dessa faktorer är viktiga för att kunna prissätta ett översättningsarbete korrekt

och för att kunna avgöra om verktyg överhuvudtaget skall användas.

2.3 Fuzzy matching

De viktigaste översättarverktygen använder sig av fuzzy matching, dvs. de klarar

av att matcha segmentsträngar som endast stämmer ungefärligt med strängar i

minnet. Matchningskriterierna sammanfattas i en procentsats som kan sättas

som ett minsta tröskelvärde för att undvika irrelevanta översättningsförslag.

2.4 Interaktiv översättning

Om en text förbehandlats och analyserats enligt 2.1 och 2.2 ovan och visat sig

innehålla många interna eller externa repetitioner, kan den bedömas vara

lämplig för översättning med hjälp av översättningsverktyg och -minne. Detta

går till så att källtext segmenteras av verktyget, vanligtvis i meningar eller

stycken5, och presenteras för översättaren. För varje segment utförs en

sökning efter liknande källspråkssegment i översättningsminnet, varvid

antingen:

• en tillräckligt bra matchning återfinns i minnet. Verktyget skriver då in

den tidigare översättningen i målspråkssegmentet.

eller:

• inget matchande segment hittas. Ett tomt målspråkssegment öppnas

då för manuell översättning.

5 Även tabellceller och listobjekt är möjliga segment, se: Esselink, A PracticalGuide to Localization, sid 363.

8

Page 9: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

Efter att utförd översättning skrivits in, eller eventuell redigering av verktygets

översättningsförslag utförts, sparas segmenten som en översättningsenhet

(translation unit) i översättningsminnet. Redigerade översättningsförslag ersätter

alltså tidigare översättning när de sparas till minnet.

Därmed kan tidigare utförda översättningar återanvändas och resurser sparas,

särskilt vid uppdateringar av repetitiva tekniska manualtexter och

programvarutexter.

2.5 Tillgängliga program

Många olika verktyg som nyttjar tekniken med översättningsminnen finns

kommersiellt tillgängliga. Några av de viktigaste är Trados

Translator’s Workbench (TW), SDLX, STAR Transit, Déjà Vu och

Translation Manager6, varav Trados TW är ett av de mest dominerande på

marknaden för översättningsverktyg7. TW började utvecklas i mitten av

åttiotalet och integrerades tidigt i Microsoft Word genom användande av

Word-makron och -mallar.

2.5.1 Trados Workbench

Figur 1 visar ett källspråkssegment på svenska som öppnats för översättning

med TW, där TW funnit en matchning i minnet och skrivit in motsvarande

målspråkssegment. Detta förslag har översättaren möjlighet att redigera innan

det godkänns.

6 För utförligare översikt se: John Hutchins, Compendium of Translation Software, AMTA 2000.

7 Antalet sålda licenser uppgår till 55.000, Internet 2002-05-31: http://www.trados.com/about/company_profile

9

Page 10: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

Figur 1: Källmening på svenska öppnad för översättning med föreslagen fuzzy-matchning på engelska

från TW-minne

2.6 Fördelar med översättningsminnen

För texter som innehåller mycket lite repetitioner och som inte skall

uppdateras innebär översättningsverktyg med minne knappast några fördelar.

Det är för repetitiva texter som uppdateras ofta som verktygen kommer till

sin rätt, t.ex. underhållsmanualer, webbsidor och programvarutexter inklusive

dokumentation och hjälpfiler. I sin bok A Practical Guide to Localization anger

Bert Esselink följande fördelar med minnesverktyg8:

• Repetitioner återanvänds

interna repetitioner i dokument, vid interaktiv översättning

externa repetitioner i minne, mellan dokumentversioner

• Minnen kan även återanvändas för nya eller liknande produkter

• Integrerad terminologihantering ökar enhetligt termbruk

• Flera överättare kan samtigt använda samma översättningsminne i ett

lokalt nätverk vilket ökar enhetlighet och produktivitet

• Analys- och statistikfunktioner gör det möjligt att planera, fördela och

prissätta översättningsarbetet korrekt

8 Listan har förkortats något. Se: Esselink, A PracticalGuide to Localization, sid 366.

10

Page 11: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

• Enkelt användargränssnitt gör att relativt oerfarna översättare kan

hantera verktyget

• Produktiviteten kan öka med 30 – 50 %

Översättningskostnaderna kan minska med 15 – 30 %

Dessa fördelar avser programvaru- och webblokalisering, men gäller även för

andra typer av repetitiva texter som uppdateras ofta.

2.7 Begränsningar och problem med översättningsminnen

För texter som endast innehåller en liten mängd repetitioner och som inte är

avsedda att uppdateras i framtiden kan det innebära onödigt extra arbete att

använda översättningsverktyg. För vissa texter kan det dessutom vara en

nackdel att återanvända upprepningar. Texter med variation kan uppfattas

som mer livfulla vilket ofta är lämpligt för t.ex. marknadsföringstexter. Men

även vid översättning av repetitiva texter innebär bruk av verktyg en hel del

extra arbete, med för- och efterarbete, samt även en möjlig felkälla. Dessutom

krävs att användaren följer vissa rutiner och tagit hänsyn till de hård- och

mjukvarukonfigurationer som krävs av verktyget. Esselink listar följande

nackdelar med översättningsminnen9:

Översättning/granskning

• Verktygen stöder inte strukturella ändringar av texten. Om exempelvis

texten segmenterats styckevis, kan inte den inbördes meningsföljden

ändras10

• Verktygen visar inte dokumentens layout och format, vilket leder till

att granskning måste utföras efter konvertering till originalformat

9 Listan har förkortats något. Se källtext: Esselink, A Practical Guide to Localization, sid 367.

10 I Trados kan man lösa detta genom att segmentera tillfälligt på meningar, översätta och flytta de färdiga översättningsenheterna så att korrekt meningsföljd för målspråket erhålls.

11

Page 12: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

• Ändringar som utförs i dokumentet vid granskning måste också

införas i minnet, vilket innebär extra arbetsutiner vid granskning

Minne:

• Delning av översättningsminnen utöver intranät stöds inte, vilket

innebär extra arbete för minneshantering, så att olika översättare i

samma projekt skall kunna ha tillgång till uppdaterade minnen

Filter:

• Filkonvertering före och efter själva översättningen med verktyg

innebär extra arbetsrutiner

• Filter är inte alltid anpassade för nya versioner av de filformat de är

avsedda att klara av, vilket kan resultera i skadad eller översatt kod,

eller oöversatt text

• Det kan vara komplicerat och innebära mycket programmeringsarbete

att skapa egna filter för filformat som verktyget inte anpassats till.

Dessa nackdelar är viktiga att beakta vid planering av såväl stora som små

översättningsprojekt. Resurser och tidsmarginaler måste anpassas efter de

olika arbetsmomenten.

När väl översättning med hjälp av översättarverktyg påbörjats uppdagas

ytterligare begränsningar och problem, bl. a. angående verktygens sätt att

matcha hela segment. De repetitioner som analysen visat och som

förekommer i texten är repeterande hela segment. Men vid översättning stöter

man snart på mängder av repetitioner som verktygen inte hanterar. Förutom

rent lexikala repetitioner t.ex. termer, kan det vara frågan om fraser,

kollokationer och idiomatiska uttryck som översättaren måste översätta varje

förekomst av.

12

Page 13: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

2.7.1 Strängmatchning mot hela segment

De verktyg som använder tekniken med översättningsminnen utför

uppslagning och matchning i minnet snabbt med hjälp av fuzzy-logic-

indexering av de sparade översättningsenheterna. Denna typ av matchning ger

översättaren bästa möjliga träff ur minnet, men endast avseende

teckenöverensstämmelse på segmentnivå11. Ingen morfologisk eller syntaktisk

analys utförs. Detta innebär att verktygens användbarhet snabbt minskar med

ökat antal ordformer och minskar ytterligare om ordföljden varieras.

Macklovich och Russel visar hur information lagrad i översättningsminne i

praktiken kan döljas för översättaren eftersom TW inte utför någon

morfologisk analys. Ett exempel på detta är om man med källmeningen i

exemplet i Figur 1 (sid. 10):

”Otillåten signal från gaspedalsgivarens potentiometer”

byter ut ”gaspedalgivare” mot nonsensordet ”gaspedalrivare”. Då erhålls

samma matchningsprocent som ”gaspedalgivare” trots att detta är en ordform

av motsvarande ord i minnet, se Tabell 112:

Tabell 1 I minnet: ändrat ord i källtext: match: GASPEDALGIVARENS GASPEDALGIVARE 92 % GASPEDALRIVARE 92 %

Metoden att matcha meningar innebär att t.ex. varken ”Otillåten signal” eller

”gaspedalsgivarens potentiometer” i exemplet ovan (Figur 1) ger några träffar

i minnet13 när de söks i minnet som fristående strängar. Inte ens

kommaavgränsade delsträngar av ett segment matchas i minnet, enligt

11 Vanligtvis meningar eller stycken, se 12.4. Segmentavgränsning har användaren möjlighet att ställa in

vid minneskonfigurering. För Trados TW, se se TRADOS Specialist Guide, 2-18 sid 39.

12 Se även Macklovich & Russel sid. 139.

13 Endast 16 av 52 tecken matchar, dvs. 31 %. Trados rekommenderar att matchningar under 60 % ignoreras.

13

Page 14: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

Macklovich och Russel14. Ett sätt att, åtminstone delvis, hantera denna

begränsning är att vid översättning låta TW söka i ett terminologilexikon, som

kan skapas från redan gjorda översättningar med hjälp av TW-verktyget Extra

Term. Översättaren måste då fortfarande vid översättning kontrollera att

termen har korrekt form.

Ett verktyg, Déjà Vu, har en funktion som kallas ”Assemble from portions”

som innebär att matchningar på ordnivå faktiskt tillåts, om de är tillräckligt

bra. Härigenom kan översättningsförslag erhållas för delsträngar av

segmenten, t.ex. ord, fraser och termer, oberoende av om de finns med i en

terminologidatabas eller inte.

2.7.2 Textsammanhang går förlorat

Översättningsminnen byggs visserligen normalt upp i en följd när ett

dokument översätts, så att textens diskurs återspeglas i minnet. Men det finns

ingen funktionalitet i TW som uppehåller denna ordning. Översättaren kan

välja att inte bearbeta texten i en följd, eller använda samma minne för olika

textavsnitt. Om flera översättare arbetar mot samma minne byggs minnet upp

av sammanflätade översättningsenheter från de olika översättarnas dokument.

Detta innebär att översättningsenheter kan förekomma helt oberoende av

omgivande enheter i ett minne. För översättaren kan det innebära problem att

avgöra matchande enheters relevans, särskilt för segment som innehåller

lexikala flertydigheter eller syftningar över meningsgränserna. Ett sätt att

hantera denna begränsning är att tillhandahålla referensmateriel i form av

fulltextversioner av tidigare översättningar. Trados har ett nyligen lanserat

verktyg kallat Xtranslate som har funktioner för automatisk sökning av

matchande meningar i fulltextdokument.

14 Macklovich & Russel sid. 140. Detta gäller under förutsättning att kommatecken inte satts som

segmentavgränsare vid konfigurering av minne.

14

Page 15: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

3 ÖVERSÄTTNINGSPROCESSEN PÅ SCANIA

Översättningsprocessen på Scania har beskrivits utförligt av Almqvist och

Sågvall Hein15 och sammanfattas här :

• De texter som skall översättas skrivs av tekniska skribenter på

svenska.

• Terminologin kontrolleras noggrant bl. a. med hjälp av Scania

Checker

• Texten skickas till översättningsföretag för översättning, först till

engelska och sedan vidare till övriga språk.

• Tryckning och distribution av de färdiga texterna

• Översättningsföretagen hanterar de korrigeringar som behöver

utföras i filer och minne.

De layoutprogram som används för att skapa denna typ av manualer och

dokumentation kräver att filkonvertering utförs innan de kan översättas med

hjälp av översättningsminnen. Filer som skapats i FrameMaker FM-format

sparas i MIF-format och konverteras sedan till STF/RTF för översättning

med TW i Microsoft Word16.

När nya texter skapas använder skribenterna Scania Checker som hjälp för att

kontrollera att texten inte avviker från den definierade Scaniasvenskan. När

uppdateringar ska utföras av tidigare gjorda översättningar utnyttjas

översättningsminnena. I detta led har hittills inte Scania Checker kunnat

utnyttjas fullt ut. Eftersom det skulle innebära för mycket manuellt arbete att

15 Almqvist och Sågvall-Hein, Language Checker of Controlled Language and its Integration in a Documentation and

Translation Workflow, sid. 2-4.

16 För detaljer se TRADOS Specialist Guide Chapter 6, sid 130.

15

Page 16: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

använda Scania Checker vid uppdateringar har den endast använts i uppdrag

där texten huvudsakligen nyskapas, se Figur 2.

Men genom att de svenska segmenten i översättningsminnena nu anpassas

efter Scania Checkers förslag blir det möjligt att även få språket i

uppdateringarna anpassat till Scaniasvenskan.

V

e

F

m

NYTTNYTT

NYTT

Figur 2: Scania checker har tidiga

3.1 Scanias översätt

Scanias översättningsmin

uppdateringar som utfört

1994-2000. Minnena anv

servicelitteraturen för att

översättningar. Ett expor

uppmärkta med omslutan

arje översättningsenhet

ventuella attribut, t.ex. n

öljande exempel visar en

arkerat med TW:s bete

17 {\cs6\f1\cf6\lang10

inbäddade typsnittstaggen <F TW inte räknar med den i sin204.

TM

TM

TM

Scania Checker

re inte använts för texter som till största del finns sparade i minne.

ningsminnen

nen är i tradosformat, resultat av översättningar och

s av översättningsföretag för Scania under åren

änds kontinuerligt vid uppdateringar av

möjliggöra återanvändning av redan utförda

terat tradosminne består av översättningsenheter

de taggar <TrU> och </TrU>.

består av källspråks- och målspråkssegment, samt

är det skapats, version, etc.

översättningsenhet där källspråkssegmentet är

ckning för svenska, <Seg L=SV_SE>17 :

16

24 <F 12>}är RTF-filsformatering som här formaterar den 12> för Frame Maker med mallen tw4winInternal, vilket innebär att

strängmatchning av segmentet , se även TRADOS Specialist Guide, sid

Page 17: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

<TrU> <CrD>13072001, 15:07:46 <CrU>FREDRIKG <Att L=Customer>Scania <Att L=Translator>Internal <Seg L=SV_SE>Kontrollera{\cs6\f1\cf6\lang1024 <F 12>} s{\cs6\f1\cf6\lang1024 <F 4>}litage och funktion. <Seg L=EN_US>Check for{\cs6\f1\cf6\lang1024 <F 12>} w{\cs6\f1\cf6\lang1024 <F 4>}ear and function. </TrU>

I TW visas samma enhet på följande sätt, i dess konkordansfönster:

Figur 3. TW visar segmenttext från minne med symboler för formateringsinformation

Innan texten i segmenten med svensk text skickas till Scania Checker krävs att

formateringsinformationen17, markerad med TAG i Figur 3, tas bort och att

den egentliga texten, i exemplet ovan ”Kontrollera slitage och funktion”

extraheras.

3.2 Reglerat språk: Scaniasvenska och Scania Checker

Scaniasvenska har definierats för att underlätta översättning och göra

terminologibruket mer enhetligt inom Scania. Genom att begränsa

• antalet synonymer

• antalet svåröversatta eller svårbegripliga ord

• bruk av ordstam för sammansättningar och avledningar

har ett kontrollerat subspråk definierats – Scaniasvenska18. Detta har sedan

implementerats i Scania Checker, ett webbaserat verktyg som även utför

grammatikkontroll. Bakom webbgränssnittet där användaren matar in text, se

Figur 4 nedan, finns programfunktioner som analyserar och gör

18 Almqvist och Sågvall-Hein, Language Checker of Controlled Language and its Integration in a Documentation and

Translation Workflow, sid. 9.

17

Page 18: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

lexikonuppslagning i lexikondatabasen Scania Lexicon när en användare

klickar på knappen Kontrollera.

Figur 4: I Scania Checkers formulärfält skriver användaren in den text som ska skickas för granskning

Resultatet får användaren i HTML-format tillbaka till webbläsaren, där de

felaktigheter Scania Checker funnit är markerade med hjälp av formatmallar

med gult för ord som inte återfinns i lexikon (word-warn), rött för ord som

ska bytas ut (word-err) och grönt för grammatikfel (gram-err)19. Information

om respektive fel anges på webbläsarens statusrad när användaren för

muspekaren över ett felord. Scania Checker ger t.ex. förslag på ersättningsord

för varje word-err-markerat ord, se bild nedan:

Figur 5: Scania Checker föreslår korrigering av word-err-markerade avgasledningar till avgasrör20.

19 Almqvist och Sågvall-Hein, Language Checker of Controlled Language and its Integration in a Documentation and

Translation Workflow, sid. 5-6.

20 De andra markerade orden, högdämpande och VP, är word-warn-markerade med gult.

18

Page 19: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

Scania Checker är ett lättanvänt och smidigt verktyg avsett för kontroll av

mindre textmassor. Vid större textmängder än c:a 5 000 rader blir dock

resulterande HTML-fil stor, svårhanterbar och minneskrävande om man vill

se resultatet i en vanlig webbläsare. Det tar dessutom längre tid för Scania

Checker att behandla större mängder text.

KAPITEL 4 METOD

4 ARBETSGÅNG OCH IMPLEMENTERING

4.1 Specifikation av uppgiften

Uppgiften består av följande deluppgifter21:

• Extraktion och kategorisering av meningar som får felmeddelande i Scania Checker

(kap. 4.2 och 4.3)

• Åtgärder pga Scania Checker-kontroll:

okända ord: gulmarkerade ord skickas till terminologiansvarig på Scania efter att

uppenbara felaktigheter korrigerats i minne

kända felaktiga ord: rödmarkerade ord – ändringen utförs i minne

grammatikfel: grönmarkerade ord – ändringen utförs i minne

• Märkning av de översättningsenheter som ändrats

• Analys av de märkta översättningsenheternas engelska segment (kap. 4.5): kategorisering av de feltyper som behöver korrigeras.

4.2 Extraktion av felmeningar

För att kunna extrahera de meningar som innehåller felaktiga ord behöver

texten i de svenska segmenten plockas ut ur översättningsminnena och

skickas till Scania Checker. Denna analyserar texten och returnerar resultatet i

HTML-format, där de felaktiga orden är färgmarkerade. Ur denna text

21 Sammanfattning från specifikation av examensarbete: Almqvist, Fredrik Granlund: Exjobb, 2000.

19

Page 20: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

extraheras alla de meningar som innehåller något fel och sorteras efter feltyp,

se figur 6 nedan.

Den här processen för extraktion av felmeningar har implementerats i ett

perlprogram, tm2htm, vars viktigaste funktioner beskrivs i kapitel 4.6.1

nedan.

svensk text

TM

Figur 6: Huvudprocessen: tm2htm hämtar text ur TM, skicoch extraherar felmärkningar som utgör grund för den minn

4.2.1 Perlprogrammet tm2htm

I det här kapitlet beskrivs hur minnena förbeh

kunna skickas till Scania Checker för gransknin

och felord extraheras ur den resulterande htm

minnen som undersökts är på sammanlagt 62

enheter22, dvs. meningar eller stycken liknande

i form av två textfiler på sammanlagt närmare

förbehandlas på flera sätt, dels har jag delat up

att den sök- och ersätts-process som beskrivs

snabbt och smidigt. Dels delar tm2htm upp v

valfritt antal filer bl. a. för att inte resulterande

Men den formateringsinformation som beskri

också här, eftersom Scania Checker inte har fu

typen av information. Det är endast den svens

tm2htm plockar därför ut de rader som börja

av Perls inbyggda grep-funktion. Eftersom ing

22 Antalet avser efter att minnena reorganiserats, vilket

språksegment slagits samman. Före reorganisering var anta

Scania Checker

we ge ww

Minnesrättning

kar till Scania Checker, tar emot resultatet eskorrigering som beskrivs i kap 4.8.

andlas av tm2htm för att

g och hur meningar med fel

l-koden. De översättnings-

563 unika översättnings-

exemplet på sid 16. Minnena är

22 MB. Dessa filer

p filerna i åtta mindre filer för

nedan i kap 4.4.2.2 ska gå

ar och en av dessa åtta filer i ett

html-filer ska blir för stora.

vs ovan i kapitel 3.1 behandlas

nktioner för att hantera den

ka texten som skall granskas, så

r med <Seg L=SV_SE> med hjälp

a radbrytningstecken per

20

bl.a. innebär att enheter med identiska let enheter 73 237.

Page 21: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

definition23 får finnas i giltiga segment, så innebär detta att varje urplockad rad

verkligen innehåller ett fullständigt svenskt segment. Men såsom tidigare

beskrivits innehåller även den svenska texten information som är irrelevant

för Scania Checker, nämligen formateringsinformation (se kap 3.1). Denna är

specifik för de ordbehandlingsprogram som använts, Microsoft Word och

Adobe Frame Maker, och har sparats som text i minnet. Det här är inte

frågan om någon lexikal information, men skulle tolkas av Scania Checker

som felord av typen word-warn, dvs. okända ord. Ett alternativ vore att i

stället ta bort denna information ur den resulterande html-koden, men det

skulle innebära nackdelar genom att Scania Checker då skulle få en större

mängd text att bearbeta, kontrollen skulle gå långsammare att utföra och

resulterande filer blir större. Formateringsinformationen tas därför alltså bort

eller ersätts av mellanslagstecken. I tm2htm sker detta med hjälp av reguljära

uttryck innan texten skickas till Scania Checker. De två vanligaste typerna av

formateringsinformation visas i Tabell 2:

Tabell 2 Reguljärt uttryck: Matchar: Exempel: <[^>]*> STF-taggar24 <F•12>

\{[^• ]*•\} RTF-formatering25 {\cs6\f1\cf6\lang1024•text}

Exempel på andra, mindre vanliga formateringstyper som tm2htm tar bort

eller ersätter är \lquote och \rquote, dvs. de engelska tecknen ( “ ) och

( ” ) för höger, respektive vänster citationstecken. Vissa koder för skiljetecken

kan inte tas bort utan att ersättas av något annat passande tecken, t.ex.

\emdash för långt tankstreck ( – ) och <SP> för mellanslag ( • ). 23 Denna definition kan kringås genom att temporärt ersätta radbrytningar med något tecken som

används som unik identifierare och formateras med mallen tw4winInternal, t ex ¤.

24 Formateringsinformation för Frame Maker, ’<[^>]*>’: matchar ett ’<’ följt av godtyckligt antal tecken som inte är ’>’, följt av ’>’, dvs. endast enkla taggar, ej inbäddningar.

25 Formateringsinformation för RTF, ’\{[^• ]*•\}’: bakstrecken ’\’ markerar specialtecknen för klammerparenteser ’{’ och ’}’. ’[^• ]*• ’ matchar godtyckligt antal tecken som inte är mellanslag ’• ’, följt av mellanslag ’• ’ (tecknet efter asterisken).

21

Page 22: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

När texten rensats från formateringsinformation ska den skickas till Scania

Checker, men en så här stor mängd text kan inte behandlas vid ett tillfälle

utan måste delas upp i ett lämpligt antal småfiler. För att automatisera

textöverföringen till och från Scania Checker använder programmet Perls

inbyggda förenklade webbläsare (LWP26, libwww-perl). Men denna lösning

kräver i sin tur ytterligare en del förbehandling av den text som ska skickas.

I motsats till konventionella webbläsare måste MIME-typ anges som

”content_type”, se Kodexempel 4. Scania Checker tar nämligen normalt emot

formulärtext från en webbläsarklient, se Figur 4, vilket innebär att texten

automatiskt MIME-kodas med URL-kod av webbläsaren. Detta innebär att

vissa tecken kodas om, exempelvis mellanslag kodas om till %20. Denna

omkodning görs i tm2htm och formulärfält definieras innan texten skickas

som en förfrågan till Scania Checker. Texten i de filer som skickas (@fil i

Kodexempel 1 nedan) är alltså URL-kodad, rensad från radbrytningar och

skickas som en enda sammanhängande teckensträng tillsammans med

formulärfältsdefinitioner till Scania Checker. När texten analyserats av Scania

Checker returneras resultatet i form av HTML-kod som tm2htm sparar lokalt

i HTML-filer (filnamn.html i kodexemplet nedan).

Ur varje HTML-fil extraheras sedan felmeningar för respektive felordstyp

som sorteras i var sin fil.

26 LPW är en modul som medföljer Perl. Se dokumentationen för modulen genom att köra ”perldoc

LPW” i kommandotolk för system med Perl installerat. Finns även på Internet: http://aspn.activestate.com/ASPN/Products/ActivePerl/site/lib/LWP.html

22

Page 23: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

Kodexempel 127:

1. $browser = LWP::UserAgent->new(); 2. my $req = new HTTP::Request POST => 'http://www.server.se/Scaniachecker.perl'; 3. $req->content_type('application/x-www-form-urlencoded'); 4. $req->content(@fil); 5. my $res = $browser->request($req,"filnamn.html");

4.3 Resultat: fördelning av felordsmeningar och antal felord

I de översättningsminnen som testats visade sig nästan en fjärdedel av

översättningsenheterna innehålla felord, varav 55 % ej igenkända ord (word-

warn) och 54 % igenkända men felaktiga ord (word-err). Andelen enheter

med grammatikfel (gram-err) varierade mellan 0,5 % och 5 %. Tabell 3 visar

antalet felordsmeningar i förhållande till det totala antalet

översättningsenheter. Närmare två tusen meningar innehöll fler än en typ av

felmärkning.

Tabell 3: Antal och andel översättningsenheter med felordsförekomst i Scanias översättningsminnen

word-warn word-err gram-err

Summa

meningar

med felord:

Översättningsenheter 8 321 (13 %)

8 155 (13 %)

614 (1 %)

15 148 (24 %)

För att få fram antal felord av respektive feltyp skrevs först ett VBA-makro28

som nyttjar formatmallsuppmärkningen av felorden. All text som inte är

27 Radvis sammanfattning av koden:

1. Webbläsarobjekt skapas

2. Förfrågan till Scania Checker skapas (här med fiktiv webbadress)

3. Innehållstypen på förfrågan sätts till URL-kodad text

4. Den URL-kodade texten i @fil utgör innehållet i den förfrågan som skickas

5. Svaret på förfrågan sparas lokalt, här som filen "filnamn.html"

28 VBA (Visual Basic for Applications) är ett delspråk av Microsoft Visual Basic

23

Page 24: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

färgmarkerad rensas bort och återstående felord sorteras och rensas på

dubletter manuellt m.h.a. sort och uniq. Detta VBA-makro tog lång tid att

exekvera så därför skrev jag perlskript (greperr och tocol) som snabbt skapar

tabbseparerade textfiler med felord, men med enklare programkod. Antal

felord redovisas i Tabell 4:

Tabell 4: Antal felordsförekomster och felordstyper word-warn word-err gram-err Totalt:

antal förekomster 10 592 9 098 784 20 474

felordstyper 5 580 1 839 340 7 759

Den mest förekommande felordstypen är word-warn. De allra flesta av dessa

bör sannolikt tillföras Scania Lexicon. Alla felordstyper har analyserats med

särskild fokus på word-err-orden. Drygt 8 000 rättningar har utförts i minnet.

4.4 Korrigering av svenska segment

4.4.1 Gula ord – okända ord

De word-warn-markerade orden är ord som inte återfinns i Scania Checkers

lexikon av följande skäl:

1. Ord som bör finnas i lexikon

2. Felstavade ord

3. Uttryck som bör matchas av Scania Checker

Jag har med hjälp av Words stavningskontroll identifierat 485 felstavade ord,

varav de flesta endast förekommer någon enstaka gång. Bland de ord som

förekommer mer än sex gånger hittade jag inga felstavningar. Fördelningen av

felstavade ord illustreras i ett diagram i Bilaga 2. De felstavade orden har

rättats i minne m.h.a. ett Windows-baserat verktyg, Search & Replace

(SR v. 3.9), som hanterar textersättning med reguljära uttryck, se Figur 7.

24

Page 25: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

Figur 7: Sökning i minne efter fyra förekomstrer av smörjschemorna som ersätts med smörjschemana med

hjälp av Search & Replace.29

Den ordlista med word-warn-ord som återstår efter rättning innehåller till

största del ordförslag till lexikonuppdatering, men även en hel del

teckensträngar som bör kunna hanteras av Scania Checker, exempelvis

sifferuttryck, sökvägar i filsystem och variabelnamn. I Scania Checker finns

nämligen funktionalitet med reguljära uttryck30 för att hantera denna typ av

text. En del word-warn-ord är också avstavade ord där borttagandet av

formateringsinformation felaktigt lett till nya ordformer31.

4.4.2 Röda ord – felaktiga ord

Det huvudsakliga korrigeringsarbetet som utförts har gällt word-err-märkta

ord. Meningar som innehåller sådana ord sparas av tm2htm i en fil we.html.

Ur denna har felord med ändringsförslag extraherats med hjälp av Perls

inbyggda grep-funktion, sorterats och rensats från dubletter (m.h.a. sort och

29 Search & Replace använder en egen syntax för vissa reguljära uttryck, t.ex. står *[] för valfritt antal

godyckliga tecken och utropstecken ( ! )för negation. För mer information se webbsida: http://www.funduc.com/regexp.htm

30 Almqvist och Sågvall-Hein, Language Checker of Controlled Language and its Integration in a Documentation and

Translation Workflow, sid. 14.

31 Exempel: växel-lådan

25

Page 26: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

uniq) kolumnvis till en textfil innehållande felord och Scania Checkers förslag

på ändring, se Tabell 6. Denna fil har sedan utgjort underlag för det

interaktiva sök- och ersättningsprogrammet errfixtm som beskrivs i kapitel

4.4.2.2.

4.4.2.1 Feltyper och rättningsförslag

Ändringsförslagen återspeglar den definierade Scaniasvenskan, vars syfte är att

minimera förekomst av synonymer, svåröversatta ord, svårbegripliga ord samt

öka enhetlighet vid ordbildningar. Bland Scania Checkers rättningsförslag

finns många exempel på svårbegripliga sammansättningar som kan förtydligas

genom uppdelning i huvudord följt av prepositionsfras. Andra

ändringsförslag beskriver ofta termens funktion tydligare än tidigare. Många

termer saknar även inskotts-s eller är felstavade. Tabell 5 visar exempel på

olika feltyper. Bilaga 3 visar de vanligaste felordsförekomsterna.

Tabell 5: Olika feltyper Feltyp: Funnet fel Scania Checkers rättningsförslag otydlighet sammansättning Kylsystemprovare Tryckprovare för kylsystem otydlighet, funktion oljeavloppsrör returoljerör inskotts-s ventilskafttätning ventilskaftstätning felstavning noggran noggrann avstavning by-passledning by-pass-ledning förkortning d.v.s dvs. synonymer dieselbränsle

dieselbrännolja diesel

4.4.2.2 Rättning av minnen

Scania Checkers rättningsförslag visar ordet lemmatiserat. Det innebär att

ändelser måste tillföras varje rättningsförslag i rättningsfilen innan korrigering

kunnat utföras. Exempel:

Tabell 6: Rättningsfil: felord och Scania Checkers förslag med manuellt justerad ändelse dieselbränsle diesel dieselbränslet diesel + n dieselbränslets diesel + ns

26

Page 27: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

Denna fil utgör sedan underlag för det interaktiva sök- och

ersättningsprogrammet errfixtm32, se Figur 7, där varje förekomst av felord

söks upp i de svenska segmenten i minne och visas tillsammans med hela den

mening ordet ingår i:

Figur 7: Programmet errfixtm visar hela den omgivande meningen för varje felord

Om Scania Checkers ändringsförslag visar sig vara olämpligt att utföra i aktuell

mening, kan användaren välja att avstå genom att skriva n+Enter. Man kan då

välja att fortsätta bearbeta minnesfilen med samma felord (Enter), eller gå vidare

till nästa felord i rättningsfilen (n+Enter). Om användaren i stället godkänner

förslaget utförs ändringen genom att trycka på Enter-tangenten och programmet

söker efter nästa förekomst av aktuellt felord. När ingen ytterligare

felordsförekomst hittas, plockas nästa ordpar från rättningsfilen.

Utförd ersättning sparas tillsammans med hela segmentet i en textfil logg.txt, för

eventuell granskning, och de ordpar i rättningsfilen som bearbetats loggas i

done.txt.

32 Följande reguljära utrryck utför själva ersättningen i errfixtm:

Matchning: ^(<Seg L\=SV_SE>(.*))$errword(.*)

Ersättning: <Att L\=Word\-err fixed>in Swedish\n$1$cure$3

där $1 och $3 är text före respektive efter ändringsförslaget $cure inklusive inledande segmenttagg.

27

Page 28: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

Olämpliga förslag

Det förekommer texter i minnena där Scania Checkers ändringsförslag inte är

tillämpbara. Exempel på detta är flertydiga ord där betydelsen i Scania Checkers

förslag inte är densamma som hos den förekomst som finns i minnet. Tabell 7: Exempel på olämpliga förslag: polysemi

Funnet fel Scania Checkers rättningsförslag Text i minne:

insatt isatt …är väl insatt i arbetet… ringa liten …för att ringa in problemet…

Relativt vanligt förekommande är också att Scania Checkers förslag redan finns

med i texten, t.ex.: Tabell 8 Exempel på olämpliga förslag: förslag finns redan

Funnet fel Scania Checkers rättningsförslag Text i minne:

hjulbas axelavstånd Ange fordonets axelavstånd (hjulbas). lackering målning Vid lackering eller målning har färg…

Även samförekomst med andra ord kan göra ändringen olämplig: Tabell 9 Exempel på olämpliga förslag: samförekomst med befintliga ord

Funnet fel Scania Checkers rättningsförslag Text i minne:

explosionsfarliga explosiv …brand- och explosionsfarliga ämnen… farthållning konstantfarthållning …konstant farthållning…

Sammansättningar som delats upp i huvudord och prepositionsfras kan bli

onaturliga i genitivform: Tabell 10 Exempel på olämpliga förslag: onaturlig genitivform

Funnet fel Scania Checkers rättningsförslag Text i minne:

Reglerstångslägesgivarens Lägesgivare för reglerstångReglerstånglägesgivarens spänning är en intern spänningsnivå…

I vissa fall ger Scania Checker rättningsförslag för ett ord, men missar samma ord

när det förekommer i en sammansättning33. Det förekommer även att ord både

markeras med word-warn och word-err, men att den andra markeringen felaktigt

”drabbar” efterföljande ord eller tecken. Scania Checker föreslår även korrigering

33 Exempelvis ”diffspärr” markeras för ändring till differentialspärr, men inte ”diffspärrinställning”.

28

Page 29: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

av förkortningar som redan är korrekta och i enlighet med förslaget. De

vanligaste felorden redovisas i Bilaga 3.

Övriga ändringsförslag som inte kunnat utföras är när Scania Checker angett

”Annan formulering” eller ett antal sammanhangsspecifika alternativ, t.ex.

”extravärmare; motorvärmare; bränslevärmare, etc.”34 och där det inte gått att

säkert avgöra vilket alternativ som är korrekt. Dessa förslag utgjorde tillsammans

4 % av de 1 839 felordsformerna.

Efterjustering

Många av Scania Checkers ändringsförslag innebär ändring av genus hos

ersättningsordet vilket kan medföra kongruensfel efter utförd ersättning.

Efterjustering måste då utföras manuellt, för exempel se nedan och Tabell 6: Tabell 11 Efterjustering av kongruensförhållanden

Funnet fel Scania Checkers rättningsförslag Text i minne:

glödpluggen glödstiftet …glödpluggen får spänning från flamstartens styrenhet värms den upp så…

displayen teckenfönster När strömbrytaren är i läge ”ON”, är displayen aktiv.

Resultat

Efter rensning av minnena återstod 11 % av felorden där rättningsförslag inte

kunnat genomföras35.

4.4.3 Gröna ord – grammatikfel

Funktionen för grammatikkontroll i Scania Checker blockeras när stora

mängder text bearbetas. Antalet förekomster av gram-err vid körningar med

endast 10 rader text åt gången resulterade i tre gånger mer

grammatikfelsförekomster36 jämfört med körning med tusentals rader text.

34 Som alternativ till värmare.

35 Totalt 203 av 1.839 felordsformer lämnades utan åtgärd.

36 Småfiler med 10 rader vardera resulterade i 330 grammatikfel, jämfört med 110 fel vid körning med 3 000 rader text per fil.

29

Page 30: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

Av 217 olika förekomster av grammatikfel i word-err-korrigerat minne har

drygt hälften åtgärdats enligt Scania Checkers instruktioner, resten lämnades

utan åtgärd eftersom förslagen inte verkade tillämpbara. Samma arbetsmetod

som för word-warn-orden har använts för grammatikrättningarna, SR har

använts för att utföra rättningarna. De vanligaste grammatikfelen avser

substantiv, fel form eller genus och särskrivna sammansättningar. Totalt fann

Scania Checker 21 olika typer av grammatikfel i det word-err-korrigerade

minnet, tabell 12 visar de vanligaste felen37:

Tabell 12 De vanligaste typerna av funna grammatikfel Antal fel:

Typ av grammatikfel: Exempel38:

80 Fel form på substantivet Denna beskrivningen berör funktionen för hela det mekaniska systemet

75 Särskriven sammansättning, obestämd form: bindestreck saknas

EBS funktion utan begränsningar på bilen

32 Fel genus på substantivet eller dess bestämning

Inget annan köldmedium än R134a får användas .

27 Fel numerus på adjektivet i predikatsfyllnaden

Ta bort proppen och tappa ur oljan när de är varm

24 Infinitivmärke att saknas efter vissa verb

Om du väljer Inaktiv så kommer man bara kunna ställa in tomgångsvarvtalet

17 Fel numerus på substantivet eller dess bestämning

…rikta in ljuddämparen och dra fast alla klammer

14 Särskriven sammansättning, bestämd form: bindestreck saknas

Diagnosprogrammet kommunicerar med BNS systemet

12 Fel genus på adjektivet i predikatsfyllnaden

… om fordonet är utrustad med en retarderspak

10 Särskriven sammansättning eller grundkasus i stället för genitiv

ELC Bosch Buss

9 Särskriven sammansättning eller bestämd form efter genitivattribut

Europa standard: EN 590

37 Fullständig förteckning över grammatikfelstyperna finns i Appendix A

38 Klicka på länken för att se hela segmentet

30

Page 31: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

De ”sämsta” förslagen rörde endast ett fåtal förekomster. Följande förslag

föranledde vid en första granskning inte till några ändringar men skulle

samtliga tjäna i tydlighet på att skrivas om:

Tabell 13 De typer av grammatikfel som inte ändrats Fel verbform efter modalverb

Utifrån de värden styrenheten får styr den magnetventilen V58, glödstiftet H10 och kontroll lampan W35.

Kommatering: ...styrenheten får, styr den...

Supinum i stället för imperativ

Förberett för körriktningsvisare på släpvagn

Komplettering av sats: Det är förberett...

Dubbelt supinum

Omkalibrering måste göras om styrenheten blivit omkonfigurerad eller färdbromsventilen blivit bytt

Komplettering med hjälpverb: ...har blivit bytt

Predikatsverb saknas

Vrid svänghjulet så att märkningen 72° på svänghjulet syns i det nedre fönstret på svänghjulskåpan och det samtidigt är ventilväxling på cylinder 5

Bisatskonstruktion: ...svänghjulskåpan, samtidigt som det är...

Några av Scania Checkers bästa förslag redovisas i Bilaga 139.

4.4.4 Flaggning av ändrade enheter

Det är viktigt att kunna identifiera de rättade meningarna så att motsvarande

målspråkssegment lätt kan kontrolleras. Därför har en markering lagts till

varje översättningsenhet som rättats i minne. I errfixtm sker detta om

användaren godkänner föreslagen ersättning, i SR genom att markeringen,

följd av radbrytningstecken40, infogas före ersättningsordet. Markeringarna

följer Trados konvention för definition av attributfält. Följande exempel visar

markering för word-err-korrigeringar:

<Att L=Word-err fixed>in Swedish.

Vid granskning av de engelska segmenten i ändrade översättningsenheter kan

39 Fullständig lista över de funna grammatikfelen, ordnad efter feltyp, finns här.

40 I SR motsvarar \r ASCII-tecknet <CR> (carriage return) och \n tecknet för <LF> (line feed)

31

Page 32: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

detta utföras i TW genom att begränsa sökningen till flaggade enheter i TW’s

minnesunderhållsfunktion. Då visas vid sökning endast de ändrade enheterna

och modifieringar i målspråkssegment kan utföras direkt i minnet41, se bild

nedan:

Figur 8: Resultat av sökning begränsad till flaggade enheter med TWs underhållsfunktion

4.5 Fel i engelska segment

De funna grammatikfelen kräver normalt ingen korrigering i det engelska

segmentet. Däremot kan vissa av de röda word-err-förslagen kräva åtgärder i

motsvarande engelska segment. Exempel på detta är när ord förtydligats så

mycket att även motsvarande ord på engelska behöver specificeras ytterligare.

Eller motsatsen – när begrepp förenklats så mycket på svenska att även

motsvarande begrepp på engelska bör förenklas, se exempel nedan.

Tabell 14 Efterjustering av kongruensförhållanden Feltyp: Exempel Svenskt segment

Ändring nödvändig iengelskt segment

otydlighet sammansättning

Kylsystemprovare Tryckprovare för kylsystem Ja

synonymer dieselbränsle dieselbrännolja

diesel Ja

Andelen engelska segment som behöver åtgärdas har jag m.h.a. sampling

uppskattat till c:a 14 %.

41 Genom att högerklicka på målspråksflaggan och välja Edit i menyn.

32

Page 33: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

5 SLUTSATSER OCH DISKUSSION

Det här examensarbetet har lett till att specifika problem åtminstone delvis

kunnat lösas genom att över 8 000 rättningar har utförts i Scanias

översättningsminnen. Scaniasvenskan kan nu tillämpas, inte enbart vid

nyskrivning av text, utan även vid uppdateringar av tidigare översatta

dokument. Jag har, parallellt med att arbetet utförts, dokumenterat och

implementerat de olika delprocesserna för granskning och rättning av

minnena som illustreras i Figur 6.

Genom att tillämpa dessa processer kan översättningsminnen även

fortsättningsvis korrigeras regelbundet allteftersom de byggs upp, vilket

säkerställer att textinnehållet är i enlighet med Scaniasvenskan. Delar av

processen kan automatiseras genom att sätta samman de viktigaste delarna

och göra dem tillgängliga via ett enstaka kommando (t.ex. knapptryckning)

som resulterar i:

• lista över lexikonförslag (word-warn-ord)

• lista över rättningsförslag (word-err). Listan över rättningsförslag bör

även kunna förses med ändelser, se Tabell 6, så att den kan levereras

så komplett som möjligt till användare, som sedan manuellt får

övervaka sök- och ersättsprocessen i minne.

• lista över meningar med grammatikfel

Förutom dessa uppgiftsspecifika resultat har mitt examensarbete även

inneburit att Scania Checker testats med större textmängder än tidigare.

Resultatet bör kunna användas vid en förbättring av programmet. Dessa

förbättringar bör lämpligen innefatta:

33

Page 34: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

• komplettering av Scanias matchningsregler för igenkänning av, i första

hand typbeteckningar, nummer, variabelnamn, etc.

• funktionalitet för att hantera större textmängder med bibehållen

grammatikkontroll

Denna metod bör även innebära fördelar jämfört med det ofta

förekommande alternativet att kassera gamla minnen med fel, för att istället

nyskapa text och bygga nya minnen. Robusta och effektiva feedback-

processer som interagerar med granskningsverktyg som Scania Checker, bör

tillsammans kunna utgöra en god grund för kontinuerligt underhåll av

översättningsminnen allteftersom de skapas.

34

Page 35: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

REFERENSER

Almqvist, Ingrid & Sågvall Hein, Anna, 1996 2000: A Language Checker of Controlled Language and its Integration in a Documentation and Translation Workflow. I Proceedings from the Aslib conference, London, 16 & 17 November, 2000. London, Aslib. Almqvist, Ingrid, 2000: Fredrik Granlund: Exjobb, Scania CV AB (ej publ.). EAGLES Evaluation of Natural Language Processing Systems, Final Repor, 1995. EAGLES document EAG-EWG-PR.2 (1995). http://issco-www.unige.ch/ewg95/ Esselink, Bert., 2000: A Practical Guide to Localization, J. Benjamins Publishing Co., Holland. Fiedl, Jeffrey E. F., 1997: Mastering Regular Expressions, O’Reilly & Associates Inc., USA. Macklovitch, E. & Russell G., 2000: What’s been Forgotten in Transla-tion Memory. I White, J.S. (ed.), 2000: AMTA 2000, LNAI 1934. Berlin, Springer-Verlag, Tyskland. Fil i PS-format: http://www-rali.iro.umontreal.ca/pub/AMTA-2000.ps Sågvall Hein, A., 1997: Language Control and Machine Translation. In: Proceedings of the 7th International Conference on Theoretical and Methodological Issues in Machine Translation. July 23-25, 1997. St. John’s College, Santa Fe, USA. Trados: TRADOS Specialist Guide, 2001. Fil i ZIP-arkiv: http://support.trados.com/download/TS_T5_en.zip

35

Page 36: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

BILAGA 1

Samtliga typer av grammatikfel och antal:

Antal fel:

Typ av grammatikfel:

80 Fel form på substantivet 75 Särskriven sammansättning, obestämd form: bindestreck saknas 32 Fel genus på substantivet eller dess bestämning 27 Fel numerus på adjektivet i predikatsfyllnaden 24 Infinitivmärke att saknas efter vissa verb 17 Fel numerus på substantivet eller dess bestämning 14 Särskriven sammansättning, bestämd form: bindestreck saknas 12 Fel genus på adjektivet i predikatsfyllnaden 10 Särskriven sammansättning eller grundkasus i stället för genitiv 9 Särskriven sammansättning eller bestämd form efter genitivattribut 7 Fel form av pronominet efter preposition 6 Fel verbform efter modalverb 4 Dubbel passiv 3 Supinum i stället för imperativ 2 Fel form av adjektivet 2 Fel verbform efter temporala hjälpverb 2 Överflödigt infinitivmärke att efter vissa verb 1 Dubbelt supinum 1 Infinitivmärke att saknas efter preposition 1 Predikatsverb saknas 1 Överflödigt substantiv, stryk

Grammatikfel sorterade efter andelen utförda förslag:

Antal fel:

Typ av grammatikfel: Andel utförda:

2 Fel verbform efter temporala hjälpverb 100% 2 Överflödigt infinitivmärke att efter vissa verb 100% 1 Överflödigt substantiv, stryk 100% 12 Fel genus på adjektivet i predikatsfyllnaden 75% 7 Fel form av pronominet efter preposition 60% 24 Infinitivmärke att saknas efter vissa verb 59%

36

Page 37: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

BILAGA 2

De vanligaste word-warn-felen och identifierade felstavningarna, ordnade

efter antal förekomster:

Word-warn-fel 247 checklista 48 VIKTIGT 41 givargrupp 33 klimatmodulen 29 retarder-styrenheten 28 AKTIV 28 maskinrummet 27 INAKTIV 23 AC-aggregatet 23 färddata 23 överstigits 22 SP2-programmet 22 pol-par 21 Feltillståndet 21 VP 20 BNS-generation

Korrigerade felstavade ord 6 1och 6 2.Kontrollera 6 konstanfartbromsning 5 Bytesintervaller 5 driftstimmar 5 reglerars 4 Körriktningsvisarelampor 4 ettmatningsrelä 4 fjädringsbägar 4 ing 4 oljetryckvakt 4 programmer 4 radioknappen 4 smörjschemorna 4 takanalen

37

Page 38: UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf ·  · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization

BILAGA 3

De vanligaste word-err-felen ordnade efter antal förekomster:

Antal Förekomst i minne: Felbeskrivning/ersättningsord: 960 t.ex t.ex. 164 förprogrammerad konfigurera; förinställa 127 värmare extravärmare; motorvärmare; bränslevärmare etc.70 noggrant noggrann 63 m.m m.m. 55 Typ typ 53 entrédörren främre dörr; bakre dörr etc. 52 brukar använda 50 Punktreparation annan formulering 49 T.ex t.ex. 49 tas tas 40 Oringar O-ring 38 0C Mellanslag mellan siffra och måttenhet 38 rullriktningen rullriktning 35 entrédörr främre dörr; bakre dörr etc. 35 ändar ände 34 Chassi chassi 34 Smörjsystem/Kylsystem Ersätt snedstreck med annan formulering 32 är axelände 31 Km/h Ersätt snedstreck med annan formulering 30 acc acc. 29 timmar timme 29 värmemattning fading 27 Tomgång/Avstängd Ersätt snedstreck med annan formulering 26 mg/l Ersätt snedstreck med annan formulering 26 punktreparation annan formulering 24 bromspedalkaraktäristik annan formulering 23 block cylinderblock; motorblock; blinksekvens etc. 20 Serviceintervall formen serviceintervallen 19 Bogsering/bärgning Ersätt snedstreck med annan formulering 19 Reglerventil/in Ersätt snedstreck med annan formulering 19 bakaxel/boggibelastning Ersätt snedstreck med annan formulering 19 enl enl.

38