Alfabet og språkteknologi - uni-freiburg.desaami.uni-freiburg.de/psdp/components/documents/... ·...

Preview:

Citation preview

Problemanalyse Alfabet og datamaskin Språkteknologi

Alfabet og språkteknologi

Ciprian-Virgil Gerstenberger

Universitetet i TromsøNorge

Skriftspråk och språkteknologi15.05.2011 Arjeplog, Sverige

Problemanalyse Alfabet og datamaskin Språkteknologi

Innhold

Problemanalyse

Alfabet og datamaskin

Språkteknologi

Problemanalyse Alfabet og datamaskin Språkteknologi

Innhold

Problemanalyse

Alfabet og datamaskin

Språkteknologi

Problemanalyse Alfabet og datamaskin Språkteknologi

Innhold

Problemanalyse

Alfabet og datamaskin

Språkteknologi

Problemanalyse Alfabet og datamaskin Språkteknologi

En betydning→ flere betegnelser

Ciprian-Virgil Gerstenberger ellerCiprian Virgil Gerstenberger?

demokrati eller folkestyre?

triangel eller trekant?

bestemme eller avgjøre?

sentrum eller centrum?

⇒ synonymi eller redundans?⇒ navnlikhet eller overflødighet?

Problemanalyse Alfabet og datamaskin Språkteknologi

Flere betydninger← en betegnelse

Ciprian:1. Ciprian Gerstenberger2. Ciprian Porumbescu

triangel:1. trekant (geometri)2. musikkinstrument

⇒ polysemi /homonymi eller ambiguitet?⇒ flertydighet eller tvetydighet?

Problemanalyse Alfabet og datamaskin Språkteknologi

To sider, en relasjon

Avbildning fra A til B

A⇒ B1, B2, B3

Avbildning fra B til A

A1, A2, A3⇐ B

Problemanalyse Alfabet og datamaskin Språkteknologi

Ideelt

A⇒ B og A⇐ B

A⇔ B

Problemanalyse Alfabet og datamaskin Språkteknologi

Lyd↔ tegn

Rumensk

⇒ â (România), î (înainte)

Engelsk

y

⇒ /j/ (you), /i/ (heavy)

Problemanalyse Alfabet og datamaskin Språkteknologi

Bruce’s eksempel fra Lulesamisk

Extra-lange konsonanter som er ofte ikke markert

1. maná⇒ du drar2. manná⇒ hun/han drar3. manná⇒ hun/han begynner å drar

Problemanalyse Alfabet og datamaskin Språkteknologi

Michaels eksempel om kildinsamiske alfabetvarianter

Problemanalyse Alfabet og datamaskin Språkteknologi

Menneske vs. datamaskin

• mennesker klarer seg i begge situasjoner• for datamaskiner må alt være klart og tydeligt• det som er vanskelig for mennesker er enda vanskeligere å

tydeliggjøre for datamaskiner(Bruce: ‘Skriverregler skal være lærbare!’)

⇒ kunnskap, regler for å tydeliggjøre

Problemanalyse Alfabet og datamaskin Språkteknologi

Utvikling

• ASCII (American Standard Code for InformationInterchange)

Problemanalyse Alfabet og datamaskin Språkteknologi

Utvikling

• UTF-8: hvert tegn kodet som tall (utvetydig)

Problemanalyse Alfabet og datamaskin Språkteknologi

Spørsmål

• Kan man få tegn i tillegg for pitesamisk?• Ja, men vil man det virklig?

identitet⇔ brukbarheit

Problemanalyse Alfabet og datamaskin Språkteknologi

Problemer

• Operativsystem (Windows, Mac, Linux, Symbian, Android,iPhone)

• Aplikasjoner = programmer: Nettleser (Internet Explorer,Firefox, Safari), Skriveprogram (Word, Emacs, OpenOffice)

• Grafiske programmer har forsjellige elementer: tekstfelt,labels, etc.

• Skriftkoding og -egenskaper (fonttype, fontstørrelse,fontfarge, etc.)

Problemanalyse Alfabet og datamaskin Språkteknologi

Spesialtegn i kildinsamisk

Problemanalyse Alfabet og datamaskin Språkteknologi

Kildinsamisk i nettleseren Safari på Mac

Problemanalyse Alfabet og datamaskin Språkteknologi

Kildinsamisk i nettleseren Google Chrome på Mac

Problemanalyse Alfabet og datamaskin Språkteknologi

Spesialtegn (diacritics)

• Unngå spesialtegn!• Tenk også på mobiltelefoner: tekstmelding, epost,

ordbøker

⇒ Alternativet: tegnkjede, tegnsekvens!

Problemanalyse Alfabet og datamaskin Språkteknologi

Tegnkjede

Lulesamisk: xxxngxxx, yyyngyyy

⇒ Prisen: tvetydighet!

Tysk: Hoehe, Oede, Poet

⇒ Höhe, Öde, Pöt

Problemanalyse Alfabet og datamaskin Språkteknologi

Tastatur

• utvikling av tastatur med spesialtegn er mulig• ikke uten problemer på ulike operativsystemer med ulike

programmer

⇒ Alternativet: bruk av tastatur fra majoritetsspråkskrift!

Problemanalyse Alfabet og datamaskin Språkteknologi

Sørsamisk alfabet

• bokstaver vs. tegn vs. tegnkjeder• blanding av norsk og svensk• bytte tastaturen hele tida (selv med snarvei er det tungt)• brukere gjør det ofte ikke

Problemanalyse Alfabet og datamaskin Språkteknologi

Løsning på datamaskin

⇒ Godta alle varianter, vis det riktige!

Problemanalyse Alfabet og datamaskin Språkteknologi

Løsning på datamaskin

⇒ Godta alle varianter, vis det riktige!

Problemanalyse Alfabet og datamaskin Språkteknologi

Spørsmål

• Er representasjoner av tegn virklig utvetydig pådatamaskinen?

• For datamaskin ja, men ikke for mennesker!

Problemanalyse Alfabet og datamaskin Språkteknologi

Bruk av feil tegn to ganger på den samme NRK-sida

Problemanalyse Alfabet og datamaskin Språkteknologi

Vårt arbeid med den kildin-russiske ordboka

Problemanalyse Alfabet og datamaskin Språkteknologi

Data for språkteknologi

• å lage gode programmer krever gode data• feil på lavt nivå fortsetter på høyere nivåer• feilsøking og retting krever mye tid og energi

Problemanalyse Alfabet og datamaskin Språkteknologi

Samisk språkteknologi: Giellatekno

• Nordsamisk, Sørsamisk, lulesamisk, kildinsamisk,skoltesamisk, kvensk, meankeli, etc.

• utvikle ressurser og applikasjoner for alle samiske språk

⇒ språkdata i elektronisk format

Problemanalyse Alfabet og datamaskin Språkteknologi

Språkteknologi

alt som man gjør med og for språk på datamaskin

• språkdokumentasjon• rettskrivningsverktøy• elektroniske ordbøker• språkanalyse• læreprogrammer• maskinoversetting

⇒ datamaskin som svært nyttig hjelpemiddel

Problemanalyse Alfabet og datamaskin Språkteknologi

Språkdokumentasjon

• Kildinsamisk

• Pitesamisk

Problemanalyse Alfabet og datamaskin Språkteknologi

Rettskrivningsverktøy: Divvun

Problemanalyse Alfabet og datamaskin Språkteknologi

Ordbøker

Problemanalyse Alfabet og datamaskin Språkteknologi

Ordbøker

Problemanalyse Alfabet og datamaskin Språkteknologi

Ordbøker

Problemanalyse Alfabet og datamaskin Språkteknologi

Språkanalyse

• Ordformanalyse (morfologi)

• Ordrekkefølgeanalyse (setningsanalyse, syntaks)

Problemanalyse Alfabet og datamaskin Språkteknologi

Læreprogrammer: Oahpa!

Problemanalyse Alfabet og datamaskin Språkteknologi

Maskinoversetting

Problemanalyse Alfabet og datamaskin Språkteknologi

Konklusjoner

• ingen bra avbildning fra lyd til tegn (perfekt ortografi)• probleme må analyseres og avgjøres (navnlikhet vs.

overflødighet og flertydighet vs. tvetydighet)• kompromisser• datamaskiner er nyttig hjepler men krever mye nye

kunnskaper• for å lage gode språkapplikasjoner trengs rene data