39
Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Språk, datorer och Språk, datorer och textbehandling textbehandling Introduktion till nätresurser Introduktion till nätresurser Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet [email protected]

Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Språk, datorer och Språk, datorer och textbehandlingtextbehandling

Introduktion till nätresurserIntroduktion till nätresurser

Eva Pettersson

Institutionen för lingvistik och filologi

Uppsala universitet

[email protected]

Page 2: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Föreläsningsöversikt

Sökmotorer och korpussökning på Internet

Upphovsrätt

Nätresurser (ordböcker och online-databaser)

Dagens labb

Att skriva labbrapport

Seminarieuppgiften

Kort om olika filformat

Page 3: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Hur hittar man korpusar på Internet?

Sökning med hjälp av sökmotor

o lämpliga sökord

o lämplig sökmotor

Leta hos tillgänglig korpusdistributör, t.ex. Linguistic Data Consortium

Samla ihop texter till en egen korpus...

Page 4: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Avancerad sökning med Google

www.google.se

Page 5: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Informationssökning – hur fungerar det?

Ledtrådar som sökmotorer använder för att få fram och rangordna dokument:

o nyckelord och frekvensberäkningar i de hittade texterna

o automatisk morfologisk analys för att hitta alla ordformer, t.ex. flicka-flickor-flickornas

o automatisk stavningskontroll

Page 6: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Linguistic Data Consortium (LDC): http://www.ldc.upenn.edu

o stödjer språkrelaterad forskning, utbildning och teknologi genom att skapa och distribuera lingvistiska resurser: data, verktyg och standarder

o distribuerar korpusar (text och tal för många olika språk), lexikon etc.

Oxford Text Archive (OTA): http://ota.ahds.ac.uk/

o samlar in, katalogiserar och bevarar elektroniska texter av hög kvalitet för forskning och undervisning

o distribuerar mer än 2000 resurser för över 20 språk.

Korpusdistributörer

Page 7: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Korpusdistributörer

Evaluations and Language Resources Distribution Agency (ELDA): http://www.elda.org

o Distribuerar , producerar, standardiserar och utvärderar språkresurser (lexikon, korpusar etc)

o Organiserar konferenser: The Language Resources and Evaluation Conference, LREC

o Ger underlag för utvärdering av olika applikationer

Page 8: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

KorpusdistributörerInternational Computer Archive of Modern English (ICAME): http://nora.hd.uib.no/whatis.html

osamordnar och underlättar distribution av korpusar

oorganiserar konferens, ger ut tidskriften ICAME Journal

Trans-European Language Resources Infrastructure (TELRI): http://telri.nytud.hu/

osamlar in och distribuerar en- och flerspråkiga språkresurser med speciellt fokus på central- och östeuropeiska språk.

Page 9: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Användbara länkar för den korpusintresseradeCORPORA-listan: http://nora.hd.uib.no/fileserv.html

oelektronisk mejlinglista för alla som är intresserade av korpusar

ohär kan man få tips och svar på frågor

ACL SIGLEX: http://www.clres.com/siglex.html

Special Interest Group on the Lexicon of the Association for Computational Linguistics

o länkar till elektroniska lexikon, korpusar etc.

Page 10: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Bygg din egen korpus

Välj ut lämpliga nyckelord och kombinera dessa på bästa sätt i lämplig sökmotor

Samla ihop de webbadresser du fått fram och sätt ihop dem till din egen korpus

Ordklasstagga gärna din korpus med allmänt tillgänglig taggare

Var laglig: Tänk på upphovsrätten!

Page 11: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Tänk på upphovsrätten!

Vilka lagar gäller för material som man hittar på nätet?

Bara för att en text är publicerad på Internet, så betyder det inte att den är fri att använda och sprida vidare!

”Upphovsrätt till ett verk gäller intill utgången av sjuttionde året efter det år då upphovsmannen avled eller [...] efter den sist avlidne upphovsmannens dödsår.”

Många korpusar som finns på Internet kräver licens för att man ska få tillgång till dem

Page 12: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Vad säger lagen?

Du kan alltid ladda hem ett verk som finns tillgängligt på Internet, kopiera från digital till digital form och/eller skriva ut det om du endast gör det för ditt privata bruk.

Förlagan du kopierar från får inte vara en olovlig förlaga (piratkopia).

Du får inte sprida det kopierade exemplaret utanför din närmaste familj eller vänkrets.

Du får aldrig, inte ens för privat bruk, kopiera datorprogram eller databaser.

Page 13: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Upphovsrätt på Internet

Problem med lagtolkningen: Internet är internationellt, medan upphovsrättslagarna ser olika ut i olika länder

Indien: Ett verk är skyddat i 60 år efter upphovsmannens död (jmf Sverige 70 år)

Internationella överenskommelser om upphovsrätt, t.ex. Bernkonventionen

Kuba: Har ej skrivit under Bernkonventionen, upphovsrätten inget skydd

Page 14: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Ordböcker och online-databaser (1)

Ontologiero Betydelsebaserade lexikon

o Visar de semantiska relationerna mellan ord (synonymi, antonymi, hyponymi och meronymi)

o WordNet: http://wordnet.princeton.edu/

o Svenskt OrdNät: http://www.lingfil.uu.se/ling/swn.html

o EuroWordNet: http://www.illc.uva.nl/EuroWordNet/holländska, italienska, spanska, tyska, franska, tjeckiska och estniska

Page 15: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Ur Svenskt Ordnät av Åke Viberg: Grundläggande semantiska relationer i ordnät

Page 16: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Svenskt OrdNät

http://www.lingfil.uu.se/ling/swn.html

Page 17: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

WordNet

http://wordnet.princeton.edu/

Page 18: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Ordböcker och online-databaser (2)Thesaurusar/synonymordböckerhttp://www.synonymer.se

Flerspråkiga lexikon

Lexin: http://lexin.nada.kth.se/

o Framtaget av Myndigheten för skolutveckling för användning i invandrarundervisningen

o Cirka 30 000 svenska uppslagsord

o Fjorton olika språk

o De svenska orden kan man få upplästa (öva uttal)

Page 19: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

synonymer.se

http://www.synonymer.se

Page 20: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Lexin

http://lexin.nada.kth.se/

Page 21: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Ordböcker och online-databaser (3) Enspråkiga lexikon

Nationalencyklopedin: http://www.ne.seo ca 172 000 uppslagsord

o kräver licens

Oxford English Dictionary: http://www.oed.com/o ca 500 000 uppslagsord

o innehåller ord från hela engelskspråkiga världen

o visar etymologi, uttal och stavning

o autentiska exempel från texter

o kräver licens

Page 22: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Nationalencyklopedin (NE)

http://www.ne.se

Page 23: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Oxford English Dictionary (OED)

http://www.oed.com/

Page 24: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Ordböcker och online-databaser (4)

Databaser med samlat material

Språkbanken: http://spraakbanken.gu.se/oUtvecklat av Göteborgs universitetoTillhandahåller referensmaterial i form av lexikon,

korpusar och verktyg för sökning i korpusarna m.m.oInnehåller bl.a. Lexin, SUC-korpusen och Svenska

Akademiens Ordbok i datorläsbar form

Page 25: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Språkbanken

http://spraakbanken.gu.se/

Page 26: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Ordböcker och online-databaser (4)Korpussamlingar

Gutenberg: http://www.gutenberg.org/o innehåller ca 20 000 fritt nedladdbara e-böcker

o när författaren har varit död i 70 år skyddas verket inte längre av upphovsrättslagarna

Runeberg: http://runeberg.org/o som Gutenberg, fast för nordisk litteratur

o skapat av Linköpings universitet

Gallica: http://gallica.bnf.fr/o fransk motsvarighet

Page 27: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Runeberg

http://runeberg.org/

Page 28: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Gallica

http://gallica.bnf.fr/

Page 29: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Ordböcker och online-databaser (5)

Wikipedia

”Flerspråkig internetbaserad encyklopedi med öppet innehåll som utvecklas av sina användare.”

Innehåller ofta lättfattliga beskrivningar av olika begrepp

Eftersom vem som helst har möjlighet att skriva in något på Wikipedia är informationen man får därifrån inte helt tillförlitlig

http://wikipedia.org/

Page 30: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Labben

Arbeta i grupper om 1-3 personer, efter eget val

Samma grupp kan med fördel jobba tillsammans under flera av kursens labbar, då labbarna i viss mån bygger vidare på varandra

Deluppgift 1: Ta reda på mer om några av de mest kända korpusdistributörerna

Deluppgift 2: Hitta korpusar på Internet för det språk ni är intresserade av

Labbinstruktioner: http://stp.lingfil.uu.se/~evapet/Undervisning/SDT07/labb1.html

Page 31: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Att skriva labbrapport

Labbrapporten ska på ett överskådligt sätt dokumentera vad du har gjort (uppgift), varför du har gjort det (syfte) och hur du har gjort det (metod)

I arbetslivet är det viktigt att man dokumenterar vad man har gjort, så att andra kan ta del av dina resultat och arbeta vidare på dem

All forskning bygger på tidigare forskning. För att forskningen ska gå framåt är det viktigt att det som har gjorts tidigare är väl dokumenterat

Page 32: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Labbrapportens innehåll

Labbrapporten bör vara upplagd ungefär som en uppsats:

o Titel med tydlig information om vilken laboration rapporten gäller och vem/vilka som har skrivit rapporten samt datum

o Inledning (syfte)

o Metod och resultat

o Slutsatser/diskussion

o Referenser

Man kan välja att ha andra rubriker, men ovan beskrivna information bör finnas med i rapporten

Page 33: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Att skriva referenserReferenslistan ska för varje verk innehålla uppgift om:

o titel

o författare

o publikation (antologi, tidskrift, nätplats)

o förlag

o år

Tony McEnery, Richard Xiao och Yukio Tono, 2006. Corpus-Based Language Studies - an advanced resource book. Routledge Applied Linguistics.

Spärck Jones, K. 1999. Automatic Summarization: Factors and Directions, i Mani, I. och Maybury, M. T., Advances in Automatic Text Summarization Cambridge, Massachusetts: MIT Press, 1-12.

Page 34: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Nätburna referenser

Om man vill referera till en webbsida, måste man ange hela webbadressen samt datum.

Webbsidor kan uppdateras och förändras, så den information som finns där det datum du refererar till den kanske inte finns där nästa dag.

Referera aldrig till Wikipedia eller dylikt!

Wiki-sidor är öppna för vem som helst att skriva in information på, vilket gör att informationen kan vara felaktig.

Page 35: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Seminarium 5 november

Arbeta i grupper om 1-3 personer

Välj ut någon av de tre första laborationerna på kursen, och ge en mer detaljerad redogörelse för de resultat ni har kommit fram till

Utöka gärna den ursprungliga labbuppgiften på lämpligt sätt

Muntlig presentation inför resten av klassen

Presentationen genomförs med hjälp av dator kopplad till projektor

Använd Powerpoint, OpenOffice Impress, PDF eller motsvarande för presentationen

Page 36: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Powerpoint

Powerpoint ingår i Office-paketet, dvs när man köper en dator med operativsystemet Windows på ingår oftast även program som Word (för ordbehandling), Excel (kalkylprogram) och Powerpoint (presentationsprogram)

Powerpoint används för att skapa ljusbilder inför muntliga presentationer

En lathund till Powerpoint finns här:

http://www.iml.umu.se/stod/program/power_point/index.html

Page 37: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

OpenOffice

Om man inte har tillgång till Powerpoint (och inte råd att köpa programmet) finns likvärdiga program att tillgå gratis

Ett av de mest kända är OpenOffice

OpenOffice innehåller samma typer av program som Microsofts Office-paket, dvs ordbehandlingsprogram, kalkylprogram, presentationsprogram m.m.

I OpenOffice heter presentationsprogrammet Impress

OpenOffice finns att ladda hem gratis här:

http://www.openoffice.org/

Page 38: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

PDF

Portable Document Format

Format som ser likadant ut på alla datorer, oavsett vilket operativsystem man har installerat

PDF-dokument kan skapas automatiskt från många olika program, t.ex. från OpenOffice

En PDF-fil är sparad på samma sätt som en bild, vilket gör att man inte kan redigera texten i den

Praktiskt om man t.ex. vill lägga upp ett dokument så att andra kan läsa det, men inte vill att andra ska kunna ta texten och modifiera den

Page 39: Språk, datorer och textbehandlingevapet/Undervisning/SDT07/f3-natresurser.pdf · Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24 Hur hittar man korpusar

Språk, datorer och textbehandling - Nätresurser - Eva Pettersson 2007-10-24

Vi ses på labben!