30
INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH ANNAN SVENSK SPRÅKFORSKNING) MÖTEN MELLAN ANDRASPRÅKSFORSKNING OCH DATALINGVISTIK ARBEITSTAGUNG DER SKANDINAVISTIK (ATDS) KIEL, 27-29 SEPTEMBER 2017 JULIA PRENTICE, INSTITUTIONEN FÖR SVENSKA SPRÅKET, GÖTEBORGS UNIVERSITET

INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH ANNAN SVENSK SPRÅKFORSKNING)MÖTEN MELLAN ANDRASPRÅKSFORSKNING OCH DATALINGVISTIK

ARBEITSTAGUNG DER SKANDINAVISTIK (ATDS)KIEL, 27-29 SEPTEMBER 2017

JULIA PRENTICE, INSTITUTIONEN FÖR SVENSKA SPRÅKET, GÖTEBORGS UNIVERSITET

Page 2: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

Upplägg

• Interdisciplinära möten mellan interdisciplinära forskningsfält– Andraspråksforskning, data/korpuslingvistik och Learner Corpus

Research

• Vad är språkteknologisk infrastruktur– exempel från Språkbanken vid Institutionen för svenska språket, GU

• Något om interdisciplinär kommunikation

• SweLL – Forskningsinfrastruktur för svenska som andraspråk

INSTITUTIONEN FÖR SVENSKA SPRÅKET SVENSKA SOM ANDRASPRÅK

Page 3: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

Andraspråksforskning – interdisciplinärt från början och än idag

• Kopplingar till– Lingvistik– Förstaspråksinlärning– Språkdidaktik– kognitiv psykologi

– Idag även datalingvistik (språkteknologi) och korpuslingvistik

INSTITUTIONEN FÖR SVENSKA SPRÅKET SVENSKA SOM ANDRASPRÅK

Page 4: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

Andraspråksforskning och datalingvistik• Möts idag inom flera forskningsområden

– Inlärarkorpusar– Olika typer av deskriptiva digitala resurser med inlärarperspektiv (lexikon,

konstruktikon)– Computer assisted language learning (CALL)§ Learner modelling

§ Viss skepsis bland både lärare och andraspråksforskare mot språkteknologiska lösningar och CALL (jfr Volodina et al. under arbete)

§ Tendens bland datalingvister att utvärdera sina system verktyg i termer av ”accuracy” och ”F-scores” • användarperspektivet prioriteras inte alltid högst (ibid.)

INSTITUTIONEN FÖR SVENSKA SPRÅKET SVENSKA SOM ANDRASPRÅK

Page 5: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

Learner corpus research

• Kärnkomponenter– Korpuslingvistik– Lingvistisk teori– Språkdidaktik– Andraspråksforskning

• Kopplingarna mellan LCR och andraspråksforskning inte så starka och tydliga som man skulle kunna tro– många forskare inom LCR är snarare korpuslingvister och språklärare än

andraspråksforskare

§ (Granger 2009)

INSTITUTIONEN FÖR SVENSKA SPRÅKET SVENSKA SOM ANDRASPRÅK

Page 6: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

Vad är språkteknologisk infrastruktur?• Språkbanken vid institutionen för svenska språket, GU

– Bedriver språkteknologisk forskning om det svenska språket§ ”få datorer att hantera mänskligt språk i alla dess former”

(https://spraakbanken.gu.se/swe)

• Utveckla språkteknologisk infrastruktur– tillgängliggöra språkliga resurser som olika typer av lexikala resurser (t.ex.

lexikon) och korpusar (textsamlingar) för forskare och allmänheten– digitala plattformar– sökverktyg för att utforskar resurserna§ annotering (lingvistik uppmärkning av texter)

INSTITUTIONEN FÖR SVENSKA SPRÅKET SVENSKA SOM ANDRASPRÅK

Page 7: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

Olika discipliner under samma tak

• Fem profilområden vid Institutionen för svenska språket, GU– Grammatik– Lexikologi och lexikografi– Språkteknologi– Svenska som andraspråk– Text och kontext

– Det finns samarbeten mellan olika profilområden§ samtliga samarbetar på ett eller annat sätt med Språkbanken

(språkteknologi)

INSTITUTIONEN FÖR SVENSKA SPRÅKET SVENSKA SOM ANDRASPRÅK

Page 8: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

Exempel på Språkbankens infrastruktur

• Karp– Lexikal infrastruktur

§ (Ahlberg et al. 2016)

• Korp – Korpusinfrastruktur

§ (Borin et al. 2012)

• Lärka – ICALL plattform för inlärning av svenska

§ (Volodina & Borin 2012, )– Learner modelling

§ (Alfter 2016)

https://spraakbanken.gu.se/swe/forskning/infrastruktur

INSTITUTIONEN FÖR SVENSKA SPRÅKET SVENSKA SOM ANDRASPRÅK

Page 9: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

INSTITUTIONEN FÖR SVENSKA SPRÅKET SVENSKA SOM ANDRASPRÅK

Page 10: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

INSTITUTIONEN FÖR SVENSKA SPRÅKET SVENSKA SOM ANDRASPRÅK

Page 11: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

Viktig del i infrastrukturarbete: annotering

• Vad annoteringar gör i ett korpusmaterial:– ”…hjälper till att filtrera sökresultaten för användaren. ”– ”De låter oss hitta "sjöng" och "sjungit" när vi söker efter "sjunga" och alla

ställen där Caesar är objekt till verbet besegra utan att vi behöver titta på dem där han är subjektet, samt att vi inte behöver titta på meningar om lokaler när vi letar efter "lounge", utan kan fokusera på förekomsterna som handlar om djuret. Annoteringarnas kvalitet är avgörande för att få bra sökresultat, särskilt för forskare som annars kan behöva gå igenom tusentals irrelevanta meningar.” (<https://spraakbanken.gu.se/swe/forskning/infrastruktur/koala>)

INSTITUTIONEN FÖR SVENSKA SPRÅKET SVENSKA SOM ANDRASPRÅK

Page 12: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

INSTITUTIONEN FÖR SVENSKA SPRÅKET SVENSKA SOM ANDRASPRÅK

Page 13: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

Interdisciplinär kommunikation 1Ändamål: sätta ihop ett kollokationstest för andraspråksinlärareinlärare av svenska, verb + substantiv kollokationer – t.ex. dra en slutsats, laga mat – baserad på data från Korp

Andraspråksforskarens fråga:

Vad innebär det statistiska måttet som rankningen i ordbilden baseras på?

Systemutvecklarens svar:

Hej!

Formeln vi använder är följande:

lmi = x_rel_y * log2( (rel * x_rel_y) / (x_rel * rel_y) )

rel = antalet gånger relationen förekommerx_rel_y = antalet gånger ordet x står i relation till ordet yx_rel = antalet gånger ordet x står i relationenrel_y = antalet gånger ordet y står i relationen

Här är en artikel: http://www.mt-archive.info/MTS-2001-Kilgarriff.pdf

INSTITUTIONEN FÖR SVENSKA SPRÅKET SVENSKA SOM ANDRASPRÅK

Page 14: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

INSTITUTIONEN FÖR SVENSKA SPRÅKET SVENSKA SOM ANDRASPRÅK

??

Page 15: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

Interdisciplinär kommunikation 2• Re:

Tack!

Kan inte påstå att jag fattar formeln, men det kanske går att reda ut med hjälp av artikeln...

• Re:Jag vet inte om artikeln är mer begriplig. :)

Ett exempel kanske kan göra det tydligare.

Om vi säger att x är "mata", rel är "direkt objekt", och y är "fågel". Då är

rel = antalet gånger relationen "direkt objekt" förekommer i korpusenx_rel_y = antalet gånger "fågel" står som direkt objekt till "mata" ikorpusenx_rel = antalet gånger "mata" förekommer med relationen "direkt objekt"rel_y = antalet gånger "fågel" förekommer med relationen "direkt objekt"

INSTITUTIONEN FÖR SVENSKA SPRÅKET SVENSKA SOM ANDRASPRÅK

Page 16: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

INSTITUTIONEN FÖR SVENSKA SPRÅKET SVENSKA SOM ANDRASPRÅK

Page 17: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

SweLL – forskningsinfrastruktur för svenska som andraspråk (Riksbankens jubileumsfond 2017-2019)

• Projektets syfte:– Att utveckla en elektronisk forskningsinfrastruktur för svensk

andraspråksforskning – bearbeta andraspråksmaterial– utveckla språkteknologiska metoder som kan hantera avvikelser från

standardsvenska– Större, sökbar inlärarkorpus för svenska (Volodina et al. 2016)

• Det finns idag stora inlärarkorpusar för andra språk men inte för svenska– Några exempel§ Norska: ASK (Tenfjord et al 2004)§ Tyska, tjeckiska, italienska : MERLIN (Boyd 2014)§ Engelska: International Corpus of Learner English, ICLE (Granger et al.

2002)

INSTITUTIONEN FÖR SVENSKA SPRÅKET SVENSKA SOM ANDRASPRÅK

Page 18: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

Utmaningar i samband med korpusinfrastruktur för L2-data (Volodina et al. 2016)

• Tillgång till och insamling av inlärartexter– måste samlas in direkt ifrån och med tillstånd från textförfattare som skriver på

sitt L2– tillstånd av vårdnadshavare behövs för yngre barn– känslig information i texter och metadata kan förekomma, anonymisering och

juridisk rådgivning behövs

• För lite dialog och samarbete mellan olika fält (jfr Granger 2009)– Olika projekt inom olika fält med olika utgångspunkter, syften och metoder– Brist på jämförbarhet av data från olika projekt

• Annoteringsverktyg är utvecklade för standardsvenska– svårt att hantera avvikelser – Annotering av sådant material är komplicerat och tar tid– texter behöver bl.a. ”normaliseras”

INSTITUTIONEN FÖR SVENSKA SPRÅKET SVENSKA SOM ANDRASPRÅK

Page 19: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

Interdisciplinär kommunikation 3

• SweLL syftar till att skapa en plattform för att samla in, digitalisera, normalisera, lingvistiskt annotera och elektroniskt tillgängliggöra texter skrivna av inlärare av svenska. En sådan textsamling skulle möjliggöra sökningar efter språkliga strukturer som utmärker inlärarspråk, med en normaliserad version till ett urval av texter. För andra språk finns flera andraspråkskorpusar, men de är en bristvara för svenskans del.

(Språkbanken 2017)

INSTITUTIONEN FÖR SVENSKA SPRÅKET SVENSKA SOM ANDRASPRÅK

Page 20: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

INSTITUTIONEN FÖR SVENSKA SPRÅKET SVENSKA SOM ANDRASPRÅK

Normalisera?!

Page 21: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

Annotering och val av taxonomi

ASK : 23 feltyperLexikon (8), morfologi (3), syntax (7), interpunktion (4), oidentifierbart(1)

MERLIN: 64 feltypergrammatik (21), ortografi (8), begriplighet (8), vokabulär (10),

koherens (4), sociolingvistisk lämplighet, (10), pragmatik (3)

• Hur detaljerad behöver taxonomin vara?• Hur stor roll spelar de enstaka språken här

• likhet mellan norska och svenska en faktor• jämförbarhet mellan ASK och SweLL önskvärd

• ASK + (en del av MERLIN-taxonomin)?• ASK + (språkspecifika vanliga feltyper i svenska som andraspråk)

Page 22: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

Annotering och val av taxonomi

• Annoteringsexperiment– manuell annotering av

inlärarexperiment• Inter- annotater agreement?

• Vad är “målhypotesen”?

• Exempel: ’Orthografic error’ eller ’wrong word’?

• jag bara dricker te med två broad [>bröd/skivor bröd/mackor?]

• minimala ändringar vid normalisering och annotering?

INSTITUTIONEN FÖR SVENSKA SPRÅKET SVENSKA SOM ANDRASPRÅK

Page 23: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

Interdisciplinär kommunikation 4(får man säga ”fel”?)

Inom LCR talar man om feltaxonomier och felannotering (errortaxonomies, error annotation)

àproblematiskt inom andraspråksforskningen

Men:

Normavvikelseannotering…?

Normavvikelsetaxonomifastställan…?

INSTITUTIONEN FÖR SVENSKA SPRÅKET SVENSKA SOM ANDRASPRÅK

Page 24: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

Vad är problemet?

• Andraspråksforskningens förflutna– Kontrastiv analys: jämförelse av inlärares L1 och L2 för att förutsäga

svårigheter och fel– Felanalys: man studerar avvikelser från målspråksnormen (fel) som

problem som måste rådas bot på – bristperspektiv– Idag är den rådande uppfattningen inom andraspråksforskningen att

inlärarspråket (interimspråket) ska studeras i sin egen rätt – ett system under utveckling – inte en bristfällig version av målspråket

• (jfrGranger 2009)

• Idé inom SweLL-projektet:– Can-do taxonomi– Annotera succé i inlärares produktion

INSTITUTIONEN FÖR SVENSKA SPRÅKET SVENSKA SOM ANDRASPRÅK

Page 25: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

Stora skillnader och stora möjligheter• ”It is important to bear in mind, however, that for the SLA [second

language acquisition] specialist big is not nessecarily beautiful” (Granger2009:4)– Data- och korpuslingvister jobbar i huvudsak kvantitativt – poängen är tillgång till

stora mängder data– Andraspråksforskare behöver kunna kontrollera för många bakgrundsfaktorer som

kan påverkar inlärares språkliga produktion – Det ställer höga krav på t.ex. korpusdesign och tillgång till metadata (ibid.)

• Mer samarbete och kommunikation mellan disciplinerna behövs och har förespråkats länge – och har även börjat ta fart, se t.ex.– Chen & Meurers 2017, Rudzewitz, Ziai, De Kuthy & Meurers 2017– Volodina et al. 2016, Volodina et al. under arbete– Workshop på NoDaLida: NLP 4 CALL & Language acquisition

• Utveckling av forskningsinfrastruktur för, och med tydlig teoretisk förankring i, (svensk) andraspråksforskning

INSTITUTIONEN FÖR SVENSKA SPRÅKET SVENSKA SOM ANDRASPRÅK

Page 26: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

United we stand, divided we fall

• Prioriteringar för fortsatt LC-forskning (Granger 2009:13)– Fler inlärarkorpusar, särskilt longitudinella

§ på fler språk, mer representativa för den stora varieteten bland inlärare, genre, uppgifter

– Utveckling av annoteringsstandard och bättre, mer användarvänlig infrastruktur– Noggrann och teoretiskt välförankrad analys av inlärarmaterial och utveckling av

pedagogiska verktyg som är lämpliga för verkligheten i en undervisnings- och inlärningskontext

” This will take time as there is no such thing as quick and dirty learner corpus analysis (or, at least, there should not be!).In view of the interdisciplinary nature ofthe field, this programme can only be carried out by multi-disciplinary teams madeup of corpus linguists, computer scientists, SLA specialists and teachingpractitioners. As in many fields but perhaps more so in learner corpus research than in some others, the motto ‘United we stand, divided we fall’ has a strong resonance”. (ibid.)

INSTITUTIONEN FÖR SVENSKA SPRÅKET SVENSKA SOM ANDRASPRÅK

Page 27: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

INSTITUTIONEN FÖR SVENSKA SPRÅKET SVENSKA SOM ANDRASPRÅK

Page 28: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

Referenser (urval)Ahlberg, Malin, Lars Borin, Markus Forsberg, Olof Olsson, Anne Schumacher, Jonatan Uppström . 2016 Karp: Språkbanken’s Open Lexical Infrastructure

Alfter, Davis . 2016. Learning the Learner: User Modeling in Intelligent Computer Assisted Language Learning Systems. CEUR Workshop Proceedings, v.1618. UMAP 2016 Extended Proceedings. Halifax, Canada, July 13-16, 2016.

Borin, Lars, Markus Forsberg & Johan Roxendal. 2012. Korp – the corpus infrastructure of Språkbanken. Proceedings of LREC 2012. Istanbul: ELRA, 474–478.

Boyd, Adriane, Jirka Hana, Lionel Nicolas, Detmar Meurers, Katrin Wisniewski, Andrea Abel, Karin Schöne, Barbora Štindlová and Chiara Vettori. The MERLIN corpus: Learner Language and the CEFR . Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14), European LanguageResources Association (ELRA), Reykjavik, May 26-31, 2014.

Chen, Xiaobin & Detmar Meurers. Developmental Benchmark of Syntactic Complexity. Proceedings of the joint workshop on NLP for Computer Assisted Language Learning and NLP for Language Acquisition, NoDaLiDa 2017, Gothenburg.

Granger, Sylviane. 2009. The contribution of learner corpora to second language acquisition and foreign languageteaching: A critical evaluation. I: Aijmer, Karin (red.), Corpora and Language Teaching. Amterdam & Philadelphia: John Benjamins, 13-32.

Sråkbanken 2017. <https://spraakbanken.gu.se/swe>

Tenfjord, Kari, Meurers, P. & Hofland, K. 2004. The ASK corpus - a language learner corpus of Norwegian as a second language. Paper presented at the TALC 2004 conference, Granada - Spain, 6-9 July 2004.

Volodina, Elena & Lars Borin. 2012. Developing a freely available web-based exercise generator for Swedish. EuroCALL 2012 Proceedings, Gothenburg.

Volodina, Elena, Beata Megyesi, Mats Wirén, Lena Granstedt, Julia Prentice, Monica Reichenberg, Gunlög Sundberg. 2016. A Friend in Need? Research agenda for electronic Second Language infrastructure. Proceedingsof SLTC 2016, Umeå, Sweden

INSTITUTIONEN FÖR SVENSKA SPRÅKET SVENSKA SOM ANDRASPRÅK

Page 29: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

Interdisciplinär kommunikation

• Projektet Ett svenskt konstruktikon– Konstruktionsdatabas, för närvarande ca 400 konstruktionsbeskrivningar§ delsyfte: att särskilt beskriva konstruktioner som är speciellt relevanta

ur ett andraspråksperspektiv§ interdisciplinärt: lingvistik, lexikografi, datalingvistik,

andraspråksforskning

– Delprojekt: From construction candidates to constructicon entries(Forsberg et al. 2014) § Experiment: användning av halvautomatiska metoder för att identifiera

construktioner i korpusar§ 3 mänsliga bedömare som utvärderar resultaten

INSTITUTIONEN FÖR SVENSKA SPRÅKET SVENSKA SOM ANDRASPRÅK

Page 30: INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH … · Vad är språkteknologiskinfrastruktur? •Språkbanken vid institutionen för svenska språket, GU –Bedriver språkteknologiskforskning

Interdisciplinär kommonikationExempel från experimentet:

[Pronomen somKN Adj Substantiv] =konstruktionskandidatvi som intresserade skandinavister lyssna uppmärksamt på föredragetde som enskild organisation…, hon som

Bedömarna tittar på de mest frekventa exemplen från korpusen och svarar på (sammanlagt 7) frågor om kandidatens relevans för konstruktikonet, resultat:

”The inte-annotator agreement was surprisingly small, ranging from low to moderate, which suggests that the task was is difficult, and the the evaluators background had a strong effect on their judgement… (Forsberg et al. 2014:124)

”…the method provided a good number of intreresting cxn candidates. Of the 1200 candidates concidered in the experiment, 314 were assigned a relevance score of 2-3 by at least one of the evaluators. Adjusting for dublicates, a fair estamate is that the outcome is about 200 potential constructicon entries…”

INSTITUTIONEN FÖR SVENSKA SPRÅKET SVENSKA SOM ANDRASPRÅK