36
Hercules Dalianis sid 1 Stavningsstöd, Stavningsstöd, termexpansion och termexpansion och kategorisering kategorisering Hercules Dalianis NADA-KTH Email: [email protected] Tel: 08-790 91 05 http://www.nada.kth.se/~hercules

Stavningsstöd, termexpansion och kategorisering

Embed Size (px)

DESCRIPTION

Stavningsstöd, termexpansion och kategorisering. Hercules Dalianis NADA-KTH Email: [email protected] Tel: 08-790 91 05 http://www.nada.kth.se/~hercules. Stavningsstöd, termexpansion och kategorisering. Långa frågor och frassökning Stavningsstöd i sökmotorer KWIC Key-words-in-context - PowerPoint PPT Presentation

Citation preview

Page 1: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 1

Stavningsstöd, termexpansion Stavningsstöd, termexpansion och kategoriseringoch kategorisering

Hercules Dalianis

NADA-KTHEmail: [email protected]

Tel: 08-790 91 05http://www.nada.kth.se/~hercules

Page 2: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 2

Stavningsstöd, termexpansion Stavningsstöd, termexpansion och kategoriseringoch kategorisering

• Långa frågor och frassökning

• Stavningsstöd i sökmotorer

• KWIC Key-words-in-context

• Termexpansion för bättre sökning

• Kategorisering

• Klustring

Page 3: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 3

• Medelfrågan 1,8 ord • Längre frågor ger bättre svar• Större inmatningsfält• Stemming och särskrivning• Frassökning• Sökning i fler filtyper PDF, PowerPoint,

Ljudfiler, Bildfiler, • Sökning på fler språk

Page 4: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 4

Stavningsstöd vid sökningStavningsstöd vid sökning

• Många felstavade sökord i sökmotorer 10 % minst

• Stavningsstöd => fuzzy matching

Page 5: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 5

Sex olika typer av stavfelSex olika typer av stavfel

• Personer som inte kan inte stava rätt- dyslektiker, andraspråksanvändare, m.fl.

• Slarvfel - slinter på tangentbordet• Osäkra på stavningen• Alternativa stavningar av ord i indexet (Namn

stavas på olika sätt)• Felstavningar i indexet• Särskrivningar eller hopskrivningar

Page 6: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 6

Många felstavningar i sökmotorerMånga felstavningar i sökmotorer

• 10 procent av alla sökfrågor är felstavade (1 miljon sökfrågor på RSVs webbplats, (Dalianis 2002))

• Google pressrelease (2002) säger samma sak

• 10 procent av alla sökfrågor är felstavade på Sunets webbkatalog (Stolpe 2002)

• Euroling-SiteSeeker loggar säger 10-12.5 procent felstavade sökfrågor (på 1 miljon sökfrågor totalt)

Page 7: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 7

• Stava används i Lexin en webbaserad ordbok, med bl.a. svensk-engelsk ordbok

• 7 miljoner uppslagningar per månad och där har man upp till 33 procent felstavningar totalt

Page 8: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 8

Dynamiskt stavningsstödDynamiskt stavningsstöd

• Indexet är lexikonet

• Alla ord i indexet är rätt även felstavade ord.

• Om ett sökord ej finns i indexet försöker stavningsstödet hitta närmaste editerings-avstånd av sökordet till ett ord i indexet.

• Provar med olika näraliggande tangentbordsättningar

Page 9: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 9

• På RSV sökmotor med stavningsstöd korrigerades 90 procent av stavfelen

• 40 procent av förslagen var särskrivningar (datamässigt tungt)

• 29 procent var felstavningar

• Dokumentsamlingen innehöll drygt 5 000 dokument

Page 10: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 10

• I ett annat kontrollerat experiment på 79 000 svenska nyhetstexter ökade precisionen och täckningen med 4 respektive 11.5 procent om man hade stavningsstöd (Sarr 2003).

• Nästan samma korpus användes för att visa att svensk stemming ökade precisionen och täckningen med 15 resp 18 procent (Carlberger et al 2003).

Page 11: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 11

• Att göra automatisk särskrivning är datamässigt tungt

• rättstavning => rätt stavning

• Hopskrivningar lätt att göras automatiskt rätt stavning => rättstavning text sammanfattning => textsammanfattning

• Google, SiteSeeker

Page 12: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 12

StemmingStemming

• Stemming (Carlberger et al 2001)– Bilverkstad => bilverkstaden, bilverkstäder,

mm– 15-18 procent bättre träffar vid sökning på

svenska. – Andra språk upp till 30-50 procent bättre

träffar

Page 13: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 13

• Trunkering (bilverkst*)• Frågeexpansion- generera alla

böjningsformer– bilverkstad, bilverkstaden, bilverkstadens,

bilverkstäder, bilverkstäderna, bilverkstäderna, mm

• Samma effekt som stemming men mer kostsamt datamässigt

Page 14: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 14

KWICKWIC

• KWIC- Key word in context Extrakt av relevanta textutdrag

• De första sökmotorerna hade bara länkadressen och kanske första orden i den indexerade texten

• Tvungen att klicka in i alla dokument• Textsammanfattare SweSum

ihopkopplad med Altavista 1999 !!

Page 15: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 15

Sökmotorer med KWICSökmotorer med KWIC

– Google

– AltaVista

– Fast– SiteSeeker

• har alla KWIC idag

Page 16: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 16

Page 17: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 17

Page 18: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 18

Page 19: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 19

SynonymgenereringSynonymgenerering

• Termexpansion vore bra att ha– Bilverkstad => bilverkstad,

bilreparation, garage, verkstad

• Man vill slippa använda synonymlexikon

Page 20: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 20

• LSI Latent Semantic Indexing (LSA Latent semantic analysis) – Bygger på vektorrymdsmodellen– Termer som befinner sig nära varandra kanske

har med varandra att göra.– Tidskrävande

• Samförekomster – bilverkstad, bilreparation, bilskada, garage, Volvo, bilverkstad, bilreparation, bilskada, garage, Volvo,

SverigeSverige, mm

Page 21: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 21

• Random Indexing mer effektivt än LSI/LSA

• Approximering av LSI/LSA

• Skapar färre dimensioner än LSI/LSA

• Lättare att uppdatera

Page 22: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 22

Google synomymsökning Google synomymsökning

• ~volvo => car, cars

• ~volvo ~car ~cars=> motor car, volvo cars

• ~volvo -volvo ~car -car => 240, motor, vehicle

• ~car => BMV, auto, automotive, cars

• ~car -car => automotive, motor, racing

Page 23: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 23

Kategorisering vid indexeringKategorisering vid indexeringoch sökningoch sökning

• Automatisk språkigenkänning - svenska, engelska, kinesiska, mm

• Dokumenttyp HTML, Word, Excel, PDF mm

• Datum• Kategorier i form av server, domän, eller

land

Page 24: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 24

KategoriseringKategorisering

• Kategorier finns även på webbplatser

• Kommuner tex– Kommunförvaltning– Skolor– Fritid– Kultur– Socialförvaltning– Övrigt

Page 25: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 25

Kategorisering föränderligtKategorisering föränderligt

• På många webbplatser ändrar sig eller läggs kategorier till efter hand

• De färdigvalda kategorierna blir snabbt obsoleta

• Automatisk kategorisering genom bra exempel?

• Men de flesta använder inte kategorier vid sökning

Page 26: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 26

KlustringKlustring

• Klustring är klurigt• Enligt vilka mått skall man klustra?

– Cosine = Vinkeln mellan texternas vektorer (enligt vektorrymdsmodellen)

• Andra mått – Antal ord som texterna delar– Antal ord som delas samt ordfrekvenserna– Normalisering

Page 27: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 27

KlustringalgoritmerKlustringalgoritmer

• Hierarkiska –Korpusen delas upp i några få kluster därefter arbetar sig algoritmen nedåt

• Icke hierarkiska –Utgå från den enskilda texten och arbeta uppåt

Rosell 2003 om man vill läsa mera

Page 28: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 28

KategoriseringKategorisering

• Överlappande eller icke överlappande kategorier

• Polyethic och Monothetic överlappande och icke överlappade egenskaper

• Ordnade eller icke ordnade kategorier

Page 29: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 29

Vivisimo klustringssökmotornVivisimo klustringssökmotorn

• Sökmotorn Vivisimo www.vivisimo.com har en klustrare

• Tar de första 500 bästa träffarna och klustrar dem

Page 30: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 30

Page 31: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 31

KlustringKlustring

• Rosells klustrare (2002, 2003) klustrade 5 000 svenska nyhetstexter

• K-mean icke-hierarkisk algoritm• Använde stemming och ordledsuppdelning• Stemming förbättrar klustringsresultaten med ungefär

5 procent.• Sammansättningsuppdelning förbättrar resultaten

med 10 procent och en kombination ger 13 procents förbättring (Rosell 2003).

Page 32: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 32

Page 33: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 33

• Rosell kunde jämföra sina automatiska kluster med de kategorier som nyhetstexterna kom ifrån från början

• Därigenom kunde han se hur pass bra klustren blev.

Page 34: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 34

Semiautomatisk kategoriseringSemiautomatisk kategorisering

Page 35: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 35

Page 36: Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis sid 36

SlutsatserSlutsatser

• Framtiden

• Termexpansion

• Särskrivning

• Semiautomatisk kategorisering

• Flerspråklig sökning