Stavningsstöd, termexpansion och kategorisering

Preview:

DESCRIPTION

Stavningsstöd, termexpansion och kategorisering. Hercules Dalianis NADA-KTH Email: hercules@nada.kth.se Tel: 08-790 91 05 http://www.nada.kth.se/~hercules. Stavningsstöd, termexpansion och kategorisering. Långa frågor och frassökning Stavningsstöd i sökmotorer KWIC Key-words-in-context - PowerPoint PPT Presentation

Citation preview

Hercules Dalianis sid 1

Stavningsstöd, termexpansion Stavningsstöd, termexpansion och kategoriseringoch kategorisering

Hercules Dalianis

NADA-KTHEmail: hercules@nada.kth.se

Tel: 08-790 91 05http://www.nada.kth.se/~hercules

Hercules Dalianis sid 2

Stavningsstöd, termexpansion Stavningsstöd, termexpansion och kategoriseringoch kategorisering

• Långa frågor och frassökning

• Stavningsstöd i sökmotorer

• KWIC Key-words-in-context

• Termexpansion för bättre sökning

• Kategorisering

• Klustring

Hercules Dalianis sid 3

• Medelfrågan 1,8 ord • Längre frågor ger bättre svar• Större inmatningsfält• Stemming och särskrivning• Frassökning• Sökning i fler filtyper PDF, PowerPoint,

Ljudfiler, Bildfiler, • Sökning på fler språk

Hercules Dalianis sid 4

Stavningsstöd vid sökningStavningsstöd vid sökning

• Många felstavade sökord i sökmotorer 10 % minst

• Stavningsstöd => fuzzy matching

Hercules Dalianis sid 5

Sex olika typer av stavfelSex olika typer av stavfel

• Personer som inte kan inte stava rätt- dyslektiker, andraspråksanvändare, m.fl.

• Slarvfel - slinter på tangentbordet• Osäkra på stavningen• Alternativa stavningar av ord i indexet (Namn

stavas på olika sätt)• Felstavningar i indexet• Särskrivningar eller hopskrivningar

Hercules Dalianis sid 6

Många felstavningar i sökmotorerMånga felstavningar i sökmotorer

• 10 procent av alla sökfrågor är felstavade (1 miljon sökfrågor på RSVs webbplats, (Dalianis 2002))

• Google pressrelease (2002) säger samma sak

• 10 procent av alla sökfrågor är felstavade på Sunets webbkatalog (Stolpe 2002)

• Euroling-SiteSeeker loggar säger 10-12.5 procent felstavade sökfrågor (på 1 miljon sökfrågor totalt)

Hercules Dalianis sid 7

• Stava används i Lexin en webbaserad ordbok, med bl.a. svensk-engelsk ordbok

• 7 miljoner uppslagningar per månad och där har man upp till 33 procent felstavningar totalt

Hercules Dalianis sid 8

Dynamiskt stavningsstödDynamiskt stavningsstöd

• Indexet är lexikonet

• Alla ord i indexet är rätt även felstavade ord.

• Om ett sökord ej finns i indexet försöker stavningsstödet hitta närmaste editerings-avstånd av sökordet till ett ord i indexet.

• Provar med olika näraliggande tangentbordsättningar

Hercules Dalianis sid 9

• På RSV sökmotor med stavningsstöd korrigerades 90 procent av stavfelen

• 40 procent av förslagen var särskrivningar (datamässigt tungt)

• 29 procent var felstavningar

• Dokumentsamlingen innehöll drygt 5 000 dokument

Hercules Dalianis sid 10

• I ett annat kontrollerat experiment på 79 000 svenska nyhetstexter ökade precisionen och täckningen med 4 respektive 11.5 procent om man hade stavningsstöd (Sarr 2003).

• Nästan samma korpus användes för att visa att svensk stemming ökade precisionen och täckningen med 15 resp 18 procent (Carlberger et al 2003).

Hercules Dalianis sid 11

• Att göra automatisk särskrivning är datamässigt tungt

• rättstavning => rätt stavning

• Hopskrivningar lätt att göras automatiskt rätt stavning => rättstavning text sammanfattning => textsammanfattning

• Google, SiteSeeker

Hercules Dalianis sid 12

StemmingStemming

• Stemming (Carlberger et al 2001)– Bilverkstad => bilverkstaden, bilverkstäder,

mm– 15-18 procent bättre träffar vid sökning på

svenska. – Andra språk upp till 30-50 procent bättre

träffar

Hercules Dalianis sid 13

• Trunkering (bilverkst*)• Frågeexpansion- generera alla

böjningsformer– bilverkstad, bilverkstaden, bilverkstadens,

bilverkstäder, bilverkstäderna, bilverkstäderna, mm

• Samma effekt som stemming men mer kostsamt datamässigt

Hercules Dalianis sid 14

KWICKWIC

• KWIC- Key word in context Extrakt av relevanta textutdrag

• De första sökmotorerna hade bara länkadressen och kanske första orden i den indexerade texten

• Tvungen att klicka in i alla dokument• Textsammanfattare SweSum

ihopkopplad med Altavista 1999 !!

Hercules Dalianis sid 15

Sökmotorer med KWICSökmotorer med KWIC

– Google

– AltaVista

– Fast– SiteSeeker

• har alla KWIC idag

Hercules Dalianis sid 16

Hercules Dalianis sid 17

Hercules Dalianis sid 18

Hercules Dalianis sid 19

SynonymgenereringSynonymgenerering

• Termexpansion vore bra att ha– Bilverkstad => bilverkstad,

bilreparation, garage, verkstad

• Man vill slippa använda synonymlexikon

Hercules Dalianis sid 20

• LSI Latent Semantic Indexing (LSA Latent semantic analysis) – Bygger på vektorrymdsmodellen– Termer som befinner sig nära varandra kanske

har med varandra att göra.– Tidskrävande

• Samförekomster – bilverkstad, bilreparation, bilskada, garage, Volvo, bilverkstad, bilreparation, bilskada, garage, Volvo,

SverigeSverige, mm

Hercules Dalianis sid 21

• Random Indexing mer effektivt än LSI/LSA

• Approximering av LSI/LSA

• Skapar färre dimensioner än LSI/LSA

• Lättare att uppdatera

Hercules Dalianis sid 22

Google synomymsökning Google synomymsökning

• ~volvo => car, cars

• ~volvo ~car ~cars=> motor car, volvo cars

• ~volvo -volvo ~car -car => 240, motor, vehicle

• ~car => BMV, auto, automotive, cars

• ~car -car => automotive, motor, racing

Hercules Dalianis sid 23

Kategorisering vid indexeringKategorisering vid indexeringoch sökningoch sökning

• Automatisk språkigenkänning - svenska, engelska, kinesiska, mm

• Dokumenttyp HTML, Word, Excel, PDF mm

• Datum• Kategorier i form av server, domän, eller

land

Hercules Dalianis sid 24

KategoriseringKategorisering

• Kategorier finns även på webbplatser

• Kommuner tex– Kommunförvaltning– Skolor– Fritid– Kultur– Socialförvaltning– Övrigt

Hercules Dalianis sid 25

Kategorisering föränderligtKategorisering föränderligt

• På många webbplatser ändrar sig eller läggs kategorier till efter hand

• De färdigvalda kategorierna blir snabbt obsoleta

• Automatisk kategorisering genom bra exempel?

• Men de flesta använder inte kategorier vid sökning

Hercules Dalianis sid 26

KlustringKlustring

• Klustring är klurigt• Enligt vilka mått skall man klustra?

– Cosine = Vinkeln mellan texternas vektorer (enligt vektorrymdsmodellen)

• Andra mått – Antal ord som texterna delar– Antal ord som delas samt ordfrekvenserna– Normalisering

Hercules Dalianis sid 27

KlustringalgoritmerKlustringalgoritmer

• Hierarkiska –Korpusen delas upp i några få kluster därefter arbetar sig algoritmen nedåt

• Icke hierarkiska –Utgå från den enskilda texten och arbeta uppåt

Rosell 2003 om man vill läsa mera

Hercules Dalianis sid 28

KategoriseringKategorisering

• Överlappande eller icke överlappande kategorier

• Polyethic och Monothetic överlappande och icke överlappade egenskaper

• Ordnade eller icke ordnade kategorier

Hercules Dalianis sid 29

Vivisimo klustringssökmotornVivisimo klustringssökmotorn

• Sökmotorn Vivisimo www.vivisimo.com har en klustrare

• Tar de första 500 bästa träffarna och klustrar dem

Hercules Dalianis sid 30

Hercules Dalianis sid 31

KlustringKlustring

• Rosells klustrare (2002, 2003) klustrade 5 000 svenska nyhetstexter

• K-mean icke-hierarkisk algoritm• Använde stemming och ordledsuppdelning• Stemming förbättrar klustringsresultaten med ungefär

5 procent.• Sammansättningsuppdelning förbättrar resultaten

med 10 procent och en kombination ger 13 procents förbättring (Rosell 2003).

Hercules Dalianis sid 32

Hercules Dalianis sid 33

• Rosell kunde jämföra sina automatiska kluster med de kategorier som nyhetstexterna kom ifrån från början

• Därigenom kunde han se hur pass bra klustren blev.

Hercules Dalianis sid 34

Semiautomatisk kategoriseringSemiautomatisk kategorisering

Hercules Dalianis sid 35

Hercules Dalianis sid 36

SlutsatserSlutsatser

• Framtiden

• Termexpansion

• Särskrivning

• Semiautomatisk kategorisering

• Flerspråklig sökning

Recommended