Upload
josephine-stephens
View
25
Download
0
Embed Size (px)
DESCRIPTION
Stavningsstöd, termexpansion och kategorisering. Hercules Dalianis NADA-KTH Email: [email protected] Tel: 08-790 91 05 http://www.nada.kth.se/~hercules. Stavningsstöd, termexpansion och kategorisering. Långa frågor och frassökning Stavningsstöd i sökmotorer KWIC Key-words-in-context - PowerPoint PPT Presentation
Citation preview
Hercules Dalianis sid 1
Stavningsstöd, termexpansion Stavningsstöd, termexpansion och kategoriseringoch kategorisering
Hercules Dalianis
NADA-KTHEmail: [email protected]
Tel: 08-790 91 05http://www.nada.kth.se/~hercules
Hercules Dalianis sid 2
Stavningsstöd, termexpansion Stavningsstöd, termexpansion och kategoriseringoch kategorisering
• Långa frågor och frassökning
• Stavningsstöd i sökmotorer
• KWIC Key-words-in-context
• Termexpansion för bättre sökning
• Kategorisering
• Klustring
Hercules Dalianis sid 3
• Medelfrågan 1,8 ord • Längre frågor ger bättre svar• Större inmatningsfält• Stemming och särskrivning• Frassökning• Sökning i fler filtyper PDF, PowerPoint,
Ljudfiler, Bildfiler, • Sökning på fler språk
Hercules Dalianis sid 4
Stavningsstöd vid sökningStavningsstöd vid sökning
• Många felstavade sökord i sökmotorer 10 % minst
• Stavningsstöd => fuzzy matching
Hercules Dalianis sid 5
Sex olika typer av stavfelSex olika typer av stavfel
• Personer som inte kan inte stava rätt- dyslektiker, andraspråksanvändare, m.fl.
• Slarvfel - slinter på tangentbordet• Osäkra på stavningen• Alternativa stavningar av ord i indexet (Namn
stavas på olika sätt)• Felstavningar i indexet• Särskrivningar eller hopskrivningar
Hercules Dalianis sid 6
Många felstavningar i sökmotorerMånga felstavningar i sökmotorer
• 10 procent av alla sökfrågor är felstavade (1 miljon sökfrågor på RSVs webbplats, (Dalianis 2002))
• Google pressrelease (2002) säger samma sak
• 10 procent av alla sökfrågor är felstavade på Sunets webbkatalog (Stolpe 2002)
• Euroling-SiteSeeker loggar säger 10-12.5 procent felstavade sökfrågor (på 1 miljon sökfrågor totalt)
Hercules Dalianis sid 7
• Stava används i Lexin en webbaserad ordbok, med bl.a. svensk-engelsk ordbok
• 7 miljoner uppslagningar per månad och där har man upp till 33 procent felstavningar totalt
Hercules Dalianis sid 8
Dynamiskt stavningsstödDynamiskt stavningsstöd
• Indexet är lexikonet
• Alla ord i indexet är rätt även felstavade ord.
• Om ett sökord ej finns i indexet försöker stavningsstödet hitta närmaste editerings-avstånd av sökordet till ett ord i indexet.
• Provar med olika näraliggande tangentbordsättningar
Hercules Dalianis sid 9
• På RSV sökmotor med stavningsstöd korrigerades 90 procent av stavfelen
• 40 procent av förslagen var särskrivningar (datamässigt tungt)
• 29 procent var felstavningar
• Dokumentsamlingen innehöll drygt 5 000 dokument
Hercules Dalianis sid 10
• I ett annat kontrollerat experiment på 79 000 svenska nyhetstexter ökade precisionen och täckningen med 4 respektive 11.5 procent om man hade stavningsstöd (Sarr 2003).
• Nästan samma korpus användes för att visa att svensk stemming ökade precisionen och täckningen med 15 resp 18 procent (Carlberger et al 2003).
Hercules Dalianis sid 11
• Att göra automatisk särskrivning är datamässigt tungt
• rättstavning => rätt stavning
• Hopskrivningar lätt att göras automatiskt rätt stavning => rättstavning text sammanfattning => textsammanfattning
• Google, SiteSeeker
Hercules Dalianis sid 12
StemmingStemming
• Stemming (Carlberger et al 2001)– Bilverkstad => bilverkstaden, bilverkstäder,
mm– 15-18 procent bättre träffar vid sökning på
svenska. – Andra språk upp till 30-50 procent bättre
träffar
Hercules Dalianis sid 13
• Trunkering (bilverkst*)• Frågeexpansion- generera alla
böjningsformer– bilverkstad, bilverkstaden, bilverkstadens,
bilverkstäder, bilverkstäderna, bilverkstäderna, mm
• Samma effekt som stemming men mer kostsamt datamässigt
Hercules Dalianis sid 14
KWICKWIC
• KWIC- Key word in context Extrakt av relevanta textutdrag
• De första sökmotorerna hade bara länkadressen och kanske första orden i den indexerade texten
• Tvungen att klicka in i alla dokument• Textsammanfattare SweSum
ihopkopplad med Altavista 1999 !!
Hercules Dalianis sid 15
Sökmotorer med KWICSökmotorer med KWIC
– AltaVista
– Fast– SiteSeeker
• har alla KWIC idag
Hercules Dalianis sid 16
Hercules Dalianis sid 17
Hercules Dalianis sid 18
Hercules Dalianis sid 19
SynonymgenereringSynonymgenerering
• Termexpansion vore bra att ha– Bilverkstad => bilverkstad,
bilreparation, garage, verkstad
• Man vill slippa använda synonymlexikon
Hercules Dalianis sid 20
• LSI Latent Semantic Indexing (LSA Latent semantic analysis) – Bygger på vektorrymdsmodellen– Termer som befinner sig nära varandra kanske
har med varandra att göra.– Tidskrävande
• Samförekomster – bilverkstad, bilreparation, bilskada, garage, Volvo, bilverkstad, bilreparation, bilskada, garage, Volvo,
SverigeSverige, mm
Hercules Dalianis sid 21
• Random Indexing mer effektivt än LSI/LSA
• Approximering av LSI/LSA
• Skapar färre dimensioner än LSI/LSA
• Lättare att uppdatera
Hercules Dalianis sid 22
Google synomymsökning Google synomymsökning
• ~volvo => car, cars
• ~volvo ~car ~cars=> motor car, volvo cars
• ~volvo -volvo ~car -car => 240, motor, vehicle
• ~car => BMV, auto, automotive, cars
• ~car -car => automotive, motor, racing
Hercules Dalianis sid 23
Kategorisering vid indexeringKategorisering vid indexeringoch sökningoch sökning
• Automatisk språkigenkänning - svenska, engelska, kinesiska, mm
• Dokumenttyp HTML, Word, Excel, PDF mm
• Datum• Kategorier i form av server, domän, eller
land
Hercules Dalianis sid 24
KategoriseringKategorisering
• Kategorier finns även på webbplatser
• Kommuner tex– Kommunförvaltning– Skolor– Fritid– Kultur– Socialförvaltning– Övrigt
Hercules Dalianis sid 25
Kategorisering föränderligtKategorisering föränderligt
• På många webbplatser ändrar sig eller läggs kategorier till efter hand
• De färdigvalda kategorierna blir snabbt obsoleta
• Automatisk kategorisering genom bra exempel?
• Men de flesta använder inte kategorier vid sökning
Hercules Dalianis sid 26
KlustringKlustring
• Klustring är klurigt• Enligt vilka mått skall man klustra?
– Cosine = Vinkeln mellan texternas vektorer (enligt vektorrymdsmodellen)
• Andra mått – Antal ord som texterna delar– Antal ord som delas samt ordfrekvenserna– Normalisering
Hercules Dalianis sid 27
KlustringalgoritmerKlustringalgoritmer
• Hierarkiska –Korpusen delas upp i några få kluster därefter arbetar sig algoritmen nedåt
• Icke hierarkiska –Utgå från den enskilda texten och arbeta uppåt
Rosell 2003 om man vill läsa mera
Hercules Dalianis sid 28
KategoriseringKategorisering
• Överlappande eller icke överlappande kategorier
• Polyethic och Monothetic överlappande och icke överlappade egenskaper
• Ordnade eller icke ordnade kategorier
Hercules Dalianis sid 29
Vivisimo klustringssökmotornVivisimo klustringssökmotorn
• Sökmotorn Vivisimo www.vivisimo.com har en klustrare
• Tar de första 500 bästa träffarna och klustrar dem
Hercules Dalianis sid 30
Hercules Dalianis sid 31
KlustringKlustring
• Rosells klustrare (2002, 2003) klustrade 5 000 svenska nyhetstexter
• K-mean icke-hierarkisk algoritm• Använde stemming och ordledsuppdelning• Stemming förbättrar klustringsresultaten med ungefär
5 procent.• Sammansättningsuppdelning förbättrar resultaten
med 10 procent och en kombination ger 13 procents förbättring (Rosell 2003).
Hercules Dalianis sid 32
Hercules Dalianis sid 33
• Rosell kunde jämföra sina automatiska kluster med de kategorier som nyhetstexterna kom ifrån från början
• Därigenom kunde han se hur pass bra klustren blev.
Hercules Dalianis sid 34
Semiautomatisk kategoriseringSemiautomatisk kategorisering
Hercules Dalianis sid 35
Hercules Dalianis sid 36
SlutsatserSlutsatser
• Framtiden
• Termexpansion
• Särskrivning
• Semiautomatisk kategorisering
• Flerspråklig sökning