Dagens Næringslivs overgang til Lucene/Solr søk

  • View
    2.126

  • Download
    1

  • Category

    Business

Preview:

DESCRIPTION

Foredrag på GoOpen, Oslo, 2011 (Norwegian language) NHST Media Group lager nettsidene for bl.a. Dagens Næringsliv, Dagens IT og en rekke engelskspråklige bransjeaviser. Systemutvikler Hans Jørgen Hoel og søke-arkitekt Jan Høydahl forteller om prosessen etter at det ble besluttet å erstatte søkeløsningen fra FAST med fri programvare Apache Solr. Vi vil forsøke å besvare bl.a.: Hvilke utfordringer møtte vi som følge av forskjeller i de to plattformene? Hvorfor bygde vi vårt eget søkerammeverk? Har det nye søket innfridd forventningene? Se også www.goopen.no, www.cominvent.com og www.nhst.no og Twitter hashtag #GoOpen

Citation preview

Oppgradert søk på m.fl

Hans Jørgen HoelJan Høydahl

Hans Jørgen Hoel

Jan Høydahl

1995: Utvikler telecom1998: Java-utvikler2000: Søk - FAST2006: Lucene2007: new Cominvent()2009: Lucene/SolrCa 100 prosjekter

Virksomhetskritisk søkLucene/Solr og FAST

Domenekunnskap & beste praksis!

Konsulent Kurs(www.solrkurs.no)

Support

Agenda

Bakgrunn for prosjektetArkitektur førSøk ABC, intro til SolrProsjektgjennomføringOppsummering, Q&A

Bakgrunn for prosjektet

Stort antall artikler både på papir og nettFAST ESP som plattform for søk fra 2006Apache Solr for skattelistesøk NHST bruker i stor grad Java og mye åpen programvareDa FAST ble kjøpt opp måtte hele løsningen vurderesEndte opp med å gå for SolrBrakte inn Jan som konsulent

Arkitektur før prosjektet

Søk er ikke databaseOptimalisert for fritekst søkMen god på AND/OR søk

Kommersielle:

Open Source:

Bruksområder:

Søkemotor ABC

X

+++

Apache Solr

Open Source søk - etterspurt??

Prosjektet

Søke-mellomvareNytt presentasjonslag for søkUtfordringerFAST ut -- Solr innOptimalisering/tuning

Arkitektur før prosjektet

Etter overgang til Solr

Multicores

Utfordringer

FAST er en søke-plattform, Solr er rent søkProsessering av kildedataSpråkstøtteEntiteter (personer, steder, firmaer)

FAST - Solr forskjeller

En indeks, delt inn med collections

Flere indekser (cores), hver med sitt eget skjema

Lemmatisering:bil, biler, bilene => bilbillig, billigere => billig

Stemming:bil, biler, bilene => bilbillig => bilbilligere => billiger

Meget bra fler-språklig støtte Mer begrenset. Vi bygget inn språk-støtte i rammeverket

Etter overgang til Solr

Multicores

Tuning for nyhetssøk

Hva er viktigste faktor for nyhets-søk?Ferskvare !

umiddelbar indekseringdato-boost i søkSolr Function Query

recip( ms(NOW,publishdate), 3.16e-11, 0.5, 0.5)^4000.0

Funksjoner for de fleste behov...

literal()fieldvalue()ord()rord()sum()sub()product()div()pow()abs()log()sqrt()map()strdist()

scale()query()linear()recip()max()min()ms()rad()deg()sqrt()cbrt()ln()exp()top()

sin()cos()tan()asin()acos()atan()sinh()cosh()tanh()ceil()floor()rint()pow()hypo()

pi()e()docfreq()termfreq()idf()tf()norm()maxdoc()numdocs()dist()sqedist()hsin()geohash()atan2()

Oppsummering / gevinster

Solr mye mindre ressurskrevende enn FASTKan til og med kjøres virtualisertRyddigere arkitektur, separate kjerner og skjemaerTjent mye på felles søkemellomvare og presentasjonslagGode muligheter for tuning Noen utfordringer, men alt i alt veldig fornøyd

Recommended