27
1 Biblioteci Biblioteci digitale digitale pe pe structuri structuri GRID GRID Prezentator Prezentator : Gheorghe Sebestyen : Gheorghe Sebestyen

Biblioteci digitale pe structuri - users.utcluj.rousers.utcluj.ro/~sebestyen/gridtraining/Digital libraries on GRID.pdf · Biblioteca clasicaclasica ... dezvoltarea unui cadru/model

Embed Size (px)

Citation preview

Page 1: Biblioteci digitale pe structuri - users.utcluj.rousers.utcluj.ro/~sebestyen/gridtraining/Digital libraries on GRID.pdf · Biblioteca clasicaclasica ... dezvoltarea unui cadru/model

1

BiblioteciBiblioteci digitaledigitale pepe structuristructuri GRIDGRIDPrezentatorPrezentator: Gheorghe Sebestyen: Gheorghe Sebestyen

Page 2: Biblioteci digitale pe structuri - users.utcluj.rousers.utcluj.ro/~sebestyen/gridtraining/Digital libraries on GRID.pdf · Biblioteca clasicaclasica ... dezvoltarea unui cadru/model

2

ContinutContinut

BiblioteciBiblioteci clasiceclasice vs. vs. bibliotecibiblioteci digitaledigitaleCercetariCercetari recenterecente in in domeniuldomeniul bibliotecilorbibliotecilor digitaledigitale (Digital (Digital Libraries Libraries -- DLsDLs))ObiectiveObiective sisi cerintecerinte de de proiectareproiectare pentrupentru bibliotecilebibliotecile digitaledigitaleBiblotecileBiblotecile digitaledigitale raportateraportate la la SistemeleSistemele de management a de management a continutuluicontinutului digital digital BiblioteciBiblioteci digitaledigitale bazatebazate pepe ontologieontologie –– bibliotecibiblioteci semanticesemantice““GridGrid--ificareaificarea”” bibliotecilorbibliotecilor digitaledigitaleModelulModelul uneiunei BiblioteciBiblioteci digitaledigitale bazatabazata pepe o o infrastructurainfrastructura GRIDGRIDRezultateRezultate experimentaleexperimentale ––

CautareCautare pepe bazabaza de de cheicheiTehniciTehnici de de cautarecautare sisi clasificareclasificare semanticasemantica

ConcluziiConcluzii

Page 3: Biblioteci digitale pe structuri - users.utcluj.rousers.utcluj.ro/~sebestyen/gridtraining/Digital libraries on GRID.pdf · Biblioteca clasicaclasica ... dezvoltarea unui cadru/model

3

BiblioteciBiblioteci clasiceclasice sisi digitaledigitale

BibliotecaBiblioteca clasicaclasicao o arhivaarhiva de de cunostinte/informatiicunostinte/informatii pepe suportsuport de de hartiehartieMasuraMasura a a graduluigradului de de civilizatiecivilizatie a a uneiunei societatisocietati

BibliotecaBiblioteca digitaladigitalaNuNu numainumai o o versiuneversiune digitizatadigitizata a a uneiunei bibliotecibiblioteciUn set Un set nounou de de functionalitatifunctionalitati sisi serviciiservicii ((controlulcontrolul accesuluiaccesului, , alocareaalocarea sisimanagementulmanagementul resurselorresurselor, , serviciiservicii complexecomplexe de de cautarecautare sisi regasireregasire))Un Un mediumediu pentrupentru schimbschimb de de informatiiinformatii sisi cooperarecooperareContineContine o mare o mare varietatevarietate de date in de date in diverse diverse formateformate (text, audio, video, (text, audio, video, documentedocumente compusecompuse, , obiecteobiecte digitaledigitale sisi colectiicolectii))BibliotecileBibliotecile digitaledigitale suntsunt sistemesisteme informaticeinformatice complexecomplexe care care acoperaacopera toatetoateaspecteleaspectele legate de legate de creareacrearea, , stocareastocarea, , procesareaprocesarea, , distributiadistributia sisi accesulaccesul la la laladate date

Page 4: Biblioteci digitale pe structuri - users.utcluj.rousers.utcluj.ro/~sebestyen/gridtraining/Digital libraries on GRID.pdf · Biblioteca clasicaclasica ... dezvoltarea unui cadru/model

4

TehnologiiTehnologii

IT IT sisi

de de comunicatiecomunicatie

implicate in implicate in implementareaimplementarea bibliotecilorbibliotecilor

digitaledigitale

http://mapageweb.umontreal.ca/turner/meta/english/metamap.html

Page 5: Biblioteci digitale pe structuri - users.utcluj.rousers.utcluj.ro/~sebestyen/gridtraining/Digital libraries on GRID.pdf · Biblioteca clasicaclasica ... dezvoltarea unui cadru/model

5

ObiectiveObiective

pentrupentru

o o bibliotecabiblioteca

digitaladigitala

modernamoderna

ViziuneaViziunea proiectuluiproiectului DELOS DELOS ––““sasa permitapermita oricareioricarei persoanepersoane accesulaccesul la la oriceorice informatieinformatie((cunostintecunostinte) ) oriundeoriunde sisi oricandoricand, , intrintr--un mod un mod prietenosprietenos, , eficienteficientefectivefectiv sisi multimulti--modal modal prinprin eliminareaeliminarea barierelorbarierelor de de distantadistanta, , limbalimba, , sisi culturacultura sisi prinprin utilizareautilizarea de de dispozitivedispozitive interconectateinterconectate pepeInternetInternet””BibliotecaBiblioteca digitaladigitala = o = o arhivaarhiva de de cunostintecunostinte sisi o o infrastructurainfrastructurapentrupentru schimbulschimbul de de informatiiinformatii care care permitepermite generareagenerarea, , stocareastocareasisi accesulaccesul usorusor la date independent de la date independent de distributiadistributia resurselorresurselor fizicefizice, , a a bazelorbazelor de date de date sisi a a persoanelorpersoanelor..

ImplementareaImplementarea uneiunei bibliotecibiblioteci digitaledigitale necesitanecesitainfrastructurainfrastructura sisi serviciiservicii de de calculcalcul sisi de de comunicatiecomunicatie de de inaltainalta performantaperformanta

Page 6: Biblioteci digitale pe structuri - users.utcluj.rousers.utcluj.ro/~sebestyen/gridtraining/Digital libraries on GRID.pdf · Biblioteca clasicaclasica ... dezvoltarea unui cadru/model

6

CercetariCercetari

in in domeniuldomeniul

BibliotecilorBibliotecilor

digitaledigitale

Delos Network of Excellence Delos Network of Excellence ––ObiectivulObiectivul: : definireadefinirea sisi implementareaimplementarea de de bibliotecibiblioteci digitaledigitale pepe tehnologiitehnologii noinoi de de calculcalcul sisi de de comunicatiecomunicatieRealizariRealizari: : definireadefinirea cerintelorcerintelor functionalefunctionale sisi arhitecturalearhitecturale pentrupentru o o bibliotecabibliotecadigitaladigitala

ProiectulProiectul BRICKS BRICKS ObiectivObiectiv: : proiectareaproiectarea unuiunui spatiuspatiu orientatorientat pepe utilizatorutilizator sisi pepe serviciiservicii pentrupentruutilizareautilizarea in in comuncomun a a cunostintelorcunostintelor sisi a a resurselorresurselor intrintr--un context multiun context multi--cultural cultural RealizariRealizari: :

DefinireaDefinirea uneiunei arhitecturiarhitecturi de de bibliotecabiblioteca pentrupentru o o comunitatecomunitate forte mare forte mare sisi eterogenaeterogena de de utilizatoriutilizatori, , functiifunctii automate de automate de adnotareadnotare sisi indexareindexare a a continutuluicontinutului

ProiectulProiectul OpenDlibOpenDlibObiectivObiectiv: : dezvoltareadezvoltarea unuiunui instrument software (toolkit) instrument software (toolkit) pentrupentru gererareagererarea de de bibliotecibiblioteci digitaledigitale dedicate dedicate RealizariRealizari: : instrumenteinstrumente pentrupentru culegereaculegerea de de continutcontinut digital (content digital (content harvesting)harvesting) din din resurseresurse existenteexistente

Fedora, DSpace Fedora, DSpace –– software de tip software de tip ““open sourceopen source”” pentrupentru bibliotecibiblioteci digitaledigitale

Page 7: Biblioteci digitale pe structuri - users.utcluj.rousers.utcluj.ro/~sebestyen/gridtraining/Digital libraries on GRID.pdf · Biblioteca clasicaclasica ... dezvoltarea unui cadru/model

7

CercetariCercetari

in in domeniuldomeniul

BibliotecilorBibliotecilor

digitaledigitaleProiectulProiectul Diligent (Diligent (parteparte a a proiectuluiproiectului EGEE)EGEE)

ObiectivObiectiv: : utilizareautilizarea infrastructurilorinfrastructurilor Grid Grid pentrupentru implementareaimplementareabibliotecilorbibliotecilor digitaledigitaleRealizariRealizari: o : o nouanoua viziuneviziune privindprivind conceptulconceptul de de bibliotecabiblioteca digitaladigitala: :

BibliotecaBiblioteca digitaladigitala = un = un sistemsistem dinamicdinamic de de dede stocarestocare sisi management a management a continutuluicontinutului digital digital destinatdestinat unuiunui scopscop binebine definitdefinit (ex: (ex: proiectproiect, curs, , curs, colectiecolectiede de artaarta, etc.), etc.)DefinireaDefinirea de de serviciiservicii genericegenerice de de bibliotecabiblioteca mapatemapate pepe serviciiservicii GridGridExperiment de Experiment de catalogarecatalogare automata a automata a tuturortuturor imaginilorimaginilor existenteexistente pepe un portal un portal de de imaginiimagini

ProiectulProiectul SinredSinred –– un un proiectproiect national in national in cadrulcadrul ProgramuluiProgramului de de excelentaexcelentaObiectivObiectiv: : dezvoltareadezvoltarea unuiunui cadrucadru/model national /model national pentrupentru bibliotecibiblioteci digitaledigitaledestinatedestinate domeniilordomeniilor stiintificestiintifice sisi tehnicetehniceRealizariRealizari: :

evaluareaevaluarea cerintelorcerintelor, , evaluareaevaluarea produselorproduselor software software existenteexistentedezvoltareadezvoltarea uneiunei infrastructuriinfrastructuri Grid, Grid, definireadefinirea unuiunui model generic de model generic de bibliotecabiblioteca digitaladigitala, , implementareimplementare sisi experimenteexperimente de de cautarecautare sisi regasireregasire in in bibliotecibiblioteci digitaledigitale pepeGridGrid

Page 8: Biblioteci digitale pe structuri - users.utcluj.rousers.utcluj.ro/~sebestyen/gridtraining/Digital libraries on GRID.pdf · Biblioteca clasicaclasica ... dezvoltarea unui cadru/model

8

CerinteCerinte pentrupentru

un un sistemsistem de de

bibliotecabiblioteca digitaladigitala

CerinteCerinte arhitecturalearhitecturale::NaturaNatura distribuitadistribuita a a resurselorresurselor de de stocarestocare, , procesareprocesare sisi de de accesaccesScalabilitateScalabilitate, , interoperabilitateinteroperabilitate sisi flexibilitateflexibilitate

CerinteCerinte functionalefunctionale: : FunctiiFunctii de de bazabaza: : stocarestocare, , indexareindexare sisi adnotareadnotare, , cautarecautare, , regasireregasire de de continutcontinut, , managementulmanagementul utilizatorilorutilizatorilor sisi a a resurselorresurselorOrganizareaOrganizarea continutuluicontinutului trebuietrebuie sasa reflectereflecte conexiunileconexiunile semanticesemantice existenteexistente

FacilitatiFacilitati de de procesareprocesareServiciiServicii de de procesareprocesare a a datelordatelor –– specializatespecializate pentrupentru diferitediferite domeniidomeniiIdentificareaIdentificarea modelelormodelelor (pattern(pattern--urilorurilor) de ) de cautarecautare sisi regasirearegasirea informatiilorinformatiilor pepebazabaza acestoraacestora (de la (de la cheichei de de cautarecautare la la cautarecautare semanticasemantica))

CerinteCerinte de de calitatecalitate a a serviciilorserviciilor (QoS)(QoS)SigurantaSiguranta datelordatelor sisi a a accesuluiaccesuluiTimpTimp rezonabilrezonabil de de regasireregasire a a informatiilorinformatiilor relevanterelevante

ManamenentulManamenentul utilizatorilorutilizatorilor sisi controlulcontrolul accesuluiaccesuluiPromovareaPromovarea ideiiideii de de OrganizatieOrganizatie virtualavirtuala

Page 9: Biblioteci digitale pe structuri - users.utcluj.rousers.utcluj.ro/~sebestyen/gridtraining/Digital libraries on GRID.pdf · Biblioteca clasicaclasica ... dezvoltarea unui cadru/model

9

BiblioteciBiblioteci

digitaledigitale

si/sausi/sau SistemeSisteme

de de gestiunegestiune

a a continutuluicontinutului

digitaldigital

SistemSistem de management al de management al continutuluicontinutului::SistemSistem informaticinformatic destinatdestinat pentrupentru stocareastocarea, , indexareaindexarea sisi clasificareaclasificarea, , vizualizareavizualizarea sisi transmitereatransmiterea datelordatelor relevanterelevante pentrupentru un un anumitanumit domeniudomeniusausau sferasfera de de activitateactivitateGestionareaGestionarea de de formateformate foartefoarte variatevariate ((continutcontinut web, multimedia, web, multimedia, documentedocumente tehnicetehnice, , rapoarterapoarte economiceeconomice, etc.), etc.)ExempleExemple: :

eGovernmenteGovernment and and eAdministrationeAdministration,,FurnizareFurnizare de de continutcontinut MultiMulti--media (media (muzicamuzica, film) , film) Date de Date de administrareadministrare a a companiilorcompaniilorContinutContinut stiintificstiintific sisi tehnictehnic: : standardestandarde, , conferinteconferinte, , cursuricursuri ((eLearningeLearning) )

BiblioteciBiblioteci digitaledigitale::ArhivaArhiva de de continutcontinut digitaldigitalUn tip de Un tip de SistemSistem de management a de management a continutuluicontinutuluiAsiguraAsigura un un accesacces maimai larglarg sisi deservestedeserveste obiectiveobiective maimai generalegenerale (ex: (ex: celcel de de informareinformare))

CeleCele douadoua concepteconcepte suntsunt dificildificil de de delimitatdelimitatIn In viitorviitor, , maimai multemulte bibliotecibiblioteci digitaledigitale cu un cu un scopscop binebine definitdefinit

Page 10: Biblioteci digitale pe structuri - users.utcluj.rousers.utcluj.ro/~sebestyen/gridtraining/Digital libraries on GRID.pdf · Biblioteca clasicaclasica ... dezvoltarea unui cadru/model

10

Schema de principiu a unui SMCD

TextAudio

VideoText

Generare

conţinut

digital

Managementul esenţei

Extragere

automata de

caracteristiciManagementul

metadatelor

Catalogare

Acces

şi

vizualizare

Sistem

informatic

de catalogare

Page 11: Biblioteci digitale pe structuri - users.utcluj.rousers.utcluj.ro/~sebestyen/gridtraining/Digital libraries on GRID.pdf · Biblioteca clasicaclasica ... dezvoltarea unui cadru/model

11

AbordareaAbordarea

pepe

bazabaza

de de ontologiiontologii a a BibliotecilorBibliotecilor

digitaledigitale

OntologieOntologie: : concepteconcepte sisi relatiirelatii intreintre eleele la un la un nivelnivel maimai abstractabstractOntologieOntologie pentrupentru domeniuldomeniul stiintificstiintific sisi tehnictehnic

ConcepteConcepte de de bazabaza::ObiecteObiecte digitaledigitale: :

AsociereAsociere de de continutcontinut, , metadatemetadate sisi proceduriproceduri de de prelucrareprelucrare sisi de de accesacces a a procedurilorprocedurilor

ColectiiColectii digitaledigitale::AsociereaAsocierea pepe bazabaza unuiunui anumitanumit criteriucriteriu a a maimai multormultor obiecteobiecte digitaledigitale

EvenimenteEvenimente: : continutcontinut asociatasociat uneiunei anumiteanumite manifestarimanifestari (de (de scurtascurta duratadurata))ExempleExemple: : ConferinteConferinte, workshop, workshop--uriuri, , seminariiseminarii

ProceseProcese: : continutcontinut asociatasociat uneiunei activitatiactivitati de de duratadurataExempleExemple: : ProiecteProiecte, , CursuriCursuri

OrganizatiiOrganizatii virtualevirtualeRoluriRoluriUtilizatoriUtilizatori

Page 12: Biblioteci digitale pe structuri - users.utcluj.rousers.utcluj.ro/~sebestyen/gridtraining/Digital libraries on GRID.pdf · Biblioteca clasicaclasica ... dezvoltarea unui cadru/model

12

TaxomoniaTaxomonia

documentelor digitaledocumentelor digitale

in in stiintastiinta

sisi

tehnicatehnica

Page 13: Biblioteci digitale pe structuri - users.utcluj.rousers.utcluj.ro/~sebestyen/gridtraining/Digital libraries on GRID.pdf · Biblioteca clasicaclasica ... dezvoltarea unui cadru/model

13

AlteAlte taxonomiitaxonomii

Page 14: Biblioteci digitale pe structuri - users.utcluj.rousers.utcluj.ro/~sebestyen/gridtraining/Digital libraries on GRID.pdf · Biblioteca clasicaclasica ... dezvoltarea unui cadru/model

14

apartine

laprezentat la

consta dineste un

este o

precizat

in

organizat de

membru a

participa ca

dezvoltat deOrganizatie

virtualaProiect

UtilizatorRol

ColectieEveniment

Obiect digital

Metadate Date

ConcepteConcepte sisi relatiirelatii

Page 15: Biblioteci digitale pe structuri - users.utcluj.rousers.utcluj.ro/~sebestyen/gridtraining/Digital libraries on GRID.pdf · Biblioteca clasicaclasica ... dezvoltarea unui cadru/model

15

ModelulModelul de de BibliotecaBiblioteca digitaladigitala

Interfete utilizator

OAI-PMH Data Provider

Managementul metadatelor

Managementul continutului

Management utilizatori

Functii de cautare

Managementul securitatii

Nivel de prezentare

Nivelul de administrare si acces

Procesare cereri

Ontologie Metadate (BD)

Arhiva dig. (Repository)

Nivelul de stocare

NivelulNivelul de de prezentareprezentare --componentecomponente care care comunicacomunica cu cu lumealumea in in afaraafarasistemuluisistemuluiNivelulNivelul de de administrareadministrare sisiaccesacces –– manipuleazamanipuleazacontinutulcontinutul, , utilizatoriiutilizatorii sisiorganizatiileorganizatiile vitualevitualeNivelulNivelul de de stocarestocare ––stocareastocarea metadatelormetadatelor sisi a a continutuluicontinutului

Page 16: Biblioteci digitale pe structuri - users.utcluj.rousers.utcluj.ro/~sebestyen/gridtraining/Digital libraries on GRID.pdf · Biblioteca clasicaclasica ... dezvoltarea unui cadru/model

16

ServiciiServicii

de de bibliotecabiblioteca

digitaladigitala

pepe

GRIDGRID

De De cece BiblioteciBiblioteci digitaledigitale pepe GRID?GRID?Un Un volulvolul imensimens de de documentedocumente digitaledigitaleAccesAcces concurentconcurent sisi motoaremotoare multiple de multiple de cautarecautare ((vezivezi Google)Google)FurnizareFurnizare de de continutcontinut multimedia onmultimedia on--line (Multimedia line (Multimedia streaming)streaming)IndexareIndexare, , catalogarecatalogare sisi adnotareadnotare automataautomataProcesariProcesari complexecomplexe de date (ex: de date (ex: recunoasterearecunoasterea sisi catalogareacatalogareaautomata a automata a continutuluicontinutului multimulti--media) media) necesitanecesita timptimp de de executieexecutie prohibitivprohibitiv de marede mareManagementulManagementul utilizatorilorutilizatorilor sisi alocareaalocarea resurselorresurselor prinprinOrganizatiiOrganizatii virtualevirtualeFacilitatiFacilitati de de distribuiredistribuire a a sarcinilorsarcinilor oferiteoferite de de serviciileserviciile GridGrid

Page 17: Biblioteci digitale pe structuri - users.utcluj.rousers.utcluj.ro/~sebestyen/gridtraining/Digital libraries on GRID.pdf · Biblioteca clasicaclasica ... dezvoltarea unui cadru/model

17

““GridGrid--ificareaificarea”” modeluluimodelului de de

bibliotecabiblioteca digitaladigitala

DistribuireaDistribuirea continutuluicontinutului sisi replicarereplicareControlulControlul accesuluiaccesului la date la date prinprin::

OrganizatiiOrganizatii virtualevirtuale, , CertificareaCertificarea sisi autentificareaautentificarea utilizatorilorutilizatorilorAtribuireaAtribuirea de de roluriroluri

ExecutiaExecutia paralelaparalela a a procedurilorprocedurilor de de cautarecautare sisi clasificareclasificareAceeasiAceeasi proceduraprocedura de de cautarecautare aplicataaplicata in in paralelparalel pepe maimai multemultedocumentedocumente, , pepe maimai multemulte nodurinoduri Grid Grid DistribuireaDistribuirea fazelorfazelor de de executieexecutie ale ale uneiunei proceduriproceduri de de cautarecautare((parsareparsare, , calcululcalculul vectorilorvectorilor de de caracteristicicaracteristici, , identificareidentificare sisiselectieselectie, , clasificareclasificare) ????) ????

Page 18: Biblioteci digitale pe structuri - users.utcluj.rousers.utcluj.ro/~sebestyen/gridtraining/Digital libraries on GRID.pdf · Biblioteca clasicaclasica ... dezvoltarea unui cadru/model

18

ModelulModelul de de BibliotecaBiblioteca

digitaladigitala pepe

o o infrastructurainfrastructura

GridGrid

Resurse

de calcul, de stocare

si

de comunicatie

Biblioteca

digitala

Servicii

Grid

Managementul

colectiilorManagementul

si

catalogarea

metadatelor

Managementul

obiectelor

digitale

Managementul

utilizatorilor

Vizualizarea

datelor

Managementul

organizatiilor

virtuale

Managementul

resurselor

Distributia

Task-urilor

Procesare

Distributia

si

replicarea

datelor

Procesarea

datelor

Page 19: Biblioteci digitale pe structuri - users.utcluj.rousers.utcluj.ro/~sebestyen/gridtraining/Digital libraries on GRID.pdf · Biblioteca clasicaclasica ... dezvoltarea unui cadru/model

19

ExperimenteExperimente

ImplementareaImplementarea uneiunei bibliotecibiblioteci digitaledigitale pepe platformaplatforma AlchemiAlchemi Grid (Microsoft)Grid (Microsoft)DistributiaDistributia sarcinilorsarcinilor la la nivelnivel de fire de de fire de executieexecutie (thread(thread--uriuri))ProgramareProgramare Grid Grid explicitaexplicitaExperimenteExperimente de de furnizarefurnizare in in paralelparalel de de continutcontinut multimedia (multimedia content multimedia (multimedia content streaming)streaming)

ImplementareaImplementarea uneiunei bibliotecibiblioteci digitaledigitale pepe platformaplatforma Condor Grid (Open Condor Grid (Open source)source)

DistributiaDistributia sarcinilorsarcinilor la la nivelnivel de taskde task--uriuriDistributiaDistributia sarcinilorsarcinilor sisi a a datelordatelor esteeste transparentatransparenta pentrupentru aplicatiaaplicatia de de bibliotecabiblioteca((distributiadistributia se face se face prinprin scriptscript--uriuri) ) ExperimenteExperimente de de cautarecautare de de documentedocumente pepe bazabaza de de cuvintecuvinte cheiecheie ((cautarecautare in in continutcontinut sisi nunu in in catalogulcatalogul de de metadatemetadate))

TimpulTimpul de de executieexecutie scadescade cu cu numarulnumarul de de nodurinoduri executoareexecutoare utilizateutilizatePentruPentru maimai multmult de 5 de 5 executoareexecutoare timpultimpul de de planificareplanificare sisi comunicatiecomunicatie devinedevine comparabilcomparabilcu cu celcel de de procesareprocesare

CautareCautare statisticastatistica sisi semanticasemantica

Page 20: Biblioteci digitale pe structuri - users.utcluj.rousers.utcluj.ro/~sebestyen/gridtraining/Digital libraries on GRID.pdf · Biblioteca clasicaclasica ... dezvoltarea unui cadru/model

20

ExperimenteExperimente

Execution time v. s. number of executor nodes

0

1000

2000

3000

4000

5000

6000

7000

8000

1 2 3 4 5

Nodes

Tim

e (s

)

Search execution time

Scheduling andcommunication time(case 1)Scheduling andcommunication time(case 2)Total time (case1)

Total time (case2)

Page 21: Biblioteci digitale pe structuri - users.utcluj.rousers.utcluj.ro/~sebestyen/gridtraining/Digital libraries on GRID.pdf · Biblioteca clasicaclasica ... dezvoltarea unui cadru/model

21

CautareCautare statisticastatistica sisi semanticasemantica

IdeeaIdeea: : regasirearegasirea sausau catalogareacatalogarea unorunor documentedocumente pepe bazabaza unorunordocumentedocumente date ca date ca exempluexempluRegasireRegasire prinprin similaritatesimilaritate

AlgoritmiAlgoritmi::AlgoritmAlgoritm de de cautarecautare de tip de tip ““Naive BayesianNaive Bayesian””Algoritm Topic-Based Vector Space Model (TVSM)

BeneficiileBeneficiile implementariiimplementarii acestoracestor algoritmialgoritmi folosindfolosindsistemesisteme Grid:Grid:

PerformantePerformante maimai bunebune la la timpultimpul de de procesareprocesareDistributiaDistributia documentelordocumentelor

Page 22: Biblioteci digitale pe structuri - users.utcluj.rousers.utcluj.ro/~sebestyen/gridtraining/Digital libraries on GRID.pdf · Biblioteca clasicaclasica ... dezvoltarea unui cadru/model

22

AlgoritmulAlgoritmul Naive Bayes Naive Bayes –– 1 1

ScopScop::ClasificareaClasificarea datelordatelor neetichetateneetichetate cu cu ajutorulajutorul unorunor estimariestimarifolosindfolosind date de date de antrenareantrenare etichetateetichetate

Conform cu Conform cu teoremateorema Bayes se Bayes se poatepoate obtineobtineprobabilitateaprobabilitatea posterioaraposterioara cunoscandcunoscand

probabilitateaprobabilitatea anterioaraanterioaraprobabilitateaprobabilitatea ca un document ca un document sasa apartinaapartina la un la un subiectsubiect

ProbabilitatileProbabilitatile pentrupentru noilenoile date de date de antrenareantrenare ale ale unuiunuiclasificatorclasificator (evidence) (evidence)

P(D|T)/(P(D| T ) P(D|T)/(P(D| T ) undeunde: D: D––

document, T document, T ––

topic topic

Page 23: Biblioteci digitale pe structuri - users.utcluj.rousers.utcluj.ro/~sebestyen/gridtraining/Digital libraries on GRID.pdf · Biblioteca clasicaclasica ... dezvoltarea unui cadru/model

23

AlgoritmulAlgoritmul Naive Bayes Naive Bayes –– 22

EstimareaEstimarea acestoracestor probabilitatiprobabilitati se face se face prinprinmasurareamasurarea frecventeifrecventei de de aparitieaparitie a a cuvintelorcuvintelor intrintr--un un set de set de documentedocumente de de antrenareantrenare..

wwkk

esteeste

cuvantulcuvantul

k k din din celecele

nn

cuvintecuvinte

ale ale documententuluidocumententului

D D

DocumenteleDocumentele neetichetateneetichetate se se folosescfolosesc pentrupentru a a imbunatatiimbunatati setulsetul de de documentedocumente de de antrenareantrenareCuvinteleCuvintele din document din document suntsunt independenteindependente de de contextcontext

)|()|(*......*

)|()|(*

)|()|(

)|()|(

)|()|(

2

2

1

1

.........2,1

.........2,1

TwPTwP

TwPTwP

TwPTwP

TwwwPTwwwP

TDPTDP

n

n

n

n≈=

Page 24: Biblioteci digitale pe structuri - users.utcluj.rousers.utcluj.ro/~sebestyen/gridtraining/Digital libraries on GRID.pdf · Biblioteca clasicaclasica ... dezvoltarea unui cadru/model

24

TopicTopic--Based Vector Space ModelBased Vector Space Model (TVSM) (TVSM) -- 11

ScopScopClasificareaClasificarea documentelordocumentelor folosindfolosind o o abordareabordare bazatbazatpepe spatiispatii vectorialevectoriale

PasiPasi de de procesareprocesare::EliminareaEliminarea cuvintelorcuvintelor nerelevantenerelevante ((StopwordsStopwords) ) –– acestiacesti termenitermeni nunuinfluenteazainfluenteaza sensulsensul documentuluidocumentului

ExempleExemple: : sisi, in, ca, , in, ca, panapana, , candcand,,……Stemming Stemming –– reducereareducerea formeiformei cuvintelorcuvintelor la la radacinaradacina

ExempluExemplu: : ““softwaresoftware”” --> > ““softsoft””SubstitutiaSubstitutia tezauruluitezaurului de de cuvintecuvinte –– inlocuireainlocuirea sinonimelorsinonimelor cu un cu un cuvantcuvant cheiecheie

Page 25: Biblioteci digitale pe structuri - users.utcluj.rousers.utcluj.ro/~sebestyen/gridtraining/Digital libraries on GRID.pdf · Biblioteca clasicaclasica ... dezvoltarea unui cadru/model

25

TopicTopic--Based Vector Space ModelBased Vector Space Model (TVSM) (TVSM) -- 22

DescriereDescriere algoritmalgoritm::UtilizatorulUtilizatorul definestedefineste un un profilprofil prinprin asocieazaasocieaza unorunor documenteledocumentele la la claseclasepredefinitepredefiniteRestulRestul documentelordocumentelor se se clasificaclasifica in in concordantaconcordanta cu cu documenteledocumentele similaresimilareDocumenteleDocumentele noinoi clasificateclasificate imbunatatescimbunatatesc profilulprofilul

Se Se presupunepresupune ca ca termeniitermenii ((cuvintelecuvintele) ) suntsunt elementeleelementele atomiceatomice ale ale unuiunui documentdocumentSimilaritateaSimilaritatea dintredintre doidoi termenitermeni::

Sim(i,jSim(i,j) = ) = coscos

ωωi,ji,j

єє

[0,1]. [0,1]. ωωi,ji,j

––

unghiulunghiul

dintredintre

vectoriivectorii

termenilortermenilor

i i sisi

jjCuvinteleCuvintele care care apartinapartin unuiunui subiectsubiect anumeanume au au lungimealungimea de vector de vector aproapeaproape de 1de 1

Page 26: Biblioteci digitale pe structuri - users.utcluj.rousers.utcluj.ro/~sebestyen/gridtraining/Digital libraries on GRID.pdf · Biblioteca clasicaclasica ... dezvoltarea unui cadru/model

26

TopicTopic--Based Vector Space ModelBased Vector Space Model (TVSM) (TVSM) -- 22

AxeleAxelereprezintareprezinta subiectesubiecte elementareelementarepot pot aveaavea doardoar valorivalori pozitivepozitive

FiecaruiFiecarui document document k k i se i se asocieazaasocieaza un vector un vector ddkk

AsemanareaAsemanarea bazatabazata pepesubiectsubiect sim(sim(kk,,ll) ) dintredintre douadouadocumentedocumente kk sisi ll esteeste data de data de produsulprodusul scalar scalar dintredintre vectoriivectoriidocumentelordocumentelor respectiverespective

Page 27: Biblioteci digitale pe structuri - users.utcluj.rousers.utcluj.ro/~sebestyen/gridtraining/Digital libraries on GRID.pdf · Biblioteca clasicaclasica ... dezvoltarea unui cadru/model

27

ConcluziiConcluzii

BibliotecileBibliotecile digitaledigitale suntsunt sistemesisteme informaticeinformatice complexecomplexe de de management a management a continutuluicontinutului care care extindextind functionalitatilefunctionalitatilebibliotecilorbibliotecilor clasiceclasice::

MediuMediu pentrupentru schimbschimb de de informatiiinformatii sisi cooperarecooperareOrganizareaOrganizarea semanticasemantica a a unorunor informatiiinformatii diverse ca format diverse ca format AccesAcces controlatcontrolat la date la date distribuitedistribuite

InfrastructurileInfrastructurile Grid pot Grid pot sasa ofereofere un un suportsuport de de implementareimplementarefezabilfezabil pentrupentru bibliotecilebibliotecile digitaledigitale

PentruPentru distribuireadistribuirea automata a automata a datelordatelor sisi a a sarcinilorsarcinilor de de procesareprocesarePentruPentru transfer transfer eficienteficient de date de date sisi sincronizaresincronizarePentruPentru managementulmanagementul utilizatorilorutilizatorilor sisi controlulcontrolul accesuluiaccesului

ProblemeProbleme: : MulteMulte platformeplatforme GRID GRID adoptaadopta un un stilstil de de procesareprocesare de tip de tip ““prelucrareprelucrare pepeloturiloturi (batch)(batch)”” in care in care lipsestelipseste interactivitateainteractivitateaProgramatorulProgramatorul aplicatieiaplicatiei de de bibliotecabiblioteca esteeste implicatimplicat in mica in mica masuramasura in in procesulprocesul de gridde grid--ificareificare ((executieexecutie pepe Grid). Grid).