28
Biblioteci digitale pe Biblioteci digitale pe structuri GRID structuri GRID Prezentator: Tunde Balint Prezentator: Tunde Balint Universitatea Tehnica din Cluj Universitatea Tehnica din Cluj - - Napoca Napoca Membrii echipei de cercetare: Membrii echipei de cercetare: Gheorghe Sebestyen Gheorghe Sebestyen responsabil proiect responsabil proiect Doina Banciu Doina Banciu coordonator proiect SINRED coordonator proiect SINRED Ramona Marfievici Ramona Marfievici Bogdan Moscaliuc Bogdan Moscaliuc Anca Hangan Anca Hangan

Biblioteci digitale pe Biblioteci digitale pe structuri ...web.info.uvt.ro/~petcu/grid/DLonGrid.pdf · Biblioteca clasicaBiblioteca clasica ... dezvoltarea unei infrastructuri Grid,

Embed Size (px)

Citation preview

Page 1: Biblioteci digitale pe Biblioteci digitale pe structuri ...web.info.uvt.ro/~petcu/grid/DLonGrid.pdf · Biblioteca clasicaBiblioteca clasica ... dezvoltarea unei infrastructuri Grid,

Biblioteci digitale pe Biblioteci digitale pe structuri GRIDstructuri GRID

Prezentator: Tunde Balint Prezentator: Tunde Balint –– Universitatea Tehnica din ClujUniversitatea Tehnica din Cluj--NapocaNapoca

Membrii echipei de cercetare:Membrii echipei de cercetare:Gheorghe Sebestyen Gheorghe Sebestyen –– responsabil proiectresponsabil proiectDoina Banciu Doina Banciu –– coordonator proiect SINREDcoordonator proiect SINREDRamona MarfieviciRamona MarfieviciBogdan MoscaliucBogdan MoscaliucAnca HanganAnca Hangan

Page 2: Biblioteci digitale pe Biblioteci digitale pe structuri ...web.info.uvt.ro/~petcu/grid/DLonGrid.pdf · Biblioteca clasicaBiblioteca clasica ... dezvoltarea unei infrastructuri Grid,

2

ContinutContinut

Biblioteci clasice vs. biblioteci digitaleBiblioteci clasice vs. biblioteci digitaleCercetari recente in domeniul bibliotecilor digitale (Digital Cercetari recente in domeniul bibliotecilor digitale (Digital Libraries Libraries -- DLs)DLs)Obiective si cerinte de proiectare pentru bibliotecile digitaleObiective si cerinte de proiectare pentru bibliotecile digitaleBibliotecile digitale raportate la Sistemele de management a Bibliotecile digitale raportate la Sistemele de management a continutului digital continutului digital Biblioteci digitale bazate pe ontologie Biblioteci digitale bazate pe ontologie –– biblioteci semanticebiblioteci semantice““GridGrid--ificareaificarea”” bibliotecilor digitalebibliotecilor digitaleModelul unei Biblioteci digitale bazata pe o infrastructura GRIDModelul unei Biblioteci digitale bazata pe o infrastructura GRIDRezultate experimentale Rezultate experimentale ––

Cautare pe baza de cheiCautare pe baza de cheiTehnici de cautare si clasificare semanticaTehnici de cautare si clasificare semantica

Concluzii Concluzii

Page 3: Biblioteci digitale pe Biblioteci digitale pe structuri ...web.info.uvt.ro/~petcu/grid/DLonGrid.pdf · Biblioteca clasicaBiblioteca clasica ... dezvoltarea unei infrastructuri Grid,

3

Biblioteci clasice si digitaleBiblioteci clasice si digitale

Biblioteca clasicaBiblioteca clasicao arhiva de cunostinte/informatii pe suport de hartieo arhiva de cunostinte/informatii pe suport de hartieMasura a gradului de civilizatie a unei societatiMasura a gradului de civilizatie a unei societati

Biblioteca digitalaBiblioteca digitalaNu numai o versiune digitizata a unei biblioteci Nu numai o versiune digitizata a unei biblioteci Un set nou de functionalitati si servicii (controlul accesului, Un set nou de functionalitati si servicii (controlul accesului, alocarea si alocarea si managementul resurselor, servicii complexe de cautare si regasirmanagementul resurselor, servicii complexe de cautare si regasire)e)Un mediu pentru schimb de informatii si cooperare Un mediu pentru schimb de informatii si cooperare Contine o mare varietate de date in diverse formate (text, audioContine o mare varietate de date in diverse formate (text, audio, video, , video, documente compuse, obiecte digitale si colectii)documente compuse, obiecte digitale si colectii)Bibliotecile digitale sunt sisteme informatice complexe care acoBibliotecile digitale sunt sisteme informatice complexe care acopera toate pera toate aspectele legate de crearea, stocarea, procesarea, distributia saspectele legate de crearea, stocarea, procesarea, distributia si accesul la la i accesul la la date date

Page 4: Biblioteci digitale pe Biblioteci digitale pe structuri ...web.info.uvt.ro/~petcu/grid/DLonGrid.pdf · Biblioteca clasicaBiblioteca clasica ... dezvoltarea unei infrastructuri Grid,

4

Tehnologii IT si de comunicatie implicate in implementarea Tehnologii IT si de comunicatie implicate in implementarea bibliotecilor digitalebibliotecilor digitale

http://mapageweb.umontreal.ca/turner/meta/english/metamap.html

Page 5: Biblioteci digitale pe Biblioteci digitale pe structuri ...web.info.uvt.ro/~petcu/grid/DLonGrid.pdf · Biblioteca clasicaBiblioteca clasica ... dezvoltarea unei infrastructuri Grid,

5

Obiective pentru o biblioteca digitala modernaObiective pentru o biblioteca digitala moderna

Viziunea proiectului DELOS Viziunea proiectului DELOS ––““sa permita oricarei persoane accesul la orice informatie sa permita oricarei persoane accesul la orice informatie (cunostinte) oriunde si oricand, intr(cunostinte) oriunde si oricand, intr--un mod prietenos, eficient un mod prietenos, eficient efectiv si multiefectiv si multi--modal prin eliminarea barierelor de distanta, modal prin eliminarea barierelor de distanta, limba, si cultura si prin utilizarea de dispozitive interconectalimba, si cultura si prin utilizarea de dispozitive interconectate pe te pe InternetInternet””Biblioteca digitala = o Biblioteca digitala = o arhiva de cunostintearhiva de cunostinte si o si o infrastructura infrastructura pentru schimbul de informatiipentru schimbul de informatii care permite generarea, stocarea care permite generarea, stocarea si accesul usor la date independent de distributia resurselor fisi accesul usor la date independent de distributia resurselor fizice, zice, a bazelor de date si a persoanelor.a bazelor de date si a persoanelor.

Implementarea unei biblioteci digitale necesita Implementarea unei biblioteci digitale necesita infrastructura si servicii de calcul si de comunicatie de infrastructura si servicii de calcul si de comunicatie de inalta performanta inalta performanta

Page 6: Biblioteci digitale pe Biblioteci digitale pe structuri ...web.info.uvt.ro/~petcu/grid/DLonGrid.pdf · Biblioteca clasicaBiblioteca clasica ... dezvoltarea unei infrastructuri Grid,

6

Cercetari in domeniul Bibliotecilor digitaleCercetari in domeniul Bibliotecilor digitale

Delos Network of Excellence Delos Network of Excellence ––Obiectivul: definirea si implementarea de biblioteci digitale peObiectivul: definirea si implementarea de biblioteci digitale pe tehnologii noi de tehnologii noi de calcul si de comunicatiecalcul si de comunicatieRealizari: definirea Realizari: definirea cerintelor functionale si arhitecturalecerintelor functionale si arhitecturale pentru o biblioteca pentru o biblioteca digitala digitala

Proiectul BRICKS Proiectul BRICKS Obiectiv: proiectarea unui spatiu orientat pe utilizator si pe sObiectiv: proiectarea unui spatiu orientat pe utilizator si pe servicii pentru ervicii pentru utilizarea in comun a cunostintelor si a resurselorutilizarea in comun a cunostintelor si a resurselor intrintr--un context multiun context multi--cultural cultural Realizari: Realizari:

Definirea unei arhitecturi de biblioteca pentru o comunitate forDefinirea unei arhitecturi de biblioteca pentru o comunitate forte mare si eterogena de te mare si eterogena de utilizatori, utilizatori, functii automate de adnotare si indexare a continutuluifunctii automate de adnotare si indexare a continutului

Proiectul OpenDlibProiectul OpenDlibObiectiv: dezvoltarea unui instrument software (toolkit) pentru Obiectiv: dezvoltarea unui instrument software (toolkit) pentru gererarea de gererarea de biblioteci digitale dedicate biblioteci digitale dedicate Realizari: instrumente pentru Realizari: instrumente pentru culegerea de continut digital (content culegerea de continut digital (content harvesting)harvesting) din resurse existentedin resurse existente

Fedora, DSpace Fedora, DSpace –– software de tip software de tip ““open sourceopen source”” pentru biblioteci digitale pentru biblioteci digitale

Page 7: Biblioteci digitale pe Biblioteci digitale pe structuri ...web.info.uvt.ro/~petcu/grid/DLonGrid.pdf · Biblioteca clasicaBiblioteca clasica ... dezvoltarea unei infrastructuri Grid,

7

Cercetari in domeniul Bibliotecilor digitaleCercetari in domeniul Bibliotecilor digitaleProiectul Diligent (parte a proiectului EGEE)Proiectul Diligent (parte a proiectului EGEE)

Obiectiv: utilizarea infrastructurilor Grid pentru implementareaObiectiv: utilizarea infrastructurilor Grid pentru implementareabibliotecilor digitalebibliotecilor digitaleRealizari: o noua viziune privind conceptul de biblioteca digitaRealizari: o noua viziune privind conceptul de biblioteca digitala: la:

Biblioteca digitala = un sistem dinamic de de stocare si manageBiblioteca digitala = un sistem dinamic de de stocare si management a ment a continutului digital destinat unui scop bine definit (ex: proieccontinutului digital destinat unui scop bine definit (ex: proiect, curs, colectie t, curs, colectie de arta, etc.de arta, etc.Definirea de servicii generice de biblioteca mapate pe servicii Definirea de servicii generice de biblioteca mapate pe servicii GridGridExperiment de catalogare automata a tuturor imaginilor existenteExperiment de catalogare automata a tuturor imaginilor existente pe un portal pe un portal de imaginide imagini

Proiectul Sinred Proiectul Sinred –– un proiect national in cadrul Programului de excelentaun proiect national in cadrul Programului de excelentaObiectiv: dezvoltarea unui cadru/model national pentru bibliotecObiectiv: dezvoltarea unui cadru/model national pentru biblioteci i destinate domeniilor stiintifice si tehnice destinate domeniilor stiintifice si tehnice Realizari: Realizari:

evaluarea cerintelor, evaluarea produselor software existente evaluarea cerintelor, evaluarea produselor software existente dezvoltarea unei infrastructuri Grid, dezvoltarea unei infrastructuri Grid, definirea unui model generic de biblioteca digitala, definirea unui model generic de biblioteca digitala, implementare si experimente de cautare si regasire in biblioteciimplementare si experimente de cautare si regasire in biblioteci digitale pe digitale pe GridGrid

Page 8: Biblioteci digitale pe Biblioteci digitale pe structuri ...web.info.uvt.ro/~petcu/grid/DLonGrid.pdf · Biblioteca clasicaBiblioteca clasica ... dezvoltarea unei infrastructuri Grid,

8

Cerinte pentru un sistem de Cerinte pentru un sistem de biblioteca digitalabiblioteca digitala

Cerinte arhitecturaleCerinte arhitecturale::Natura distribuita a resurselor de stocare, procesare si de acceNatura distribuita a resurselor de stocare, procesare si de acces s Scalabilitate, interoperabilitate si flexibilitate Scalabilitate, interoperabilitate si flexibilitate

Cerinte functionaleCerinte functionale: : Functii de bazaFunctii de baza: stocare, indexare si adnotare, cautare, regasire de continut, : stocare, indexare si adnotare, cautare, regasire de continut, managementul utilizatorilor si a resurselormanagementul utilizatorilor si a resurselorOrganizarea continutului trebuie sa reflecte conexiunile semantiOrganizarea continutului trebuie sa reflecte conexiunile semantice existente ce existente

Facilitati de procesareFacilitati de procesareServicii de procesare a datelor Servicii de procesare a datelor –– specializate pentru diferite domeniispecializate pentru diferite domeniiIdentificarea modelelor (patternIdentificarea modelelor (pattern--urilor) de cautare si regasirea informatiilor pe urilor) de cautare si regasirea informatiilor pe baza acestora (de la chei de cautare la cautare semantica)baza acestora (de la chei de cautare la cautare semantica)

Cerinte de calitate a serviciilor (QoS)Cerinte de calitate a serviciilor (QoS)Siguranta datelor si a accesuluiSiguranta datelor si a accesuluiTimp rezonabil de regasire a informatiilor relevanteTimp rezonabil de regasire a informatiilor relevante

Manamenentul utilizatorilor si controlul accesuluiManamenentul utilizatorilor si controlul accesuluiPromovarea ideii de Organizatie virtualaPromovarea ideii de Organizatie virtuala

Page 9: Biblioteci digitale pe Biblioteci digitale pe structuri ...web.info.uvt.ro/~petcu/grid/DLonGrid.pdf · Biblioteca clasicaBiblioteca clasica ... dezvoltarea unei infrastructuri Grid,

9

Biblioteci digitale si/sau Biblioteci digitale si/sau Sisteme de gestiune a continutului digitalSisteme de gestiune a continutului digital

Sistem de management al continutului:Sistem de management al continutului:Sistem informatic destinat pentru stocarea, indexarea si clasifiSistem informatic destinat pentru stocarea, indexarea si clasificarea, carea, vizualizarea si transmiterea datelor relevante pentru un anumit vizualizarea si transmiterea datelor relevante pentru un anumit domeniu domeniu sau sfera de activitatesau sfera de activitateGestionarea de formate foarte variate (continut web, multimedia,Gestionarea de formate foarte variate (continut web, multimedia,documente tehnice, rapoarte economice, etc.)documente tehnice, rapoarte economice, etc.)Exemple: Exemple:

eGovernment and eAdministration,eGovernment and eAdministration,Furnizare de continut MultiFurnizare de continut Multi--media (muzica, film) media (muzica, film) Date de administrare a companiilorDate de administrare a companiilorContinut stiintific si tehnic: standarde, conferinte, cursuri (eContinut stiintific si tehnic: standarde, conferinte, cursuri (eLearning) Learning)

Biblioteci digitale:Biblioteci digitale:Arhiva de continut digitalArhiva de continut digitalUn tip de Sistem de management a continutuluiUn tip de Sistem de management a continutuluiAsigura un acces mai larg si deserveste obiective mai generale (Asigura un acces mai larg si deserveste obiective mai generale (ex: cel de ex: cel de informare)informare)

Cele doua concepte sunt dificil de delimitatCele doua concepte sunt dificil de delimitatIn viitor, mai multe biblioteci digitale cu un scop bine definitIn viitor, mai multe biblioteci digitale cu un scop bine definit

Page 10: Biblioteci digitale pe Biblioteci digitale pe structuri ...web.info.uvt.ro/~petcu/grid/DLonGrid.pdf · Biblioteca clasicaBiblioteca clasica ... dezvoltarea unei infrastructuri Grid,

10

Schema de principiu a unui SMCD

TextAudio

VideoText

Generare conţinut digital

Managementul esenţei

Extragere automata de caracteristici

Managementul metadatelor

Catalogare

Acces şi vizualizare

Sistem informatic de catalogare

Page 11: Biblioteci digitale pe Biblioteci digitale pe structuri ...web.info.uvt.ro/~petcu/grid/DLonGrid.pdf · Biblioteca clasicaBiblioteca clasica ... dezvoltarea unei infrastructuri Grid,

11

Abordarea pe baza de ontologii Abordarea pe baza de ontologii a Bibliotecilor digitalea Bibliotecilor digitale

Ontologie: concepte si relatii intre ele la un nivel mai abstraOntologie: concepte si relatii intre ele la un nivel mai abstractctOntologie pentru domeniul stiintific si tehnicOntologie pentru domeniul stiintific si tehnic

Concepte de baza:Concepte de baza:Obiecte digitale: Obiecte digitale:

Asociere de continut, metadate si proceduri de prelucrare si de Asociere de continut, metadate si proceduri de prelucrare si de acces a acces a procedurilorprocedurilor

Colectii digitale:Colectii digitale:Asocierea pe baza unui anumit criteriu a mai multor obiecte digiAsocierea pe baza unui anumit criteriu a mai multor obiecte digitaletale

Evenimente: Evenimente: continut asociat unei anumite manifestari (de scurta durata)continut asociat unei anumite manifestari (de scurta durata)Exemple: Conferinte, workshopExemple: Conferinte, workshop--uri, seminariiuri, seminarii

Procese: Procese: continut asociat unei activitati de duratacontinut asociat unei activitati de durataExemple: Proiecte, CursuriExemple: Proiecte, Cursuri

Organizatii virtualeOrganizatii virtualeRoluriRoluriUtilizatoriUtilizatori

Page 12: Biblioteci digitale pe Biblioteci digitale pe structuri ...web.info.uvt.ro/~petcu/grid/DLonGrid.pdf · Biblioteca clasicaBiblioteca clasica ... dezvoltarea unei infrastructuri Grid,

12

Taxomonia documentelor digitaleTaxomonia documentelor digitale in stiinta si tehnicain stiinta si tehnica

Page 13: Biblioteci digitale pe Biblioteci digitale pe structuri ...web.info.uvt.ro/~petcu/grid/DLonGrid.pdf · Biblioteca clasicaBiblioteca clasica ... dezvoltarea unei infrastructuri Grid,

13

Alte taxonomiiAlte taxonomii

Page 14: Biblioteci digitale pe Biblioteci digitale pe structuri ...web.info.uvt.ro/~petcu/grid/DLonGrid.pdf · Biblioteca clasicaBiblioteca clasica ... dezvoltarea unei infrastructuri Grid,

14

apartine la

prezentat la

consta dineste un

este o

precizat in

organizat de

membru a

participa ca

dezvoltat deOrganizatie virtuala

Proiect

UtilizatorRol

ColectieEveniment

Obiect digital

Metadate Date

ConcepteConcepte sisi relatiirelatii

Page 15: Biblioteci digitale pe Biblioteci digitale pe structuri ...web.info.uvt.ro/~petcu/grid/DLonGrid.pdf · Biblioteca clasicaBiblioteca clasica ... dezvoltarea unei infrastructuri Grid,

15

ModelulModelul de de BibliotecaBiblioteca digitaladigitala

Interfeteutilizator

OAI-PMH Data Provider

Managementulmetadatelor

Managementulcontinutului

Management utilizatori

Functii de cautare

Managementulsecuritatii

Nivel de prezentare

Nivelullogicii de business

Procesarecereri

Ontologie Metadata (BD)

RepozitoriuNivelulde stocare

NivelulNivelul de de prezentareprezentare --componentecomponente care care comunicacomunica cu cu lumealumea in in afaraafarasistemuluisistemuluiNivelulNivelul logiciilogicii de business de business –– manipuleazamanipuleaza continutulcontinutul, , utilizatoriiutilizatorii sisi organizatiileorganizatiilevitualevitualeNivelulNivelul de de stocarestocare ––stocareastocarea metadatelormetadatelor sisi a a continutuluicontinutului

Page 16: Biblioteci digitale pe Biblioteci digitale pe structuri ...web.info.uvt.ro/~petcu/grid/DLonGrid.pdf · Biblioteca clasicaBiblioteca clasica ... dezvoltarea unei infrastructuri Grid,

16

Servicii de biblioteca digitala pe GRIDServicii de biblioteca digitala pe GRID

De ce Biblioteci digitale pe GRID?De ce Biblioteci digitale pe GRID?Un volul imens de documente digitaleUn volul imens de documente digitaleAcces concurent si motoare multiple de cautare (vezi Google)Acces concurent si motoare multiple de cautare (vezi Google)Furnizare de continut multimedia onFurnizare de continut multimedia on--line (Multimedia line (Multimedia streaming)streaming)Indexare, catalogare si adnotare automataIndexare, catalogare si adnotare automataProcesarile complexe de date (ex: recunoasterea si catalogarea Procesarile complexe de date (ex: recunoasterea si catalogarea automata a continutului multiautomata a continutului multi--media) necesita timp de media) necesita timp de executie prohibitiv de mareexecutie prohibitiv de mareManagementul utilizatorilor si alocarea resurselor prin Managementul utilizatorilor si alocarea resurselor prin Organizatii virtualeOrganizatii virtualeFacilitati de distribuire a sarcinilor oferite de serviciile GriFacilitati de distribuire a sarcinilor oferite de serviciile Gridd

Page 17: Biblioteci digitale pe Biblioteci digitale pe structuri ...web.info.uvt.ro/~petcu/grid/DLonGrid.pdf · Biblioteca clasicaBiblioteca clasica ... dezvoltarea unei infrastructuri Grid,

17

““GridGrid--ificareaificarea”” modelului de modelului de biblioteca digitala biblioteca digitala

Distribuirea continutului si replicareDistribuirea continutului si replicareControlul accesului la date prin:Controlul accesului la date prin:

Organizatii virtuale, Organizatii virtuale, Certificarea si autentificarea utilizatorilorCertificarea si autentificarea utilizatorilorAtribuirea de roluriAtribuirea de roluri

Executia paralela a procedurilor de cautare si clasificareExecutia paralela a procedurilor de cautare si clasificareAceeasi procedura de cautare aplicata in paralel pe mai multe Aceeasi procedura de cautare aplicata in paralel pe mai multe documente, pe mai multe noduri Grid documente, pe mai multe noduri Grid Distribuirea fazelor de executie ale unei proceduri de cautare Distribuirea fazelor de executie ale unei proceduri de cautare (parsare, calculul vectorilor de caracteristici, identificare si(parsare, calculul vectorilor de caracteristici, identificare siselectie, clasificare) ????selectie, clasificare) ????

Page 18: Biblioteci digitale pe Biblioteci digitale pe structuri ...web.info.uvt.ro/~petcu/grid/DLonGrid.pdf · Biblioteca clasicaBiblioteca clasica ... dezvoltarea unei infrastructuri Grid,

18

Modelul de Biblioteca digitala pe o Modelul de Biblioteca digitala pe o infrastructura Gridinfrastructura Grid

Resurse de calcul, de stocare si de comunicatie

Biblioteca digitala

Servicii Grid

Managementul colectiilor

Managementul si catalogarea metadatelor

Managementul obiectelor digitale

Managementul utilizatorilor

Vizualizarea datelor

Managementul organizatiilor

virtuale

Managementul resurselor

Distributia Task-urilor

Procesare

Distributia si replicarea

datelor

Procesarea datelor

Page 19: Biblioteci digitale pe Biblioteci digitale pe structuri ...web.info.uvt.ro/~petcu/grid/DLonGrid.pdf · Biblioteca clasicaBiblioteca clasica ... dezvoltarea unei infrastructuri Grid,

19

ExperimenteExperimente

Implementarea unei biblioteci digitale pe platforma Alchemi GridImplementarea unei biblioteci digitale pe platforma Alchemi Grid (Microsoft)(Microsoft)Distributia sarcinilor la nivel de fire de executie (threadDistributia sarcinilor la nivel de fire de executie (thread--uri)uri)Programare Grid explicitaProgramare Grid explicitaExperimente de furnizare in paralel de continut multimedia (multExperimente de furnizare in paralel de continut multimedia (multimedia content imedia content streaming)streaming)

Implementarea unei biblioteci digitale pe platforma Condor Grid Implementarea unei biblioteci digitale pe platforma Condor Grid (Open (Open source)source)

Distributia sarcinilor la nivel de taskDistributia sarcinilor la nivel de task--uriuriDistributia sarcinilor si a datelor este transparenta pentru aplDistributia sarcinilor si a datelor este transparenta pentru aplicatia de biblioteca icatia de biblioteca (distributia se face prin script(distributia se face prin script--uri) uri) Experimente de cautare de documente pe baza de cuvinte cheie (caExperimente de cautare de documente pe baza de cuvinte cheie (cautare in utare in continut si nu in catalogul de metadate)continut si nu in catalogul de metadate)

Timpul de executie scade cu numarul de noduri executoare utilizaTimpul de executie scade cu numarul de noduri executoare utilizatetePentru mai mult de 5 executoare timpul de planificare si comunicPentru mai mult de 5 executoare timpul de planificare si comunicatie devine comparabil atie devine comparabil cu cel de procesarecu cel de procesare

Cautare statistica si semanticaCautare statistica si semantica

Page 20: Biblioteci digitale pe Biblioteci digitale pe structuri ...web.info.uvt.ro/~petcu/grid/DLonGrid.pdf · Biblioteca clasicaBiblioteca clasica ... dezvoltarea unei infrastructuri Grid,

20

ExperimenteExperimente

Execution time v. s. number of executor nodes

0

1000

2000

3000

4000

5000

6000

7000

8000

1 2 3 4 5

Nodes

Tim

e (s

)

Search execution time

Scheduling andcommunication time(case 1)Scheduling andcommunication time(case 2)Total time (case1)

Total time (case2)

Page 21: Biblioteci digitale pe Biblioteci digitale pe structuri ...web.info.uvt.ro/~petcu/grid/DLonGrid.pdf · Biblioteca clasicaBiblioteca clasica ... dezvoltarea unei infrastructuri Grid,

21

Cautare statistica si semanticaCautare statistica si semantica

Ideea: Ideea: regasirea sau catalogarea unor documente pe baza unor regasirea sau catalogarea unor documente pe baza unor documente date ca exempludocumente date ca exempluRegasire prin similaritateRegasire prin similaritate

Algoritmi:Algoritmi:Algoritm de cautare de tip Algoritm de cautare de tip ““Naive BayesianNaive Bayesian””Algoritm Topic-Based Vector Space Model (TVSM)

Page 22: Biblioteci digitale pe Biblioteci digitale pe structuri ...web.info.uvt.ro/~petcu/grid/DLonGrid.pdf · Biblioteca clasicaBiblioteca clasica ... dezvoltarea unei infrastructuri Grid,

22

Algoritmul Naive Bayes Algoritmul Naive Bayes –– 1 1

Scop:Scop:Clasificarea datelor neetichetate cu ajutorul unor estimari Clasificarea datelor neetichetate cu ajutorul unor estimari folosind date de antrenare etichetatefolosind date de antrenare etichetate

Conform cu teorema Bayes se poate obtine Conform cu teorema Bayes se poate obtine probabilitatea posterioara cunoscandprobabilitatea posterioara cunoscand

probabilitatea anterioara probabilitatea anterioara probabilitatea ca un document apartine la un subiectprobabilitatea ca un document apartine la un subiect

datele pentru antrenarea unui clasificator (evidence) datele pentru antrenarea unui clasificator (evidence) Probabilitatea ca un document ar fi fost generat considerand ca Probabilitatea ca un document ar fi fost generat considerand ca apartine (sau nu) la un anumit subiectapartine (sau nu) la un anumit subiect

D D –– documentuldocumentulT T –– faptul ca faptul ca DD apartine unui topic Tapartine unui topic T)(

)(*)|()|(

)|()|(

TPTP

TDPTDP

TDPTDP

=

Page 23: Biblioteci digitale pe Biblioteci digitale pe structuri ...web.info.uvt.ro/~petcu/grid/DLonGrid.pdf · Biblioteca clasicaBiblioteca clasica ... dezvoltarea unei infrastructuri Grid,

23

Algoritmul Naive Bayes Algoritmul Naive Bayes –– 22

Estimarea acestor probabilitati se face prin Estimarea acestor probabilitati se face prin masurarea frecventei de aparitie a cuvintelor intrmasurarea frecventei de aparitie a cuvintelor intr--un un set de documente de antrenare.set de documente de antrenare.

ww este cuvantul este cuvantul k k din cele din cele nn cuvinte ale documententului D cuvinte ale documententului D

Documentele neetichetate se folosesc pentru a Documentele neetichetate se folosesc pentru a imbunatati setul de documente de antrenareimbunatati setul de documente de antrenareCuvintele din document sunt independente de Cuvintele din document sunt independente de contextcontext

)|()|(*......*

)|()|(*

)|()|(

)|()|(

)|()|(

2

2

1

1

.........2,1

.........2,1

TwPTwP

TwPTwP

TwPTwP

TwwwPTwwwP

TDPTDP

n

n

n

n≈=

Page 24: Biblioteci digitale pe Biblioteci digitale pe structuri ...web.info.uvt.ro/~petcu/grid/DLonGrid.pdf · Biblioteca clasicaBiblioteca clasica ... dezvoltarea unei infrastructuri Grid,

24

TopicTopic--Based Vector Space Model Based Vector Space Model (TVSM) (TVSM) -- 11

ScopScopClasificarea documentelor folosind o abordare Clasificarea documentelor folosind o abordare bazata pe spatii vectorialebazata pe spatii vectoriale

Termeni folositi:Termeni folositi:StopwordStopword--list list –– acesti termeni nu influenteaza sensul acesti termeni nu influenteaza sensul documentuluidocumentului

Exemple: si, in, ca, pana, cand,Exemple: si, in, ca, pana, cand,……Substitutia tezaurului de cuvinteSubstitutia tezaurului de cuvinte –– inlocuirea sinonimelor cu un inlocuirea sinonimelor cu un cuvant cheiecuvant cheieStemming Stemming –– reducerea formei cuvintelorreducerea formei cuvintelor

Exemplu: Exemplu: ““softwaresoftware”” --> > ““softsoft””

Page 25: Biblioteci digitale pe Biblioteci digitale pe structuri ...web.info.uvt.ro/~petcu/grid/DLonGrid.pdf · Biblioteca clasicaBiblioteca clasica ... dezvoltarea unei infrastructuri Grid,

25

TopicTopic--Based Vector Space Model Based Vector Space Model (TVSM) (TVSM) -- 22

Descriere algoritm:Descriere algoritm:Utilizatorul defineste un profil prin asocieaza unor documente lUtilizatorul defineste un profil prin asocieaza unor documente la clase a clase predefinitepredefiniteRestul documentelor se clasifica in concordanta cu documentele sRestul documentelor se clasifica in concordanta cu documentele similareimilareDocumentele noi clasificate imbunatatesc profilulDocumentele noi clasificate imbunatatesc profilul

Se presupune ca termenii (cuvintele) sunt elementele atomice aleSe presupune ca termenii (cuvintele) sunt elementele atomice aleunui documentunui documentSimilaritatea dintre doi termeni:Similaritatea dintre doi termeni:

Sim(i,j) = cos Sim(i,j) = cos ωωi,ji,j єє [0,1]. [0,1]. ωωi,j i,j –– unghiul dintre vectorii termenilor unghiul dintre vectorii termenilor i i si si jj

Cuvintele care apartin unui subiect anume au lungimea de vector Cuvintele care apartin unui subiect anume au lungimea de vector aproape de 1aproape de 1

Page 26: Biblioteci digitale pe Biblioteci digitale pe structuri ...web.info.uvt.ro/~petcu/grid/DLonGrid.pdf · Biblioteca clasicaBiblioteca clasica ... dezvoltarea unei infrastructuri Grid,

26

TopicTopic--Based Vector Space Model Based Vector Space Model (TVSM) (TVSM) -- 33

Axele Axele reprezinta subiecte elementarereprezinta subiecte elementarepot avea doar valori pozitivepot avea doar valori pozitive

Fiecarui document Fiecarui document k k i se asocieaza i se asocieaza un vector un vector ddk k

Asemanarea bazata pe subiect Asemanarea bazata pe subiect sim(sim(kk,,ll) dintre doua documente ) dintre doua documente kk si si lleste dat de produsul scalar dintre este dat de produsul scalar dintre vectorii documentelor respectivevectorii documentelor respective

Beneficiile implementarii acestor algoritmi folosind sisteme Grid:

Performante mai bune la timpul de procesareDistributia documentelor

Page 27: Biblioteci digitale pe Biblioteci digitale pe structuri ...web.info.uvt.ro/~petcu/grid/DLonGrid.pdf · Biblioteca clasicaBiblioteca clasica ... dezvoltarea unei infrastructuri Grid,

27

ConcluziiConcluzii

Bibliotecile digitale sunt sisteme informatice complexe de Bibliotecile digitale sunt sisteme informatice complexe de management a continutului care extind functionalitatile management a continutului care extind functionalitatile bibliotecilor clasice:bibliotecilor clasice:

Mediu pentru schimb de informatii si cooperareMediu pentru schimb de informatii si cooperareOrganizarea semantica a unor informatii diverse ca format Organizarea semantica a unor informatii diverse ca format Acces controlat la date distribuiteAcces controlat la date distribuite

Infrastructurile Grid pot sa ofere un suport de implementare Infrastructurile Grid pot sa ofere un suport de implementare fezabil pentru bibliotecile digitalefezabil pentru bibliotecile digitale

Pentru distribuirea automata a datelor si a sarcinilor de procesPentru distribuirea automata a datelor si a sarcinilor de procesarearePentru transfer eficient de date si sincronizarePentru transfer eficient de date si sincronizarePentru managementul utilizatorilor si controlul accesuluiPentru managementul utilizatorilor si controlul accesului

Probleme: Probleme: Multe platforme GRID adopta un stil de procesare de tip Multe platforme GRID adopta un stil de procesare de tip ““prelucrare pe prelucrare pe loturi (batch)loturi (batch)”” in care lipseste interactivitateain care lipseste interactivitateaProgramatorul aplicatiei de biblioteca este implicat in mica masProgramatorul aplicatiei de biblioteca este implicat in mica masura in ura in procesul de gridprocesul de grid--ificare (executie pe Grid). ificare (executie pe Grid).

Page 28: Biblioteci digitale pe Biblioteci digitale pe structuri ...web.info.uvt.ro/~petcu/grid/DLonGrid.pdf · Biblioteca clasicaBiblioteca clasica ... dezvoltarea unei infrastructuri Grid,

MultumescMultumesc pentrupentru atentieatentie!!

IntrebariIntrebari??

28