28
Úvod do vyhľadávania informácií Úvod do vyhľadávania informácií základné problémy a pojmy základné problémy a pojmy Vyhľadávanie informácií Vyhľadávanie informácií Michal Laclavík

Úvod do vyhľadávania informácií základné problémy a pojmy

  • Upload
    luyu

  • View
    46

  • Download
    0

Embed Size (px)

DESCRIPTION

Úvod do vyhľadávania informácií základné problémy a pojmy. Vyhľadávanie informácií Michal Laclav ík. Podmienky. Získanie zápočtu = získanie minimálne 30 bodov počas semetra z 50 bodov: - PowerPoint PPT Presentation

Citation preview

Page 1: Úvod do vyhľadávania informácií základné problémy a pojmy

Úvod do vyhľadávania informáciíÚvod do vyhľadávania informáciízákladné problémy a pojmyzákladné problémy a pojmy

Vyhľadávanie informáciíVyhľadávanie informácií

Michal Laclavík

Page 2: Úvod do vyhľadávania informácií základné problémy a pojmy

Vyhľadávanie informácií Bratislava, 22.september 2014 2

PodmienkyPodmienky

1. Získanie zápočtu = získanie minimálne 30 bodov počas semetra z 50 bodov:– odovzdanie a odprezentovanie praktických projektových zadaní

(30 bodov) – 20 bodov splnenie zadania zvyšok za super splnenie.

– priebežná práca = aktívne konzultovanie projektov aspoň 4 krát za semester v rámci cvičení (20 bodov), 5 bodov za každú konzuláciu, kde je potrebné byť pripravený.

2. Vykonanie záverečnej skúšky(50 bodov)

3. Získanie aspoň 56% celkového hodnotenia (56 bodov).

Page 3: Úvod do vyhľadávania informácií základné problémy a pojmy

Vyhľadávanie informácií Bratislava, 22.september 2014 3

PodmienkyPodmienky – konzult – konzultácie (1)ácie (1)

• priebežná práca = aktívne konzultovanie projektov aspoň 4-krát za semester v rámci cvičení (20 bodov)

• 1. konzultácia – výber a potvrdenie projektu + dáta• Na wiki info o zadaní projektu (opis problém) + linka na dáta

• 2. konzultácia – jednoduchý testovací kód na vzorke dát• Funkčný kód v github-e, na wiki info s linkou na github

• 3. konzultácia – takmer naprogramované riešenie• V githube funkčný kód, ktorý študent testoval aj na celých dátach (napr. Wikipédia). Dohodneme sa čo treba na

dokončenie.

• 4. konzultácia – hotový softvér, ak dobré je možné aj opdovzdať

• !odovzdanie projektu do konca semestra!– Po odovzdaní je možné dostať body za dopracovanie zadania ale iba iba nasledovným spôsobom, príklad:

• Treba teda mať na 4. konzultácii hotový soft a predviesť ho. Potom stačí niečo dorobiť a môžete mať viac bodov ale iba do konca semestra pred Vianocami.

• Konzultácie dopredu nahlásiť na wiki – trvanie 10 minút

• 1 cvičenie = 12 konzultácií x 2 x 10 = 240

• cca 80 študentov x 4 konzultácie = 320

• => treba sa zavčasu nahlásiť

Page 4: Úvod do vyhľadávania informácií základné problémy a pojmy

Vyhľadávanie informácií Bratislava, 22.september 2014 4

PodmienkyPodmienky – konzult – konzultácie (2)ácie (2)

• 1. konzultácia – výber a potvrdenie projektu– Do 29.9.2014

• 2. konzultácia – jednoduchý testovací kód na vzorke dát– Do 20.10.2014

• 3. konzultácia – takmer naprogramované riešenie, ukážka softvéru nie úplného – Do 10.11.2013

• 4. konzultácia - hotový softvér, ak dobré je možné aj opdovzdať– Do 24.11.2014 (medzi 3. a 4. nie je veľký rozdiel – 3. možete aj skôr dátum je posledná

možnosť)

• dovzdanie projektu– Na poslednej prednáške a cvičeniach 2.12.2014?

Page 5: Úvod do vyhľadávania informácií základné problémy a pojmy

Vyhľadávanie informácií Bratislava, 22.september 2014 5

ProjektyProjekty

• Odovzdať – Software na poslednej prednáške a cviku

• Emailom• Zavesiť na web na vyskúšanie s popisom ako spustiť, keď je v github niekedy stačí parametre spustenia (po

dohode)• Odovzdávanie na poslednej prednáške a cvičeniach

– Text na wiki – hlavne linky a max 1 strana.• Čo: Idea• Ako: postup, literatura• Overenie: porovnanie výsledkov recall, precission • Záver

• Všetko s projektami a konzultáciami (prvých možných 50 bodov) sa rieši cez wiki. Čo nie je na wiki neexistuje.

• Nerozpisujte sa príliš. • V minulosti bol väčší dôraz na text na Wiki, teraz hlavne kód:

– Integrovaný na github (aj s inými projektami)

– Javadoc, zrozumiteľné komenty – v angličtine aj premenné aj komenty

– Unit testy na vzorke dát

Page 6: Úvod do vyhľadávania informácií základné problémy a pojmy

Vyhľadávanie informácií Bratislava, 22.september 2014 6

Podmienky pre úspešné odovzdanie projektuPodmienky pre úspešné odovzdanie projektu

• Krátke info na wiki (max 1 strana)– krátky popis projektu-problému a motivácia načo je to dobré– vyhodnotenie slovné subjektívne na nejakých konkrétnych príkladoch.

Vo vačšine projektov aj vyhodnotenie pomocou presnosti a úplnosti(precision a recall)

– spustenie, inštalácia softvéru, použitie softvéru– Všetko na wiki dva dni pred odovzdaním projektu!

• Softvér priložený ako zip príloha na wiki stránke, niekedy po dohode stací v github. 2-5 min predvedenie softvéru. Pripravte si to tak aby sme s tým nezabili 30 minút. Softvér musí byť pripravený tak aby ho nebol problém spustiť alebo nainštalovať.

• wiki stránka sa myslí stránka vášho projektu

Page 7: Úvod do vyhľadávania informácií základné problémy a pojmy

Vyhľadávanie informácií Bratislava, 22.september 2014 7

TémyTémy

• Textové operácie• Sťahovanie dokumentov, spracovanie odkazov, tovrba bázy

dokumentov• Indexovanie (Modely)• Softvérové knižnice a systémy• Extrakcia informácií• Vyhľadávanie a usporiadanie• Regulárne výrazy a ich použitie pri spracovaní textu• Problém spracovania veľkého množstva dát (MapReduce, Hadoop)• Hodnotenie úspešnosti• Google• Úvod - Spracovanie informácií pomocou sémantiky• Dopytovacie jazyky SPARQL• Multimedia information retrieval (možno)• Sumarizácia učiva a priblíženie obsahu skúšky

Page 8: Úvod do vyhľadávania informácií základné problémy a pojmy

Vyhľadávanie informácií Bratislava, 22.september 2014 8

LiteratúraLiteratúra

• Michal Laclavík, Martin Šeleng: Vyhľadávanie informácií, 2012• Steven Bird, Ewan Klein, and Edward Loper: Natural Language Processing with Python, 2009• Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze: Introduction to Information Retrieval, Cambridge

University Press. 2008• Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Addison Wesley, ACM, 1999• Singhal, Amit (2001). Modern Information Retrieval: A Brief Overview. Bulletin of the IEEE Computer Society Technical

Committee on Data Engineering 24 (4): 35-43• S Brin, L Page: The anatomy of a large-scale hypertextual Web search engine; Computer Networks and ISDN Systems,

1998• Michael McCandless, Erik Hatcher, and Otis Gospodnetić: Lucene in Action, Second Edition; Manning Publication; ISBN:

1933988177, 2010• Apache Lucene - Java based indexing and search library• Nutch - web search software• Hadoop - Proceesing vast amount of data

– Jeffrey Dean, Sanjay Ghemawat: MapReduce: Simplified Data Processing on Large Clusters, Google, Inc. OSDI'04, San Francisco, CA, December, 2004

– HadoopMapReduce– Hadoop Distributed File System

• Jena RDF tutorial• Jena SPARQL tutorial• Text REtrieval Conference (TREC)• Graphs in IR

Page 9: Úvod do vyhľadávania informácií základné problémy a pojmy

Vyhľadávanie informácií Bratislava, 22.september 2014 9

Literatúra - Vyhľadávanie informáciíLiteratúra - Vyhľadávanie informácií

• Vysokoškolská učebnica Vyhľadávanie informácií (Information Reterieval)

• Názov:Vyhľadávanie informácií• Autori:Michal Laclavík, Martin Šeleng• Vydala:Slovenská technická

univerzita v Bratislave, vo Vydavateľstve STU, Bratislava, Vazovova 5.

• ISBN:978-80-227-3829-3• Rok vydania:2012

• http://laclavik.sk/IR/

Page 10: Úvod do vyhľadávania informácií základné problémy a pojmy

Všetky informácie o predmeteVšetky informácie o predmete

http://vi.ikt.ui.sav.sk/

Page 11: Úvod do vyhľadávania informácií základné problémy a pojmy

AplikácieAplikácie

• Vyhľadávanie – ako na Google• Sémantické vyhľadávanie (Entity search)

– Google knowledge graph

– Wikipedia

– Freebase

– Facebook search

• Linked Data • Text Analysis, Text Mining

• Žiadaná profesia: Data Scientist

Vyhľadávanie informácií Bratislava, 22.september 2014 11

Page 12: Úvod do vyhľadávania informácií základné problémy a pojmy

Vyhľadávanie informácií Bratislava, 22.september 2014 12

HistóriaHistória

• Knižnice– Knihy– Tvorba indexov– Hierarchické zoznamy– Prvé IR systémy fungovali v knižniciach

• Cranfield experiment• Nástup počítačov, TREC

• Internet– Katalogizácia, hierarchia (DMoz.org)– Indexovanie web stránok– Google, PageRank– Špecializácia na domény (sémantika)

• Web 2.0, Sociálne siete

Page 13: Úvod do vyhľadávania informácií základné problémy a pojmy

Vyhľadávanie informácií Bratislava, 22.september 2014 13

História (2)História (2)

• 1992, Text REtrieval Conference (TREC)

• Rôzne tracky na rôzne problémy nielen z webu– Spam

– Blog

– Video

– ...

Page 14: Úvod do vyhľadávania informácií základné problémy a pojmy

Vyhľadávanie informácií Bratislava, 22.september 2014 14

Internet – nové Internet – nové momožnžnosti a osti a výzvyvýzvy

• Informácie sú dostupné za oveľa nižšiu cenu• informačné zdroje sú distribuované a dostupné veľmi rýchlo a za pár

sekúnd• sloboda zverejniť akúkoľvek informáciu kýmkoľvek je dostupná prvý krát

v histórii• Dôveryhodnosť informácií

Page 15: Úvod do vyhľadávania informácií základné problémy a pojmy

Vyhľadávanie informácií Bratislava, 22.september 2014 15

Information Retrieval (1)Information Retrieval (1) Ciele Ciele

• Reprezentácia• Uchovávanie• Organizácia• dostupnosť informácií• Dôveryhodnosť

Page 16: Úvod do vyhľadávania informácií základné problémy a pojmy

Vyhľadávanie informácií Bratislava, 22.september 2014 16

Information Retrieval (2)Information Retrieval (2)

• Dáta: 20

• Informácia: 20 oC

• Znalosť: izbová teplota

• Informácia – Keď dáta majú sémantiku

(význam)

• IR systém nemusí rozumieť sémantike ale je dobré keď sa o to snaží

• Väčšinou štatistický prístup

Characters

Data

Information

Knowledge

Actions

Syntax

Semantics

Pragmatics

Reasoning

(Bergman, 2002, Experience Management)

Page 17: Úvod do vyhľadávania informácií základné problémy a pojmy

Vyhľadávanie informácií Bratislava, 22.september 2014 17

Information Retrieval (3)Information Retrieval (3)

• Informácia– Text, dokument

– Obrázky

– Video

• V rámci predmetu VI– Text (dokumenty)

– Linky ako ukazovateľ na iné objekty

– Graf závislosti objektov (napr. viac dimenzionálne sociálne siete)

Page 18: Úvod do vyhľadávania informácií základné problémy a pojmy

Vyhľadávanie informácií Bratislava, 22.september 2014 18

Information RetrievalInformation Retrieval

• Klasický prístup– Prehľadávanie každého dokumentu a hľadanie reťazcov– Časovo náročné – Nie nezmyselné – Grep, regulárne výrazy, information extraction

• Veľké množstvo dokumentov– Potreba indexácie– kľúčové slová (prípadne aj všetky slová dokumentu)– Termy

• Dopyt a výsledok

Page 19: Úvod do vyhľadávania informácií základné problémy a pojmy

Vyhľadávanie informácií Bratislava, 22.september 2014 19

ArchitektúraArchitektúra

získavanie informácií• stiahnutie dokumentov• textové operácie• indexovanie• spracovanie odkazov a objektov v

texteVyhľadávanie• formulácia dopytu a operácie na

dopyte• spracovanie dopytu• vrátenie výsledku na používateľské

rozhranie• spätná väzba od používateľa

Spracovanie odkazov

Indexovanie

Usporiadanie

Vyhľadávač

Bázadokumentov

Odkazy

Index dokumentov

Sťahovač

PredspracovanieAnalýza textu

Textové operácie

Otázka

Užívateľ

Zoznam dokumentov

Internet

Page 20: Úvod do vyhľadávania informácií základné problémy a pojmy

Súvisiace témySúvisiace témy

• Spracovanie prirodzeného jazyka,• grafy a siete,• sémantický web, • kontext užívateľa a informácie,• vyhľadávanie v multimédiách,• strojový preklad,• škálovateľné IR,• dolovanie v dátach,• business intelligence.

Vyhľadávanie informácií Bratislava, 22.september 2014 20

Page 21: Úvod do vyhľadávania informácií základné problémy a pojmy

Vyhľadávanie informácií Bratislava, 22.september 2014 21

PojmyPojmy

• Dokumenty– vlastnosti

• Textové operácie– Tokenizácia– Lematizácia, stemming

• Termy• Odkazy• Indexy

• Hodnotenie– Experimentálne overenie– Recall – pokrytie– Precision – presnosť

• Zoraďovanie– URLs, termy, normalizácia

Page 22: Úvod do vyhľadávania informácií základné problémy a pojmy

Vyhľadávanie informácií Bratislava, 22.september 2014 22

Pojmy (2)Pojmy (2)algoritmické, implementačnéalgoritmické, implementačné

• Vector space model• Invertovaný index• PageRank• MapReduce

• Google• Lucene• Nutch• Hadoop

Page 23: Úvod do vyhľadávania informácií základné problémy a pojmy

Vyhľadávanie informácií Bratislava, 22.september 2014 23

Témy (1): Indexovanie, modely a miery podobnostiTémy (1): Indexovanie, modely a miery podobnosti

• Indexy: Jadro systémov pre vyhľadávanie informácií, ktorým je tvorba indexov

• invertovaný index

• Váhovanie, normalizácia

• Modely– Booleovský

• AND, OR, NOT, term sa vyskytuje alebo nie

• Riedka matica

– Vektorový• Vector space model

• X dimenzionálny priestor, každý term jedna dimenzia

• Kosínusová miera, medzi 0-1, 1 pre rovnaké dokumenty

• Podobnosť medzi query a dokumentom

– Pravdepodobnostný

• Miery– kosínusová miera

– euklidovská vzdialenosť

Page 24: Úvod do vyhľadávania informácií základné problémy a pojmy

Témy (2)Témy (2)

• Sťahovače• dozviete ako sa získavajú dokumenty z internetu, aké stratégie

sťahovania sa používajú, ako sa spracúvajú linky a na čo ich môžeme použiť pre vylepšenie vyhľadávania.

• Konverzia dokumentov• Tika a iné ...

• Analýza textu• Spracovanie textu na termy, tokenizácia, lematizácia, stop slová ...

Vyhľadávanie informácií Bratislava, 22.september 2014 24

Page 25: Úvod do vyhľadávania informácií základné problémy a pojmy

Témy (3)Témy (3)

• Usporiadanie• využitie prepojení dokumentov (linky) na výpočet dôveryhodnosti

dokumentu ako aj na následné utriedenie výsledkov vyhľadávania.

• Hodnotenie• Pre systémy vyhľadávania informácií je dôležité vyhodnotenie ich

úspešnosti. V kapitole sa dozviete aké miery hodnotenia poznáme, ako sa dajú použiť a čo je dôležité pri vyhodnotení systému.

• Softvérové knižnice a systémy• systémy a knižnice, ktoré je možné využiť. •

 

Vyhľadávanie informácií Bratislava, 22.september 2014 25

Page 26: Úvod do vyhľadávania informácií základné problémy a pojmy

Vyhľadávanie informácií Bratislava, 22.september 2014 26

Témy (4):Témy (4):

• Extrakcia informácií– základné úlohy extrakcia a aké algoritmy a prostriedky sa dajú využiť

pri extrakcii.

• Regulárne výrazy– Spracovanie textu

– Extrakcia metadát

– Find

– Replace

– Split

Page 27: Úvod do vyhľadávania informácií základné problémy a pojmy

Témy (5): Súčasný internetTémy (5): Súčasný internet

• Keďže sa venuje hlavne vyhľadávaniu informácií na internete, je potrebné sa venovať internetovým leaderom ako Google a Facebook ale aj iným typom textových a sociálnych informácií ako Delicious, Twiter alebo Linkedin.

• Zároveň aj MapReduce architektúre, ktorá je doteraz najvhodnejším prístupom pre spracovanie rozsiahlych dát.

Vyhľadávanie informácií Bratislava, 22.september 2014 27

Page 28: Úvod do vyhľadávania informácií základné problémy a pojmy

Vyhľadávanie informácií Bratislava, 22.september 2014 28

Témy (6): Sémantický webTémy (6): Sémantický web

• The Semantic Web is a mesh of information linked up in such a way as to be easily processable by machines, on a global scale. You can think of it as being an efficient way of representing data on the World Wide Web, or as a globally linked database.(Source: http://infomesh.net/2001/swintro/ - The Semantic Web: An Introduction)

• RDF

• OWL, logika aplikácie

• SPQRQL