Upload
luyu
View
46
Download
0
Embed Size (px)
DESCRIPTION
Úvod do vyhľadávania informácií základné problémy a pojmy. Vyhľadávanie informácií Michal Laclav ík. Podmienky. Získanie zápočtu = získanie minimálne 30 bodov počas semetra z 50 bodov: - PowerPoint PPT Presentation
Citation preview
Úvod do vyhľadávania informáciíÚvod do vyhľadávania informáciízákladné problémy a pojmyzákladné problémy a pojmy
Vyhľadávanie informáciíVyhľadávanie informácií
Michal Laclavík
Vyhľadávanie informácií Bratislava, 22.september 2014 2
PodmienkyPodmienky
1. Získanie zápočtu = získanie minimálne 30 bodov počas semetra z 50 bodov:– odovzdanie a odprezentovanie praktických projektových zadaní
(30 bodov) – 20 bodov splnenie zadania zvyšok za super splnenie.
– priebežná práca = aktívne konzultovanie projektov aspoň 4 krát za semester v rámci cvičení (20 bodov), 5 bodov za každú konzuláciu, kde je potrebné byť pripravený.
2. Vykonanie záverečnej skúšky(50 bodov)
3. Získanie aspoň 56% celkového hodnotenia (56 bodov).
Vyhľadávanie informácií Bratislava, 22.september 2014 3
PodmienkyPodmienky – konzult – konzultácie (1)ácie (1)
• priebežná práca = aktívne konzultovanie projektov aspoň 4-krát za semester v rámci cvičení (20 bodov)
• 1. konzultácia – výber a potvrdenie projektu + dáta• Na wiki info o zadaní projektu (opis problém) + linka na dáta
• 2. konzultácia – jednoduchý testovací kód na vzorke dát• Funkčný kód v github-e, na wiki info s linkou na github
• 3. konzultácia – takmer naprogramované riešenie• V githube funkčný kód, ktorý študent testoval aj na celých dátach (napr. Wikipédia). Dohodneme sa čo treba na
dokončenie.
• 4. konzultácia – hotový softvér, ak dobré je možné aj opdovzdať
• !odovzdanie projektu do konca semestra!– Po odovzdaní je možné dostať body za dopracovanie zadania ale iba iba nasledovným spôsobom, príklad:
• Treba teda mať na 4. konzultácii hotový soft a predviesť ho. Potom stačí niečo dorobiť a môžete mať viac bodov ale iba do konca semestra pred Vianocami.
• Konzultácie dopredu nahlásiť na wiki – trvanie 10 minút
• 1 cvičenie = 12 konzultácií x 2 x 10 = 240
• cca 80 študentov x 4 konzultácie = 320
• => treba sa zavčasu nahlásiť
Vyhľadávanie informácií Bratislava, 22.september 2014 4
PodmienkyPodmienky – konzult – konzultácie (2)ácie (2)
• 1. konzultácia – výber a potvrdenie projektu– Do 29.9.2014
• 2. konzultácia – jednoduchý testovací kód na vzorke dát– Do 20.10.2014
• 3. konzultácia – takmer naprogramované riešenie, ukážka softvéru nie úplného – Do 10.11.2013
• 4. konzultácia - hotový softvér, ak dobré je možné aj opdovzdať– Do 24.11.2014 (medzi 3. a 4. nie je veľký rozdiel – 3. možete aj skôr dátum je posledná
možnosť)
• dovzdanie projektu– Na poslednej prednáške a cvičeniach 2.12.2014?
Vyhľadávanie informácií Bratislava, 22.september 2014 5
ProjektyProjekty
• Odovzdať – Software na poslednej prednáške a cviku
• Emailom• Zavesiť na web na vyskúšanie s popisom ako spustiť, keď je v github niekedy stačí parametre spustenia (po
dohode)• Odovzdávanie na poslednej prednáške a cvičeniach
– Text na wiki – hlavne linky a max 1 strana.• Čo: Idea• Ako: postup, literatura• Overenie: porovnanie výsledkov recall, precission • Záver
• Všetko s projektami a konzultáciami (prvých možných 50 bodov) sa rieši cez wiki. Čo nie je na wiki neexistuje.
• Nerozpisujte sa príliš. • V minulosti bol väčší dôraz na text na Wiki, teraz hlavne kód:
– Integrovaný na github (aj s inými projektami)
– Javadoc, zrozumiteľné komenty – v angličtine aj premenné aj komenty
– Unit testy na vzorke dát
Vyhľadávanie informácií Bratislava, 22.september 2014 6
Podmienky pre úspešné odovzdanie projektuPodmienky pre úspešné odovzdanie projektu
• Krátke info na wiki (max 1 strana)– krátky popis projektu-problému a motivácia načo je to dobré– vyhodnotenie slovné subjektívne na nejakých konkrétnych príkladoch.
Vo vačšine projektov aj vyhodnotenie pomocou presnosti a úplnosti(precision a recall)
– spustenie, inštalácia softvéru, použitie softvéru– Všetko na wiki dva dni pred odovzdaním projektu!
• Softvér priložený ako zip príloha na wiki stránke, niekedy po dohode stací v github. 2-5 min predvedenie softvéru. Pripravte si to tak aby sme s tým nezabili 30 minút. Softvér musí byť pripravený tak aby ho nebol problém spustiť alebo nainštalovať.
• wiki stránka sa myslí stránka vášho projektu
Vyhľadávanie informácií Bratislava, 22.september 2014 7
TémyTémy
• Textové operácie• Sťahovanie dokumentov, spracovanie odkazov, tovrba bázy
dokumentov• Indexovanie (Modely)• Softvérové knižnice a systémy• Extrakcia informácií• Vyhľadávanie a usporiadanie• Regulárne výrazy a ich použitie pri spracovaní textu• Problém spracovania veľkého množstva dát (MapReduce, Hadoop)• Hodnotenie úspešnosti• Google• Úvod - Spracovanie informácií pomocou sémantiky• Dopytovacie jazyky SPARQL• Multimedia information retrieval (možno)• Sumarizácia učiva a priblíženie obsahu skúšky
Vyhľadávanie informácií Bratislava, 22.september 2014 8
LiteratúraLiteratúra
• Michal Laclavík, Martin Šeleng: Vyhľadávanie informácií, 2012• Steven Bird, Ewan Klein, and Edward Loper: Natural Language Processing with Python, 2009• Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze: Introduction to Information Retrieval, Cambridge
University Press. 2008• Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Addison Wesley, ACM, 1999• Singhal, Amit (2001). Modern Information Retrieval: A Brief Overview. Bulletin of the IEEE Computer Society Technical
Committee on Data Engineering 24 (4): 35-43• S Brin, L Page: The anatomy of a large-scale hypertextual Web search engine; Computer Networks and ISDN Systems,
1998• Michael McCandless, Erik Hatcher, and Otis Gospodnetić: Lucene in Action, Second Edition; Manning Publication; ISBN:
1933988177, 2010• Apache Lucene - Java based indexing and search library• Nutch - web search software• Hadoop - Proceesing vast amount of data
– Jeffrey Dean, Sanjay Ghemawat: MapReduce: Simplified Data Processing on Large Clusters, Google, Inc. OSDI'04, San Francisco, CA, December, 2004
– HadoopMapReduce– Hadoop Distributed File System
• Jena RDF tutorial• Jena SPARQL tutorial• Text REtrieval Conference (TREC)• Graphs in IR
Vyhľadávanie informácií Bratislava, 22.september 2014 9
Literatúra - Vyhľadávanie informáciíLiteratúra - Vyhľadávanie informácií
• Vysokoškolská učebnica Vyhľadávanie informácií (Information Reterieval)
• Názov:Vyhľadávanie informácií• Autori:Michal Laclavík, Martin Šeleng• Vydala:Slovenská technická
univerzita v Bratislave, vo Vydavateľstve STU, Bratislava, Vazovova 5.
• ISBN:978-80-227-3829-3• Rok vydania:2012
• http://laclavik.sk/IR/
Všetky informácie o predmeteVšetky informácie o predmete
http://vi.ikt.ui.sav.sk/
AplikácieAplikácie
• Vyhľadávanie – ako na Google• Sémantické vyhľadávanie (Entity search)
– Google knowledge graph
– Wikipedia
– Freebase
– Facebook search
• Linked Data • Text Analysis, Text Mining
• Žiadaná profesia: Data Scientist
Vyhľadávanie informácií Bratislava, 22.september 2014 11
Vyhľadávanie informácií Bratislava, 22.september 2014 12
HistóriaHistória
• Knižnice– Knihy– Tvorba indexov– Hierarchické zoznamy– Prvé IR systémy fungovali v knižniciach
• Cranfield experiment• Nástup počítačov, TREC
• Internet– Katalogizácia, hierarchia (DMoz.org)– Indexovanie web stránok– Google, PageRank– Špecializácia na domény (sémantika)
• Web 2.0, Sociálne siete
Vyhľadávanie informácií Bratislava, 22.september 2014 13
História (2)História (2)
• 1992, Text REtrieval Conference (TREC)
• Rôzne tracky na rôzne problémy nielen z webu– Spam
– Blog
– Video
– ...
Vyhľadávanie informácií Bratislava, 22.september 2014 14
Internet – nové Internet – nové momožnžnosti a osti a výzvyvýzvy
• Informácie sú dostupné za oveľa nižšiu cenu• informačné zdroje sú distribuované a dostupné veľmi rýchlo a za pár
sekúnd• sloboda zverejniť akúkoľvek informáciu kýmkoľvek je dostupná prvý krát
v histórii• Dôveryhodnosť informácií
Vyhľadávanie informácií Bratislava, 22.september 2014 15
Information Retrieval (1)Information Retrieval (1) Ciele Ciele
• Reprezentácia• Uchovávanie• Organizácia• dostupnosť informácií• Dôveryhodnosť
Vyhľadávanie informácií Bratislava, 22.september 2014 16
Information Retrieval (2)Information Retrieval (2)
• Dáta: 20
• Informácia: 20 oC
• Znalosť: izbová teplota
• Informácia – Keď dáta majú sémantiku
(význam)
• IR systém nemusí rozumieť sémantike ale je dobré keď sa o to snaží
• Väčšinou štatistický prístup
Characters
Data
Information
Knowledge
Actions
Syntax
Semantics
Pragmatics
Reasoning
(Bergman, 2002, Experience Management)
Vyhľadávanie informácií Bratislava, 22.september 2014 17
Information Retrieval (3)Information Retrieval (3)
• Informácia– Text, dokument
– Obrázky
– Video
• V rámci predmetu VI– Text (dokumenty)
– Linky ako ukazovateľ na iné objekty
– Graf závislosti objektov (napr. viac dimenzionálne sociálne siete)
Vyhľadávanie informácií Bratislava, 22.september 2014 18
Information RetrievalInformation Retrieval
• Klasický prístup– Prehľadávanie každého dokumentu a hľadanie reťazcov– Časovo náročné – Nie nezmyselné – Grep, regulárne výrazy, information extraction
• Veľké množstvo dokumentov– Potreba indexácie– kľúčové slová (prípadne aj všetky slová dokumentu)– Termy
• Dopyt a výsledok
Vyhľadávanie informácií Bratislava, 22.september 2014 19
ArchitektúraArchitektúra
získavanie informácií• stiahnutie dokumentov• textové operácie• indexovanie• spracovanie odkazov a objektov v
texteVyhľadávanie• formulácia dopytu a operácie na
dopyte• spracovanie dopytu• vrátenie výsledku na používateľské
rozhranie• spätná väzba od používateľa
Spracovanie odkazov
Indexovanie
Usporiadanie
Vyhľadávač
Bázadokumentov
Odkazy
Index dokumentov
Sťahovač
PredspracovanieAnalýza textu
Textové operácie
Otázka
Užívateľ
Zoznam dokumentov
Internet
Súvisiace témySúvisiace témy
• Spracovanie prirodzeného jazyka,• grafy a siete,• sémantický web, • kontext užívateľa a informácie,• vyhľadávanie v multimédiách,• strojový preklad,• škálovateľné IR,• dolovanie v dátach,• business intelligence.
Vyhľadávanie informácií Bratislava, 22.september 2014 20
Vyhľadávanie informácií Bratislava, 22.september 2014 21
PojmyPojmy
• Dokumenty– vlastnosti
• Textové operácie– Tokenizácia– Lematizácia, stemming
• Termy• Odkazy• Indexy
• Hodnotenie– Experimentálne overenie– Recall – pokrytie– Precision – presnosť
• Zoraďovanie– URLs, termy, normalizácia
Vyhľadávanie informácií Bratislava, 22.september 2014 22
Pojmy (2)Pojmy (2)algoritmické, implementačnéalgoritmické, implementačné
• Vector space model• Invertovaný index• PageRank• MapReduce
• Google• Lucene• Nutch• Hadoop
Vyhľadávanie informácií Bratislava, 22.september 2014 23
Témy (1): Indexovanie, modely a miery podobnostiTémy (1): Indexovanie, modely a miery podobnosti
• Indexy: Jadro systémov pre vyhľadávanie informácií, ktorým je tvorba indexov
• invertovaný index
• Váhovanie, normalizácia
• Modely– Booleovský
• AND, OR, NOT, term sa vyskytuje alebo nie
• Riedka matica
– Vektorový• Vector space model
• X dimenzionálny priestor, každý term jedna dimenzia
• Kosínusová miera, medzi 0-1, 1 pre rovnaké dokumenty
• Podobnosť medzi query a dokumentom
– Pravdepodobnostný
• Miery– kosínusová miera
– euklidovská vzdialenosť
Témy (2)Témy (2)
• Sťahovače• dozviete ako sa získavajú dokumenty z internetu, aké stratégie
sťahovania sa používajú, ako sa spracúvajú linky a na čo ich môžeme použiť pre vylepšenie vyhľadávania.
• Konverzia dokumentov• Tika a iné ...
• Analýza textu• Spracovanie textu na termy, tokenizácia, lematizácia, stop slová ...
Vyhľadávanie informácií Bratislava, 22.september 2014 24
Témy (3)Témy (3)
• Usporiadanie• využitie prepojení dokumentov (linky) na výpočet dôveryhodnosti
dokumentu ako aj na následné utriedenie výsledkov vyhľadávania.
• Hodnotenie• Pre systémy vyhľadávania informácií je dôležité vyhodnotenie ich
úspešnosti. V kapitole sa dozviete aké miery hodnotenia poznáme, ako sa dajú použiť a čo je dôležité pri vyhodnotení systému.
• Softvérové knižnice a systémy• systémy a knižnice, ktoré je možné využiť. •
Vyhľadávanie informácií Bratislava, 22.september 2014 25
Vyhľadávanie informácií Bratislava, 22.september 2014 26
Témy (4):Témy (4):
• Extrakcia informácií– základné úlohy extrakcia a aké algoritmy a prostriedky sa dajú využiť
pri extrakcii.
• Regulárne výrazy– Spracovanie textu
– Extrakcia metadát
– Find
– Replace
– Split
Témy (5): Súčasný internetTémy (5): Súčasný internet
• Keďže sa venuje hlavne vyhľadávaniu informácií na internete, je potrebné sa venovať internetovým leaderom ako Google a Facebook ale aj iným typom textových a sociálnych informácií ako Delicious, Twiter alebo Linkedin.
• Zároveň aj MapReduce architektúre, ktorá je doteraz najvhodnejším prístupom pre spracovanie rozsiahlych dát.
Vyhľadávanie informácií Bratislava, 22.september 2014 27
Vyhľadávanie informácií Bratislava, 22.september 2014 28
Témy (6): Sémantický webTémy (6): Sémantický web
• The Semantic Web is a mesh of information linked up in such a way as to be easily processable by machines, on a global scale. You can think of it as being an efficient way of representing data on the World Wide Web, or as a globally linked database.(Source: http://infomesh.net/2001/swintro/ - The Semantic Web: An Introduction)
• RDF
• OWL, logika aplikácie
• SPQRQL