Modul Information Retrieval (IR 4) Was erwartet Sie · Das Verfahren wird mit der zutreffenden...

Preview:

Citation preview

Winfried Gödert ● Klaus Lepsky

Modul Modul Information Retrieval (IR 4)

Was erwartet Sie ?

Etwas Neues

Viele Anregungen zum Nachdenken und selbstständigen Tun

Wenig Unterhaltung – aber Einblick in Zusammenhänge

Arbeit

Und das im Rahmen der folgenden Veranstaltungen

Modul Information Retrieval (IR 4)

IR 4.1 - : Information Retrieval - Theorie

IR 4.2 – : Information Retrieval - Praxis

http://www.indexierung-retrieval.de/2014/09/modul-information-retrieval-ir-4.html

Inhalte

Prinzipien des Indexaufbaus (Invertierte Liste)Boolesches RetrievalVektorraummodellTermgewichtung

RankingalgorithmenWeb-Retrieval mit SuchmaschinenIndexierungs- und Retrievalstudien

Ziele und Charakter der Veranstaltung sind nicht

• das Erlernen und Reproduzieren von Fakten• das angeleitete Nachmachen von Vorgemachtem

sondern

• das Erwerben eines fachorientierten Themenüberblicks• das Verinnerlichen von gebietstypischen Zusammenhängen• die Bearbeitung gebietstypischer Aufgabenstellungen• die Fähigkeit zum aufgabenangemessenen Auswählen von Methoden

und Werkzeugen zur Lösung gebietstypischer Probleme und Erstellung von Produkten

Geschäftsgrundlage der Veranstaltungsdurchführung

• die Bearbeitung von Aufgaben in den Laborveranstaltungen erfolgt selbstbestimmt und ohne vorgegebenen Zeittakt

• die Betreuung in den Laborveranstaltungen ist an den einzelnen Personen, ihren Fragen und Ergebnissen orientiert, Fragen aus dem Teilnehmerkreis werden immer gerne beantwortet

• es werden Anregungen zur Beschäftigung mit den methodischen Hintergründen gegeben und zur Übertragung auf die Eigenschaften von Produkten gegeben

Werfen wir einen Blick in das Modulbuch

http://www.fbi.fh-koeln.de/studium/informationswissenschaft/MODULHANDBUCH_AIW_20140522.pdf

Das Modulbuch stellt einen Vertrag dar, dessen Einhaltung ein erfolgreiches Studium sicherstellen soll. Die Einhaltung muss durch beide Partner erfolgen:

Wir bieten vertragsgerecht an – Sie nehmen vertragsgerecht wahr.

Vorlesung: Information Retrieval - Theorie

Vermittelt die für die praktischen Aufgabenstellungen notwendigen oder hilfreichen Hintergründe

Laborpraktikum : Information Retrieval - Praxis

Dient der Bearbeitung der praktischen Aufgabenstellungen, die für den Erwerb der notwendigen Kenntnisse erforderlich sind

Themenabfolge:http://ixtrieve.fh-koeln.de/lehre/ir-4-information-retrieval-wiederholungsfragen.pdf

Ablauf der Veranstaltung

Material zur Vorbereitung:

http://ixtrieve.fh-koeln.de/lehre/ir-4-information-retrieval-wiederholungsfragen.pdf

Prüfungsform: Klausur

Material zu den Veranstaltungen:

Kapitel 5 und 6

http://www.indexierung-retrieval.de/2014/09/modul-information-retrieval-ir-4.html

http://ixtrieve.fh-koeln.de/lehre/AIW_IR4_WS_2014-15.pptx[Präsentation der Vorlesung]

http://ixtrieve.fh-koeln.de/lehre/ir-4-information-retrieval-wiederholungsfragen.pdf

Mit welcher Art von Fragestellungen beschäftigen wir uns ?

Versuchen wir eine Einführung anhand einiger Beispiele

Geordnetes Speichernder

Inhaltsrepräsentationen

DokumenteMedien, Objekte

Inhalts-analyseInhalts-

erschließung

Retrieval

Suchenund

Findenoder

nicht Finden

Informationssystem

KlassifikationssystemeSchlagwortsprachen

ThesauriAbstracts

Automatisches IndexierenAutomatisches Klassifizieren

SucherlebnisseEine wichtige Methode der Inhaltserschließung und des Information Retrieval besteht aus der Durchführung von Experimenten und der aufmerksamen Beobachtung ihrer Ergebnisse.Betrachten wir ein Beispiel:

Welche Erklärung gibt es für das Auftreten des Wortes sowohl im Singular als auch im Plural ???

Wissen von Google oder Magie ?

Weiteres Beispiel:

Wieso kann Google jetzt Singular und Plural nicht zusammenführen ?

Analyse der Trefferzahlen für house und houses:

Man sieht, Google kann auch für dieses Beispiel den Singular eines Wortes nicht mit seinem Plural zusammenführen.

Man darf sich also nicht auf den ersten Augenschein verlassen.

Weiteres Beispiel: Behandlung von Umlauten

Genauere Analyse durch Einsatz feinerer Werkzeuge

Wie viele andere Suchmaschinen hatte auch Google das „+“ bzw. das „-“ Zeichen zur Präzisierung von Suchanfragen verwendet:

+ Wort soll vorkommen / - Wort soll nicht vorkommen

Beispiele:

Inzwischen hat Google diesen Mechanismus abgeschafft, um Schwierigkeiten bei der Suche nach Google+ zu vermeiden (Vermutung!).

Wiederholung der Suchen am 07.10.2015 zeigen nun die Ergebnisse:

Gleiches Ergebnis

Vorher: ~ 6.900

Vorher: ~ 1.370.000 Vorher: ~ 87.200

Die alten Ergebniszahlen konnte man erklären,

die neuen nicht

Wie schafft man es, die · unter allen · zu finden ?

Bingo

Wie erfolgt überhaupt eine Suche in einer Datenbank ?

Modell der sequenziellen Suche mit Pattern Matching

Sequenzielle Suche, Pattern Matching mit einer Schablone

1101001110110001010101100111011010101000010101111..

Anwendung

Suche im Volltext (vgl. z.B. die Funktion in Word)

Vorteil

Jedes Muster kann gezielt gesucht und gefunden werdenDamit auch Suche nach Wortfragmenten und Sonderzeichen möglich

Nachteile

ZeitaufwandExaktheit der Übereinstimmung, z.B. UmlauteDer gesamte Datenbestand muss zum Zeitpunkt der Suche verfügbar sein

010101100101011001010110

NeinNeinNein

01010110

Nein

01010110

Nein

01010110

Bingo

Gesucht wird:

Suche in einem Index, z.B. alphabetisch sortiertEintrag01Eintrag02Eintrag03Eintrag04Eintrag05Eintrag06Eintrag07Eintrag08Eintrag09Eintrag10Eintrag11Eintrag12Eintrag13Eintrag14Eintrag15Eintrag16Eintrag17Eintrag18Eintrag19Eintrag20Eintrag21Eintrag21Eintrag22Eintrag23Eintrag24

Suche sequenziell ?

NeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNeinNein

So nicht !!!

Gesuchter Eintrag

Suche in einem Index, z.B. alphabetisch sortiertEintrag01Eintrag02Eintrag03Eintrag04Eintrag05Eintrag06Eintrag07Eintrag08Eintrag09Eintrag10Eintrag11Eintrag12Eintrag13Eintrag14Eintrag15Eintrag16Eintrag17Eintrag18Eintrag19Eintrag20Eintrag21Eintrag21Eintrag22Eintrag23Eintrag24

Bildung von Hälften

Test, ob gesuchter Eintrag in der ersten Häfte

oder in der zweiten Häfte

Nein

Ja

Das Verfahren wird mit der zutreffenden Hälfte fortgesetzt

Eintrag13Eintrag14Eintrag15Eintrag16Eintrag17Eintrag18Eintrag19Eintrag20Eintrag21Eintrag21Eintrag22Eintrag23Eintrag24

Nein

Ja

Eintrag19Eintrag20Eintrag21Eintrag21Eintrag22Eintrag23Eintrag24

Das Verfahren folgt einem binären Entscheidungsbaum und kommt auch bei großen Indizes sehr schnell zu einem Ergebnis

Ja

Eintrag19Eintrag20Eintrag21Eintrag21

Ja

Eintrag19Eintrag20

Nein

Ja

Autor: van de Rak, Jan Willem

Titel: Zwischen Pleonasmus und Fassette: Das Regelwerk als sinnstiftendes Element in Zeiten erschließerischer Verrohung.

Ort: Normstett

Jahr: 1998

Schlagworte: Regelwerk ; Norm ; soziokulturelle Studie

Abstract: Die Arbeit untersucht die Bedeutung von Regelwerken vor dem Hintergrund des weltweit zu beobachtenden Niedergangs der Erschließungskultur im späten 20. Jh. Lösungsmöglichkeiten sieht der Autor in einer deutlich weitergehenden Reglementierung aller Bereiche des täglichen Lebens.

Prinzip: Invertierte ListeEin Beispiel

Liste der Einzelwörtermit Kategorien-angabe:

20 ABSaller ABSals TIarbeit ABSautor ABSbedeutung ABSbeobachtenden ABSbereiche ABSdas TIdem ABSder(2) ABSdes(2) ABSdeutlich ABSdie(2) ABSeiner ABSelement TIerschließerischer TIerschließungskultur ABSfassette TIhintergrund ABSIm ABSin(2) TI, ABSjh ABSlebens ABSlösungsmöglichkeiten ABS

...

Niedergangs ABSNorm ABSPleonasmus TIRegelwerk TIRegelwerk SWRegelwerken ABSReglementierung ABSSieht ABSSinnstiftendes TISoziokulturelle SWspäten ABSStudie SWtäglichen ABSUnd TIUntersucht ABSVerrohung TIVon ABSVor ABSWeitergehenden ABSWeltweit ABSZeiten TIZu ABSZwischen TI

Invertierte Listen: Eigenschaften

Suche in einem Index mit speziellem Aufbau

Durchsuchen eines i.d.R. alphabetisch sortierten Suchregisters, das alle oder eine Teilmenge aller Zeichenketten aller Datensätze der Datenbank enthält

• sehr gute Performance (Schnelligkeit) durch Zugriff auf sortierte Menge

• gute Voraussetzungen für kategorienspezifische Suchen

• gute Voraussetzungen für Boolesche Verknüpfungen

• damit gute Voraussetzungen für kategorienübergreifende Boolesche Suchen

aber auch

• ggf. eingeschränkte Suchmöglichkeiten (z.B. wenn Dokumente nicht vollständig indexiert sind)

• bedarf Techniken für Indexaufbau und –aktualisierung

• der Index / die Indizes bedarf / bedürfen eines nicht unerheblichen Speicheraufwandes und wachsen nicht linear mit der anwachsenden Dokumentenkollektion

Suche nach einem Primärschlüssel

Datensatz-NummerFragmentierung der DatensätzeSuchalgorithmen zur Optimierung der Suchgeschwindigkeit

Aufgabe der Datenbank-Software

Suche nach einem Sekundärmerkmal der Dokumentbeschreibung

Invertierte Listen

Autor 0034, 0234StW 0017, 0045, 0067, 0224, 0456, 0734,

1504, 3390SW 0234, 1504, 1809, 4336Jahr 0055, 0152, 0234, 0334, 0335, 0457,

0547, 0623, 0734

Suche nach verknüpften Merkmalen

Einsatz von Hilfsmitteln und Anwendung von Suchlogik,z.B. UND = Gemeinsames Vorkommen der Dok-Nr.

Suche nach einem Primärschlüssel

Datensatz-NummerFragmentierung der DatensätzeSuchalgorithmen zur Optimierung der Suchgeschwindigkeit

Aufgabe der Datenbank-Software

Suche nach einem Sekundärmerkmal der Dokumentbeschreibung

Invertierte Listen

Autor 0034, 0234StW 0017, 0045, 0067, 0224, 0456, 0734,

1504, 3390SW 0234, 1504, 1809, 4336Jahr 0055, 0152, 0234, 0334, 0335, 0457,

0547, 0623, 0734+

Suche nach verknüpften Merkmalen

Einsatz von Hilfsmitteln und Anwendung von Suchlogik,z.B. UND = Gemeinsames Vorkommen der Dok-Nr.

Umsetzung in eine Datenbank: Beispiel MIDOS

Die Suchumgebung mit Abfragekategorien

Bildretrieval – Bild-Identifikation

Google Bildsuche

Wolfram Image Identify

Google Bildsuche

Die Bilder werden durch eine Übereinstimmung der eingegebenen Suchwörter mit den auf einer Webseite ermittelten Wörter ermittelt ermittelt.

Durch diese Vorgehensweise können beliebig viele Fehltreffer entstehen

Geht man der Ursache für die Trefferbildung nach, stößt man auf Webseiten, die die eingegebenen einzelnen Wörter, aber nicht unbedingt ein Bild der gemeinten Person, enthalten.Von einer präzisen Suche nach dem Inhalt von Bildern kann also nicht gesprochen werden.

Ein Beispiel

Zur präzisen Recherche nach Bildinhalten geht in der Regel kein Weg daran vorbei, zuvor eine strukturierte Datenbank und die interessierenden Inhalte durch eine intellektuelle Bearbeitung zu ermitteln und dokumentationssprachlich zu beschreiben – so wie wir das im Laborpraktikum behandelt haben.

Im Web gibt es zahlreiche Beispiele für solche Datenbanken, die als Anschauungsmaterial dienen können.

Es gibt zahlreiche Forschungsansätze zur automatischen Bilderschließung und zum Bildretrieval, die vielfach auf Methoden der Künstlichen Intelligenz (Mustererkennung) aufbauen. Unverzichtbar ist in der Regel eine Datenbank, die die Muster mit einer strukturierten Verbalisierung (einer Art Thesaurus) verbindet, um danach mit Hilfe von Wörtern suchen zu können.

Näheres hierzu ist ebenfalls im Web dokumentiert.

Nachfolgend soll ein Projekt angesprochen werden, das 2015 vorgestellt wurde und das den Stand des derzeit Erreichbaren für die Identifikation von Bildinhalten dokumentiert:

Wolfram Image Identify

Zuvor soll zum besseren Eindruck des Hintergrunds des Urhebers von Image Identify eine spezielle Suchmaschine vorgestellt werden:

Wolfram alpha http://www.wolframalpha.com/

Die besondere Stärke dieser Suchmaschine liegt auf der Recherche von Fakten, Vergleichen von Daten und Berechnungen auf der Basis mathematischer Formeln. Eine Vielzahl von vordefinierten Beispielen illustrieren diese Möglichkeiten:

07.10.2015

Bild-Identifikation - Wolfram Image Identify

https://www.imageidentify.com/

Hier gibt es viele Hinweise

auf die Funktionsweise

Beispiel 1

= Vorhängeschloss

Beispiel 2

= Pfeife

Beispiel 3

= Schloss / Burg

Beispiel 4

= Haus

Beispiel 5

= Haus

Weitere Hinweise zu den eingesetzten Methoden:http://blog.stephenwolfram.com/2015/05/wolfram-language-artificial-intelligence-the-image-identification-project/

Recommended